#

wikipedia-dump

Here are 38 public repositories matching this topic...

howl-anderson / chinese-wikipedia-corpus-creator

Corpus creator for Chinese Wikipedia

nlp wikipedia-dump wikipedia-corpus chinese-corpus

Updated Jun 30, 2021
Python

dlenski / wp2git

Downloads and imports Wikipedia page histories to a git repository

git mediawiki wikipedia-dump

Updated Dec 14, 2024
Python

AdyTech99 / volo

An F/OSS solution combining AI with Wikipedia knowledge via a RAG pipeline

natural-language-processing ai wikipedia wikipedia-dump language-processing rag retrieval-augmented-generation

Updated Jan 12, 2025
Python

shyamupa / wikidump_preprocessing

Extracting useful metadata from Wikipedia dumps in any language.

multilingual redirects wikipedia python3 disambiguation wikipedia-dump metadata-extraction wikiextractor

Updated Sep 20, 2019
Python

macbre / mediawiki-dump

Python package for working with MediaWiki XML content dumps

python wikipedia wikia wikipedia-dump fandom python3-library wikipedia-corpus xml-dump mediawiki-dump

Updated Apr 2, 2025
Python

Dr-Lego / gag-network

Network Visualizer for the 'Geschichten aus der Geschichte' Podcast

javascript python data-science database podcast wikipedia data-visualization sqlite3 network-analysis wikipedia-dump

Updated Feb 1, 2025
Python

OlehOnyshchak / pyWikiMM

Collects a multimodal dataset of Wikipedia articles and their images

Updated Mar 25, 2023
Python

jon-edward / wiki_dump

A library that assists in traversing and downloading from Wikimedia Data Dumps and their mirrors.

wikipedia wikidata wikimedia wikipedia-dump

Updated Dec 17, 2024
Python

akb89 / witokit

A Python toolkit to generate a tokenized dump of Wikipedia for NLP

multilingual nlp wikipedia dump wikipedia-dump tokenize

Updated May 3, 2024
Python

quqixun / ReadWiki-ZH

Convert WIKI dumped XML (Chinese) to human readable documents in markdown and txt.

wikipedia wikipedia-dump wikipedia-corpus

Updated Mar 25, 2020
Python

CogComp / wikidump-preprocessing

Wikipedia Dump Processing

wikipedia wikipedia-dump

Updated Mar 26, 2020
Python

DhavalTaunk08 / Wiki-Search-Engine

Contains code to build a search engine by creating an index and perform search over Wikipedia data.

search-engine information-retrieval information-extraction xml-parser wikipedia-dump

Updated Oct 11, 2021
Python

qcl / master-research

Research for master degree, operation projizz-I/O

nlp knowledge-graph named-entity-recognition wikipedia-dump patty kba yago

Updated Dec 27, 2017
Python

deadbits / wikipedia-chat

Chat with local Wikipedia embeddings 📚

wikipedia embeddings openai wikipedia-dump cohere llm chainlit retrieval-augmented-generation

Updated Nov 14, 2023
Python

SasCezar / WikiBank

WikiBank is a new partially annotated resource for multilingual frame-semantic parsing task.

multilingual python mongodb dataset wikipedia-dump wikidata-dump semantic-role-labeling semantic-role

Updated Dec 2, 2019
Python

iwasingh / Wikicompiler

Wikicompiler is a fully extensible python library that compile and evaluate text from Wikipedia dump. You can extract text, do text analysis or even evaluate the AST(Abstract Syntax Tree) yourself

python compiler mediawiki wikipedia wikitext wikipedia-dump wikitext-parser

Updated Apr 20, 2021
Python

rsakib15 / WikiSearch

A search system based on the Wikipedia dump dataset.

python search search-engine reactjs wikipedia fuzzy-search indexing searching-algorithms search-algorithms wikipedia-dump

Updated Jun 20, 2021
Python

ESUAdmin / simafive

红岸基金会、恶俗百科（还有一个意义不明的私仇维基）备份

wikipedia-dump esubike zhinared esuwiki

Updated Oct 4, 2020
Python

CristianCantoro / wikidump

Framework for the extraction of features from Wikipedia XML dumps.

wikipedia wikipedia-dump wikipedia-data

Updated Mar 15, 2025
Python

rocket-pig / vector-visualizer

Visualize/explore word2vec datasets with pygame

python pygame gensim wikipedia-dump visualize visualize-data gensim-word2vec

Updated Mar 21, 2022
Python

Improve this page

Add a description, image, and links to the wikipedia-dump topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the wikipedia-dump topic, visit your repo's landing page and select "manage topics."