#

corpus

Here are 849 public repositories matching this topic...

johentsch / ms3

A parser for annotated MuseScore 3 files.

Updated May 23, 2024
Python

luciamariaalvarezcrespo / GalMisoCorpus2023

📑 Galician corpus for misogyny detection

nlp machine-learning corpus corpus-data nlp-machine-learning misogyny galician misogyny-detection

Updated May 23, 2024
Python

Wenhao-Yang / TwoWayRadio

Radio Audio Corpus Collection Toolkit with Hackrf One.

radio pyqt5 corpus gnuradio hackrf-one

Updated May 23, 2024
Python

CLUEbenchmark / CLUE

中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard

benchmark tensorflow nlu glue corpus transformers pytorch dataset chinese pretrained-models language-model albert bert roberta chineseglue

Updated May 23, 2024
Python

brightmart / nlp_chinese_corpus

大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP

nlp news wiki text-classification word2vec corpus dataset question-answering chinese chinese-nlp language-model bert chinese-corpus pretrain chinese-dataset

Updated May 23, 2024

BLKSerene / Wordless

An Integrated Corpus Tool With Multilingual Support for the Study of Language, Literature, and Translation

translation tokenizer corpus linguistics tagger literature dependency-parser corpus-linguistics lemmatizer corpus-tools corpus-processing corpus-search corpus-statistics stopword corpus-analysis

Updated May 22, 2024
Python

adbar / trafilatura

Python & command-line tool to gather text on the Web: web crawling/scraping, extraction of text, metadata, comments

Updated May 22, 2024
Python

esteeschwarz / SPUND-LX

linguistics essais

corpus linguistics

Updated May 22, 2024
HTML

PyThaiNLP / thaigov-v2-corpus

Thai News Dataset from Thai government website.

corpus thai-language corpus-data thai-nlp pythainlp

Updated May 22, 2024
Jupyter Notebook

chatopera / efaqa-corpus-zh

❤️Emotional First Aid Dataset, 心理咨询问答、聊天机器人语料库

natural-language-processing corpus psychology natural-language-understanding

Updated May 22, 2024
Python

chatopera / insuranceqa-corpus-zh

🚁 保险行业语料库，聊天机器人

machine-learning natural-language-processing insurance chatbot corpus dataset question-answering natural-language-understanding qasystem insuranceqa-corpus-zh

Updated May 22, 2024
Python

ParlaMint

clarin-eric / ParlaMint

ParlaMint: Comparable Parliamentary Corpora

corpus tei-xml parliamentary-data

Updated May 22, 2024
XSLT

erc-dharma / tfb-bhaumakara-epigraphy

DHARMA project Task Force B, Bhaumakara epigraphic corpus.

corpus epidoc xml-tei epigraphy inscriptions dharma bhaumakara

Updated May 22, 2024
HTML

SaiedAlshahrani / leveraging-corpus-metadata

Leveraging Corpus Metadata to Detect Template-based Translation: An Exploratory Case Study of the Egyptian Arabic Wikipedia Edition

metadata translation wikipedia corpus arabic egyptian detection-systems template-based-translation

Updated May 21, 2024
Jupyter Notebook

flairNLP / fundus

A very simple news crawler with a funny name

python nlp rss sitemap crawler scraper corpus text-extraction web-scraping news-crawler commoncrawl web-corpus news-scraping cc-news

Updated May 21, 2024
Python

sparkfish / shabby-pages

ShabbyPages is a state-of-the-art corpus of born-digital document images with both ground truth and distorted versions appropriate for use in training models to reverse distortions and recover to original denoised documents.

data-science computer-vision corpus dataset binarization denoising layout-detection born-digital

Updated May 22, 2024
Jupyter Notebook

dracor-org / gerdracor

German Drama Corpus

xml corpus digital-humanities tei drama dramatic-texts

Updated May 21, 2024
CSS

agnesedaff / Implicit_obj_completion

This repository contains material for a master thesis' project at the University of Pavia: "Automatic Implicit Object completion in Italian: an exploration with BERT"

semantics corpus transformers dataset italian computational-linguistics verbs bert

Updated May 20, 2024

mrzjy / GenshinDialog

Extracting character conversations in Genshin Project

game nlp dialog corpus character conversation multilanguage multi-turn-dialogue personachat genshin-impact

Updated May 20, 2024
Python

erc-dharma / tfb-daksinakosala-epigraphy

DHARMA project Task Force B, Dakṣiṇa Kosala epigraphic corpus being prepared by Natasja Bosma.

corpus epidoc xml-tei epigraphy dharma daksina kosala

Updated May 20, 2024
HTML

Improve this page

Add a description, image, and links to the corpus topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the corpus topic, visit your repo's landing page and select "manage topics."