Butterfly: An Open NLP Research Project for Chinese Danmaku

中文弹幕文本NLP研究

背景

Billbill弹幕语言和现象研究仍以定性为主
Billbill弹幕研究缺少开源数据和任务数据
中文缺少弹幕领域的大模型复现资源和社区开源
Billbill弹幕短文本是一种独特的短文本，属于单独的中文NLP领域
Billbill弹幕是亚文化发源和演化重点，其研究对中国教育、舆情监控、社会传播等多个领域有着重大意义

目标

我们希望可以开辟弹幕文本领域，尤其是中文B站弹幕这一特殊文本领域的NLP研究。具体地，我们希望开源一套完整的爬虫系统和一个数亿级别的弹幕语料库，用以支持弹幕短文本语言模型研究；我们还希望开源弹幕领域的NLP任务数据，以探索中文短文本NLP任务的可行性，进而更好地服务中文NLP社区。
我们希望训练不同的弹幕预训练语言模型，验证他们在弹幕领域下游任务的有效性，作为巨人的肩膀。
我们希望探索在弹幕短文本NLP各个任务上的SOTA解决方案。
我们希望基于NLP和统计学理论从语言学视角对B站文本进行系统性的分析探讨，以推动B站文本这一中文SLD的语言评测和使用研究。
我们还希望我们的研究可以大大完成对弹幕文本的深层开发，以提升对此类社交媒体平台的舆情监控能力，进而推动中国亚文化、社会传播、青少年教育、群体、心理学、语言学等多个领域的研究发展，提供新的研究视域。

项目分支

DDmkTCCorpus: Diachronic Danmaku Comments Corpus

项目描述：弹幕语料库构建与开源
项目地址：https://github.com/TinyTalks/DDmkTCCorpus
项目进度：开源鬼畜类、电竞类、动漫类、疫情类四个类别弹幕共约100m左右

ElephantDR: The Elephant in the Danmaku Room

项目描述：弹幕文本特征分析：语言学视角
项目地址：https://github.com/TinyTalks/ElephantDR
项目进度：完成弹幕文本的基本特征统计，新词现象的总结归纳
TODO：进行中文通用文本特征统计并形成对比

CILLMs: Chinese Internet Large Language Models

项目描述：中文网络大语言模型
项目地址：https://github.com/TinyTalks/PILM/
项目进度：完成Roberta的建模与测试
TODO：T5, LLaMa, chatGLM, GPT-2, ChatGPT

Name		Name	Last commit message	Last commit date
Latest commit History 31 Commits
LICENSE		LICENSE
README.md		README.md
TinyTalks.png		TinyTalks.png
TinyTalks.xmind		TinyTalks.xmind
TinyTalkss.png		TinyTalkss.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

LICENSE

LICENSE

README.md

README.md

TinyTalks.png

TinyTalks.png

TinyTalks.xmind

TinyTalks.xmind

TinyTalkss.png

TinyTalkss.png

Repository files navigation

Butterfly: An Open NLP Research Project for Chinese Danmaku

中文弹幕文本NLP研究

背景

目标

项目分支

DDmkTCCorpus: Diachronic Danmaku Comments Corpus

ElephantDR: The Elephant in the Danmaku Room

CILLMs: Chinese Internet Large Language Models

About

Releases

Packages

Contributors 2

License

TinyTalks/Butterfly

Folders and files

Latest commit

History

Repository files navigation

Butterfly: An Open NLP Research Project for Chinese Danmaku

中文弹幕文本NLP研究

背景

目标

项目分支

DDmkTCCorpus: Diachronic Danmaku Comments Corpus

ElephantDR: The Elephant in the Danmaku Room

CILLMs: Chinese Internet Large Language Models

About

Topics

Resources

License

Stars

Watchers

Forks