Skip to content
冬日新雨 edited this page Jan 3, 2022 · 15 revisions

Welcome to the JioNLP wiki

  • JioNLP 工具包主要面向解决中文 NLP 领域模型训练数据预处理、通用数据解析功能和方法,旨在帮助开发人员快速处理琐碎的文本操作,避免繁杂的代码工作。

  • JioNLP 的 wiki 中有各个函数的详细的使用方法、注意事项、函数功能适用范围、样例代码等。代码实现中也有详细的代码说明和 TODO 演进目标。

主要包括如下几个模块

  • Gadget 小工具集内,提供了分句、去除停用词、繁简体转换、拼音、字形、偏旁部首等常见功能,还包括 地址解析货币金额解析、身份证号解析、关键短语抽取 等。持续更新中…​

  • 包括回译数据增强同音词替换增加噪声扰动等增强方式。

三、(文件读写)

  • 读写大型文本文件(如1G以上数据集),除了使用 linux 的 cut、awk 命令之外,使用 python 操作是较为繁琐的工作。该工具集规定了中文文本的读写格式和要求,能够仅使用一行代码完成文件数据集的读写。

  • 中文文本处理涉及到大量的正则解析与信息抽取,本工具集完成了邮箱、身份证号、URL、QQ号、时间字符串、中文货币金额、括号补充信息、异常字符等功能的字段抽取与删除。持续更新中…​

五、(词典加载)

  • 中文 NLP 中不可避免涉及到大量的词典,工具集提供了停用词词典、地名词典、成语词典、拼音词典、字形词典、歇后语词典、繁简体映射词典等等多种多样的词典信息加载。持续更新中…​

六、(NER工具集)

  • NER 任务处理时的工具集,包括词-字格式的转换,entity-tag之间的转换,基于词典的NER匹配,以及标注与模型的实体数据比对矫正。

  • 提供多项实体类型的抽取,货币金额类型实体时间实体,不依赖模型,纯规则,F1值可达91%~95%。

七、(文本分类)

  • 文本分类的分析处理工具,包括分析朴素贝叶斯高频词汇、分割统计数据集内的类别分布等。

八、(情感分析)

  • 基于词典计算文本的情感正负面取值;较粗糙仍有改进空间。

  • 根据规则进行时间字符串的解析,标识其明确的年、月、日、时、分、秒、时间长度等信息。