-
Notifications
You must be signed in to change notification settings - Fork 407
Home
-
JioNLP 工具包主要面向解决中文 NLP 领域模型训练数据预处理、通用数据解析功能和方法,旨在帮助开发人员快速处理琐碎的文本操作,避免繁杂的代码工作。
-
JioNLP 的 wiki 中有各个函数的详细的使用方法、注意事项、函数功能适用范围、样例代码等。代码实现中也有详细的代码说明和 TODO 演进目标。
一、(Gadget小工具集)
-
Gadget 小工具集内,提供了分句、去除停用词、繁简体转换、拼音、字形、偏旁部首等常见功能,还包括 地址解析、货币金额解析、身份证号解析、关键短语抽取 等。持续更新中…
二、(文本数据增强)
-
包括回译数据增强、同音词替换、增加噪声扰动等增强方式。
三、(文件读写)
-
读写大型文本文件(如1G以上数据集),除了使用 linux 的 cut、awk 命令之外,使用 python 操作是较为繁琐的工作。该工具集规定了中文文本的读写格式和要求,能够仅使用一行代码完成文件数据集的读写。
四、(正则抽取与解析)
-
中文文本处理涉及到大量的正则解析与信息抽取,本工具集完成了邮箱、身份证号、URL、QQ号、时间字符串、中文货币金额、括号补充信息、异常字符等功能的字段抽取与删除。持续更新中…
五、(词典加载)
-
中文 NLP 中不可避免涉及到大量的词典,工具集提供了停用词词典、地名词典、成语词典、拼音词典、字形词典、歇后语词典、繁简体映射词典等等多种多样的词典信息加载。持续更新中…
六、(NER工具集)
-
NER 任务处理时的工具集,包括词-字格式的转换,entity-tag之间的转换,基于词典的NER匹配,以及标注与模型的实体数据比对矫正。
-
提供多项实体类型的抽取,货币金额类型实体、时间实体,不依赖模型,纯规则,F1值可达91%~95%。
七、(文本分类)
-
文本分类的分析处理工具,包括分析朴素贝叶斯高频词汇、分割统计数据集内的类别分布等。
八、(情感分析)
-
基于词典计算文本的情感正负面取值;较粗糙仍有改进空间。
九、(时间语义解析)
-
根据规则进行时间字符串的解析,标识其明确的年、月、日、时、分、秒、时间长度等信息。