资料介绍
软件简介
中文词法分析(LAC)
中文分词(Word Segmentation)是将连续的自然语言文本,切分出具有语义合理性和完整性的词汇序列的过程。因为在汉语中,词是承担语义的最基本单位,切词是文本分类、情感分析、信息检索等众多自然语言处理任务的基础。 词性标注(Part-of-speech Tagging)是为自然语言文本中的每一个词汇赋予一个词性的过程,这里的词性包括名词、动词、形容词、副词等等。 命名实体识别(Named Entity Recognition,NER)又称作“专名识别”,是指识别自然语言文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。 我们将这三个任务统一成一个联合任务,称为词法分析任务,基于深度神经网络,利用海量标注语料进行训练,提供了一个端到端的解决方案。
我们把这个联合的中文词法分析解决方案命名为 LAC 。LAC 既可以认为是 Lexical Analysis of Chinese 的首字母缩写,也可以认为是 LAC Analyzes Chinese 的递归缩写。
特别注意:本项目依赖Paddle v0.14.0版本。如果您的Paddle安装版本低于此要求,请按照安装文档中的说明更新Paddle安装版本。
项目结构
. ├── AUTHORS # 贡献者列表 ├── CMakeLists.txt # cmake配置文件 ├── conf # 运行本例所需的模型及字典文件 ├── data # 运行本例所需要的数据依赖 ├── include # 头文件 ├── LICENSE # 许可证信息 ├── python # 训练使用的python文件 ├── README.md # 本文档 ├── src # 源码 ├── technical-report # 技术报告 └── test # Demo程序
引用
如果您的学术工作成果中使用了LAC,请您增加下述引用。我们非常欣慰LAC能够对您的学术工作带来帮助。
@article{jiao2018LAC, title={Chinese Lexical Analysis with Deep Bi-GRU-CRF Network}, author={Jiao, Zhenyu and Sun, Shuqi and Sun, Ke}, journal={arXiv preprint arXiv:1807.01882}, year={2018}, url={https://arxiv.org/abs/1807.01882} }
模型
词法分析任务的输入是一个字符串(我们后面使用『句子』来指代它),而输出是句子中的词边界和词性、实体类别。序列标注是词法分析的经典建模方式。我们使用基于GRU的网络结构学习特征,将学习到的特征接入CRF解码层完成序列标注。CRF解码层本质上是将传统CRF中的线性模型换成了非线性神经网络,基于句子级别的似然概率,因而能够更好的解决标记偏置问题。模型要点如下,具体细节请参考python/train.py
代码。
-
输入采用one-hot方式表示,每个字以一个id表示
-
one-hot序列通过字表,转换为实向量表示的字向量序列;
-
字向量序列作为双向GRU的输入,学习输入序列的特征表示,得到新的特性表示序列,我们堆叠了两层双向GRU以增加学习能力;
-
CRF以GRU学习到的特征为输入,以标记序列为监督信号,实现序列标注。
词性和专名类别标签集合如下表,其中词性标签24个(小写字母),专名类别标签4个(大写字母)。这里需要说明的是,人名、地名、机名和时间四个类别,在上表中存在两套标签(PER / LOC / ORG / TIME 和 nr / ns / nt / t),被标注为第二套标签的词,是模型判断为低置信度的人名、地名、机构名和时间词。开发者可以基于这两套标签,在四个类别的准确、召回之间做出自己的权衡。
数据
训练使用的数据可以由用户根据实际的应用场景,自己组织数据。数据由两列组成,以制表符分隔,第一列是utf8编码的中文文本,第二列是对应每个字的标注,以空格分隔。我们采用IOB2标注体系,即以X-B作为类型为X的词的开始,以X-I作为类型为X的词的持续,以O表示不关注的字(实际上,在词性、专名联合标注中,不存在O)。示例如下:
在抗日战争时期,朝鲜族人民先后有十几万人参加抗日战斗 p-B vn-B vn-I n-B n-I n-B n-I w-B nz-B nz-I nz-I n-B n-I d-B d-I v-B m-B m-I m-I n-B v-B v-I vn-B vn-I vn-B vn-I
-
我们随同代码一并发布了完全版的模型和相关的依赖数据。但是,由于模型的训练数据过于庞大,我们没有发布训练数据,仅在
data
目录下的train_data
和test_data
文件中放置少数样本用以示例输入数据格式。 -
模型依赖数据包括:
-
输入文本的词典,在
conf
目录下,对应word.dic
-
对输入文本中特殊字符进行转换的字典,在
conf
目录下,对应q2b.dic
-
标记标签的词典,在
conf
目录下,对应tag.dic
-
在训练和预测阶段,我们都需要进行原始数据的预处理,具体处理工作包括:
在训练阶段,这些工作由
python/train.py
调用python/reader.py
完成;在预测阶段,由C++代码完成。
-
从原始数据文件中抽取出句子和标签,构造句子序列和标签序列
-
将句子序列中的特殊字符进行转换
-
依据词典获取词对应的整数索引
- 锂离子电池材料表征的分析解决方案
- 锂离子电池材料表征的分析解决方案
- HMC498LAC4 HMC499LAC4 HMC517LAC4 HMC962 HMC963革
- HMC1084LAC4革
- HMC519LAC4革
- HMC635LAC4革
- 5G锚点选择与LTE覆盖切换冲突的原因分析与解决方案资料下载
- ESD解决方案资料下载
- 待机功耗来源分析与低待机功耗解决方案资料下载
- 188万中文词库包括了输入法和机器学习与训练 6次下载
- 语言与编译器设计课程之词法分析程序源程序 0次下载
- 关于SMT回流焊中出现的缺陷及其解决方案资料下载 30次下载
- 借助Lex和Yacc进行词法语法分析 30次下载
- C语言词法分析器的代码
- 基于无向图序列标注模型的中文分词词性标注一体化系统
- 自然语言处理过程的五个层次 235次阅读
- 示波器噪声太大的原因及解决方案 1013次阅读
- PLC常用专业英文词汇翻译总结 2142次阅读
- 基于PyTorch AMD的解决方案 747次阅读
- 词法分析-Antlr-1 665次阅读
- PLC编程常用专业英文词汇翻译 1342次阅读
- Inventek物联网照明解决方案系统架构分析 1866次阅读
- IPM内集成传感器的应用解决方案分析 1270次阅读
- 技术 | 传感器性能如何支持状态监控解决方案? 2826次阅读
- 如何使用Excel和TF实现Transformer详细步骤说明 3830次阅读
- 解析自动驾驶解决方案优劣和功能安全需求 4975次阅读
- 智慧医疗解决方案有哪些_智慧医疗解决方案供应商推荐 1.7w次阅读
- 阿里智能硬件平台解决方案分析 1w次阅读
- 高频pcb干扰问题及解决方案 3315次阅读
- Cadence PCB设计解决方案 2243次阅读
下载排行
本周
- 1山景DSP芯片AP8248A2数据手册
- 1.06 MB | 532次下载 | 免费
- 2RK3399完整板原理图(支持平板,盒子VR)
- 3.28 MB | 339次下载 | 免费
- 3TC358743XBG评估板参考手册
- 1.36 MB | 330次下载 | 免费
- 4DFM软件使用教程
- 0.84 MB | 295次下载 | 免费
- 5元宇宙深度解析—未来的未来-风口还是泡沫
- 6.40 MB | 227次下载 | 免费
- 6迪文DGUS开发指南
- 31.67 MB | 194次下载 | 免费
- 7元宇宙底层硬件系列报告
- 13.42 MB | 182次下载 | 免费
- 8FP5207XR-G1中文应用手册
- 1.09 MB | 178次下载 | 免费
本月
- 1OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234315次下载 | 免费
- 2555集成电路应用800例(新编版)
- 0.00 MB | 33566次下载 | 免费
- 3接口电路图大全
- 未知 | 30323次下载 | 免费
- 4开关电源设计实例指南
- 未知 | 21549次下载 | 免费
- 5电气工程师手册免费下载(新编第二版pdf电子书)
- 0.00 MB | 15349次下载 | 免费
- 6数字电路基础pdf(下载)
- 未知 | 13750次下载 | 免费
- 7电子制作实例集锦 下载
- 未知 | 8113次下载 | 免费
- 8《LED驱动电路设计》 温德尔著
- 0.00 MB | 6656次下载 | 免费
总榜
- 1matlab软件下载入口
- 未知 | 935054次下载 | 免费
- 2protel99se软件下载(可英文版转中文版)
- 78.1 MB | 537798次下载 | 免费
- 3MATLAB 7.1 下载 (含软件介绍)
- 未知 | 420027次下载 | 免费
- 4OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234315次下载 | 免费
- 5Altium DXP2002下载入口
- 未知 | 233046次下载 | 免费
- 6电路仿真软件multisim 10.0免费下载
- 340992 | 191187次下载 | 免费
- 7十天学会AVR单片机与C语言视频教程 下载
- 158M | 183279次下载 | 免费
- 8proe5.0野火版下载(中文版免费下载)
- 未知 | 138040次下载 | 免费
评论
查看更多