资料介绍
中文抽词在中文自然语言处理中是最基础的工作。本文提出了一种无词典的t-score 和二分相结合的抽词算法。它首先对原始文本进行预处理,利用噪音词的辅助信息来做初始切分,经过处理后一部分词被抽取出来,存入结果集。接着利用本文的抽词算法来进行二次抽词,本算法应用了N-Gram 的思想,经过实验证明,该算法不但抽词速度快,而且抽取出的词相对长度大,维护了中文语言的完整性,为进一步进行语义分析和索引构建打下了良好的基础。
关键字:无词典;t-score;二分法;快速抽词
文本信息在人类的日常生活中起到举足轻重的作用,它是人们传递和接收信息的一种最广泛的形式。近年来,随着Internet技术与规模的不断发展,网络上的各种信息资源也随之迅速膨胀,其中很大一部分是以文本形式表示的。中文文本信息处理如文本分类[1]、机器翻译、自动文摘、信息检索等绝大部分需要以词为基本单位。
中文与西文最大的区别就是:西文词与词之间用空格分开,因而词与词的界限是非常明显的;而中文词与词之间没有明显的划分界限,并且词的长度也是不定的。这就大大增加了中文自然语言处理的难度,同时分词研究是任何基于中文信息研究的第一步工作。
目前基于中文的分词方法大致分为两类:基于统计和基于规则[2]。其中大多数算法是基于一个提前构造好的词库来进行匹配,因此词典的覆盖率成为影响这类算法效率的一个关键因素[3]。然而由于汉语本身的灵活性,以及各种新词的不断涌现,要构造出一个完整的覆盖各个领域的通用词库是一件不容易的事情。
因此,本文将研究一种基于无词典的抽词方法,这种方法扩展了分词算法的应用领域,同时与文献[4]相比,该算法不是基于逐字扫描,所以大大提高了分词的效率。通过实验证明该算法的抽词效率、准确率和可接收率更高,同时能减少分词算法的复杂度。本文首先介绍如何对输入文本进行预处理,其次介绍如何利用t-score 和二分相结合算法来对预处理的字串进行抽词,最后给出实验结果,并对现在和未来的工作加以总结。
关键字:无词典;t-score;二分法;快速抽词
文本信息在人类的日常生活中起到举足轻重的作用,它是人们传递和接收信息的一种最广泛的形式。近年来,随着Internet技术与规模的不断发展,网络上的各种信息资源也随之迅速膨胀,其中很大一部分是以文本形式表示的。中文文本信息处理如文本分类[1]、机器翻译、自动文摘、信息检索等绝大部分需要以词为基本单位。
中文与西文最大的区别就是:西文词与词之间用空格分开,因而词与词的界限是非常明显的;而中文词与词之间没有明显的划分界限,并且词的长度也是不定的。这就大大增加了中文自然语言处理的难度,同时分词研究是任何基于中文信息研究的第一步工作。
目前基于中文的分词方法大致分为两类:基于统计和基于规则[2]。其中大多数算法是基于一个提前构造好的词库来进行匹配,因此词典的覆盖率成为影响这类算法效率的一个关键因素[3]。然而由于汉语本身的灵活性,以及各种新词的不断涌现,要构造出一个完整的覆盖各个领域的通用词库是一件不容易的事情。
因此,本文将研究一种基于无词典的抽词方法,这种方法扩展了分词算法的应用领域,同时与文献[4]相比,该算法不是基于逐字扫描,所以大大提高了分词的效率。通过实验证明该算法的抽词效率、准确率和可接收率更高,同时能减少分词算法的复杂度。本文首先介绍如何对输入文本进行预处理,其次介绍如何利用t-score 和二分相结合算法来对预处理的字串进行抽词,最后给出实验结果,并对现在和未来的工作加以总结。
下载该资料的人也在下载
下载该资料的人还在阅读
更多 >
- 一种PLC控制步进电机的分度算法 8次下载
- 一种侧重于学习情感特征的预训练方法 4次下载
- 一种基于词和文档嵌入的关键词抽取方法 4次下载
- 一种用于释义识别的句子相似度算法 8次下载
- 一种针对DoT算法的模板攻击方法 8次下载
- 一种针对DoT算法的模板攻击方法 12次下载
- 一种适用于FPGA实现的盲均衡算法 7次下载
- 一种加权最大相关最小相似视觉词典优化 2次下载
- 一种低硬件资源消耗快速SVPWM算法 0次下载
- 一种新型的预测功能控制算法
- 一种求解电大平台天线互耦的时域积分方程快速算法
- 一种无词典快速抽词算法的设计和实现
- 一种公历到农历日期转换算法的实现
- 一种基于SYN 漏洞的DDoS攻击防御算法的实现
- 一种基于序列译码的快速相关攻击算法
- 讲解消息分发的一种编译期实现法 451次阅读
- 基于一种用于JumpStarter的抗离群的采样算法 564次阅读
- 基于一种无OS的MCU实用软件框架 599次阅读
- 一种实用的嵌入式无 OS 软件框架 564次阅读
- MD5到底算不算一种加密算法? 1436次阅读
- 基于CORDIC的高速Sobel算法实现 3454次阅读
- 一种全新的无监督机器翻译方法,在BLUE基准测试上取得了10分以上提升 5943次阅读
- 基于接收机的应用提出了一种混合式高动态范围AGC算法 6763次阅读
- 一种基于STM32的智能采油控制系统的设计与实现 2252次阅读
- 一种基于分布式算法的低通FIR滤波器 3188次阅读
- 一种FFT插值正弦波快速频率估计算法 9269次阅读
- 一种AES密码算法的实现 2922次阅读
- 快速高效的实现浮点复数矩阵分解 955次阅读
- 基于图像增强的去雾快速算法的FPGA实现 5211次阅读
- 一种改进的无线传感器网络非测距定位算法 1191次阅读
下载排行
本周
- 1电子电路原理第七版PDF电子教材免费下载
- 0.00 MB | 1490次下载 | 免费
- 2单片机典型实例介绍
- 18.19 MB | 93次下载 | 1 积分
- 3S7-200PLC编程实例详细资料
- 1.17 MB | 27次下载 | 1 积分
- 4笔记本电脑主板的元件识别和讲解说明
- 4.28 MB | 18次下载 | 4 积分
- 5开关电源原理及各功能电路详解
- 0.38 MB | 10次下载 | 免费
- 6基于AT89C2051/4051单片机编程器的实验
- 0.11 MB | 4次下载 | 免费
- 7基于单片机和 SG3525的程控开关电源设计
- 0.23 MB | 3次下载 | 免费
- 8基于单片机的红外风扇遥控
- 0.23 MB | 3次下载 | 免费
本月
- 1OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234313次下载 | 免费
- 2PADS 9.0 2009最新版 -下载
- 0.00 MB | 66304次下载 | 免费
- 3protel99下载protel99软件下载(中文版)
- 0.00 MB | 51209次下载 | 免费
- 4LabView 8.0 专业版下载 (3CD完整版)
- 0.00 MB | 51043次下载 | 免费
- 5555集成电路应用800例(新编版)
- 0.00 MB | 33562次下载 | 免费
- 6接口电路图大全
- 未知 | 30320次下载 | 免费
- 7Multisim 10下载Multisim 10 中文版
- 0.00 MB | 28588次下载 | 免费
- 8开关电源设计实例指南
- 未知 | 21539次下载 | 免费
总榜
- 1matlab软件下载入口
- 未知 | 935053次下载 | 免费
- 2protel99se软件下载(可英文版转中文版)
- 78.1 MB | 537791次下载 | 免费
- 3MATLAB 7.1 下载 (含软件介绍)
- 未知 | 420026次下载 | 免费
- 4OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234313次下载 | 免费
- 5Altium DXP2002下载入口
- 未知 | 233046次下载 | 免费
- 6电路仿真软件multisim 10.0免费下载
- 340992 | 191183次下载 | 免费
- 7十天学会AVR单片机与C语言视频教程 下载
- 158M | 183277次下载 | 免费
- 8proe5.0野火版下载(中文版免费下载)
- 未知 | 138039次下载 | 免费
评论
查看更多