0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

北大开源了一个中文分词工具包,名为——PKUSeg

电子工程师 来源:lq 2019-01-16 10:29 次阅读

分词技术是一种比较基础的模块,就英文而言,词与词之间通常由空格分开,因此英文分词则要简单的多,但中文和英文的词是有区别的,再加上中国文化的博大精深,分词的时候要考虑的情况比英文分词要复杂的多,如果处理不好就会直接影响到后续词性标注、句法分析等的准确性,

目前,我们最常用的分词工具大概有四种哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba。

不过最近,北大开源了一个中文分词工具包,名为 ——PKUSeg,基于Python。据介绍其准确率秒杀THULAC和结巴分词等工具。

一经开源,pkuseg已经在GitHub上获得1738个Star,244个Fork(GitHub地址:https://github.com/lancopku/PKUSeg-python)

pkuseg具有如下几个特点:

多领域分词:不同于以往的通用中文分词工具,此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点,用户可以自由地选择不同的模型。 我们目前支持了新闻领域,网络文本领域和混合领域的分词预训练模型,同时也拟在近期推出更多的细领域预训练模型,比如医药、旅游、专利、小说等等。

更高的分词准确率:相比于其他的分词工具包,当使用相同的训练数据和测试数据,pkuseg可以取得更高的分词准确率。

支持用户自训练模型:支持用户使用全新的标注数据进行训练。

各类分词工具包的性能对比

前面有提到说pkuseg的准确率远超其他分词工具包,现在就是用数据说话的时候了,下面就是在 Linux 环境下,各工具在新闻数据 (MSRA) 和混合型文本 (CTB8) 数据上的准确率测试情况

测试使用的是第二届国际汉语分词评测比赛提供的分词评价脚本,从上图看出结巴分词准确率最低,

跨领域测试结果

以下是在其它领域进行测试,以模拟模型在“黑盒数据”上的分词效果。

默认模型在不同领域的测试效果

以下是各个工具包的默认模型在不同领域的测试效果

使用方式

代码示例1:使用默认模型及默认词典分词

importpkusegseg=pkuseg.pkuseg()#以默认配置加载模型text=seg.cut('我爱北京***')#进行分词print(text)

代码示例2:设置用户自定义词典

importpkuseglexicon=['北京大学','北京***']#希望分词时用户词典中的词固定不分开seg=pkuseg.pkuseg(user_dict=lexicon)#加载模型,给定用户词典text=seg.cut('我爱北京***')#进行分词print(text)

代码示例3:使用其它模型

importpkusegseg=pkuseg.pkuseg(model_name='./ctb8')#假设用户已经下载好了ctb8的模型#并放在了'./ctb8'目录下,通过设置model_name加载该模型text=seg.cut('我爱北京***')#进行分词print(text)

代码示例4:对文件分词

importpkusegpkuseg.test('input.txt','output.txt',nthread=20)#对input.txt的文件分词输出到output.txt中,#使用默认模型和词典,开20个进程

代码示例5:训练新模型

importpkuseg#训练文件为'msr_training.utf8'#测试文件为'msr_test_gold.utf8'#模型存到'./models'目录下,开20个进程训练模型pkuseg.train('msr_training.utf8','msr_test_gold.utf8','./models',nthread=20)

此外,pkuseg提供了三种在不同类型数据上训练得到的模型,根据具体需要,用户可以选择不同的预训练模型:

MSRA:在MSRA(新闻语料)上训练的模型。

下载地址:https://pan.baidu.com/s/1twci0QVBeWXUg06dK47tiA

CTB8:在CTB8(新闻文本及网络文本的混合型语料)上训练的模型。随pip包附带的是此模型。

下载地址:https://pan.baidu.com/s/1DCjDOxB0HD2NmP9w1jm8MA

WEIBO:在微博(网络文本语料)上训练的模型。

下载地址:https://pan.baidu.com/s/1QHoK2ahpZnNmX6X7Y9iCgQ

最后附上前面提到的另外四大分词工具的GitHub地址:

1、LTP:https://github.com/HIT-SCIR/ltp

2、NLPIR:https://github.com/NLPIR-team/NLPIR

3、THULAC:https://github.com/thunlp/THULAC

4、jieba:https://github.com/yanyiwu/cppjieba

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Linux
    +关注

    关注

    87

    文章

    11302

    浏览量

    209431
  • 开源
    +关注

    关注

    3

    文章

    3341

    浏览量

    42487
  • python
    +关注

    关注

    56

    文章

    4796

    浏览量

    84664

原文标题:准确率秒杀结巴分词,北大开源全新中文分词工具包PKUSeg

文章出处:【微信号:TheBigData1024,微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    最新Simplicity SDK软件开发工具包发布

    最新的SimplicitySDK软件开发工具包已经发布!此次更新针对SiliconLabs(芯科科技)第二代无线开发平台带来了包括蓝牙6.0的信道探测(Channel Sounding
    的头像 发表于 12-24 09:47 97次阅读

    基于EasyGo Vs工具包和Nl veristand软件进行的永磁同步电机实时仿真

    EasyGo Vs Addon是款领先的FPGA仿真工具包软件,它强大地连接了VeriStand软件与Matlab/Simulink,为实时测试和验证领域带来了前所未有的便利和效率,特别适用于汽车
    的头像 发表于 11-27 11:28 226次阅读
    基于EasyGo Vs<b class='flag-5'>工具包</b>和Nl veristand软件进行的永磁同步电机实时仿真

    FPGA仿真工具包软件EasyGo Vs Addon介绍

    EasyGo Vs Addon是款领先的FPGA仿真工具包软件,它强大地连接了VeriStand软件与Matlab/Simulink,为实时测试和验证领域带来了前所未有的便利和效率,特别适用于汽车、航空航天和能源电力等实时测试和验证至关重要的行业。
    的头像 发表于 10-24 15:55 360次阅读
    FPGA仿真<b class='flag-5'>工具包</b>软件EasyGo Vs Addon介绍

    采用德州仪器 (TI) 工具包进行模拟前端设计应用说明

    电子发烧友网站提供《采用德州仪器 (TI) 工具包进行模拟前端设计应用说明.pdf》资料免费下载
    发表于 09-09 11:21 0次下载
    采用德州仪器 (TI) <b class='flag-5'>工具包</b>进行模拟前端设计应用说明

    使用freeRTOS开发工具包时,在哪里可以找到freeRTOS的版本?

    作为主题,当我使用 freeRTOS 开发工具包时,在哪里可以找到 freeRTOS 的版本?
    发表于 07-09 07:17

    新加坡推出Project Moonshot -- 这是款生成式人工智能测试工具包,用于应对LLM安全和安保挑战

    新加坡2024年6月3日 /美通社/ -- 新加坡通讯及新闻部部长Josephine Teo 女士推出了AI Verify- Project Moonshot,这是易于使用的测试工具包,旨在
    的头像 发表于 06-03 19:59 231次阅读
    新加坡推出Project Moonshot -- 这是<b class='flag-5'>一</b>款生成式人工智能测试<b class='flag-5'>工具包</b>,用于应对LLM安全和安保挑战

    Hugging Face推出开源机器人代码库LeRobot

    AI领域的佼佼者Hugging Face近日宣布重磅推出并全面开源其机器人工具包——LeRobot。这创新工具包基于史上最大规模的众包机器人数据集,为开发者提供
    的头像 发表于 05-09 10:32 579次阅读

    QE for Motor V1.3.0:汽车开发辅助工具解决方案工具包

    电子发烧友网站提供《QE for Motor V1.3.0:汽车开发辅助工具解决方案工具包.pdf》资料免费下载
    发表于 02-19 10:44 0次下载
    QE for Motor V1.3.0:汽车开发辅助<b class='flag-5'>工具</b>解决方案<b class='flag-5'>工具包</b>

    求助,请问有没有labview opc ua工具包 2018 啊

    如题,求助,请问有没有labview opc ua工具包 2018 啊。只要2018的哦
    发表于 01-25 20:14

    labview工具包下载

    求助labview2020控制仿真工具包,官网下载不了,这个说能免注册下载网址我打开也是空白,求助好心人帮帮忙分享 https://download.ni.com/#evalua
    发表于 01-16 15:07

    利用ProfiShark 构建便携式网络取证工具包

    网络安全领域日益重视便携式取证工具的灵活应用。本文介绍了如何构建以ProfiShark1G为核心的便携式网络取证工具包,以提高网络取证的效率和实效性
    的头像 发表于 01-13 08:04 1591次阅读
    利用ProfiShark 构建便携式网络取证<b class='flag-5'>工具包</b>

    Torch TensorRT是优化PyTorch模型推理性能的工具

    那么,什么是Torch TensorRT呢?Torch是我们大家聚在起的原因,它是端到端的机器学习框架。而TensorRT则是NVIDIA的高性能深度学习推理软件工具包。Torc
    的头像 发表于 01-09 16:41 1731次阅读
    Torch TensorRT是<b class='flag-5'>一</b><b class='flag-5'>个</b>优化PyTorch模型推理性能的<b class='flag-5'>工具</b>

    全志V853 NPU开发之工具安装

    python3 python3-dev python3-pip build-essential 准备 NPU 部署工具包需要准备两工具包: Verisilicon_Tool_Acuity_Toolkit
    发表于 01-08 09:50

    解决方案工具包QE显示[RX,RA]V3.2.0:用于显示应用程序的开发辅助工具

    电子发烧友网站提供《解决方案工具包QE显示[RX,RA]V3.2.0:用于显示应用程序的开发辅助工具.pdf》资料免费下载
    发表于 01-03 09:59 0次下载
    解决方案<b class='flag-5'>工具包</b>QE显示[RX,RA]V3.2.0:用于显示应用程序的开发辅助<b class='flag-5'>工具</b>

    【虹科分享】利用ProfiShark 构建便携式网络取证工具包

    本文详细讨论构建便携式网络取证工具包的必要性,并重点介绍ProfiShark 1G — 种高效、口袋大小的网络TAP设备。ProfiShark 1G以其出色的数据捕获能力、便携性
    的头像 发表于 12-29 17:06 378次阅读