0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

北大开源了一个中文分词工具包,名为——PKUSeg

电子工程师 来源:lq 2019-01-16 10:29 6846次阅读

分词技术是一种比较基础的模块,就英文而言,词与词之间通常由空格分开,因此英文分词则要简单的多,但中文和英文的词是有区别的,再加上中国文化的博大精深,分词的时候要考虑的情况比英文分词要复杂的多,如果处理不好就会直接影响到后续词性标注、句法分析等的准确性,

目前,我们最常用的分词工具大概有四种哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba。

不过最近,北大开源了一个中文分词工具包,名为 ——PKUSeg,基于Python。据介绍其准确率秒杀THULAC和结巴分词等工具。

一经开源,pkuseg已经在GitHub上获得1738个Star,244个Fork(GitHub地址:https://github.com/lancopku/PKUSeg-python)

pkuseg具有如下几个特点:

多领域分词:不同于以往的通用中文分词工具,此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点,用户可以自由地选择不同的模型。 我们目前支持了新闻领域,网络文本领域和混合领域的分词预训练模型,同时也拟在近期推出更多的细领域预训练模型,比如医药、旅游、专利、小说等等。

更高的分词准确率:相比于其他的分词工具包,当使用相同的训练数据和测试数据,pkuseg可以取得更高的分词准确率。

支持用户自训练模型:支持用户使用全新的标注数据进行训练。

各类分词工具包的性能对比

前面有提到说pkuseg的准确率远超其他分词工具包,现在就是用数据说话的时候了,下面就是在 Linux 环境下,各工具在新闻数据 (MSRA) 和混合型文本 (CTB8) 数据上的准确率测试情况

测试使用的是第二届国际汉语分词评测比赛提供的分词评价脚本,从上图看出结巴分词准确率最低,

跨领域测试结果

以下是在其它领域进行测试,以模拟模型在“黑盒数据”上的分词效果。

默认模型在不同领域的测试效果

以下是各个工具包的默认模型在不同领域的测试效果

使用方式

代码示例1:使用默认模型及默认词典分词

importpkusegseg=pkuseg.pkuseg()#以默认配置加载模型text=seg.cut('我爱北京***')#进行分词print(text)

代码示例2:设置用户自定义词典

importpkuseglexicon=['北京大学','北京***']#希望分词时用户词典中的词固定不分开seg=pkuseg.pkuseg(user_dict=lexicon)#加载模型,给定用户词典text=seg.cut('我爱北京***')#进行分词print(text)

代码示例3:使用其它模型

importpkusegseg=pkuseg.pkuseg(model_name='./ctb8')#假设用户已经下载好了ctb8的模型#并放在了'./ctb8'目录下,通过设置model_name加载该模型text=seg.cut('我爱北京***')#进行分词print(text)

代码示例4:对文件分词

importpkusegpkuseg.test('input.txt','output.txt',nthread=20)#对input.txt的文件分词输出到output.txt中,#使用默认模型和词典,开20个进程

代码示例5:训练新模型

importpkuseg#训练文件为'msr_training.utf8'#测试文件为'msr_test_gold.utf8'#模型存到'./models'目录下,开20个进程训练模型pkuseg.train('msr_training.utf8','msr_test_gold.utf8','./models',nthread=20)

此外,pkuseg提供了三种在不同类型数据上训练得到的模型,根据具体需要,用户可以选择不同的预训练模型:

MSRA:在MSRA(新闻语料)上训练的模型。

下载地址:https://pan.baidu.com/s/1twci0QVBeWXUg06dK47tiA

CTB8:在CTB8(新闻文本及网络文本的混合型语料)上训练的模型。随pip包附带的是此模型。

下载地址:https://pan.baidu.com/s/1DCjDOxB0HD2NmP9w1jm8MA

WEIBO:在微博(网络文本语料)上训练的模型。

下载地址:https://pan.baidu.com/s/1QHoK2ahpZnNmX6X7Y9iCgQ

最后附上前面提到的另外四大分词工具的GitHub地址:

1、LTP:https://github.com/HIT-SCIR/ltp

2、NLPIR:https://github.com/NLPIR-team/NLPIR

3、THULAC:https://github.com/thunlp/THULAC

4、jieba:https://github.com/yanyiwu/cppjieba

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Linux
    +关注

    关注

    87

    文章

    11373

    浏览量

    211300
  • 开源
    +关注

    关注

    3

    文章

    3471

    浏览量

    42937
  • python
    +关注

    关注

    56

    文章

    4813

    浏览量

    85304

原文标题:准确率秒杀结巴分词,北大开源全新中文分词工具包PKUSeg

文章出处:【微信号:TheBigData1024,微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    相关推荐

    在Google Colab笔记本电脑上导入OpenVINO™工具包2021中的 IEPlugin类出现报错,怎么解决?

    在 Google* Colab Notebook 上OpenVINO™工具包 2021 中使用了 IEPlugin 。 遇到: ImportError: cannot import name \'IEPlugin\' from \'openvino.inference_engine\'
    发表于 03-05 10:31

    构建开源OpenVINO™工具包后,使用MYRIAD插件成功运行演示时报错怎么解决?

    构建开源OpenVINO™工具包后,使用 MYRIAD 插件成功运行演示。 使用 CPU 插件运行演示时遇到错误: Cannot load library \'libarmPlugin.so
    发表于 03-05 09:57

    安装OpenVINO™工具包稳定扩散后报错,怎么解决?

    已安装OpenVINO™工具包稳定扩散并收到错误消息: \"BackendCompilerFailed: openvino_fx raised RuntimeError
    发表于 03-05 06:56

    云计算开发工具包的功能

    随着云计算技术的不断成熟,越来越多的企业开始将应用和服务迁移到云端,以享受弹性计算资源、高可用性和成本效益等优势。为了加速这进程,云计算服务提供商推出了各种开发工具包。下面,AI部落小编带您了解云计算开发工具包的主要功能。
    的头像 发表于 02-21 11:02 103次阅读

    TDC1000-TDC7200 GUI调试工具求助

    本帖最后由 匿名 于 2025-2-18 21:15 编辑 最近准备玩TDC1000的开发板,官网配套的GUI开发工具包已不能下载,跪求压缩
    发表于 02-17 23:24

    RT-Thread荣登2024开源创新榜单,跻身中国十大开源社区

    开源领域的卓越贡献,荣登2024年开源创新榜单——2024年度开源社区,成为中国十大开源社区之。2024年度
    的头像 发表于 01-08 19:06 411次阅读
    RT-Thread荣登2024<b class='flag-5'>开源</b>创新榜单,跻身中国十<b class='flag-5'>大开源</b>社区

    Labview声音和振动工具包示例文件Sound Level

    Labview 声音和振动工具包示例文件,声压测试,有模拟和DAQ两文件。
    发表于 01-05 09:15 0次下载

    TSP工具包软件的应用说明

    需要快速开发测试的行业中,有效的自动化和便捷代码的开发需求比以往任何时候都显得更加突出。企业在努力提高产品质量的同时,更需要寻求更短的上市时间,合适的工具正是实现这目标的关键
    的头像 发表于 01-03 15:53 1928次阅读
    TSP<b class='flag-5'>工具包</b>软件的应用说明

    最新Simplicity SDK软件开发工具包发布

    最新的SimplicitySDK软件开发工具包已经发布!此次更新针对SiliconLabs(芯科科技)第二代无线开发平台带来了包括蓝牙6.0的信道探测(Channel Sounding
    的头像 发表于 12-24 09:47 393次阅读

    基于EasyGo Vs工具包和Nl veristand软件进行的永磁同步电机实时仿真

    EasyGo Vs Addon是款领先的FPGA仿真工具包软件,它强大地连接了VeriStand软件与Matlab/Simulink,为实时测试和验证领域带来了前所未有的便利和效率,特别适用于汽车
    的头像 发表于 11-27 11:28 518次阅读
    基于EasyGo Vs<b class='flag-5'>工具包</b>和Nl veristand软件进行的永磁同步电机实时仿真

    FPGA仿真工具包软件EasyGo Vs Addon介绍

    EasyGo Vs Addon是款领先的FPGA仿真工具包软件,它强大地连接了VeriStand软件与Matlab/Simulink,为实时测试和验证领域带来了前所未有的便利和效率,特别适用于汽车、航空航天和能源电力等实时测试和验证至关重要的行业。
    的头像 发表于 10-24 15:55 638次阅读
    FPGA仿真<b class='flag-5'>工具包</b>软件EasyGo Vs Addon介绍

    采用德州仪器 (TI) 工具包进行模拟前端设计应用说明

    电子发烧友网站提供《采用德州仪器 (TI) 工具包进行模拟前端设计应用说明.pdf》资料免费下载
    发表于 09-09 11:21 0次下载
    采用德州仪器 (TI) <b class='flag-5'>工具包</b>进行模拟前端设计应用说明

    使用freeRTOS开发工具包时,在哪里可以找到freeRTOS的版本?

    作为主题,当我使用 freeRTOS 开发工具包时,在哪里可以找到 freeRTOS 的版本?
    发表于 07-09 07:17

    新加坡推出Project Moonshot -- 这是款生成式人工智能测试工具包,用于应对LLM安全和安保挑战

    新加坡2024年6月3日 /美通社/ -- 新加坡通讯及新闻部部长Josephine Teo 女士推出了AI Verify- Project Moonshot,这是易于使用的测试工具包,旨在
    的头像 发表于 06-03 19:59 318次阅读
    新加坡推出Project Moonshot -- 这是<b class='flag-5'>一</b>款生成式人工智能测试<b class='flag-5'>工具包</b>,用于应对LLM安全和安保挑战

    Hugging Face推出开源机器人代码库LeRobot

    AI领域的佼佼者Hugging Face近日宣布重磅推出并全面开源其机器人工具包——LeRobot。这创新工具包基于史上最大规模的众包机器人数据集,为开发者提供
    的头像 发表于 05-09 10:32 702次阅读