0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

腾讯AI实验室是如何构建的?有什么特点

悟空智能科技 2018-12-01 09:57 次阅读

又一来自腾讯AI实验室的资源帖。腾讯AI实验室宣布,正式开源一个大规模、高质量的中文词向量数据集。该数据集包含800多万中文词汇,相比现有的公开数据,在覆盖率、新鲜度及准确性上大幅提高。在对话回复质量预测、医疗实体识别等自然语言处理方向的业务应用方面,腾讯内部效果提升显著。

数据集特点

总体来讲,腾讯AI实验室此次公开的中文词向量数据集包含800多万中文词汇,其中每个词对应一个200维的向量。

具体方面,腾讯自称,该数据集着重在3方面进行了提升:

1. 覆盖率(Coverage):

该词向量数据包含很多现有公开的词向量数据所欠缺的短语,比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜”、“喀拉喀什河”等。

以“喀拉喀什河”为例,利用腾讯AI Lab词向量计算出的语义相似词如下:

墨玉河、和田河、玉龙喀什河、白玉河、喀什河、叶尔羌河、克里雅河、玛纳斯河

2. 新鲜度(Freshness):

该数据包含一些最近一两年出现的新词,如“恋与制作人”、“三生三世十里桃花”、“打call”、“十动然拒”、“供给侧改革”、“因吹斯汀”等。

以“因吹斯汀”为例,利用腾讯AI Lab词向量计算出的语义相似词如下:

一颗赛艇、因吹斯听、城会玩、厉害了word哥、emmmmm、扎心了老铁、神吐槽、可以说是非常爆笑了

3. 准确性(Accuracy):

由于采用了更大规模的训练数据和更好的训练算法,所生成的词向量能够更好地表达词之间的语义关系,如下列相似词检索结果所示:

在开源前,腾讯内部经历了多次测评,认为该数据集相比于现有的公开数据,在相似度和相关度指标上均达到了更高的分值。

数据集构建经验

那么这样的数据集,腾讯AI实验室是如何构建的呢?

他们围绕3方面分享了构建及优化经验:

1. 语料采集:

训练词向量的语料来自腾讯新闻和天天快报的新闻语料,以及自行抓取的互联网网页和小说语料。

大规模多来源语料的组合,使得所生成的词向量数据能够涵盖多种类型的词汇。

而采用新闻数据和最新网页数据对新词建模,也使得词向量数据的新鲜度大为提升。

2. 词库构建:

除了引入维基百科和百度百科的部分词条之外,还实现了Shi等人于2010年提出的语义扩展算法,可从海量的网页数据中自动发现新词——根据词汇模式和超文本标记模式,在发现新词的同时计算新词之间的语义相似度。

3. 训练算法:

腾讯AI Lab采用自研的Directional Skip-Gram (DSG)算法作为词向量的训练算法。

DSG算法基于广泛采用的词向量训练算法Skip-Gram (SG),在文本窗口中词对共现关系的基础上,额外考虑了词对的相对位置,以提高词向量语义表示的准确性。

意义

最后,表扬一下鹅厂的开源之举。

目前针对英语环境,工业界和学术界已发布了一些高质量的词向量数据,并得到了广泛的使用和验证。

其中较为知名的有谷歌公司基于word2vec算法、斯坦福大学基于GloVe算法、Facebook基于fastText项目发布的数据等。

然而,目前公开可下载的中文词向量数据还比较少,并且数据的词汇覆盖率有所不足,特别是缺乏很多短语和网络新词。

所以有资源有能力的腾讯,还有心做这样的事情,对业界实属利好。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30728

    浏览量

    268892
  • 腾讯
    +关注

    关注

    7

    文章

    1652

    浏览量

    49423

原文标题:资源 | 腾讯开源800万中文词的NLP数据集

文章出处:【微信号:WUKOOAI,微信公众号:悟空智能科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    梯度科技成为AI Cloud MSP技术服务实验室首批成员单位

    近日,2024全球数字经济大会云·AI·计算国际合作论坛成功召开。会上,公布了AI Cloud MSP技术服务实验室首批成员单位,梯度科技凭借在人工智能云管理服务领域的卓越实力成为AI
    的头像 发表于 12-18 10:07 135次阅读

    创梦天地与腾讯云携手成立联合创新实验室

    成立联合创新实验室,旨在深化并拓展双方在游戏研发中的合作。 根据协议,联合创新实验室将围绕“AI助力游戏研发提质增效”这一主题展开工作。双方将在已有的AI代码助手、
    的头像 发表于 11-21 13:58 329次阅读

    LIMS系统在芯片实验室中的应用

    在高速发展的芯片行业中,芯片实验室作为技术创新和产品验证的核心部门,面临着诸多挑战与问题。这些问题不仅影响了实验室的工作效率,还可能对芯片产品的质量和研发周期产生不利影响。幸运的是,LIMS系统
    的头像 发表于 11-07 17:59 278次阅读

    深圳南柯电子 电磁兼容性EMC实验室构建与测试的关键要素

    深圳南柯电子|电磁兼容性EMC实验室构建与测试的关键要素
    的头像 发表于 11-05 14:53 241次阅读
    深圳南柯电子 电磁兼容性EMC<b class='flag-5'>实验室</b>:<b class='flag-5'>构建</b>与测试的关键要素

    LIMS实验室管理平台的实施步骤

    实验室信息管理系统(LIMS)是现代实验室管理的核心,它通过集成各种实验室操作流程,提高实验室的工作效率和数据管理能力。实施LIMS系统是一个系统化的过程,需要精心规划和执行。以下是实
    的头像 发表于 10-29 09:10 351次阅读

    实验室数据管理与LIMS平台的关系

    实验室数据管理(Laboratory Data Management)是指对实验室产生的数据进行收集、存储、处理、分析和报告的过程。这包括了样品的接收、测试结果的记录、质量控制数据的跟踪以及最终报告
    的头像 发表于 10-28 18:10 454次阅读

    荣耀与智谱携手共建AI大模型联合实验室

    近日,荣耀终端有限公司与北京智谱华章科技有限公司正式携手,共同宣布成立AI大模型技术联合实验室,并签署了战略合作协议。此次合作标志着双方在人工智能领域的深度合作迈入新阶段,共同致力于为用户带来前所未有的智能体验。
    的头像 发表于 09-03 18:15 1015次阅读

    中软国际金融AI实验室成立 引领金融科技新动力

    进程的新里程碑。 推动金融智能化  中软国际金融AI实验室的使命是通过 AICC 人工智能客户联络中心构建的金融解决方案,驱动下一代金融呼叫中心的企业工作流程。实验室致力于在金融领域推
    的头像 发表于 08-01 18:49 929次阅读

    优刻得与联想AI实验室携手共建高效AI资源池

    近日,云计算服务提供商优刻得(UCloud)与联想AI实验室宣布达成战略合作,双方将共同打造一个高效且灵活的本地化AI资源池,旨在加速AI技术的研发与应用创新。此次合作标志着优刻得在推
    的头像 发表于 07-14 14:19 1087次阅读

    DEKRA德凯为Hisense海信实验室授予CTF实验室资质

    近日,全球领先的检验检测认证机构DEKRA德凯为海信家电集团洗护技术测试研究中心(以下简称:Hisense海信)实验室授予CTF实验室资质。
    的头像 发表于 04-10 14:52 527次阅读

    简述超声波清洗机在实验室中独特的清洗优点

    实验室超声波清洗机具有高效、环保、适用范围广、操作简便和安全可靠等独特清洗特点。这些特点使得超声波清洗机在实验室清洗领域得到了广泛应用,并成为了实验
    的头像 发表于 03-18 09:02 389次阅读
    简述超声波清洗机在<b class='flag-5'>实验室</b>中独特的清洗优点

    Cognizant成立高级人工智能实验室

    近日,全球领先的IT解决方案提供商Cognizant宣布在旧金山成立高级人工智能(AI实验室。该实验室的成立标志着Cognizant在人工智能领域的进一步深耕,旨在通过前沿技术和创新应用,推动人工智能技术的快速发展和应用落地。
    的头像 发表于 03-11 10:36 595次阅读

    加固平板电脑在医疗实验室上的应用

    加固平板电脑在医疗实验室中的发挥了非常重要的作用。在亿道三防onerugged系列产品中,加固平板电脑以其独特的功能特点和可靠性,为医疗实验室的工作带来了深远的影响。
    的头像 发表于 02-25 11:03 351次阅读

    上海AI实验室发布新一代书生·视觉大模型

    近日,上海人工智能实验室(上海AI实验室)联手多所知名高校及科技公司共同研发出新一代书生·视觉大模型(InternVL)。
    的头像 发表于 02-04 11:25 1100次阅读

    实验室设备定位管理系统

    实验室设备定位管理系统是一种用于实验室设备管理和定位的系统。它利用物联网技术和定位技术,帮助实验室管理人员实时了解实验室内设备的位置和状态,提高设备的利用率和管理效率。 该系统使用传感
    的头像 发表于 01-10 16:13 830次阅读