0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据挖掘,数据结构化首当其冲

MqC7_CAAI_1981 来源:未知 作者:李倩 2018-06-11 09:39 次阅读

现实中的大数据常常表示为一种非结构化,交叉和动态变化的文本数据。如何从大规模文本数据中抽取结构化知识是一个非常值得研究的任务。很多研究工作依赖于劳动密集型的数据标注,用有监督的方法去抽取知识。但是,这些方法不具有普适性,难以扩展,进而难以处理具有动态性或领域限定性的文本数据。我们认为大规模的文本数据其自身蕴含着大量的模式、结构或知识。通过将无领域限制的大规模文本数据和具有领域限制的知识库结合,我们可以充分发挥大规模文本数据的优势去处理非结构化数据转换为结构化数据的难题。

——韩家炜

2018中国人工智能大会(CCAI2018)将于7月28日至29日在深圳举行,韩家炜教授届时将在会上分享他关于大规模文本数据挖掘的最新研究,发表题为《基于海量文本数据的结构化知识抽取:数据挖掘、机器学习和自然语言处理的融合技术》的主题演讲,探讨如何借助大规模文本数据自身的力量去做大规模的知识提取。

适逢盛会,心向往之。会前,我们整理了韩教授以往关于大数据挖掘的相关观点,方便大家一睹为快。

韩家炜现为美国伊利诺伊大学香槟分校计算机系教授,ACM会士和IEEE会士,被称为“数据挖掘第一人”。他在数据挖掘领域有重要的学术影响力,发表论文600余篇,出版多部专著。曾担任国际知名会议KDD、SDM和ICDM程序委员会主席,创办了学术期刊ACM TKDD并担任主编。曾荣获2004 ACM SIGKDD创新奖、2005 IEEE计算机分会技术成就奖、2009 IEEE计算机协会的M. Wallace McDowell奖。他的专著Data Mining: Concepts and Techniques被公认为数据挖掘领域的经典教材。

大数据挖掘,数据结构化首当其冲

大数据(Big data或Megadata),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模十分巨大,以至于无法在合理时间内通过人工截取、管理、处理、并整理成为人类所能解读的信息。在总数据量相同的情况下,与个别分析独立的小型数据集(data set)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等;这样的用途正是大型数据集盛行的原因。

我们这个时代,由于互联网的发展,产生了大量数据。这些数据中绝大部分(超过 80%)都是以文本等无结构或半结构的方式存储。所以,挖掘大数据首先就是要系统地研究如何挖掘无结构的文本数据,也就是说,要实现从Big Data 到Actionable Knowledge的转变。

韩家炜认为,要将无结构的 Big Data 变成有用的 Knowledge,首先要做的就是将数据结构化。他提出两种结构化数据的形式,一种是异质网络(Heterogeneous Network),另一种是多维文本立方体(Multi-dimensional Text Cube)。由结构化数据生成 Knowledge 已经证明是很强大的,但是如何将原始无结构的数据变成有结构的数据(Network 或 Text Cube)则是非常困难的。

在 Network/Text Cube 到 Knowledge 的问题上,韩家炜等人已经做了很多研究工作,也已经由此获得了很多奖项;在无结构文本数据到有结构 Network/Text Cube 的路上他们也做出了许多尝试和成果,现在仍在不断求索中。

数据挖掘三部曲

韩家炜认为,数据挖掘的研究工作可以总结为三部曲:

(1)从文本数据中挖掘隐藏的结构。文本数据中隐藏着大量的结构,这步工作就是将这些数据挖掘出来

(2)将文本数据转化为有类型的 Network/Text Cube。将文本数据变成有结构、有类型的数据(Network/Text Cube)

(3)挖掘 Network/Text Cube 生成有用的知识。最后一步才是挖掘。

此外,在研究的推进过程中,他们也曾遇到了很多困难。

一是领域限制。用一般语料获得的实体标注在特定领域、动态领域或者新兴的领域无法很好的工作。

二是名称的歧义性。多个实体可能共享同一个表面名字(Surface Name,例如「Washington」,它可能是州、市、人名、球队名等)。

三是上下文稀疏。对同一个关系可能有许多种表示方法(想想中文有多少中表示体育比赛结果的方法)。

虽然数据挖掘已经有了成型的结构,但仍有重重困难需要克服。韩教授曾说:“在这条路上,我们现在只是找到了几个口子可以往前走。现在这还不是一条大路,只是一条小路。要想变成一条康庄大道,需要大家共同努力。这条路通宽了,将来我们就可以从大量的无结构的文本,变成大量的有用的知识。”

在即将到来的盛夏,韩家炜教授作为中国人工智能大会的特邀嘉宾,将会介绍他最近的研究:如何借助大规模文本数据自身的力量去做大规模的知识抽取?主要包括关键短语抽取,基于远监督的实体识别和关系分类,基于模式的信息提取方法,多元分类的自动发现以及多维文本数据集的构建等方法。在CCAI2018的报告中,韩家炜教授将证明数据挖掘、机器学习和自然语言处理三个技术进行融合是一个“非常重要且极有前途”的方向。

在CCAI2018,跟随开路先锋韩家炜教授,一起踏上这条非常重要且极有前途的路吧!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1791

    文章

    47352

    浏览量

    238784
  • 数据挖掘
    +关注

    关注

    1

    文章

    406

    浏览量

    24250
  • 大数据
    +关注

    关注

    64

    文章

    8894

    浏览量

    137492

原文标题:CCAI2018 | 韩家炜:大规模文本数据挖掘的新方向

文章出处:【微信号:CAAI-1981,微信公众号:中国人工智能学会】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    bds 系统的优缺点 bds与传统数据库的区别

    BDS(Big Data System)系统,通常指的是用于处理大数据的系统,它们能够处理大规模数据集,包括结构化、半结构化和非结构化
    的头像 发表于 11-22 15:48 454次阅读

    视觉软件HALCON的数据结构

    在研究机器视觉算法之前,我们需要先了解机器视觉应用中涉及的基本数据结构。Halcon数据结构主要有图像参数和控制参数两类参数。图像参数包括:image、region、XLD,控制参数包括:string、integer、real、handle、tuple数组等。
    的头像 发表于 11-14 10:20 426次阅读
    视觉软件HALCON的<b class='flag-5'>数据结构</b>

    emc技术在大数据分析中的角色

    大数据分析通常涉及来自多个来源和格式的数据。这些数据可能包括结构化数据(如数据库中的表格
    的头像 发表于 11-01 15:22 295次阅读

    架构师日记-从数据库发展历程到数据结构设计探析

    的提出,以表格形式组织数据数据之间存在关联关系,具有了良好的结构化和规范特性,成为主流数据库类型。 先来看一张
    的头像 发表于 09-25 11:20 811次阅读
    架构师日记-从<b class='flag-5'>数据</b>库发展历程到<b class='flag-5'>数据结构</b>设计探析

    嵌入式常用数据结构有哪些

    在嵌入式编程中,数据结构的选择和使用对于程序的性能、内存管理以及开发效率都具有重要影响。嵌入式系统由于资源受限(如处理器速度、内存大小等),因此对数据结构的选择和使用尤为关键。以下是嵌入式编程中常用的几种数据结构,结合具体特点和
    的头像 发表于 09-02 15:25 495次阅读

    基于分布式对象存储WDS的信托非结构化数据整合平台

    基于分布式对象存储WDS的信托非结构化数据整合平台
    的头像 发表于 08-28 09:56 353次阅读
    基于分布式对象存储WDS的信托非<b class='flag-5'>结构化</b><b class='flag-5'>数据</b>整合平台

    大数据分析平台网站

    结构化、半结构化和非结构化数据。 提供数据清洗、转换和加载(ETL)功能,确保数据质量。 2.
    的头像 发表于 06-28 15:46 679次阅读

    定期维护结构化布线对于办公室得重要性

    定期维护结构化布线对于办公室的顺利运行至关重要。结构化布线是指支持建筑物内各种数据、语音和视频系统的标准基础设施。它包括电缆、连接器、机架和其他构成网络主干的组件。 通过正确维护
    的头像 发表于 06-14 10:44 247次阅读

    探索编程世界的七大数据结构

    结构就像是一颗倒挂的小树,有根、有枝、有叶。它是一种非线性的数据结构,以层级的方式存储数据,顶部是根节点,底部是叶节点。
    的头像 发表于 04-16 12:04 394次阅读

    什么是结构化网络布线?结构化网络布线有哪些好处?

    在电缆领域,结构化网络布线这个术语经常被提及。人们将其用作流行语,但它的真正含义是什么?结构化布线到底是什么? 为了了解真正的含义,让我们看它的一些相关定义。 根据光纤协会的说法,结构化布线是由
    的头像 发表于 04-11 11:54 534次阅读

    结构化布线的好处多吗

    结构化布线是网络系统中的重要组成部分,因为它为数据传输提供了强大、可扩展且可靠的基础。通过遵守全球公认的标准,结构化布线可促进高速连接、简化故障排除并确保未来的可扩展性。考虑到这些优势,企业应优先
    的头像 发表于 04-07 11:15 449次阅读

    什么是网络系统中的结构化布线?

    结构化布线在网络系统中发挥着至关重要的作用,为组织内的无缝通信和数据传输提供了坚实的基础。这种综合基础设施旨在支持广泛的应用程序和技术。本文将深入探讨它是什么、为什么它很重要以及它为组织提供的好处
    的头像 发表于 04-07 10:58 416次阅读

    TASKING编译器是否可以将数据结构设置为 \"打包\"?

    TASKING 编译器是否可以将数据结构设置为 \"打包\"? GCC 很早以前就提供了这种可能性,可以将__attribute__((packed))与对齐指令结合使用。 对于
    发表于 03-05 06:00

    矢量与栅格数据结构各有什么特征

    矢量数据结构和栅格数据结构是地理信息系统(GIS)中最常用的两种数据结构。它们在存储和表示地理要素上有着不同的方法和特征。在接下来的文章中,我们将详细介绍这两种数据结构并比较它们的特点
    的头像 发表于 02-25 15:06 2645次阅读

    区块链是什么样的数据结构组织

    区块链是一种特殊的数据结构,它以分布式、去中心的方式组织和存储数据。区块链的核心原理是将数据分布在网络的各个节点上,通过密码学算法保证数据
    的头像 发表于 01-11 10:57 2274次阅读