0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

肖仰华:“知识图谱的落地最为重要的环节不是实现,而是论证与设计。”

电子工程师 来源:lq 2019-05-14 09:21 次阅读

“知识将比数据更重要,得知识者得天下”,去年十月,在 CSDN 对肖仰华教授的一篇约稿里,他指出数据的真正价值蕴含于其深加工的知识中。

从 Google 于 2012 年提出知识图谱概念后,知识图谱技术与大数据和机器学习等技术相结合得到迅速。肖仰华教授认为,在更多实际场合下,知识图谱作为一种技术体系,指代大数据时代知识工程的一系列代表性技术进展的总和。

人工智能时代的到来,知识图谱也成为了实现机器认知智能的基础,将知识库中的知识与问题或者数据加以关联后的知识图谱,可以让机器像人脑那样进行理解与解释。

基于知识图谱技术的潜在能力,业界也加快了知识图谱的应用落地。从应用的角度来看,知识图谱的应用趋势越来越从通用领域走向行业领域。肖仰华教授认为,现在的局面是通用与行业应用百花齐放,各行各业都在讨论适合自己的知识图谱。

知识图谱如何落地业界都在不断进行摸索,在肖仰华教授看来,知识图谱的落地除实现之外,论证与设计、运营与反馈也是不可忽视的。知识图谱落地是个系统工程,不是单一模型能够解决的,系统架构、流程、策略都十分重要。

当然,知识图谱落地还需要探讨更为具体的问题。比如领域知识图谱构建时如何界定领域知识边界?一个合格的领域知识图谱有什么评价标准?从目前业界卖数据阶段到提取出出知识之间的鸿沟有多大?知识图谱产业有哪些已然明确的发展方向?知识图谱近年来从理论上是不是没有多大进步?

作为 5 月 25 日-5 月 27 日即将在杭州举办的 CTA 大会(官网:https://dwz.cn/iSZ7BQUR)知识图谱论坛的演讲嘉宾,AI科技大本营对肖仰华教授进行了采访,对上述重要的指向性问题,他一一进行了详细解答。

(肖仰华,复旦大学计算机科学与技术学院教授,博士生导师,知识工场实验室负责人。)

以下为采访内容实录:

AI科技大本营:现在所称的知识图谱实际上是一种大规模语义网络,这里强调的“大规模”怎么定义?是否有量化标准?

肖仰华:这里讲的“大规模”并不是从数量上来衡量的,不是说数据量大一点的就叫做知识图谱,数据量小一点的就叫做语义网络。

我们强调知识图谱是一种大规模语义网络,是为了让大家转变思维,意识到规模上的量变会带来了效用上的质变。同样是构建语义网络,知识图谱从知识获取到知识应用均与传统语义网络存在显著区别。这种区别体现在:(1)高质量模式缺失或被有意舍弃;(2)封闭世界假设不再成立;(3)大规模自动化知识获取成为前提。

AI科技大本营:关于知识图谱生命周期,您特意提到如何融合知识图谱与传统知识表示来更充分满足实际应用需求是值得研究的问题之一。反过来看,是否意味着目前还不存在新的比较靠谱的知识表示方法?

肖仰华:准确来说,目前并不存在大一统的一种知识表示方法,可以用来表示所有知识。所以我在之前提到的一个观点叫做“NoKG”,也就是 Not only KG。这里是借鉴“NoSQL”的说法。

知识图谱只是知识表示的一种,单单知识图谱不足以表达现实世界的丰富语义,不足以解决所有问题。比如很多领域有着丰富的 if-then 规则(比如故障维修、计算机系统配置),这些规则利用知识图谱表达就很牵强,特别是对于 if A and B then C 这样的规则。因此,鼓励知识表示方法“百家齐放”,什么场景下适合什么知识表示就用什么知识表示方法。

AI科技大本营:为了规避业界“为图谱而图谱”的现象,您认为知识图谱应用实践最重要的是明确要利用领域知识解决怎样的应用问题,然后根据应用反推知识表示。但知识是网状的,领域知识之间也存在勾连,那在做某一领域知识图谱时如何界定知识边界的范围?

肖仰华:界定实际应用的知识边界是非常困难的,这是一种定性判断,而非定量判断。我们可以从可行性的角度来进行界定,一般而言一个应用涉及的知识越简单、应用越简单就越可能实现。为了确定自己的应用是否符合知识简单、应用简单,可以通过以下三类问题来进行判断:

(1)应用复杂性

Q1:是否用到常识?Q2:是否用到元知识?Q3:是否单一问题模型即可建模(比如分类或者回归)?Q4:是否涉及长程推理?Q5:用到的知识类型是否多样?Q6:领域专家的学习周期是否很长?Q7:是否简单的岗位培训就能胜任应用需求?Q8:应用是否封闭?

(2)知识复杂度

Q1:知识是否容易发生变化?Q2:是否涉及复杂过程的描述?Q3:是否涉及分支繁复的推理决策?

(3)知识资源积累

Q1:是否存在领域本体?Q2:是否存在叙词表?Q3:是否存在领域词典?

AI科技大本营:领域知识图谱作为语义网络,目前还难以表达复杂因果关联与复杂决策过程,既然如此,业界现在做领域知识图谱的壁垒究竟有多高?体现在哪些方面?

肖仰华:壁垒可能包括数据和场景。领域数据是一个企业的护城河,没有大数据的企业根本玩不转;领域场景也不像通用场景那么简单,需要长期深耕用户,准确理解用户的痛点,才能更好的设计出适用于知识图谱的场景。同时,领域应用的样本稀疏、场景多样、知识表示复杂等对于业界的知识图谱技术均提出了巨大挑战。

AI科技大本营:一个合格的领域知识图谱有什么评价标准?

肖仰华:领域图谱的评价标准总体而言有三个方面的指标。

(1)规模。这只是个相对的概念,一个知识库到底需要多大的规模才能支撑实际应用,是没有绝对答案的。需要看实际应用的反馈,也就是知识图谱上线后的用户满意率。比如在利用知识图谱支撑语义搜索方面,多少查询能被准确理解,这个比率是个重要的指标。

(2)质量。包括以下几个维度。一是、准确率。比如是否存在错误事实,错误事实所占比例都是质量的直接反映。二是、知识的深度。比如很多知识库只涵盖人物这样的大类,无法细化到作家、音乐家、运动员这些细分类目(fine-grained concepts)。三是、知识的粒度。粒度越细应用越灵活,应用时精读越高。细化知识表示的粒度是领域知识图谱的构建过程中的重要任务之一。

(3)实时。绝对实时是不现实的,因而实时大都从知识的延时(latency)角度进行刻画。短延时显然是我们所期望的。

AI科技大本营:目前来看,知识图谱在业界的应用似乎更偏向于领域知识图谱( DKG),通用知识图谱(GKG)的发展处于何种阶段?业界公司做 GKG 是否必要?会不会做成像语音助手 Siri 那样的鸡肋应用?

肖仰华:目前通用知识图谱的发展已经趋近于成熟,主要以百科类网站作为数据源进行知识抽取构建而得,技术和应用都基本固定,想有所创新比较难。业界应该把更多的精力放在构建领域知识图谱上,领域应用的场景多样、知识的深度更深、粒度更细,更有可能做出不是鸡肋的应用。

AI科技大本营:您说“得知识者得天下”,但目前业界还处在卖数据盈利的阶段,从卖数据到提取出“精纯”的知识之间的鸿沟有多大?通往知识的“路径”中,哪些属于已经是非常明确的基础性方向,哪些还在探索当中?

肖仰华:知识图谱的产业形态分为三类典型形态:数据与服务、产品与系统、咨询与解决方案。

(1) 数据与服务。各行业均对知识图谱有着迫切需求,想建设通用或者领域知识图谱,并将知识图谱中的数据对外提供服务。直接的图谱数据服务能力有限,在一些深度服务需求比较多的场景,在知识图谱数据基础上进一步提供认知服务。

目前大平台类似 IBM Watson、微软认知服务、百度大脑平台都在尝试知识图谱数据与认知服务。除了通用知识图谱之外,特定领域或者行业的知识图谱也对数据与服务有着强烈需求。在图书情报、出版传媒、招聘就业、知识产权等相关领域,由于缺乏头部企业,这为第三方平台的存在提供了较大的发展空间,并且这些领域数据相对公开容易获取,使得构建独立的第三方服务平台成为可能。

(2) 产品与系统。知识图谱的大规模应用与产业化是需要个类成熟的产品与软件系统支撑的,比如很多行业图谱的建设均需要互联网数据源的补充,这就需要大规模的分布式爬虫系统。建好的大规模知识图谱通常需要图系统的管理,这就是图数据库系统,大量的企业或者团队在从事相关系统的研发。

目前涉及知识获取的产品与系统仍然有很大的发展空间。知识获取总体上仍处在发展中阶段,技术尚未定型,为其固化相应的产品形态具有一定的风险,需要予以充分考虑。

(3)咨询与解决方案。知识图谱知识工程是个典型的系统工程,很多时候与建筑工程十分相似,都需要论证、设计、实施、监理、验收等各个环节。

知识图谱落地过程中最为重要的环节不仅是实现,更需要论证与设计。因此也就给专注于知识图谱咨询和解决方案设计与实施的企业提供了丰富的机会。

AI科技大本营:Google 从 2012 年提出知识图谱后,有人认为其在理论上其实没有特别大的进步,更多是从实践中去发现吸纳了新的技术方法,您同意这种说法吗?

肖仰华:大数据时代的到来,催生了以知识图谱为代表的大规模知识表示,同时也为其发展奠定了必要的基础。今天这个时代谈知识工程跟 20 世纪谈专家系统有什么不同?最大的不同点是我们有前所未有的大数据、前所未有的机器学习能力以及前所未有的计算能力。这三个技术的合力作用使我们可以摆脱对专家的依赖,使实现大规模自动化知识获取成为可能,这也是大数据知识工程的根本。这一种知识获取,本质上可以称为自下而上的获取。

显然,这种数据驱动的知识获取方式与人工构建的知识获取方式完全不同。前者可以实现大规模自动化知识获取,无须高昂的人力成本。相对于人工构建的知识获取方式,数据驱动的知识获取方式是一种典型的自下而上的做法,是相对务实、实用的做法。大数据时代所发展出来的众包技术使得知识的规模化验证成为可能。知识获取的众多环节均可以受益于众包技术。比如,训练知识抽取模型时可以通过众包获取标注样本,从而构建有效的有监督抽取模型。

在知识图谱技术的引领下,各种各样的知识表示将在不损失质量的前提下逐步提升规模,从小规模的知识表示变成大规模的知识表示,最终应对大规模开放性给知识工程带来的巨大挑战。

AI科技大本营:谈谈您对知识图谱和图结构、深度学习结合的看法。

肖仰华:知识图谱本质上是一种语义网络,表达了各类实体、概念及其之间的语义关系。也就是说,它本身就具有图结构的性质。目前主要利用其图结构化的性质,用在知识图谱查询、存储等方面。

现阶段将深度学习技术应用于知识图谱的方法较为直接,大量的深度学习模型可以有效完成端到端的实体识别、关系抽取和关系补全等任务,进而可以用来构建或丰富知识图谱。

知识图谱在深度学习模型中的应用主要有两种方式。一是将知识图谱中的语义信息输入到深度学习模型中,将离散化知识图谱表达为连续化的向量,从而使得知识图谱的先验知识能够成为深度学习的输入;二是利用知识作为优化目标的约束,指导深度学习模型的学习;通常是将知识图谱中知识表达为优化目标的后验正则项。前者的研究工作已有不少文献,并成为当前研究热点,知识图谱向量表示作为重要的特征在问答以及推荐等实际任务中得到有效应用。后者的研究才刚刚起步。

但总体而言,当前的深度学习模型使用先验知识的手段仍然十分有限,学术界在这一方向的探索上仍然面临巨大的挑战。这些挑战主要体现在两个方面:(1)如何获取各类知识的高质量连续化表示;(2)如何在深度学习模型中融合常识知识。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 互联网
    +关注

    关注

    54

    文章

    11070

    浏览量

    102592
  • 机器学习
    +关注

    关注

    66

    文章

    8346

    浏览量

    132289
  • 知识图谱
    +关注

    关注

    2

    文章

    132

    浏览量

    7682

原文标题:肖仰华:知识图谱落地,不止于“实现”

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    三星自主研发知识图谱技术,强化Galaxy AI用户体验与数据安全

    据外媒11月7日报道,三星电子全球AI中心总监Kim Dae-hyun近日透露,公司正致力于自主研发知识图谱技术,旨在进一步优化Galaxy AI的功能,提升其易用性,并加强用户数据的隐私保护。
    的头像 发表于 11-07 15:19 230次阅读

    三星电子成功收购英国初创公司,致力开发AI核心技术

    7月18日,三星电子正式对外宣布了一项重要战略举措——成功收购英国新兴科技企业Oxford Semantic Technologies。这家初创公司成立于2017年,专注于前沿的知识图谱技术领域,致力于开发能够赋能更复杂AI应用的核心技术。
    的头像 发表于 07-18 15:40 483次阅读

    三星电子将收购英国知识图谱技术初创企业

    在人工智能技术日新月异的今天,三星电子公司再次展现了其前瞻性的战略布局与技术创新实力。近日,三星正式宣布完成了对英国领先的人工智能(AI)与知识图谱技术初创企业Oxford Semantic Technologies的收购,此举标志着三星在提升设备端AI能力、深化个性化用户体验方面迈出了
    的头像 发表于 07-18 14:46 486次阅读

    知识图谱与大模型之间的关系

    在人工智能的广阔领域中,知识图谱与大模型是两个至关重要的概念,它们各自拥有独特的优势和应用场景,同时又相互补充,共同推动着人工智能技术的发展。本文将从定义、特点、应用及相互关系等方面深入探讨知识图谱与大模型之间的关系。
    的头像 发表于 07-10 11:39 832次阅读

    探究冶成为Apple 重要供应商的秘诀

    作为国内唯一一家以自粘漆包线为主业的线材企业,冶是如何实现精密特种线的市场优势地位?未来他们又有着怎样的规划? 我们从广州来到湖北咸宁,探访一家全球头部品牌手机的矩形线材产品重要供应商——湖北中科
    的头像 发表于 07-05 09:16 314次阅读
    探究<b class='flag-5'>华</b>冶成为Apple <b class='flag-5'>重要</b>供应商的秘诀

    股份集成电路核心装备新材料生产基地封顶

    作为一家专注20余年石英加工的企业,上海强华实业有限公司主要生产和销售高质量、精密石英产品。尤为重要的是,石英产品被广泛运用于半导体芯片制造关键环节以及工艺流程,强股份已经成为了诸如中芯国际、北方
    的头像 发表于 03-05 09:46 515次阅读

    利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统(下)

    对于语言模型(LLM)幻觉,知识图谱被证明优于向量数据库。知识图谱提供更准确、多样化、有趣、逻辑和一致的信息,减少了LLM中出现幻觉的可能性。
    的头像 发表于 02-22 14:13 1069次阅读
    利用<b class='flag-5'>知识图谱</b>与Llama-Index技术构建大模型驱动的RAG系统(下)

    知识图谱基础知识应用和学术前沿趋势

    知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其关系。是融合了认知计算、知识表示与推理、信息检索与抽取、自然语言处理、Web技术、机器学习与大数据挖掘等等方向的交叉学科。人工智能是以传统符号派与目前流行的深度神经网路为主,如下图所示,
    的头像 发表于 01-08 10:57 838次阅读
    <b class='flag-5'>知识图谱</b>基础<b class='flag-5'>知识</b>应用和学术前沿趋势

    秋2023年度大事记~~

    ,积极开展生态合作,举办线下研讨会,集结行业智慧,共同探讨增效降本的可行之道。山河为证,时光无言,秋在每一个平凡的日子努力向上“发展”,实现了一次又一次的跨越与突破。 下面让我们通过这篇短文回顾秋这一
    发表于 01-05 10:59

    秋2023年度总结 | 聚焦发展,勇往直前

    ,积极开展生态合作,举办线下研讨会,集结行业智慧,共同探讨增效降本的可行之道。山河为证,时光无言,秋在每一个平凡的日子努力向上“发展”,实现了一次又一次的跨越与突破。 下面让我们通过这篇短文回顾秋这一
    发表于 01-05 10:57

    ADXL354BEZ在测量振动时为什么不是平稳的正弦波而是出现了包络?

    ADXL354BEZ在测量振动时为什么不是平稳的正弦波而是出现了包络。
    发表于 12-27 07:04

    智慧灯杆产业链企业图谱

    智慧灯杆产业链企业图谱智慧灯杆产业链企业图谱智慧灯杆产业链企业图谱智慧灯杆产业链企业图谱智慧灯杆产业链企业图谱智慧灯杆产业链企业
    发表于 12-11 17:36 1次下载

    助力电子产业高质量发展,秋电子设计与制造技术研讨会成功举办

    虽然仅占总成本的8%,但决定了总成本的80%。PCB板厂在工程设计环节,基于不同的开发需求及制造工艺,通过优化设计,确保产品质量,降低成本,保证生产顺畅尤为重要秋PCB工程部资深经理周炜专,PCB
    发表于 11-24 16:50

    数字化供应链助力电子产业高质量发展,秋2023电子设计与制造技术研讨会成功举办!

    虽然仅占总成本的8%,但决定了总成本的80%。PCB板厂在工程设计环节,基于不同的开发需求及制造工艺,通过优化设计,确保产品质量,降低成本,保证生产顺畅尤为重要秋PCB工程部资深经理周炜专,PCB
    发表于 11-24 16:47

    ADXL354BEZ在测量振动时为什么不是平稳的正弦波而是出现了包络?

    ADXL354BEZ在测量振动时为什么不是平稳的正弦波而是出现了包络。
    发表于 11-13 14:24