0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌推出数据集搜索黑科技,再也不用发愁找数据!

ExMh_zhishexues 来源:未知 作者:胡薇 2018-09-14 14:09 次阅读

旨在整合全球互联网信息的谷歌,其首要目标本来是林林总总的商业网站。但最近,它推出了一种新型的数据集搜索引擎,将服务目标延展到了科研社群。这就是属于科研工作者等数据狂的黑科技——Google Dataset Search(谷歌数据集搜索)。

谷歌数据集搜索发起了一次数据搜索的革命,它让人们能够迅速获取分散在全互联网的各式数据集。无论是网站、数字图书馆还是专业数据库,只要是存在于线上的共享数据集,就能够被引擎找到。用户键入搜索信息后,谷歌会分析比对相同数据集的不同版本,并尽可能地检索有价值的相关信息。

实际上,这次革命的核心工具非常纯粹,就是一个可以将各式数据集集中在一起加以描述检索的开放标准(http://schema.org)。数据发布者按照这个标准所定义的标签框架,对发布的数据内容进行标签式的描述。定义的标签包括发布时间、发布方、数据收集方式等等。而引擎随后会将这些标签信息编入索引,并与谷歌知识谱图结合使用,从而使本来分布零散的数据集成为一个能够统一检索的强大系统。

Figure.1Google Dataset Search使用实例

Figure.2Google Dataset Search使用实例

谷歌的人工智能科学家娜塔莎·诺伊(Natasha Noy)接受采访时表示,创建数据集搜索的目标是将数以万计的在线数据集统合展示,并非自行建立数据库收集数据,她说:“我们只是希望这些数据能够被人们轻松获取,并不是想将其收集挪动到其他地方。“

目前,互联网上的数据集资料分布极其零散。不同的学科领域各自拥有自己的首选资源库,各政府机构和地方当局更是如此。诺伊说:“科学家们当然知道能在哪些专业数据库找到他们自己领域的数据,但他们有时想要的并不是这一类数据。而一旦他们将视野拓展到专业领域之外,数据搜寻就会变得十分困难。”

诺伊举了一个她亲历亲闻的例子,一位气象学家在为即将开展的研究寻找海洋温度的特定数据集,但怎么也找不到。她没有继续追踪,直到她在遇到了相关方面的同事,在同事的帮助下她才找到那个数据库。然后她的研究工作才得以继续。诺伊说:“虽然保存数据的地方算是很显见,数据描述也写得很清晰,但仍然很难被找到。”

该搜索引擎的初始版本主要包括来自ProPublica等新闻机构以及政府机构的数据和数据集。 但是,如果这项搜索服务最终流行起来,那么随着机构和科学家争相开放数据的访问权限,它所囊括的数据量肯定会呈现滚雪球式的成长。

而近年来,世界各地关于数据开放共享的倡议正在蓬勃发展,这将有助于数据集搜索引擎的实现。诺伊认为,在过去的几年里,可共享数据的存量已经爆炸,她将此归功于科学文献中数据的重要性在日益增长——因为期刊会要求作者将数据集发布出来。而除此之外,美国政府和欧洲政府的法律法规也在进一步引导数据开放共享。

开放数据研究所(ODI)首席执行官Jeni Tennison表示,Google参与到开放数据行动中来,将更有利于这项运动获得成功。数据集搜索一直是一个很困难的事情,希望谷歌能让它变得更加容易。她进一步说,要创建一个像样的搜索引擎,你需要知道如何构建对用户友好的系统,并了解人们在键入某些短语时的真实所想。而谷歌对这些了如指掌。事实上,对于搜索引擎来说,最重要的是用户所产生的行为数据,这才是促进引擎快速成长的活力源泉。所以,虽然搜索引擎赖以抓取数据集的元数据标签是一个开放标准,任何竞争对手(如Bing或Yandex等)都可以使用它来构建自己的竞争服务,但谷歌从没有丧失自己的真正优势。Tennison也表示:“直观地了解人们的搜索方式很重要,譬如,他们在检索时会使用什么样的术语,又会如何表述这些术语。从了解人们如何搜索数据,并据此进一步推进数据开放的角度说,如果谷歌能够开放自己的用户行为数据,将会大有裨益。”

总而言之,更多的数据开放共享是值得期待的潮流,而谷歌无疑又一次扛起了领头的大旗。当然,在谷歌完全回归中国之前,我们距离便利还会多一个梯子的距离。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6126

    浏览量

    104891
  • 搜索引擎
    +关注

    关注

    0

    文章

    115

    浏览量

    13347

原文标题:谷歌新推数据搜索,科学研究还爬楼么?

文章出处:【微信号:zhishexueshuquan,微信公众号:知社学术圈】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    谷歌取消“站点链接搜索框”,适应新搜索需求

    近日,谷歌发布了一则通知,决定取消搜索结果中的“站点链接搜索框”。这一功能已经陪伴了用户十多年,它允许用户在特定网站上进行更深入的搜索,为许多网民提供了便利。然而,随着时代的变迁和技术
    的头像 发表于 10-23 11:20 269次阅读

    OpenAI将推出在线搜索工具“SearchGPT”

    科技巨头OpenAI正悄然酝酿一场搜索领域的变革,其最新推出的在线搜索工具“SearchGPT”正悄然挑战着Alphabet旗下谷歌搜索
    的头像 发表于 07-26 16:54 620次阅读

    SMT32F429频繁接收数据之后,发送会报错ERR_MEM(-1)的原因?

    in ../Middlewares/Third_Party/LwIP/src/core/pbuf.c 频繁接收数据之后,发送会报错ERR_MEM(-1),后面就再也不能正常收发数据了。 各位大佬,请问这是什么原因导致的?或者如
    发表于 07-05 06:23

    PyTorch如何训练自己的数据

    PyTorch是一个广泛使用的深度学习框架,它以其灵活性、易用性和强大的动态图特性而闻名。在训练深度学习模型时,数据是不可或缺的组成部分。然而,很多时候,我们可能需要使用自己的数据
    的头像 发表于 07-02 14:09 1127次阅读

    请问NanoEdge AI数据该如何构建?

    我想用NanoEdge来识别异常的声音,但我目前没有办法生成模型,我感觉可能是数据的问题,请问我该怎么构建数据?或者生成模型失败还会有哪些原因?
    发表于 05-28 07:27

    谷歌将在AI搜索中加入广告

    谷歌近日宣布,将在美国测试在人工智能生成的答案中嵌入搜索和购物广告。这一创新举措紧随其年度I/O大会上推出的人工智能概览功能之后。
    的头像 发表于 05-23 09:23 416次阅读

    谷歌推出新一代AI数据中心芯片Trillium

    2024年5月,谷歌母公司Alphabet在业界掀起了一股技术革新的浪潮,其最新推出的人工智能数据中心芯片“Trillium”备受瞩目。这款芯片作为谷歌的第六代产品,相较于前代TPUv
    的头像 发表于 05-16 10:44 505次阅读

    OpenAI计划下周一宣布对标谷歌搜索的竞品

    OpenAI即将在下周一揭晓一项重大创新,他们计划推出一款全新的AI搜索产品,以挑战当前搜索领域的巨头谷歌。这一决定无疑将加剧双方在搜索市场
    的头像 发表于 05-11 09:22 327次阅读

    谷歌Vertex AI搜索在医疗保健领域正式推出

    谷歌公司近日宣布,其Vertex AI搜索功能在医疗保健领域正式亮相,并已成功与MedLM以及医疗保健数据引擎(HDE)完成集成。这一创新功能专为医护人员设计,旨在从繁杂的医疗记录中快速且精准地提取出关键的临床信息。
    的头像 发表于 03-22 14:08 537次阅读

    苹果微软曾洽购必应,因谷歌搜索质量未果

    CNBC及其他媒体引述的美国司法部反垄断公诉书详细列举了谷歌搜索领域所持的垄断角色。诉状中透露,尽管微软多次试图将必应用户作为Safari浏览器的默认搜索引擎,但每一次均因搜索结果质
    的头像 发表于 02-25 10:39 609次阅读

    谷歌搜索引擎优化的各个方面和步骤

    谷歌搜索引擎是最受欢迎和广泛使用的搜索引擎之一,为了使你的网站在谷歌上更好地排名并提高曝光度,你可以采取一些谷歌
    的头像 发表于 01-25 10:29 811次阅读

    自动驾驶领域的数据汇总

    发自动驾驶论文哪少的了数据,今天笔者将为大家推荐一篇最新的综述,总结了200多个自动驾驶领域的数据,大家堆工作量的时候也可以一些小众的
    的头像 发表于 01-19 10:48 909次阅读
    自动驾驶领域的<b class='flag-5'>数据</b><b class='flag-5'>集</b>汇总

    语音数据在智能语音搜索中的应用与挑战

    一、引言 随着互联网的普及和移动设备的兴起,智能语音搜索已经成为人们获取信息的重要方式之一。智能语音搜索通过语音交互的方式,为用户提供更加便捷、高效的信息查询服务。语音数据在智能语音
    的头像 发表于 01-18 15:09 498次阅读

    再也不用手动关灯了,用安信可的小安派做一个智能家居中控

    本作品由安信可社区用户 noonezero 制作 以下是我的项目之再也不用手动关灯系列,为了方便小伙伴们看效果,大家可以先点击看视频。 https://www.bilibili.com/video
    的头像 发表于 01-08 17:26 502次阅读
    <b class='flag-5'>再也不用</b>手动关灯了,用安信可的小安派做一个智能家居中控

    大模型数据:力量的源泉,进步的阶梯

    一、引言 在    的繁荣发展中,大模型数据的作用日益凸显。它们如庞大的知识库,为AI提供了丰富的信息和理解能力。本文将用一种独特的风格来探讨大模型数据的魅力和潜力。 二、大模型
    的头像 发表于 12-07 17:18 608次阅读