谷歌发布查找在线数据的搜索引擎Dataset Search-电子发烧友网

9 月 5 日，谷歌发布了一个帮助研究者查找在线数据的免费搜索引擎 Dataset Search。谷歌表示，该引擎面向「科学家、数据记者、数据极客等人群」。该引擎有助于促进数据的开放利用和重复利用。

Dataset Search 与谷歌的其他专用搜索引擎（如用于搜索新闻和图像的引擎，以及 Google Scholar 和 Google Books）一样可以免费使用，它基于拥有者对文件和数据库的分类方式来查找文件和数据集。该引擎读取文件内容的方式与搜索引擎搜索网页的方式不同。有专家表示，该引擎填补了这一领域的空白，可以极大地促进开放数据运动的发展，这一运动旨在实现数据的开放利用和重复利用。

政府机构、科学出版社、研究机构甚至是个人研究者在全世界维护着成千上万的开源数据资源库，包含了数百万个数据集。

但那些想知道哪些类型的数据可用，或者那些希望定位已经存在的数据的研究者，通常依赖于口耳相传的信息。来自加州山景城的 Google AI 计算机科学家 Natasha Noy 说。

对于那些处于研究生涯早期阶段且还没有建立专业联系网络的研究者而言，这个问题尤其严重，Noy 说。这对于那些做交叉学科研究的人而言也是个严重的缺陷。例如，流行病学家需要访问气候数据，其可能与某种病毒的传播相关。

分类搜索

2017 年 1 月，Noy 及其谷歌同事 Dan Brickley 在一篇谷歌博客（https://ai.googleblog.com/2017/01/facilitating-discovery-of-public.html）中首次介绍了解决该问题的策略。

典型的搜索引擎分两个阶段运行。第一个阶段是通过在互联网上持续搜索来索引可用网页。第二个阶段是对索引网页进行排序，以使用户输入搜索词时，搜索引擎能够按相关度排序来提供搜索结果。

Noy 和 Brickley 写道，为了帮助搜索引擎索引现有数据集，拥有数据集的人应该使用一个叫作 Schema.org 的标准化词汇表来「标记」数据集，Schema.org 是谷歌和另外三个搜索引擎巨头（微软、雅虎和 Yandex）一起发起的项目，由 Brickley 管理。谷歌团队还开发了一种特殊算法来对搜索结果中的数据集进行排序。

由于谷歌在网页搜索中的主导地位，谷歌正在快速转入数据生态系统的消息刺激主要搜索引擎巨头进入该战场，对元数据进行标准化处理，伦敦数据共享公司 Figshare CEO Mark Hahnel 说道。（Figshare 由霍尔茨布林克出版集团管理，该集团也对 Nature 的出版公司持有大量股份。）

「到 11 月，我们接触的所有大学的数据都已经标记完成。我认为这对学界的开放数据而言是一项重要变革。」Hahnel 说道。

Hahnel 认为，融资机构有时强制要求研究数据必须可获取，而只要信息能够高效获取，他们就能达到其最终目的。「这使得投资机构一直尝试做的事合法化。」

谷歌为用户提供了能够同时搜索多个存储区的单个界面，希望借此改变用户发布和运用数据的方式。谷歌表示这个项目能够带来下列好处：

形成数据共享生态系统，鼓励数据发布者依照最佳做法来存储和发布数据；

为科学家提供相应平台，方便大众引用他们创建的数据集，展现他们的研究成果所带来的影响力。

搜索试验

目前谷歌已经正式对外测试开源数据集搜索引擎，用户在键入数据集名称或关键信息后，该搜索引擎会给出一系列数据源列表，每一个数据源都会有简要的介绍，例如更新日期、作者、版权和内容说明等。值得注意的是，除了数据集资源，该搜索引擎还能检索到很多 Kaggle 上的预训练模型。在机器之心的尝试中，我们分别以 CIFAR-10、Object Detection 和 SQuAD 为关键词搜索数据集，发现了一些很有意思的结果。

首先我们检索了十分常用的图像分类数据集 CIFAR-10，该数据集包含 10 个类别共 60000 张 32x32 的彩色图像，且分为 50000 张训练图像和 10000 张测试图像。搜索结果共给出了 9 项来源，包括数据集、预训练模型和对比结果。

例如在排名第一的搜索结果中，数据集来自 Kaggle 的 CIFAR-10 Python。在搜索引擎的简介页中，除了给出该数据集的简要信息（包括引用此数据集的论文），它甚至还展示了该数据集的使用指南。例如，如下展示页介绍了该数据集在 Keras 的使用方法：

fromosimportlistdir,makedirsfromos.pathimportjoin,exists,expandusercache_dir=expanduser(join('~','.keras'))ifnotexists(cache_dir):makedirs(cache_dir)datasets_dir=join(cache_dir,'datasets')#/cifar-10-batches-pyifnotexists(datasets_dir):makedirs(datasets_dir)#Ifyouhavemultipleinputdatasets,changethebelowcpcommandaccordingly,typically:#!cp../input/cifar10-python/cifar-10-python.tar.gz~/.keras/datasets/!cp../input/cifar-10-python.tar.gz~/.keras/datasets/!ln-s~/.keras/datasets/cifar-10-python.tar.gz~/.keras/datasets/cifar-10-batches-py.tar.gz!tarxzvf~/.keras/datasets/cifar-10-python.tar.gz-C~/.keras/datasets/

点击第一条数据源就能跳转到对应的 Kaggle 页面，下载和额外信息都展示在原页面中。

在采用关键词「Object Detection」进行搜索的过程中，我们会发现搜索结果远远要比上面多得多，大约会有上百条数据来源。依靠关键词同样检索到了非常多流行的开源数据集，它们都适用于目标检测这一领域。例如 Microsoft COCO、Face Detection 和 Vehicle Number Plate Detection 等。

从「Object Detection」的搜索结果来看，来自 Kaggle 的数据集占了一小半，它们都会在 Kaggle 上提供下载与使用指南。其实浏览这么多数据源，搜索引擎给出的简介页面就显得非常重要了。我们不需要跳转到每一个数据集的原地址，仅根据简介就能了解该数据集的大概应用领域与内容。如下展示了 COCO 数据集的简介页面：

最后我们检索了斯坦福的问答数据集「SQuAD」，搜索结果不仅给出了挑战赛地址和数据集地址，同时还提供了相似数据集和挑战赛的地址。但是在我们检索「SQuAD 2.0」的时候，并没有搜索到斯坦福大学发布的机器阅读理解问答数据集 SQuAD 2.0，也可能是该数据集太新，还没有被搜索引擎收录。

合作机构

谷歌这一尝试的早期支持者是美国国家海洋和大气管理局（NOAA）。该机构的职权范围从渔业到日冕，其档案包含近 7 万个数据集，包括 19 世纪的船舶日志。这些数据的总容量超过 35 PB，相当于 35000 个典型硬盘的容量。

谷歌这一工具 Dataset Search 将帮助 NOAA 完成数据开放的使命，NOAA 首席数据官 Edward Kearns 表示。「我们想探索新的方法，使其他人也能使用这些数据。」

与数据拥有者展开合作是运行 Dataset Search 的关键步骤。尽管这一系统未来可能变得更加复杂，谷歌目前不打算像处理网页和图像那样读取或分析数据。Noy 表示，「只有数据发布者提供的元数据足够好，这种搜索工具才能够好。」

和 Google Scholar 一样，Dataset Search 目前不提供自动化查询或应用程序编程接口（API），尽管谷歌表示将来可能会增加这一功能。

Noy 表示当研究人员开始使用 Dataset Search 时，谷歌将会观察他们如何与其交互，并利用这些信息来改进搜索结果。她还表示，公司尚未打算把该服务商业化。

随着 Dataset Search 的不断改进，未来它也许会跟 Google Scholar 整合，将特定研究领域的搜索结果关联到相关数据集。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6126

浏览量
104875
搜索引擎

搜索引擎

+关注

关注
0

文章
115

浏览量
13347

原文标题：AI研发者福利！谷歌推出数据集搜索专用引擎Dataset Search

文章出处：【微信号：gh_211d74f707ff，微信公众号：重庆人工智能】欢迎添加关注！文章转载请注明出处。

Meta开发新搜索引擎，减少对谷歌和必应的依赖

将基于Meta AI聊天机器人进行生成。据一位曾与Meta搜索引擎团队交流过的人士透露，Meta希望通过这款搜索引擎降低对谷歌搜索和微软必应的依赖。目前，这两家

发表于 10-29 11:49 •255次阅读

月访问量超2亿，增速113%！360AI搜索成为全球增速最快的AI搜索引擎

与传统搜索引擎不同，作为AI原生搜索引擎的360AI搜索基于公开网络、知识库、大模型三大支柱。借助首创的 CoE 技术架构，360AI搜索整合了国内主流的16家厂商51款大模型，支持用

发表于 09-09 13:44 •343次阅读

月访问量超2亿，增速113%！360AI<b class='flag-5'>搜索</b>成为全球增速最快的AI<b class='flag-5'>搜索引擎</b>

OpenAI推出SearchGPT原型,正式向Google搜索引擎发起挑战

在人工智能领域的持续探索中，OpenAI 迈出了重大一步，发布了其最新的 SearchGPT 原型，直接瞄准了 Google 的核心业务——搜索引擎。这一举动不仅标志着 OpenAI 在技术上的又一次飞跃，也预示着搜索引擎市场即

发表于 07-26 15:11 •526次阅读

微软计划在搜索引擎Bing中引入AI摘要功能

近期，科技界传来新动向，微软紧随百度与谷歌的步伐，宣布计划在其搜索引擎Bing中引入先进的AI摘要功能，旨在为用户带来更加智能、丰富的搜索体验。

发表于 07-26 14:23 •415次阅读

新火种AI|谷歌推出AI搜索引擎惹得出版商担忧！新闻流量的至暗时刻要来了吗？

作者：小岩编辑：彩云在数字化浪潮的推动下，AI技术正逐渐渗透到我们生活的方方面面。最近，谷歌宣布推出一款全新的AI搜索引擎，这在使我们见识到了科技巨头所拥有的超能力和“钞”能力的同时，也让我们

发表于 05-17 09:40 •312次阅读

新火种AI|<b class='flag-5'>谷歌</b>推出AI<b class='flag-5'>搜索引擎</b>惹得出版商担忧！新闻流量的至暗时刻要来了吗？

OpenAI否认将推出搜索产品或GPT-5

此消息对致力于将ChatGPT嵌入必应搜索引擎的微软或许有所积极影响。早期已有报导披露，该AI企业有意研发竞品以抗衡谷歌搜索引擎。

发表于 05-13 15:14 •348次阅读

OpenAI注册新域名，准备推出结合AI技术的搜索引擎挑战谷歌

OpenAI最近注册了“search.chatgpt.com”域名，看起来是要推出一款新的搜索引擎。

发表于 05-08 10:41 •404次阅读

OpenAI或将推出ChatGPT搜索引擎

据可靠消息透露，OpenAI正秘密研发一款以ChatGPT为基础的大型产品，其核心功能将是一款新型搜索引擎，旨在为用户提供更便捷的上网体验。

发表于 05-08 10:19 •439次阅读

新火种AI|挑战谷歌，OpenAI要推出搜索引擎？

新的搜索引擎，帮助用书轻松上网。 OpenAI的这一动向引起了业界的广泛关注。作为OpenAI开发的一款强大的AI大语言模型，ChatGPT已经在自然语言处理的领域取得了显著的成果，并给了人们全新的获取信息的体验。因此，自诞生以来，ChatGPT一直都被不少人视为能够给予谷歌

发表于 05-07 22:06 •316次阅读

OpenAI或将在5月9日发布ChatGPT版搜索引擎

OpenAI可能即将与谷歌展开正面竞争，推出基于ChatGPT的搜索引擎。根据Reddit网友的最新爆料，OpenAI有望在5月9日公布其全新的搜索产品。据悉，与这一新产品相对应的搜索

发表于 05-07 09:28 •568次阅读

润和软件与新财富联合发布金融AI对话式搜索引擎“金融搜一搜”产品

3月29日，新财富投顾嘉年华活动中，江苏润和软件股份有限公司（以下简称“润和软件”）与深圳市新财富数字科技有限责任公司（以下简称“新财富”）联合发布了金融AI对话式搜索引擎——“金融搜一搜”产品，助力金融投资场景智能化升级。

发表于 04-02 10:15 •403次阅读

Redis官方搜索引擎来了，性能炸裂！

RediSearch 是一个 Redis 模块，为 Redis 提供查询、二级索引和全文搜索功能。

发表于 02-21 10:01 •2074次阅读

生成式AI恐使搜索引擎衰退，预计2026年搜索量将下滑25%

据市场分析机构Gartner报道，生成式AI对传统搜索引擎构成重大威胁，预计至2026年搜索量将降低25%。为此，企业需调整营销策略。

发表于 02-20 10:04 •626次阅读

鸿蒙OS开发之融合搜索概述

索引。全文搜索通过全文索引进行匹配查找结果的一种搜索引擎技术。全局搜索可以在系统全局统一

发表于 01-29 16:24 •476次阅读

谷歌搜索引擎优化的各个方面和步骤

谷歌搜索引擎是最受欢迎和广泛使用的搜索引擎之一，为了使你的网站在谷歌上更好地排名并提高曝光度，你可以采取一些谷歌

发表于 01-25 10:29 •809次阅读

搜索历史

谷歌发布查找在线数据的搜索引擎Dataset Search

评论

Meta开发新搜索引擎，减少对谷歌和必应的依赖

月访问量超2亿，增速113%！360AI搜索成为全球增速最快的AI搜索引擎

OpenAI推出SearchGPT原型,正式向Google搜索引擎发起挑战

微软计划在搜索引擎Bing中引入AI摘要功能

新火种AI|谷歌推出AI搜索引擎惹得出版商担忧！新闻流量的至暗时刻要来了吗？

OpenAI否认将推出搜索产品或GPT-5

OpenAI注册新域名，准备推出结合AI技术的搜索引擎挑战谷歌

OpenAI或将推出ChatGPT搜索引擎

新火种AI|挑战谷歌，OpenAI要推出搜索引擎？

OpenAI或将在5月9日发布ChatGPT版搜索引擎

润和软件与新财富联合发布金融AI对话式搜索引擎“金融搜一搜”产品

Redis官方搜索引擎来了，性能炸裂！

生成式AI恐使搜索引擎衰退，预计2026年搜索量将下滑25%

鸿蒙OS开发之融合搜索概述

谷歌搜索引擎优化的各个方面和步骤