据2月27日路透社研究所报告显示,至2023年底,全球有十国近半(48%)主流新闻网站选择阻止OpenAI爬虫,另约四分之一(24%)如法炮制封锁了谷歌人工智能爬虫。
该研究团队从德国、印度、西班牙、英国及美国共计十五家综合性质网络新闻来源的robots.txt文件着手分析,涵盖包括《纽约时报》等传统印刷媒体、电视广播公司及数字原生媒体等多类形式。
分析结果显示,至2023年底,超半数(57%)的传统印刷媒体如《纽约时报》等已关闭OpenAI爬虫,反之电视广播以及数字原生媒体相应地分别为48%和31%。而对于谷歌人工智能爬虫,32%的印刷媒体采取相同措施,电视广播和数字原生媒体的比率分别为19%和17%。
近期康奈尔大学研究发现,部分新型人工智能模型仅仅依赖前代模型训练,非依靠人类输入数据,引发“模型崩溃”甚至退化,从而导致生成内容出现更多错误性和误导性的讯息。
网站爬虫具有多种用途,其中Google的Googlebot主要用于抓取发布商网站并纳入搜索查找,OpenAI的GPTBot则负责全网搜集训练数据以支持旗下的大规模语言模型ChatGPT等,此类AI工具产出的精准度与实时性受到很大保障,这也是新闻发布商频频发布此类内容的原因所在:大语言模型给予优质出版商内容的重视程度远高于其他来源。
研究进一步揭示,全球北方(以北美、欧洲为主,涵盖其他高收入地区)的新闻机构较全球南方(包含非洲、拉美,亚太地区以及发展中的亚洲国家)有较大偏向性地提出屏蔽人工智能爬虫要求。以美国为例,高达79%的热门在线新闻网站对OpenAI爬虫设限,而在墨西哥与波兰,这一比例仅为20%类似的情况出现在德国(有60%的新闻网站对谷歌爬虫采取限制)与波兰和西班牙仅占7%的对比之中。
令人瞩目的是,几乎所有封锁谷歌爬虫的网站同时也禁止了OpenAI(达到了夸张的97%)。尽管该研究并未给出具体的解释,唯一可信的推测可能在于OpenAI爬虫相较谷歌更早推出的缘故。
-
谷歌
+关注
关注
27文章
6139浏览量
105059 -
人工智能
+关注
关注
1791文章
46820浏览量
237463 -
OpenAI
+关注
关注
9文章
1041浏览量
6400
发布评论请先 登录
相关推荐
评论