本周,两家知名媒体——《华尔街日报》和《纽约时报》对AI公司在获取优质训练数据时遇到的困境进行了深入关注。值得注意的是,报道中提到了关于AI版权法模糊不清的灰色地带。
通过开发Whisper音频转录模型,OpenAI取得了一项突破性进展,成功转录了超过100万个小时的YouTube视频用于训练GPT-4大型语言模型。其实施的这一过程因涉及版权问题而存在严重法律风险,但OpenAI仍坚持为技术创新设定开拓者的姿态。
另一位受访者——《泰晤士报》,通过揭露OpenAI总裁Greg Brockman积极参与YouTube视频收集工作的事实,强调此类操作的合法性问题。然而,OpenAI宣布将严格遵守相关法规,谨慎对待每一次行动。为了持续发展,OpenAI正不断尝试从各种渠道获取有益的数据。
据OpenAI发言人Lindsay Held发表的声明显示,每个模型都在经过精心设计后配备了独特的数据集,目的在于让它们更准确地理解这个世界,能始终保持强大的研发能力。Notably, the company is exploring the possibilities of generating synthetic data to support their continuing growth and development.
相比之下,谷歌对此事持有不同看法。谷歌不认同未经授权就抓取和下载YouTube内容的行为,同时指出,谷歌的robots.txt文件和服务条款坚决禁止此类行为发生。近段时间,YouTube CEO尼尔·莫汉在接受采访时也警告潜在的侵入者,使用YouTube视频训练AI模型的行为违反了其服务条款。
面对日益激烈的竞争环境,Meta公司同样面临着数据可用性问题。公司AI部门为了提升自身竞争力,甚至开始考虑未经授权使用版权作品,尤其是在面临无法获得足够训练数据之际。维持可持续发展已经成为了当下AI科技行业的当务之急。
-
语言模型
+关注
关注
0文章
504浏览量
10245 -
GPT
+关注
关注
0文章
351浏览量
15311 -
OpenAI
+关注
关注
9文章
1042浏览量
6403
发布评论请先 登录
相关推荐
评论