鞭牛士报道,7月17日消息,据外电报道,人工智能模型需要尽可能多的有用数据才能运行,但正如Proof News和Wired 的调查发现的那样,一些最大的人工智能开发商部分依赖于转录的YouTube视频,而没有得到创作者的许可,这违反了 YouTube 规则。
两家媒体透露,苹果、Nvidia、Anthropic 和其他主要人工智能公司已经使用名为 YouTube Subtitles 的数据集训练他们的模型,该数据集包含来自 48,000 个频道的近 175,000 个视频的文字记录,而所有视频创作者都对此毫不知情。
YouTube 字幕数据集包含视频字幕文本,通常翻译成多种语言。该数据集由 EleutherAI 构建,该公司称该数据集的目标是降低大型科技公司以外的人开发人工智能的门槛。它只是规模更大的 EleutherAI 数据集 Pile 的一个组成部分。除了 YouTube 转录本外,Pile 还包含维基百科文章、欧洲议会演讲,据报道,甚至还有安然的电子邮件。
不过,Pile 在各大科技公司中还是颇受追捧,例如苹果就使用 Pile 来训练其 OpenELM AI 模型,而两年前发布的Salesforce AI 模型也是使用 Pile 进行训练的,目前下载量已超过 86,000 次。
YouTube 字幕数据集涵盖了新闻、教育和娱乐领域的一系列热门频道。其中包括 MrBeast 和 Marques Brownlee 等 YouTube 大明星的内容。他们的视频都曾用于训练 AI 模型。Proof News 设置了一个搜索工具,可以搜索该集合以查看是否有任何特定视频或频道。该集合中甚至还有一些 TechRadar 视频,如下所示。
YouTube 字幕数据集似乎与 YouTube 的服务条款相矛盾,该条款明确禁止自动抓取其视频和相关数据。然而,数据集正是依靠这个,通过脚本通过 YouTube 的 API 下载字幕。调查报告称,自动下载筛选了包含近 500 个搜索词的视频。
这一发现引起了 Proof 和 Wired 采访的 YouTube 创作者的惊讶和愤怒。对未经授权使用内容的担忧是有道理的,一些创作者对自己的作品未经许可或付费用于人工智能模型的想法感到不安。对于那些发现数据集中包含已删除视频记录的人来说尤其如此,在一个案例中,数据来自一位已经删除了整个在线信息的创作者。
报道中没有 EleutherAI 的任何评论。它确实指出,该组织将其使命描述为通过发布经过训练的模型来实现人工智能技术的民主化。
如果这个数据集可以作为参考,这可能会与内容创建者和平台的利益相冲突。围绕人工智能的法律和监管之争已经很复杂了。这种启示可能会使人工智能发展的道德和法律环境更加危险。在人工智能的创新和道德责任之间提出平衡很容易,但生产它将困难得多。
