英伟达展示新型人工智能模型：可修改声音和生成新声音

鞭牛士 2024-11-26 06:17

鞭牛士报道，11月26日消息，据路透社报道，英伟达周一展示了一种用于生成音乐和音频的新型人工智能模型，该模型可以修改声音并生成新的声音——该技术针对的是音乐、电影和视频游戏制作者。

英伟达是全球最大的人工智能系统芯片和软件供应商，该公司表示，目前还没有公开发布这项技术的计划，该技术被称为 Fugatto，是 Foundational Generative Audio Transformer Opus 1 的缩写。

它加入了 Runway 等初创公司和 Meta Platforms等大型公司所展示的其他技术，可以根据文本提示生成音频或视频，包括像狗叫一样吹响喇叭等新奇的声音。

它与其他人工智能技术的不同之处在于，它能够接收和修改现有音频，例如，将钢琴弹奏的一段歌词转换成人声唱出的歌词，或者将口语录音改变所使用的口音和表达的情绪。

英伟达应用深度学习研究副总裁 Bryan Catanzaro 表示：如果我们回顾过去 50 年的合成音频，就会发现现在的音乐听起来已经不同了，因为有了计算机和合成器。我认为生成式人工智能将为音乐、视频游戏和想要创造事物的普通人带来新的功能。

虽然 OpenAI 等公司正在与好莱坞电影公司就是否以及如何将人工智能应用于娱乐行业进行谈判，但科技界和好莱坞之间的关系变得紧张，特别是在好莱坞明星斯嘉丽约翰逊指责 OpenAI 模仿她的声音之后。

英伟达的新模型是在开源数据上进行训练的，该公司表示仍在讨论是否以及如何公开发布它。

「任何生成技术都存在一定的风险，因为人们可能会利用它生成我们不希望他们生成的东西。」卡坦扎罗说。「我们需要对此保持谨慎，这就是为什么我们暂时没有发布这项技术的计划。」

生成式人工智能模型的创建者尚未确定如何防止滥用该技术，例如用户生成错误信息或通过生成受版权保护的角色来侵犯版权。

OpenAI 和 Meta 也没有透露何时计划向公众发布能够生成音频或视频的模型。

扫码下载app 最新资讯实时掌握

英伟达