OpenAI研究人员研究新模型：将多媒体生成速度提高50倍

鞭牛士 2024-10-24 06:58

鞭牛士报道，10月24日消息，据外电报道，OpenAI 的两位研究人员发表了一篇论文，描述了一种新型模型——具体来说是一种新型的连续时间一致性模型 (sCM)——与传统扩散模型相比，该模型将人工智能生成图像、视频和音频等多媒体的速度提高了 50 倍，生成图像只需近十分之一秒，而常规扩散则需要 5 秒以上的时间。

通过引入 sCM，OpenAI 仅通过两个采样步骤就实现了相当的样本质量，提供了一种在不影响质量的情况下加速生成过程的解决方案。

该项创新在arXiv.org 上发表的预同行评审论文和今天发布的博客文章中进行了描述，作者是程璐和杨松，该项创新使这些模型仅需两步即可生成高质量样本——比以前需要数百步的基于扩散的模型快得多。

Song 还是OpenAI 研究人员（包括前首席科学家 Ilya Sutskever）于2023 年发表的一篇论文的主要作者，该论文提出了一致性模型的概念，即同一轨迹上的点映射到同一初始点。

虽然扩散模型在生成逼真的图像、3D 模型、音频和视频方面取得了出色的效果，但其采样效率低下（通常需要数十到数百个连续步骤）使其不太适合实时应用。

从理论上讲，该技术可以为 OpenAI 的近实时 AI 图像生成模型提供基础。正如 VentureBeat 记者Sean Michael Kerner在我们的内部 Slack 频道中沉思的那样，「DALL-E 4 还会远吗？」

保持高质量，同时加快采样速度

传统的扩散模型需要大量的去噪步骤来生成样本，导致其速度较慢。

相比之下，sCM 可在一两步内直接将噪声转换为高质量样本，从而减少了计算成本和时间。

OpenAI 最大的 sCM 模型拥有 15 亿个参数，可以在单个 A100 GPU 上仅用 0.11 秒生成一个样本。

与扩散模型相比，这使得挂钟时间加快了 50 倍，从而使实时生成 AI 应用更加可行。

使用更少的计算资源达到扩散模型质量

sCM 背后的团队在 ImageNet 512×512 上训练了一个连续时间一致性模型，可扩展至 15 亿个参数。