谷歌发言人承认：Gemini AI演示视频内容和语音提示均非实时录制

IT之家 2023-12-09 14:20

IT之家 12月9日消息，据彭博社、Tom's Hartware等外媒当地时间周五报道，谷歌发言人在采访中承认，前段时间谷歌发布的大语言模型Gemini演示视频并非实时录制。

乍看之下，这个一镜到底的视频中，Gemini模型可发现藏在指定塑料杯内的纸团，或者看出一张“连点成线”的图片画的是螃蟹。但是，谷歌发言人告诉彭博社，这段演示视频是利用镜头中的静止图像帧和文字提示“拼凑”而成的，Gemini只能对输入的提示和静态图像做出反应。同样，视频中用户与Gemini的语音互动也由后期配音完成。

谷歌发言人承认：Gemini AI 演示视频内容和语音提示均非实时录制

至于视频中的人物说话、绘画、展示物品乃至魔术，似乎也只是为了演示视频而特意安排的。在谷歌官方YouTube频道中，谷歌也添加了描述称“为了演示的目的，延迟已经减少，Gemini的输出也缩短了，以求简洁”。这意味着Gemini每次响应所需的时间实际上要长于视频的演示。

此外，谷歌DeepMind研究副总裁兼深度学习负责人Oriol Vinyals也对这段视频做进一步解释：这段视频展示的是使用Gemini构建的多模态用户体验“可能的样子”，是为了激发开发人员的灵感。其称，视频中的所有用户提示和输出都是真实的，为简洁起见进行了缩短。而且，视频中展示的模型为Gemini Ultra。

谷歌发言人承认：Gemini AI 演示视频内容和语音提示均非实时录制

据IT之家此前报道，谷歌曾声称Gemini Ultra的性能在32个广泛使用的学术基准测试中有30个都表现出了超越当前时代的“先进结果”，而这些基准测试也是当前LLM领域最常用、最泛用的测试。

其中，它以90.0%的得分成为第一个在MMLU（大规模多任务语言理解）上超越人类专家的模型（该测试结合了数学、物理、历史、法律、医学和伦理等57个学科）。

Gemini Ultra还在新的MMMU基准测试上表现出了59.4%的领先级性能，该测试涵盖了“需要深思熟虑的”不同领域的多模态任务。

明年初，谷歌还将推出全新升级的Bard Advanced，让用户可以更好地体验到其最好的模型和功能，也就是Gemini Ultra。

扫码下载app 最新资讯实时掌握

上一篇把OpenAI「断掉的大腿」给接上

下一篇OpenAI「宫斗」正酝酿第二季：Ilya已一周未去公司，且聘请了律师