大家好,这里是知危编辑部,看完刚刚结束的 OpenAI 新品发布直播,我们的心里产生了巨大的疑惑:
就这?就这?就这???昨天,OpenAI 的 CEO 奥特曼高调宣布了 OpenAI 将会从今天开始开启一个为期 12 天的开放日活动,宣称接下来每个工作日都会有一次直播,内容会包括新品发布或演示、一些大型活动和一些 “ 圣诞礼物 ”。自打 9 月份发布了 o1 模型之后, OpenAI 憋了快一个季度没有新的大动作了,本来以为是要 “ 连开七天春晚 ” 的节奏,编辑部已经做好 “ 连续熬夜 12 天挑战 ” 的准备。
结果,刚刚结束的本轮活动第一场直播,15 分钟就草草收场了,可以说是OpenAI 过往直播发布会里最无聊的一集,有一种被奥特曼耍了的感觉。。。这就是 12 天超长活动的强度吗?也太低了吧???好了,发完牢骚,还是跟大家介绍一下这场发布会的内容,虽然短,但也还是有一定有效信息。
首先,o1 完全体模型正式版上线,同时还推出了一个 o1 Pro 模型并且相应推出了 ChatGPT Pro 订阅以及高级语音功能,相较于之前 Plus 订阅 20 美元每月的价格,Pro 订阅高达 200 美元每月,不过可以不限次使用 o1 Pro 模型和高级语音功能,也算是量大管饱了。
而在模型效果上,官方纸面数据其实并没有特别大的飞跃性提升。。。为什么这么说呢,因为根据官方给出的跑分数据,o1 正式版模型的能力仅在数学和编程方面有较大的提升,但在博士级别问题的提升上非常小,新推出的 o1 Pro 版本也仅在各方面比 o1 正式版模型提高了一点点。要知道,o1 模型发布时主打的就是能在博士级别的回答中有出色表现,结果正式版和 Pro 版在这方面相比预览版基本没有什么提升,也是有些让人期望落空的。知危编辑部之前找过清华、北大、南京大学的三个博士测试评价过 o1 预览版模型( 传送门 ),三位博士表示 o1 确实在思维和知识储备上达到了博士的水准,但无法对课题进行探索和提供更深的研究思路,所以并没有真正达到 “ 做学术 ” 的水平。现在是半夜我们没办法联系之前的博士进行测试,不过从官方公布的仅仅 5 分的提高上来看,估计效果体感应该不会有什么较大区别,数据是骗不了人的。
不过,虽然模型的回答能力提升不多,但是模型的体验还是提升很大的,o1 正式版模型的重大错误犯错率比 o1 预览模板少了约 34%,同时回答速度提高了约 50% 。
直播现场对比提问了 “ 列出二世纪的罗马皇帝,包括他们的时期和成就 ” 这个问题,o1 正式版给出回答用时仅有 14 秒,比 o1 预览版的 33 秒快了近 20 秒,体感差距还是很大的。
而在回答的可靠性上,为了更明显的对比,OpenAI 采用了 “ 4/4 可靠性 ” 测试,具体来讲就是:仅当模型在四次问答中四次都能够正确回答问题,才被认为是解决了该问题。在 “ 4/4 可靠性 ” 测试的评分上来看,o1 正式版在各个领域都比预览版有显著的可靠性提高,同时 Pro 版比正式版也有较大提高。
除了体验上的提升,还有交互上的提升,o1 正式版模型现在支持多模态输入了,你可以通过图+文字的形式向模型进行提问。在直播现场,OpenAI 团队画了一张 “ 太空数据中心 ” 草图,并让 o1 模型回答图中设施给 GPU 散热的散热器面积理论上应该需要多大,并且回答是时要考虑到 “ 如何处理太阳和深空的影响?” 以及 “ 热力学第一定律在其中如何发挥作用?” 这两个问题。
测试草图
o1 仅用 10 秒就回答了这个问题,他非常聪明的捕捉到了图中的 1GW 的输入功率元素,这是一个关键信息,同时指出了系统只能通过热辐射散热。与此同时,工作人员在提问时故意规避了一个信息,那就是整个系统的正常工作温度应该是多少,但 o1 模型自己聪明的定义了系统应该在 300K 也就是 27 摄氏度的环境下工作,进而开始估算散热板所需要的面积。
图中回答的大致翻译:所需的散热器面积对散热器的平衡温度高度敏感。较低的散热器温度意味着每单位面积的辐射量减少,因此需要更大的面积。而较高的散热器温度则可以减少所需面积,但可能增加工程复杂性(因为需要使用能够承受更高温度且仍保持高辐射率的材料)。
为了说明问题,我们选择一个相对适中的散热器温度,例如 T = 300 K(约27°C),这是电子设备或冷却循环系统温度的一个合理上限。这将为我们提供一个基准值。在计算面积下限时,我们假设没有寄生热负荷,并且系统处于理想条件。
(注:如果允许系统运行在更高温度,所需面积会减少。我们将在 300 K 下进行一个示例计算,并说明温度变化如何影响面积需求。)
整体来说,这次发布的东西虽然没有大家期望中的那么好,大家期望的 Sora 正式版、GPT-5、AI 搜索浏览器等产品都没有出现,但好在正式版 o1 和 o1 Pro 也勉强说得过去。
不知都后面剩下的 11 场直播内容会不会覆盖到大家期望的东西,搞不好 OpenAI 想压轴在临近圣诞节的时候给大家来个圣诞惊喜也没准~
哦,对了还有一件事情漏掉了,那就是因为 o1 Pro 模型的思考深度比 o1 要高,耗时会更长,所以为了用户体验,OpenAI 给模型加入了一个回答进度条,这么做可以非常有效的缓解用户在等待回答时候的焦虑。
嗐,怎么说呢,毕竟进度条是计算机史上最伟大的设计之一了,所以 OpenAI 这波啊,可以说是 《 震惊!炸裂!OpenAI 史诗级更新 》 了!(转载自知危)