从互联网大模型基础装备竞赛,到落地应用混战,不过一年时间。
一年前,包括李彦宏、王小川等人还在放话,他们所推出的大模型技术能力对标GPT,但是不知不觉中,不论巨头还是创业公司,都把目光聚焦在如何放大产品的用户规模。
从技术到产品,这不是非此即彼的选择题,而是两手抓两手都要硬的充分必要题。
移动互联网时代,头顶「APP工厂」的字节自然是最受关注的,豆包的月活很早前就破两千万,成为规模最大的通用型应用。
国内现有的六家大模型独角兽公司:月之暗面、MiniMax、智谱 AI、百川智能、零一万物、阶跃星辰,其中月之暗面旗下的kimi赚足了眼球,获得一定的用户基础和口碑。除此之外,就是MiniMax的星野和海螺 AI。
MiniMax创始人闫俊杰旗帜鲜明地表示,在技术快速进化的窗口关闭前,创业公司要做出用户量巨大的to C产品。
他还说,一个拥有很强技术的公司不应该是个卖技术的公司,而是一家「技术驱动产品」的公司。
所以MiniMax身上有几个特点:早于GPT出现前成立,创始人出身于AI公司商汤;最早同时发力技术和产品的创业公司;早于生成式人工智能备案条例就开发出应用Glow,可能是目前唯一有过产品下架命运的公司。同时得到腾讯、阿里、高瓴和红杉等一线公司的投资。
这些标签似乎指向,这是一家冉冉升起的明星创业公司。但可能也侧面说明,AI大模型时代创新门槛在被抬高,留给公司的时间和空间都会比较有限。
闫俊杰讲过一个小故事。
他80岁的外公曾经想要写一本书,讲述自己的人生经历,但因为没有办法书写,也不会打字,就此作罢。当时的闫俊杰还在商汤带技术团队,每天AI领域的论文已经多到他看不完。技术进展超出理解范围,然而在现实中,自己做的事情却甚至无法帮助外公写一本书。
像大多数如真如幻的创业故事那样,在巨大的落差之间,闫俊杰看到了机会。MiniMax由此诞生。他还定下了一个愿景:Intelligence with Everyone(用最好的技术服务每一个人)。
MiniMax是国内第一个讲出「AI 2 C」的公司,也是国内少有同时发力大模型技术和产品的公司。这被李彦宏认为是创业公司并不适合的选择,甚至有「自杀式」发展的嫌疑。
闫俊杰却大胆与之唱反调,「对创业公司,至少对中国的创业公司来说,更好的方式是同时思考技术和产品。」因为,如果没有足够好的产品能力承接,即使公司有了一些技术进展,这些东西最终也不是你的。一个独立发展的创业公司一定要考虑产品。
此外,在他看来AI并非核弹一样的「大杀器」,而是普通人每天会用的产品和服务。要完成更广泛的覆盖,MiniMax需要在技术快速进化的窗口关闭前,做出用户量巨大的 2C 产品。
迄今为止,MiniMax先后打造的4款产品,既有AI内容社区应用,也有问答等生产力应用。300-400人的团队中,有一半以上是技术团队,另有40%负责产品。
作为下架产品Glow的升级版,星野自2023年9月8日上线,在不到一年时间里安装量突破了1000万,DAU高峰接近80万,是国内C端AI应用为数不多有此突破的产品。
单看星野的玩法和定位,基本对标国外的虚拟陪伴式应用Character.AI。用户根据自己的偏好,生成陪伴式「智能体」。根据月狐数据,星野全网用户的人均使用时长已经达43.29分钟,其中女性用户占比已经超过55%。
但与Character.AI寥落的付费意愿相比,星野已经毫不掩饰发力商业化。充值抽卡片「虚拟物品」、月卡12元的付费会员……星野差不多是众多AI智能体中,商业化最积极的。
MiniMax旗下另一款应用海螺AI也有拿得出手的数据,9月MAU接近500万。
闫俊杰的观点是,评判一项技术是否优秀,最重要的标准便是「是否可以每天使用和交互」。但应用只是表象,他的最终愿景是AGI ,做一家以产品驱动的大模型公司。
因此,MiniMax一边自研底层大模型,一边做上层应用,通过底层技术提升应用体验,再通过应用让技术得以推广,获得驱动大模型获取数据「燃料」,并反哺底层模型技术,最终形成正循环。
除了APP矩阵,MiniMax开放平台也开始进账B端企业的Tokens使用费。有媒体援引投资人士消息表示,MiniMax今年预计收入将达到7000万美元。
随着使用频次的加深,以及对多模态的持续探索,MiniMax的底层模型能力还在持续得到升级。一个月前,MiniMax在「伙伴日」上发布了一条长达2分钟的多模态视频,正是基于新一代abab模型技术应用创造的。
如果不刻意强调身份,第一眼看到闫俊杰时,你可能很难意识到这是一位AI从业者。
除了稀疏的毛发,闫俊杰的外在没有太多传统意义上的「理工特色」。一张含笑的圆脸,很少出现大开大合的表情。
与这种波澜不惊所相对的,却是闫俊杰在做决策时的「手起刀落」。但每一次押注,他似乎都走在行业前列。
闫俊杰创立MiniMax时,距离OpenAI发布ChatGPT还有1年多时间。此前,闫俊杰一直在商汤科技任职,这也是他的第一份工作,一路做到副总裁。2021年12月,商汤成为「AI视觉第一股」,在股价翻飞之际,闫俊杰却转头成立自己的AGI企业,也就是MiniMax。
这种先发优势还体现在,大模型还没集体狂热的时候,MiniMax又以相对便宜的价格找字节火山引擎租用大量 GPU 算力。兵马未动,「弹药」已到位。
2023年6月,闫俊杰又做出一个大胆决定:押上公司80%的可用算力资源做MoE「混合-多专家模型」。
传统的Dense模型因为生成token成本过高,延时严重,大模型厂商为此陷入焦虑。闫俊杰同样感到崩溃,「我们那个时候发现每天处理几百亿token。如果是Dense模型,我们没有办法每天出这么多token。很快会因为推理成本问题,耗尽所有钱。」
就在这时候,一篇名为《MoE Meets Instruction Tuning》的论文发布。文中提出一个以技术软实力突破硬件护城河的破局思路:MoE模型可以在不增加太多计算资源的情况下,让模型变得更加复杂和强大。
这个作者只是提出了破局的可能性。MiniMax的早期投资人、明势资本合伙人黄明明认为「MoE的提出者自己都不太相信MoE这条路径」。
2023年下半年,闫俊杰投注了公司80%可用的资源开始死磕MoE。而且他跟大多数股东都没有沟通,甚至没有保留plan B。
资金实力和早期获取的便宜算力大概是支撑闫俊杰调转方向的底气之一。彼时的MiniMax正在进行一场10亿美金左右估值的融资。在此之前,MiniMax已经经过了两轮融资,总金额7亿美金,投资方包括高瓴资本、明势资本。但在烧钱如流水的AI赛道,时刻需要注入新的弹药。
两次失败使得MiniMax砸进去了大量的资金。比如有一次模型训了半个月,才发现一些指标离前期估测的越来越远。闫俊杰形容「就像发了一个火箭,本来以为它可以到三万米,但它偏航了」。
尽管收获了许多经验,但还是失去了宝贵的时间。因为竞争对手一直在优化Dense模型,一旦失败,意味着原本处于先发优势的MiniMax将全面落后于竞争对手。
矛盾总是最先在内部发生。一些高管坐不住,向闫俊杰表达疑问。闫俊杰自己并不总是气定神闲。
在与黄明明的一次对话中,他坦言押注MOE时多少是有些慌的,甚至最初也怀疑过自己是不是在「赌」。但是他别无他选,也清楚这是唯一的路,甚至认为「做不出来就完了」。
现实情况是,2022年以来,英伟达芯片价格不断上涨,互联网巨头也开始吃不消。纽约时报曾爆料,为了支撑ChatGPT,OpenAI需要使用3万块英伟达A100的算卡,而且每天的耗电超过50万度。
作为应对策略,微软、OpenAI、Meta、谷歌等巨头纷纷宣布自研芯片计划。但效果和时间未知。
MiniMax向来秉持「只租卡,不买GPU」,如果要继续探索上限,就只能改变模型底层架构,换一种无需耗费太多资源就能达到很好的训练和推理效果的模型架构。
结果是,闫俊杰走通了。MOE+Linear Attention让MiniMax大模型的训练与反馈变得更快,对比GPT-4o同一代模型能力,新一代模型处理10万token时,效率可提升2-3倍,长度越长,提升越明显。
这一次,闫俊杰似乎又「赌对了」。
时间倒退回2021年,在MiniMax创立的原点。闫俊杰讲出自己的梦想时,鲜少有人听得懂。
明势资本的黄明明曾透露2021年首次见到闫俊杰时,面对对话、语音、数字人这些概念,联想到的却是元宇宙。好在同行之中有人意会。因为险些错过MiniMax,明势资本还定了一个规则:见比较重磅的创始人时,至少带三个人一起去。
直到2022年11月,ChatGPT横空出世,AGI 概念大热。全中国的风险投资机构都在寻找「谁是中国的 ChatGPT」,MiniMax和它的第一款智能体对话交互产品Glow,走进了资本的视野中。
闫俊杰不再需要向每个人解释他的梦了,但激进的技术路线依然使他时处于被误解的境遇中。
与大部分逐浪而来的人不同,闫俊杰对技术的理解显现出一种超越现实的简单。他认为技术,特别是研发投入很大的技术,追求的不应该是10%的提升,而是数倍变化的提升。
「像造芯片一样,是一个巨大的系统工程,不能只做 5%、10% 的提升,需要能带来数量级提升的技术突破。」
因此他会选择「上限最高」的技术路线,几乎没有退路,算力方式也激进。
MiniMax通过「产品化APP+开放平台」的方式,覆盖2C+2B的用户圈层,这是大多数创业公司都选择回避的路径。因为资金弹药有限,这种尝试过于奢侈。
除了覆盖广度,闫俊杰还在意使用深度,把多模态视作核心判断标准。因为他始终认为,文字交互只是很小的一部分,AI就像一个人,整合了声音、图文和视频的多模态能力才能带来完整的体验。
一个月前MiniMax在「伙伴日」上发布的那条两分钟视频,正是由语言模型、视频模型等整合生成的多模态视频。在此之前,即便是OpenAI也只能将语音模型和语言模型整合到一起生成结果。
和曾经多次早于行业做出的预判一样,闫俊杰在很早之前就意识到,大模型在多模态的进步,会带来用户体验的提升、获得更高的用户渗透率。而多模态融合,同样也是闫俊杰所找到的长期最优解。
无论是技术研发、C端产品运营还是B端服务,都需消耗大量资源,然而也正是这条厚重的发展路径,为MiniMax赢得了时间。
2024年1月,MiniMax发布了大语言模型abab6.0版本,随后迭代加速,4月便发布abab6.5版本,并同步上线AI助手「海螺AI」。到9月初日均 30 亿次 AI 交互量,处理 3 万亿 Token。
但对于现在的产品到底是不是最终那个Super App,闫俊杰认为不重要。更重要的还是技术能够足够快地进步。
这位AGI「信徒」,必须在噪音中发现最本质、最长远的解题思路。