2022 年 11 月 30 日,当 OpenAI 在官网上发布 ChatGPT 的时候,谁都预料不到:上线短短两个月,ChatGPT 就获取了 1 亿月度活跃用户,并由此成为历史上增长最快的消费者应用。
不到一年时间,2023 年 11 月 6 日,在 OpenAI 的首届开发者日上,ChatGPT 迎来了一次史诗级重磅升级,不仅上线了一个「GPT 商店」,甚至还允许每个人都可以定制一个拥有专属技能的 GPT。
这样的发展和落地速度,让外界为之惊叹的同时,也让「大模型」再次成为关注的焦点。
实际上,伴随着 ChatGPT 的爆火,它背后所依赖的大模型技术,也已经像一股「冲击波」,从 AI 领域出发延伸到整个社会层面,并且开始从商业维度为各行各业赋能——其中,正在经历一场重大科技变革、全面拥抱智能化的汽车行业也毫不例外。
具体来说,从 ChatGPT 问世到现在的将近一年时间里,车企们纷纷大张旗鼓地拥抱大模型,不仅仅是在技术层面深入布局,而且还在通过智能座舱、智能驾驶等多种用户场景出发来探索大模型的落地机会——它们也希望通过各自的努力来发挥大模型的能力,提升用户的实际用车体验。
所以,一个值得思考的问题来了:大模型究竟该用什么样的方式上车?
拥抱大模型:一个快速达成的共识
在具体谈到汽车行业对大模型的拥抱之前,我们先要明确一个前提:尽管包括汽车行业在内的千行百业都在谈论 ChatGPT 和大模型,而且大模型技术也的确是因为 ChatGPT 的火爆而层层破圈,二者关系极为密切,但 ChatGPT 并不能和大模型直接划等号。
实际上,ChatGPT 只是 OpenAI 旗下深度学习大模型 GPT 的一个典型应用,而 GPT 也只是业内诸多大模型中比较知名和破圈的其中一个——比如说,当 ChatGPT 在 2022 年 11 月底横空出世并在行业引起广泛关注的时候,它基于的是 GPT 的其中一个版本,也就是 GPT-3.5 系列。
不过,ChatGPT 作为大模型技术的现象级作品,确实是让汽车行业关注到大模型技术的关键入口。
这其中,横跨 AI 领域和电动汽车产业的马斯克,无疑是最大的引路人。
实际上,就在 ChatGPT 发布两天后,马斯克就在社交平台上多次表达对 ChatGPT 的赞叹,他表示「ChatGPT 好得让人毛骨悚然」;这样的评价,在第一时间就在大洋彼岸的中国引发了关注,也让 ChatGPT 背后的「大模型」技术迅速在汽车行业引发关注。
然而,中国车企们与大模型发生密集关联的节点,却是百度的文心一言。
2023 年 2 月 7 日,百度官宣了它的大模型新项目「文心一言」,该项目是百度基于它旗下的文心大模型而推出的生成式对话产品,类似于「中国版的 ChatGPT」。
此后一段时间,尽管文心一言还没有正式上线,来自多个行业的企业宣布加入「文心一言」生态;其中在汽车行业,包括岚图、红旗、长城、东风日产、爱驰、零跑、吉利、海马、哪吒等在内的车企纷纷加入「文心一言」朋友圈。
但相对来说,这些车企拥抱「文心一言」,与其说是拥抱大模型,不如说是抢占声势,并借此展现自己面向智能化转型的决心。
到了 3 月,一些头部新势力车企,开始在公开场合表达对 ChatGPT 和大模型技术的思考,这些思考相对更加深入。
比如,2023 年 3 月初,在理想汽车春季媒体分享会上,李想系统地谈到了理想汽车发展背后的逻辑和思考。
其中,李想提到「AI 能够改变物理世界」,也由此谈到了他对 ChatGPT 和大模型的看法。关于 ChatGPT ,李想表示「ChatGPT 的难度很高,但并不怕它犯错」;而在谈到大模型时,李想则强调了大模型对自动驾驶业务发展的影响,他认为「只有大模型才能实现我真正想要的 2.0 的人工智能」。
接着,在 2023 年 3 月中旬的小鹏汽车 2022 年 Q4 及全年财报电话会议上,何小鹏也谈到了 ChatGPT。
他表示,以 ChatGPT 为代表的人工智能应用,让数以亿级的用户看到生成式 AI 模型的巨大潜力,这标志在未来类似机器大脑的通识能力会进入到一个全新的阶段,并且可以本地化部署,让自动驾驶的实现方式在将来都会有新的诠释以及效率上的提升,并且让自动驾驶更快地能够从 L4 将来走向 L5。
相对于理想和小鹏,蔚来方面在 ChatGPT 和大模型方面的表态更晚一些。5 月底,李斌在公开场合发声时表示,「大模型最好的应用场景就是车上」;他还在蔚来 ES6 发布会后的采访中表示,蔚来正在开展将大模型融入到自身语音交互系统 NOMI 的工作。
值得一提的是,在车企拥抱大模型的趋势中,一个不可忽视的玩家是科技巨头华为。
实际上,早在今年 4 月份的发布会上,余承东就宣布将在年底发布的问界 M9 上通过鸿蒙 4.0 系统接入盘古大模型的技术,盘古大模型将让 AI 的能力在问界 M9 上登上一个新的台阶——尽管目前尚未公布更多信息,但依托华为在大模型方面的积累,大模型在问界 M9 上的实际表现值得期待。
到了六月份以后,几乎所有的车企都会抓住公开场合的发声机会,去谈论自己对于大模型的拥抱或布局。
可以说,经历了 ChatGPT 的强大冲击波和众多车企对于「文心一言」的前呼后拥,以及「蔚小理」等头部新势力车企对于大模型的观点输出,正在激烈竞争并集体寻求智能化转型的中国汽车产业,在很短的时间里形成了一个共识,那就是:无论以何种姿态,必须要快速拥抱大模型。
在这样的声势下,大模型如何在应用场景中具体落地,开始成为车企们不断探索的问题——目前来看,智能座舱和智能驾驶,成为大模型在车端落地的两个主要着力点。
从 AI 交互入口,到 AI 操作系统
从落地的角度来看,由于 ChatGPT 的对话能力和助手属性与各类 AI 语音助手有着天然的关联性和相似性,因此,当前车企对于大模型落地场景的探索,普遍侧重于用户感知更强的智能座舱领域,尤其是车载语音助手。
这其中,备受关注的是「蔚小理」三家。
6 月 17 日,在理想家庭科技日上,理想汽车发布了它在大模型方面的布局动态,其核心在于它所发布的自研认知大模型「Mind GPT」。
具体来看,理想汽车的 Mind GPT 更加类似于 ChatGPT,通过知识储备能力的加持,其目的是为了让「理想同学」更加聪明。从功能上来说,Mind GPT 可以让对话生成、语言理解、知识问答、逻辑推理等在内的各项能力变得更安全,更准确,也更有逻辑;它所自带的记忆网络也能够允许用户选择让理想同学基于历史对话记住个性化偏好和习惯,从而更好理解用户。
根据官方说法,在 Mind GPT 的通用能力加持下,理想同学可以成为伴随用户走遍世界的良师益友,专业的用车管家,或是教用户画画、编程的专家,让 AI 为每一位用户赋能——总体来说,通过理想同学,大模型带来的能力更侧重于娱乐、知识等方面的提升,也适用于理想汽车所定位的家庭用车场景。
不过,目前来看,Mind GPT 的实际能力,尚且还在开发中。根据官方说法,预计在 2023 年年底之前,由大模型加持的理想同学将会通过 OTA 推送给用户。
在理想汽车之外,作为智能座舱领域的一个重要玩家,小鹏汽车也在 1024 科技日上宣布,小鹏汽车自研的 XGPT 灵犀大模型接入了语音系统,全新 AI 小 P 拥有超过 800 项技能,感知理解和推理能力均大幅提升——小鹏汽车官方表示,AI 小 P 将会搭载在 XOS 天玑智能座舱系统上,并且会在小鹏 X9 MPV 车型上量产首发。
另外,蔚来汽车也申请了「NOMIGPT」「NIOGPT」等商标,并且也在此前不久的一次小规模沟通会中宣布:NOMI 已经接入了高达千亿 Token 的自研 GPT 模型,这将会增加 NOMI 的理解和推理能力。但这一自研 GPT 模型将如何在功能上为 NOMI 赋能,官方尚未发布具体动态。
从「蔚小理」三家头部新势力车企的情况来看,它们都选择从车内语音助手出发,通过 AI 大模型的接入,来提供语音助手的对话、理解、创作等能力,对于用户的价值更侧重于知识交互、信息提供、娱乐等方面——当然,在大模型的构建上,这三家强调的都是自研。
在新势力企业之外,也有一些致力于转型的传统车企也在大模型的拥抱上不遗余力,有的选择自研,有的选择合作伙伴。
比如说,吉利在 7 月份宣布已经具备全栈自研的 AI 大模型技术。根据吉利官方的说法,它的全场景 AI 大模型囊括了绘画大模型、音乐大模型、语言大模型和自动驾驶大模型,提供 AI 智能交互、AI 音乐 MV、AI 儿童绘本、WoW 壁纸等功能。
不仅如此,在 9 月份的吉利银河 L6 发布会上,吉利方面宣布将其自研的全球首个汽车行业全场景 AI 大模型引入到了银河 L6 上——从吉利银河 L6 的实际情况来看,目前落地到车上的是用户体验感知更强的 WoW 壁纸功能。
另外,今年 8 月中旬,奇瑞汽车与科大讯飞合作,宣布讯飞星火认知大模型首发搭载在星纪元 ES 上。
基于这一合作,星纪元 ES 立在面向用户打造一款知冷暖、懂关心、更体贴的语音助手,它不仅可以为用户规划旅游攻略,推荐喜欢的电影,还能根据用户自身情况提供健康咨询服务,其在能力层面的发挥,也是指向了 ChatGPT——而用户要想体验到这个更加贴心的语音助手,需要等到星纪元 ES 在 11 月 30 日上市之后。
当然,除了上述厂商之外,还有更多的车企也都在努力通过语音助手这个入口接入到大模型的底层技术加持。
不过,整体来看,在智能座舱框架下,大模型在智能座舱和语音助手的落地还在前期探索阶段,它要想真正地走向更加广泛的用户群体,还是需要一个颠覆式的场景。
此前在与 42 号车库对话时,何小鹏告诉我们,大模型加持下的 AI 小 P 更聪明,会让人觉得更有趣味。它可以完成持续对话、绘图、写诗等娱乐性比较高的功能,但不足以成为核心竞争力,它解决的是小痒点的问题,但不是大痛点的问题。
与此同时,理想汽车座舱团队在与 42 号车库交流时表示,目前对于大模型落地的探索,主要还是从用户的实际用车体验出发,努力寻找到一些能够贴合用户真实需求的场景,目前这些场景都还在探索中。商汤绝影智能车舱产品总监李珂强调,大模型要想在用户端发挥明显作用,就需要贴着用户的频繁使用场景。
尽管如此,通过大模型赋能车载语音助手,是所有车企都不敢错过的方向。
对此,正在与某家车企进行智能座舱领域大模型合作的虎博科技创始人兼 CEO 陈烨告诉 42 号车库,目前汽车行业在产品层面已经出现了高度同质化的情况,大模型在车端的落地,各家之所以都在做,主要目的还是为了在智能化的加持下寻求产品差异化。
但是,他认为,大模型要想在车端真正发挥作用,还需要时间来打造一个真正的 Killer App,也就是杀手级应用,这也是众多车企要努力探索的方向。
不过,一位 AI 行业人士告诉我们,目前车企在布局大模型落地的过程中,首先选择了车载语音助手这个角度,是因为这个角度的切入相对容易一些,用户感知度更高;但从长远来看,大模型将很有可能通过这个入口,扮演车上的「AI 操作系统」的角色,也就是将 AI 能力与用户的不同用车场景进行紧密结合,从而探索出更多的可能性。
智能驾驶,大模型的「应许之地」
除了智能座舱之外,作为汽车智能化的另外一个关键支点,智能驾驶也开始在大模型的技术框架下寻找突破和提升的机会。
这里我们需要阐明的一个前提是:类似于 GPT 这样的大模型,其最底层的技术支撑是 Transformer 算法,而 Transformer 算法自从通过《Attention is All You Need》这篇论文提出之后,也一直被应用于自然语言处理领域;然而,在 2021 年 8 月的特斯拉 AI Day 上,特斯拉首次将 Transformer 引入到它的自动驾驶算法架构中,并由此推动 BEV+Transformer 成为整个自动驾驶领域走向量产落地的新范式。
所以,以 Transformer 为连接点,实际上大模型与自动驾驶一直存在着某种最底层的技术关联——也因此,一些车企在谈到自家采用的 BEV+Transformer 感知架构时,也会用到类似于「Transformer 大模型」或者「大模型时代」这样的字样。
这无可厚非——但是从实际来看,这一轮大模型对自动驾驶的加持,主要是在发生在 2023 年。
毕竟,伴随着 ChatGPT 的横空出世和一片火热,GPT 所体现出来的通用性和泛化能力,也引发了自动驾驶领域对于模型构建方式的新思考,并且有了一些新的尝试。
目前来看,做得比较多的是毫末智行和小鹏汽车。
今年 4 月,与长城汽车密切相关的毫末智行在 AI Day 上发布了行业首个自动驾驶生成式大模型 DriveGPT。它的底层模型借鉴了 GPT 的思路,但与 ChatGPT 不同,DriveGPT 输入的是感知融合后的文本序列,输出的是自动驾驶场景文本序列,即将自动驾驶场景 Token 化,形成「Drive Language」,最终完成自车的决策规控、障碍物预测以及决策逻辑链的输出等任务。
半年后,毫末智行进一步展示了它通过大模型来推进自动驾驶 AI 技术的探索和突破。举例来看,在感知方面,DriveGPT 通过构建视觉感知大模型来实现对真实物理世界的学习,将真实世界建模到三维空间,再加上时序形成 4D 向量空间;在此基础上,毫末进一步引入开源的图文多模态大模型,构建更为通用的语义感知大模型,实现文、图、视频多模态信息的整合,从而完成 4D 向量空间到语义空间的对齐。
同时,在认知阶段,DriveGPT 通过构建驾驶语言来描述驾驶环境和驾驶意图,再结合导航引导信息以及自车历史动作,并借助外部大语言模型 LLM 的海量知识来辅助给出驾驶决策——相当于让自动驾驶系统在认知决策中获取了人类社会中的常识和推理能力。
总体来说,毫末所做的,是在感知、认知、决策等各个环节来引入大模型的方法,目的是增加自动驾驶系统处理能力的通用性和泛化性,从而让它整体上变得更加聪明。
无独有偶。在 10 月份举行的小鹏汽车 1024 科技日上,小鹏汽车在最新发布的 XNet 2.0 感知架构中,也引入了大模型的能力。具体来说,在大模型的加持下,小鹏 XNet 2.0 可以实现读懂交通标识上文字信息、具备时间观念、理解不同城市特点交通元素的语义等能力——同样也是为了增加感知层面的泛化性。
实际上,大模型能力的加持,也成为小鹏汽车在推进城市 NGP 在更多城市可用过程中的有效助力因素。
值得一提的是,在自动驾驶技术本身不断向前推进的过程中,端到端也成为自动驾驶发展的另外一个范式,典型的代表是特斯拉——而端到端这一概念,也被部分从业者纳入到「大模型」的范畴。
今年 8 月,马斯克在社交平台上首次直播演示了特斯拉的 FSD V12 系统,它也是有史以来第一个端到端 AI 自动驾驶系统。对此,马斯克表示,FSD V12 全程都是通过 AI 来实现,其中不包括任何一行由程序员编写的道路识别、行人识别等代码,全部由神经网络来完成。
与特斯拉的「端到端」思路高度一致的,是在计算机视觉领域国际顶级会议 CVPR 上获得最佳论文的《Planning-oriented Autonomous Driving》 ,它由上海人工智能实验室、武汉大学、商汤科技团队联合发表。
这篇论文主要介绍的是 UniAD 一体化自动驾驶算法框架。具体来说,它将自动驾驶算法中的感知、预测、规划等诸多模块,统合到一个以任务为导向的端到端框架中,该框架同样基于 Transformer。
就这篇论文的意义而言,有自动驾驶业内人士称之为「自动驾驶之光」;但显然,作为一篇学术论文,它离真正落地的距离还很远——需要注意的是,商汤科技在介绍 UniAD 时,也用到了「自动驾驶通用大模型」的说法。
不过,尽管各家对于「大模型」的概念界定和落地方式不同,但在自动驾驶领域,端到端正在成为一个逐渐明晰的方向,比如说毫末智行也多次在 AI Day 上强调,端到端自动驾驶是它未来要实现的方向。而清华大学智能产业研究院院长张亚勤所言,AI 大模型带来了从判别式 AI 到生成式 AI 的新技术范式变革,自动驾驶要想达到最后的安全、可靠阶段,一定是端到端方式实现。
但眼下,普通用户还难以直观感受到大模型给智能驾驶带来的明显改变——他们也许需要一个类似于马斯克所说的特斯拉的「ChatGPT 时刻」:突然之间,数百万辆车能够实现自动驾驶。
一位长期关注大模型的行业观察人士告诉我们,目前行业里对于大模型的概念界定是非常混沌的,是不够清晰的。
但是有一点可以确认:大模型的思路和方法,是对以往 AI 运行模式的颠覆,而考虑到 AI 在过去十年间对自动驾驶的持续赋能,则大模型的发展,可能会在自动驾驶领域带来革命性的变化,并且将在推动自动驾驶的进化方面发挥重大作用。
一个从量变到质变的过程,才刚刚开始
无论是智能驾驶,还是智能座舱,车企们对大模型的拥抱,都指向了一个基本事实:在极度内卷的竞争环境下,面对智能化转型的大势,所有的车企都非常焦虑,唯恐在这场 AI 技术的竞争中落后于对手。
而在 2023 年爆火的大模型,已经成为它们转型过程中不得不把握的重要抓手。
一位从事 AI 大模型的研究人员告诉 42 号车库,大模型本身是 AI 发展的一个关键节点,它的意义重大;但目前来看,大模型这个概念被汽车行业大面积泛化后,势必会在消费者心中建立更强的认知度。从另一个层面上来看,车企们对大模型的强调和探索,很大程度上也是因为汽车行业与 AI 领域正在发生密切关联,这是无可阻挡的趋势。
当然,大模型落地,从技术上来说,确实存在一定的难度。
从技术属性上来说,大模型本身就需要大算力和大数据的支撑,它的原生开发和优化环境更适用于云端,而车端无论是算力还是数据存储空间上都非常有限,所以无论是从车企研发还是从部署落地的角度来说,大模型上车本身就是一件技术门槛很高的事情。
换句话说,大模型技术首先需要一个足够庞大的云计算硬件体系做支撑,其次就是将它更好地通过「端云部署」等能力落地到更加具体的车端应用场景上。
这对于传统车企来说是巨大的考验,而对于已经部署了算力基础的新势力企业来说,相对容易一些——而对于华为这样的从云到端都有强势部署的企业来说,更是其巨大的优势所在。
正是因为如此,也需要车企们在拥抱和探索大模型的过程中,不仅仅要充分考虑用户价值,还需要有足够强大的战略定力。
毕竟,从长期来看,对于汽车行业来说,作为 AI 时代的最新成果,大模型势必能够带来某种确定性的价值。
虎博科技创始人兼 CEO 陈烨认为,大模型就像一道通向未来的门,它能够给汽车智能化带来无限的机会和可能性,无论是智能座舱层面,还是在智能驾驶层面——这就意味着,车企要想把握住潜在的机会,势必要投入其中,否则就完全没有机会。
一位在某头部新势力从事大模型研发的人士告诉我们,实际上车企技术部门积极研究大模型,还有一个潜在动因是对通用人工智能的追求,这也是技术人员们梦寐以求的。
总体来说,从眼下的情况来看,尽管 AI 大模型能够带来的实际用户体验价值还处于早期探索阶段,要想真正上车并发挥价值,可能还需要车企们不断围绕技术进展和用户需求的结合点进行推进。
但是从长远来看,它对于汽车产品和行业的影响都将是无比深远的,也是所有车企都必须面对的确定性趋势——从这个角度上来看,大模型赋能汽车,也需要经历一个量变的漫长过程,并最终到达一个质变的临界点。
那么,这个过程需要多久?
一切尚未可知,也许三到五年,也许长达十年——但有一点是非常明确的:无论是否情愿,车企们已经被动或者主动卷入到 AI 大模型时代,并且将在这条终点未知的漫长赛道中不断跋涉;但在到达那个临界点之前,它们要先让自己在汽车市场更加残酷的厮杀中活下来。