×
加载中...
小米的大模型「野心」,始于端侧
郭晓静 吴彬 腾讯科技 2023-10-12 16:44

今年2月,搭载高通第二代骁龙8芯片的安卓手机,就可以直接运行参数规模超过10亿的Stable Diffusion。五月,Google公布了大语言模型PaLM2,其包含四个不同尺寸的大模型,其中参数量最小的“壁虎”可以在手机上运行,即使不联网也能正常工作,且运行速度足够快。

与此同时,高通提出了混合AI的概念——AI处理最好要分布在云端和终端同时进行,才能实现AI的规模化扩展并发挥其最大潜能。

模型和硬件的突破,让行业看到了将大模型装进手机终端的可能性。手机与深度学习的结合并不是一件新鲜事,在智能手机刚开始崛起的2008年前后,深度学习就已经开始被应用在图像处理、AI语音助手等功能中。

但现在的手机大模型与当时的端侧机器学习有着本质不同。融入手机系统中的大模型可以打破各应用之间的壁垒,在打造自身垂直整合、软硬结合的生态方面,意义非凡。在行业整体增长放缓的情况下,手机端大模型成为了厂商提升自身核心竞争力、打造差异化用户体验的重要方向。

根据IDC预测,到2026年,中国市场中近50%的终端设备的处理器将带有AI引擎技术。目前已有多家手机厂商开始布局:荣耀Magic V2 在今年7月就将AI大模型引入端侧;华为将智慧助手“小艺”接入盘古大模型。

ChatGPT今年的爆火,被称为又一个“iPhone时刻”,而iPhone,却并未明确官宣关于大模型的相关信息。外媒仅从某些消息人士、招聘信息中猜测,苹果已经建立了自己的大语言模型框架“Ajax”,并已经将其应用在地图、siri等功能上,做人工智能改进。苹果还基于Ajax创建了一个聊天机器人服务,一些工程师称之为“苹果GPT”。而此时距离苹果推出可以算作是AI的初级产品Siri,已经过去12年。

手机终端的大模型之战愈演愈烈,基于此,腾讯科技《 AI未来指北》把目光聚焦在端侧大模型,希望能从模型侧、终端侧、硬件侧立体呈现端侧大模型的行业发展趋势。本期我们将视角聚焦在8月宣布入局手机大模型的小米公司。

雷军在小米年度演讲中表示:“小米自研的13亿参数大模型已经在手机本地跑通,且在部分场景可以媲美60亿参数模型在云端运行的结果。”

在官宣手机在本地跑通之后,小米技术委员会AI实验室大模型团队负责人栾剑与腾讯科技分享了小米在研发手机大模型过程中的关键性思考,这也是他自接任小米AI实验室大模型团队负责人之后首次与外界进行深度对话:

①小米是如何定义自己已“跑通”了手机大模型?

②13亿参数的大模型在手机端能够“跑通”,软硬件配合的基本要求是什么?

③13亿参数大模型如何在某些场景媲美60亿参数的云端模型?小米更看重哪些应用场景?

④手机端大模型对未来的智能手机,意味着哪些可能性?

以下为对话内容精华:

腾讯科技:手机与深度学习的结合并不是新鲜事。现在手机和大模型的结合与之前相比,有什么本质上的不同?

栾剑:手机和AI的结合其实很早就有了,比如在拍照中对照片的调整——背景虚化、调整光线等。现在把大模型加入手机,应该说是一个升级。大模型提高的是自然语言的交互,包括文字处理的能力、多模态的处理能力等。

过去大家经常调侃,有多少“人工”,就有多少“智能”,其实主要是指自然语言的理解能力、泛化能力不够强。手机可能“听到了”,但是“听不太懂”。加入大模型,主要就是想增强自然语言的理解能力。

腾讯科技:在不久前的小米发布会上,雷总说已经把手机端的大模型跑通了,所谓的“跑通”是如何定义的?

栾剑:我们对跑通的定义可能和很多人的理解不太一样。在小米发布端侧大模型之前,网上也有一些视频Demo,说在手机上已经把大模型跑通了。但是我觉得是否跑通有三个关键因素:

第一、内存的问题。大模型的特点首先是“大”,手机上的内存是不是能够把模型运行起来?如果工作内存的占用率过高,会影响对其它应用的使用表现为手机无法响应、整体性能降低、甚至死机。

第二、算力是不是能够支撑“生成速度”。如果说生成一个字就要几秒,用户体验会非常不好。因为人的阅读速度大概一秒钟十几个汉字,所以“生成速度”一定要比这个速度快,不能让用户去等。

第三、就是功耗问题。这也是网上很多在手机上跑大模型的Demo没有去关注的问题。计算芯片负载过高会带来手机发烫,长时间使用会造成电池续航时长大大降低。

以上三个问题如果没有解决,Demo就只能是Demo,永远无法真正落地。

图片

腾讯科技:小米手机端侧大模型公布的参数量是13亿,按照这个参数量,需要什么样的硬件要求,才能做到比较好的产品体验?

栾剑:我们当然希望最终所有或者大部分手机都能跑大模型,对硬件的要求越少越好。但是在第一步,我们会先在内存最大、算力最强的手机上做实验。即使这样也有很多的难点。比如从功耗上来讲,我们最看好NPU的方案。根据之前小米在端侧落地AI模型的经验,同样的模型推理,使用NPU的功耗会比CPU和GPU小很多。但是很多NPU的芯片有内存使用的上限,我们需要想办法绕过。

另外就是语言大模型输出序列的长度会动态变化,而NPU常常会需要固定序列的长度。对模型进行量化,对推理结构和算子的优化,使得每秒生成的token数量尽可能多。而这些处理之后还要保证计算的精度损失对生成结果影响尽可能小,以及多次推理之间结果的稳定性,等等。所以把大模型放到端侧是一个复杂的过程,需要解决很多问题。

腾讯科技:还有一个关于手机跑大模型的“调侃”:如果手机端都能支持大模型,那要英伟达的卡做什么?你怎么看这个问题?

栾剑:这个问题要分成两件事情来看。一个是训练,模型训练需要巨大的算力,一定都会在云端进行,在千卡甚至万卡的集群上来完成。而手机端的应用,其实我们指的是推理。在推理的时候,模型可以只激活一部分的模块、一部分的神经元来计算,在这种情况下,我们是有机会让算力需求更小一点,消耗的工作内存也更少一点。

端侧大模型的优点是,更好地保护大家的隐私数据,第二让大家可以用更低成本去获取更多的功能。但绝对不是说用手机端就能解决所有的问题,我们还是会坚持端云一体化的道路。只是有一部分能力或者说有一部分功能,可能端侧的模型就可以解决了,就没有必要上升到云端去。

腾讯科技:所以具体来讲,拿一个场景来举例,我想吃牛排,希望小爱同学帮我找一家最近且评分最高的牛排馆,这用到的是端云混合?

栾剑:对,这就涉及到一个比较复杂的问题,关于信息实时性的问题。如果不考虑实时性,我们把现在已有的关于餐馆的所有信息,包括它的点评、美誉度等,全部都送给模型去学习的话,大模型就掌握了一个静态的知识,实际上它也是可以帮你做推荐的,比如告诉你截止几月几号的时候,这家牛排餐厅最适合你。但是如果我们希望实时去更新这个信息系统的话,可能就需要结合云端的一些能力了。

关于哪些用了端、哪些用了云,我们其实希望对用户来说,没有比较明显的感知,只要使用起来是一个特别流畅的服务就好了。

具体来说就是一些简单的任务,比如写作、建议等,可能在端侧就可以完成。而有一些比如说涉及到了特别复杂的知识体系,涉及到了一些特别实时性的新闻和信息,这个时候就必须要调用云端的能力,比如说订火车票、订酒店。这个不太可能提前就把这些数据都学习到,比如说那家宾馆现在还有没有空房,这个信息一定是实时不断在更新的。在这个时候就必须要结合云端的能力了。

腾讯科技:小米的手机端大模型是完全自研的吗?

栾剑:对,这里一定要强调一下我们为什么要全部自研。因为雷总(雷军)其实也提到了小米的科技理念,对人类文明长期有价值的技术领域,我们会坚持长期持续投入。我们觉得大模型技术是AI未来发展的一个重要方向,所以我们一定需要自己从头到尾每个环节都做一遍,积累这方面的经验,而且去了解在操作过程中的所有细节。

纸上得来终觉浅,如果只是阅读论文去理解一下概念,我们觉得还不够。将来我们如果想继续在AI领域深耕,取得更多的突破,可能都必须基于大模型框架,所以我们坚持要走全自研的道路。

腾讯科技:现在有功能强大的可开源商用的模型,这样是不是成本更低、效率更高?为什么不考虑开源的方案?

栾剑:首先我们需要有自己定制模型结构的能力。在各种设备终端上,使用的芯片不同,就会对模型提出各种各样的要求,这些要求可能细节到一些算子不支持,或者某种结构运行起来效率不高。我们必须根据硬件提出的要求,对模型结构做一些调整。

如果想修改模型结构的话,就一定需要具备从头开始训练的能力。因为开源模型的结构是固定的,没有办法调整,就不能满足小米的需求。

腾讯科技:雷总说小米不做通用大模型,要坚持研发轻量化的大模型。这是怎么考虑的呢?

栾剑:我们开始尝试大模型技术其实非常早,曾经在对话大模型上做过尝试,所以有经验和积累,对这项技术本身也有自己的理解。

我们当时就预判可能在年底之前,行业就会出现很多复刻通用大模型能力的公司,那么我们觉得小米应该还是去发挥自己的特色,而不要说哪里人多就往哪去扎堆。

我们要去补足这个行业里面大家还不太重视的,或者说还比较缺的一些方面。小米的特色是什么?我们觉得小米的特色是有很多的端侧设备,怎么样把这些端侧的设备利用好,把大模型能够放到端侧设备里面去。首先这就是一件很酷的事情。其次我们也考虑到很多用户可能对个人数据上传到云端是有顾虑的,如果能够在端侧解决很多问题的话,用户隐私就能得到很好的保护。

同时通用大模型的参数量很大、部署成本很高,将来用户的使用成本也会是一个很大的问题。在这种情况下,小米又一直希望让所有人都能体验到科技带来的美好生活,所以我们一定要想方设法尝试一条道路,让大家既能够保护数据的安全,也能够以尽量低的成本去使用这项技术。

腾讯科技:但是关于大模型,用一句俗话说就是“暴力出奇迹”,参数越大,可能泛化能力更好,把参数做小的话,它是否会丧失某些能力?

栾剑:这是个很好的问题,我们对这件事的看法会不太一样。我们认为大模型技术本身并不只是说参数量大,我们更看重的是它带来了技术的一个新范式。大模型为什么会产生这样的能力,需要首先对它的底层逻辑有一个更清楚的认识和理解。

我们觉得大模型的涌现能力,可能并不完全依赖于参数量大。在训练数据的选择上,在训练策略和训练任务的选择上,其实带来的影响可能更大。也就是说如果我们只用过去某个传统任务的数据去训练的话,即使把模型参数规模做得再大,它可能也达不到我们现在看到的这种涌现能力。

所以我把这个新范式总结成三个“大”:第一是说数据量要大;第二是任务要大;第三才是模型的参数量要大。数据量大,能从中挖掘的常识和知识的丰富度和覆盖面才大。参数量大,模型才能存储足够的知识规模。任务大,或者说任务足够复杂,才可能迫使模型内部必须将各种子能力模块化,通过这些模块化的子能力组合才有可能完成各种各样的复杂任务。只有这样大模型才真正的泛化出一些没有特意训练的新能力来,产生涌现。

所以基于这个理解,模型的参数量到底需要多大,其实还有很多探索的空间。最开始的时候很多人说需要千亿、万亿的参数规模才能涌现。后来也有一些论文说,我们百亿参数的模型好像也能够涌现。然后前一阵,好像也有论文说10亿的模型也涌现了。这个趋势和我们最初的认识非常契合。

腾讯科技:所以现在把参数量做小,13亿的参数,和以前的小模型有本质区别吗?

栾剑:我认为本质区别是训练范式的变化,而不只是模型大小的变化。因为即使是一个参数量相对较小的模型,如果用大模型的方式去训练它,比如预训练采样多种多样的数据,从理论上来说,它还是有机会掌握和人一样的基础常识和知识体系。在这个基础上再去迭代,效果上一定比以前的小模型会有显著提升。

腾讯科技:所以13亿参数的手机端模型,是不是也“涌现”了?

栾剑:对,我们在13亿参数的模型上观察到了“涌现”。但是这里也要强调一点,大家千万不要认为13亿参数的端侧模型就能够完全替代或者完全媲美云端千亿参数的大模型,它们肯定还是有差距。因为参数规模其实就代表了大模型能存储的知识量。那么这个差距有没有办法来弥补?

我们说在部分场景媲美了云端更大的模型的效果,而不是在所有的场景。所以我们会基于对具体场景的深刻认识,专注于用户使用频率最高、在某个设备上最可能用到的场景。我们希望端侧模型在这些场景做到极致的效果。

腾讯科技:13亿的手机端模型,在某些场景下可以媲美60亿参数的云端大模型,这里更看重哪些场景?小米内部有没有排序?

栾剑:关于应用场景,我觉得现在大家都还在探索的阶段。我们有一些思考,可能在小米将来的产品发布会上会陆续展示。但是从技术上需要提前证明,一个13亿参数的模型在任何一个你期望它表现好的目标场景,我们都是有办法去做定制的。在这个目标场景和需要的知识领域上,我们有能力做极致的增强。

腾讯科技:小米的端侧大模型也去打榜了,如何看待这件事?目前大模型评测并没有国际公认的标准,为什么小米还要去做?

栾剑:大模型的评测确实是一件挺难的事情。刚刚说大模型是一个新的范式,其实一个范式除了对底层逻辑的解释,也需要有一整套的训练方法及评估方法。对大模型来说,这一整套合理的评估方法,大家还在探索中,没有公认的标准。

那么怎样去验证我们这个模型到底训练得好不好?还是需要找一些方法去测试一下。虽然打榜可能不是一个特别全面、特别完整的方法,但是它也是我们目前能找到的一个比较好的方法,或者说大家还比较认可的方法。最近已经有越来越多的大模型参与了这几个榜单的评估,尤其在小米发布会之后的这段时间上榜的模型特别密集,大家纷纷把榜单成绩越刷越高。

但同时我们还是要清醒地认识到,目前的这些榜单绝大部分都是学科问题,而且是选择题为主,所以用它们对评估大模型的能力是有局限性的。如果我们把这些学科的知识、这些学科搜集到的试题,都拿来对大模型做增强学习,它的效果一定可以达到很好。但是做这样的训练对大模型其它方面的能力会不会带来负面的影响呢?我们也观察到有一些开源的大模型迭代了版本之后,打榜的分数提高得很明显,但如果测试它的生成能力,比如写作水平,发现其实是有下降的。

所以我们看待打榜,只是从一个侧面验证一个基座大模型是不是能在某个领域里做到极致,但不代表说它就一定能给用户带来最好的应用体验。

可能将来我们也不太会再强调榜单上的排名,而把主要精力放在小米的产品上面,聚焦怎样把体验做好,让用户满意。

腾讯科技:刚才提到了小米有很多多模态的数据,未来如何看待多模态和大模型结合的应用前景?

栾剑:现在行业里有很多公司开始做多模态大模型,已经有了一些效果,比如根据文字来生成视频,或者是用文字来搜图片这样的一些功能,但是我觉得这些应用还是叫跨模态可能更加合适。

所谓跨模态就是输入是一种模态,输出是另外一种模态。而真正的多模态应该输入可以是多个模态,输出也可以是多个模态。所以我觉得多模态这条路还在探索的初级阶段,其实还有很多技术难点需要解决和突破。

多模态研究的一个思路是认为人类的绝大部分知识存在于文字当中,所以需要基于大语言模型这个框架。这也是大模型首先在自然语言这个领域取得突破的原因之一,因为它存储的知识量最大。

但是还有很多常识是和空间有关系、跟视觉有关系,或者跟听觉、味觉、触觉有关系。所以下一步需要考虑把其它模态也放进来,在同一个语义空间里面和自然语言做对齐,在自然语言搭好的框架里面不断补充新的信息和内容,使得大模型最终能真正达到像人类一样去认识和理解这个世界。

刚才提到的小米的各种设备里面,除了视觉以外,其实还有各种其他的传感器,比如温度传感器,震动传感器,或者是海拔、加速度的感知等等,如何让它们也通过大模型进行处理?

我觉得这是另外一种模态,由纯时序的数据组成。如果大模型对它们也能够充分理解,可能会带来一些更奇妙的变化,比如通过家居场景的所有设备相互配合完成一些复杂的功能。

腾讯科技:对于手机厂商布局端侧大模型这个动作,消费者或用户会有强烈感知吗?

栾剑:首先我觉得从手机厂商来说,一定会探索这种可能性。如果不探索的话,未来有可能在这个领域落后。其次从用户角度来看这件事情,用户可能一开始不会有那么强烈的感知用到的是端侧还是云端。但是他们将来一定会发现在一些场景上,比如说一些特别隐私的问题,用端侧会更加安全。

其实现在的一些新闻报导,也让大家开始重视个人隐私的安全。在这种情况下,端侧对用户来说一定是有用的。但同时我觉得这也依赖于手机厂商对硬件和软件整合的能力,把端侧大模型的能力做得越来越强,这个时候用户体验就会变得越来越好,用户又会更加地觉得这是一个有用的东西。

扫码下载app 最新资讯实时掌握