提出Transformer的那篇论文《Attention is All You Need》问世已经是六年前的事了。当初的8位论文作者有6人出自谷歌,但到现在大多也已转身寻找新的故事。
Lukasz Kaiser去了OpenAI,他曾经谷歌大脑的同事Noam Shazeer成立了Character AI,估值已经超过10亿美元。另外两位同事Ashish Vaswani和Niki Parmar在创立了AI软件开发公司Adept AI Labs后,把这个同样估值超过10亿的初创公司交给了另一位联合创始人,又开始下一次创业了。只有Llion Jones,这个从威尔士一个小村庄里走出来的程序员,还留在谷歌。他曾经谈起这个并不够学术的论文标题的由来,是对披头士的那首《All You Need is Love》的简单致敬。而利用注意力机制来提高模型训练速度的Transformer架构,确实让AI从实验室深处的极寒之地里走出来了。它成为当下这场生成式AI浪潮无可争议的基础。某种程度上,上面提到的所有人,都没有真正离开这篇论文。Mikolov在2010年提出RNN,这个框架在7年后被Transformer取代。而在Transformer问世后的一个相似时间周期后,其高内存消耗和高推理成本的局限性也开始显现出来。替代者也跃跃欲试了。
“不可能三角”
图源:《Retentive Network: A Successor to Transformer for Large Language Models》Transformer的自注意力机制增强了模型并行计算的能力,并且正契合了GPU对大规模数据进行并发处理的设计倾向。但Transformer在面对大型数据集和较长输入序列时,需要的计算量会陡增。于是并行训练能力、性能和低成本推理,逐渐成为Transformer框架下的“不可能三角”。近日,微软研究院和清华大学的研究团队提出了一个新的框架RetNet(Retentive Network)来代替Transformer,并表示RetNet可以打破这个“不可能三角”。“这就像是M1芯片之于笔记本电脑。”一位产品经理在推特上这样形容RetNet。
图源:《Retentive Network: A Successor to Transformer for Large Language Models》O(1)为RetNet在GPU内存方面带来的优势是,它完全不随token数增加而变化。图源:《Retentive Network: A Successor to Transformer for Large Language Models》Throughput(神经网络的吞吐量)是一个算法模型在单位时间内(例如,1s)可以处理的最大输入的训练样本数据。RetNet在输入端token数增加的情况下仍然能够维持高吞吐量,而Transformer在这方面的数据则随着token数的增加而逐渐衰减。图源:《Retentive Network: A Successor to Transformer for Large Language Models》Perplexity(困惑度)是语言模型最鲜明的评价标准。它衡量语言模型对单词序列中下一个单词的预测能力。当模型参数量变大时,困惑度往往会降低,即语言模型能够做出更优的预测——这也是为什么我们对万亿参数模型抱有极大期待。论文中比较了RetNet与Transformer在1.3B、2.7B以及6.7B这三种不同尺寸上的困惑度变化,实验结果RetNet的困惑度下降更快,并且当模型大小超过2B时,RetNet的表现开始优于Transformer。这一观察结果意义重大,它表明RetNet更适合需要大量计算资源和内存的大型语言模型。图源:《Retentive Network: A Successor to Transformer for Large Language Models》2018年,大模型仍然前景未明的时候,黄仁勋在深度学习的综合性能评价方面提出了PLASTER框架。这是七个测量维度的缩写,其中延迟(Latency)的重要性仅仅被放在可编程性(Programmability)之后(其他五个维度分别是准确率(A)、模型大小(S)、吞吐量(T)、能效(E)以及学习率(R))。RetNet与Transformer在不同Batch Size(一次训练所选取的样本数)下的延迟表现同样印证了,RetNet的响应速度将在训练规模进一步扩大后展现出优势。
现在这条更侧重强化学习的AGI路径,压在了DeepMind正在研究的一个新的名为Gemini的大模型身上。DeepMind CEO 哈萨比斯表示,对Gemini的研发投入将会超过数千万甚至数亿美金。做个对比,OpenAI用1个亿美金迭代出了GPT-4。图源:Business Today“Gemini”本身是双子座的意思。在哈萨比斯的表述中,这个全新的大模型将会是GPT4和AlphaGo的结合体,它仍然是一个大语言模型,但AlphaGo所具备的强化学习和树搜索能力会给Gemini带来更强的决策和规划能力——这个杨立昆认为GPT在AGI道路上早晚会遇到的阿喀琉斯之踵。Gemini背后的谷歌显然希望能借着Gemini重新在与微软的争锋中占到一个好的位置。在ChatGPT问世之后,谷歌快速站到了OpenAI的对手Anthropic的背后。如果这被看作一种防守姿态的话,Gemini则更像谷歌主动发起的一场新的路线之争,就像曾经在GPT与BERT身上发生过的事情一样。但无论如何,RetNet或是Gemini,改革或是淘汰Transformer的狂妄本身,已经包含了对这个伟大框架的所有敬意。(品玩GenAI)