鞭牛士 11月15日消息,近日,创新工场董事长兼CEO李开复创办的“零一万物”所开源的Yi-34B和Yi-6B模型被指抄袭。今日下午,零一万物发布对《对Yi-34B训练过程的说明》,正式回应抄袭质疑。
零一万物表示,基本上国际主流大模型都是基于Transformer的架构,做attention,activation,normalization,positional embedding等部分的改动,LLaMA、Chinchilla、Gopher 等模型的架构和GPT架构大同小异。公司从零开始训练了 Yi-34B 和 Yi-6B模型,并根据实际的训练框架重新实现了训练代码,用自建的数据管线构建了高质量配比的训练数据集(从3PB原始数据精选到3T token高质量数据)。
零一万物称,对于沿用LLaMA部分推理代码经实验更名后的疏忽,原始出发点是为了充分测试模型,并非刻意隐瞒来源。公司正在各开源平台重新提交模型及代码并补充LLaMA 协议副本的流程中。
以下为公告全文:
在《说明》发布后,李开复转发了文章并表示:“全球大模型架构一路从 GPT2--> Gopher --> Chinchilla-->Llama2-->Yi,行业逐渐形成大模型的通用标准(就像做一个手机app开发者,不会去自创iOS、Android 以外的全新基础架构)。01.AI 起步受益于开源,也贡献开源,从社区中虚心学习我们会持续进步。”
此前,原阿里首席AI科学家贾扬清发朋友圈暗指“零一万物”旗下的大模型涉嫌抄袭。他表示:“国内一款新的大模型事实上是LLaMA架构,但是为了表示不一样,把代码里面的名字从LLaMA改成了他们的名字,然后换了几个变量名。”
11月14日,在零一万物预训练大模型Yi-34B的Hugging Face开源主页上,又有一位名为ehartford的国外开发者质疑,该模型使用了Meta Llama的架构,只对两个张量(Tensor)名称进行了修改,分别为 input_layernorm 和 post_attention_layernorm。
据机器之心报道,零一万物此前回应表示,Yi确实借鉴了GPT的成熟结构,但零一万物团队自己也做了大量工作:“GPT 是一个业内公认的成熟架构,LLaMA 在 GPT 上做了总结。零一万物研发大模型的结构设计基于 GPT 成熟结构,借鉴了行业顶尖水平的公开成果,同时基于零一万物团队对模型和训练的理解做了大量工作…… Yi 开源模型在其他方面投入了大量研发和打底工作……”
而在原帖之下,零一万物的团队成员Richar Lin回应承认了更改张量名称一事,“这个命名问题是我们的疏忽。在大量的训练实验中,我们对代码进行了多次重命名,以满足实验要求。但是,我们有点掉以轻心,没有在发布之前将它们改回来。” 他表示,会将张量改回原LLaMA的命名。
