零一万物回应旗下大模型抄袭：主流大模型架构大同小异

鞭牛士 2023-11-15 17:10

鞭牛士 11月15日消息，近日，创新工场董事长兼CEO李开复创办的“零一万物”所开源的Yi-34B和Yi-6B模型被指抄袭。今日下午，零一万物发布对《对Yi-34B训练过程的说明》，正式回应抄袭质疑。

零一万物表示，基本上国际主流大模型都是基于Transformer的架构，做attention，activation，normalization，positional embedding等部分的改动，LLaMA、Chinchilla、Gopher 等模型的架构和GPT架构大同小异。公司从零开始训练了 Yi-34B 和 Yi-6B模型，并根据实际的训练框架重新实现了训练代码，用自建的数据管线构建了高质量配比的训练数据集（从3PB原始数据精选到3T token高质量数据）。

零一万物称，对于沿用LLaMA部分推理代码经实验更名后的疏忽，原始出发点是为了充分测试模型，并非刻意隐瞒来源。公司正在各开源平台重新提交模型及代码并补充LLaMA 协议副本的流程中。

以下为公告全文：

微信截图_20231115170230.png

微信截图_20231115170236.png

在《说明》发布后，李开复转发了文章并表示：“全球大模型架构一路从 GPT2--> Gopher --> Chinchilla-->Llama2-->Yi，行业逐渐形成大模型的通用标准(就像做一个手机app开发者，不会去自创iOS、Android 以外的全新基础架构)。01.AI 起步受益于开源，也贡献开源，从社区中虚心学习我们会持续进步。”

微信图片_20231115170311.jpg

此前，原阿里首席AI科学家贾扬清发朋友圈暗指“零一万物”旗下的大模型涉嫌抄袭。他表示：“国内一款新的大模型事实上是LLaMA架构，但是为了表示不一样，把代码里面的名字从LLaMA改成了他们的名字，然后换了几个变量名。”

11月14日，在零一万物预训练大模型Yi-34B的Hugging Face开源主页上，又有一位名为ehartford的国外开发者质疑，该模型使用了Meta Llama的架构，只对两个张量（Tensor）名称进行了修改，分别为 input_layernorm 和 post_attention_layernorm。

据机器之心报道，零一万物此前回应表示，Yi确实借鉴了GPT的成熟结构，但零一万物团队自己也做了大量工作：“GPT 是一个业内公认的成熟架构，LLaMA 在 GPT 上做了总结。零一万物研发大模型的结构设计基于 GPT 成熟结构，借鉴了行业顶尖水平的公开成果，同时基于零一万物团队对模型和训练的理解做了大量工作…… Yi 开源模型在其他方面投入了大量研发和打底工作……”

而在原帖之下，零一万物的团队成员Richar Lin回应承认了更改张量名称一事，“这个命名问题是我们的疏忽。在大量的训练实验中，我们对代码进行了多次重命名，以满足实验要求。但是，我们有点掉以轻心，没有在发布之前将它们改回来。” 他表示，会将张量改回原LLaMA的命名。

扫码下载app 最新资讯实时掌握

AI 大模型

上一篇大摩：生成式AI明年登陆iPhone和Mac，苹果将「乘风而起」

下一篇李开复被大模型绊了一跤