鞭牛士报道,1月28日消息,据外电报道,尽管 ChatGPT 的推出使OpenAI 首席执行官 Sam Altman成为人工智能界的家喻户晓的人物,但 DeepSeek 的创始人在美国仍然鲜为人知。
这家中国人工智能初创公司高调发布了其开源人工智能模型 R1,令人工智能界为之震惊。DeepSeek 称,该模型在“数学、代码和推理任务”方面的表现可与 OpenAI 的 o1 模型相媲美,同时仅使用一小部分计算能力。
那么,谁将领导这家震惊硅谷乃至整个人工智能行业的公司呢?
下面我们来简单了解一下DeepSeek创始人梁文峰的背景和职业生涯。
成长和教育
本月发表的 2024 年 7 月的一次采访译文中,文峰说,自己 1980 年代在中国广东的五线城市长大。他的父亲是一名小学教师。
他在浙江大学获得了本科和研究生学位,浙江大学是中国历史最悠久、排名最高的大学之一。
中国电子商务创始人、拼多多前首席执行官黄峥也曾在该校学习。
他的职业生涯始于金融。
2015年,文峰和两名浙江大学同学创立了量化对冲基金High-Flyer,其网站称其依靠数学和人工智能进行量化投资。
据 High-Flyer 网站称,截至 2019 年,其管理的资产至少达到 100 亿美元。
据《金融时报》报道,2021 年,文峰在运营 High-Flyer 期间开始从 Nvidia 购买数千块 GPU,他的一位商业伙伴向该报描述他为一个留着可怕发型的书呆子,大谈构建一个 10,000 个芯片的集群来训练他自己的模型。
2023 年 5 月,文峰推出了 DeepSeek,作为资助人工智能实验室的 High-Flyer 的一个分支。
这家初创公司去年年底凭借其 V3 模型引起轰动。
在 12 月底发布的一篇论文中,DeepSeek 的研究人员估计,他们使用 2,000 块 Nvidia H800 芯片构建和训练该模型的成本不到 600 万美元,远低于许多 AI 竞争对手。
例如,X 所有者埃隆·马斯克 (Elon Musk) 表示,其平台的 AI 聊天机器人Grok 3 正在使用 100,000 块 Nvidia H100 GPU 进行训练。Meta首席执行官马克·扎克伯格 (Mark Zuckerberg) 去年 1 月表示,该公司将在 2024 年底前购买 350,000 块 Nvidia H100 GPU 。
随后,DeepSeek 于 2025 年 1 月 20 日推出 R1 型号,再次震惊硅谷。
Wenfeng 运行 DeepSeek 的方法
文峰在2024年的采访中表示,他对DeepSeek的主要关注点是研究大型模型,实现通用人工智能。
「我们的原则是不亏本销售,也不追求超额利润。目前的定价允许我们在成本之上获得适度的利润空间。」他在翻译采访中说道。
他还表示公司不会采用闭源技术,并补充道:我们认为建立强大的技术生态系统更为重要。
文峰表示,中国的人工智能产业一直在追赶美国,他希望 DeepSeek 能够改变这种状况。
「我们认为,中国的人工智能不可能永远只是个追随者。我们经常说,中国和美国的人工智能之间有一两年的差距,但真正的差距在于原创和模仿之间。」他在翻译采访中说道。「如果这种情况不改变,中国将永远是个追随者。」