张宏江是计算机科学家和高级管理人员,他也是中国最直言不讳地主张安全开发人工智能(AI)技术的重要人士之一。
在丹麦获得博士学位后,他在新加坡和加利福尼亚州帕洛阿尔托工作了几年。21世纪初,他回到中国,帮助构建微软亚洲研究院,随后将金山软件打造成为中国领先的软件公司之一,2016年退居幕后。2018年,张宏江又重返中国 AI 领域,成立了北京智源人工智能研究院(BAAI)——一家集产学研于一体的非营利性机构。目前,张宏江是美国国家工程院外籍院士、北京智源研究院的创始人和首任理事长、智源研究院学术顾问委员会主任。近年来,张宏江已成为中国 AI 监管的领军倡导者,以确保 AI 技术不会对人类构成威胁。近日,张宏江接受英国《金融时报》采访时,他谈到国际合作在 AI 保障方面的重要性,以及中国 AI 技术面临的机遇和挑战。以下是英国《金融时报》Ryan McMorrow和Nian Liu 与张宏江的速记,钛媒体AGI 进行了编译和整理,有一定删减:张宏江:我花了很多时间试图提高研究界、产业界和政府的认识,即我们的注意力不应该只放在我们已经意识到的人工智能的潜在风险上,比如假新闻、偏见和错误信息。这些都是人工智能的滥用。更大的潜在风险是生存风险。我们如何设计和控制未来更强大的人工智能系统,以使其不会逃脱人类的控制?我们三月份在北京的一个会议上制定了生存风险的定义,其中最有意义的是我们划定的红线。例如:人工智能系统永远不应该自我复制和改进。这条红线非常重要。当系统有能力自我复制、自我改进时,它就会失控。第二是欺骗。人工智能系统不应该具有欺骗人类的能力。另一个显而易见的原则是,人工智能系统不应该具备生产大规模杀伤性武器和化学武器的能力。此外,人工智能系统的说服力也不应该比人类更强。全球研究界必须共同努力,然后呼吁全球各国政府共同努力,因为这不仅仅是针对某个国家的风险,而是针对全人类的巨大风险。去年 10 月,我在英国举行的人工智能安全国际对话上学到了很多东西。这实际上是一个自下而上的工作系统。这是技术工作。不仅仅是政策工作。我意识到,在欧洲和美国——尤其是在欧洲——有一些技术人员已经在该领域工作多年,并且开发了不少系统来衡量和定义人工智能系统的风险。英国发挥了巨大主动作用。就像他们在去年的首届国际政府峰会上所做的那样。问:在您参与这些讨论时,中国顶尖科学家和政策制定者的观点是否与西方相似?张宏江:非常赞同。争论的焦点在于当前的人工智能系统是否真的具备通用人工智能 (AGI) 能力,或者它们是否会导致 AGI,以及距离有多远。但是,如果你同意存在风险,那么观点上其实没有太大的差异。[前谷歌人工智能先驱] 杰弗里·辛顿的研究表明,数字系统的学习速度比生物系统快,这意味着人工智能的学习速度比人类快——这意味着人工智能有朝一日会超越人类智能。如果你相信这一点,那么这只是时间问题。你最好开始做点什么。如果你考虑到潜在的风险,比如有多少物种消失了,你最好做好准备,并希望永远防止这种情况发生。科学合作应该是一种常见的做法。但不幸的是,现在这并不是一种常见的做法。当然,人工智能是最先进的技术,因此变得更加敏感。特别是在中国和美国之间,地缘政治确实会影响这些合作。我希望,至少在科学层面,这种合作能够继续下去。问:说到中国和美国,您认为美国政府对芯片出口管制将如何影响中国 AI 的长期发展?我一直认为,人工智能是一个由三部分组成的系统:算法、计算能力和数据。如果没有计算能力,今天的技术将变得更加有限。GPT 模型的本质是可扩展性。也就是说,如果你增加模型的大小和参数数量,它的性能就会提高。如果你扩大输入模型的数据量,它的性能也会提高。这就是我们所说的模型的规律效应(Scaling Law)。而且,随着参数和数据的增加,你还必须扩大计算能力。因此,如果你限制计算能力,你当然会遇到障碍。这是毫无疑问的。问:为了克服这些障碍,中国正在推动国产处理器的开发。但与此同时,中国现有的大多数模型都是建立在英伟达芯片生态系统之上的。是否可以在不同的芯片生态系统之间移植一个模型?张宏江:他们的软件必须兼容,这很难。人们已经建立了许多模型,最有效的模型是在英伟达生态系统中建立的。因此,如果你想建立自己的生态系统,需要时间和精力。最好与英伟达生态系统兼容。这很像 Windows 和 Mac 之间的软件兼容性问题。例如,如果你在 Android 上开发了某个东西,那么你基本上必须对其进行调整以使其在 iOS 上运行。如今,对于开发软件应用程序的公司来说,他们必须在两个平台上进行开发,这意味着他们必须拥有专门的团队。如果你正在开发模型,同样的原则也适用:你可能需要为两个系统构建,这会很困难,而且成本很高。张宏江:这非常困难,因为你正在调整软件堆栈,这些软件堆栈是训练系统运行所需的基本功能模块集。如果你必须一起构建整个平台,那将需要付出很多努力。这就像构建另一个 Android(安卓系统)一样困难。就像你开发软件时,你不会想在太多操作系统上开发。想想看,在 PC 时代,在手机时代,有两个系统。就是这样。想想芯片架构,有多少种架构?没有那么多。主持人:在多模态的未来,随着人形机器人和视觉模型的出现,计算能力是否会变得更加关键?这些是否比普通语言需要更多的计算能力?张宏江:是的。视觉数据(包括图像和视频数据)的量比语言数据大得多。问:所以计算能力是一个障碍,但中国的优势在哪里?政策制定者在这方面非常积极,这是优势吗?还是人才优势?张宏江:当我们谈论中国在人工智能方面的优势时,政策是我们最后想到的。我认为中国在人工智能方面的优势主要在于年轻的企业家,他们经历了一次又一次的失望,但仍然继续创业,追求自己的梦想。我认为我们唯一可以比较的地方是硅谷。有人给了我一个数字,但我相信你能找到更准确的数字:全球顶尖人工智能人才中,有 30% 最初出生在中国,但其中很大一部分在美国工作。如果 10% 的顶尖人才留在中国,那也代表了相当多的人。除此之外,还有广阔的市场。人工智能的应用场景非常多,这反过来又提供了很好的研究课题和研究数据。这使得研究机构和大学能够研究好的问题。所以我觉得人才、应用场景、创业精神是中国的优势,但我不认为政府的政策一定是优势。问:那数据呢?您的老同事李开复在他的书中指出,中国拥有所有这些数据,这将是一个巨大的优势。张宏江:中国是一个巨大的互联网市场,因此中国过去拥有大量数据,这是一大优势。但是,当我们查看 GPT 模型,查看输入模型的数据以及数据分布时,我们意识到它们来自网络。如果你查看网络,就会发现中国的语料库并不多。只有个位数。我认为不到 5%。许多语言的语料库不到 10%。我认为英语占了 60% 或 70%,所以主要是英语。所以,如果你用网上的数据训练你的模型,那么中文数据就没那么多了。[而且]无论哪种语言的数据更多,它在该语言上的表现都会更好。如果你看看维基百科,所有的网络数据,中文数据并不占主导地位。所以我不会说,就语言数据而言,它有优势。但是,当我们谈到具身人工智能、机器人技术和制造业时,中国拥有大量数据,远远超过其他国家。 例如,智慧城市模型。中国的数据绝对比任何其他国家都多。看看中国的摄像头数量就知道了。看看具备基本自动驾驶能力的电动汽车的数量。他们有这么多摄像头。所以这取决于你谈论的是哪个领域。问:人形机器人的下一代视觉模型(具身智能)是否才刚刚起步?张宏江:在过去 18 个月中,它已成为一个热门话题,尤其是随着 GPT-4 等技术的进步。它在识别图像和图像中的物体方面具有令人印象深刻的能力。然后,如果你看看 Sora、Gemini 1.5、Anthropic 的 Claude 和新的 Llama 3,它们都表现出这种多模态性——基本上就是图像能力。如果你给机器人配备一个大型多模态模型,它就能执行远远超出其训练范围的任务。它还能理解最初未训练过的命令。突然间,你意识到机器人能理解的东西比你想象的要多得多。例如,当你要求机器人拿起桌子上的一个玩具,这个玩具是一种已经灭绝的动物时,它会选择恐龙。这是一个非常复杂的推理过程,因为它没有直接被告知恐龙是一种灭绝的动物,但语言模型知道这一点。所以,在各种动物玩具中,它选择了恐龙。另一个例子是:“给泰勒·斯威夫特一罐可乐。”桌子上有四个相框。机器人拿起一罐可乐,放在泰勒·斯威夫特的照片上。想想这个过程。机器人可以识别出照片里的人是谁。它知道泰勒·斯威夫特是谁。这并没有被训练到语言模型中。这就是为什么你会看到 Figure,一家与 OpenAI 合作的新机器人初创公司,OpenAI 对其进行了投资。你会看到另一家来自伯克利的初创公司:Pi。还有很多这样的公司。张宏江:在智源研究院孵化的银河机器人就是一个例子。它最初是由一位在智源研究院从事具身人工智能研究的北京大学教授创办的。在我看到的最新演示中,当你说“哦,我口渴了”时,机械臂会在五种不同的东西中挑选一瓶水并把它送到你面前。这就是你想要和期待一个好保姆能做的事情。机器人的指令不再非常明确。机器人自己会理解。现在有不少公司正在朝这个方向发展。问:很多中国公司都以Llama为榜样。全世界的公司都在这么做吗?张宏江:Llama 模型是开源世界中最强大、最受欢迎的大型语言模型。因此,我相信很多人和公司都会使用它们。而且,对于主要关注学术界的人来说,拥有一个可以分析、调整和研究的开源模型非常有帮助,因为从头开始训练大型语言模型的成本非常高。同样,你可以将其类比为软件,Linux 和开源变得非常流行。并且有许多开源数据库非常流行。我想说,互联网公司完全依赖于这些开源数据库和系统。它们帮助加速了互联网和云计算的发展。中国肯定从中受益匪浅。问:这引发了开源与闭源之争。百度的李彦宏最近表示“开源模式会越来越落后”,保持闭源模式对于建立可行的商业模式至关重要。您如何看待他的言论?张宏江:我必须说我并不完全同意他的观点。但这种争论一直存在,可以追溯到 30 年前。当时是闭源的 Windows 和 Mac 与 Linux 的对决,后来是闭源的 iOS 与开源的 Android 的对决。尽管 Android 是开源的,但它被一家公司牢牢控制。所以,这种争论一直存在。如果你看看商业世界,领导者往往不喜欢开源,因为他们是各自领域的领导者。与此同时,追随者和其他试图改变事物的人通常会采用开源方法。Linux 做到了,Android 也做到了,而且两者都非常成功。所以我不会说哪一个有绝对的优势。我们需要很长时间才能知道哪一个会获胜。但更有可能的是,它们将共存。问:中国一直非常擅长应用和商业化。您能谈谈您在这里看到的一些有趣的人工智能应用吗?张宏江:我认为有两家公司做得很好。一家是总部位于北京的 Moonshot(月之暗面),该公司实际上与智源有一些联系。他们的产品 Kimi 与 ChatGPT 非常相似,非常棒,非常受欢迎。另一家是上海的Minimax(稀宇科技)公司。他们在 ChatGPT 发布前至少一年就开始着手构建大型模型,因此他们并不是抄袭者。他们专注于数字化身之类的应用。我想说,如果你在其他市场看到任何好的应用,中国很快就会拥有它,即使还没有。我并不是说中国只是跟随。事实上,在某些领域,中国时不时地会领先。问:在西方,所有这些 AI 初创公司都在以极高的估值筹集大量资金。中国的情况也一样吗?张宏江:是的,中国也一样。唯一的区别是,中国在某个领域有更多的公司——我认为可能太多了。美国可能有三四家初创公司专注于基础模型。中国有多少家?数百家。所以,中国市场竞争非常激烈。这不是什么新鲜事,过去 20 年来一直如此。至于泡沫,我不认为中国比美国泡沫更大。目前,我认为这些泡沫仍然是好的泡沫。会有赢家。我认为不久之后就会出现整合。问:所有这些基础模式的商业模式将会是什么?大型科技公司的模式会胜出吗?还是来自中国更灵活的初创企业的模式会胜出?张宏江:在美国,这一点非常明显:企业生产力工具。我们已经看到了微软Office 中 Copilot 等工具的效果。然而,对于消费者应用,人们仍在探索。我们还没有看到巨大的成功。中国肯定有更多的人在探索这个领域。大型科技巨头必须涉足 AI 模型,否则它们就不再是一家平台公司了。它们要么开发大型模型,要么收购它们。因此,毫无疑问,它们将继续投资。对于小型创业公司来说,他们面临的挑战不仅仅是筹集足够的资金和开发良好的模式,还包括定义他们的商业模式和找到他们的用户。我提到的两家公司 Minimax 和 Moonshot 从一开始就专注于消费者。在中国,无论哪家创业公司在消费者领域取得成功……最终都会成功,尽管面临来自巨头的巨大压力。问:那么您已经不再领导 BAAI 了,您现在在做什么呢?张宏江:我很兴奋,我相信大型人工智能模型将改变我们开发机器人的方式,最终让机器人技术获得突破,这太令人激动了。此外,我觉得中国在这方面有一些优势。中国拥有最大的制造业基地,在硬件方面比许多其他国家更为先进。这就是我感兴趣的地方。我想说,我的动力很大一部分来自好奇心。这让我感到兴奋,也让我觉得自己可以从中学到东西。此外,我现在在海外待的时间也更多了。我待在新加坡,参加那里政府组织的一些会议和活动。我想在硅谷待更多时间,以便与硅谷保持更多联系。我仍在参与组织BAAI的人工智能技术会议。这是纯技术性的。整个会议由在该领域积极工作的技术人员组织,重点关注人工智能的各个方面。人们来这里学习和交流想法,就像参加任何学术会议一样。这不是商业性的。 (转载自:钛媒体AGI)