×
加载中...
黄仁勋对谈高盛总裁:AI基础设施投资回报率将提升10倍,密集化数据中心是未来
Z Finance 2024-11-23 13:42
图片

Z highlights

  • Jensen Huang强调Nvidia始终专注于加速计算,尤其是通过GPU来推动图形学、物理模拟、科学计算等领域的发展。Nvidia不仅重视硬件创新,还注重软件生态系统的建设,保证了开发者的投资和兼容性。
  • 在谈到数据中心时,Jensen指出,Nvidia通过加速计算提升了数据中心的效率和性能,尤其是在液冷技术和密集化设计方面。Nvidia在基础设施方面的投资回报率也非常高,云计算和生成式AI的需求推动了市场的快速增长。
  • Nvidia在AI领域的竞争壁垒包括其综合的硬件架构、强大的算法能力以及在全球数据中心的广泛布局。此外,尽管面临全球供应链挑战,特别是地缘政治因素的影响,Nvidia依赖的合作伙伴展现了灵活性和生产能力,以确保公司能在需求激增时迅速响应。

英伟达的发展历程与创新

David Solomon: 我希望大家都在享受这次会议。非常荣幸能够邀请到Jensen Huang,Nvidia的总裁兼首席执行官。自1993年创立Nvidia以来,Jensen一直致力于加速计算技术的创新。公司的GPU发明于1999年,推动了PC游戏市场的增长,并重新定义了计算机,也点燃了现代人工智能的时代。Jensen拥有俄勒冈州立大学的本科学位和斯坦福大学的硕士学位。欢迎Jensen!31年前,您创立了这家公司。从一个以游戏为中心的GPU公司转型为一个为数据中心行业提供广泛硬件和软件的公司,您当时创立公司时有什么想法?这个过程是如何发展的?我希望您能谈一谈这段非凡的旅程。

Jensen Huang: 你好David,很高兴来到这里!我认为我们做对的一件事是,我们相信会出现一种新的计算形式可以增强通用计算,以解决通用工具永远无法胜任的问题。这种处理器一开始是用来做一些CPU难以完成的事情——那就是计算机图形学。随着时间的推移,我们也计划扩展它来做其他事情。我们首先选择的是图像处理,因为它与计算机图形学是互补的。然后我们将其扩展到物理模拟,因为在我们选择的视频游戏领域中,用户希望它既美观又具有动态性。后来我们一步步地前进,将其应用到科学计算。

当时我们坚信加速计算能够解决一些有趣的问题,如果我们能够保持架构的一致性,也就是说拥有同一种架构就可以让今天的软件能够在已安装基础上运行,而在过去开发的软件也能通过新技术得到进一步加速。这种兼容生态系统的软件投资的方式始于1993年,并且一直坚持到今天。这就是为什么Nvidia的CUDA技术拥有庞大的安装基础,因为我们始终保护它,换句话说,保护软件开发者的投资一直是我们公司自始至终的首要任务。

在这个过程中,我解决了很多问题,当然也包括学习,学习如何成为一名CEO、学习如何经营和建设一家公司,而不仅仅是做产品。这些都是全新的技能,就像是学习如何发明现代计算机游戏产业一样。Nvidia的员工可能都不知道,Nvidia是全球最大的电子游戏架构安装基础。GeForce拥有大约3亿玩家,并且仍在快速增长。

每次我们进入一个新市场时,我们都需要学习新的算法、新的市场动态、创造新的生态系统。而我们之所以这样做,是因为与通用计算机不同,我们制造的是加速计算机,这意味着必须问自己:“究竟加速什么?”,因为没有所谓的通用加速器。

David Solomon: 那么请你谈谈通用计算与加速计算的区别。

Jensen Huang: 如果你看一下你编写的软件库,其中包含了一些神奇的核心算法,这些算法根据应用的不同而有所区别。它们可能是计算机图形学、图像处理、流体、粒子、逆物理学,或者其他任何领域的算法。而你创造了一种在这些算法上表现得非常好的处理器,并且能够补充CPU的功能——让CPU做它擅长的部分,那么理论上你就能够极大地加速一个应用程序,原因是通常只有大约5%~10%的代码占用了99.99%的运行时间。因此,如果你将这5%的代码加载到我们的加速器上,技术上看来就能够将应用程序的速度提高100倍,这并不是什么神奇的事情,实际上我们经常做到这一点。比如,我们可以让图像处理的速度提高500倍。

现在我们常做数据处理。数据处理是我最喜欢的应用之一,因为几乎所有与机器学习相关的东西,都是一种数据驱动的软件数据处理方式,这个领域目前已经得到了很大的发展,而我们对这个过程进行了极大的加速。但为了做到这一点,就必须创建相应的库。因此,我们一步一步地在每个领域中创建库,比如我们建立了丰富的自动驾驶汽车库、创建一个很棒的机器人库,还有令人惊叹的虚拟筛选库。不论是基于物理还是基于神经网络的技术库,每个领域,我们都是这样一个接一个地构建。

所以在这个过程中,我们必须去结识朋友并创造市场。结果发现,Nvidia真正擅长的事情是创造新市场。今天来看似乎Nvidia的加速计算无处不在,但实际上我们是一步一个脚印地做出来的。

AI与数据中心的未来发展

David Solomon: 现场有很多投资者非常关注数据中心市场,能否谈一谈你如何看待今天的数据中心市场?显然,你所在的行业正在推动下一次工业革命,这个行业面临哪些挑战?

Jensen Huang: 首先,庞大的数据中心效率非常低,因为它们充满了空气,而空气是一个糟糕的电导体。所以我们想做的是把那些庞大的数据中心压缩成一个非常小的数据中心。Nvidia的服务器机架看起来可能很贵,每个机架可能要几百万美元,但它替代了成千上万个节点。而令人惊讶的是,连接传统通用计算系统的电缆的成本,比将传统系统替换成一个更紧凑、更高效的机架的成本还要高。

密集化的另一个好处是:一旦把数据中心密集化,就可以进行液冷处理。因为给一个庞大的数据中心进行液冷非常困难,而一个小的数据中心却可以轻松实现。所以我们做的第一件事就是现代化数据中心,即加速它、密集化它,提高能源效率。这样就可以节省成本、节省电力,并且效率更高。

我们知道,Nvidia的加速计算为计算带来了巨大的成本降低。在过去的10年里,我们没有像摩尔定律那样实现100倍的提升,而是把计算能力提升了100万倍。于是突然之间,人们意识到可以用计算机来编写软件,而不用自己去搞清楚功能是什么、算法是什么,通过给计算机所有的数据,让它去理解并找到算法,这就是机器学习、生成式AI的起点。我们在多个数据领域进行了大规模的应用,现在计算机不仅理解如何处理数据,还理解数据的意义。我们现在处于这场计算机革命之中,令人惊讶的是,首批万亿美元级的数据中心将会被加速,并发明出这种新的软件类型——生成式AI。

生成式AI不仅仅是一个工具,它还是一种技能,这也是为什么新行业正在诞生的原因。如果从整个IT行业来看,我们一直在制造工具和仪器,供人们使用。而现在我们将创造出一种增强人的技能,所以人们认为AI将不仅仅局限于万亿美元规模的数据中心,还会进入到技能的领域。

那么,什么是技能?数字司机、自动化的数字装配线机器人、数字客服聊天机器人、数字员工(比如用于规划的Nvidia供应链数字员工)都是一种技能。我们公司现在大量使用服务型机器人和数字员工的服务,拥有着这些“数字人类”,就是我们所处的AI浪潮。

图片

David Solomon: 基于你刚才所说的内容,金融市场上确实存在一个持续的争论:关于继续建设AI基础设施是否能够获得足够的投资回报。你如何评估此时此刻客户的投资回报率?如果回顾一下PC、云计算类似的周期中,当时的投资回报率如何?与我们现在在扩展过程中所面临的情况相比,情况又是怎样的?

Jensen Huang: 在云计算之前,主要的趋势是虚拟化。虚拟化的基本理念是,利用数据中心内的所有硬件,将它们虚拟化成一个虚拟数据中心,这样就可以在数据中心内移动工作负载,而不是将其直接绑定到某一台特定的计算机上。结果是,数据中心的使用率和效率得到了提升,成本也大幅下降。

我们做的第二件事是,在虚拟化的基础上,将这些虚拟计算机放入云端。这样一来,多家公司的多个应用程序可以共享相同的资源,达到又一次的成本下降和利用率提高。因此,通过虚拟化和云计算,我们降低了两倍的成本。

所以,首先发生的是加速计算。比如,有一种数据处理引擎叫做Spark,如果用Nvidia的加速器在云中加速它,计算时间会节省大约20倍。虽然Nvidia的GPU增强了CPU的性能,计算成本可能会翻倍,但能把计算时间减少20倍,因此你得到的是10倍的节省。看到这种ROI(投资回报率)并不奇怪,这就是加速计算带来的直接回报。所以我鼓励大家所有可以加速的事情,都要去加速。

除此之外,生成式AI目前正处于第一阶段,正是像我们这样的基础设施提供商和所有云服务提供商将基础设施部署到云端,让开发者能够使用这些机器来训练模型、微调模型、规范模型等。这种投资回报率非常高,因为需求非常大,每1美元的支出可以转化为5美元的租赁收入。这种情况正在全球范围内发生,几乎所有的资源都被抢购一空。

说说我们已经了解的一些应用,包括著名的OpenAI的ChatGPT或者GitHub Copilot等协同生成工具,我们公司现在没有一位软件工程师不使用协同生成工具,这对于生产力提升非常显著。我认为,每一行代码都需要由软件工程师编写的时代已经完全过去了,每位软件工程师实际上都有数字工程师伙伴全天候与他们一起工作,这就是未来。

David Solomon: 许多行业正在积极拥抱这一变化。你最感兴趣的用例和行业有哪些?

Jensen Huang: 我们公司使用AI进行计算机图形学。工作流程是这样的:计算一个像素,用AI推理出其他32个,就像魔法一样!“幻想”出的32个像素,它们稳定、视觉效果逼真,而且性能也很惊人。计算一个像素需要很多能源,而推理出另外32个像素则几乎不需要能源,而且速度极快。所以,当使用AI模型时,你可以节省大量能源和时间。可以说如果没有人工智能,我们就无法服务自动驾驶行业,在机器人学、数字生物学方面所做的工作也做不成。

竞争壁垒与供应链挑战

David Solomon: 听起来非常令人兴奋!让我们谈谈竞争壁垒吧。目前确实有一些公开和私营公司正在试图打破你们的领导地位,你是如何看待你们的竞争壁垒的?

Jensen Huang: 首先,我认为我们与其他公司有几个非常不同的地方。第一点,人工智能不仅仅是关于一颗芯片,而是关于整个基础设施。今天的计算不再是设计一颗芯片让人们来购买,并把它放入计算机中,这种方式其实是90年代的做法,而今天的计算方式已经发生了变化。例如我们新的Blackwell系统,里面有七种不同类型的芯片来构建这个系统。我们是在构建整个数据中心,所有在这台计算机内部的软件是完全定制的。因此,设计芯片的公司、设计超级计算机或超级集群的公司,以及所有将它们组合在一起的软件公司,理应是同一家公司,这样会更加优化,能效更高,成本也更低。

第二点,人工智能关乎算法,而我们非常擅长理解算法、算法对底层计算堆栈的影响是什么以及如何将计算分配到数百万个处理器上,并尽可能快速地完成任务等等。所以我们在这方面做得非常好。

最后,归根结底人工智能是在计算机上运行的AI软件,而对于计算机来说最重要的事情就是安装基础,即在每个云端、从本地到云端的每个环境中都有相同的架构,这就是所谓的安装基础。所以我们过去30年的积累,实际上为今天的成功奠定了基础。这也解释了为什么如果你要开一家公司,明智的选择就是使用Nvidia的架构,因为我们出现在每个云环境中,无论选择哪种计算机,只要它标明Nvidia,就意味着你的软件在任何地方运行。

图片

David Solomon: 是的,你们的创新速度非常惊人。我想让你再多谈谈Blackwell,相比于上一代Hopper,Blackwell在训练速度上提升了四倍,推理速度提升了30倍。在合作伙伴方面,你们能否保持这种快速的创新节奏?当你考虑合作伙伴时,他们是如何跟上你们的创新步伐的?

Jensen Huang: 创新的节奏?基本方法是:我们在构建基础设施中涉及七种不同的芯片,每颗芯片的更新周期大概是两年,我们每年都可以给它一个提升。但从架构角度来看,如果每两年就推出一个新的架构,就是处于光速运行的状态,速度极其快。现在,我们有七种不同的芯片共同贡献性能,所以我们每年都能推出比上一代更强大的AI集群进入市场。因此,当Blackwell在某个特定功率(比如1GW)的情况下提供三倍的性能时,转化为吞吐量,吞吐量转化为收入,所以对于一个拥有1GW电力的客户来说,他们将获得三倍的收入。因此,我们通过整合不同的组件并优化整个技术栈和整个集群来提供越来越好的价值,且速度更快。

相反,如果每种架构都不一样,那么这根本做不到,单单是把系统组装起来就得花一年时间。而我们把所有东西都整合在一起,发货的时候就可以直接交付,这一点是非常出名的。有人在推特上提到,他们在我们发货后的19天内就搭建好了一个超级集群。19天!如果要将不同的芯片拼凑起来,还要编写软件,最少也得花一年的时间。所以我认为我们能够将创新的节奏转化为客户的更多收入、更好的毛利率,这是非常了不起的成果。

David Solomon: 你们大多数的供应链合作伙伴都在亚洲,尤其是台湾。考虑到当前的地缘政治形势,你们是如何看待这个问题的,展望未来时又是如何思考的?

Jensen Huang: 是的,亚洲的供应链非常庞大且相互连接。当提到GPU时,很多人可能会想到我曾经在宣布新芯片时,展示一颗新的GPU。但是,今天Nvidia的GPU是由35,000个零部件组成,将它组装起来后,它的重量是3000磅。这些GPU是如此复杂,堪比电动汽车的零部件,并且整个生态系统是多样化且高度互联的。在亚洲,我们尽量在各个方面设计多样性和冗余,以确保供应链的稳定性。此外,我们公司拥有足够的知识产权,如果发生任何情况,我们能够迅速切换到其他生产线。

我们在台积电制造,因为它是世界上最好的制造商之一。我们和台积电不仅有悠久的合作历史和良好的合作关系,它还具有灵活性以及大规模生产的能力。去年Nvidia的收入有一个非常大的增长,如果没有供应链的迅速响应,这个增长是不可能实现的。所以台积电等供应链合作伙伴的敏捷性和响应能力非常了不起。在不到一年的时间里,我们已经大幅度提升了生产能力,并且计划明年和后年进一步扩展。然而尽管如此,如果有需要,我们也会考虑使用其他供应商。

David Solomon: 公司看起来处于非常有利的位置。那么,你最担心的是什么?

Jensen Huang: 我们的公司与世界上非常多的AI公司、数据中心都有合作。我不知道哪一个数据中心、云服务提供商或计算机制造商没有和我们合作。因此,这带来了巨大的责任。需求如此巨大,以至于我们交付的组件、技术、基础设施和软件对人们来说具有极大的价值,因为这直接影响到他们的收入和竞争力。因此,我们今天可能拥有更多情绪化的客户,如果我们能够满足每个人的需求,那么这种情绪就会消失。但目前这一切非常情绪化,我们的压力也非常大。

现在,我们正在加速Blackwell的生产,计划在第四季度开始发货并规模化。每个人都想抢先,想要获得最多的份额,竞争和需求非常激烈。看到所有令人惊叹的应用被创造出来、看到机器人走动、看到Agent在电脑上解决问题、看到基于我们设计的芯片跑出的AI模型——这一切都令人难以置信。然而,最具挑战性的部分就是肩上的重担。所以,少睡觉没关系,三小时的高质量睡眠就足够了。

David Solomon: 我需要比那更多的睡眠!Jensen,非常感谢你今天来和我们分享,谢谢!


扫码下载app 最新资讯实时掌握