半岛BOB在这一轮AI浪潮下,能把一场技术大会办得如Taylor Swift演唱会那样火爆,还得是英伟达。
近日,英伟达2024 GTC(GPU Technology Conference)引发全球AI界的关注,万人会场座无虚席,英伟达创始人兼首席执行官黄仁勋在开场演讲中直言:“这并不是一场演唱会,而是一个开发者大会。”
《中国经营报》记者注意到,英伟达在GTC上对外展示出新一代图形计算平台Blackwell,它代表的是一个平台,包含了采用全新架构Blackwell的GPU B200和GB200系列芯片,前者被称为“地表最强算力AI芯片”,据介绍B200训练万亿大模型的性能是H100的4倍,推理性能最多提升30倍。
除了超大尺寸的AI超级芯片,英伟达还展示出Blackwell所具备的新特性:第二代Transformer引擎、第五代NVLink网络技术、RAS引擎、安全AI和新解压缩引擎,这是外界所瞩目的地方。然而,多位产业分析师表示,本届GTC虽然新GPU吸人眼球,但惊艳之处还在于英伟达的软件服务,比如推理微服务(NIM)、基于Omniverse Cloud API的新软件框架等。
“这届GTC讲推理的次数远远大过讲训练。训练是前期投入烧钱的过程,推理是面向用户的,是往回收钱的一个过程,这才说明整个产业是在走向落地的。”与非网资深行业分析师张慧娟认为,这是英伟达的一个新阶段,或是AI进入应用部署阶段。
尽管国产AI芯片还很难追上英伟达GPU的步伐,但正如黄仁勋所说,“我们的芯片中有大量的零部件产自中国”,中国是全球产业链中重要的一环。电子创新网CEO张国斌表示:“在制造工艺上的限制,我们很难追上英伟达,但是可以利用数据优势、场景需求等继续追赶。”
据了解,英伟达将全新的GPU架构命名为Blackwell,这是向第一位入选美国国家科学院的黑人学者、数学家David Harold Blackwell致敬,延续了前几代(Pacal、Volta、Ampere、Hopper)的命名逻辑。
但相比前几代,Blackwell又有些不一样。“Blackwell不仅仅是一款芯片,它代表的是一个平台。”黄仁勋如此说。
毋庸置疑,采用Blackwell架构的GPU B200是最先被推出来的硬件新品,可谓是AI芯片的性能天花板。据介绍,B200不是单一的GPU,而是由两个紧密耦合的芯片组成,其拥有2080亿个晶体管,而Hopper架构只有800亿个晶体管,所以外观尺寸也比前代大不少。
黄仁勋表示,B200采用定制的、双reticle(光刻模板)的台积电4NP(4N 工艺的改进版本)工艺,两块小芯片之间的互联速度高达10TB/秒,可以支持多达10万亿个参数的AI大模型。在全新FP4精度下,Blackwell GPU的AI性能达到Hopper的5倍。
为什么英伟达推出如此大尺寸的GPU?黄仁勋表示:“我们已经来到了一个临界点,因此需要一种新的计算方式来加速整个行业的发展效率。那么,英伟达能够做什么?当然,答案就是更大的芯片。”
同时,新的GPU架构和技术也大大改善了能耗。黄仁勋举例称,如果要训练一个1.8万亿参数量的GPT模型,需要8000张Hopper GPU,消耗15兆瓦的电力,连续跑上90天。而使用Blackwell GPU,只需要2000张,跑90天只消耗四分之一的电力。
因此,B200被英伟达称为“新工业革命的引擎”。在统一的Blackwell平台下,英伟达推出该系列的“全家桶”产品:GB200超级芯片(通过第五代NVLink-C2C互连技术将2个Blackwell架构的 GPU连接到1个Arm架构的Grace CPU)、基于GB200的GB200 NVL72(将36个CPU和72个GPU集成到1组巨大的液冷机架的大型超级运算产品)、基于GB200 NVL72AI超级计算平台DGX B200系统和新一代DGX SuperPOD AI超级计算机。
此外,英伟达还推出全新网络交换机X800系列,以支持新型AI基础设施运行万亿参数级生成式AI业务。据介绍,英伟达Quantum-X800 InfiniBand网络和Spectrum-X800以太网络是全球首批端到端吞吐量高达800Gb/s的网络平台,交换带宽容量较前代产品提高5倍,网络计算能力通过英伟达第四代SHARP技术提高了9倍,网络计算性能达到14.4TFLOPS。
尽管英伟达还没明确B200 GPU的上市时间,但黄仁勋宣布了谷歌、微软、亚马逊等公司与Blackwell平台进行合作半岛BOB。
有媒体报道,英伟达最新一代AI芯片的定价在3万至4万美元,就此黄仁勋回应称:“我只是试图让大家对我们产品的定价有一定的感受,而并不打算给出具体的报价。因为根据每一个客户的需求,不同系统的价格差异是很大的,英伟达并不销售芯片,我们售卖的是数据中心。”
据了解,数据中心IT设备主要包括连接器(光纤、光模块)、网络设备(交换机、路由器)、算力设备(服务器)、存储设备(存储器)等。英伟达最新季度财报显示,其数据中心业务收入达到184 亿美元,季度营收221亿美元,占比超80%。从这个角度看,英伟达把华为列为竞争对手的理由也够充分。
记者注意到,黄仁勋日前回到母校斯坦福大学,在回应“AMD是个威胁吗”这个问题时表示,芯片只是一部分,现在的计算机不是普通的电脑,而是一个数据中心,买卖芯片的人考虑的是芯片价格,而运营数据中心的人考虑的是运营成本,就数据中心的总拥有成本而言,英伟达GPU的定价并不重要,我们有太多优势,即便竞争对手的芯片免费。
除了生成式AI,英伟达还相当看好具身智能,并发布了人形机器人通用基础模型Project GR00T、基于Thor SoC的新型人形机器人计算机Jetson Thor;还对其机器人平台NVIDIAIsaac™进行了升级,包括生成式AI基础模型和仿真工具,以及AI工作流基础设施等。
值得注意的是,多位分析师表示英伟达的软件服务在这次GTC大会上的表现更惊艳。“硬件是在预期之内的,今年大会比较值得关注的是NIM。”研究机构Omdia AI行业首席分析师苏廉节表示。
NIM,即英伟达推理微服务的缩写,可将优化的推理引擎、行业标准API和对人工智能模型的支持打包到容器中,以便于部署。
NIM另一强大用例还在于,除了提供预构建模型,它还允许企业使用自己的专有数据,并将支持和帮助加速检索增强生成(RAG)部署。英伟达企业计算部门副总裁马努维尔·达斯(Manuvir Das)说:“如果你是开发者,手中有一个备受期待的模型,希望能让更多人采用,只需将其部署在NIM上。我们承诺将兼容所有英伟达GPU,确保模型能触及广泛用户群。”
在外界看来,NIM或将成为英伟达“软件服务硬件”战略的又一关键举措。“这个微服务可以协助英伟达客户更容易让AI上线,英伟达这么做会让部署更顺滑。”苏廉节表示,从NIM可以看出,英伟达其实在逐渐从硬件商转型成解决方案提供商。
此外,让人印象深刻的还有英伟达Omniverse与苹果Vision Pro的“强强联合”。NVIDIA Omniverse是英伟达在2021年发布的一个开放平台,专为虚拟协作和实时逼真模拟而构建。
在过去两年的GTC上,黄仁勋也在对外大力展示Omniverse的魅力,这次Omniverse挺进苹果Vision Pro,发布云API。通过英伟达Omniverse的云API和图形交付网络(GDN),企业将可以轻松将3D应用的OpenUSD(交互式通用场景描述)实时串流到Vision Pro头显中。
根据英伟达方面的演示,一名设计师佩戴着Vision Pro,在Omniverse平台上开发的应用程序内进行汽车工业设计,当他切换油漆、内饰时,Vision Pro的三维环境实时渲染并跟物理世界融为一体。
黄仁勋认为,Omniverse是一个可以构建并操作物理真实的数字孪生的操作系统,Omniverse和生成式AI都是将价值高达50万亿美元的重工业市场进行数字化所需的基础技术。
Omniverse Cloud API将于今年晚些时候在微软Azure上以英伟达A10 GPU上的自托管API,或是部署在英伟达OVX上的托管服务的形式提供服务。
达斯在接受采访时表示:“最畅销的商业产品仍是GPU,软件则是为了帮助用户以不同的方式使用GPU。”他补充道:“当然,我们依然在致力于产品的创新半岛BOB。但现在,我们真正实现了转变,已经发展出了自己的商业软件业务。”
对于英伟达由硬件向软件的转变,苏廉节表示:“英伟达持续性的软件投入,对AI的普及和公司本身的未来都有很大的帮助。”
张慧娟则表示,这是英伟达的新阶段。“以前主要说大算力训练,当AI越来越多进入行业应用,就需要让AI好用、好上手,那么就需要软件的帮助。”
根据《第一财经》报道,关于英伟达在云服务市场的战略,黄仁勋这样回应:“虽然英伟达推出了云服务DGX Cloud,但我们的策略依然是与云服务提供商合作,将我们的云放入他们的云中。英伟达不会成为一家云计算公司,我们的目标是通过软件的构建,让全球的开发者和云服务提供商采用英伟达的架构来构建产品。”
黄仁勋认为,尽管目前很多云服务提供商都在研发芯片,但是这些企业研发芯片的逻辑与英伟达的业务逻辑完全不同。“我们正在尽全力使英伟达的业务在中国能够实现最大化,我们面向中国市场推出了L20和H20芯片,这些向中国出售的芯片将符合要求。”黄仁勋在采访中指出中国市场的重要性。
黄仁勋说,他们的芯片中有大量的零部件产自中国。这与全球汽车供应链的复杂性是一个道理,供应链的全球化是很难被打破的半岛BOB。国内AI芯片公司尽管还很难追上英伟达的步伐,但尺有所长、寸有所短,也能借助国内的产业优势,走出一条不一样的发展路径。
张国斌表示:“对比英伟达,我们主要有以下一些优势:一是大量的端侧需求,有细化的场景需求,这都让我们的厂商可以有的放矢,实现更多的专用方案;二是政府大力支持,政府已经出台很多政策;三是有众多的IC公司从其他路径进行尝试突破,例如有公司利用RISC-V架构实现了新型的算力加速器,性价比超过了英伟达的H100。”
张国斌指出,如果单纯去比拼GPU,由于在制造工艺上的限制,我们很难追上英伟达,但可利用数据优势、场景需求的优势。“英伟达的弱势在端侧,而我们的优势是端侧;利用3D集成也可以实现媲美HBM性能的内存,通过优化的算法和模型,一样可以实现创新的应用。”张国斌说。