英伟达承认GPU并非推理最优解,AI算力叙事逻辑改写。

作者丨刘伊伦 杨依婷

编辑丨包永刚

GTC 2026,主角不再是GPU。黄仁勋用一整场发布会证明:英伟达的战场已经转移。

过去十年,英伟达用CUDA生态和Tensor Core,将GPU推至AI计算的中心位置,GPU既是训练引擎,也是推理主力,包揽一切。

而在这场被视为AI基础设施风向标的发布会上,叙事重心开始从“更强的GPU”,转向“如何组织算力”。

从Vera Rubin平台,到LPX推理机架,再到尚未完全展开的Feynman架构,一条清晰的主线逐渐浮现:AI正在从以训练为中心的阶段,过渡到以推理为核心的阶段,而对应的基础设施,也发生了从通用走向分工的变化。

数据中心也被重新定义为“AI工厂”,衡量标准也从单卡性能,转向Token产出效率。

但这套新叙事也留下一串未解的追问:LPU的入场是否宣告推理不是GPU的主场?专用架构与通用算力如何分层共处?Token能否真正成为AI时代的硬通货?而英伟达从"算力垄断"转向"生态闭环"的转身,究竟是前瞻布局,还是存量优势的被动防守?更多产业洞察,欢迎添加微信YONGGANLL6662交流探讨。

为了厘清这场变局的技术逻辑与市场动因,我们和多位产业专家及投资人深度交流之后,获得了在英伟达新叙事之下产业里的分歧与共识。

同时,我们也特邀3位行业顶级专家,于3月19日11:30开讲,对GTC 2026进行深度解析,全方位拆解算力产业的核心趋势、投资机遇与破局方向,欢迎锁定视频号“雷峰网”、“AI 科技评论”直播间,共探产业新局。

01

LPU入局,GPU不是推理时代的「主角」了吗?

在GTC 2026上,黄仁勋再次重申了他对AI基础设施演进的判断:“AI正从‘模型训练时代’加速迈入‘模型推理时代’,整个AI技术栈的组织方式,都开始被重新定义。”

在AI进入推理的时代,英伟达更新了“全家桶”,包括Vera Rubin平台、LPX推理机架以及代号为Feynman架构在内的一整套新叙事,从单一GPU主导,转向多处理器协同的“AI工厂”。

如果说过去十年,GPU是AI时代当之无愧的“主角”,那么在这套新蓝图中,GPU不再试图包揽一切,而是与CPU、LPU及专用推理单元共同构成分层分工的计算体系。英伟达正在主动拆解“通用算力”的神话,并试图用更复杂但更高效的架构,去承接一个以推理为中心、以Agent为核心的新周期。关于这一周期的更多深度解读与行业动态,欢迎添加微信EATINGNTAE交流探讨。

雷峰网采访的业内专家对此分析道:

LPU的推出,在一定程度上,是英伟达承认GPU并非推理最优解。并且,理论上专用推理场景可完全脱离GPU,但英伟达仍将LPU与GPU捆绑组合,既是生态延续,也避免对原有路线的“打脸”。在市场层面,头部大厂推理需求仍会坚定走向自研与ASIC路线,追求能效与成本自主可控。英伟达GPU+LPU方案,重点客户可能是中小互联网客户。

——芯片产业专家张翔

在Transformer推理中,Prefill、Decode、Orchestration三个阶段开始由不同硬件承担,LPX的出现,本质上是对Decode阶段的一次专门优化。GPU依然是训练和复杂推理的最优解,但在低延迟推理这个细分赛道上,专用架构开始显示出优势。GPU不会被LPX取代,而是各司其职。

——芯片产业人士姚金鑫(J叔)

现在市场上LPU的呼声很高,但其短期内难以成为英伟达版图中的主力。黄仁勋在演讲的过程中一直强调的是LPU的性能,确不清楚其售价,所以LPU的经济性存疑,其单芯片集成500MB片上SRAM,而SRAM的价格通常是HBM的6-8倍,这一定会抬高LPU的成本,并且受限于工具链融合的滞后性,其更多扮演推理场景的补充角色。

——资深产业研究员刘雨嫣

LPX的入场不一定宣告GPU推理时代的终结,而是推理任务分层化的信号,GPU仍坐镇复杂推理与视频生成等算力密集型阵地,LPX则专攻低延迟、轻算力的细分场景。未来数据中心的图景是多元处理器各安其位,GPU“全能选手”退位,推理霸权让位于专业化分工。

CPX未被提及很让人意外,此前业内大部分观点认为此次发布会是CPX负责Prefill、LPU负责Decode的组合,从原理上看,Prefill不依赖显存、Decode更吃显存,CPX和LPU本应是最优解,因此本次完全不提CPX,让人有些意外(超预期不是意外的意思)。

——分析师李维

Vera与Rosa的亮相,配合超节点架构中CPU配比的显著提升,标志着英伟达正将Agentic AI的爆发视为架构重构的核心变量,其CPU叙事的核心,是AI工厂内部的算力编排权,而非与其他厂商竞争,短期内对x86格局难有实质冲击。

此外,从系统架构的角度来看,Vera CPU的推出对x86影响同样有限,Vera是面向AI推理与训练设计的专用计算单元,而x86作为通用计算架构,仍要承载操作系统、数据库及海量传统软件的运行。Arm的精简指令集恰好契合AI场景的需求,不需要兼容过往几十年的软件栈,可以砍掉冗余逻辑,专注于高性能计算本身。

——芯片产业专家孙旭

从国内算力市场格局来看,英伟达此番推理性价比优势,对本土市场冲击有限,国产替代的核心叙事逻辑依旧稳固,并不会因此发生动摇。

——分析师张楠

02

Token成本全球最低,英伟达就能吞下「1万亿美元」?

“推理拐点已经到来。”GTC 2026上,黄仁勋这句话宣告,Token已成为新的硬通货。

黄仁勋认为,数据中心不再是仓库,而是生产Token的“AI工厂”,每瓦吞吐量决定生死。而英伟达的Token成本全球最低,即便对手架构免费,面对英伟达也没有性价比。他算了一笔账:建一个1GW工厂,空转15年摊销就达400亿美元,所以必须运行最强的系统才能摊薄成本。

基于这套逻辑,他抛出了一个让人沸腾的数字:“到2027年AI芯片营收将至少达到1万亿美元。”相比去年预测翻倍,因为“过去两年计算需求增长了一百万倍。”

而1万亿美元这一数字,还只覆盖Blackwell和Vera Rubin两条产品线,若叠加CPU、Groq、存储及网络设备,这一规模或将达到1.25万亿美元。

当“全球最低Token成本”成为护城河,这套经济学真能支撑1万亿美元营收吗?

雷峰网采访的业内专家对此分析道:

当黄仁勋把“Tokens/W”作为衡量AI工厂产出的核心度量衡时,其实背后还有一层更重要的产业深意,算力竞争的度量体系,正在从芯片走向系统,从峰值参数走向端到端能效。从某种程度上,GTC 2026公开验证了这种系统视角,因为当NVIDIA自己都开始把叙事中心放到AI Factory上时,行业就已经在从AI计算芯片中心主义走向计算系统中心主义。

基于这个逻辑,我认为英伟达目前的估值并不高,甚至偏低。它卖的是整个系统,在系统级优化上,没有谁能比它做得更好。唯一可能构成竞争的对手还是谷歌TPU,其他厂商基本追不上,这个格局到现在也没变。

——芯片产业人士姚金鑫(J叔)

阿里成立ATH、英伟达GTC也将Token视为接下来的业务核心,两大巨头的同时发力证明,行业的核心争夺,正是Token的生产、计量与分配主导权。Token全链路效率直接决定AI产业的经济性,谁能掌握最低的Token生产成本与最高效的流转体系,谁就掌握未来十年的产业定价权。如同电力时代的电网、互联网时代的带宽,AI时代正围绕Token的创造、输送与应用,正在形成一个规模潜力远超想象的全新产业生态。

——九章云极技术专家陈昊

英伟达的护城河正在从“算力垄断”转向“生态闭环”。过去一年,其战略重心明显上移——通过绑定上游独立供应商与下游AI数据中心,构建垂直整合的产业链控制力,既对冲大厂自研芯片的替代风险,又以系统级交付抬高竞争门槛。但长期盈利能力仍面临结构性压力,英伟达终将回归高端制造业的常态利润区间,只是时间早晚问题。

——分析师李维

AI已从聊天机器人升级为驱动社会生产力的核心引擎,Token是驱动AI运转的基础要素,如同电力之于工业时代,阿里、英伟达等巨头意在成为AI时代的能源工厂。未来AI竞争的关键在于Token生产能力,具备规模化Token生产能力的企业,才能在AI竞争中占据优势。大模型训练仅占用少量算力,推理环节才是算力消耗的主力,需持续生成Token,Token的成本高低直接决定AI的普及与社会渗透程度。类比移动互联网边际成本为零的规模效应,只有Token成本降至如水、电般低廉、可被普通用户轻松负担,AI时代才会真正全面到来。

——分析师张楠

03

NVLink 6、CPO登场,透着英伟达的「焦虑」

英伟达在Vera Rubin平台上部署了第六代NVLink互连架构,实现GPU之间的高速扩展连接。

与此同时,英伟达还推出了全球首个CPO光电共封装的Spectrum-X以太网交换机,通过与台积电合作的CoWoS先进封装技术,将光引擎直接集成于交换芯片封装体内,实现电信号与光信号的片上直转,目前已进入量产阶段。

黄仁勋在主题演讲中表示,随着AI模型体量指数级增长、智能体推理需求全面爆发,未来数据中心将进化为一台单机架级超级计算机越来越像一台超级计算机。关于这些前沿技术如何重塑AI基础设施,欢迎添加微信EATINGNTAE深入交流。

雷峰网采访的业内专家对此分析道:

英伟达正以Vera CPU、Rubin GPU、NVLink 6、ConnectX-9、BlueField-4、Spectrum-6与Groq 3 LPU的“全家桶”组合重构系统解决方案,叙事重心从单颗芯片转向系统级交付。此外,英伟达还在尝试构建联盟,成员包括台积电、美光、三星、海力士乃至英特尔等企业,试图以联盟策略锁定先进封装与存储资源,这也恰恰暴露了英伟达的焦虑:如此庞杂的产品矩阵,仍未能追平谷歌简洁架构的效能。

谷歌以7nm的ASIC,以及OCS与以太网的极简组合,实现Token成本与吞吐效率的双重领先,组网规模轻松突破NVL72的天花板。当对手用“减法”定义下一代基础设施,英伟达的“加法”生态反而成为规模扩张的包袱。

——资深产业研究员刘雨嫣

当前两大变数值得关注:一是随着产业变革,关键厂商开始沿着价值链整合;二是受地缘政治影响,从中国大陆向外转移模块产能。近期,英伟达向Lumentum投资20亿,既是为了分担供应链地缘风险,也向上游高价值器件进行了整合。而原模块供应商,也加快脚步在国外布局产能,应对份额压力。

从CPO目前落地的进程来看,其推广较为保守主要来自多个方面:一是维护便利性极其成本较高,不及可插拔光模块,也会推高用户的运维成本;二是核心芯片良率偏低,导致系统整体成本居高不下;三是来自于应用场景,传统上光和铜的边界很清晰,短距离情况下,铜比光更具有优势。不过技术的迭代将逐步提升良率和可靠性,进一步优化维护便利与运维成本。同时,Scaling Law对需求的极致放大,尤其是带宽的消耗,使得铜与光的界限在发生改变。虽然光完全替代铜还需要时日,但是方向是明确的。

对大型云厂商而言,只要能通过商业手段摊薄成本、算清总账,CPO就具备规模化基础。总体而言,CPO技术方向已明确,剩下的只是路径问题。

——芯片产业人士姚金鑫(J叔)

CPO的delay暴露了英伟达的技术困局,铜互联带宽见顶、光互联推进受阻,双线均遭遇性能瓶颈。此外,英伟达的存量生态,不仅是优势,同时也是包袱,其为守住既有优势,系统堆叠愈发过重,框架性创新让位于渐进式改良,这种“路径依赖式”的防守策略,很难成为在资本市场上的利好。

——芯片产业专家张翔

04

OpenClaw 定义「智能体计算机」,SaaS 时代终局已至?

GTC 2026上,英伟达将OpenClaw定位为定义“智能体计算机”的下一代操作系统,并将其重要性类比为Linux之于服务器、Kubernetes之于云原生。为此,英伟达联合OpenClaw创始人推出企业级增强栈NemoClaw,为智能体落地提供安全、可规模化的企业级能力。

黄仁勋在演讲中抛出判断:未来绝大多数SaaS都将演变为AaaS(智能体即服务)。“你的OpenClaw战略是什么?” 或将成为科技公司的核心命题。

雷峰网采访的业内专家对此分析道:

传统SaaS公司都将消失的言论并非危言耸听,AI智能体对当前SaaS业态带来巨大冲击,按席位订阅的商业模式逐步失效,人力替代使得帐号需求锐减,算力成本也日益不可控。过去SaaS企业只能向模型公司调取算力与服务,不仅环境搭建繁琐、成本不可控,也难以支撑智能体长期稳定运行,其必须走向AI化,打造和运营自主智能体。

Token分层定价并非对传统SaaS订阅模式的替代,而是AI时代商业模式的自然演进。客户对这一模式的接受度,也将经历从初期疑虑到逐步认同的过程,因为Token的分层定价将实现成本与价值的精准匹配,简单查询可使用低价 Token,深度推理选择高价Token,天然适配智能体时代的算力消耗逻辑。

——九章云极技术专家陈昊

OpenClaw本质上是一个以CPU为主的控制与编排系统,外接GPU推理后端,这意味着它并非单纯的AI推理负载,而是典型的CPU密集型任务——控制路由、工具执行、状态持久化等都有CPU承担。因此,Agent越流行,AaaS生态越壮大,CPU的总需求就越高,且这种需求不仅体现在核数上,更体现在芯片颗数上。

与此同时,系统级能力也会成为AaaS时代的核心竞争力。未来决定Agent应用落地的,不再仅仅是模型表现,还包括能否将智能体安全、稳定地接入生产环境,以及与之配套的云平台、工具链、连接器和安全体系,这也将推动数据中心的基础设施衡量标准,从单纯比拼“模型能力的强弱”转向“同等投资下可支撑的持续在线Agent数量”,即从单一的GPU算力转向GPU+CPU双芯驱动。

所以,具备CPU、GPU全栈组合能力的厂商,将在AaaS转型浪潮中占据先发优势。

——芯片产业人士姚金鑫(J叔)

AI芯片还有哪些潜在的技术趋势?算力格局将发生什么变化?欢迎添加微信YONGGANLL6662交流探讨。

05

今日11点丨全网最强「英伟达GTC」洞察、创投机遇梳理

想吃透GTC 2026核心技术精髓?

3月19日11:30,雷峰网重磅打造GTC专题圆桌对话,特邀半导体与AI算力领域三位顶级专家,深度拆解大会技术突破,直击国产算力破局关键!

直播时间:2026年3月19日 11:30(北京时间)

观看平台:视频号“雷峰网”、“AI科技评论”直播间

扫码预约,和顶尖专家一起解锁GTC算力变革密码,抢占产业先机!


扫码预约,观看直播↑↑↑

(赵之齐对本文亦有贡献)

注:张翔、李维、孙旭、张楠、陈昊皆为化名。