发布时间:2025-12-9
类别:行业动态
阅读:0
摘要:
亚马逊发布3nm Trainium3芯片 百万级部署剑指英伟达AI算力霸权
【科技日报 记者 王庆慧 2025年12月4日】全球AI算力市场的格局正在被重塑。美国西部时间12月3日,亚马逊云科技(AWS)在re:Invent 2025全球大会上抛出重磅消息:正式推出采用3nm制程的第三代自研AI芯片Trainium3,其搭载的Trn3 UltraServer服务器总算力突破362PFlops,在整机性能上首次超越英伟达旗舰机型Blackwell GB200 NVL72。AWS CEO马特·加曼同时披露,目前Trainium系列芯片部署量已超100万枚,年创收达数十亿美元,下一代Trainium4芯片也已进入研发攻坚阶段,计划通过支持英伟达NVLink技术实现生态协同。这场“云巨头造芯”运动,正从成本端到性能端全面冲击英伟达的市场主导地位。
作为亚马逊首款3nm制程AI芯片,Trainium3的核心竞争力集中在“高能效比”与“成本控制”两大维度。该芯片由台积电独家代工,采用CoWoS先进封装技术,单芯片配备144GB HBM3E高带宽内存,内存带宽达4.9TB/s,密集FP8运算性能超2.5PFLOPs。相较于上一代Trainium2,其每兆瓦电力产生的Token数量提升五倍,这意味着在处理同等规模的AI模型训练任务时,电费成本可降低80%。
整机性能的突破更具颠覆性。AWS推出的Trn3 UltraServer服务器创新性地集成144枚Trainium3芯片,通过自研的Elastic Fabric Adapter(EFA)高速互连技术,实现362PFlops的FP8精度总算力。这一数据直接超越英伟达基于Blackwell Ultra架构的GB300 NVL72服务器——后者采用4nm制程的GB200芯片,72卡集群总算力约350PFlops,且每兆瓦能耗产生的Token数量仅为Trainium3的1/4。“Trainium3将AI模型训练成本最高降低50%,推理成本降低40%,这对大规模部署大模型的企业而言是致命吸引力。”AWS计算和机器学习副总裁Dave Brown在发布会上强调。
路线图显示,下一代Trainium4芯片已进入设计验证阶段,其性能提升将更具爆发力:在FP4计算精度下性能较Trainium3提升6倍,内存带宽与容量分别提升4倍和2倍。更值得关注的是,Trainium4将首次支持英伟达NVLink Fusion高速互连技术,可无缝接入英伟达MGX机架与GPU协同工作,打破此前云厂商自研芯片的生态闭环。英伟达相关负责人证实,双方已就技术适配达成合作,这一举措被业内解读为“算力竞争从对抗走向有限协同”的信号。
与英伟达芯片“直接销售”模式不同,亚马逊始终坚持Trainium系列芯片的“云服务化”供应策略——企业客户无需采购硬件,通过AWS的EC2实例即可调用算力。这一模式已快速打开市场,目前Anthropic、Databricks、理光等企业已实现规模化采用。
作为亚马逊重点投资的AI初创公司,Anthropic的应用案例最具代表性。该公司通过AWS的“雷尼尔计划”(Project Rainier),已接入超50万枚Trainium2芯片构建算力集群,规模是其训练上一代Claude模型时的5倍。Anthropic CEO Dario Amodei透露,采用Trainium芯片后,Claude 4大模型的训练成本降低50%,推理响应速度提升3倍,计划在2025年底前将Trainium2集群规模扩至100万个,用于支撑Claude Opus 4.1的多模态能力升级。AI生成视频公司Decart的实测数据同样亮眼:使用Trainium3进行实时视频生成,推理速度提升4倍,成本仅为此前使用英伟达GPU方案的一半。
加曼在大会上披露的一组数据印证了市场认可度:Trainium系列芯片已成为AWS的“数十亿美元级业务”,过去12个月算力调用量增长300%,覆盖智能驾驶、生物医药、工业仿真等20余个领域。“客户需要的不是单一芯片,而是‘算力+算法+服务’的整体解决方案,这正是我们的优势所在。”加曼表示。
Trainium3的发布,标志着亚马逊与英伟达的AI算力竞争从“成本补充”升级为“性能对抗”。长期以来,英伟达凭借Blackwell架构芯片的单卡性能优势占据全球AI芯片市场80%以上份额,其GB200芯片采用台积电4nm工艺,集成两个B200 GPU核心与Grace CPU,AI算力达20PFLOPs,推理性能较前代H100提升30倍。但在集群部署场景下,Trainium3通过“数量优势+架构优化”实现了弯道超车——Trn3 UltraServer的144卡集群算力,相当于18台英伟达GB200 NVL72服务器的总和,而建设成本仅为后者的60%。
不过,亚马逊的短板也同样明显:软件生态的深度不足。目前全球主流AI框架对Trainium芯片的适配率仅为65%,部分复杂模型需进行二次开发才能部署,而英伟达凭借CUDA生态积累,适配率接近100%。“除了亚马逊投资的Anthropic,尚未有其他大规模采用Trainium芯片的知名企业,核心原因就是软件迁移成本过高。”高盛半导体分析师张宇指出。这也解释了Trainium4支持NVLink技术的战略考量——通过与英伟达生态兼容,降低客户的迁移门槛,实现“以生态换市场”。
英伟达对此反应谨慎,其CEO黄仁勋在内部会议中强调“AI算力市场足够大,客户需要多样化选择”,并透露将加速推出Blackwell Ultra芯片,计划2026年实现FP4精度下的性能翻倍。资本市场则呈现分化态势:发布当日亚马逊股价微涨0.23%,收于234.42美元;英伟达股价下跌1.1%,至910美元,反映出市场对其算力霸权松动的担忧。
Trainium3的发布并非孤例,而是全球云巨头“自研芯片替代”浪潮的缩影。就在一个月前,谷歌发布第七代TPU芯片Ironwood,能效比提升3倍;Meta则宣布计划从2027年起大规模采用谷歌TPU,订单规模达数十亿美元。这些云厂商凭借“芯片自研+算力服务”的垂直整合模式,正在从英伟达的最大客户转变为直接竞争对手。
对国内市场而言,这一趋势既带来启示也暗藏挑战。“亚马逊的突破证明,通过聚焦云场景的定制化设计,即使在先进制程上与头部芯片厂商存在差距,仍可通过系统优化实现竞争力反超。”中科院计算所研究员张华表示。目前国内阿里云、腾讯云也在推进自研AI芯片,但在制程工艺(主流为7nm)、软件生态适配等方面仍有差距。
行业普遍认为,Trainium3的发布将加速AI算力市场的“分层竞争”:英伟达仍将主导对单卡性能要求极高的超大规模模型训练场景,而亚马逊等云厂商的自研芯片将在云推理、中等规模训练等场景快速替代。马特·加曼在大会结尾的表态更具深意:“我们不追求取代谁,而是要通过技术创新让AI算力变得更廉价、更易得。”这场以“成本革命”为起点的算力竞争,正推动全球AI产业进入更高效的发展阶段。
Copyright 2024 gkzhan.com Al Rights Reserved 京ICP备06008810号-21 京