AMD甩出最猛两代AI芯片！全球首推432GB HBM4OpenAI CEO现场夸

作者：小编　日期：2025-06-15 03:24:35　点击数：　

　　智东西圣何塞6月12日报道，今日，年度AI盛会AMD Advancing AI大会火热开幕。作为全球第二大AI芯片供应商，AMD今日发布其迄今最强AI产品阵容——

　　xAI技术团队成员Xiao Sun、Meta工程副总裁Yee Jiun Song、甲骨文云基础设施执行副总裁Mahesh Thiagarajan、HUMAIN CEO Tareq Amin相继登台，与AMD董事会主席及首席执行官苏姿丰（Lisa Su）博士对谈。

　　OpenAI联合创始人兼CEO Sam Altman作为惊喜嘉宾压轴登场，透露OpenAI团队在MI300X和MI450上开展九游体育官网了一些工作。他评价说，MI450的内存架构已为推理做好准备，相信它也会成为出色的训练选择。

　　2、数据中心AI芯片AMD Instinct MI400系列（明年推出）：

　　，实现对GPT、Llama 4、DeepSeek、Grok、Gemma 3、Qwen、Command R+、Mistral AI等许多主流模型的Day 0级支持，可在笔记本电脑和工作站上开发，

　　AMD首个AI机架级解决方案，进一步提升AI计算密度和可扩展性，支持多达

　　与采用英伟达下一代Vera Rubin芯片的Oberon机架相比，Helios AI机架拥有

　　Helios集成了AMD EPYC “Venice” CPU、MI400系列GPU和Pensando “Vulcano” NIC网卡。

　　苏姿丰博士还剧透了将于2027年推出的AMD下一代机架级解决方案。该方案将集成EPYC “Verano” CPU、MI500系列GPU、Pensando “Vulcano” NIC。

　　AMD有三大AI战略支柱：领先的计算引擎，开放的生态系统，全栈解决方案。现场，苏姿丰博士展示了AMD端到端AI计算硬件产品组合。

　　全新Instinct MI350系列、ROCm 7软件、AMD开发云、AMD Threadripper和Radeon AI解决方案，都将在今年问世。

　　苏姿丰博士谈道，AMD相信开放的生态系统对AI未来至关重要，并且是唯一一家致力于硬件、软件和解决方案开放的公司。

　　一、MI350系列：内存容量比B200多60%，8卡峰值AI算力达161PFLOPS

　　据苏姿丰博士分享，数据中心AI加速器TAM市场将每年增长60%以上，到2028年达到5000亿美元，预计推理将在未来几年内每年增长80%以上，成为AI计算的最大驱动力。

　　AMD履行Instinct GPU路线后，MI350系列今年第三季度上市，下一代MI400系列将在明年推出。

　　MI350系列GPU是AMD当前最先进的生成式AI平台。MI350X和MI355X采用相同的计算机体系结构和内存，MI350X更适用于典型板卡功耗（TBP）较低的风冷，MI355X的训练吞吐量、效率、功耗更高，更适用于液冷。

　　和英伟达B200/GB200相比，MI355X的纸面性能同样能打，内存容量多出

　　相比上一代MI300系列，MI355X重点对低精度数据类型进行了优化。FP16/BF16数据类型吞吐量提高到4k FLOPs/clock/CU，FP8数据类型吞吐量增加到8k FLOPs/clock/CU，FP6/FP4数值格式支持2倍的每CPU FP8速率。

　　从表格中可以看到，MI355X的向量FP64峰值性能会比MI300X略低，矩阵FP64峰值性能几乎只有MI300X的一半。

　　MI350系列GPU采用UBB8版型。每个节点搭载8块GPU，通过153.6GB/s的Infinity Fabric双向链路进行通信。

　　MI350系列采用增强的模块化Chiplet封装，晶体管数量从上一代的1530亿颗增加到

　　和前代相似，MI350系列GPU采用了多种3D和2.5D先进封装技术。

　　采用台积电N3P工艺的8个加速器Complex die（XCD）堆叠在2个采用N6工艺的I/O base die（IOD）上。每个XCD有32个CU（计算单元）、4MB L2缓存。AMD还给每个XCD预留了4个CU，这些CU会根据需要被禁用。IOD包含128个HBM3e通道、256MB Infinity Cache、第四代Infinity Fabric Link。

　　中间Infinity Fabric先进封装对分带宽提升到5.5TB/s，通过Chiplet集成和统一内存架构实现更高的灵活性和扩展性，并通过降低总线频率和电压来降低非核心功耗。GPU与其它芯片通信用的4代Infinity Fabric总线GB/s。

　　通过矩阵核心增强和灵活的量化控制，与MI300X相比，MI350X的每CU峰值HBM读带宽提升多达

　　当运行Llama 3.1 405B大模型，执行AI Agent与聊天机器人、内容生成、摘要总结、对话式AI等广泛AI用例时，相比上一代MI300X，MI355X能实现

　　、Llama 3 70B还是Llama 4 Maverick，MI355X都能实现

　　在采用相同GPU数量、以FP4精度运行DeepSeek R1和Llama 3.1 405B模型时，相比英伟达B200使用自研TensorRT-LLM推理引擎，MI355X使用SGLang、vLLM等开源推理框架的推理性能可提升

　　运行Llama 3.1 405B模型时，MI355X使用vLLM的推理性能，与GB200使用TensorRT-LLM的性能

　　，与上一代MI300X相比，在FP8精度下进行Llama 3 70B模型预训练，MI355X可提供

　　这意味着理论上MI355X能实现更快的训练和推理，缩短从模型开发到部署的时间。

　　AMD的开源软件战略正在取得成效。在开源社区帮助下，AMD软件生态系统发展突飞猛进。

　　ROCm软件栈是AMD为前沿模型训练和大规模推理而设计的统一架构，在计算密度、内存、带宽、扩展、互连方面提供领先优势。

　　AMD ROCm软件生态系统持续优化推理和训练性能，对Llama、DeepSeek等主流模型实现Day 0级支持，将发布节奏从每季度加快到每两周，持续改善开发者的开箱即用体验。

　　AMD还增加了捐赠开源社区的GPU数量。PyTorch、VLLM、SGLang、Hugging Face等公司或组织将免费获得GPU，这样就能持续集成测试，确保他们研发的软件栈和新功能都能在AMD硬件上开箱即用。

　　通过频繁的更新、先进的数据类型（如FP4）和新算法（如FAv3），ROCm正在实现下一代AI性能，同时推动开源框架（如vLLM和SGLang）比封闭替代方案更快地向前发展。

　　ROCm 7将于2025年第三季度普遍可用，支持MI350系列GPU。AMD将在6月12日发布一个公开预览版，官方版本将于8月发布。亮点包括：

　　的训练能力。这源于可用性、性能和对低精度数据类型（如FP4和FP6）支持等方面的进步。通信栈的进一步增强优化了GPU利用率和数据移动。

　　推理方面，与上一代ROCm 6对比，ROCm 7在相同硬件上运行Llama 3.1 70B、Qwen2-72B、DeepSeek R1等模型，可实现

　　AMD在训练方面同样拥抱开源，有自研的开源模型。AMD组建了一个AI科学家团队，该团队用AMD的软件和硬件来研发模型（包括文本模型、文生图模型、欧洲模型、多模态模型、游戏Agent等），试图实现最佳性能。

　　这里补充个插曲，欧洲模型源自AMD之前收购的芬兰silo AI。silo AI一直致力于构建支持多种欧洲语言的模型，他们也跟法国明星大模型独角兽Mistral AI合作。

　　相比ROCm 6，ROCm 7在相同硬件上训练Llama 2 70B、Llama 3.1 8B、Qwen 1.5 7B等开源模型，可实现

　　ROCm 7引入了一种健壮的分布式推理方法，利用与开源生态系统的协作，包括SGLang、vLLM、llm-d等开源推理框架。通过采用开放策略，ROCm 7与这些合作伙伴一起构建、共同开发共享接口和原语，从而在AMD平台上实现高效的分布式推理。

　　英伟达TensorRT-LLM工具不支持DeepSeek R1 FP8精度，但vLLM、SGLang等开源推理框架均可支持。由于AMD与这些开源软件紧密合作，MI355X能取得更好的推理结果，吞吐量比B200高出

　　ROCm企业级AI软件栈作为一个全栈MLOps平台首次亮相，专为企业环境中的无缝AI操作而设计，通过交钥匙工具实现安全、可扩展的AI，用于微调、合规性、部署和集成。它包括针对行业特定数据进行模型微调的工具，以及与结构化和非结构化工作流的集成，通过AMD生态系统内的合作伙伴关系来开发参考应用，如聊天机器人和文档摘要。

　　可执行AI辅助代码、定制自动化、先进推理、模型微调等任务，将ROCm体验扩展到端侧。

　　的模型。Threadripper + Radeon AI工作站，本地可跑1

　　。预计从2025年下半年开始，ROCm将出现在主要的发行版中，将Windows定位为一流的、得到全面支持的操作系统，确保家庭和企业设置的可移植性和效率。

　　，让开发者能够即时、无障碍地访问ROCm和AMD GPU，实现无缝的AI开发和部署。

　　这个完全托管的环境提供了对MI300X GPU的即时访问，无需硬件投资或本地设置，只需Github或电子邮件地址即可轻松设置。Docker容器预装了流行的AI软件，最大限度地减少了安装时间，同时给开发人员定制代码的灵活性。

　　小型，1x MI300X GPU （192GB GPU内存）；大型，8x MI300X GPU （1536GB GPU内存）。

　　率先注册的开发者可获得25小时的免费积分，通过ROCm Star开发者证书等计划可获得最多50个小时的额外时间。

　　MI350系列机架基础设施完全基于开放标准，可采用x86 CPU（5代EPYC）、Instinct GPU（MI350系列）、UEC Scale-Out NIC（AMD Pensando “Pollara” NIC）。

　　，将集成EPYC “Venice” CPU、MI400系列GPU、Pensando “Vulcano” NIC。

　　该架构横向扩展基于超以太网（Ultra Ethernet），纵向扩展基于UALink（Ultra Accelerator Link），并提供Fabric Manager作为ROCm生命周期管理的一部分，以支持基础设施自动化。

　　网络对于构建机架级规模的AI系统至关重要。为了扩大网络规模，AMD去年推出了

　　相比英伟达ConnectX7、博通Thor2，AMD Pollara可实现高出

　　AMD使用UEC标准来推动创新。由于先进UEC功能运行在Pollara内部，AMD可将客户的fabric成本降低

　　，这个分析是基于8k GPU集群。当将这些集群扩展到32k、64k、128k时，成本和节省幅度会快速增加。

　　这些优势将直接转化为更快的模型训练和更好的推理性能，为客户带来巨大的经济优势。

　　六、AI网络：UALink支持1024块GPU互连，今年Q3推出全新DPU

　　AI模型尺寸每三年增长1000倍，不仅需要更多的计算、内存，还需要更多的网络带宽来进行训练和分布式推理。如今训练数据集每8个月翻一番。这些需求都超过了芯片的发展速度，芯片晶体管密度每两年才翻一番。

　　为了支持大量GPU一起工作，AMD与100多家公司一起成立了超以太网联盟（Ultra Ethernet）。超以太网技术是以太网的进化，能扩展至英伟达Infiniband的

　　去年成立的UALink（Ultra Accelerator Link）联盟旨在扩展将AI芯片网络规模，提供更高的带宽、更低的延时。与英伟达NVLink相比，UALink完全开放，由100多个联盟成员支持，意味着客户可以使用任何GPU、任何CPU和任何交换机来扩展他们的架构。

　　将在今年第三季度推出，目标成为“目前市场上性能最好、最安全、可扩展的AI前端网络基础设施”。

　　。该DPU可安全桥接AI服务器到企业，提高AI服务器性能与网络、安全性、存储卸载，引擎对网络功能的加速可达到CPU的

　　自动化同样不可或缺。ROCm AI生命周期管理软件，可将客户的部署时间从几个月减少到几天。

　　，确保用户可自动部署机架级规模的应用，并自带可靠性、可用性和可维护性。

　　如今AMD已超越其30×25的目标（与2020年相比，将加速计算节点的能源效率提高

　　），在AI训练和高性能计算方面，使用当前配置的4个MI355X GPU和一个EPYC第五代CPU，实现了

　　现在，AMD又设定了一个新的2030年目标，即在2024年的基础上，将机架规模的能源效率提高

　　这些预测是基于AMD芯片和系统设计路线图以及经能效专家Jonathan Koomey博士验证的测量方法。

　　到2030年机架规模的20倍目标反映了下一个前沿领域：不仅关注芯片，还关注更智能、更高效的系统，从芯片到全机架集成，以满足数据中心级的功率需求。

　　AI基础设施如今已是数据中心AI芯片兵家必争之地。从今日释放信息来看，AMD面向整个机架级基础设施的布局已趋于完整，覆盖从CPU、GPU、内存、网络、存储、软硬件协同设计到系统的性能与能效优化。

　　随着顶尖大模型性能增长放缓，产学界不再一味炼大模型，而是更多探索围绕可持续、更经济地扩展AI计算的相关创新，这正推动AI模型的训练和部署效率持续提升。

　　除了提升硬件性能与配置外，AI软件栈和AI机架级基础设施的优化，都成为AMD面向未来增强AI竞争力的重点投入方向。与英伟达不同的是，AMD认定开源才能推动AI以最快速度进步，正坚定拥抱开源，构建一个完全开放的软件生态系统。

　　在演讲尾声，苏姿丰博士强调：“AI的未来不会由任何一家公司或在一个封闭的生态系统中建立，它将由整个行业的开放合作来塑造成型。”

　　作为全球数据中心AI芯片市场的第二名，AMD比第一名的包袱更轻，比后位者吞食市场份额的机会更大。而蓄势待出的MI400系列和“Helios” AI机架级基础设施，将蕴藏着AMD押注下一股AI浪潮、释放生成式AI和高性能计算的机遇与潜力。

上一篇 : AMD：新款AI芯片全面超越英伟达
下一篇 : AMD称自己的新版AI芯片速度超越英伟达同类产品

九游体育【官方网站】 JIUYOU中国大陆

官网动态

AMD甩出最猛两代AI芯片！全球首推432GB HBM4OpenAI CEO现场夸