九游体育【官方网站】 JIUYOU中国大陆

AMD甩出最猛两代AI芯片!全球首推432GB HBM4OpenAI CEO现场夸

作者:小编 日期:2025-06-15 03:24:35 点击数: 

  智东西圣何塞6月12日报道,今日,年度AI盛会AMD Advancing AI大会火热开幕。作为全球第二大AI芯片供应商,AMD今日发布其迄今最强AI产品阵容——

  xAI技术团队成员Xiao Sun、Meta工程副总裁Yee Jiun Song、甲骨文云基础设施执行副总裁Mahesh Thiagarajan、HUMAIN CEO Tareq Amin相继登台,与AMD董事会主席及首席执行官苏姿丰(Lisa Su)博士对谈。

  OpenAI联合创始人兼CEO Sam Altman作为惊喜嘉宾压轴登场,透露OpenAI团队在MI300X和MI450上开展九游体育官网了一些工作。他评价说,MI450的内存架构已为推理做好准备,相信它也会成为出色的训练选择。

  2、数据中心AI芯片AMD Instinct MI400系列(明年推出):

  ,实现对GPT、Llama 4、DeepSeek、Grok、Gemma 3、Qwen、Command R+、Mistral AI等许多主流模型的Day 0级支持,可在笔记本电脑和工作站上开发,

  AMD首个AI机架级解决方案,进一步提升AI计算密度和可扩展性,支持多达

  与采用英伟达下一代Vera Rubin芯片的Oberon机架相比,Helios AI机架拥有

  Helios集成了AMD EPYC “Venice” CPU、MI400系列GPU和Pensando “Vulcano” NIC网卡。

  苏姿丰博士还剧透了将于2027年推出的AMD下一代机架级解决方案。该方案将集成EPYC “Verano” CPU、MI500系列GPU、Pensando “Vulcano” NIC。

  AMD有三大AI战略支柱:领先的计算引擎,开放的生态系统,全栈解决方案。现场,苏姿丰博士展示了AMD端到端AI计算硬件产品组合。

  全新Instinct MI350系列、ROCm 7软件、AMD开发云、AMD Threadripper和Radeon AI解决方案,都将在今年问世。

  苏姿丰博士谈道,AMD相信开放的生态系统对AI未来至关重要,并且是唯一一家致力于硬件、软件和解决方案开放的公司。

  一、MI350系列:内存容量比B200多60%,8卡峰值AI算力达161PFLOPS

  据苏姿丰博士分享,数据中心AI加速器TAM市场将每年增长60%以上,到2028年达到5000亿美元,预计推理将在未来几年内每年增长80%以上,成为AI计算的最大驱动力。

  AMD履行Instinct GPU路线后,MI350系列今年第三季度上市,下一代MI400系列将在明年推出。

  MI350系列GPU是AMD当前最先进的生成式AI平台。MI350X和MI355X采用相同的计算机体系结构和内存,MI350X更适用于典型板卡功耗(TBP)较低的风冷,MI355X的训练吞吐量、效率、功耗更高,更适用于液冷。

  和英伟达B200/GB200相比,MI355X的纸面性能同样能打,内存容量多出

  相比上一代MI300系列,MI355X重点对低精度数据类型进行了优化。FP16/BF16数据类型吞吐量提高到4k FLOPs/clock/CU,FP8数据类型吞吐量增加到8k FLOPs/clock/CU,FP6/FP4数值格式支持2倍的每CPU FP8速率。

  从表格中可以看到,MI355X的向量FP64峰值性能会比MI300X略低,矩阵FP64峰值性能几乎只有MI300X的一半。

  MI350系列GPU采用UBB8版型。每个节点搭载8块GPU,通过153.6GB/s的Infinity Fabric双向链路进行通信。

  MI350系列采用增强的模块化Chiplet封装,晶体管数量从上一代的1530亿颗增加到

  和前代相似,MI350系列GPU采用了多种3D和2.5D先进封装技术。

  采用台积电N3P工艺的8个加速器Complex die(XCD)堆叠在2个采用N6工艺的I/O base die(IOD)上。每个XCD有32个CU(计算单元)、4MB L2缓存。AMD还给每个XCD预留了4个CU,这些CU会根据需要被禁用。IOD包含128个HBM3e通道、256MB Infinity Cache、第四代Infinity Fabric Link。

  中间Infinity Fabric先进封装对分带宽提升到5.5TB/s,通过Chiplet集成和统一内存架构实现更高的灵活性和扩展性,并通过降低总线频率和电压来降低非核心功耗。GPU与其它芯片通信用的4代Infinity Fabric总线GB/s。

  通过矩阵核心增强和灵活的量化控制,与MI300X相比,MI350X的每CU峰值HBM读带宽提升多达

  当运行Llama 3.1 405B大模型,执行AI Agent与聊天机器人、内容生成、摘要总结、对话式AI等广泛AI用例时,相比上一代MI300X,MI355X能实现

  、Llama 3 70B还是Llama 4 Maverick,MI355X都能实现

  在采用相同GPU数量、以FP4精度运行DeepSeek R1和Llama 3.1 405B模型时,相比英伟达B200使用自研TensorRT-LLM推理引擎,MI355X使用SGLang、vLLM等开源推理框架的推理性能可提升

  运行Llama 3.1 405B模型时,MI355X使用vLLM的推理性能,与GB200使用TensorRT-LLM的性能

  ,与上一代MI300X相比,在FP8精度下进行Llama 3 70B模型预训练,MI355X可提供

  这意味着理论上MI355X能实现更快的训练和推理,缩短从模型开发到部署的时间。

  AMD的开源软件战略正在取得成效。在开源社区帮助下,AMD软件生态系统发展突飞猛进。

  ROCm软件栈是AMD为前沿模型训练和大规模推理而设计的统一架构,在计算密度、内存、带宽、扩展、互连方面提供领先优势。

  AMD ROCm软件生态系统持续优化推理和训练性能,对Llama、DeepSeek等主流模型实现Day 0级支持,将发布节奏从每季度加快到每两周,持续改善开发者的开箱即用体验。

  AMD还增加了捐赠开源社区的GPU数量。PyTorch、VLLM、SGLang、Hugging Face等公司或组织将免费获得GPU,这样就能持续集成测试,确保他们研发的软件栈和新功能都能在AMD硬件上开箱即用。

  通过频繁的更新、先进的数据类型(如FP4)和新算法(如FAv3),ROCm正在实现下一代AI性能,同时推动开源框架(如vLLM和SGLang)比封闭替代方案更快地向前发展。

  ROCm 7将于2025年第三季度普遍可用,支持MI350系列GPU。AMD将在6月12日发布一个公开预览版,官方版本将于8月发布。亮点包括:

  的训练能力。这源于可用性、性能和对低精度数据类型(如FP4和FP6)支持等方面的进步。通信栈的进一步增强优化了GPU利用率和数据移动。

  推理方面,与上一代ROCm 6对比,ROCm 7在相同硬件上运行Llama 3.1 70B、Qwen2-72B、DeepSeek R1等模型,可实现

  AMD在训练方面同样拥抱开源,有自研的开源模型。AMD组建了一个AI科学家团队,该团队用AMD的软件和硬件来研发模型(包括文本模型、文生图模型、欧洲模型、多模态模型、游戏Agent等),试图实现最佳性能。

  这里补充个插曲,欧洲模型源自AMD之前收购的芬兰silo AI。silo AI一直致力于构建支持多种欧洲语言的模型,他们也跟法国明星大模型独角兽Mistral AI合作。

  相比ROCm 6,ROCm 7在相同硬件上训练Llama 2 70B、Llama 3.1 8B、Qwen 1.5 7B等开源模型,可实现

  ROCm 7引入了一种健壮的分布式推理方法,利用与开源生态系统的协作,包括SGLang、vLLM、llm-d等开源推理框架。通过采用开放策略,ROCm 7与这些合作伙伴一起构建、共同开发共享接口和原语,从而在AMD平台上实现高效的分布式推理。

  英伟达TensorRT-LLM工具不支持DeepSeek R1 FP8精度,但vLLM、SGLang等开源推理框架均可支持。由于AMD与这些开源软件紧密合作,MI355X能取得更好的推理结果,吞吐量比B200高出

  ROCm企业级AI软件栈作为一个全栈MLOps平台首次亮相,专为企业环境中的无缝AI操作而设计,通过交钥匙工具实现安全、可扩展的AI,用于微调、合规性、部署和集成。它包括针对行业特定数据进行模型微调的工具,以及与结构化和非结构化工作流的集成,通过AMD生态系统内的合作伙伴关系来开发参考应用,如聊天机器人和文档摘要。

  可执行AI辅助代码、定制自动化、先进推理、模型微调等任务,将ROCm体验扩展到端侧。

  的模型。Threadripper + Radeon AI工作站,本地可跑1

  。预计从2025年下半年开始,ROCm将出现在主要的发行版中,将Windows定位为一流的、得到全面支持的操作系统,确保家庭和企业设置的可移植性和效率。

  ,让开发者能够即时、无障碍地访问ROCm和AMD GPU,实现无缝的AI开发和部署。

  这个完全托管的环境提供了对MI300X GPU的即时访问,无需硬件投资或本地设置,只需Github或电子邮件地址即可轻松设置。Docker容器预装了流行的AI软件,最大限度地减少了安装时间,同时给开发人员定制代码的灵活性。

  小型,1x MI300X GPU (192GB GPU内存);大型,8x MI300X GPU (1536GB GPU内存)。

  率先注册的开发者可获得25小时的免费积分,通过ROCm Star开发者证书等计划可获得最多50个小时的额外时间。

  MI350系列机架基础设施完全基于开放标准,可采用x86 CPU(5代EPYC)、Instinct GPU(MI350系列)、UEC Scale-Out NIC(AMD Pensando “Pollara” NIC)。

  ,将集成EPYC “Venice” CPU、MI400系列GPU、Pensando “Vulcano” NIC。

  该架构横向扩展基于超以太网(Ultra Ethernet),纵向扩展基于UALink(Ultra Accelerator Link),并提供Fabric Manager作为ROCm生命周期管理的一部分,以支持基础设施自动化。

  网络对于构建机架级规模的AI系统至关重要。为了扩大网络规模,AMD去年推出了

  相比英伟达ConnectX7、博通Thor2,AMD Pollara可实现高出

  AMD使用UEC标准来推动创新。由于先进UEC功能运行在Pollara内部,AMD可将客户的fabric成本降低

  ,这个分析是基于8k GPU集群。当将这些集群扩展到32k、64k、128k时,成本和节省幅度会快速增加。

  这些优势将直接转化为更快的模型训练和更好的推理性能,为客户带来巨大的经济优势。

  六、AI网络:UALink支持1024块GPU互连,今年Q3推出全新DPU

  AI模型尺寸每三年增长1000倍,不仅需要更多的计算、内存,还需要更多的网络带宽来进行训练和分布式推理。如今训练数据集每8个月翻一番。这些需求都超过了芯片的发展速度,芯片晶体管密度每两年才翻一番。

  为了支持大量GPU一起工作,AMD与100多家公司一起成立了超以太网联盟(Ultra Ethernet)。超以太网技术是以太网的进化,能扩展至英伟达Infiniband的

  去年成立的UALink(Ultra Accelerator Link)联盟旨在扩展将AI芯片网络规模,提供更高的带宽、更低的延时。与英伟达NVLink相比,UALink完全开放,由100多个联盟成员支持,意味着客户可以使用任何GPU、任何CPU和任何交换机来扩展他们的架构。

  将在今年第三季度推出,目标成为“目前市场上性能最好、最安全、可扩展的AI前端网络基础设施”。

  。该DPU可安全桥接AI服务器到企业,提高AI服务器性能与网络、安全性、存储卸载,引擎对网络功能的加速可达到CPU的

  自动化同样不可或缺。ROCm AI生命周期管理软件,可将客户的部署时间从几个月减少到几天。

  ,确保用户可自动部署机架级规模的应用,并自带可靠性、可用性和可维护性。

  如今AMD已超越其30×25的目标(与2020年相比,将加速计算节点的能源效率提高

  ),在AI训练和高性能计算方面,使用当前配置的4个MI355X GPU和一个EPYC第五代CPU,实现了

  现在,AMD又设定了一个新的2030年目标,即在2024年的基础上,将机架规模的能源效率提高

  这些预测是基于AMD芯片和系统设计路线图以及经能效专家Jonathan Koomey博士验证的测量方法。

  到2030年机架规模的20倍目标反映了下一个前沿领域:不仅关注芯片,还关注更智能、更高效的系统,从芯片到全机架集成,以满足数据中心级的功率需求。

  AI基础设施如今已是数据中心AI芯片兵家必争之地。从今日释放信息来看,AMD面向整个机架级基础设施的布局已趋于完整,覆盖从CPU、GPU、内存、网络、存储、软硬件协同设计到系统的性能与能效优化。

  随着顶尖大模型性能增长放缓,产学界不再一味炼大模型,而是更多探索围绕可持续、更经济地扩展AI计算的相关创新,这正推动AI模型的训练和部署效率持续提升。

  除了提升硬件性能与配置外,AI软件栈和AI机架级基础设施的优化,都成为AMD面向未来增强AI竞争力的重点投入方向。与英伟达不同的是,AMD认定开源才能推动AI以最快速度进步,正坚定拥抱开源,构建一个完全开放的软件生态系统。

  在演讲尾声,苏姿丰博士强调:“AI的未来不会由任何一家公司或在一个封闭的生态系统中建立,它将由整个行业的开放合作来塑造成型。”

  作为全球数据中心AI芯片市场的第二名,AMD比第一名的包袱更轻,比后位者吞食市场份额的机会更大。而蓄势待出的MI400系列和“Helios” AI机架级基础设施,将蕴藏着AMD押注下一股AI浪潮、释放生成式AI和高性能计算的机遇与潜力。




上一篇 : AMD:新款AI芯片全面超越英伟达