释放计算潜能:Qwen3与Qwen3-VL在AMD MI300X上的极致延迟优化
阿里云Qwen团队与AMD AI框架团队携手,在AMD Instinct™ MI300X系列GPU上基于SGLang框架,对Qwen3-235B和Qwen3-VL-235B实现极端延迟优化。Qwen3-235B相比基线,TTFT提升1.67×,TPOT提升2.12×;Qwen3-VL-235B TTFT提升1.62×,TPOT提升1.90×。优化聚焦PTPC FP8量化、TP8并行策略、Attention KV-Cache布局优化、MoE负载均衡及内核融合等多维度,所有工作开源于GitHub。MI300X凭借192GB HBM3内存和5.3TB/s带宽,成为大模型推理理想平台。本文详解这些技术突破,推动交互式AI应用的低延迟部署。(128字)