MLC 项目使得 AMD GPU 在 LLM 推理方面具有竞争力


【资料图】

编程客栈() 8月11日消息:AMD GPU 通过 MLC(MAChine learning compilation)项目在编译和部署大模型方面取得了进展,实现了与英伟达 GPU 相当的性能。MLC-LLM 方案在 AMD RX 7900 XTX 上的性能达到了英伟达 GeForce RTX 4090 的 80%,而价格只有 RTX 4090 的 60%。

MLCTGqdUq-LLM 可以编译 LLM 并将其部署在使用具有竞争性能的 ROCm 的 AMD GPU 上。更具体地说,对于phpLlama2-7B/13B,AMD Radeon™ RX 7900 XTX 的速度是 NVIDIA GeForce RTX™ 4090 的 80%,是 NVIDIA GeForce R编程客栈TX™ 3090Ti 的 94%。除了 ROCm 之外,Vulkan 支持还允许我们将 LLM 部署推广到其他 AMD 设备,例如具有 AMD APU 的 SteamDeck。

机器学习编译(MLC)是一种新兴技术,用于编译和自动优化机器学习工作负载。与为每个独立的后端(如 ROCm 或 CUDA)编写特定的内核不同,MLC 解决方案会js自动生成适用于不同后端的代码。利用基于 ML 编译的解决方案 MLC-LLM,为 LLMs 提供高性能的通用部署。MLC-LLM 建立在 Apache TVM Unity 之上,它是一种机器学习编译栈,提供了基于 python 的开发和通用部署。MLC-LLM 为各种后端编程(包括 CUDA、Metal、ROCm、Vulkan 和 OpenCL)提供了最先进的性能,涵盖了服务器级 GPU 到移动设备(iPhone 和 android)。

在较高的层次上,该框架允许用户采用基于 Python 的工作流程,包括转换计算图的 API,优化 GPU 内核的布局和调度,并将其在感兴趣的平台上进行本地部署。

推荐DIY文章
当智能健身走向全民化:AEKE轻力量家庭智能健身房引领未来
海艺AI:迎合“AI时代”发展潮流,刷新绘图市场传统认知
布局产业新高地!海星医药健康创新园B区奠基仪式隆重举行
未来五年500亿投入打底,北汽蓝谷锚定细分市场增量
【展会直击】华秋慕尼黑上海电子展精彩ing,助力电子产业高质量发展!
桂花网蓝牙网关助力司乘人员职业健康监测
精彩新闻