智能摘要 AI
通过混合架构将模型分割并分别部署在GPU和CPU上,实现了低显存需求下的高效推理,速度达6.6 token/s。该架构使个人开发者能运行媲美OpenAI的强大模型,且成本低。采用512GB内存和4090显卡,支持开源社区,未来或推出更多加速项目。
视频简介
通过全新的混合架构,我们成功实现了低显卡需求下的高效推理。具体来说,模型被巧妙地分成了占用显存的部分和不占显存的部分,并将它们分别部署在GPU和CPU上,从而实现了每秒6.6个token的高效推理速度。更重要的是,这种架构首次让个人开发者能够拥有与OpenAI最新款相媲美的超强大模型,并且确保了数据的安全性。
在配置上,采用了技强四代512GB内存和一块4090显卡,整体成本远低于I100。而且,随着开源社区的不断发展,当前支持0.2版本,未来还可能推出更多加速项目。特别感谢开源工作者们的贡献和分享,正是他们的努力让我们看到了“open”的真正价值——开放的人工智能,才是最好的人工智能。
视频内容
本视频简单介绍了如何在一台配置普通的服务器上运行全参数的DeepSeek-R1 671B并且以完全可用的速度运行 使用Ktransformers架构,成功低成本运行DeepSeek-R1 671B Q4量化! Ktransformers可以将FFN层交由CPU处理,大大节省了显存!!! 硬件 Xeon 6430 32C 双路共64核128T 内存 480GB DDR5 显卡 4090 24G 单卡 运行速度:约6-8 token/s




评论 (0)