xLLM社区将于12月6日首次发布开源推理引擎:覆盖MoE、T2I、T2V全场景,携手Mooncake缓存将延迟压至20ms以内

成立仅三个月的 xLLM 社区宣布将于 12 月 6 日举办首场线下 Meetup,主题为“共建开源 AI Infra 生态”。现场将发布自研推理引擎 xLLM-Core,并公布对比结果:在同级GPU 环境下,MoE、Text-to-Image、Text-to-Video 三类任务的 P99 延迟均低于 20ms;相较 vLLM 平均延迟下降 42%,吞吐提升 2. 1 倍。

技术亮点  

统一计算图:把文本、视觉、视频生成统一抽象为“Token-in Token-out”流程,在单引擎内实现多模态并行  

Mooncake KV 缓存集成:采用三级存储(GPU 显存→DDR→NVMe),命中率达 99.2%,缓存穿透延迟<5ms  

动态形状批处理:支持从 512×512 扩展到 2048× 2048 的图像、8→ 128 帧视频在线拼接,显存碎片降低 38%  

插件式后端:已支持 CUDA、ROCm、MTIA;路线图规划在 2026Q1 覆盖 Apple Silicon 与 Intel Arc

标杆案例  

北京航空航天大学杨海龙教授将在 Meetup 分享京东 11. 11 实战:xLLM-Core 承载峰值每秒 40k 请求,机器成本下降 90%,业务效率提升 5 倍。

开源计划  

现场将发布 xLLM-Core 0. 9 版(Apache 2.0),附带 Docker 镜像、Python/C++ API 与 Benchmark 脚本;社区预计 2026 年 6 月推出 1.0 LTS,提供长期维护与商业支持。

报名通道已在 xLLM 官网开放,线下预计 300 席位,线上直播同步推送。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞13 分享