成立仅三个月的 xLLM 社区宣布将于 12 月 6 日举办首场线下 Meetup,主题为“共建开源 AI Infra 生态”。现场将发布自研推理引擎 xLLM-Core,并公布对比结果:在同级GPU 环境下,MoE、Text-to-Image、Text-to-Video 三类任务的 P99 延迟均低于 20ms;相较 vLLM 平均延迟下降 42%,吞吐提升 2. 1 倍。
技术亮点
统一计算图:把文本、视觉、视频生成统一抽象为“Token-in Token-out”流程,在单引擎内实现多模态并行
Mooncake KV 缓存集成:采用三级存储(GPU 显存→DDR→NVMe),命中率达 99.2%,缓存穿透延迟<5ms
动态形状批处理:支持从 512×512 扩展到 2048× 2048 的图像、8→ 128 帧视频在线拼接,显存碎片降低 38%
插件式后端:已支持 CUDA、ROCm、MTIA;路线图规划在 2026Q1 覆盖 Apple Silicon 与 Intel Arc
标杆案例
北京航空航天大学杨海龙教授将在 Meetup 分享京东 11. 11 实战:xLLM-Core 承载峰值每秒 40k 请求,机器成本下降 90%,业务效率提升 5 倍。
开源计划
现场将发布 xLLM-Core 0. 9 版(Apache 2.0),附带 Docker 镜像、Python/C++ API 与 Benchmark 脚本;社区预计 2026 年 6 月推出 1.0 LTS,提供长期维护与商业支持。
报名通道已在 xLLM 官网开放,线下预计 300 席位,线上直播同步推送。


















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?