Google近日正式上线全新开源大模型Gemma412B,这意味着端侧全模态AI又向前迈出关键一步。该模型打破了传统多模态系统对视觉、音频外部编码器的依赖方式,首次采用“Unified”无编码器架构。
借助这一方案,文本、图片、音频和视频四类模态的原始内容,都可以直接送入同一个Transformer主干网络统一处理,从源头减少了传统外接“翻译”模块带来的显存消耗和响应延迟问题,让跨模态理解更加接近原生状态。

作为一款针对消费级硬件进行优化的端侧模型,Gemma412B在参数效率方面表现十分突出。在基准测试中,它的成绩已经接近Google自家26B级别的大模型,但内存占用还不到后者的一半。该模型还拥有256K Token超长上下文窗口,支持140多种语言,并集成了强化分步推理的Thinking模式以及原生Function Calling能力。
在实际部署层面,这款模型最低只需要16GB显存或统一内存就能顺畅运行,经过4-bit量化后甚至可进一步降到8GB。它的核心方向,就是让普通笔记本也能实现高效本地部署。目前,Google AI Edge Gallery已经从手机端正式扩展到桌面端,macOS用户下载安装后即可在本地启用Gemma412B。再加上内置沙盒Python环境,以及支持语音交互的Eloquent系统,用户如今已经可以直接在聊天界面中执行代码、生成图表,并完成自然流畅的语音交互。
业内人士普遍认为,Gemma412B的发布将进一步推动AI去中心化发展。它凭借极高的性能密度和对端侧设备的良好适配能力,不仅进一步摆脱了对云端算力的依赖,也为未来同时兼顾低延迟和隐私安全的端侧全模态个人助理应用打下了基础。


















用户38505528 9个月前0
粘贴不了啊用户12648782 10个月前0
用法杂不对呢?yfarer 10个月前0
草稿id无法下载,是什么问题?