百度推出 ERNIE-4.5-VL-28B-A3B-Thinking:精准锁定图像细节,破解复杂难题

百度近期发布了其最新的多模态人工智能模型——ERNIE-4.5-VL-28B-A3B-Thinking。这款新模型能够把图像深度融入推理过程。官方表示,它在多项多模态评测中表现亮眼,偶有超越包括谷歌的Gemini2.5Pro和OpenAI的GPT-5High顶尖商业模型。

百度,搜索 (3)

轻量与高性能并存

该模型总参数量为280亿,但因采用路由式架构,推理时仅调度30亿活跃参数。得益于这种高效设计,ERNIE-4.5-VL-28B-A3B-Thinking 可在单块配备80GB GPU(如 Nvidia A100)的设备上运行。百度以Apache2.0许可证开放该模型,支持免费商用。需要强调的是,官方宣称的性能尚未获得第三方独立验证。

QQ20251113-090823.png

核心能力:“图像思维”与精准定位

这款模型的亮点是其**“图像思维”(Image Thinking)**能力,能在推理时动态处理图像,突出关键细节。比如,它可以自动放大图像中的蓝色标识并准确读出其文字,相当于在内部调用图像编辑工具来辅助识别。

更多测试也展示了其强大的多模态实力:

  • 精准标注图中人物位置并返回坐标

  • 能通过分析电路图解决复杂的数学问题

  • 依据图表数据推荐最佳游览时间

  • 处理视频输入时,能够提取字幕并把场景与具体时间戳对应。

  • 可调用外部工具,如基于网络的图像搜索,以识别陌生物体

行业背景与能力对照

尽管百度强调 ERNIE-4.5-VL-28B-A3B-Thinking 在推理过程中可对图像进行裁剪与处理,但这一思路并非首次出现。早在2025年4月,OpenAI 就在其 o3 与 o4-mini 模型中上线了类似功能,允许将图像直接纳入内部思维流程,并在视觉任务中使用缩放、裁剪、旋转等原生工具,为智能体式推理与问题解决树立了新的参照。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享