百度推出 ERNIE-4.5-VL-28B-A3B-Thinking：精准锁定图像细节，破解复杂难题-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

百度近期发布了其最新的多模态人工智能模型——ERNIE-4.5-VL-28B-A3B-Thinking。这款新模型能够把图像深度融入推理过程。官方表示，它在多项多模态评测中表现亮眼，偶有超越包括谷歌的Gemini2.5Pro和OpenAI的GPT-5High等顶尖商业模型。

百度，搜索 (3)

轻量与高性能并存

该模型总参数量为280亿，但因采用路由式架构，推理时仅调度30亿活跃参数。得益于这种高效设计，ERNIE-4.5-VL-28B-A3B-Thinking 可在单块配备80GB GPU（如 Nvidia A100）的设备上运行。百度以Apache2.0许可证开放该模型，支持免费商用。需要强调的是，官方宣称的性能尚未获得第三方独立验证。

核心能力：“图像思维”与精准定位

这款模型的亮点是其**“图像思维”（Image Thinking）**能力，能在推理时动态处理图像，突出关键细节。比如，它可以自动放大图像中的蓝色标识并准确读出其文字，相当于在内部调用图像编辑工具来辅助识别。

更多测试也展示了其强大的多模态实力：

可精准标注图中人物位置并返回坐标。
能通过分析电路图解决复杂的数学问题。
依据图表数据推荐最佳游览时间。
处理视频输入时，能够提取字幕并把场景与具体时间戳对应。
可调用外部工具，如基于网络的图像搜索，以识别陌生物体。

行业背景与能力对照

尽管百度强调 ERNIE-4.5-VL-28B-A3B-Thinking 在推理过程中可对图像进行裁剪与处理，但这一思路并非首次出现。早在2025年4月，OpenAI 就在其 o3 与 o4-mini 模型中上线了类似功能，允许将图像直接纳入内部思维流程，并在视觉任务中使用缩放、裁剪、旋转等原生工具，为智能体式推理与问题解决树立了新的参照。