百度近期发布了其最新的多模态人工智能模型——ERNIE-4.5-VL-28B-A3B-Thinking。这款新模型能够把图像深度融入推理过程。官方表示,它在多项多模态评测中表现亮眼,偶有超越包括谷歌的Gemini2.5Pro和OpenAI的GPT-5High等顶尖商业模型。

轻量与高性能并存
该模型总参数量为280亿,但因采用路由式架构,推理时仅调度30亿活跃参数。得益于这种高效设计,ERNIE-4.5-VL-28B-A3B-Thinking 可在单块配备80GB GPU(如 Nvidia A100)的设备上运行。百度以Apache2.0许可证开放该模型,支持免费商用。需要强调的是,官方宣称的性能尚未获得第三方独立验证。

核心能力:“图像思维”与精准定位
这款模型的亮点是其**“图像思维”(Image Thinking)**能力,能在推理时动态处理图像,突出关键细节。比如,它可以自动放大图像中的蓝色标识并准确读出其文字,相当于在内部调用图像编辑工具来辅助识别。
更多测试也展示了其强大的多模态实力:
-
可精准标注图中人物位置并返回坐标。
-
能通过分析电路图解决复杂的数学问题。
-
依据图表数据推荐最佳游览时间。
-
处理视频输入时,能够提取字幕并把场景与具体时间戳对应。
-
可调用外部工具,如基于网络的图像搜索,以识别陌生物体。
行业背景与能力对照
尽管百度强调 ERNIE-4.5-VL-28B-A3B-Thinking 在推理过程中可对图像进行裁剪与处理,但这一思路并非首次出现。早在2025年4月,OpenAI 就在其 o3 与 o4-mini 模型中上线了类似功能,允许将图像直接纳入内部思维流程,并在视觉任务中使用缩放、裁剪、旋转等原生工具,为智能体式推理与问题解决树立了新的参照。


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?