谷歌近日为其轻量级模型 Gemini3Flash 带来一项名为“Agentic Vision(代理视觉)”的重要更新。这次升级打破了以往视觉模型“匆匆一看就下结论”的瓶颈,让 AI 能像人类专家那样,通过主动探查与深度推理来解读图像。

过去,当 AI 面对信息密集的图片(例如远处的路牌、复杂的电路图或很小的字)时,往往因为只能一次性处理整张图而忽略关键细节。Agentic Vision 引入“思考—行动—观测”的循环机制:当用户提出复杂视觉问题时,Gemini3 会先拟定分析步骤,随后自动生成并运行 Python 代码,对图像进行局部裁剪、旋转或加标注,最后依据这些更清晰的细节得出答案。
这种类似“调查员”的工作方式,使 Gemini 在处理高难度视觉任务时的准确率提升约 5%~10%。它不再只是机械地识别像素,而是能按需“拉近镜头”,主动查证并寻找证据。
目前,该能力已在 Gemini AI Studio 和 Vertex AI 平台上线,开发者只需开启“代码执行”即可使用。谷歌表示,未来也会通过“Thinking 模式”面向普通用户开放,让移动端 AI 助手同样具备这种更深层的视觉推理能力。
划重点:
-
👁️ 谷歌发布 Agentic Vision,将视觉推理与 Python 代码执行结合,告别传统的静态识图流程。
-
🔍 引入“循环分析”机制,AI 可自主裁剪、放大、标注图像细节,大幅提升复杂细节的识别准确性。
-
🛠️ 该能力已通过 API 向开发者开放,后续将整合进 Gemini 的“Thinking 模式”供大众使用。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END

















用户38505528 5个月前0
粘贴不了啊用户12648782 6个月前0
用法杂不对呢?yfarer 6个月前0
草稿id无法下载,是什么问题?