谷歌为 Gemini 3 Flash 上线 Agentic Vision:AI 像专家般“深度看图”

谷歌最近为其轻量级模型 Gemini 3 Flash 推出了一项名为“Agentic Vision(代理视觉)”的重要升级。它打破了过去 AI 视觉模型“匆匆一看就猜”的限制,让 AI 能像人类专家一样,主动探索并进行深度推理来分析图片。

image.png

过去,AI 在处理信息密度很高的图片(如远处的路牌、复杂电路图或很小的文字)时,因为只能一次性看全图,容易丢掉关键细节。Agentic Vision 引入了“思考、执行、观察”的循环流程。简单说,当你提出一个复杂的视觉问题时,Gemini 3 会先拟定分析计划,然后自动生成并运行 Python 代码,对图片做局部裁剪、旋转或标注,最后再基于这些高清细节给出最终答案。

这种像“调查员办案”的工作方式,让 Gemini 在高难度视觉任务上的准确率提升了 5%~10%。它不再只是机械地识别像素,而是会按需“拉近镜头”寻找证据。

目前,这项能力已在 Gemini AI Studio 和 Vertex AI 平台率先上线,开发者只需开启“代码执行”功能即可使用。谷歌表示,未来还会通过“Thinking 模式”面向普通用户开放,让移动端的 AI 助手也具备这种深度视觉推理能力。

划重点:

  • 👁️ 谷歌推出 Agentic Vision,把视觉推理与 Python 代码执行结合,告别传统的静态识图方式。

  • 🔍 引入“循环分析”机制,AI 可自主对图片进行裁剪、放大和标注,显著提升复杂细节的识别准确度。

  • 🛠️ 功能已通过 API 对开发者开放,后续将集成至 Gemini 的“思维模式”,普通用户也能直接使用。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞7 分享