谷歌最近为其轻量级模型 Gemini 3 Flash 推出了一项名为“Agentic Vision(代理视觉)”的重要升级。它打破了过去 AI 视觉模型“匆匆一看就猜”的限制,让 AI 能像人类专家一样,主动探索并进行深度推理来分析图片。

过去,AI 在处理信息密度很高的图片(如远处的路牌、复杂电路图或很小的文字)时,因为只能一次性看全图,容易丢掉关键细节。Agentic Vision 引入了“思考、执行、观察”的循环流程。简单说,当你提出一个复杂的视觉问题时,Gemini 3 会先拟定分析计划,然后自动生成并运行 Python 代码,对图片做局部裁剪、旋转或标注,最后再基于这些高清细节给出最终答案。
这种像“调查员办案”的工作方式,让 Gemini 在高难度视觉任务上的准确率提升了 5%~10%。它不再只是机械地识别像素,而是会按需“拉近镜头”寻找证据。
目前,这项能力已在 Gemini AI Studio 和 Vertex AI 平台率先上线,开发者只需开启“代码执行”功能即可使用。谷歌表示,未来还会通过“Thinking 模式”面向普通用户开放,让移动端的 AI 助手也具备这种深度视觉推理能力。
划重点:
-
👁️ 谷歌推出 Agentic Vision,把视觉推理与 Python 代码执行结合,告别传统的静态识图方式。
-
🔍 引入“循环分析”机制,AI 可自主对图片进行裁剪、放大和标注,显著提升复杂细节的识别准确度。
-
🛠️ 功能已通过 API 对开发者开放,后续将集成至 Gemini 的“思维模式”,普通用户也能直接使用。
© 版权声明
AI智能体所有文章,如无特殊说明或标注,均为本站作者原创发布。任何个人或组织,在未征得作者同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益,可联系客服处理。
THE END


















用户38505528 6个月前0
粘贴不了啊用户12648782 7个月前0
用法杂不对呢?yfarer 7个月前0
草稿id无法下载,是什么问题?