谷歌为 Gemini 3 Flash 上线 Agentic Vision：AI 像专家般“深度看图”-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

谷歌为 Gemini 3 Flash 上线 Agentic Vision：AI 像专家般“深度看图”

拥抱AI，AIGC最佳实践者

567

谷歌最近为其轻量级模型 Gemini 3 Flash 推出了一项名为“Agentic Vision（代理视觉）”的重要升级。它打破了过去 AI 视觉模型“匆匆一看就猜”的限制，让 AI 能像人类专家一样，主动探索并进行深度推理来分析图片。

过去，AI 在处理信息密度很高的图片（如远处的路牌、复杂电路图或很小的文字）时，因为只能一次性看全图，容易丢掉关键细节。Agentic Vision 引入了“思考、执行、观察”的循环流程。简单说，当你提出一个复杂的视觉问题时，Gemini 3 会先拟定分析计划，然后自动生成并运行 Python 代码，对图片做局部裁剪、旋转或标注，最后再基于这些高清细节给出最终答案。

这种像“调查员办案”的工作方式，让 Gemini 在高难度视觉任务上的准确率提升了 5%～10%。它不再只是机械地识别像素，而是会按需“拉近镜头”寻找证据。

目前，这项能力已在 Gemini AI Studio 和 Vertex AI 平台率先上线，开发者只需开启“代码执行”功能即可使用。谷歌表示，未来还会通过“Thinking 模式”面向普通用户开放，让移动端的 AI 助手也具备这种深度视觉推理能力。

划重点:

👁️ 谷歌推出 Agentic Vision，把视觉推理与 Python 代码执行结合，告别传统的静态识图方式。
🔍 引入“循环分析”机制，AI 可自主对图片进行裁剪、放大和标注，显著提升复杂细节的识别准确度。
🛠️ 功能已通过 API 对开发者开放，后续将集成至 Gemini 的“思维模式”，普通用户也能直接使用。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐