谷歌 Gemini 3 Flash 重磅升级：全新“Agentic Vision”让 AI 像专家般深度读图-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

谷歌 Gemini 3 Flash 重磅升级：全新“Agentic Vision”让 AI 像专家般深度读图

拥抱AI，AIGC最佳实践者

546

谷歌近日为其轻量级模型 Gemini3Flash 带来一项名为“Agentic Vision（代理视觉）”的重要更新。这次升级打破了以往视觉模型“匆匆一看就下结论”的瓶颈，让 AI 能像人类专家那样，通过主动探查与深度推理来解读图像。

过去，当 AI 面对信息密集的图片（例如远处的路牌、复杂的电路图或很小的字）时，往往因为只能一次性处理整张图而忽略关键细节。Agentic Vision 引入“思考—行动—观测”的循环机制：当用户提出复杂视觉问题时，Gemini3 会先拟定分析步骤，随后自动生成并运行 Python 代码，对图像进行局部裁剪、旋转或加标注，最后依据这些更清晰的细节得出答案。

这种类似“调查员”的工作方式，使 Gemini 在处理高难度视觉任务时的准确率提升约 5%～10%。它不再只是机械地识别像素，而是能按需“拉近镜头”，主动查证并寻找证据。

目前，该能力已在 Gemini AI Studio 和 Vertex AI 平台上线，开发者只需开启“代码执行”即可使用。谷歌表示，未来也会通过“Thinking 模式”面向普通用户开放，让移动端 AI 助手同样具备这种更深层的视觉推理能力。

划重点:

👁️ 谷歌发布 Agentic Vision，将视觉推理与 Python 代码执行结合，告别传统的静态识图流程。
🔍 引入“循环分析”机制，AI 可自主裁剪、放大、标注图像细节，大幅提升复杂细节的识别准确性。
🛠️ 该能力已通过 API 向开发者开放，后续将整合进 Gemini 的“Thinking 模式”供大众使用。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区

© 版权声明

AI智能体所有文章，如无特殊说明或标注，均为本站作者原创发布。任何个人或组织，在未征得作者同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若此作者内容侵犯了原著者的合法权益，可联系客服处理。

THE END

喜欢就支持一下吧

相关推荐