谷歌周四推出了基于最先进基础模型Gemini3Pro的“重构版”Gemini Deep Research研究代理。该新型智能体延续了生成研究报告的核心能力,更重要的是带来了全新的交互式API,首次允许开发者将谷歌的SATA模型研究能力接入自家应用,在智能体AI时代拥有更大的掌控权。

功能增强与落地场景
这款研究代理能够汇聚庞大信息并处理提示中包含的大体量上下文。谷歌透露,客户用它执行的任务非常广,从企业尽调到药物毒性与安全研究都有覆盖,展现出在专业领域的实用价值。
谷歌还表示,后续将把这套深度研究代理融入多项核心服务,包括谷歌搜索、谷歌财经、Gemini应用以及颇受欢迎的NotebookLM。这一步意味着谷歌正推动一个由AI代理替代人工执行搜索任务的未来愿景。

技术进展:降低AI幻觉
谷歌强调,Deep Research受益于Gemini3Pro作为其“更贴近事实”的模型定位。该模型经过专项训练,能够在执行复杂任务时最大限度减少幻觉。所谓AI幻觉——即大语言模型编造信息——对于需要在数分钟、数小时甚至更久内做出大量自主决策的长时深度推理尤为关键,一次幻觉性选择就可能使整体输出失去有效性。
基准测试结果
为证明进展,谷歌发布并开源了名为DeepSearchQA的新基准,专门评测智能体在复杂多步骤信息检索任务中的表现。谷歌还测试了“人类最后考试深度研究”(Humanity’s Last Exam)这一通识评测,以及基于浏览器的智能体任务基准BrowserComp。
测试结果显示,谷歌的新智能体在自研基准和Humanity相关评测中领先于竞争对手;与此同时,OpenAI的ChatGPT5Pro紧随其后,并在BrowserComp测试中略占上风。

竞争进入白热化
但这些对比很快被新进展改写。同日,OpenAI发布了备受期待的GPT5.2(代号Garlic)。OpenAI称,其最新模型在多项典型基准测试中整体领先,尤其是在与谷歌的对比中,包括OpenAI自研的评测集。
此次同步发布的时机格外引人关注。谷歌清楚外界正翘首以待Garlic亮相,因而也选择在同一天公布这项AI新动作,凸显出科技巨头在AI领域的激烈竞逐。


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?