谷歌新一代 AI Gemini3 Pro 在用户信任评测斩获69%好评

最近,谷歌发布了其全新的 AI 模型 Gemini3,称其在多项学术基准上表现靠前。不过,仅依赖厂商提供的测试也有局限。为此,Prolific 推出独立评估,把 Gemini3 在真实使用场景中的表现与其他模型进行对比。本次评测覆盖 26,000 名用户,采用盲测方式,重点考察用户信任、适应性和沟通风格等关键指标。

谷歌大模型Gemini

按照 Prolific 的“HUMAINE 基准”,Gemini3Pro 的用户信任评分从此前的 16% 飙升至 69%,刷新了该机构历史顶级纪录。与前代 Gemini2.5Pro 相比,Gemini3 在信任、伦理与安全上更占优势,而前代仅在 16% 的场合拿到最优。同时,Gemini3 在性能与推理、交互与适应性、信任与安全三大评估类别中均位列首位,仅有沟通风格被 DeepSeek V3 超越。

评测结果显示,Gemini3 在 22 个不同用户群体中表现稳定,覆盖年龄、性别、族裔和政治倾向等多种维度。双盲对比中,用户选择 Gemini3 的概率提升了五倍。Prolific 联合创始人兼首席执行官 Phelim Bradley 表示,Gemini3 的优势在于多场景下的一致性,以及能吸引广泛用户的个性与风格。

HUMAINE 的评估方法也指出了行业评测中的一些不足。通过让用户在不知情的前提下与两个模型进行多轮对话,测试能更真实地反映不同受众下的性能差异。Bradley 强调,虽然在部分环节会使用 AI 做评估,但人类评审仍至关重要,因为真实的人类数据更有参考价值。

面向企业选型,Bradley 建议采用更为严谨的评估框架,关注模型在不同使用场景与人群中的稳定表现,而不是只看单一任务的峰值成绩。借助这样的评估方法,企业更容易选到匹配自身需求的 AI 模型。

划重点:

🌟 Gemini3Pro 在用户信任评测中拿到 69% 好评,远超前代 16% 的成绩。

📊 在性能、交互和信任等方面表现优异,尤其在多元用户群体中保持稳定一致。

🔍 Prolific 建议企业采用更严谨的评估框架,选择更契合自身场景的 AI 模型。

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享