谷歌新一代 AI Gemini3 Pro 在用户信任评测斩获69%好评-爱智特agent,一站式企业智能体推荐平台,扣子企业智能体,扣子工作流免费复制下载

最近，谷歌发布了其全新的 AI 模型 Gemini3，称其在多项学术基准上表现靠前。不过，仅依赖厂商提供的测试也有局限。为此，Prolific 推出独立评估，把 Gemini3 在真实使用场景中的表现与其他模型进行对比。本次评测覆盖 26，000 名用户，采用盲测方式，重点考察用户信任、适应性和沟通风格等关键指标。

谷歌大模型Gemini

按照 Prolific 的“HUMAINE 基准”，Gemini3Pro 的用户信任评分从此前的 16% 飙升至 69%，刷新了该机构历史顶级纪录。与前代 Gemini2.5Pro 相比，Gemini3 在信任、伦理与安全上更占优势，而前代仅在 16% 的场合拿到最优。同时，Gemini3 在性能与推理、交互与适应性、信任与安全三大评估类别中均位列首位，仅有沟通风格被 DeepSeek V3 超越。

评测结果显示，Gemini3 在 22 个不同用户群体中表现稳定，覆盖年龄、性别、族裔和政治倾向等多种维度。双盲对比中，用户选择 Gemini3 的概率提升了五倍。Prolific 联合创始人兼首席执行官 Phelim Bradley 表示，Gemini3 的优势在于多场景下的一致性，以及能吸引广泛用户的个性与风格。

HUMAINE 的评估方法也指出了行业评测中的一些不足。通过让用户在不知情的前提下与两个模型进行多轮对话，测试能更真实地反映不同受众下的性能差异。Bradley 强调，虽然在部分环节会使用 AI 做评估，但人类评审仍至关重要，因为真实的人类数据更有参考价值。

面向企业选型，Bradley 建议采用更为严谨的评估框架，关注模型在不同使用场景与人群中的稳定表现，而不是只看单一任务的峰值成绩。借助这样的评估方法，企业更容易选到匹配自身需求的 AI 模型。