微软新近上线 Fara-7B,这是一款具备70亿参数的新一代电脑操作智能助手(Computer Use Agent,CUA),目标是在用户本机直接完成复杂任务。得益于轻量化的模型体量,Fara-7B缓解了企业对数据安全的核心顾虑,让诸如内部账户管理、机密资料处理等敏感流程得以自动化,同时确保数据不离开设备。
Fara-7B的使用方式更贴近人类操作:它以视觉理解网页,通过截图感知页面内容,并预测目标坐标来执行点击、输入、滚动等动作。与依赖“可访问性树”的方案不同,Fara-7B完全基于像素级视觉信息,即便面对复杂或被混淆的前端代码,也能保持稳定交互。

在评测环节,Fara-7B于 WebVoyager 基准上拿下73.5%的任务完成率,超过体量更大的系统,如 GPT-4o(65.1%)与本土模型 UI-TARS-1.5-7B(66.4%)。效率方面同样亮眼,平均仅需约16步即可完成任务,而 UI-TARS-1.5-7B大约要走41步。
当然,Fara-7B也面临与其他模型相似的风险,比如可能出现误判,或在复杂需求下发生执行偏差。为此,团队在训练中加入了“关键点”识别:一旦涉及个人数据或需要授权的操作,系统会主动暂停并提示用户确认,避免出现不可逆的后果。微软研究团队同时设计了名为 Magentic-UI 的交互界面,在安全确认与使用体验之间做平衡,尽量减少打扰与疲劳。

Fara-7B的研发也体现了知识蒸馏的方向:把复杂系统的能力压缩进更高效的小模型。后续版本将更关注提升智能与决策能力,而非一味增大规模,并计划在实时沙盒环境中探索强化学习的训练路径。
目前,微软已在 Hugging Face 与 Microsoft Foundry 提供了 MIT 许可的 Fara-7B版本,便于用户开展实验与原型搭建,但暂不建议直接用于关键生产任务的部署。
划重点:
🌟 Fara-7B支持本地运行,突出数据安全与隐私保护。
⚙️ 模型以视觉驱动网页操作,交互直观高效,表现领先同类大模型。
🛡️ 配备“关键点”确认机制,关键操作前先征询用户,整体安全性更稳。


















用户38505528 2个月前0
粘贴不了啊用户12648782 3个月前0
用法杂不对呢?yfarer 3个月前0
草稿id无法下载,是什么问题?