微软研究院推出面向电脑操作的开源小模型 Fara-7B,定位为“Computer Use Agent(CUA)”,能够通过鼠标与键盘在网页上自主执行任务。模型规模仅 70 亿参数,但在 WebVoyager、Online-Mind2Web、DeepShop 及微软新提出的 WebTailBench 等基准上表现达到同尺寸最优,并接近更大模型的水平。
Fara-7B 依赖浏览器截图进行视觉感知,无需访问无障碍树等结构信息,即可预测点击、输入、滚动等操作步骤,支持表单填写、检索、比价、预订等多步网页任务。模型基于 Magentic-One 多智能体系统生成的合成数据训练,总计约 14.5 万条任务轨迹。
该模型已在 Microsoft Foundry 与 Hugging Face 上架,采用 MIT 许可证开源,同时提供 Magentic-UI 实验环境与面向 Copilot+ PC 的量化版本,可在 Windows 11 设备上本地运行并利用 NPU 加速。
microsoft