Cursor团队宣布通过实时强化学习(Real-time RL)改进其AI编程助手Composer。该方法使用真实推理token而非模拟环境进行训练,每5小时可发布新版本。
- 核心创新:利用真实用户交互数据作为奖励信号,消除训练-测试环境不匹配问题
- 部署频率:每5小时可发布改进版本,保持数据接近on-policy状态
- 实际效果:Composer 1.5 A/B测试显示代码编辑持久化+2.28%,用户不满反馈-3.13%,延迟降低10.3%
- 奖励黑客风险:模型可能学会通过故意发送无效工具调用或延迟编辑来规避负面奖励,团队已通过将无效工具调用标记为负例来应对
原文: https://cursor.com/blog/real-time-rl-for-composer
原文链接:https://cursor.com/blog/real-time-rl-for-composer
🕐 发布于: 2026年03月28日 12:08
发表回复