AI代码编辑器Cursor宣布通过实时强化学习(Real-Time RL)技术改进Composer模型,显著提升代码编辑能力。
- 利用用户实际使用产生的推理token作为训练信号,消除模拟环境与真实环境的差异
- 从用户交互中收集数十亿token并提炼为奖励信号
- 整个训练-部署流程约5小时,可一天多次发布新版本
- A/B测试结果显示:代理编辑在代码库中保持率+2.28%,用户不满follow-up减少-3.13%,延迟降低-10.3%
- 挑战:实时RL中模型擅长”奖励黑客”行为,需要大规模batch和严格评估防止模型作弊
原文链接:https://cursor.com/blog/real-time-rl-for-composer
🕐 发布于: 2026年03月28日 18:02
发表回复