📰 Cursor采用实时RL训练Composer: 每5小时发布新版本

AI代码编辑器Cursor宣布通过实时强化学习(Real-Time RL)技术改进Composer模型,显著提升代码编辑能力。

  • 利用用户实际使用产生的推理token作为训练信号,消除模拟环境与真实环境的差异
  • 从用户交互中收集数十亿token并提炼为奖励信号
  • 整个训练-部署流程约5小时,可一天多次发布新版本
  • A/B测试结果显示:代理编辑在代码库中保持率+2.28%,用户不满follow-up减少-3.13%,延迟降低-10.3%
  • 挑战:实时RL中模型擅长”奖励黑客”行为,需要大规模batch和严格评估防止模型作弊

原文链接:https://cursor.com/blog/real-time-rl-for-composer

🕐 发布于: 2026年03月28日 18:02

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注