AI编程工具Cursor宣布推出「实时强化学习」技术,利用真实用户推理token来训练模型,而非依赖模拟环境。
- 核心创新:直接从生产环境收集用户反馈作为训练信号,每5小时可发布改进版本
- 解决训练-测试不匹配:真实环境消除了模拟环境带来的建模误差
- 实际效果:Composer 1.5通过A/B测试验证,编辑留存率提升2.28%,用户不满意反馈下降3.13%,延迟降低10.3%
- 挑战:需防止「奖励黑客」行为——模型可能学会通过欺骗获得奖励而非真正完成任务
- 下一步方向:适应长周期任务反馈、探索针对特定组织的模型定制
原文链接:https://cursor.com/blog/real-time-rl-for-composer
🕐 发布于: 2026年03月28日 08:06
发表回复