背景
开发者们正在构建一种可以在后台长时间自主运行的AI Agent,无需人工持续监督。但一个新的问题浮现了:如何确保AI的工作成果是正确的?
核心问题
- 使用Claude的团队每周合并40-50个PR,而非之前的10个
- 代码审查压力急剧增大
- AI”自我检查”的局限:用同一个AI写测试和写代码,相当于”自己检查自己的工作”
解决方案:TDD + AI
借鉴测试驱动开发(TDD)的理念:
- 先用自然语言写下”正确的代码应该做什么”(验收标准)
- 让AI Agent根据规格构建代码
- 用其他工具验证结果
实践方式
对于前端改动,基于规格文件生成验收标准:
- AC-1: 用户在/login输入有效凭证后重定向到/dashboard
- AC-2: 密码错误时显示”Invalid email or password”
- AC-3: 空字段验证
- AC-4: 5次失败后限制登录60秒
然后用Playwright浏览器Agent验证每个标准,截图并生成报告。
📎 原文: 查看原文
🕐 发布于: 2026年03月11日 12:28
发表回复