研究人员将Karpathy的Autoresearch项目扩展到16 GPU集群,8小时内提交约910次实验。
- 使用Claude Code + SkyPilot在Kubernetes上管理16个GPU
- 发现模型宽度缩放比任何单一超参数更重要
- 自主发现异构硬件策略:在H100上筛选创意,在H200上验证最优方案
- 验证损失从1.003降至0.974,相对基准提升2.87%
- 并行搜索能捕获参数交互效应,顺序搜索则会错过
- 16 GPU比顺序执行快9倍(约8小时vs约72小时)
原文链接:https://blog.skypilot.co/scaling-autoresearch/
🕐 发布于: 2026年03月20日 12:10
发表回复