SkyPilot团队发表研究,展示AI coding agent在阅读论文和研究竞争项目后能生成更好的优化方案。
- 在llama.cpp CPU推理路径上添加文献搜索阶段,使用4台云VM,在约3小时内产生了5项优化,使flash attention文本生成在x86上快15%、ARM上快5%
- 纯代码上下文的局限:agent只能看到代码做什么,但不知道为什么慢或外部存在的替代方案
- 实验第一轮尝试SIMD微优化(AVX2预取、循环展开等),都在噪声范围内,因为文本生成是内存带宽限制而非计算限制
- 研究阶段的价值:阅读论文和fork项目比搜索arXiv更有成效,ik_llama.cpp和CUDA后端直接启发了5项最终优化中的2项
- 总成本约29美元(20美元CPU VM + 9美元API调用),运行约3小时
- 最大收益:将flash attention的QK tile三次遍历融合为单个AVX2 FMA循环
原文链接:https://blog.skypilot.co/research-driven-agents/
🕐 发布于: 2026年04月10日 18:01
发表回复