📰 研究驱动的AI Agent：先读论文再写代码效果更好

SkyPilot团队发表研究，展示AI coding agent在阅读论文和研究竞争项目后能生成更好的优化方案。

在llama.cpp CPU推理路径上添加文献搜索阶段，使用4台云VM，在约3小时内产生了5项优化，使flash attention文本生成在x86上快15%、ARM上快5%
纯代码上下文的局限：agent只能看到代码做什么，但不知道为什么慢或外部存在的替代方案
实验第一轮尝试SIMD微优化（AVX2预取、循环展开等），都在噪声范围内，因为文本生成是内存带宽限制而非计算限制
研究阶段的价值：阅读论文和fork项目比搜索arXiv更有成效，ik_llama.cpp和CUDA后端直接启发了5项最终优化中的2项
总成本约29美元（20美元CPU VM + 9美元API调用），运行约3小时
最大收益：将flash attention的QK tile三次遍历融合为单个AVX2 FMA循环

🕐 发布于: 2026年04月10日 18:01

评论