Google Research推出了TurboQuant,这是一种全新的压缩算法,能够实现高压缩率而几乎不影响模型精度。该技术主要针对AI模型中的键值缓存(KV Cache)瓶颈和向量搜索效率问题。
- 采用PolarQuant方法进行高质量压缩,通过随机旋转数据向量简化几何结构
- 使用QJL算法仅用1比特消除第一阶段的残留误差,无需额外内存开销
- 在长上下文基准测试(LongBench、Needle In A Haystack等)上表现优异
- 可同时降低内存成本并保持模型性能,预计将在搜索和AI领域产生深远影响
原文链接:https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/
🕐 发布于: 2026年03月26日 08:04
发表回复