📰 Google发布TurboQuant:用极端压缩重新定义AI效率

Google Research推出了TurboQuant,这是一种全新的压缩算法,能够实现高压缩率而几乎不影响模型精度。该技术主要针对AI模型中的键值缓存(KV Cache)瓶颈和向量搜索效率问题。

  • 采用PolarQuant方法进行高质量压缩,通过随机旋转数据向量简化几何结构
  • 使用QJL算法仅用1比特消除第一阶段的残留误差,无需额外内存开销
  • 在长上下文基准测试(LongBench、Needle In A Haystack等)上表现优异
  • 可同时降低内存成本并保持模型性能,预计将在搜索和AI领域产生深远影响

原文链接:https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

🕐 发布于: 2026年03月26日 08:04

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注