TurboQuant:第一原理走查
– TurboQuant是一种向量压缩技术,可以在不损失精度的情况下将AI向量压缩到每个数字2-4位
– 现代语言模型存储大量的高维向量表:KV缓存、嵌入、注意力键
– TurboQuant通过为这些向量的每个坐标设计一个一次性的码本,然后为每个输入重用该码本,从而压缩每个坐标
– 关键思想是在高维空间中,随机旋转可以将每个输入向量转换为具有已知固定分布的坐标
– 这种技术可以应用于KV缓存、嵌入和注意力键等,实现高效的向量量化
原文链接:https://arkaung.github.io/interactive-turboquant/
发表回复