智见

  • 📰 Google发布TurboQuant:用极端压缩重新定义AI效率

    Google Research推出了TurboQuant,这是一种全新的压缩算法,能够实现高压缩率而几乎不影响模型精度。该技术主要针对AI模型中的键值缓存(KV Cache)瓶颈和向量搜索效率问题。

    • 采用PolarQuant方法进行高质量压缩,通过随机旋转数据向量简化几何结构
    • 使用QJL算法仅用1比特消除第一阶段的残留误差,无需额外内存开销
    • 在长上下文基准测试(LongBench、Needle In A Haystack等)上表现优异
    • 可同时降低内存成本并保持模型性能,预计将在搜索和AI领域产生深远影响

    原文链接:https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

    🕐 发布于: 2026年03月26日 08:04

  • 📰 Hypura:让超大模型在你的Mac上运行成为可能

    Hypura是一款面向Apple Silicon的存储层级感知LLM推理调度器,可将模型张量分布在GPU、RAM和NVMe之间。

    • 可以在32GB Mac Mini上运行31GB的Mixtral 8x7B模型(2.2 tok/s)
    • 可以在32GB M1 Max上运行40GB的Llama 70B模型(0.3 tok/s)
    • 通过理解模型架构实现智能放置:Norm和embedding固定在GPU,MoE专家从NVMe流式传输
    • 对MoE模型使用专家流式传输模式,只保持约1GB非专家张量在GPU上
    • 对Dense模型使用FFN流式传输模式,保持约8GB在GPU上,其余从NVMe加载
    • 神经元缓存实现99.5%的命中率,消除大部分I/O开销
    • 完全适配内存的模型可达到21 tok/s的完整Metal速度,零开销

    原文链接:https://github.com/t8/hypura

    🕐 发布于: 2026年03月25日 18:04

  • 📰 Arm发布AGI CPU:面向智能体AI云时代的新一代硅芯片

    Arm近日发布了Arm AGI CPU,这是其35年历史上首次推出的自研硅产品,基于Arm Neoverse平台打造。

    • 这是Arm首次从IP和计算子系统扩展到自研芯片,为客户提供更灵活的选择
    • 专为智能体AI工作负载设计,可在千核规模下提供持续高性能
    • 采用1OU双节点设计,每个刀片包含272核,满载36kW机架可达8160核
    • 与最新x86系统相比,单机架性能提升超过2倍
    • Meta为首席合作伙伴,Cerebras、Cloudflare、OpenAI等也是早期合作伙伴
    • 系统现已接受订单,合作伙伴包括ASRockRack、Lenovo和Supermicro

    原文链接:https://newsroom.arm.com/blog/introducing-arm-agi-cpu

    🕐 发布于: 2026年03月25日 18:04

  • 📰 Google发布TurboQuant:用极端压缩重新定义AI效率

    Google Research近日发布了TurboQuant,这是一种突破性的压缩算法,能够在向量量化过程中消除内存开销。研究团队还同时发布了QJL和PolarQuant两种技术。

    • 通过极压缩技术,TurboQuant可以在零精度损失的情况下大幅减小模型体积
    • 解决了传统向量量化方法中每个数据块需要存储量化常数的内存开销问题
    • 使用PolarQuant进行高质量压缩,QJL算法消除第一阶段留下的误差
    • 实验表明,这三种技术都能有效减少KV缓存瓶颈,同时不牺牲AI模型性能
    • 该成果将在ICLR 2026和AISTATS 2026上正式发表

    原文链接:https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

    🕐 发布于: 2026年03月25日 18:03

  • 📰 开发者利用 Gemini 2 实现视频秒级语义搜索:支持文字描述定位

    开发者基于 Google Gemini Embedding 2 构建了一款名为 SentrySearch 的工具,实现对行车记录仪视频的亚秒级语义搜索。

    • Gemini Embedding 2 原生支持视频嵌入,无需转录或帧标注,直接将视频像素投影到 768 维向量空间
    • 用户可以用自然语言描述(如”红色卡车闯红灯”)直接搜索视频,系统自动返回匹配片段
    • 1 小时视频索引成本约 2.84 美元
    • 自动跳过静止画面减少 API 调用,进一步降低成本
    • 搜索结果可自动裁剪并保存为新视频片段

    原文链接:https://github.com/ssrajadh/sentrysearch

    🕐 发布于: 2026年03月25日 12:02

  • 📰 Arm 推出 AGI CPU:面向 Agentic AI 时代的数据中心芯片

    Arm 正式发布 Arm AGI CPU,这是该公司 35 年历史上首次推出自主品牌的硅产品。

    • 基于 Arm Neoverse 平台,专为大规模 Agentic AI 工作负载设计
    • 单机架可提供超过 8160 个核心,支持液冷 200kW 设计可达 45000+ 核心
    • 相比最新 x86 系统,单机架性能提升超过 2 倍
    • Meta 为首席合作伙伴,Cerebras、Cloudflare、OpenAI 等也是早期合作伙伴
    • 商业系统现已接受订单,来自 ASRockRack、Lenovo 和 Supermicro

    原文链接:https://newsroom.arm.com/blog/introducing-arm-agi-cpu

    🕐 发布于: 2026年03月25日 12:02

  • 📰 GPT-5.4 Pro 攻克前沿数学难题:超图 Ramsey 问题获突破

    Epoch AI 确认 GPT-5.4 Pro 成功解决了一道数学前沿问题。该问题涉及超图 Ramsey 理论中的下界优化。

    • 解决方案由 Kevin Barreto 和 Liam Price 首次使用 GPT-5.4 Pro 获得,数学家 Will Brian 验证了正确性
    • 该解法消除了原有下界构造中的低效问题,从某种角度复制了上界构造的复杂性
    • 除了 GPT-5.4 Pro,Opus 4.6、Gemini 3.1 Pro 等其他模型也相继解决了这一问题
    • 预计相关论文将在专业数学期刊发表

    原文链接:https://epoch.ai/frontiermath/open-problems/ramsey-hypergraphs

    🕐 发布于: 2026年03月25日 12:02

  • 📰 基于Gemini Embedding 2的亚秒级视频语义搜索工具发布

    开发者Soham RajDharia推出SentrySearch,一款利用Gemini Embedding 2实现视频语义搜索的工具。

    • 直接将视频分块并嵌入到768维向量空间,无需转录或帧描述
    • 支持自然语言查询,如”红色卡车闯红灯”,可直接匹配视频片段
    • 1小时视频索引成本约2.5美元
    • 默认设置:30秒分块,5秒重叠
    • 内置优化:自动跳过静止帧以降低成本
    • 配套提供自动剪辑功能,搜索结果可直接保存为裁剪视频
    • 兼容任何mp4格式 footage,不仅是特斯拉Sentry Mode

    原文链接:https://github.com/ssrajadh/sentrysearch

    🕐 发布于: 2026年03月25日 08:06

  • 📰 GPT-5.4 Pro攻克数学前沿难题:Ramsey超图问题被首次解决

    Epoch AI宣布GPT-5.4 Pro成功解决了FrontierMath开放问题中的一个前沿数学难题——Ramsey风格超图问题。

    • 这是首次有AI模型解决FrontierMath开放问题集中的难题
    • 数学家Will Brian确认了解决方案的正确性
    • 解决方案消除了下界构造中的低效问题,在某种意义上与上界构造的复杂性相呼应
    • 后续测试中,Opus 4.6、Gemini 3.1 Pro和GPT-5.4 (xhigh)也能解决该问题
    • 原始问题要求改进H(n)的下界,H(n)是超图研究中的重要序列
    • 专家数学家估计人类专家需要1-3个月才能解决此问题

    原文链接:https://epoch.ai/frontiermath/open-problems/ramsey-hypergraphs

    🕐 发布于: 2026年03月25日 08:06

  • 📰 Arm发布AGI CPU:面向Agentic AI时代的数据中心芯片

    Arm正式发布Arm AGI CPU,这是其35年历史上首次推出自主设计的硅芯片产品。

    • 基于Arm Neoverse平台,专为AI基础设施设计
    • 采用1OU双节点配置,每个刀片包含272核心,标准36kW风冷机架可容纳8160核心
    • 与Supermicro合作开发200kW液冷设计,可容纳超过45000核心
    • 单机架性能比最新x86系统提升2倍以上
    • Meta为首席合作伙伴和客户,双方共同开发针对千兆瓦级基础设施优化的芯片
    • 其他合作伙伴包括Cerebras、Cloudflare、OpenAI、NVIDIA等
    • 已开放从ASRockRack、Lenovo和Supermicro订购

    原文链接:https://newsroom.arm.com/blog/introducing-arm-agi-cpu

    🕐 发布于: 2026年03月25日 08:06