智见

  • 📰 量化技术入门:如何在个人电脑上运行大模型

    一篇详细的量化技术教程介绍了模型压缩的核心原理。文章解释了从FP32到INT8等不同精度格式的转换机制,以及量化如何大幅降低模型显存需求。以Qwen 3.5 27B为例,FP16精度需要54GB显存,而Q4量化后仅需16GB,使得在消费级GPU(如RTX 3090)上运行成为可能。教程还讨论了GPU硬件对不同精度格式的支持情况,以及量化对模型质量的影响。


    原文链接:https://ngrok.com/blog/quantization

    🕐 发布于: 2026年03月26日 12:04

  • 📰 90% Claude代码输出流向低星仓库:AI编程工具的现实困境

    一项数据分析揭示了Claude Code等AI编程工具生成代码的实际去向。研究显示,约90%的AI辅助代码输出最终流向了GitHub上星数低于2的仓库,其中98%的仓库仅有0到1颗星。这一现象反映了AI编程工具主要服务于个人项目和小规模代码仓库的现实,同时也引发了关于代码质量和Dunning-Kruger效应的讨论。


    原文链接:https://claudescode.dev

    🕐 发布于: 2026年03月26日 12:04

  • 📰 调查显示:Claude相关代码输出中90%流向GitHub仓库

    根据claudescode.dev的数据统计,Claude AI编程助手生成的代码绝大多数最终进入了GitHub仓库。

    • 90%的Claude相关输出被提交到GitHub仓库
    • 反映出AI编程工具在开发者工作流中的深度集成
    • 显示Claude Code已成为开发者日常编码的重要助手
    • 这一数据突显了AI代码生成工具对开源生态的深远影响

    原文链接:https://claudescode.dev/

    🕐 发布于: 2026年03月26日 08:04

  • 📰 Ente发布Ensu:完全本地运行的离线LLM应用

    Ente推出了Ensu,一款可以在设备上完全离线运行的本地LLM应用,主打隐私和零成本。

    • 完全本地运行,无需联网,保护用户隐私
    • 支持iOS、Android、macOS、Linux、Windows以及实验性网页版
    • 核心逻辑用Rust编写,支持图像附件
    • 计划未来支持端到端加密的聊天同步功能
    • 目标是打造私人专属的AI助手,具备长期记忆和个性化能力

    原文链接:https://ente.com/blog/ensu/

    🕐 发布于: 2026年03月26日 08:04

  • 📰 Google发布TurboQuant:用极端压缩重新定义AI效率

    Google Research推出了TurboQuant,这是一种全新的压缩算法,能够实现高压缩率而几乎不影响模型精度。该技术主要针对AI模型中的键值缓存(KV Cache)瓶颈和向量搜索效率问题。

    • 采用PolarQuant方法进行高质量压缩,通过随机旋转数据向量简化几何结构
    • 使用QJL算法仅用1比特消除第一阶段的残留误差,无需额外内存开销
    • 在长上下文基准测试(LongBench、Needle In A Haystack等)上表现优异
    • 可同时降低内存成本并保持模型性能,预计将在搜索和AI领域产生深远影响

    原文链接:https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

    🕐 发布于: 2026年03月26日 08:04

  • 📰 Hypura:让超大模型在你的Mac上运行成为可能

    Hypura是一款面向Apple Silicon的存储层级感知LLM推理调度器,可将模型张量分布在GPU、RAM和NVMe之间。

    • 可以在32GB Mac Mini上运行31GB的Mixtral 8x7B模型(2.2 tok/s)
    • 可以在32GB M1 Max上运行40GB的Llama 70B模型(0.3 tok/s)
    • 通过理解模型架构实现智能放置:Norm和embedding固定在GPU,MoE专家从NVMe流式传输
    • 对MoE模型使用专家流式传输模式,只保持约1GB非专家张量在GPU上
    • 对Dense模型使用FFN流式传输模式,保持约8GB在GPU上,其余从NVMe加载
    • 神经元缓存实现99.5%的命中率,消除大部分I/O开销
    • 完全适配内存的模型可达到21 tok/s的完整Metal速度,零开销

    原文链接:https://github.com/t8/hypura

    🕐 发布于: 2026年03月25日 18:04

  • 📰 Arm发布AGI CPU:面向智能体AI云时代的新一代硅芯片

    Arm近日发布了Arm AGI CPU,这是其35年历史上首次推出的自研硅产品,基于Arm Neoverse平台打造。

    • 这是Arm首次从IP和计算子系统扩展到自研芯片,为客户提供更灵活的选择
    • 专为智能体AI工作负载设计,可在千核规模下提供持续高性能
    • 采用1OU双节点设计,每个刀片包含272核,满载36kW机架可达8160核
    • 与最新x86系统相比,单机架性能提升超过2倍
    • Meta为首席合作伙伴,Cerebras、Cloudflare、OpenAI等也是早期合作伙伴
    • 系统现已接受订单,合作伙伴包括ASRockRack、Lenovo和Supermicro

    原文链接:https://newsroom.arm.com/blog/introducing-arm-agi-cpu

    🕐 发布于: 2026年03月25日 18:04

  • 📰 Google发布TurboQuant:用极端压缩重新定义AI效率

    Google Research近日发布了TurboQuant,这是一种突破性的压缩算法,能够在向量量化过程中消除内存开销。研究团队还同时发布了QJL和PolarQuant两种技术。

    • 通过极压缩技术,TurboQuant可以在零精度损失的情况下大幅减小模型体积
    • 解决了传统向量量化方法中每个数据块需要存储量化常数的内存开销问题
    • 使用PolarQuant进行高质量压缩,QJL算法消除第一阶段留下的误差
    • 实验表明,这三种技术都能有效减少KV缓存瓶颈,同时不牺牲AI模型性能
    • 该成果将在ICLR 2026和AISTATS 2026上正式发表

    原文链接:https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

    🕐 发布于: 2026年03月25日 18:03

  • 📰 开发者利用 Gemini 2 实现视频秒级语义搜索:支持文字描述定位

    开发者基于 Google Gemini Embedding 2 构建了一款名为 SentrySearch 的工具,实现对行车记录仪视频的亚秒级语义搜索。

    • Gemini Embedding 2 原生支持视频嵌入,无需转录或帧标注,直接将视频像素投影到 768 维向量空间
    • 用户可以用自然语言描述(如”红色卡车闯红灯”)直接搜索视频,系统自动返回匹配片段
    • 1 小时视频索引成本约 2.84 美元
    • 自动跳过静止画面减少 API 调用,进一步降低成本
    • 搜索结果可自动裁剪并保存为新视频片段

    原文链接:https://github.com/ssrajadh/sentrysearch

    🕐 发布于: 2026年03月25日 12:02

  • 📰 Arm 推出 AGI CPU:面向 Agentic AI 时代的数据中心芯片

    Arm 正式发布 Arm AGI CPU,这是该公司 35 年历史上首次推出自主品牌的硅产品。

    • 基于 Arm Neoverse 平台,专为大规模 Agentic AI 工作负载设计
    • 单机架可提供超过 8160 个核心,支持液冷 200kW 设计可达 45000+ 核心
    • 相比最新 x86 系统,单机架性能提升超过 2 倍
    • Meta 为首席合作伙伴,Cerebras、Cloudflare、OpenAI 等也是早期合作伙伴
    • 商业系统现已接受订单,来自 ASRockRack、Lenovo 和 Supermicro

    原文链接:https://newsroom.arm.com/blog/introducing-arm-agi-cpu

    🕐 发布于: 2026年03月25日 12:02