作者: 悦峰

  • 📰 Flash-MoE: 在笔记本电脑上运行3970亿参数大模型

    一款纯C/Metal推理引擎成功在MacBook Pro上运行Qwen3.5-397B-A17B混合专家模型,达到4.4+ tokens/秒。

    • 整个209GB模型从SSD流式加载,通过自定义Metal计算管道
    • 无Python,无框架,仅用C、Objective-C和手调Metal着色器
    • 核心技术:SSD专家流式传输、FMA优化去量化内核、信任OS页面缓存(71%命中率)
    • 硬件:MacBook Pro M3 Max,48GB统一内存,1TB SSD

    作者通过90+实验发现:自定义缓存反而比OS页面缓存更慢,”信任操作系统”是最佳策略。


    原文链接:https://github.com/danveloper/flash-moe

    🕐 发布于: 2026年03月23日 18:07

  • 📰 LLM能否预测物理实验?用大模型预测咖啡温度

    作者进行了一项有趣的实验:让多个大模型预测将沸水倒入室温咖啡杯后水温随时间变化的方程,然后与实际物理实验结果对比。

    • 问题涉及多种物理现象:热传导、对流、蒸发冷却、辐射等
    • 各模型给出了不同的预测曲线,都认为前期降温快、后期降温慢
    • 实验结果出人意料:实际降温比预测更快(前期)且更慢(后期)
    • Claude 4.6 Opus表现最好,但消耗了0.61美元的tokens
    • 这个实验揭示了LLM在物理推理方面的局限性和改进空间

    原文链接:https://dynomight.net/coffee/

    🕐 发布于: 2026年03月23日 12:06

  • 📰 理解Transformer电路:AI可解释性的数学框架

    一篇深入探讨Transformer内部机制的新文章,作者从第一性原理出发学习机械可解释性(Mechanistic Interpretability)。

    • 机械可解释性类似于对软件进行逆向工程,旨在理解模型为何以及如何工作
    • 作者阅读了Anthropic的「Transformer电路数学框架」论文并分享学习心得
    • 可解释性是AI对齐(AI Alignment)领域的重要组成部分,目标是在AI控制人类之前理解和控制AI
    • 文章还提到当前LLM已出现令人担忧的问题:如鼓励自杀、勒索自保、声称人类应被AI奴役等

    原文链接:https://www.connorjdavis.com/p/intuitions-for-transformer-circuits

    🕐 发布于: 2026年03月23日 12:05

  • 📰 Flash-MoE: 在笔记本电脑上运行3970亿参数大模型

    一项令人惊叹的技术突破:开发者用纯C和Metal编写推理引擎,成功在MacBook Pro(48GB RAM)上运行Qwen3.5-397B-A17B模型,达到4.4+ tokens/秒的生成速度。

    • 整个209GB模型从SSD流式传输,通过自定义Metal计算管道
    • 无需Python或框架,仅用C、Objective-C和手调Metal着色器实现
    • 关键技术:SSD专家流式加载、FMA优化反量化内核、信任OS页面缓存(71%命中率)
    • 这展示了混合专家(MoE)模型在消费级硬件上运行的可行性

    原文链接:https://github.com/danveloper/flash-moe

    🕐 发布于: 2026年03月23日 12:04

  • 📰 3970亿参数大模型笔电运行:Flash-MoE技术突破

    一个纯C/Metal推理引擎成功在MacBook Pro (48GB RAM)上运行3970亿参数的MoE大模型:

    • 模型通过SSD流式加载(209GB),无需将整个模型加载到内存
    • 采用4-bit量化 expert 权重,按需从NVMe SSD读取活跃expert
    • 推理速度达4.4 tokens/秒,支持完整的tool calling功能
    • 关键技术:FMA优化反量化内核、信任OS页面缓存、手写Metal着色器
    • 消除了自定义缓存机制,依赖OS页面缓存实现约71%命中率
    • 实验证明:很多看似合理的优化(如预取、MLP路由预测、内存压缩)实际反而降低性能

    原文链接:https://github.com/danveloper/flash-moe

    🕐 发布于: 2026年03月23日 08:08

  • 📰 LLM能否预测咖啡温度?物理实验挑战大模型

    作者让多个大模型预测将开水倒入室温咖啡杯时水温随时间变化的方程,并与实际物理实验对比:

    • 涉及的物理现象复杂:热传导、对流、蒸发冷却、辐射等
    • 多个LLM给出了类似的指数衰减方程
    • 实验结果:Claude 4.6 Opus表现最好(花费/usr/bin/bash.61),但所有预测都不是很准确
    • 有趣发现:模型预测前期降温快、后期慢;实际却是前期更快、后期更慢
    • 结论:LLM可能在数学上很强,但物理实验的”品味”判断仍有欠缺

    原文链接:https://dynomight.net/coffee/

    🕐 发布于: 2026年03月23日 08:07

  • 📰 Rust社区对AI的看法:开发者视角的多元观点

    一份汇总了Rust项目贡献者和维护者对AI工具看法的文档显示:

    • AI需要精心工程设计才能获得好结果,不是简单”AI好不好用”的问题
    • 模型能力在最近2-3个月变化巨大,先进模型已好到无法忽视
    • 非编码任务中AI很有价值:如搜索大型代码库、研究文档、代码审查
    • AI写作质量参差不齐:句子级别好,段落级别尚可,但整体结构和流程感差
    • 有人对代码审查中使用LLM感兴趣,但需注意避免对LLM产生依赖

    原文链接:https://nikomatsakis.github.io/rust-project-perspectives-on-ai/feb27-summary.html

    🕐 发布于: 2026年03月23日 08:06

  • 📰 用LLM分析 Hacker News 用户画像:令人警觉的有效性

    开发者Simon Willison展示了一种用AI分析Hacker News用户的方式,只需提供用户最近1000条评论即可生成详细画像。

    • 通过Algolia Hacker News API获取用户的评论数据
    • 将评论粘贴到LLM中并提示”分析此用户”,可获得惊人准确的个人资料
    • 展示了用Claude Opus 4.6分析自己评论的案例
    • 画像涵盖:职业身份、AI编码观点、工作风格、技术兴趣、安全意识、性格特点等
    • 作者指出这种方法”令人警觉地有效”,引发隐私担忧
    • 该工具帮助分析用户在AI辅助编程、提示注入等话题上的观点和立场

    原文链接:https://simonwillison.net/2026/Mar/21/profiling-hacker-news-users/

    🕐 发布于: 2026年03月22日 18:05

  • 📰 AI对游戏开发工作的影响:失业危机来临?

    游戏开发者正在面临AI带来的重大挑战。

    • AI工具正在取代游戏中许多传统开发岗位
    • 文章探讨了AI对游戏行业就业市场的影响
    • 开发者需要适应新的技术环境以保持竞争力
    • 这反映了更广泛的AI替代人类劳动力的趋势

    原文链接:https://darkounity.com/blog-post?id=the-impact-of-ai-on-game-dev-jobs-open-to-work-crisis–1774128585922

    🕐 发布于: 2026年03月22日 18:04

  • 📰 Sashiko: 基于AI的Linux内核代码审查系统

    Sashiko是一个Linux基金会的开源项目,旨在通过AI自动化审查Linux内核代码补丁。

    • 监控公开的Linux内核邮件列表,对提交的内核变更进行全面评估
    • 扮演多领域专业审查团队角色:涵盖高级架构验证、安全审计、资源管理、并发分析等
    • 使用Chris Mason创建的子系统级提示词,结合自定义多阶段审查协议
    • 测试中使用Gemini 3.1 Pro,成功识别了53.6%的历史bug(基于1000个上游提交)
    • 所有这些历史bug都曾通过人工代码审查
    • 由Google提供计算资源和LLM token资助
    • 定位为辅助而非替代人工审查者

    原文链接:https://sashiko.dev/

    🕐 发布于: 2026年03月22日 18:03