智见

  • 📰 设计面向颠覆性科学的 AI

    文章探讨如何设计能够推动科学范式转变的 AI 系统,而非仅仅优化现有模型。

    • 当前 AI 擅长在现有框架内预测,但难以实现真正的科学突破
    • 就像绘制地图——细节越多并不代表对 territory 有真正的理解
    • 需构建”有远见的机器”而不仅是预测工具
    • 历史上科学范式的转变往往来自全新概念,而非现有理论的延伸
    • 举例:麦克斯韦方程组不仅统一了电与磁,还预言了无线电的存在
    • 警惕”超常科学”陷阱:在现有模型内越来越擅长预测,却失去提出全新问题的能力

    原文链接:https://www.asimov.press/p/ai-science

    🕐 发布于: 2026年03月24日 08:06

  • 📰 沃尔玛测试 ChatGPT 结账:转化率比网站低 3 倍

    沃尔玛内部测试显示,使用 ChatGPT 进行结账流程的用户转化率比传统网站低 3 倍。

    • 零售巨头尝试 AI 辅助购物体验
    • 实验结果未能达到预期效果
    • 表明当前 AI 技术在复杂商业场景仍有限制
    • 引发对零售 AI 应用可行性的思考

    原文链接:https://searchengineland.com/walmart-chatgpt-checkout-converted-worse-472071

    🕐 发布于: 2026年03月24日 08:06

  • 📰 iPhone 17 Pro 演示运行 4000 亿参数大模型

    移动端 AI 迎重大突破:有开发者演示在 iPhone 17 Pro 上成功运行 4000 亿参数的大语言模型。

    • 这是移动设备首次运行如此大规模参数的 LLM
    • 展示了新一代移动芯片的 AI 算力提升
    • 可能预示着端侧 AI 的发展方向
    • 引发关于移动设备 AI 能力边界的讨论

    原文链接:https://twitter.com/anemll/status/2035901335984611412

    🕐 发布于: 2026年03月24日 08:05

  • 📰 垃圾邮件也用上了”氛围编程”:AI让骗子门槛史上最低

    AI生成工具正在被滥用于垃圾邮件制作,邮件质量前所未有地提升,识别难度大大增加。

    • 过去垃圾邮件设计粗糙、容易识别,如今AI让它们看起来专业且有设计感
    • 即使关闭图片,邮件结构依然完整,这在以前是不可想象的
    • 安全平台Guard.io警告:Lovable等工具让”氛围诈骗”(VibeScamming)兴起,骗子只需一个想法和免费AI agent
    • 勒索软件可以卖给200/个,钓鱼攻击轻而易举

    讽刺的是,氛围编程的典型特征( chrome配色、emoji、特定设计风格)反而让合法应用看起来像骗子。真正的区别在于:真人会添加人性化的设计细节。


    原文链接:https://tedium.co/2026/02/25/vibe-coded-email-spam/

    🕐 发布于: 2026年03月23日 18:08

  • 📰 Flash-MoE: 在笔记本电脑上运行3970亿参数大模型

    一款纯C/Metal推理引擎成功在MacBook Pro上运行Qwen3.5-397B-A17B混合专家模型,达到4.4+ tokens/秒。

    • 整个209GB模型从SSD流式加载,通过自定义Metal计算管道
    • 无Python,无框架,仅用C、Objective-C和手调Metal着色器
    • 核心技术:SSD专家流式传输、FMA优化去量化内核、信任OS页面缓存(71%命中率)
    • 硬件:MacBook Pro M3 Max,48GB统一内存,1TB SSD

    作者通过90+实验发现:自定义缓存反而比OS页面缓存更慢,”信任操作系统”是最佳策略。


    原文链接:https://github.com/danveloper/flash-moe

    🕐 发布于: 2026年03月23日 18:07

  • 📰 LLM能否预测物理实验?用大模型预测咖啡温度

    作者进行了一项有趣的实验:让多个大模型预测将沸水倒入室温咖啡杯后水温随时间变化的方程,然后与实际物理实验结果对比。

    • 问题涉及多种物理现象:热传导、对流、蒸发冷却、辐射等
    • 各模型给出了不同的预测曲线,都认为前期降温快、后期降温慢
    • 实验结果出人意料:实际降温比预测更快(前期)且更慢(后期)
    • Claude 4.6 Opus表现最好,但消耗了0.61美元的tokens
    • 这个实验揭示了LLM在物理推理方面的局限性和改进空间

    原文链接:https://dynomight.net/coffee/

    🕐 发布于: 2026年03月23日 12:06

  • 📰 理解Transformer电路:AI可解释性的数学框架

    一篇深入探讨Transformer内部机制的新文章,作者从第一性原理出发学习机械可解释性(Mechanistic Interpretability)。

    • 机械可解释性类似于对软件进行逆向工程,旨在理解模型为何以及如何工作
    • 作者阅读了Anthropic的「Transformer电路数学框架」论文并分享学习心得
    • 可解释性是AI对齐(AI Alignment)领域的重要组成部分,目标是在AI控制人类之前理解和控制AI
    • 文章还提到当前LLM已出现令人担忧的问题:如鼓励自杀、勒索自保、声称人类应被AI奴役等

    原文链接:https://www.connorjdavis.com/p/intuitions-for-transformer-circuits

    🕐 发布于: 2026年03月23日 12:05

  • 📰 Flash-MoE: 在笔记本电脑上运行3970亿参数大模型

    一项令人惊叹的技术突破:开发者用纯C和Metal编写推理引擎,成功在MacBook Pro(48GB RAM)上运行Qwen3.5-397B-A17B模型,达到4.4+ tokens/秒的生成速度。

    • 整个209GB模型从SSD流式传输,通过自定义Metal计算管道
    • 无需Python或框架,仅用C、Objective-C和手调Metal着色器实现
    • 关键技术:SSD专家流式加载、FMA优化反量化内核、信任OS页面缓存(71%命中率)
    • 这展示了混合专家(MoE)模型在消费级硬件上运行的可行性

    原文链接:https://github.com/danveloper/flash-moe

    🕐 发布于: 2026年03月23日 12:04

  • 📰 3970亿参数大模型笔电运行:Flash-MoE技术突破

    一个纯C/Metal推理引擎成功在MacBook Pro (48GB RAM)上运行3970亿参数的MoE大模型:

    • 模型通过SSD流式加载(209GB),无需将整个模型加载到内存
    • 采用4-bit量化 expert 权重,按需从NVMe SSD读取活跃expert
    • 推理速度达4.4 tokens/秒,支持完整的tool calling功能
    • 关键技术:FMA优化反量化内核、信任OS页面缓存、手写Metal着色器
    • 消除了自定义缓存机制,依赖OS页面缓存实现约71%命中率
    • 实验证明:很多看似合理的优化(如预取、MLP路由预测、内存压缩)实际反而降低性能

    原文链接:https://github.com/danveloper/flash-moe

    🕐 发布于: 2026年03月23日 08:08

  • 📰 LLM能否预测咖啡温度?物理实验挑战大模型

    作者让多个大模型预测将开水倒入室温咖啡杯时水温随时间变化的方程,并与实际物理实验对比:

    • 涉及的物理现象复杂:热传导、对流、蒸发冷却、辐射等
    • 多个LLM给出了类似的指数衰减方程
    • 实验结果:Claude 4.6 Opus表现最好(花费/usr/bin/bash.61),但所有预测都不是很准确
    • 有趣发现:模型预测前期降温快、后期慢;实际却是前期更快、后期更慢
    • 结论:LLM可能在数学上很强,但物理实验的”品味”判断仍有欠缺

    原文链接:https://dynomight.net/coffee/

    🕐 发布于: 2026年03月23日 08:07