智见

📰 《纽约客》深度调查：Sam Altman能否被信任掌控我们的未来？
《纽约客》发布重磅调查报道，披露了关于OpenAI CEO Sam Altman的新访谈和保密文件。
- Ilya Sutskever（前OpenAI首席科学家）曾在2023年向董事会发送秘密备忘录，称”我不认为Sam是那个应该把手指放在按钮上的人”
- 备忘录长达70页，包含Slack消息和HR文件，列举Altman的”欺骗”行为，质疑其是否适合领导公司
- 2023年11月，Altman在拉斯维加斯观看F1比赛时被董事会突然解雇，理由是”沟通不坦诚”
- 微软仅在解雇发生前几分钟才知情，CEO Satya Nadella表示”我非常震惊”
- 随后Thrive资本推动恢复Altman职位，否则将停止投资，最终Altman在员工支持下成功回归
- 报道揭示了OpenAI作为非营利组织的治理困境，以及AI安全与商业发展之间的深层矛盾
原文链接：https://www.newyorker.com/magazine/2026/04/13/sam-altman-may-control-our-future-can-he-be-trusted

🕐 发布于: 2026年04月07日 08:07
2026年4月7日
📰 Anthropic携手Google与Broadcom：签署数吉瓦TPU计算协议，2027年上线
Anthropic宣布与Google和Broadcom签署重要协议，获得数吉瓦下一代TPU计算资源，预计2027年正式上线。
- 此次合作将服务于Anthropic的前沿Claude模型，满足全球客户爆发式增长的需求
- 2026年Anthropic年化收入已突破300亿美元，较2025年底的约90亿美元大幅增长
- 年消费超过100万美元的企业客户数量已超过1000家，在不到两个月内翻倍
- 新计算资源大部分将布局在美国，是去年11月宣布的500亿美元美国AI基础设施投资的重大扩展
- Anthropic使用多种AI硬件（AWS Trainium、Google TPU、NVIDIA GPU），是三大云平台上唯一可用的前沿AI模型（AWS Bedrock、Google Vertex AI、Microsoft Azure Foundry）
原文链接：https://www.anthropic.com/news/google-broadcom-partnership-compute

🕐 发布于: 2026年04月07日 08:05
2026年4月7日
📰 本地运行Gemma 4新姿势：LM Studio无头CLI + Claude Code集成
一篇教程介绍了如何在本地使用LM Studio的新无头CLI功能运行Google的Gemma 4模型，并结合Claude Code进行编码工作。
- LM Studio现在支持无头模式，可在命令行中调用本地大模型
- 配合Claude Code实现本地AI辅助编程工作流
- 开发者反馈：本地模型正在从”可行”走向”好用”
- 讨论热点：工具延迟对多步骤推理链的影响（阈值约300-500ms）
- Gemma 4默认上下文128K-256K，需正确配置否则模型会”断片”
- 有用户报告在Ollama Vulkan后端运行Gemma 4:31b成功
原文链接：https://ai.georgeliu.com/p/running-google-gemma-4-locally-with

🕐 发布于: 2026年04月06日 18:03
2026年4月6日
📰 开源项目GuppyLM：用2800万参数理解语言模型工作原理
开发者armani-bd创建了一个微型开源LLM项目GuppyLM，旨在帮助人们理解语言模型的工作机制。
- 模型仅2800万参数，可以在个人电脑上训练
- 提供完整的训练代码和数据处理流程
- 基于PyTorch实现，从头构建一个迷你语言模型
- 社区反馈积极，认为这是学习LLM原理的好起点
- 也有批评声音认为项目描述略显夸大，实际更像教学演示
原文链接：https://github.com/arman-bd/guppylm

🕐 发布于: 2026年04月06日 18:02
2026年4月6日
📰 Google推出iPhone版Gemma 4：可在手机上本地运行的AI模型
Google发布了iOS版Gemma 4 AI助手，用户可以在iPhone上本地运行这一大语言模型。
- 支持agent skills和移动端Actions功能，完全在手机上离线运行
- 有开发者将其与Ollama或LM Studio结合使用，扩展到Mac等其他设备
- 还可制作MLX版本，在Mac上运行速度更快
- 支持多种量化版本，配备高达256K的上下文长度
- 引发关于本地AI模型隐私和灵活性的讨论
原文链接：https://apps.apple.com/nl/app/google-ai-edge-gallery/id6749645337

🕐 发布于: 2026年04月06日 18:02
2026年4月6日
📰 Caveman 项目：用简单提示让 AI 减少冗余输出
一个有趣的 Anthropic Skill 项目，旨在让大模型输出更简洁。
- 目标不是减少隐藏的思考 token，而是减少可见的完成输出：更少前言、更少填充内容、非必要文本
- 作者声称可减少约 75% 的输出 token
- 已有研究支持简洁提示可大幅减少响应长度而不总是破坏质量（arxiv:2401.05618v3）
- 真实评估应考虑：总输入 token、总输出 token、延迟和质量/任务成功率
- 一些用户表示用它来”换一种方式思考”，用简单直白的方式呈现反而帮助理解
- 需要更严格的基准测试来验证效果
原文链接：https://news.ycombinator.com/item?id=47647455

🕐 发布于: 2026年04月06日 12:02
2026年4月6日
📰 本地运行 Gemma 4 新姿势：LM Studio CLI + Claude Code 集成指南
如何通过 LM Studio 的无头 CLI 和 Claude Code 在本地运行 Gemma 4。
- 设置方式：OLLAMA_CONTEXT_LENGTH=64000 ollama serve
- 或使用 ollama launch codex –model gemma4:26b
- Claude Code 成为数据管道迭代的主要接口，特别适合处理 XBRL 财务数据
- MCP 工作流中工具延迟敏感度比批处理高，2秒延迟会打破对话流程
- 有用户反馈在 Radeon GPU 上使用 ollama-rocm 时遇到问题，切换到 Vulkan 后解决
- MoE 模型虽然不节省显存，但可通过将部分专家从 VRAM 卸载到 CPU RAM 来实现
原文链接：https://news.ycombinator.com/item?id=47651540

🕐 发布于: 2026年04月06日 12:01
2026年4月6日
📰 Gemma 4 现已登陆 iPhone：Google 轻量级模型可在苹果设备本地运行
Google 推出的轻量级大模型 Gemma 4 现已支持在 iPhone 上本地运行。

用户可通过 Google AI Edge Gallery 应用直接在手机上运行该模型，无需云端支持。
- 支持 agent skills 和移动端操作，全部在手机上本地执行
- 有用户成功在 Mac 上运行后，现在转战 iPhone 端体验
- 部分用户尝试了”abliterated”（去除对齐）版本，获得更自由的对话体验
- 在 M4 Macbook Pro（128GB 内存）上运行流畅，64GB 内存可能需要更低量化版本
原文链接：https://news.ycombinator.com/item?id=47652561

🕐 发布于: 2026年04月06日 12:01
2026年4月6日
📰 如何在本地运行 Google Gemma 4：LM Studio 0.4.0 CLI 实战指南
Google Gemma 4 现已支持本地运行！通过 LM Studio 0.4.0 的全新无头 CLI，玩家可在 MacBook Pro M4 Pro 上实现 51 tokens/秒的生成速度。
- 26B-A4B 混合专家架构：虽然总参数为 260 亿，但每次推理仅激活 40 亿参数，大幅降低硬件需求
- 性能表现：在 MMLU Pro 基准测试中得分 82.6%，AIME 2026 得分 88.3%
- 内存友好：48GB 统一内存的 MacBook Pro 即可流畅运行
- LM Studio 0.4.0 新特性：
- llmster 守护进程：后台服务管理模型加载和推理
- lms CLI：完整的命令行界面
- 并行请求处理：支持多请求并发
- 有状态 REST API：支持跨请求的对话历史
- MCP 集成：本地模型上下文协议支持
安装命令：

curl -fsSL https://lmstudio.ai/install.sh | bash

lms daemon up

lms get google/gemma-4-26b-a4b

原文链接：https://ai.georgeliu.com/p/running-google-gemma-4-locally-with

🕐 发布于: 2026年04月06日 08:08
2026年4月6日
📰 通义千问 Qwen-3.6-Plus 创造历史：首个单日处理超 1 万亿 tokens 的大模型
通义千问 Qwen-3.6-Plus 创下里程碑纪录，成为首个在单日内处理超过 1 万亿 tokens 的大模型。
- 突破性里程碑：单日处理量超过 1 万亿 tokens，标志着大模型推理能力的新高度
- OpenRouter 平台数据：这一纪录由 OpenRouter 平台监测并公布
- 国产大模型崛起：继 DeepSeek 之后，通义千问再次展现中国大模型的实力
这一纪录不仅证明了 Qwen 系列的强大性能，也为大模型的规模化应用树立了新的标杆。

原文链接：https://openrouter.org

🕐 发布于: 2026年04月06日 08:06
2026年4月6日