作者：悦峰

📰 Google发布Gemma 4开放模型
Google DeepMind发布了新一代开放模型Gemma 4，基于Gemini 3研究打造。
- 专为移动设备和IoT优化，提供卓越的计算和内存效率
- 在个人电脑上实现前沿智能，每个参数的智能程度达到新高度
- 支持构建自主代理工作流，原生支持函数调用
- 具备强大的音频和视觉理解能力，支持多模态推理
- 支持140种语言，理解文化背景
- 基准测试表现优异：31B版本在MMMU多模态推理达76.9%，AIME 2026数学达89.2%，Agent工具使用基准达86.4%
原文链接：https://deepmind.google/models/gemma/gemma-4/

🕐 发布于: 2026年04月03日 12:00
2026年4月3日
📰 Lemonade：AMD 推出的快速开源本地 LLM 服务器
Lemonade 是 AMD 推出的开源本地 LLM 服务器，专注于 GPU 和 NPU 加速。
- 极快的性能：针对 GPU 和 NPU 进行了优化，在任何 PC 上几分钟内即可完成设置
- 开源免费：完全开源，由本地 AI 社区构建
- 隐私优先：所有处理在本地完成，保护用户隐私
- 原生 C++ 后端：轻量级服务，仅 2MB
- 一分钟安装：简单的安装程序，自动配置整个技术栈
- OpenAI API 兼容：开箱即用支持数百款应用，集成只需几分钟
- 自动硬件配置：为 GPU 和 NPU 自动配置依赖
- 多引擎兼容：支持 llama.cpp、Ryzen AI SW、FastFlowLM 等
- 同时运行多个模型：支持并发运行多个模型
- 跨平台：支持 Windows、Linux 和 macOS
- 内置应用：提供 GUI，可快速下载、试用和切换模型
- 统一 API：支持聊天、视觉、图像生成、语音转录、语音合成等多种模态
原文链接：https://lemonade-server.ai

🕐 发布于: 2026年04月03日 08:05
2026年4月3日
📰 阿里云发布 Qwen3.6-Plus：面向真实世界代理的升级版本
阿里云发布了 Qwen3.6-Plus，这是 Qwen3 系列的最新更新版本。
- 发布了两个变体：Qwen3-Instruct-2507 和 Qwen3-Thinking-2507
- 三种规模：235B-A22B、30B-A3B 和 4B
- 通用能力显著提升：包括指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用
- 长尾知识覆盖大幅改进，支持多种语言
- 用户偏好对齐更好，在主观和开放式任务中提供更有帮助的响应
- 256K-token 长上下文理解能力，可扩展至 100 万 tokens
Thinking 模式在推理任务上表现优异，在数学、代码、科学等需要专业知识的基准测试中达到开源思考模型的最先进水平。

原文链接：https://qwen.ai/blog?id=qwen3.6

🕐 发布于: 2026年04月03日 08:04
2026年4月3日
📰 Google 发布 Gemma 4：基于 Gemini 3 的最智能开源模型
Gemma 4 是 Google DeepMind 推出的最新开源大模型系列，基于 Gemini 3 研究和技术构建。
- 代理工作流：支持构建自主代理，可规划、导航应用并完成任务，原生支持函数调用
- 多模态推理：具备强大的音频和视觉理解能力，支持丰富的多模态应用
- 支持 140 种语言：创建多语言体验，超越翻译并理解文化背景
- 微调支持：支持使用主流框架和技术对模型进行微调
- 高效架构：可在个人硬件上运行，便于开发和部署
性能基准测试表现优异：Gemma 4 31B 在 AI Arena 文本测试中得分 1452，MMMLU 多语言测试 85.2%，MMMU Pro 多模态推理 76.9%，AIME 2026 数学竞赛 89.2%

原文链接：https://deepmind.google/models/gemma/gemma-4/

🕐 发布于: 2026年04月03日 08:04
2026年4月3日
📰 Arcee AI发布Trinity Large Thinking大型思考模型
Arcee AI在OpenRouter上推出了Trinity Large Thinking新模型。该模型在SQL基准测试中获得16/25分，表现与预览版相近。
- 该模型在代理任务(agentic tasks)表现中等，与Qwen 27B等大型模型有差距
- 开发者指出，高性能代理模型通常需要海量训练数据或强化推理的后训练
- 评测显示，同样参数规模下，经过推理优化的模型(如Nemotron-Cascade)表现明显更好
- 这是开源大型模型领域的又一新选择，但距离顶尖仍有提升空间
原文链接：https://openrouter.ai/arcee-ai/trinity-large-thinking

🕐 发布于: 2026年04月02日 18:02
2026年4月2日
📰 StepFun 3.5 Flash成OpenClaw任务性价比之王
在UniClaw的AI模型评测中，StepFun 3.5 Flash在300场实战测试中获得最高性价比评价。该模型仅有110亿参数，却能在实际任务中取得与大型模型相当的分数。
- 评测基于真实AI任务，包括租房搜索、文件整理等复杂场景
- 虽然价格最低，但得分却常常超越同价位的竞争对手如Kimi
- 有用户指出该模型存在”幻觉”问题，会编造不存在的房源信息
- 讨论认为这证明了低价模型同样可以在实际应用中发挥作用
原文链接：https://app.uniclaw.ai/arena?tab=costEffectiveness&via=hn

🕐 发布于: 2026年04月02日 18:02
2026年4月2日
📰 AI下棋已完美但人类让它重新不可预测
随着AI在象棋领域达到巅峰，顶级特级大师发现了新的制胜之道：使用看似”不完美”的走法来打乱对手的赛前准备。这些走法虽然在引擎分析中不是最优解，但能够迫使对手离开计算机辅助思考，转而依靠人脑进行深度计算。
- 人类棋手利用AI无法覆盖的”盲区”：虽然准备了大量开局，但无法记住所有变化
- 顶级棋手如卡尔森已熟练掌握这门”艺术”，在对手走出准备范围后仍能掌控局面
- 这种策略并非随机，而是经过精心计算的风险管理
原文链接：https://www.bloomberg.com/news/articles/2026-03-27/ai-changed-chess-grandmasters-now-win-with-unpredictable-moves

🕐 发布于: 2026年04月02日 18:01
2026年4月2日
📰 数据科学家的复仇：LLM时代为何数据科学技能反而更重要
随着LLM的普及，数据科学家角色是否会被取代？本文提出不同观点：
- 大模型API使团队可独立集成AI，但评估和优化系统仍需数据科学技能
- 常见的五个评估陷阱：通用指标、不验证评判者、实验设计糟糕、数据和标签质量问题
- 数据科学家的核心价值在于：设计具体指标、进行错误分析、验证评判者可靠性
- 关键建议：深入分析数据，建立应用特定的评估标准，而非依赖通用指标
原文链接：https://hamel.dev/blog/posts/revenge/

🕐 发布于: 2026年04月02日 12:01
2026年4月2日
📰 Trinity Large Thinking：Arcee AI发布大模型思考框架

Arcee AI推出Trinity Large Thinking，一种新的大模型推理框架。该框架旨在提升AI模型的思考能力和推理质量。作为OpenRouter上的新模型，它为开发者提供了更强大的AI能力选择。

原文链接：https://openrouter.ai/arcee-ai/trinity-large-thinking

🕐 发布于: 2026年04月02日 12:01

2026年4月2日
📰 Meta发布BOxCrete：利用AI优化美国本土混凝土生产

Meta发布全新AI模型Bayesian Optimization for Concrete (BOxCrete)，用于设计更可持续的混凝土配方。该模型能更好地处理噪声数据，并新增预测混凝土坍落度的功能。Meta与Amrize（北美最大水泥混凝土制造商）及伊利诺伊大学香槟分校合作，已在明尼苏达州Rosemount数据中心建设中实际应用，显著提升了混凝土强度和固化速度。该项目获得2025年建筑创新奖最佳合作奖。

原文链接：https://engineering.fb.com/2026/03/30/data-center-engineering/ai-for-american-produced-cement-and-concrete/

🕐 发布于: 2026年04月02日 12:01

2026年4月2日

作者： 悦峰

作者：悦峰