作者: 悦峰

  • 📰 Google发布Gemma 4开放模型

    Google DeepMind发布了新一代开放模型Gemma 4,基于Gemini 3研究打造。

    • 专为移动设备和IoT优化,提供卓越的计算和内存效率
    • 在个人电脑上实现前沿智能,每个参数的智能程度达到新高度
    • 支持构建自主代理工作流,原生支持函数调用
    • 具备强大的音频和视觉理解能力,支持多模态推理
    • 支持140种语言,理解文化背景
    • 基准测试表现优异:31B版本在MMMU多模态推理达76.9%,AIME 2026数学达89.2%,Agent工具使用基准达86.4%

    原文链接:https://deepmind.google/models/gemma/gemma-4/

    🕐 发布于: 2026年04月03日 12:00

  • 📰 Lemonade:AMD 推出的快速开源本地 LLM 服务器

    Lemonade 是 AMD 推出的开源本地 LLM 服务器,专注于 GPU 和 NPU 加速。

    • 极快的性能:针对 GPU 和 NPU 进行了优化,在任何 PC 上几分钟内即可完成设置
    • 开源免费:完全开源,由本地 AI 社区构建
    • 隐私优先:所有处理在本地完成,保护用户隐私
    • 原生 C++ 后端:轻量级服务,仅 2MB
    • 一分钟安装:简单的安装程序,自动配置整个技术栈
    • OpenAI API 兼容:开箱即用支持数百款应用,集成只需几分钟
    • 自动硬件配置:为 GPU 和 NPU 自动配置依赖
    • 多引擎兼容:支持 llama.cpp、Ryzen AI SW、FastFlowLM 等
    • 同时运行多个模型:支持并发运行多个模型
    • 跨平台:支持 Windows、Linux 和 macOS
    • 内置应用:提供 GUI,可快速下载、试用和切换模型
    • 统一 API:支持聊天、视觉、图像生成、语音转录、语音合成等多种模态

    原文链接:https://lemonade-server.ai

    🕐 发布于: 2026年04月03日 08:05

  • 📰 阿里云发布 Qwen3.6-Plus:面向真实世界代理的升级版本

    阿里云发布了 Qwen3.6-Plus,这是 Qwen3 系列的最新更新版本。

    • 发布了两个变体:Qwen3-Instruct-2507 和 Qwen3-Thinking-2507
    • 三种规模:235B-A22B、30B-A3B 和 4B
    • 通用能力显著提升:包括指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用
    • 长尾知识覆盖大幅改进,支持多种语言
    • 用户偏好对齐更好,在主观和开放式任务中提供更有帮助的响应
    • 256K-token 长上下文理解能力,可扩展至 100 万 tokens

    Thinking 模式在推理任务上表现优异,在数学、代码、科学等需要专业知识的基准测试中达到开源思考模型的最先进水平。


    原文链接:https://qwen.ai/blog?id=qwen3.6

    🕐 发布于: 2026年04月03日 08:04

  • 📰 Google 发布 Gemma 4:基于 Gemini 3 的最智能开源模型

    Gemma 4 是 Google DeepMind 推出的最新开源大模型系列,基于 Gemini 3 研究和技术构建。

    • 代理工作流:支持构建自主代理,可规划、导航应用并完成任务,原生支持函数调用
    • 多模态推理:具备强大的音频和视觉理解能力,支持丰富的多模态应用
    • 支持 140 种语言:创建多语言体验,超越翻译并理解文化背景
    • 微调支持:支持使用主流框架和技术对模型进行微调
    • 高效架构:可在个人硬件上运行,便于开发和部署

    性能基准测试表现优异:Gemma 4 31B 在 AI Arena 文本测试中得分 1452,MMMLU 多语言测试 85.2%,MMMU Pro 多模态推理 76.9%,AIME 2026 数学竞赛 89.2%


    原文链接:https://deepmind.google/models/gemma/gemma-4/

    🕐 发布于: 2026年04月03日 08:04

  • 📰 Arcee AI发布Trinity Large Thinking大型思考模型

    Arcee AI在OpenRouter上推出了Trinity Large Thinking新模型。该模型在SQL基准测试中获得16/25分,表现与预览版相近。

    • 该模型在代理任务(agentic tasks)表现中等,与Qwen 27B等大型模型有差距
    • 开发者指出,高性能代理模型通常需要海量训练数据或强化推理的后训练
    • 评测显示,同样参数规模下,经过推理优化的模型(如Nemotron-Cascade)表现明显更好
    • 这是开源大型模型领域的又一新选择,但距离顶尖仍有提升空间

    原文链接:https://openrouter.ai/arcee-ai/trinity-large-thinking

    🕐 发布于: 2026年04月02日 18:02

  • 📰 StepFun 3.5 Flash成OpenClaw任务性价比之王

    在UniClaw的AI模型评测中,StepFun 3.5 Flash在300场实战测试中获得最高性价比评价。该模型仅有110亿参数,却能在实际任务中取得与大型模型相当的分数。

    • 评测基于真实AI任务,包括租房搜索、文件整理等复杂场景
    • 虽然价格最低,但得分却常常超越同价位的竞争对手如Kimi
    • 有用户指出该模型存在”幻觉”问题,会编造不存在的房源信息
    • 讨论认为这证明了低价模型同样可以在实际应用中发挥作用

    原文链接:https://app.uniclaw.ai/arena?tab=costEffectiveness&via=hn

    🕐 发布于: 2026年04月02日 18:02

  • 📰 AI下棋已完美但人类让它重新不可预测

    随着AI在象棋领域达到巅峰,顶级特级大师发现了新的制胜之道:使用看似”不完美”的走法来打乱对手的赛前准备。这些走法虽然在引擎分析中不是最优解,但能够迫使对手离开计算机辅助思考,转而依靠人脑进行深度计算。

    • 人类棋手利用AI无法覆盖的”盲区”:虽然准备了大量开局,但无法记住所有变化
    • 顶级棋手如卡尔森已熟练掌握这门”艺术”,在对手走出准备范围后仍能掌控局面
    • 这种策略并非随机,而是经过精心计算的风险管理

    原文链接:https://www.bloomberg.com/news/articles/2026-03-27/ai-changed-chess-grandmasters-now-win-with-unpredictable-moves

    🕐 发布于: 2026年04月02日 18:01

  • 📰 数据科学家的复仇:LLM时代为何数据科学技能反而更重要

    随着LLM的普及,数据科学家角色是否会被取代?本文提出不同观点:

    • 大模型API使团队可独立集成AI,但评估和优化系统仍需数据科学技能
    • 常见的五个评估陷阱:通用指标、不验证评判者、实验设计糟糕、数据和标签质量问题
    • 数据科学家的核心价值在于:设计具体指标、进行错误分析、验证评判者可靠性
    • 关键建议:深入分析数据,建立应用特定的评估标准,而非依赖通用指标

    原文链接:https://hamel.dev/blog/posts/revenge/

    🕐 发布于: 2026年04月02日 12:01

  • 📰 Trinity Large Thinking:Arcee AI发布大模型思考框架

    Arcee AI推出Trinity Large Thinking,一种新的大模型推理框架。该框架旨在提升AI模型的思考能力和推理质量。作为OpenRouter上的新模型,它为开发者提供了更强大的AI能力选择。


    原文链接:https://openrouter.ai/arcee-ai/trinity-large-thinking

    🕐 发布于: 2026年04月02日 12:01

  • 📰 Meta发布BOxCrete:利用AI优化美国本土混凝土生产

    Meta发布全新AI模型Bayesian Optimization for Concrete (BOxCrete),用于设计更可持续的混凝土配方。该模型能更好地处理噪声数据,并新增预测混凝土坍落度的功能。Meta与Amrize(北美最大水泥混凝土制造商)及伊利诺伊大学香槟分校合作,已在明尼苏达州Rosemount数据中心建设中实际应用,显著提升了混凝土强度和固化速度。该项目获得2025年建筑创新奖最佳合作奖。


    原文链接:https://engineering.fb.com/2026/03/30/data-center-engineering/ai-for-american-produced-cement-and-concrete/

    🕐 发布于: 2026年04月02日 12:01