智见

  • 📰 阿里云发布 Qwen3.6-Plus:面向真实世界 AI Agent

    阿里云推出 Qwen3.6-Plus 模型,定位为面向真实世界 AI Agent 的下一代大模型。该版本是 Qwen3 系列的最新升级,在多模态理解和推理能力上有显著提升。

    • 专注于构建能够理解真实世界场景的 AI Agent
    • 强化了工具调用和多步骤任务规划能力
    • 继承 Qwen 系列在中文理解和生成方面的优势
    • 继续保持开源小模型版本的同时,提供更强大的闭源云端版本
    • 据官方介绍,该模型在多项 agent 能力评估基准上表现领先

    值得注意的是,Qwen3.6-Plus 主要通过阿里云 API 提供服务,而非完全开源权重。社区对其策略看法不一,部分认为这是从开源向闭源服务转型的商业尝试。


    原文链接:https://qwen.ai/blog?id=qwen3.6

    🕐 发布于: 2026年04月03日 18:02

  • 📰 Google 发布 Gemma 4:迄今最智能的开源模型

    Google DeepMind 正式发布 Gemma 4 系列开源模型,基于 Gemini 3 研究成果打造。该系列包含 31B、26B、E4B、E2B 等多个参数规模的版本。

    • 采用全新架构,在移动设备和物联网设备上实现突破性的计算和内存效率
    • 支持 140 种语言,包含多语言理解和跨文化上下文处理能力
    • 原生支持函数调用,可构建自主规划、导航应用并完成任务的 AI Agent
    • 在多项基准测试中表现优异:MMMLU 多语言问答达 85.2%,MMMU 多模态推理达 76.9%,数学推理达 89.2%
    • 提供微调支持,可通过主流框架针对特定任务进行训练优化
    • 强调在个人电脑上实现前沿智能,每参数效率达历史最高水平

    原文链接:https://deepmind.google/models/gemma/gemma-4/

    🕐 发布于: 2026年04月03日 18:01

  • 📰 OpenAI收购TBPN:加速AI全球对话布局

    OpenAI宣布收购TBPN(Technology Business Programming Network),后者是一家快速成长的科技媒体公司。

    • TBPN是每日直播的科技脱口秀节目,由企业家Jordi Hays和John Coogan主持
    • 《纽约时报》称TBPN为”硅谷新宠”,在科技圈极具影响力
    • TBPN将继续保持编辑独立性,独立运营节目和选择嘉宾
    • OpenAI表示将借助TBPN的传播和营销经验,让更多人理解AI对日常生活的深远影响
    • TBPN将归属于OpenAI战略部门,向Chris Lehane汇报
    • 这是OpenAI强化AI对话和传播战略的重要举措

    原文链接:https://openai.com/index/openai-acquires-tbpn/

    🕐 发布于: 2026年04月03日 12:01

  • 📰 阿里云发布Qwen3.6-Plus:面向真实世界代理

    阿里云推出Qwen3.6-Plus版本,专注于构建能够执行真实世界任务的AI代理。

    • 增强了对复杂现实场景的理解和执行能力
    • 延续了Qwen系列模型的高效推理特性
    • 已在Hacker News获得456点关注
    • 该版本被视为迈向实用型AI代理的重要一步

    原文链接:https://qwen.ai/blog?id=qwen3.6

    🕐 发布于: 2026年04月03日 12:00

  • 📰 Google发布Gemma 4开放模型

    Google DeepMind发布了新一代开放模型Gemma 4,基于Gemini 3研究打造。

    • 专为移动设备和IoT优化,提供卓越的计算和内存效率
    • 在个人电脑上实现前沿智能,每个参数的智能程度达到新高度
    • 支持构建自主代理工作流,原生支持函数调用
    • 具备强大的音频和视觉理解能力,支持多模态推理
    • 支持140种语言,理解文化背景
    • 基准测试表现优异:31B版本在MMMU多模态推理达76.9%,AIME 2026数学达89.2%,Agent工具使用基准达86.4%

    原文链接:https://deepmind.google/models/gemma/gemma-4/

    🕐 发布于: 2026年04月03日 12:00

  • 📰 Lemonade:AMD 推出的快速开源本地 LLM 服务器

    Lemonade 是 AMD 推出的开源本地 LLM 服务器,专注于 GPU 和 NPU 加速。

    • 极快的性能:针对 GPU 和 NPU 进行了优化,在任何 PC 上几分钟内即可完成设置
    • 开源免费:完全开源,由本地 AI 社区构建
    • 隐私优先:所有处理在本地完成,保护用户隐私
    • 原生 C++ 后端:轻量级服务,仅 2MB
    • 一分钟安装:简单的安装程序,自动配置整个技术栈
    • OpenAI API 兼容:开箱即用支持数百款应用,集成只需几分钟
    • 自动硬件配置:为 GPU 和 NPU 自动配置依赖
    • 多引擎兼容:支持 llama.cpp、Ryzen AI SW、FastFlowLM 等
    • 同时运行多个模型:支持并发运行多个模型
    • 跨平台:支持 Windows、Linux 和 macOS
    • 内置应用:提供 GUI,可快速下载、试用和切换模型
    • 统一 API:支持聊天、视觉、图像生成、语音转录、语音合成等多种模态

    原文链接:https://lemonade-server.ai

    🕐 发布于: 2026年04月03日 08:05

  • 📰 阿里云发布 Qwen3.6-Plus:面向真实世界代理的升级版本

    阿里云发布了 Qwen3.6-Plus,这是 Qwen3 系列的最新更新版本。

    • 发布了两个变体:Qwen3-Instruct-2507 和 Qwen3-Thinking-2507
    • 三种规模:235B-A22B、30B-A3B 和 4B
    • 通用能力显著提升:包括指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用
    • 长尾知识覆盖大幅改进,支持多种语言
    • 用户偏好对齐更好,在主观和开放式任务中提供更有帮助的响应
    • 256K-token 长上下文理解能力,可扩展至 100 万 tokens

    Thinking 模式在推理任务上表现优异,在数学、代码、科学等需要专业知识的基准测试中达到开源思考模型的最先进水平。


    原文链接:https://qwen.ai/blog?id=qwen3.6

    🕐 发布于: 2026年04月03日 08:04

  • 📰 Google 发布 Gemma 4:基于 Gemini 3 的最智能开源模型

    Gemma 4 是 Google DeepMind 推出的最新开源大模型系列,基于 Gemini 3 研究和技术构建。

    • 代理工作流:支持构建自主代理,可规划、导航应用并完成任务,原生支持函数调用
    • 多模态推理:具备强大的音频和视觉理解能力,支持丰富的多模态应用
    • 支持 140 种语言:创建多语言体验,超越翻译并理解文化背景
    • 微调支持:支持使用主流框架和技术对模型进行微调
    • 高效架构:可在个人硬件上运行,便于开发和部署

    性能基准测试表现优异:Gemma 4 31B 在 AI Arena 文本测试中得分 1452,MMMLU 多语言测试 85.2%,MMMU Pro 多模态推理 76.9%,AIME 2026 数学竞赛 89.2%


    原文链接:https://deepmind.google/models/gemma/gemma-4/

    🕐 发布于: 2026年04月03日 08:04

  • 📰 Arcee AI发布Trinity Large Thinking大型思考模型

    Arcee AI在OpenRouter上推出了Trinity Large Thinking新模型。该模型在SQL基准测试中获得16/25分,表现与预览版相近。

    • 该模型在代理任务(agentic tasks)表现中等,与Qwen 27B等大型模型有差距
    • 开发者指出,高性能代理模型通常需要海量训练数据或强化推理的后训练
    • 评测显示,同样参数规模下,经过推理优化的模型(如Nemotron-Cascade)表现明显更好
    • 这是开源大型模型领域的又一新选择,但距离顶尖仍有提升空间

    原文链接:https://openrouter.ai/arcee-ai/trinity-large-thinking

    🕐 发布于: 2026年04月02日 18:02

  • 📰 StepFun 3.5 Flash成OpenClaw任务性价比之王

    在UniClaw的AI模型评测中,StepFun 3.5 Flash在300场实战测试中获得最高性价比评价。该模型仅有110亿参数,却能在实际任务中取得与大型模型相当的分数。

    • 评测基于真实AI任务,包括租房搜索、文件整理等复杂场景
    • 虽然价格最低,但得分却常常超越同价位的竞争对手如Kimi
    • 有用户指出该模型存在”幻觉”问题,会编造不存在的房源信息
    • 讨论认为这证明了低价模型同样可以在实际应用中发挥作用

    原文链接:https://app.uniclaw.ai/arena?tab=costEffectiveness&via=hn

    🕐 发布于: 2026年04月02日 18:02