智见

📰 阿里云发布 Qwen3.6-Plus：面向真实世界代理的升级版本
阿里云发布了 Qwen3.6-Plus，这是 Qwen3 系列的最新更新版本。
- 发布了两个变体：Qwen3-Instruct-2507 和 Qwen3-Thinking-2507
- 三种规模：235B-A22B、30B-A3B 和 4B
- 通用能力显著提升：包括指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用
- 长尾知识覆盖大幅改进，支持多种语言
- 用户偏好对齐更好，在主观和开放式任务中提供更有帮助的响应
- 256K-token 长上下文理解能力，可扩展至 100 万 tokens
Thinking 模式在推理任务上表现优异，在数学、代码、科学等需要专业知识的基准测试中达到开源思考模型的最先进水平。

原文链接：https://qwen.ai/blog?id=qwen3.6

🕐 发布于: 2026年04月03日 08:04
2026年4月3日
📰 Google 发布 Gemma 4：基于 Gemini 3 的最智能开源模型
Gemma 4 是 Google DeepMind 推出的最新开源大模型系列，基于 Gemini 3 研究和技术构建。
- 代理工作流：支持构建自主代理，可规划、导航应用并完成任务，原生支持函数调用
- 多模态推理：具备强大的音频和视觉理解能力，支持丰富的多模态应用
- 支持 140 种语言：创建多语言体验，超越翻译并理解文化背景
- 微调支持：支持使用主流框架和技术对模型进行微调
- 高效架构：可在个人硬件上运行，便于开发和部署
性能基准测试表现优异：Gemma 4 31B 在 AI Arena 文本测试中得分 1452，MMMLU 多语言测试 85.2%，MMMU Pro 多模态推理 76.9%，AIME 2026 数学竞赛 89.2%

原文链接：https://deepmind.google/models/gemma/gemma-4/

🕐 发布于: 2026年04月03日 08:04
2026年4月3日
📰 Arcee AI发布Trinity Large Thinking大型思考模型
Arcee AI在OpenRouter上推出了Trinity Large Thinking新模型。该模型在SQL基准测试中获得16/25分，表现与预览版相近。
- 该模型在代理任务(agentic tasks)表现中等，与Qwen 27B等大型模型有差距
- 开发者指出，高性能代理模型通常需要海量训练数据或强化推理的后训练
- 评测显示，同样参数规模下，经过推理优化的模型(如Nemotron-Cascade)表现明显更好
- 这是开源大型模型领域的又一新选择，但距离顶尖仍有提升空间
原文链接：https://openrouter.ai/arcee-ai/trinity-large-thinking

🕐 发布于: 2026年04月02日 18:02
2026年4月2日
📰 StepFun 3.5 Flash成OpenClaw任务性价比之王
在UniClaw的AI模型评测中，StepFun 3.5 Flash在300场实战测试中获得最高性价比评价。该模型仅有110亿参数，却能在实际任务中取得与大型模型相当的分数。
- 评测基于真实AI任务，包括租房搜索、文件整理等复杂场景
- 虽然价格最低，但得分却常常超越同价位的竞争对手如Kimi
- 有用户指出该模型存在”幻觉”问题，会编造不存在的房源信息
- 讨论认为这证明了低价模型同样可以在实际应用中发挥作用
原文链接：https://app.uniclaw.ai/arena?tab=costEffectiveness&via=hn

🕐 发布于: 2026年04月02日 18:02
2026年4月2日
📰 AI下棋已完美但人类让它重新不可预测
随着AI在象棋领域达到巅峰，顶级特级大师发现了新的制胜之道：使用看似”不完美”的走法来打乱对手的赛前准备。这些走法虽然在引擎分析中不是最优解，但能够迫使对手离开计算机辅助思考，转而依靠人脑进行深度计算。
- 人类棋手利用AI无法覆盖的”盲区”：虽然准备了大量开局，但无法记住所有变化
- 顶级棋手如卡尔森已熟练掌握这门”艺术”，在对手走出准备范围后仍能掌控局面
- 这种策略并非随机，而是经过精心计算的风险管理
原文链接：https://www.bloomberg.com/news/articles/2026-03-27/ai-changed-chess-grandmasters-now-win-with-unpredictable-moves

🕐 发布于: 2026年04月02日 18:01
2026年4月2日
📰 数据科学家的复仇：LLM时代为何数据科学技能反而更重要
随着LLM的普及，数据科学家角色是否会被取代？本文提出不同观点：
- 大模型API使团队可独立集成AI，但评估和优化系统仍需数据科学技能
- 常见的五个评估陷阱：通用指标、不验证评判者、实验设计糟糕、数据和标签质量问题
- 数据科学家的核心价值在于：设计具体指标、进行错误分析、验证评判者可靠性
- 关键建议：深入分析数据，建立应用特定的评估标准，而非依赖通用指标
原文链接：https://hamel.dev/blog/posts/revenge/

🕐 发布于: 2026年04月02日 12:01
2026年4月2日
📰 Trinity Large Thinking：Arcee AI发布大模型思考框架

Arcee AI推出Trinity Large Thinking，一种新的大模型推理框架。该框架旨在提升AI模型的思考能力和推理质量。作为OpenRouter上的新模型，它为开发者提供了更强大的AI能力选择。

原文链接：https://openrouter.ai/arcee-ai/trinity-large-thinking

🕐 发布于: 2026年04月02日 12:01

2026年4月2日
📰 Meta发布BOxCrete：利用AI优化美国本土混凝土生产

Meta发布全新AI模型Bayesian Optimization for Concrete (BOxCrete)，用于设计更可持续的混凝土配方。该模型能更好地处理噪声数据，并新增预测混凝土坍落度的功能。Meta与Amrize（北美最大水泥混凝土制造商）及伊利诺伊大学香槟分校合作，已在明尼苏达州Rosemount数据中心建设中实际应用，显著提升了混凝土强度和固化速度。该项目获得2025年建筑创新奖最佳合作奖。

原文链接：https://engineering.fb.com/2026/03/30/data-center-engineering/ai-for-american-produced-cement-and-concrete/

🕐 发布于: 2026年04月02日 12:01

2026年4月2日
📰 Claude发现FreeBSD远程内核RCE漏洞：可获取root shell
安全研究显示，Claude编写了一个完整的FreeBSD远程内核漏洞利用代码，可获取root shell权限。
- 漏洞编号CVE-2026-4747，位于FreeBSD的rpcsec_gss模块
- 影响版本：FreeBSD 13.5 (
- 攻击面：NFS服务器加载kgssapi.ko模块（端口2049/TCP）
- 漏洞原因：svc_rpc_gss_validate()函数在重构RPC头时未检查凭证长度
- 栈缓冲区仅128字节，前32字节用于固定字段，剩余96字节用于凭证body
- 超过96字节的凭证可溢出到局部变量、保存的寄存器甚至返回地址
- 补丁已添加边界检查，在复制前验证oa_length是否超过可用空间
原文链接：https://github.com/califio/publications/blob/main/MADBugs/CVE-2026-4747/write-up.md

🕐 发布于: 2026年04月02日 08:04
2026年4月2日
📰 StepFun 3.5 Flash登顶OpenClaw性价比榜单：300场对战实测
在OpenClaw Arena的性价比评测中，StepFun 3.5 Flash成为执行OpenClaw任务成本效益最高的模型。
- 基于300场对战测试，StepFun 3.5 Flash在性价比排行榜上位居第一
- 该模型拥有110亿活跃参数，输入价格约/usr/bin/bash.10/M，输出约/usr/bin/bash.30/M
- 虽然是“最便宜”的模型之一，但其在Agentic任务上的表现令人印象深刻
- 有用户指出该模型存在“虚构信息”问题，如在找房任务中给出虚假房源信息
- 对比同样定位的Kimi等模型，StepFun在相同价格区间表现更为出色
- 该模型已在OpenRouter上免费使用一段时间
原文链接：https://app.uniclaw.ai/arena?tab=costEffectiveness&via=hn

🕐 发布于: 2026年04月02日 08:04
2026年4月2日