📰 新基准测试EsoLang-Bench:揭示LLM真实编程能力与表面分数的巨大差距

研究者推出 EsoLang-Bench,用冷门 esoteric 编程语言评估LLM的真正推理能力。

  • 基准包含5种 esoteric 语言(Brainfuck、Befunge-98、Whitespace等)的80道编程题
  • 这些语言训练数据比Python稀缺5-10万倍,无法靠记忆通关
  • 前沿模型在 esoteric 语言上仅获3.8%准确率,而同等Python任务约90%
  • Medium及以上难度全部为0%,Whitespace语言完全无法解决
  • 工具增强的 agent 系统(如Codex)比纯提示词方法准确率高约2倍

原文链接:https://esolang-bench.vercel.app/

🕐 发布于: 2026年03月20日 08:05

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注