研究者推出 EsoLang-Bench,用冷门 esoteric 编程语言评估LLM的真正推理能力。
- 基准包含5种 esoteric 语言(Brainfuck、Befunge-98、Whitespace等)的80道编程题
- 这些语言训练数据比Python稀缺5-10万倍,无法靠记忆通关
- 前沿模型在 esoteric 语言上仅获3.8%准确率,而同等Python任务约90%
- Medium及以上难度全部为0%,Whitespace语言完全无法解决
- 工具增强的 agent 系统(如Codex)比纯提示词方法准确率高约2倍
原文链接:https://esolang-bench.vercel.app/
🕐 发布于: 2026年03月20日 08:05
发表回复