Arena AI模型ELO历史图表

# Arena 人工智能模型ELO历史图表

该图表用于追踪人工智能实验室模型发布后的性能变化趋势。

## 背景说明

人工智能实验室在模型发布后经常进行更新,有时这些更新会引入”削弱”(nerfs),比如:
– 更激进的审查机制
– 过度量化(为了节省计算成本)
– 行为退化

## 数据来源

数据每日从官方LM Arena排行榜数据集获取,基于数千名盲测志愿者的评估结果。

## 图表逻辑

每个主要人工智能实验室只有一条曲线代表其旗舰产品线:
– 最高评分的旗舰产品:即使发布了中级产品,曲线仍显示更高阶产品的表现
– 推理模式变体合并:如-thinking、-reasoning等后缀被视为同一模型的变体
– 新版本发布:以标记点显示,通常伴随分数提升
– 性能退化:模型生命周期内的下降趋势清晰可见

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注