跳转至

羊羽'Note

2026-04-03

2026-04-03

今日主题

大模型能力衡量

新增认知

大模型能力衡量

然后测试模型能以 50% 成功率完成的任务，对应的人类时间上限是多少
意思是：一个人类需要花 12 小时才能做完的任务，Opus 4.6 有一半概率能做对
在对数坐标下，模型能力随时间呈线性增长（即指数级进步）。具体规律是
这篇论文把"模型有多强"翻译成了一个人人都能理解的刻度——"相当于人类干多久的活"，并且发现这个刻度在指数级增长
每个任务先让人类做，记录人类完成它需要多长时间——这就是这个任务的"难度标尺"