2026-04-03 今日主题 大模型能力衡量 新增认知 大模型能力衡量 然后测试模型能以 50% 成功率完成的任务,对应的人类时间上限是多少 意思是:一个人类需要花 12 小时才能做完的任务,Opus 4.6 有一半概率能做对 在对数坐标下,模型能力随时间呈线性增长(即指数级进步)。具体规律是 这篇论文把"模型有多强"翻译成了一个人人都能理解的刻度——"相当于人类干多久的活",并且发现这个刻度在指数级增长 每个任务先让人类做,记录人类完成它需要多长时间——这就是这个任务的"难度标尺"