OpenAI simple-evals — 架构与原理simple-evals — 判分的四种策略本页总览第 2 章:判分的四种策略 这章讲全库的精华。模型吐出来的是一段自由文本,而分数要么是 0 要么是 1——中间这一步「文本 → 判定」就是评测最难、最容易出错、各 eval 最不一样的地方。simple-evals 用了四种由简到繁的办法。