大模型玩不好数独?Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%

Sakana AI推出全新基准Sudoku-Bench