挑战AI数学推理极限,大规模形式化数学基准FormalMATH发布,最强模型成功率仅16%

现有LLM证明器表现整体低迷