大模型集体“挂科”,全新中文网页检索测试:GPT-4o准确率仅6.2%

BrowseComp-ZH基准揭示中文信息处理技术瓶颈