2025年了,AI还看不懂时钟?

ClockBench基准测试评估AI读模拟时钟能力:人类平均准确率89.1%,而11个主流AI模型最高仅13.3%,突显AI在视觉推理上的短板。测试包含720道题,覆盖时间有效性判断、操作和时区转换。Gemini2.5Pro表现相对最佳,但整体揭示了模型难以处理视觉结构映射。⏳人类AI差距:人类准确率89.1......