北大伯克利联手“拷问”大模型:最强Agent也才40分,新基准专治“不听话”的AI分析师

IDA-Bench:给AI一场真实的“随堂测验”