在基准数据集上比较模型性能是人工智能领域衡量和推动研究进展的重要方式之一。研究者通常基于模型在基准数据集上的一个或一组性能指标进行评估,虽然这样可以快速进行比较,但如果这些指标不能充分涵盖所有性能特征,就可能带来模型性能反映不充分的风险。 目前我们还不清楚这会在多大程度上影响当前的基准测试工作。为了解决这个问题,来自维也纳人工智能与决策研究所的研究者对过往 3867 篇论文中机器学习模型的性能指标进行了分析,所用数据均来自机器学习开放平台「Papers with Code」。 研究结果表明,目前用于评估分类 AI 基准任务的绝大多数指标都有一些缺陷,无法充分反映分类器的性能,特别是用于不平衡的数据集时。