11月13日 | 周帆:大语言模型统计推理能力的综合性评估基准时

发布者:孙瑞发布时间:2025-11-11浏览次数:10

时   间:2025年11月13日(周四)16:00 -17:00

报告人:周帆上海财经大学统计与数据科学学院副教授

地   点:普陀校区理科大楼A1514

主持人:章迎莹  华东师范大学副教授

摘    要:

大型语言模型在数学与逻辑推理方面已取得显著进展,但统计学这一独立且高度综合的学科仍缺乏系统性评测。为填补这一空缺,我们提出 StatEval——首个面向统计学的综合性基准,覆盖多层次难度与完整学科体系。该基准包含 2 万余道本科与研究生基础题目,以及 1 万余条来自顶级期刊的研究级证明任务。 我们构建了可扩展的多智能体自动化生成与审校流程,并结合人工验证,确保大规模数据生成的严谨性与质量。同时,提出了面向计算类与证明类任务的统一评估框架,可细粒度衡量模型的统计推理能力。 实验结果表明,即便是先进的封闭源模型(如 GPT5-mini)在研究级任务上准确率仍不足 57%,开源模型表现更低,显示数学推理仍是当前 LLM 的显著短板。 StatEval 旨在为推进大型语言模型的统计智能研究提供权威标准。


报告人简介:

周帆,上海财经大学统计与数据科学学院副教授,国家高层次青年人才,博士毕业于美国北卡罗来纳大学教堂山分校,现担任统计学顶刊JASA的编委。研究兴趣包括深度学习,强化学习的算法与理论,时空网络,因果推断,在包括JASA, JMLR, NeurIPS, ICML, ICLR等统计学,机器学习顶刊和顶会上发表了数十篇文章,曾获泛华统计协会国际会议新研究者奖,UNC James E. Grizzle Distinguished Alumnus Award和Barry H. Margolin Award。