npj Digital Medicine｜江哲涵团队提出基于计算机化自适应测验的大语言模型医学知识能力评估框架

2026年5月18日，北京大学全国医学教育发展中心江哲涵团队的论文“Leveraging computerized adaptive testing for cost-effective evaluation of large language models in medical benchmarking”在npj Digital Medicine杂志在线发表。该研究将教育测量领域的计算机化自适应测验（Computerized Adaptive Testing, CAT）引入大语言模型医学知识能力评测，提出了一套自适应的评估框架，显著降低了大模型医学基准测试所需的题量、时间和计算成本。

图1：论文截图

随着大语言模型在医疗健康领域的快速发展，其在临床信息整理、医学知识问答、辅助分析与医学教育等场景中的应用潜力不断显现。然而，如何对医学大语言模型进行可靠、可重复、低成本且具有测量学依据的评价，仍是当前医学人工智能治理中的关键问题。现有医学大模型评测多依赖固定题量的静态基准测试。这类评测虽然能够提供模型性能的初步比较，但在持续监测和高频更新场景中面临明显局限：一方面，完整题库评测需要消耗大量时间、算力和Token；另一方面，公开基准测试题目可能被模型训练数据污染，导致评测结果难以区分真实能力与记忆效应。

针对上述问题，该研究提出了一种基于CAT测量范式的大语言模型医学知识能力评价框架。该框架利用北京大学医学教育研究所组织构建的安全非公开医学题库，通过自适应选题算法动态选择最能区分当前模型能力水平的试题，从而在显著减少测试题量的同时，保持模型能力的测量精度。

研究首先通过蒙特卡洛模拟系统比较不同自适应选题策略和停止规则的表现。随后，在实证验证阶段，进一步对38个不同类型的大语言模型进行了系统评测。在新框架的评估下，最优CAT方案在保持测评精度的同时，显著压缩了评测成本。相较于完整题库，CAT范式可以减少95%以上的题量，且CAT评估得到的模型能力参数结果与使用完整题库评测结果高度相关(r = 0.988)。在评测效率方面，单个模型的测试时间从6.85小时大幅缩短至8.4分钟，Token消耗由177万降至约3万，显著降低了大规模医学模型评测的时间与计算成本。

图2：全题库与CAT范式下大语言模型能力估计结果比较

图3：能力估计与方法有效性比较

该研究为大语言模型医学知识能力评价提供了一种“更快、更省、更可测量”的新路径。研究不仅探索了高质量医学题库在人工智能治理中的新用途，也为医疗健康领域大模型的规范化评测和持续监管提供了方法学参考。

北京大学全国医学教育发展中心江哲涵副研究员为本文通讯作者，北京大学公共卫生学院2024级博士研究生郑天鹏、江哲涵副研究员为论文共同第一作者。该研究得到国家自然科学基金、北京大学医学部相关项目支持。

文章链接：https://www.nature.com/articles/s41746-026-02671-w

代码链接：https://github.com/zjiang4/LLM-CAT