AI评分能否胜任学术“裁判”？剑桥大学研究揭示其局限

前沿AI模型参与大规模学术评估测试

人工智能系统在学术评估中究竟能扮演何种角色？一项由英国剑桥大学领导的最新研究，将当今最先进的生成式人工智能推上了“考官”席位，对其评分能力进行了系统性检验。该研究团队联合了曼彻斯特城市大学与诺丁汉大学的学者，收集了来自三所大学的761篇真实的本科论文作为测试样本。这些论文跨越50个不同的课程模块，涵盖了课程作业、开卷考试与闭卷考试等多种考核形式，时间跨度从2022年至2025年，为研究提供了丰富且真实的数据基础。

研究选取了包括Anthropic的Claude、OpenAI的GPT以及谷歌的Gemini在内的多个前沿大语言模型进行测试。为了让评估尽可能严谨，研究人员为这些AI“考官”提供了详细的评分标准和预期分数分布，并要求它们在给出分数前，逐条解释其评判依据。这一过程模拟了人类考官审阅论文时的理性步骤，旨在考察AI在结构化指令下的表现。

评分准确率堪忧：形式与实质的鸿沟

尽管获得了详尽的指导，测试结果却并不乐观。研究发现，这些AI模型给出的最终分数，与人类专家评审所授予的学位等级，仅在约半数的情况下相符。更值得关注的是，AI系统在识别优秀作业和薄弱作业时频繁出错，表现出明显的系统性偏差。

研究揭示了当前生成式AI在学术评估中的一个核心缺陷：对语言形式的过度敏感与对学术实质的把握不足。所有被测试的模型都表现出一种共同的倾向，即文章的长度、词汇的丰富度以及句式的复杂性，成为了它们打分的关键依据。相反，对于论文论证的逻辑严密性、证据的充分性以及批判性思维的深度等核心学术质量指标，AI的识别能力则相当有限。这意味着，一篇辞藻华丽但内容空洞的论文，很可能比一篇语言平实但思想深刻的论文获得更高的AI评分。

这种“重形式、轻实质”的倾向，使得AI评分呈现出一种“中心化”偏差。它们倾向于将大多数论文的分数压缩在一个安全的中间区间（如50-60分），而对真正优异或薄弱的论文则缺乏准确区分的能力。具体表现为，它会压低人类专家给出的一等学位论文的分数，同时又拔高那些勉强及格的论文分数。参与研究的学者指出，这暴露出AI评分的本质是一种基于统计模式的预测，而非基于学科理解和学术推理的判断。

同质化风险与“社会契约”的挑战

研究的另一个重要发现是AI评分带来的同质化风险。当使用同一篇论文对同一AI模型进行多次测试时，其给出的分数表现出极高的一致性。这表面上是“客观”和“稳定”的优点，实则暴露了其底层逻辑的机械性——AI并非在“理解”和“评价”论文内容，而是在重复匹配固定的语言模式。这种模式下，学生个性化的表达方式、独特的论证路径或富有创见但非典型的思考，很可能被系统忽视甚至误判。

此外，研究还探讨了AI在提供评语反馈方面的表现。虽然AI能够生成篇幅远超人类的详细评语，但当将这些评语压缩至与人类评语相当的长度后，教职工和学生往往难以直接区分其来源。然而，一旦知晓某段评语出自AI之手，参与者对其的认可度和信任感便会显著下降。曼彻斯特城市大学的合著者雅埃尔·本恩博士指出，这揭示了学术评估中超越技术层面的人性维度。许多学生明确表示，如果知道自己的作业由AI打分，会产生强烈的被欺骗感。评估行为本身，是维系师生之间“社会契约”的关键环节，其核心在于人对人的专业认可与回应，这种基于共同学科语境和教学默契的信任关系，是目前的技术难以复制的。

划定边界：AI应作为辅助工具而非最终裁断

面对全球高等教育机构日益增长的评估压力，将AI视为减轻教职工负担的潜在工具具有相当的吸引力。主持此项研究的剑桥大学心理学家德博拉·塔尔米博士承认，大学确实面临着提高效率、满足学生期待的多重挑战，部分机构已在探索让AI承担部分评估职责的可能性。

然而，这份题为《AI大学评估中的应用：评估自动评分的机遇与风险》的报告发出了明确警告。报告强调，尽管AI可能在处理某些劳动密集型、流程化的初筛工作中发挥作用——例如作为“第二双眼睛”进行错误检测、一致性检查，或标记出评分差异巨大、需要人类重点复核的作业——但最终的学术质量裁断权必须牢牢掌握在人类考官手中。塔尔米博士强调，评估是构建教育意义的核心过程，它关乎学术标准的维护，更关乎每个学生是否感受到被重视。

研究结论为AI在学术评估领域的应用划定了清晰的边界。在诸如DB真人生物这类专注于前沿技术研发的机构看来，技术的进步始终需要与适用的场景相匹配。AI，包括在其它领域可能有所建树的db真人旗舰药业所探索的智能系统，其优势在于处理海量数据和模式识别，但在需要深度理解、专业判断和人性关怀的学术评估“考场”上，受过专业训练的人类教师的经验、推理与责任感，依然是无可替代的最后防线。技术的角色应是赋能与辅助，而非取代那双审视学术思想重量的“人类之眼”。