前沿AI模型参与大规模学术评估测试
人工智能系统在学术评估中究竟能扮演何种角色?一项由英国剑桥大学领导的最新研究,将当今最先进的生成式人工智能推上了“考官”席位,对其评分能力进行了系统性检验。该研究团队联合了曼彻斯特城市大学与诺丁汉大学的学者,收集了来自三所大学的761篇真实的本科论文作为测试样本。这些论文跨越50个不同的课程模块,涵盖了课程作业、开卷考试与闭卷考试等多种考核形式,时间跨度从2022年至2025年,为研究提供了丰富且真实的数据基础。
研究选取了包括Anthropic的Claude、OpenAI的GPT以及谷歌的Gemini在内的多个前沿大语言模型进行测试。为了让评估尽可能严谨,研究人员为这些AI“考官”提供了详细的评分标准和预期分数分布,并要求它们在给出分数前,逐条解释其评判依据。这一过程模拟了人类考官审阅论文时的理性步骤,旨在考察AI在结构化指令下的表现。
评分准确率堪忧:形式与实质的鸿沟
尽管获得了详尽的指导,测试结果却并不乐观。研究发现,这些AI模型给出的最终分数,与人类专家评审所授予的学位等级,仅在约半数的情况下相符。更值得关注的是,AI系统在识别优秀作业和薄弱作业时频繁出错,表现出明显的系统性偏差。
研究揭示了当前生成式AI在学术评估中的一个核心缺陷:对语言形式的过度敏感与对学术实质的把握不足。所有被测试的模型都表现出一种共同的倾向,即文章的长度、词汇的丰富度以及句式的复杂性,成为了它们打分的关键依据。相反,对于论文论证的逻辑严密性、证据的充分性以及批判性思维的深度等核心学术质量指标,AI的识别能力则相当有限。这意味着,一篇辞藻华丽但内容空洞的论文,很可能比一篇语言平实但思想深刻的论文获得更高的AI评分。
这种“重形式、轻实质”的倾向,使得AI评分呈现出一种“中心化”偏差。它们倾向于将大多数论文的分数压缩在一个安全的中间区间(如50-60分),而对真正优异或薄弱的论文则缺乏准确区分的能力。具体表现为,它会压低人类专家给出的一等学位论文的分数,同时又拔高那些勉强及格的论文分数。参与研究的学者指出,这暴露出AI评分的本质是一种基于统计模式的预测,而非基于学科理解和学术推理的判断。
同质化风险与“社会契约”的挑战
研究的另一个重要发现是AI评分带来的同质化风险。当使用同一篇论文对同一AI模型进行多次测试时,其给出的分数表现出极高的一致性。这表面上是“客观”和“稳定”的优点,实则暴露了其底层逻辑的机械性——AI并非在“理解”和“评价”论文内容,而是在重复匹配固定的语言模式。这种模式下,学生个性化的表达方式、独特的论证路径或富有创见但非典型的思考,很可能被系统忽视甚至误判。
此外,研究还探讨了AI在提供评语反馈方面的表现。虽然AI能够生成篇幅远超人类的详细评语,但当将这些评语压缩至与人类评语相当的长度后,教职工和学生往往难以直接区分其来源。然而,一旦知晓某段评语出自AI之手,参与者对其的认可度和信任感便会显著下降。曼彻斯特城市大学的合著者雅埃尔·本恩博士指出,这揭示了学术评估中超越技术层面的人性维度。许多学生明确表示,如果知道自己的作业由AI打分,会产生强烈的被欺骗感。评估行为本身,是维系师生之间“社会契约”的关键环节,其核心在于人对人的专业认可与回应,这种基于共同学科语境和教学默契的信任关系,是目前的技术难以复制的。
划定边界:AI应作为辅助工具而非最终裁断
面对全球高等教育机构日益增长的评估压力,将AI视为减轻教职工负担的潜在工具具有相当的吸引力。主持此项研究的剑桥大学心理学家德博拉·塔尔米博士承认,大学确实面临着提高效率、满足学生期待的多重挑战,部分机构已在探索让AI承担部分评估职责的可能性。
然而,这份题为《AI大学评估中的应用:评估自动评分的机遇与风险》的报告发出了明确警告。报告强调,尽管AI可能在处理某些劳动密集型、流程化的初筛工作中发挥作用——例如作为“第二双眼睛”进行错误检测、一致性检查,或标记出评分差异巨大、需要人类重点复核的作业——但最终的学术质量裁断权必须牢牢掌握在人类考官手中。塔尔米博士强调,评估是构建教育意义的核心过程,它关乎学术标准的维护,更关乎每个学生是否感受到被重视。
研究结论为AI在学术评估领域的应用划定了清晰的边界。在诸如DB真人生物这类专注于前沿技术研发的机构看来,技术的进步始终需要与适用的场景相匹配。AI,包括在其它领域可能有所建树的db真人旗舰药业所探索的智能系统,其优势在于处理海量数据和模式识别,但在需要深度理解、专业判断和人性关怀的学术评估“考场”上,受过专业训练的人类教师的经验、推理与责任感,依然是无可替代的最后防线。技术的角色应是赋能与辅助,而非取代那双审视学术思想重量的“人类之眼”。