近日,北京大学化学与分子工程学院联合北大计算中心、计算机学院、元培学院团队发布了最新成果SUPERChem。他们以一套“北大试卷”为标尺,冷静丈量着AI在科学推理上的真实边界。

打开SUPERChem的题库,一种压迫感扑面而来。晶体结构的精细解析、反应机理的深度推演、物化性质的定量计算……这500道题目并非来自网络上随手可得的公开题库,而是源于对高难度试题和前沿专业文献的深度改编。为什么要费尽周折重新出题?团队成员解释说,因为大模型太会“背书”了。互联网可及的测试题大多已被博闻强识的AI在训练阶段熟读。而化学,恰恰是一门不能只靠死记硬背的学科,它既有严密的逻辑推演,又充满了对微观世界的空间想象。设计一套让AI“没见过”、必须靠硬实力推理的题目,难度极高。近百名师生集结起来,决定给AI出一套高门槛、重推理、防作弊的试卷,要考的是AI是否真的“懂”化学。

设计题目往往是枯燥的,但这群年轻的北大人却把它变成了一场“游戏”。为了构建这套高质量评估集,团队搭建了一个专属协作平台。在这里,出题、审题、修题从单调的任务,变成了一套循序渐进的“通关”流程。成员们在平台上协作,互相审阅、彼此“找茬”,让严谨的科学探讨与活跃的思维碰撞交织共融。团队还引入了积分激励系统,让出题过程就像在游戏中打怪升级。一道题目需历经编写初稿、撰写解析,再通过初审与终审的严格审核,每个环节均由不同的同学把关,并发放相应的积分。终审通过的题目,甚至最多迭代过15个版本。在化学学院的一间间会议室里,灵感的火花不断闪现、碰撞、淬炼,最终沉淀为一套含金量极高的基准测试。

考试成绩揭晓。在这场精心设计的考试中,人类展现出了复杂的科学直觉。作为基线,参与测试的北大化院本科生取得了40.3%的平均准确率。这个数字本身足以说明这套题目的硬核程度。而AI的表现如何?即便是接受测试的顶尖模型,其成绩也仅与低年级本科生的平均水平相当。团队感到意外的是视觉信息带来的困惑。化学的语言是图形,分子结构、反应机理图蕴含着关键信息。然而对于部分模型而言,当引入图像信息时,其准确率不升反降。这说明当前的AI在将视觉信息转化为化学语义时,仍存在明显的感知瓶颈。即使选对了答案,解题步骤也可能经不起推敲。因此,团队为每一道题目都标注了详细的评分规则。在SUPERChem这台“显微镜”下,AI是真懂还是装懂,一目了然。团队发现,AI的推理链条往往断裂于产物结构预测、反应机理识别以及构效关系分析等高阶任务。当前的顶尖模型虽然拥有海量的知识储备,但在处理需要严密逻辑和深刻理解的硬核化学问题时,仍显得力不从心。

SUPERChem的诞生填补了化学领域多模态深度推理评测的空白。团队发布这项成果并非为了证明AI的短板,而是为了推动它走得更远。SUPERChem就像一个路标,提醒我们:从通用的聊天机器人到能够理解构效关系、推演反应机理的专业科学助手,中间还有很长的一段路要走。那是从“记住知识”到“理解物理世界”的跨越。目前,SUPERChem项目已全面开源。团队希望这套源自北大的“试卷”,能成为全球科学与人工智能领域的公共财富,去催化下一次技术的爆发。或许在不久的将来,当我们再次打开这张试卷时,AI能交出一份满分的答卷,那将是化学与人工智能共同的惊喜。






