AI做化学奥赛题准确率超93%,但“看图”反而会答错?这项研究揭开大模型科学推理的真实短板
当我们惊叹于ChatGPT能写论文、能编代码时,一个更根本的问题浮出水面:AI究竟能不能真正理解科学?
近日发表在Nature旗下《通讯-化学》的一项研究,给出了一个出人意料的答案——顶尖AI模型做化学奥赛题的准确率已超过93%,远超人类选手平均水平;但诡异的是,给某些模型“看图”之后,它们反而更容易答错。
这项来自科大讯飞研究院与认知智能全国重点实验室的研究,像一面镜子,照出了当前AI科学推理能力的真实面貌。
一个反常识的发现
研究团队从二十余年的美国化学奥林匹克竞赛中精选出473道图文结合题目,构建了名为USNCO-V的评测基准,随后对40款主流多模态大模型进行了系统测试。
测试结果令人振奋又困惑。振奋的是,GPT-5以93.2%的准确率登顶,将人类选手44.6%的平均成绩远远甩在身后。困惑的是,当研究人员尝试移除题目中的图像、只保留文字描述时,部分模型的表现竟然更好了。
这意味着什么?图像本应提供额外信息帮助解题,但对某些AI而言,图像反而成了“干扰项”。研究团队将这一现象命名为“视觉失配效应”——当前多模态AI的视觉模块与语言模块之间,尚未建立起真正有效的协作机制。
“这就像一个学生,阅读理解能力很强,但一看到配图就分心走神。”一位未参与该研究的AI领域学者如此评价。
分子结构和实验装置,仍是AI的“盲区”
研究还发现,不同类型的视觉信息对AI的挑战程度差异显著。面对表格和常规数据图,大模型表现稳健;但遇到分子结构式和实验装置示意图时,即便是最先进的模型也频频失误。
这一发现揭示了AI科学推理的核心瓶颈:真正的科学理解不仅需要“看懂”图像,更需要将视觉符号转化为化学语义,再进行逻辑推演。这种跨模态的深度融合能力,正是当前技术亟待突破的方向。
大模型国家队的科学野心
值得关注的是,这项研究的发表方——科大讯飞,正是国内人工智能国家队的核心成员之一。依托认知智能全国重点实验室,这家公司近年来在AI for Science领域动作频频。
公开资料显示,科大讯飞已构建起覆盖多学科的科研智能体系:与中科院共建的“星火科研助手”服务超17万名科研人员;在化工领域推出的智能化工大模型已迭代至3.0版本;在核聚变研究方向也有模型成果发表于国际顶刊。
更值得注意的是其技术路线的选择。据了解,科大讯飞星火大模型强调全栈自主可控,底层算力与核心算法均实现全国产化方案。在当前国际科技博弈的大背景下,这一布局的战略意义不言而喻。
从“能用”到“好用”,AI科学推理还有多远?
此次研究的意义,不仅在于揭示问题,更在于提供了解决思路。研究团队发现,思维链(Chain-of-Thought)提示技术能显著提升中等规模模型的推理能力,使GPT-4.1-mini在无需额外训练的情况下准确率提升超过26个百分点。
这表明,通过优化推理策略,现有模型仍有巨大的提升空间。
当AI从“语言理解”迈向“科学理解”,一扇新的大门正在打开。尽管当前技术仍存在明显短板,但正如这项研究所展示的,认清差距本身就是进步的开始。
对于正在加速追赶的中国AI产业而言,这面“镜子”来得恰逢其时。
- 传奇鬼才设计师“王炸之作”,慕赫大师概念系列演绎“野兽之心”
- 农发行耒阳市支行:聚力打造“三大品牌”推动柜面服务提档升级
- 《致命游戏》热度超纲,盘点剧中角色,你更喜欢哪一位呢?
- “笨功夫” 的胜利:讯兔的 AI 金融务实样本
- 养生黑神话之悟空:生可乐泡枸杞爆火成新晋潮饮
- 书如其人·中正若鼎——书法名家徐铁田百家媒体聚焦报道
- 镂空防转移防伪胶带!以创新科技筑牢防伪壁垒
- ThreatLocker Chosen for 2025 Inc. 5000 List of America's Fastest-Growing Private Companies
- 大米和小米推出基于大语言模型全面测评儿童语言能力AI工具
- Impulse Dynamics Completes $136M Financing Round
- Constellation Brands Declares Quarterly Dividend
- 中宏保险发布2025年第二季度个险理赔报告 理赔服务彰显“爱与责任”
- Cavli Wireless 获评 2024 年 Nasscom Emerge 50 创新企业,助力“印度制造”深度科技解决方案,驱动全球物联网与无线连接发展
- “AI液冷龙头”Vertiv财报全面超预期,摩根大通:尽管涨幅巨大,但数据中心需求已从“光速”向“荒谬”加速,估值仍然合理
- 广州千叶以专业泳池设备,开启郑州游泳馆畅游新体验
- 陈忠洲院长在北京市政协十四届三次会议提出建议并发言
- 展会邀请丨神眸邀请您十月相约深圳,共聚2025CPSE安博会!
- 从质疑到信赖 跨越速运如何成为我们的物流定心丸
- 向上而生,向远而行|全球嘉年华谋新篇,天狮集团新年开好局
- 顾家家居一季度业绩双增,“十大微场景”展现发展韧性
- KFSHRC 将启用沙特阿拉伯首个基因和细胞疗法产品生产基地
- Going Dry? Doesn't Matter Why. Heineken® 0.0's New Campaign Says Alcohol-Free Should Be Re
- 阿布扎比启动FIDA产业集群,致力于塑造新一代金融与投资解决方案
- 坚守人民至上,开拓卫生事业高质量发展新路径——专访复旦大学附属华山医院教授徐伟民
- “悦”享奔跑,“彩”绘征程!世纪悦彩赞助好运山东·马拉松城市联赛
- 为什么长沙聪明的公司,都在悄悄搬进这种独栋办公楼?
- 佰信集团泰国分公司正式开业!中泰团队共同赋能出海中企本地化布局
- 警惕仿冒平台!教您一键识别真假WEEX
- 临商银行北京路支行党支部开展“学纪、知纪、明纪、守纪”主题党日活动
- 告别盲目采购!企业网络安全的省心省时解决方案
推荐
-
王自如被强制执行3383万
据中国执行信息公开网消息,近期,王自如新增一
资讯
-
透过数据看城乡居民医保“含金量” 缴费标准是否合理?
记者从国家医保局了解到,近期,全国大部分地区
资讯
-
周星驰新片《少林女足》在台湾省举办海选,吸引了不少素人和足球爱好者前来参加
周星驰新片《少林女足》在台湾省举办海选,吸
资讯
-
新增供热能力3200万平方米 新疆最大热电联产项目开工
昨天(26日),新疆最大的热电联产项目—&md
资讯
-
看新东方创始人俞敏洪如何回应董宇辉新号分流的?
(来源:中国证券报)
东方甄选净利润大幅下滑
资讯
-
海南大学生返校机票贵 有什么好的解决办法吗?
近日,有网友在“人民网领导留言板&rdqu
资讯
-
一个“江浙沪人家的孩子已经不卷学习了”的新闻引发议论纷纷
星标★
来源:桌子的生活观(ID:zzdshg)
没
资讯
-
中央气象台连发四则气象灾害预警
暴雪橙色预警+冰冻橙色预警+大雾黄色预警+
资讯
-
奥运冠军刘翔更新社交账号晒出近照 时隔473天更新动态!
2月20日凌晨2点,奥运冠军刘翔更新社交账号晒
资讯
-
大家一起关注新疆乌什7.1级地震救援见闻
看到热气腾腾的抓饭马上就要出锅、村里大家
资讯

