首页 > 事业单位公告 > 单位福利 > 科学家用STEM数据集评测神经网络模型基础,加快人工智能实现进程

科学家用STEM数据集评测神经网络模型基础,加快人工智能实现进程

发布时间:2024-05-01 15:08:46来源: 152102

理工科 STEM 技能,是解决真实世界中诸多问题的基础。譬如,探索蛋白质结构、证明数学定理、发现新药物等。(编者注:STEM,即科学、技术、工程和数学四门学科英文首字母的缩写。)

 

而对于人工智能领域来说,理解视觉-文本的多模态信息,则是掌握 STEM 技能的关键。

 

可是,现有的数据集主要集中在检验模型解决专家级别难题的能力上,难以反映模型在基础知识方面的掌握情况。并且,其往往只考虑文本信息而忽略视觉信息,又或者只关注 STEM 中某单一学科的能力。

 

另外,由于缺少细粒度的信息,该领域的科学家也无法更好地分析与改进神经网络模型存在的薄弱之处。

 

所以,模型在这种情况下生成的内容,既无法让人充分信任,又不能帮助指导未来模型开发的方向。

 

更重要的是,由于缺乏和人类表现相关的数据,因此科学家也不可能获取到更具实际意义的模型表现参考,严重阻碍了人工智能的健康发展。

 

为了攻克上述局限性,近期,来自北京大学和美国圣路易斯华盛顿大学的研究团队,不仅成功完成了首个多模态 STEM 数据集的构建,还在此基础上实现对大语言模型与多模态基础模型的评测。

 

结果发现,即使是目前最先进的人工智能模型,其 STEM 基础水平也存在较大的提升空间,尚不具备解决更有难度的现实问题的能力。也就是说,与人类智能相比,目前人工智能的水平还有一定差距。

 

 

图丨综合评测效果(来源:ICLR 2024)

 

近日,相关论文以《测量神经网络模型的视觉-语言理工科技能》(Measuring Vision-Language STEM Skills of Neural Models)为题收录于 2024 国际表征学习大会(ICLR 2024,International Conference on Learning Representations 2024)上[1]。

 

据悉,该会议将于今年 5 月 7 日至 5 月 11 日在奥地利的首都维也纳召开。

 

STEM 数据集相关资源如下。

 

评测链接:
https://huggingface.co/spaces/stemdataset/stem-leaderboard

数据集页面:
https://huggingface.co/datasets/stemdataset/STEM

代码 GitHub:
https://github.com/stemdataset/STEM

 

北京大学博士研究生沈剑豪和袁野是共同第一作者,圣路易斯华盛顿大学王晨光助理教授和北京大学张铭教授担任共同通讯作者。王晨光助理教授博士毕业于北京大学,导师是张铭教授。

 

图丨相关论文(来源:ICLR 2024)

 

 

搭建 STEM 数据集,全方位评测神经网络模型的基础理工科能力

 

据王晨光介绍,课题组在确定研究目标和题目之后,便开始着手收集数据。

 

一向擅长于算法研究的团队成员,在面对爬虫编写、数据清洗和去重等工作时不免有些犯难。尽管如此,他们还是迎难而上,设计了多种用于数据清洗和去重的规则,最终成功获得了首个多模态 STEM 数据集。

 

图丨左起;王晨光、张铭、沈剑豪、袁野、Srbuhi Mirzoyan(来源:课题组)

 

值得一提的是,该数据集包含 448 个 STEM 技能,共 1073146 道题目,是目前涵盖面最广、包含题目最多的多模态 STEM 题目数据集。

 

图丨相关论文(来源:ICLR 2024)

 

接着,他们开始针对数据集进行评测与分析。

 

由于该数据集包含科目(科学、技术、工程、数学)、技能和年级三个维度标签,因此研究人员选择从这三个维度切入,对每个维度的数据数量分布、问题类型分布、问题长度分布等信息进行了详尽分析。

 

与此同时,他们也针对每个科目,按照 6:2:2 的比例,划分了训练集、验证集与未公开标签的测试集。

 

随后,研究人员又设计了模型评测方案。

 

其中,在选择评测指标时,他们除了关注准确率,还重点使用全球范围内最被认可的在线习题网站之一(https://www.ixl.com/)的考试分数。

 

后者是基于该网站千万用户的真实考试成绩得出的,与学生对知识的掌握程度呈正相关。当分数达到 90 以上(通常是小学生水平)时,就代表学生掌握了该技能。

 

“我们让模型模仿考生在线答题,再将得到的考试分数与真实人类的考试结果进行比较。”王晨光表示。

 

这也正是该工作的一大亮点。原因在于,过去将人类的表现与人工智能做比较时,前者都是由相对较小的样本(例如几百到几千人)总结出的,而该团队的结果却是基于千万量级的数据得到的,可信度更高。

 

然后,在模型评测环节,研究人员选择使用当前主流的大基础模型,包括 OpenAI 的多模态 CLIP 模型,以及大语言模型 ChatGPT 的 GPT3.5-Turbo 版本。

 

前者根据模型判断问题选项与图片的匹配程度来做出选择,后者则利用字幕模型为图片生成描述,并利用语言模型选择回答。

 

“我们评测了不同规模的 CLIP 模型与 GPT3.5-Turbo 模型,发现在 0 样本的设置下,模型的错误率很高。这表明现有模型无法直接真正地掌握这些知识。”王晨光表示。

 

进一步地,他们又利用划分出的训练数据集,对 CLIP 模型进行了微调,发现微调后的模型取得了显著的效果提升,综合准确率从 54.4% 提升至 76.3%。不过,这离 90 分依然有一定差距。

 

除此之外,该课题组还对模型结果的各个侧面进行了分析。

 

具体来说,首先,在年级层面,他们发现模型的测验分数随着题目所属年级的升高而降低,这符合年级越高的题目难度就越高的预期。

 

图丨测验分数随年级变化(来源:ICLR 2024)

 

其次,通过模型在不同技能上的评测表现,他们发现模型在抽象知识与复杂推理任务上的表现欠佳。

 

另外,过去的经验表明,模型应该对正确答案有着较高的预测置信度,这代表着模型的校准度较好。

 

“我们发现在我们的数据集上微调过的模型,表现出了良好的校准性,模型的置信度与准确率呈现清晰的相关性。”王晨光说。

 

另一方面,他们在研究模型规模与效果之间关系的过程中,也发现了清晰的正相关关系。

 

与此同时,他们还分析了模型表现与问题长度、问题类型、选项数量等其它因素之间的关系,发现随着问题变长、选项数量变多和样例数量变少,模型的表现都会下降。

 

除此之外,他们也评估了准确率与测验考试分数这两种指标的相关性,发现它们同样呈现出显著的正相关。

 

“最终,在整体的评价指标上,我们确认即使是微调过的模型,与人类对应年级学生水平相比也有显著差距。基于此,我们仍然需要寻找更有效的方法,使模型掌握 STEM 知识技能。”王晨光说。

 

图丨与人类表现比较(来源:ICLR 2024)

 

 

尝试推出更多评测大语言模型的数据集,加快通用人工智能实现的进程

 

显而易见,在该项研究中,STEM 数据集发挥了关键作用。

 

它不仅有利于模型增强 STEM 的基础知识,还能帮助研究人员评估模型对于基础 STEM 技能掌握的程度,并通过细粒度的数据分析有针对性地改进模型。

 

王晨光表示,他和团队期待该数据集可以进一步推动当前多模态大模型的研究,朝着模型能够充分理解 STEM 技能、解决真实场景下 STEM 问题的目标更进一步。

 

并且,也希望发布的测试集可以作为评测人工智能基础模型能力的标准评测之一,得到社区的广泛使用。

 

“更重要的是,我们提供的与大规模人类(主要是小学生)真实水平的比较,可以作为未来模型开发的目标和参考,以加快通用人工智能目标实现的进程。”他说。

 

目前,基于该数据集,该课题组已经成功评测了神经网络模型在基础教育中的理工科能力。

 

接下来,他们一方面计划继续收集数据,并尝试推出诸如人文学科、社会学科等领域的数据集,以更好地评测大语言模型在其他关键学科上的能力。

 

在这方面值得关注的是,该团队最近已经提出了一个新的社会学科数据集 Social,包含较大规模的文本评估数据,可用来评测大语言模型的社会学科基础能力。

 

进一步地,还设计了一种多智能体交互的方法,能够增强大语言模型在 Social 数据集上的表现。

 

相关论文以《衡量大语言模型的社会规范》(Measuring Social Norms of Large Language Models)为题收录于计算语言学协会北美分会 2024 年年会(NAACL 2024,2024 Annual Conference of the North American Chapter of the Association for Computational Linguistics)上[2]。

 

据悉,该会议将于今年 6 月 16 日至 6 月 21 日在墨西哥的首都墨西哥城召开。

 

另一方面,他们也打算通过研究模型在细粒度数据集上的表现,找出模型能力不足的部分,并研究如何改进。

 

此外,还希望通过结合检索的 RAG 方法、设计特殊的模型架构和训练方法,来进一步增强模型的基础能力。

 

“我们相信,只有先在基础理工科和文科领域实现突破,扎实打好基础,人工智能才有被进一步应用的可能性。”王晨光如是说。

单位福利更多>>

长春净月高新区携手业内领先企业共同打造高级别自动驾驶未来产业 2025款腾势D9即将上市,搭载新技术,内饰大变样,怀挡设计来袭! 自动驾驶新纪元:如祺Robotaxi混合运营,让自动驾驶走进日常 全国首例!武汉车网智联公司完成智能网联测试道路评估数据产品场内交易 关润再掀汽车业巨浪,鸿海能否成功“牵手”日产成焦点? 技术,才是中国汽车的新面貌!宝腾eMAS7从马来西亚开始,目标全世界 年末购车首选,问界新M7最高可享42800元权益 奥迪生产基地落户上海,首款量产车明年下线 LG AI智能座舱将亮相CES 2025:可实时翻译外语路标 2025款奥迪Q7震撼登场!60.98万起售,智能驾驶与外观全面升级 特斯拉高级智能召唤引热议,车主:便捷还是心惊? 自动驾驶独角兽Cruise陨落:从辉煌到重组的十年之路 百亿美元打水漂,通用放弃自动驾驶出租车还有没有未来? 优科豪马5亿美元智能工厂杭州开工,助力新能源车轮胎产能升级 蔚来ET9先进数字架构解析:率先实现“整车智能”的关键? “地平线杯”第六届世界十佳智能汽车评价结果揭晓 比亚迪调整12月销售政策,多款车型推出优惠,有你心动的吗? 轴距2825mm,百公里油耗6.41L,体验日产天籁真心版 理汽车推出3年0息政策,仅需首付9.98万元,就能将理想L7开回家 魏牌蓝山推3年0息政策,最低首付8.99万起,值得选择吗? 17.3万,买四驱空悬中大型SUV,这台二手车真够吸引人的 起售价9.98万元,还是B级车定位,比亚迪秦L DM家用合适吗? 宝马6系GT 630i M运动臻享套装到店,限量2200辆,售价63.09万元 广汽传祺12月特惠,GS4 PLUS限时起售价11.18万,最高享5万补贴 银河星舰7EM-i的上市,比亚迪宋Pro DM-i还香吗? 保时捷裁撤经销商,年初的回旋镖打回来了? 四十春秋,上汽大众在变革中 “众” 行致远 大通MAXUS星际X将于12月18日上市!最大功率165kW 魏牌全新旗舰SUV谍照曝光,车身尺寸超越蓝山 理想汽车纯电SUV内饰谍照曝光,家族式设计风格延续