大语言模型在超导研究领域的专家级评测_科技资讯

大语言模型在超导研究领域的专家级评测

创始人

2026-03-18 12:58:00

0次

人工智能（AI）如今已广泛应用于撰写邮件、图像编辑和信息摘要等任务。AI在加速科学研究方面也具有巨大潜力。然而，在专业领域内提供科学准确且全面的复杂问题答案方面，AI的有效性仍是一个活跃的研究领域，这要求AI达到极高的准确性标准，并能在复杂且不断发展的知识领域中导航。

我们在《美国科学院院报》上发表的新论文《大语言模型世界模型的专家评估：高温超导案例研究》，评估了大语言模型（LLM）世界模型能否回答凝聚态物理学的专家级问题。我们与康奈尔大学合作，让六个大语言模型回答关于高温超导体的高水平问题。专家小组随后按多项标准对回答进行评分。我们发现表现最佳的两个工具来自封闭的经过认证、质量控制的来源生态系统：NotebookLM和一个定制构建的系统。我们还识别了所有被研究系统的关键改进领域。这个测试案例的结果有助于为开发推进科学发现的可信赖工具提供信息。

在之前的相关工作中，谷歌研究人员通过参考六个科学学科的研究论文，评估了大语言模型是否能在多个科学领域执行基本分析任务。该工作引入了CURIE基准，用于评估大语言模型在从生物多样性到凝聚态物理学再到蛋白质测序等领域的表现，包含需要分析而非仅仅重复事实的问题。其他工作探索了使用大语言模型解读表格和图形，利用它们解决量子力学方程，以及使用专业软件解决工程仿真问题。

谷歌的其他几个团队也在探索AI推进科学研究的方向：作为产生新假设的思维伙伴；作为编写专家级科学软件的智能体；以及基于AI的单细胞分析模型。

在这项工作中，我们探索大语言模型是否能在需要深入研究并能在围绕开放科学问题的竞争理论之间保持平衡的专业领域中，充当知识渊博、无偏见的思维伙伴。

我们专注于高温超导的潜在机制，这是自1987年获得诺贝尔奖的现象发现以来凝聚态物理学的一个开放研究领域。在这项研究中，我们专注于一类含铜化合物（称为铜氧化物）。铜氧化物能在比传统超导材料显著更高的温度下以零电阻传导电子，尽管仍然很冷——它们已知的最高温度阈值约为零下140摄氏度。理解这种行为背后的潜在机制可能有助于发现更多具有类似特性的化合物，可能在更高温度下，并为更多应用铺平道路。

数十年来，物理学家使用各种实验技术发表了数千项研究，探索导致超导性的量子力学特性。不同研究小组提出并追求了几种竞争理论。大量文献使新一代研究者极难导航这个知识库。进入该领域的学生将受益于一个对已发表研究持中立观点的知识渊博的导师。

研究生或经验丰富的研究人员可以从虚拟思维伙伴中受益，以快速了解高温超导体或探索未来研究方向。研究人员可以提问，大语言模型将提供反映该领域未解决问题和争论的平衡回应，以及科学文献中的参考链接。我们的新论文在这项任务上评估了六个大语言模型，发现具有策划参考资料的封闭系统提供了更准确、适当引用的答案。

为了比较使用不同数据源的影响，该研究评估了四个具有完全网络访问权限的模型，对比两个从策划数据库中提取信息的封闭系统。对于两个封闭系统，十二位高温超导领域的顶级国际专家选择了15篇科学综述文章，以提供该领域的概述和质量控制的初始来源材料。四个基于网络的模型具有完全的互联网访问权限，包括765篇开放获取的实验论文和1,553篇开放获取的理论论文。

为了创建两个封闭系统，我们首先汇编了15篇专家建议的高温超导领域综述文章，然后提取了这些综述文章引用的大约3,300个参考文献。然后我们使用Gemini将实验研究与理论论文分离。两个封闭系统使用了1,726个来源的选择，包括基于实验的论文和综述文章。

专家小组随后撰写了67个问题，旨在测试模型对该领域的深度知识，例如"LSCO中Lifshitz转变发生在什么掺杂水平？"和"支持铜氧化物中量子临界点情景的证据是什么？"最后，每位专家评估了六个不同模型回答这些测试问题的表现。

我们评估了六个大语言模型：GPT-4o、Perplexity、Claude 3.5、Gemini Advanced Pro 1.5、Google NotebookLM和一个定制构建的检索增强生成（RAG）系统。使用蒙面评审过程，专家根据六个指标单独对每个模型的答案进行0到2分的评分。

在六个大语言模型中，NotebookLM在蒙面测试的大多数方面表现突出。NotebookLM是一个根据用户提供的文档库回答用户问题的产品，在这种情况下，文档库包含1,726个包含实验论文和综述文章的来源。总体表现第二高的是我们包含相同来源的定制RAG系统。NotebookLM、Gemini和定制RAG系统在提供观点平衡和全面答案方面得分位列前三。尽管最不简洁，NotebookLM在提供证据方面得分最高。图像相关性得分普遍较低，定制RAG得分高于另一个提供图像的大语言模型Perplexity。

从这个测试案例中得出了几个更大的结论。从策划的实验文献数据库中提取信息的两个模型，NotebookLM和我们的定制构建工具，表现超过了在未过滤互联网数据上训练的大语言模型。特别是，依赖开放网络来源的模型倾向于将已确立的理论与高度推测性的理论混合。

评估的大语言模型（2024年12月访问）在时间和上下文理解方面也显示出弱点。例如，它们经常未能识别出提出的假设后来被推翻。当初始查询中没有明确包含确切语言时，它们也经常遗漏相关论文。

我们的结果广泛突出了大语言模型需要更好地理解表格和图像，因为科学论文大量使用这些格式。虽然其中两个模型一致引用图像，但它们通常更多依赖图像标题而非视觉分析。增强视觉推理能力，包括解读图像、图表和比例尺，是未来改进的主要方向。

可靠的AI研究伙伴可以帮助快速让新研究生了解现有科学文献，并作为随时可用的思维伙伴。它还可以帮助经验丰富的科学家识别新的研究方向。

尽管存在现有限制，我们的结果表明大语言模型可以在涉及开放研究问题的复杂领域达到熟练程度。然而，评估模型在专业领域的能力依赖于合格专家，他们的知识既重要又稀少。我们继续在这个领域工作，将在2026年4月的ICLR会议上展示CMT基准，作为对大语言模型在更广泛的凝聚态理论领域的更严格评估。总体而言，这些努力需要物理学专家的大量时间和分析；我们希望他们产生的洞察能够扩展，为进一步开发推进科学进步的可信AI工具提供信息。

这里描述的研究是谷歌研究、康奈尔大学和哈佛大学的联合努力。我们感谢斯坦福、约翰斯·霍普金斯、弗拉蒂伦研究所、纽约城市大学、麻省理工学院、康奈尔和哈佛的许多杰出科学家使这项研究成为可能：Steven A. Kivelson、N. P. Armitage、Antoine Georges、Olivier Gingras、Dominik Kiese、Chunhan Feng、Vadim Oganesyan、T. Senthil、B.J. Ramshaw和Subir Sachdev。我们感谢Haoyu Gao和学生研究员Maria Tikhanovskaya帮助塑造研究和数据集。我们还感谢Oliver King和Wesley Hutchins帮助建立NotebookLM研究的宝贵贡献。我们赞赏Stephan Hoyer对这项工作早期手稿的深思熟虑的反馈。最后，我们感谢John Platt和Michael Brenner的持续支持和鼓励，使这项研究成为可能。

Q&A

Q1：为什么选择高温超导作为测试大语言模型的研究领域？

A：高温超导是自1987年诺贝尔奖发现以来凝聚态物理学的开放研究领域，涉及复杂的量子力学特性和多种竞争理论。数十年来积累了大量文献，使其成为测试AI能否在专业科学领域提供准确、平衡回答的理想案例。

Q2：NotebookLM为什么在评测中表现最好？

A：NotebookLM基于策划的高质量文献数据库，包含1,726个来源的实验论文和综述文章，由十二位国际专家精选。相比于使用未过滤互联网数据的模型，它能提供更准确的引用和更平衡的观点，避免了将确立理论与推测性理论混合的问题。

Q3：目前大语言模型在科学研究中还有哪些局限性？

A：主要局限包括：时间和上下文理解不足，经常未能识别被推翻的假设；缺乏准确的图像和表格理解能力，更多依赖标题而非视觉分析；在查询语言不匹配时容易遗漏相关论文。这些问题表明AI在成为可靠科研伙伴方面仍需改进。

上一篇：关于未来能源，江苏有哪些超前技术布局？

下一篇：挪威议会批准就爱泼斯坦案设立调查委员会

大语言模型在超导研究领域的专家级评测

相关内容

热门资讯