近日,研究人员发现,经过微调后的类ChatGPT系统展现出在化学研究领域的惊人天赋,能够精确预测分子和材料的特性或反应的产率。这一发现为化学实验室带来了强大的新工具,无需复杂的机器学习模型即可获得深入的化学见解。
大型语言模型(LLM)是在大量文本集合上训练的人工神经网络,通过统计预测来生成响应。为了探索LLM在化学领域的应用潜力,计算化学家Kevin Jablonka及其团队对GPT-3进行了微调。他们首先从文献中收集有关化合物或材料的信息,并将其格式化为问答形式。然后,将这些数据发送到OpenAI,以添加到LLM的训练集中。经过微调的系统能够回答有关原始化合物或材料的预测问题,即使这些化合物或材料并未明确包含在输入数据中。
研究团队测试了微调后的GPT-3在回答有关“高熵”合金查询方面的能力。高熵合金由大致等量的两种或多种金属制成,其金属如何混合一直是个谜。然而,经过微调的GPT-3能够正确猜测其中一种合金中的金属如何排列。此外,当要求系统回答有关训练数据中未包含的“未知”材料的问题时,其准确性与更专业的化学机器学习工具相当,甚至与计算机模拟的结果相当。
研究人员还证明了,当他们微调GPT-3的开源版本GPT-J时,可以获得类似的结果。这意味着预算较少的实验室也能够开发自己的版本,而无需付费或寻求商业帮助。这一技术的民主化使得更多化学家能够受益于机器学习的力量。
化学工程师Andrew White表示,该技术能够仅根据化合物的化学式进行预测,这一事实非常令人惊讶。他已经在自己的新项目中使用了这种方法,例如基于微调LLM设计新催化剂。White认为,这是他们在开展新项目时尝试的第一种方法。
尽管该方法需要人类收集信息并准备LLM输入,但Jablonka及其团队的目标是设计未来的版本,能够自动从现有文献中挖掘文本并实现这一步骤。这一进步将为化学研究带来更高效、更便捷的解决方案,推动科学领域的快速发展。
总之,经过微调后的类ChatGPT系统展现出在化学研究领域的惊人天赋,为化学实验室提供了强大的新工具。这一技术的民主化将使得更多化学家能够受益于机器学习的力量,推动化学领域的快速发展。未来,随着技术的不断进步和完善,我们期待看到更多创新应用的出现。