“深度思维”团队利用大语言模型(LLM)对一个著名的数学问题提出了“新见解”,并通过系统的、迭代的评估框架确保其正确。这一研究或可改进LLM用来解决问题和学习新知识的途径。相关论文发表在14日的《自然》杂志上。
基于人工智能的工具(例如LLM)有时受制于“幻觉”,导致作出看似合理但实际是错误的陈述。加入一个评估步骤,系统地衡量潜在解决方案的准确性,使得利用LLM应对复杂问题成为可能。这些问题一般需要可验证且定义明确,从而使这一工具在数学科学中有潜在价值。
研究团队此次介绍了一种方法,称为“FunSearch”。他们将一组产生创造性解决方案的LLM和一个作为检查者以避免错误建议的评估程序结合起来。接着,将一个多次迭代此过程的演化方法,作为输入来引导LLM。结果表明,这种方法可以得到新的、可验证的正确结果。他们将“FunSearch”应用到了著名的上限集问题(数学中涉及计数和排列领域的一个中心问题),发现了超越最著名上限集的大上限集新构造。
研究人员表示,“FunSearch”的成功关键是它会寻找那些描述怎样解决问题的程序,而非直接寻找解决办法。因为“FunSearch”的结果易于被解释和验证,这意味着这一方法有望激发科学家在该领域的进一步思考。
数学真要成为首个借助AI实现突破的学科吗?一方面,数学家越来越频繁地使用AI;另一方面,AI也很“配合”——既可用于解决编程等应用学科的问题,也可用来攻克包括数学在内的自然学科。本文中这项成果,现阶段可能还不适合解决大多数类型的挑战,但研究团队提出了未来改进的可能。或许在不久之后,“FunSearch”将可用于破解数学界更大范围、更多种多样的难题。
(责任编辑:毕安吉)