新智元发布
【新智元导读】近日,关于GPT模型在训练集外推理能力的争议再度升级。一位开发者坚信GPT模型无法应对复杂推理任务,甚至提出了1万美元的奖金挑战。然而,这一观点很快就被网友的巧妙提示所打破。ChatGPT再次展示了其潜力,让许多看似不可能的任务变得可行。
开发者Taelin,同时也是初创公司Higher Order的创始人,提出了一项挑战:任何能使用大型语言模型(LLM)解决特定脑筋急转弯问题的人,都将获得10000美元的奖金。他认为,这个问题能够证明GPT模型在训练集之外缺乏推理能力,无法实现通用人工智能(AGI)。然而,这一观点在两天内就遭到了挑战者的质疑。
一位网友通过精细设计的提示,成功引导GPT-4和Claude 3几乎达到了100%的正确率。这一成果迅速引发了广泛讨论,并迫使Taelin撤回最初的声明。他承认,自己最初的主张是错误的,GPT模型确实有能力解决某些复杂的推理问题。同时,他也如约支付了10000美元奖金。
沃顿商学院教授Ethan Mollick对此现象进行了评论:“很多时候,我们误以为LLM无法解决的问题,其实只需要更好的提示就能解决。”
问题具体涉及到一个称为A::B的系统,该系统包含四个token:A#、#A、B#和#B。要计算一个程序,必须根据特定规则重写相邻的token。尽管Taelin认为这个问题能够证明GPT模型的局限性,但网友们的提示却让模型成功解决了这一问题。
随着挑战的深入进行,多位开发者在短时间内提交了解决方案。其中,Claude-3 Opus在精心设计的提示下展现出了惊人的能力,不仅成功解决了问题,而且错误率几乎为零。此外,GPT-4和GPT-3.5也取得了显著的成绩。最终,一位名为futuristfrog的网友以近乎100%的成功率完成了挑战,赢得了奖金。
此次挑战引发了关于LLM和GPT模型能力的广泛讨论。尽管有观点认为这个问题可能受到token化的影响,但大多数人认为这并非根本原因。实际上,GPT模型在处理规则排列的token空间布局方面仍有待提高。尽管如此,这些模型已经展示了它们在解决现实世界问题中的强大能力。
Taelin在解释自己的初衷时表示,他相信GPT模型缺乏持续推理能力,无法应对训练集之外的新问题。然而,这一观点在挑战中被证明是过于狭隘的。他进一步指出,尽管GPT模型在权重中“演化出了一位电路设计师”,但注意力机制的固定性限制了其灵活性。尽管如此,他仍然相信通用人工智能的即将到来。
此次事件再次证明了大型语言模型的潜力及其在实际应用中的价值。随着技术的不断进步,我们有理由期待未来会有更多令人惊叹的突破。