复旦张奇:AI能参加高考,但做不对小学数学?

AI百科6个月前更新 快创云
49 0

2024年“复旦管院·兴动ESG大讲堂”聚焦AI与ESG的碰撞与合力

  2024年10月23日,由兴证全球基金、兴银理财和复旦大学管理学院主办的“投资·新质:复旦管院·兴动ESG大讲堂”年度论坛圆满落幕。本次论坛聚焦AI和ESG的碰撞与合力,荟萃各界嘉宾探寻新质生产力在产业和投资的落地方向。复旦大学计算机科学技术学院教授、上海市智能信息处理重点实验室副主任张奇发表主题演讲《大语言模型的能力边界与发展思考》,全文摘录如下:

  大家好,我是张奇,非常高兴今天能在这里向各位专家、老师、同学汇报我们关于大模型的一些思考。大模型在近两年内真正大规模发展起来,其中涉及众多技术点和路径,大家的理解可能存在较大差距。我在此分享的观点仅代表我个人。

AI大模型:拿锤找了一年的钉子

  大模型在2022年10月底刚问世,到2023年,大家发现大模型无处不在,既能替代医生,又能写代码,还能完成复杂的任务。于是,我们拿着锤子到处砸,找了一年的钉子。但结果似乎总是差那么一口气。例如,用模型生成的大模型砸钉子的图片,虽然看似合理,但仔细观察会发现不是缺鼻子少眼,就是砸的位置不好看,表达不出意境。

风险提示:图片由模型生成

  随着ChatGPT o1的出现,大家开始认为又一场革命来临,它颠覆了博士学位水平。我们连夜测试了两个简单的任务:9.11和9.8哪个大。模型仍然会告诉你9.11大。如果你让它再思考一下,它可能会改过来。但如果你说“Strawberry”有几个字母“R”,它仍然会回答两个。

  在相关科学问答上,ChatGPT o1确实比GPT4有了大幅提升,从不到60分提高到92.8分。然而,它在小学应用题上表现很好,但如果题目稍有变形,准确率会大幅下降。例如,加入一个与答题无关的数字会影响模型的准确率。这表明大模型在面对复杂任务时存在局限性。

AI大模型真正在做的事情:文字接龙

  我认为最关键的是回归到大语言模型的基础理论,明确其工作范围才能确定其上限。语言模型已经应用多年,例如拼音输入法、机器翻译和OCR等背后都是语言模型。其核心是根据前面的字预测下一个字的概率,并选择最高概率的字。无论是GPT、GPT2还是GPT3,甚至现在的ChatGPT-4和o1,都是基于这一原理进行微调。

ChatGPT的实现路径

  OpenAI在2022年3月份决定将所有任务合并到一起去微调语言模型。这一技术路线使得模型能够完成多种任务,例如生成诗歌、数学题和基金经理名字等。然而,这一过程中存在争议。预训练阶段主要是知识的压缩和表示;有监督微调阶段则是注入能力;最后阶段是与人类对齐,提升生成式任务的能力。

每一阶段所赋予的能力

  预训练阶段:记不住第九长河和第十高峰。预训练阶段需要大量数据支持,但领域知识很难记住。例如,问中国第九长河和第十高峰是什么,模型往往答不对。有监督微调阶段:完成某领域知识问答仅需60条训练数据。然而,这60条数据的选择对模型效果至关重要。不同模型对数据的需求差异巨大。奖励函数和强化学习阶段:选择正规渠道购买考试作弊设备。大模型获取能力的第三个阶段是奖励函数和强化学习。例如,防止模型推荐购买考试作弊设备需要强化学习技术。

总的来说

  单个模型在自然语言处理上有了很大提升,但仍有待优化。大模型可以完成数千种任务,但仍需逐项优化。目前大模型在记忆、理解和应用方面仍有局限。未来大模型的发展路径包括两条:一是追求AGI(通用人工智能),二是做特定任务应用。选择场景时需注意验证难易程度和任务工作量。

  最后,我们正在做科技向善的工作,在安卓端上线了“听见世界”,希望大家能够支持。以上就是我的介绍,谢谢大家!

© 版权声明

相关文章