大模型是指具有大规模参数和复杂计算结构的机器学习模型。本文从大模型的发展历程出发,对大模型领域的各个技术细节进行详细解读,供大家在了解大模型基本知识的过程中起到一定参考作用。
一、大模型的定义
大语言模型作为一个被验证可行的方向,其“大”体现在训练数据集广,模型参数和层数大,计算量大,其价值体现在通用性上,并且有更好的泛化能力。这些模型通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数。大模型的设计目的是为了提高模型的表达能力和预测性能,能够处理更加复杂的任务和数据。
二、大模型相关概念区分
- 大模型(Large Model, Foundation Model):具有大量参数和复杂结构的机器学习模型,能够处理海量数据、完成各种复杂的任务,如自然语言处理、计算机视觉、语音识别等。
- 超大模型:超大模型是大模型的一个子集,它们的参数量远超过大模型。
- 大语言模型(Large Language Model):通常是具有大规模参数和计算能力的自然语言处理模型,例如OpenAI的GPT-3模型。
- GPT(Generative Pre-trained Transformer):GPT和ChatGPT都是基于Transformer架构的语言模型,但它们在设计和应用上存在区别。GPT模型旨在生成自然语言文本并处理各种自然语言处理任务,而ChatGPT则专注于对话和交互式对话。
三、大语言模型的发展
1. Transformer模型的提出
在Transformer提出之前,自然语言处理领域的主流模型是循环神经网络RNN。2017年,谷歌大脑团队在NeurIPS发表了一篇论文,首次提出了一种新的简单网络架构——Transformer,它完全基于注意力机制,完全摒弃了循环递归和卷积。
2. 生成式预训练初现潜力:GPT-1
2018年,OpenAI公司发表了论文“Improving Language Understanding by Generative Pre-training”,使用的模型有两个阶段:第一阶段是无监督预训练,第二阶段基于标注数据进行参数微调。GPT-1采用了12层Transformer的结构作为解码器,每个Transformer层是一个多头的自注意力机制。
3. 泛化能力突破:GPT-2
2019年,OpenAI发表了GPT-2的论文,重点实践了更大的模型更广的数据集具有更好的泛化能力。GPT-2是48层,共有15亿个参数的transformer,训练集叫WebText,是从4500万个链接提取文本去重后得到的800万文档共40GB文本。
4. 更大参数更大数据集:GPT3
GPT3通过调大参数(1750亿)来测试in-context学习能力,并在没有finetune情况下得到以下数据。在参数不断增加的同时,分为三种场景看回答准确率表现:Zero-shot(0样本),One-shot(只给一个标准样本),Few-shot(少量标准样本)。
5. 火爆的ChatGPT:GPT 3.5
2022年3月,OpenAI再次发表论文“Training language models to follow instructions with human feedback”,通过人工反馈和微调使语言模型与用户对各种任务的意图保持一致。并推出了InstructGPT模型,基于GPT-3的一轮增强优化,所以也被称为GPT-3.5。ChatGPT采用InstructGPT相同结构的模型,针对Chat进行了专门的优化。
四、主要技术细节
从数学或机器学习的角度来看,语言模型都是对词语序列的概率相关性分布的建模。GPT生成式预训练模型也是根据语料概率来自动生成回答的每一个字,ChatGPT在此基础上通过使用基于人类反馈的强化学习(RLHF)来干预增强学习以取得更好效果。
1. Transformer编解码组件结构
Transformer本质上是一个Encoder-Decoder架构,包括编码组件和解码组件。每个编码器由两个子层组成:Self-Attention层和Position-wise Feed Forward Network(前馈网络)。解码器也有编码器中这两层,但是它们之间还有一个编解码注意力层,用来帮助解码器关注输入句子中需要关注的相关部分。
2. Self-Attention原理
Self-Attention解决了文本关注距离的限制问题。在self-attention中,每个单词有3个不同的向量:Query向量(Q),Key向量(K)和Value向量(V)。它们是通过3个不同的权值矩阵由嵌入向量X乘以三个不同的权值矩阵W^Q, W^K, W^V得到。
3. 多注意头机制
Multi-headed attention增强了自注意能力,其一是扩展了关注的位置,使之同时关注多个不同位置;其二是它为注意力层提供了多个“表示子空间”。因此多注意头本质上是用更多个角度进行注意力计算再统一起来,能够增强对句子上下文的完整理解。
ChatGPT是如何提升训练效果的?
ChatGPT的背后是大型语言模型(LLM)生成领域的新训练范式:RLHF(基于来自人类反馈的强化学习来优化语言模型)。具体流程包括:预训练一个语言模型;聚合问答数据并训练一个奖励模型;用强化学习方式微调LM。最终ChatGPT能够更好理解指令的意图,并且按指令完成符合训练者价值观的输出。