将自然语言的词使用向量表示,一般构造词语字典,然后使用one-hot表示。
例如2个单词,苹果,香蕉对应one-hot,苹果(1,0),香蕉(0,1)
无法表达词语之间的关系效率不高
词嵌入embedding,继续叫词向量也可以,对语言模型进行预训练,通过使用大量的现有文章,资料等,让词向量具备语言信息,2个训练方式:
CBOW(continuous Bag-of-Words Model),根据上下文,预测当前词语出现概率的模型)
Skip-gram,根据当前词预测上下文
经过预训练后的词向量,在空间上附带了额外的信息,有效提高了模型的效果,并且可以在后续各个任务,场景中迁移使用(迁移学习),这就是大语言模型中的预训练模型初始原型。
低维向量表达语义相似向量空间相近迁移学习
有效处理序列数据短期记忆与选择性遗忘文本生成、识别、图像描述等
支持并行训练替代RNN与CNN完形填空
BERT-个任务一个模型GPT基于prompt范式训川练模型
参数:复杂度
不具备记忆能力,上下文窗口限制实时信息更新慢,新旧知识难以区分无法灵活的操控外部系统无法为领域问题,提供专业靠谱的答案
Maas:Model as a Serivce模型即服务,通过“微调”技术,在LLM基础上灌入行业数据,实现行业模型
prompt engineering:提示词工程,通过上下文提示词设计引导LLM输出精确答案
openAI 全量一次几千万美金
模型层面竞争日趋激烈,而AI应用则市场广阔,可以说所有的应用都值得用AI重新做一遍
AI+金融 AI+医疗 AI+教育
AI+制造业 AI+零售 AI+
AI+家居 AI+农林牧渔 AI+文旅
AI+汽车 AI+能源 AI+科研
AI+公共管理 AI+物流快递
LLM大语言模型的核心思想是通过训练大量文本数据,学习语言的语法、语义和上下文信息。这些模型通常采用深度学习技术,例如神经网络,来学习文本数据中的模式和规律。在训练过程中,模型会不断优化其参数,以提高对文本数据的建模能力。
大型语言模型的训练方法主要包括预训练和微调两个阶段。
(1)预训练:预训练阶段旨在学习语言的通用表示。预训练任务包括语言建模、掩码语言建模、下一句预测等。在预训练过程中,模型通过学习大量文本数据,优化其参数,提高对文本数据的建模能力。
(2)微调:微调阶段针对具体任务对预训练模型进行优化。微调任务可以是文本分类、机器翻译、情感等。在微调过程中,模型在特定任务的数据集上进行训练,调整其参数,以适应任务需求。
大型语言模型在自然语言处理领域具有广泛的应用场景,包括:
(1)文本生成:大型语言模型可以生成各种类型的文本,如新闻报道、故事、诗等。这些应用可以用于内容创作、智能写作等场景。
(2)文本分类:大型语言模型可以用于对文本进行分类,如情感、主题分类等。这些应用可以用于舆情、信息检索等场景。
(3)机器翻译:大型语言模型可以用于机器翻译任务,将一种语言的文本翻译为另一种语言。这些应用可以用于跨语言交流、国际化等场景。
(4)问答系统:大型语言模型可以用于构建问答系统,回答用户提出的问题。这些应用可以用于智能客服、知识查询等场景