13本七月在线内部电子书在文末,自取~
公众福利
回复【100题】《名企AI100题》PDF
回复【干货资料】NLP、CV、ML、大模型等方向干货资料
问题1、介绍一下SFT,lora,reward model,DPO
SFT (Supervised Fine-Tuning)
定义 SFT是一种通过带标注数据对预训练模型进行微调的技术,用于适应特定任务或领域。
过程
使用标注好的数据(例如,问题-回答对)。
对模型进行监督学习,通过计算模型生成的输出与标注答案的损失来优化参数。
应用 在语言生成任务中,如聊天机器人或文本生成任务。
LoRA (Low-Rank Adaptation)
定义 LoRA是一种参数高效微调技术,通过冻结预训练模型的大部分参数,仅对额外引入的低秩矩阵进行优化。
核心思想 将权重变化分解为低秩矩阵的形式,减少训练时需要调整的参数数量。
优点
减少显存消耗。
支持多任务快速微调。
应用 适用于需要高效微调的大型模型(如GPT、LLaMA等)。
Reward Model
定义 Reward Model是强化学习中用于量化生成文本优劣的模型,通常通过人类反馈数据(如对话质量评分)训练。
过程
基于对候选生成的排序结果训练模型。
用于指导生成模型的优化(如RLHF过程中的奖励)。
应用 在对话生成、文本生成等任务中,用于提升生成结果的质量。
DPO (Direct Preference Optimization)
定义 DPO是一种直接优化模型偏好的方法,通过使用人类偏好数据优化生成模型。
优势
不需要强化学习过程,减少训练复杂性。
直接优化生成的排序偏好。
关键点
使用人类标注的排序对(例如A比B更好)。
目标是让模型更倾向于生成更优的答案。
问题2、SFT只计算回答部分的损失合适吗?
适用场景
如果任务主要关注回答的质量(如问答系统或对话生成),计算回答部分的损失是合理的。
潜在问题
忽略上下文依赖性 有时模型的回答质量与输入的理解紧密相关,仅计算回答部分可能导致模型对输入缺乏准确理解。
对齐不完整 如果回答部分的损失未能涵盖输入-输出对的全局关系,可能会影响模型的综合性能。
改进方法
将损失计算范围扩展到包括上下文和回答。
设计加权损失函数,重点关注回答部分,同时考虑上下文的贡献。
问题3、模型蒸馏了解吗?损失是什么?可以用KL散度吗
模型蒸馏 (Model Distillation)
定义 模型蒸馏是一种知识迁移技术,通过训练小模型(学生模型)模仿大模型(教师模型)的行为。
目标 在保持性能的前提下,通过减少参数量实现模型的轻量化。
损失函数
硬标签损失 学生模型与真实标签的交叉熵损失。
软标签损失 学生模型与教师模型输出分布的差异损失。
KL 用于衡量学生和教师概率分布的差异。
问题4、交叉熵和KL散度的公式是什么
交叉熵:衡量两个概率分布p和q之间的不确定性。
KL散度:衡量分布q相较于分布p的信息损失。
问题5、MQA,GQA是什么,deepseek的MLA了解了吗
MQA,直接让所有Attention Head共享同一个K、V;
GQA,将所有Head分为g个组(g可以整除h),每组共享同一对K、V。
Multi-head Latent Attent(简称MLA),MLA利用低秩键值联合压缩(low-rank key-value joint compression)来降低推理时的KV Cache开销,且性能不输于MHA。
问题6、reranker的训练目标?训练目标和我们希望的目标是否有不一致的地方,就比如训练时q-d对的匹配概率,但我们希望是检索的文档对大模型有用,这两个目标是否存在不一致呢?
训练目标
定义提升查询与文档之间匹配的排序效果。
常见目标最大化正样本(query-doc对)的匹配概率。
目标不一致问题
现象
训练目标 提高匹配概率。
实际需求 提供对下游模型更有用的文档。
原因
Reranker关注的是查询与文档的相关性,而非文档对大模型的实际帮助。
模型优化方向可能不同。
改进方向
将下游任务(如大模型使用效果)融入Reranker的训练目标,例如设计联合优化策略,既考虑匹配概率又关注下游效果。
↓以下13本书电子版免费领,直接送↓
扫码回复【999】免费领13本电子书
(或找七月在线其他老师)