网易互娱-n星计划-AI工程师二面面试题6道|含解析

AI百科3个月前发布 快创云
60 0

  以下是改写后的文本:

  在文末,您将找到13本七月在线内部电子书,供您自取。

  公众号福利

  回复【100题】即可获得《名企AI100题》PDF

  回复【干货资料】便可领取NLP、CV、ML、大模型等方向的干货资料。

问题解答

1. SFT, LoRA, Reward Model, DPO介绍

  • SFT (Supervised Fine-Tuning): 通过带标注数据对预训练模型进行微调,以适应特定任务或领域。使用标注好的数据,对模型进行监督学习,通过计算模型生成的输出与标注答案的损失来优化参数。常用于语言生成任务,如聊天机器人或文本生成任务。
  • LoRA (Low-Rank Adaptation): 一种参数高效微调技术,通过冻结预训练模型的大部分参数,仅对额外引入的低秩矩阵进行优化。核心思想是将权重变化分解为低秩矩阵的形式,减少训练时需要调整的参数数量。适用于需要高效微调的大型模型,如GPT、LLaMA等。
  • Reward Model: 强化学习中用于量化生成文本优劣的模型,通常通过人类反馈数据(如对话质量评分)训练。基于候选生成的排序结果训练模型,用于指导生成模型的优化(如RLHF过程中的奖励信号)。在对话生成、文本生成等任务中,用于提升生成结果的质量。
  • DPO (Direct Preference Optimization): 一种直接优化模型偏好的方法,通过使用人类偏好数据优化生成模型。优势在于不需要强化学习过程,减少训练复杂性,直接优化生成的排序偏好。使用人类标注的排序对,目标是让模型更倾向于生成更优的答案。

2. SFT只计算回答部分的损失是否合适?

  如果任务主要关注回答的质量(如问答系统或对话生成),计算回答部分的损失是合理的。但潜在问题是忽略上下文依赖性,可能导致模型对输入缺乏准确理解。改进方法包括将损失计算范围扩展到包括上下文和回答,或设计加权损失函数,重点关注回答部分,同时考虑上下文的贡献。

3. 模型蒸馏及其损失函数

  模型蒸馏是一种知识迁移技术,通过训练小模型(学生模型)模仿大模型(教师模型)的行为,旨在减少参数量实现模型的轻量化。损失函数包括硬标签损失(学生模型与真实标签的交叉熵损失)和软标签损失(学生模型与教师模型输出分布的差异损失)。KL散度用于衡量学生和教师概率分布的差异。

4. 交叉熵和KL散度的公式

  交叉熵用于衡量两个概率分布p和q之间的不确定性;KL散度用于衡量分布q相较于分布p的信息损失。具体公式可根据相关数学定义推导得出。

5. MQA, GQA及MLA介绍

  • MQA:直接让所有Attention Head共享同一个K、V。
  • GQA:将所有Head分为g个组(g可整除h),每组共享同一对K、V。
  • MLA:利用低秩键值联合压缩来降低推理时的KV Cache开销,且性能不输于MHA。

6. Reranker的训练目标及目标不一致问题

  Reranker的训练目标是提升查询与文档之间匹配的排序效果,常见目标是最大化正样本(query-doc对)的匹配概率。但可能存在目标不一致问题:Reranker关注的是查询与文档的相关性,而非文档对大模型的实际帮助。改进方向包括将下游任务(如大模型使用效果)融入Reranker的训练目标,设计联合优化策略。


  扫码回复【999】即可免费领取以下13本电子书:
(或联系七月在线其他老师领取)

© 版权声明

相关文章