网易互娱-n星计划-AI工程师二面面试题6道｜含解析

AI百科3个月前发布快创云

60 0

　　以下是改写后的文本：

　　在文末，您将找到13本七月在线内部电子书，供您自取。

　　公众号福利

　　回复【100题】即可获得《名企AI100题》PDF。

　　回复【干货资料】便可领取NLP、CV、ML、大模型等方向的干货资料。

问题解答

1. SFT, LoRA, Reward Model, DPO介绍

SFT (Supervised Fine-Tuning): 通过带标注数据对预训练模型进行微调，以适应特定任务或领域。使用标注好的数据，对模型进行监督学习，通过计算模型生成的输出与标注答案的损失来优化参数。常用于语言生成任务，如聊天机器人或文本生成任务。
LoRA (Low-Rank Adaptation): 一种参数高效微调技术，通过冻结预训练模型的大部分参数，仅对额外引入的低秩矩阵进行优化。核心思想是将权重变化分解为低秩矩阵的形式，减少训练时需要调整的参数数量。适用于需要高效微调的大型模型，如GPT、LLaMA等。
Reward Model: 强化学习中用于量化生成文本优劣的模型，通常通过人类反馈数据（如对话质量评分）训练。基于候选生成的排序结果训练模型，用于指导生成模型的优化（如RLHF过程中的奖励信号）。在对话生成、文本生成等任务中，用于提升生成结果的质量。
DPO (Direct Preference Optimization): 一种直接优化模型偏好的方法，通过使用人类偏好数据优化生成模型。优势在于不需要强化学习过程，减少训练复杂性，直接优化生成的排序偏好。使用人类标注的排序对，目标是让模型更倾向于生成更优的答案。

2. SFT只计算回答部分的损失是否合适？

　　如果任务主要关注回答的质量（如问答系统或对话生成），计算回答部分的损失是合理的。但潜在问题是忽略上下文依赖性，可能导致模型对输入缺乏准确理解。改进方法包括将损失计算范围扩展到包括上下文和回答，或设计加权损失函数，重点关注回答部分，同时考虑上下文的贡献。

3. 模型蒸馏及其损失函数

　　模型蒸馏是一种知识迁移技术，通过训练小模型（学生模型）模仿大模型（教师模型）的行为，旨在减少参数量实现模型的轻量化。损失函数包括硬标签损失（学生模型与真实标签的交叉熵损失）和软标签损失（学生模型与教师模型输出分布的差异损失）。KL散度用于衡量学生和教师概率分布的差异。

4. 交叉熵和KL散度的公式

　　交叉熵用于衡量两个概率分布p和q之间的不确定性；KL散度用于衡量分布q相较于分布p的信息损失。具体公式可根据相关数学定义推导得出。

5. MQA, GQA及MLA介绍

MQA：直接让所有Attention Head共享同一个K、V。
GQA：将所有Head分为g个组（g可整除h），每组共享同一对K、V。
MLA：利用低秩键值联合压缩来降低推理时的KV Cache开销，且性能不输于MHA。

6. Reranker的训练目标及目标不一致问题

　　Reranker的训练目标是提升查询与文档之间匹配的排序效果，常见目标是最大化正样本（query-doc对）的匹配概率。但可能存在目标不一致问题：Reranker关注的是查询与文档的相关性，而非文档对大模型的实际帮助。改进方向包括将下游任务（如大模型使用效果）融入Reranker的训练目标，设计联合优化策略。

　　扫码回复【999】即可免费领取以下13本电子书：
（或联系七月在线其他老师领取）

本网站上的所有资源均来源于本网站，所有网址和文章版权均归原作者所有。如有侵权行为，请将相关证明发送至以下电子邮件地址：dxsen@qq.com

网易互娱-n星计划-AI工程师二面面试题6道｜含解析

问题解答

1. SFT, LoRA, Reward Model, DPO介绍

2. SFT只计算回答部分的损失是否合适？

3. 模型蒸馏及其损失函数

4. 交叉熵和KL散度的公式

5. MQA, GQA及MLA介绍

6. Reranker的训练目标及目标不一致问题

AI聊天软件评测：智能水平、功能丰富度与使用体验全面对比

《ai、ei、ui》教学设计

相关文章

小猴AI课

ai怎么界面颜色该怎么自定义设置？

银行业金融科技竞争加剧 AI大模型成新赛点

警惕！AI去衣技术悄然兴起，你的照片可能正在“裸奔”！

网址

PPT模板、PP案例、PPT课件免费下载网站

音视频内容 AI

标书制作

【官网】闪剪

怪兽AI数字人

蝉镜

热门网址

Huawei Enterprise: Accelerate Industrial Intelligence

快写红薯通AI

畅问AI

慧星云

新壹科技

星火网文助手

滴文

标书制作

AI小说家

百度作家平台

网易互娱-n星计划-AI工程师二面面试题6道｜含解析

问题解答

1. SFT, LoRA, Reward Model, DPO介绍

2. SFT只计算回答部分的损失是否合适？

3. 模型蒸馏及其损失函数

4. 交叉熵和KL散度的公式

5. MQA, GQA及MLA介绍

6. Reranker的训练目标及目标不一致问题

AI聊天软件评测：智能水平、功能丰富度与使用体验全面对比

《ai、ei、ui》教学设计

相关文章

小猴AI课

ai怎么界面颜色该怎么自定义设置？

银行业金融科技竞争加剧 AI大模型成新赛点

警惕！AI去衣技术悄然兴起，你的照片可能正在“裸奔”！

网址

PPT模板、PP案例、PPT课件免费下载网站

音视频内容 AI

标书制作

【官网】 闪剪

怪兽AI数字人

蝉镜

热门网址

Huawei Enterprise: Accelerate Industrial Intelligence

快写红薯通AI

畅问AI

慧星云

新壹科技

星火网文助手

滴文

标书制作

AI小说家

百度作家平台

【官网】闪剪