【AIGC】大模型面试高频考点06-LLM篇-酒店常州论坛

【AIGC】大模型面试高频考点-LLM篇

- （1）介绍LoRA的原理？
- （2）介绍LayerNorm？
- （3）介绍RMSNorm？
- （4）RMSNorm比LayerNorm好?
- （5）Encoder-only、Encoder-Decoder、Decoder-only 的区别？
- （6）为什么现在的LLM都是Decoder only的架构？
- （7）介绍Transformer？
- （8）在BERT中，token分3种情况做mask，分别的作用是什么？
- （9）BERT训练时使用的学习率 warm-up 策略是怎样的？为什么要这么做？
- （10）BERT预训练任务？
- （11）BERT预训练过程的损失函数？
- （12）BERT比ELMo效果好？ELMo和BERT的区别？
- （13）RNN与GNN之间有哪些区别，以及它们各自适用于哪些场景？

（1）介绍LoRA的原理？

LoRA的基本原理是冻结预训练的模型参数，然后在Transfomer的每一层中加入一个可训练的旁路矩阵（低秩可分离矩阵），接着将旁路输出与初始路径输出相加输入到网络当中，并只训练这些新增的旁路矩阵参数。其中，低秩可分离矩阵由两个矩阵组成，第一个矩阵负责降维，第二个矩阵负责升维，中间层维度为r，从而来模拟本征秩（intrinsic rank），这两个低秩矩阵能够大幅度减小参数量。

（2）介绍LayerNorm？

（3）介绍RMSNorm？

（4）RMSNorm比LayerNorm好?

简单来说就是，虽然二者的时间复杂度一致，但是RMSNorm

企业官网建设流程全解析

【AIGC】大模型面试高频考点-LLM篇

（1）介绍LoRA的原理？

（2）介绍LayerNorm？

（3）介绍RMSNorm？

（4）RMSNorm比LayerNorm好?

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

【AIGC】大模型面试高频考点-LLM篇

（1）介绍LoRA的原理？

（2）介绍LayerNorm？

（3）介绍RMSNorm？

（4）RMSNorm比LayerNorm好?

热门文章

文章分类

标签云

相关文章

QTPyLib高级功能：SMS通知、实时仪表板与多算法并行

Steam账号批量创建工具：5个关键功能提升游戏测试效率

从Houdini到UE5：VAT顶点动画纹理的完整避坑指南（含FBX导出、纹理设置、Shader报错解决）

需要专业的网站建设服务？