【AIGC】大模型面试高频考点-LLM篇
- (1)介绍LoRA的原理?
- (2)介绍LayerNorm?
- (3)介绍RMSNorm?
- (4)RMSNorm比LayerNorm好?
- (5)Encoder-only、Encoder-Decoder、Decoder-only 的区别?
- (6)为什么现在的LLM都是Decoder only的架构?
- (7)介绍Transformer?
- (8)在BERT中,token分3种情况做mask,分别的作用是什么?
- (9)BERT训练时使用的学习率 warm-up 策略是怎样的?为什么要这么做?
- (10)BERT预训练任务?
- (11)BERT预训练过程的损失函数?
- (12)BERT比ELMo效果好?ELMo和BERT的区别?
- (13)RNN与GNN之间有哪些区别,以及它们各自适用于哪些场景?
(1)介绍LoRA的原理?
LoRA的基本原理是冻结预训练的模型参数,然后在Transfomer的每一层中加入一个可训练的旁路矩阵(低秩可分离矩阵),接着将旁路输出与初始路径输出相加输入到网络当中,并只训练这些新增的旁路矩阵参数。其中,低秩可分离矩阵由两个矩阵组成,第一个矩阵负责降维,第二个矩阵负责升维,中间层维度为r,从而来模拟本征秩(intrinsic rank),这两个低秩矩阵能够大幅度减小参数量。
(2)介绍LayerNorm?
(3)介绍RMSNorm?
(4)RMSNorm比LayerNorm好?
简单来说就是,虽然二者的时间复杂度一致,但是RMSNorm