【AIGC】大模型面试高频考点06-LLM篇
2026/4/23 15:04:37 网站建设 项目流程

【AIGC】大模型面试高频考点-LLM篇

    • (1)介绍LoRA的原理?
    • (2)介绍LayerNorm?
    • (3)介绍RMSNorm?
    • (4)RMSNorm比LayerNorm好?
    • (5)Encoder-only、Encoder-Decoder、Decoder-only 的区别?
    • (6)为什么现在的LLM都是Decoder only的架构?
    • (7)介绍Transformer?
    • (8)在BERT中,token分3种情况做mask,分别的作用是什么?
    • (9)BERT训练时使用的学习率 warm-up 策略是怎样的?为什么要这么做?
    • (10)BERT预训练任务?
    • (11)BERT预训练过程的损失函数?
    • (12)BERT比ELMo效果好?ELMo和BERT的区别?
    • (13)RNN与GNN之间有哪些区别,以及它们各自适用于哪些场景?

(1)介绍LoRA的原理?

LoRA的基本原理是冻结预训练的模型参数,然后在Transfomer的每一层中加入一个可训练的旁路矩阵(低秩可分离矩阵),接着将旁路输出与初始路径输出相加输入到网络当中,并只训练这些新增的旁路矩阵参数。其中,低秩可分离矩阵由两个矩阵组成,第一个矩阵负责降维,第二个矩阵负责升维,中间层维度为r,从而来模拟本征秩(intrinsic rank),这两个低秩矩阵能够大幅度减小参数量。

(2)介绍LayerNorm?

(3)介绍RMSNorm?

(4)RMSNorm比LayerNorm好?

简单来说就是,虽然二者的时间复杂度一致,但是RMSNorm

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询