大家好,我是展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。
图书作者:《ESP32-C3 物联网工程开发实战》
图书作者:《SwiftUI 入门,进阶与实战》
超级个体:COC上海社区主理人
特约讲师:大学讲师,谷歌亚马逊分享嘉宾
科技博主:华为HDE/HDG
我的博客内容涵盖广泛,主要分享技术教程、Bug解决方案、开发工具使用、前沿科技资讯、产品评测与使用体验。我特别关注云服务产品评测、AI 产品对比、开发板性能测试以及技术报告,同时也会提供产品优缺点分析、横向对比,并分享技术沙龙与行业大会的参会体验。我的目标是为读者提供有深度、有实用价值的技术洞察与分析。
展菲:您的前沿技术领航员
👋 大家好,我是展菲!
📱 全网搜索“展菲”,即可纵览我在各大平台的知识足迹。
每周定时推送干货满满的技术长文,从新兴框架的剖析到运维实战的复盘,助您技术进阶之路畅通无阻。
文章目录
- 引言
- 一、RNN:第一次让 AI 拥有「记忆」
- 二、为什么 RNN 注定会失败?
- 三、LSTM:给 RNN 加了一块「记忆芯片」
- 四、Transformer:真正改变世界的是并行计算
- 五、为什么最终赢的是 GPT,而不是 BERT?
- 六、MoE:参数越来越大,成本却越来越低
- 七、Agent:AI 正在从模型演变成系统
- 总结:AI 架构演化的真正主线
引言
过去十几年,大模型架构几乎每隔几年就会发生一次革命。
很多人看到的是:
RNN ↓ LSTM ↓ Transformer ↓ GPT ↓ MoE ↓ Agent但真正推动这条演化路线的,并不是论文,而是一个始终没有改变的问题:
如何让 AI 更好地理解上下文,同时以更低的成本完成更复杂的任务?
回顾整个 AI 架构的发展,你会发现每一代模型其实都在解决上一代留下的瓶颈。
今天,我们就从系统架构的角度,回顾这十几年的 AI 架构演化史。
一、RNN:第一次让 AI 拥有「记忆」
在 RNN 出现之前,大多数神经网络都是:
输入 ↓ 计算 ↓ 输出每个词都是独立处理,模型根本不知道:
今天 天气 很好三个词之间存在关联。
RNN 引入了 Hidden State,把上一时刻的信息传递给下一时刻。
整个流程变成:
Token1 ↓ Hidden State ↓ Token2 ↓ Hidden State ↓ Token3模型第一次拥有了:
上下文 顺序 短期记忆机器翻译、语音识别等任务因此取得了巨大突破。
二、为什么 RNN 注定会失败?
RNN 最大的问题不是效果,而是架构。
所有 Token 都必须按顺序计算:
Token1 ↓ Token2 ↓ Token3无法并行,而 GPU 最擅长的是:
矩阵计算随着模型越来越大,GPU 的计算能力越来越强,但 RNN 却无法充分利用这些算力。
同时,Hidden State 还会随着序列变长不断衰减,导致经典的问题:
梯度消失 长期依赖因此,RNN 的瓶颈其实不是算法,而是计算架构。
三、LSTM:给 RNN 加了一块「记忆芯片」
LSTM 可以理解为升级版 RNN,它引入了 Memory Cell,并增加:
Forget Gate Input Gate Output Gate三种门控机制,模型终于可以决定:
哪些信息保留? 哪些信息遗忘?相比普通 RNN,LSTM 能够处理更长的文本,也成为 NLP 的主流架构。
但遗憾的是,它依然保留了 RNN 最大的问题:
串行计算。GPU 利用率始终提不上来。
四、Transformer:真正改变世界的是并行计算
2017 年,《Attention Is All You Need》发布。很多人认为,Transformer 最大的创新是 Self-Attention。
其实,从工程角度来看,真正改变 AI 世界的是:
Transformer 第一次真正拥抱了 GPU。
过去:
Token1 ↓ Token2 ↓ Token3必须依次执行,现在:
所有 Token ↓ 同时进入 Self-Attention ↓ 并行计算训练速度得到数量级提升。Transformer 不仅解决了长期依赖问题,还让 GPU 的计算能力得到充分释放。
AI 开始进入 Scale Up 时代。
五、为什么最终赢的是 GPT,而不是 BERT?
Transformer 发布之后,最先爆火的是:
BERT它采用 Encoder Only 架构,理解能力很强。但真正改变行业的是 GPT。
原因在于 GPT 采用了 Decoder Only 架构,训练目标非常简单:
预测下一个 Token这种方式更容易:
扩展参数 扩展数据 扩展算力于是 OpenAI 发现了著名的:
Scaling Law模型越大,数据越多,算力越强,模型能力几乎持续提升。
GPT 真正改变世界的,并不是架构,而是证明了:
模型可以通过持续扩大规模不断获得更强能力。
六、MoE:参数越来越大,成本却越来越低
随着 GPT 参数不断增长,一个新的问题出现了。例如:
600B 参数每生成一个 Token,都需要激活全部参数。推理成本急剧增加,于是 MoE(Mixture of Experts)开始流行。
它把模型拆成多个 Expert:
Router ↓ Expert 1 Expert 8 Expert 21每次推理只激活少量 Expert。例如:
671B 参数 ↓ 仅激活 37B模型能力保持增长,而推理成本却大幅下降。
DeepSeek、Mixtral、Qwen-MoE 等模型都采用了这一思路。
七、Agent:AI 正在从模型演变成系统
今天,大模型的发展方向已经不再只是:
更大的参数 更高的分数而是:
Planner Memory Tool Workflow Runtime越来越多能力开始从模型内部迁移到系统架构。
传统 GPT:
Prompt ↓ LLM ↓ ResponseAgent:
Goal ↓ Planner ↓ Tool ↓ Memory ↓ LLM ↓ Execution此时,大模型更像 CPU。真正负责完成任务的是 Runtime。
AI 正在从一个模型演变成一个完整的智能系统。
总结:AI 架构演化的真正主线
如果回顾过去十几年的发展,会发现每一次架构升级,其实都是为了突破一个工程瓶颈。
传统神经网络 │ ▼ RNN(解决上下文) │ ▼ LSTM(解决长期依赖) │ ▼ Transformer(解决并行计算) │ ▼ GPT(解决规模扩展) │ ▼ MoE(解决推理成本) │ ▼ Agent(解决任务执行)换句话说,AI 架构的发展从来不是简单的技术迭代,而是一场围绕记忆、计算、扩展、成本和执行能力展开的持续演进。
过去十年,行业竞争的是:
谁的模型更大。未来十年,更重要的问题可能变成:
谁的智能系统效率更高。因为对于下一代 AI 来说,Transformer、GPT、MoE 都只是智能的基础组件,而真正决定生产力的,将是围绕模型构建的 Memory、Planner、Tool 与 Runtime。