按时间先后与逻辑关联顺序,梳理自 OpenAI 出现至今,AI 领域主流新概念的完整演进图谱。100+ 概念,67 条速查,从词向量到 Agent 经济,一册通晓。
最后更新:2026-06-30
目录
前置:📊 概念速查表 · 🗺️ 建议学习路径
- 奠基时代(2017 之前)
- Transformer 革命(2017-2018)
- 预训练规模化时代(2019-2020)
- ChatGPT 爆发与 LLM 产业化(2022-2023)
- RAG 与工具生态(2023)
- Agent 智能体时代(2023-2024)
- 插件、GPTs 与 Skills 技能系统(2023-2025)
- 推理模型与深度思考(2024-2025)
- Agentic AI 与全栈智能(2025-2026)
- 其他重要概念补遗
📊 概念速查表
一表纵览 67 条概念的出现顺序、一句话解释与代表产品/论文。阅读正文前可先扫一遍,建立全局认知。
按出现时间排序
| 时间 | 概念 | 一句话解释 | 代表 |
|---|---|---|---|
| 2013 | Word Embedding | 把词语变成向量,语义相近向量也近 | Word2Vec (Google), GloVe (Stanford) |
| 2014 | Seq2Seq | 编码器-解码器架构,机器翻译的基础 | Google GNMT, Sutskever et al. |
| 2015 | Attention | 解码时动态关注输入的不同部分 | Bahdanau Attention, Luong Attention |
| 2017.06 | Transformer | 抛弃 RNN,全靠注意力,LLM 的基石 | “Attention Is All You Need” (Google) |
| 2018.06 | GPT-1 | 预训练+微调范式的开创者 | OpenAI GPT-1, 1.17 亿参数 |
| 2018.10 | BERT | 双向理解上下文,NLP 标配 | Google BERT-Base/Large, 3.4 亿参数 |
| 2019.02 | GPT-2 | 15 亿参数,首次展示 Zero-shot 能力 | OpenAI GPT-2, 分阶段发布 |
| 2020.01 | Scaling Laws | 更大模型+更多数据=可预测地更强 | OpenAI Scaling Laws 论文 (Kaplan et al.) |
| 2020.05 | GPT-3 | 1750 亿参数,涌现能力的标志 | OpenAI GPT-3 (davinci), API 商业化 |
| 2020.05 | Few-shot / ICL | 不给示例也能做新任务 | GPT-3 上下文学习, 无需微调 |
| 2022.01 | CoT | "让我们一步步思考"大幅提升推理 | “Let’s think step by step” (Google) |
| 2022.01 | RLHF | 人类反馈训练,让模型"听人话" | InstructGPT, ChatGPT |
| 2022.03 | Chinchilla Laws | 模型大小和数据量应等比增长 | DeepMind Chinchilla, 70B 超越 280B |
| 2022.03 | Self-Consistency | 多次推理取共识,大幅提升准确率 | Google Self-Consistency 论文 |
| 2022.11 | ChatGPT | AI 进入大众视野的引爆点 | ChatGPT, 2 个月破亿用户 |
| 2022.12 | Constitutional AI | 用宪法原则约束 AI 行为 | Anthropic Claude 1/2/3 系列 |
| 2023.01 | Prompt Engineering | 设计和优化提示词的系统方法论 | Anthropic Prompt Library, LangChain Hub |
| 2023.02 | RAG | 检索+生成,对抗幻觉,接入私有知识 | Meta RAG 论文, LangChain/LlamaIndex |
| 2023.03 | GPT-4 | 多模态,推理飞跃 | OpenAI GPT-4, 首次通过律师考试 |
| 2023.03 | AutoGPT | 自主 Agent 的开端 | AutoGPT (GitHub 16 万星), BabyAGI |
| 2023.03 | ChatGPT Plugins | AI 应用商店的首次尝试 | Expedia / Wolfram / Zapier / Code Interpreter |
| 2023.05 | DPO | 不需要奖励模型,RLHF 一步到位 | Stanford DPO 论文, Llama 3 对齐 |
| 2023.06 | Function Calling | LLM 能调用外部工具了 | OpenAI Function Calling API |
| 2023.07 | Ollama / llama.cpp | 一键本地运行 LLM,AI 民主化 | Ollama, llama.cpp (Georgi Gerganov) |
| 2023.09 | Multimodal | 模型能看图、理解图像内容 | GPT-4V, Gemini 1.0, LLaVA |
| 2023.10 | Multi-Agent | 多个 Agent 协作完成复杂任务 | CrewAI, AutoGen (Microsoft), MetaGPT |
| 2023.11 | GPTs | 零代码创建定制 AI + 应用商店 | OpenAI GPT Store, 自定义 GPT |
| 2023.12 | MoE | 总参数大但每次只激活一小部分 | Mixtral 8×7B (Mistral AI) |
| 2024.05 | 原生多模态 | 文本+图像+音频统一端到端处理 | GPT-4o, Gemini 1.5 Flash |
| 2024.06 | Skills / Slash Commands | AI 能力打包为可复用模块 | Claude Code Skills, Cursor Rules |
| 2024.06 | Artifacts | 对话中渲染交互式富媒体内容 | Claude Artifacts |
| 2024.08 | Prompt Caching | 缓存 prompt 前缀,成本-90% | Anthropic/OpenAI Prompt Caching |
| 2024.08 | Structured Output | 强制 LLM 输出符合 JSON Schema | OpenAI JSON Mode, Anthropic Structured Output |
| 2024.09 | o1 推理模型 | 内部长时间思考再回答 | OpenAI o1-preview / o1-mini |
| 2024.10 | Computer Use | AI 直接操控电脑屏幕和键鼠 | Anthropic Computer Use (Claude) |
| 2024.11 | MCP | AI 连接外部世界的标准协议 | Anthropic Model Context Protocol |
| 2025.01 | DeepSeek-R1 | 开源推理模型,极低成本比肩 o1 | DeepSeek-R1, MIT 开源 |
| 2025.02 | Deep Research | AI 自主多轮搜索+多源验证+报告 | OpenAI Deep Research, Gemini Deep Research |
| 2025.03 | Agent SDK | 构建 Agent 的官方编程框架 | OpenAI Agents SDK, Anthropic Agent SDK |
| 2025.05 | Hooks | 会话生命周期事件自动触发 | Claude Code Hooks (SessionStart 等) |
| 2025.06 | Agentic Workflows | Agent + 编排 = 完整业务流程 | Claude Code Workflows, LangGraph |
| 2025.06 | Model Distillation | 大模型推理能力蒸馏给小模型 | DeepSeek-R1 → Qwen-7B / Llama-8B |
| 2025.07 | MCP 生态爆发 | 协议→生态,数百 Server 即插即用 | MCP Server: GitHub, Slack, Postgres, Puppeteer… |
| 2025.08 | Vibe Coding | 自然语言描述意图,AI 实现代码 | Karpathy 命名, Claude Code / Cursor / Lovable / Bolt |
| 2025.08 | Context Engineering | 上下文成为需要精心设计的"一等公民" | CLAUDE.md, Cursor Rules, Copilot Instructions |
| 2025.09 | Persistent Agents | Agent 持续运行数小时甚至数天 | Claude Code 后台 Agent, GitHub Copilot Agent Mode |
| 2025.09 | Terminal-Native Agents | 终端原生的 AI Agent 产品品类 | Claude Code, Warp AI, Cursor Terminal |
| 2025.10 | Web Agents | Agent 自主浏览网页、填表、提取 | Browser-Use (开源), OpenAI Operator |
| 2025.10 | Agent Swarms | 数十上百 Agent 并行,大规模协作 | Claude Code Workflows, AutoGen Swarm |
| 2025.11 | Sub-Agent Spawning | Agent 按需创建子 Agent 委派任务 | Claude Code 子 Agent, AutoGen 嵌套 Agent |
| 2025.11 | OpenClaw (Clawdbot) | 开源个人 AI Agent 网关,消息平台接入+技能市场 | Peter Steinberger, 373K+ GitHub Stars |
| 2025.12 | Worktree Isolation | Agent 在隔离 Git worktree 中并行工作 | Claude Code Worktree, Git worktree |
| 2026.01 | Memory-as-a-Service | 跨会话持久 Agent 记忆成独立赛道 | Mem0, Claude Memory,Hermes Agent |
| 2026.02 | Agent-to-Agent Protocol | Agent 间通信协商交易的标准协议 | Google A2A, Anthropic Agent Protocol |
| 2026.03 | Reasoning Effort Control | 精确控制模型思考深度和预算 | Claude Opus 4.8 budget_tokens, o4 推理级别 |
| 2026.04 | AI-Native Development | AI 成为主要代码贡献者,人做 review | Claude Code, Cursor, GitHub Copilot, Devin |
| 2026.05 | Multimodal Agent | 能看+听+说+操作,理解完整场景 | GPT-4o + Operator, Gemini 2.5 + Browser |
| 2026.06 | Agentic by Default | AI 工具默认以 Agent 模式运行 | Claude Code, ChatGPT Agent, Copilot Agent |
按功能分类
📐 基础架构层: Transformer → Token/Tokenizer → Embedding → 上下文窗口 → Streaming → Perplexity 🧠 模型层: LLM → GPT系列 → 预训练 → 微调 → LoRA → 量化 → MoE → 蒸馏 → 推测解码 → Scaling Laws → Chinchilla Laws → Model Merging 🤔 推理层: Prompt → CoT → Few-shot/Zero-shot → Self-Consistency → System 2 慢思考 → 推理模型 → Extended Thinking 🔧 工具层: Function Calling → Tool Use → MCP → Computer Use → Plugins → GPTs → Artifacts 🎯 Skills 技能层: Skills → Slash Commands → Hooks → Custom Instructions → Rules 🤖 Agent 层: Agent → ReAct → AutoGPT → 多Agent → Agentic Workflow → Deep Research → Persistent Agent → Agent Swarm → Sub-Agent → A2A Protocol → Agent Economy 📚 知识层: RAG → 向量数据库 → LangChain → LlamaIndex → Prompt Caching → Context Engineering → 大海捞针 🛡️ 安全层: Hallucination → RLHF → DPO → Constitutional AI → Red Teaming → Jailbreak防御 → Guardrails → Structured Output 📊 运维层: Evals → Benchmarks → LLMOps → Observability → Human-in-the-Loop → Memory-as-a-Service → Reasoning Effort Control 🏭 领域 AI / 个人 Agent 层: Hermes Agent (三层记忆+自我推理) → OpenClaw (开源个人 Agent 网关) → 每个人都有的数字助手 → Agent 大众化 💻 本地化层: llama.cpp → GGUF → Ollama → 量化推理 → 端侧AI 🌐 新兴范式 (2025-2026): Vibe Coding → Terminal-Native Agent → Web Agent → Worktree Isolation → Multimodal Agent → AI-Native Development → Agentic by Default 🎯 产品层: ChatGPT → Code Agent → Voice AI → AI-native IDE → Skills 生态 → Agentic AI🗺️ 建议学习路径
7 周从零到 Agentic,每周聚焦一个主题。
第1周: 理解 Transformer 和 Token → 读 "Attention Is All You Need" 图解版 → 在 OpenAI Tokenizer Playground 上玩 Token 切分 第2周: 理解 LLM 和 Prompt → 使用 ChatGPT/Claude,实验各种 Prompt 技巧 → 学习 CoT、Few-shot、System Prompt 第3周: 理解 RAG → 用 LangChain + Chroma 搭一个简单的 RAG 问答系统 → 理解 Embedding 和向量相似度 第4周: 理解 Agent → 用 LangChain Agent 写一个能搜索+计算的小 Agent → 体验 Function Calling 第5周: 理解 Skills 和 Hooks → 在 Claude Code 中编写一个自定义 Skill → 配置 SessionStart Hook 自动加载项目信息 → 理解 Skills ≠ Plugins ≠ GPTs 的本质差异 第6周: 理解推理模型 → 对比 o1/Claude Extended Thinking 和普通模型的差异 → 学习何时需要"深度思考" 第7周: 理解 Agentic 和 MCP → 搭一个 MCP Server → 体验 Claude Code 或 Cursor 的 Agent 模式 → 用多个 Skills 编排一个端到端工作流1. 奠基时代(2017 之前)
在 Transformer 出现之前,这些概念是后来所有技术的基础。
1.1 神经网络(Neural Network)
输入层 → 隐藏层 → 输出层 x₁ → h₁ → y₁ x₂ → h₂ → y₂ x₃ → h₃ →- 定义:模拟人脑神经元连接的计算模型,通过多层非线性变换从数据中学习模式
- 关键人物:Geoffrey Hinton、Yann LeCun、Yoshua Bengio(2018 图灵奖)
- 意义:所有深度学习的基础,没有它就没有后来的 LLM
1.2 词向量 / 词嵌入(Word Embedding)
代表作品:Word2Vec (2013)、GloVe (2014)
- 核心思想:将词语映射到高维向量空间,语义相近的词在向量空间中距离也近
- 经典类比:
King - Man + Woman ≈ Queen
"猫" → [0.2, -0.5, 0.8, 0.1, ...] (300维向量) "狗" → [0.3, -0.4, 0.7, 0.2, ...] (与"猫"向量距离很近) "汽车" → [0.9, 0.1, -0.3, -0.7, ...] (与"猫"向量距离很远)- 遗留问题:词向量是静态的——同一个词在不同上下文中向量相同,“苹果”(水果 vs 公司)无法区分
1.3 RNN / LSTM(循环神经网络)
- RNN (Recurrent Neural Network):能处理序列数据(文本、时间序列),每个时间步的输出依赖于前一步
- LSTM (Long Short-Term Memory, 1997/2014):解决 RNN 的"长期遗忘"问题,引入门控机制(遗忘门、输入门、输出门)
- GRU (Gated Recurrent Unit, 2014):LSTM 的简化版,参数量更少
RNN 展开示意: h₀ → h₁ → h₂ → h₃ → ... → hₙ ↑ ↑ ↑ ↑ ↑ x₁ x₂ x₃ x₄ xₙ- 瓶颈:串行计算,无法并行;处理长文本时信息衰减严重
1.4 Seq2Seq(序列到序列)
代表论文:Sequence to Sequence Learning with Neural Networks (Google, 2014)
- 架构:Encoder(编码器)+ Decoder(解码器)
- 工作流:编码器将输入序列压缩为固定长度的"上下文向量" → 解码器从该向量逐词生成输出
- 典型应用:机器翻译、文本摘要、对话生成
"你好世界" → [Encoder] → [上下文向量 C] → [Decoder] → "Hello World"- 痛点:所有信息挤压在一个固定大小的向量中,长句翻译质量差
1.5 注意力机制(Attention Mechanism)
代表论文:Neural Machine Translation by Jointly Learning to Align and Translate (Bahdanau, 2015)
- 核心思想:解码时不再只看最后一个隐藏状态,而是动态关注输入序列中所有位置,给每个位置一个"注意力权重"
- 通俗比喻:翻译长句时,每翻译一个词,模型"回看"原文中最相关的几个词
输入: "The cat sat on the mat" 翻译 "猫" 时,注意力权重集中在 "cat" 上 翻译 "垫子" 时,注意力权重集中在 "mat" 上- 意义:解决了 Seq2Seq 的信息瓶颈,是 Transformer 的前身
2. Transformer 革命(2017-2018)
2.1 Transformer 架构
论文:Attention Is All You Need(Google, 2017.06)
八位作者全部创业成功,被称为"Transformer 八子"
- 颠覆性创新:完全抛弃 RNN,只用注意力机制处理序列
Transformer 架构(原始论文): [Encoder 层 ×6] [Decoder 层 ×6] ┌─────────────┐ ┌─────────────┐ │ 多头自注意力 │ │ 掩码多头自注意力│ │ + 残差连接 │ │ + 残差连接 │ │ + 层归一化 │ │ + 层归一化 │ ├─────────────┤ ├─────────────┤ │ 前馈网络 │ │ 交叉多头注意力 │ │ + 残差连接 │ │ (关注Encoder) │ │ + 层归一化 │ │ + 残差连接 │ └───────────