从 Token 到 Agent：大模型时代概念进化论-酒店常州论坛

按时间先后与逻辑关联顺序，梳理自 OpenAI 出现至今，AI 领域主流新概念的完整演进图谱。100+ 概念，67 条速查，从词向量到 Agent 经济，一册通晓。
最后更新：2026-06-30

奠基时代（2017 之前）
Transformer 革命（2017-2018）
预训练规模化时代（2019-2020）
ChatGPT 爆发与 LLM 产业化（2022-2023）
RAG 与工具生态（2023）
Agent 智能体时代（2023-2024）
插件、GPTs 与 Skills 技能系统（2023-2025）
推理模型与深度思考（2024-2025）
Agentic AI 与全栈智能（2025-2026）
其他重要概念补遗

📊 概念速查表

一表纵览 67 条概念的出现顺序、一句话解释与代表产品/论文。阅读正文前可先扫一遍，建立全局认知。

按出现时间排序

时间	概念	一句话解释	代表
2013	Word Embedding	把词语变成向量，语义相近向量也近	Word2Vec (Google), GloVe (Stanford)
2014	Seq2Seq	编码器-解码器架构，机器翻译的基础	Google GNMT, Sutskever et al.
2015	Attention	解码时动态关注输入的不同部分	Bahdanau Attention, Luong Attention
2017.06	Transformer	抛弃 RNN，全靠注意力，LLM 的基石	“Attention Is All You Need” (Google)
2018.06	GPT-1	预训练+微调范式的开创者	OpenAI GPT-1, 1.17 亿参数
2018.10	BERT	双向理解上下文，NLP 标配	Google BERT-Base/Large, 3.4 亿参数
2019.02	GPT-2	15 亿参数，首次展示 Zero-shot 能力	OpenAI GPT-2, 分阶段发布
2020.01	Scaling Laws	更大模型+更多数据=可预测地更强	OpenAI Scaling Laws 论文 (Kaplan et al.)
2020.05	GPT-3	1750 亿参数，涌现能力的标志	OpenAI GPT-3 (davinci), API 商业化
2020.05	Few-shot / ICL	不给示例也能做新任务	GPT-3 上下文学习, 无需微调
2022.01	CoT	"让我们一步步思考"大幅提升推理	“Let’s think step by step” (Google)
2022.01	RLHF	人类反馈训练，让模型"听人话"	InstructGPT, ChatGPT
2022.03	Chinchilla Laws	模型大小和数据量应等比增长	DeepMind Chinchilla, 70B 超越 280B
2022.03	Self-Consistency	多次推理取共识，大幅提升准确率	Google Self-Consistency 论文
2022.11	ChatGPT	AI 进入大众视野的引爆点	ChatGPT, 2 个月破亿用户
2022.12	Constitutional AI	用宪法原则约束 AI 行为	Anthropic Claude 1/2/3 系列
2023.01	Prompt Engineering	设计和优化提示词的系统方法论	Anthropic Prompt Library, LangChain Hub
2023.02	RAG	检索+生成，对抗幻觉，接入私有知识	Meta RAG 论文, LangChain/LlamaIndex
2023.03	GPT-4	多模态，推理飞跃	OpenAI GPT-4, 首次通过律师考试
2023.03	AutoGPT	自主 Agent 的开端	AutoGPT (GitHub 16 万星), BabyAGI
2023.03	ChatGPT Plugins	AI 应用商店的首次尝试	Expedia / Wolfram / Zapier / Code Interpreter
2023.05	DPO	不需要奖励模型，RLHF 一步到位	Stanford DPO 论文, Llama 3 对齐
2023.06	Function Calling	LLM 能调用外部工具了	OpenAI Function Calling API
2023.07	Ollama / llama.cpp	一键本地运行 LLM，AI 民主化	Ollama, llama.cpp (Georgi Gerganov)
2023.09	Multimodal	模型能看图、理解图像内容	GPT-4V, Gemini 1.0, LLaVA
2023.10	Multi-Agent	多个 Agent 协作完成复杂任务	CrewAI, AutoGen (Microsoft), MetaGPT
2023.11	GPTs	零代码创建定制 AI + 应用商店	OpenAI GPT Store, 自定义 GPT
2023.12	MoE	总参数大但每次只激活一小部分	Mixtral 8×7B (Mistral AI)
2024.05	原生多模态	文本+图像+音频统一端到端处理	GPT-4o, Gemini 1.5 Flash
2024.06	Skills / Slash Commands	AI 能力打包为可复用模块	Claude Code Skills, Cursor Rules
2024.06	Artifacts	对话中渲染交互式富媒体内容	Claude Artifacts
2024.08	Prompt Caching	缓存 prompt 前缀，成本-90%	Anthropic/OpenAI Prompt Caching
2024.08	Structured Output	强制 LLM 输出符合 JSON Schema	OpenAI JSON Mode, Anthropic Structured Output
2024.09	o1 推理模型	内部长时间思考再回答	OpenAI o1-preview / o1-mini
2024.10	Computer Use	AI 直接操控电脑屏幕和键鼠	Anthropic Computer Use (Claude)
2024.11	MCP	AI 连接外部世界的标准协议	Anthropic Model Context Protocol
2025.01	DeepSeek-R1	开源推理模型，极低成本比肩 o1	DeepSeek-R1, MIT 开源
2025.02	Deep Research	AI 自主多轮搜索+多源验证+报告	OpenAI Deep Research, Gemini Deep Research
2025.03	Agent SDK	构建 Agent 的官方编程框架	OpenAI Agents SDK, Anthropic Agent SDK
2025.05	Hooks	会话生命周期事件自动触发	Claude Code Hooks (SessionStart 等)
2025.06	Agentic Workflows	Agent + 编排 = 完整业务流程	Claude Code Workflows, LangGraph
2025.06	Model Distillation	大模型推理能力蒸馏给小模型	DeepSeek-R1 → Qwen-7B / Llama-8B
2025.07	MCP 生态爆发	协议→生态，数百 Server 即插即用	MCP Server: GitHub, Slack, Postgres, Puppeteer…
2025.08	Vibe Coding	自然语言描述意图，AI 实现代码	Karpathy 命名, Claude Code / Cursor / Lovable / Bolt
2025.08	Context Engineering	上下文成为需要精心设计的"一等公民"	CLAUDE.md, Cursor Rules, Copilot Instructions
2025.09	Persistent Agents	Agent 持续运行数小时甚至数天	Claude Code 后台 Agent, GitHub Copilot Agent Mode
2025.09	Terminal-Native Agents	终端原生的 AI Agent 产品品类	Claude Code, Warp AI, Cursor Terminal
2025.10	Web Agents	Agent 自主浏览网页、填表、提取	Browser-Use (开源), OpenAI Operator
2025.10	Agent Swarms	数十上百 Agent 并行，大规模协作	Claude Code Workflows, AutoGen Swarm
2025.11	Sub-Agent Spawning	Agent 按需创建子 Agent 委派任务	Claude Code 子 Agent, AutoGen 嵌套 Agent
2025.11	OpenClaw (Clawdbot)	开源个人 AI Agent 网关，消息平台接入+技能市场	Peter Steinberger, 373K+ GitHub Stars
2025.12	Worktree Isolation	Agent 在隔离 Git worktree 中并行工作	Claude Code Worktree, Git worktree
2026.01	Memory-as-a-Service	跨会话持久 Agent 记忆成独立赛道	Mem0, Claude Memory,Hermes Agent
2026.02	Agent-to-Agent Protocol	Agent 间通信协商交易的标准协议	Google A2A, Anthropic Agent Protocol
2026.03	Reasoning Effort Control	精确控制模型思考深度和预算	Claude Opus 4.8 budget_tokens, o4 推理级别
2026.04	AI-Native Development	AI 成为主要代码贡献者，人做 review	Claude Code, Cursor, GitHub Copilot, Devin
2026.05	Multimodal Agent	能看+听+说+操作，理解完整场景	GPT-4o + Operator, Gemini 2.5 + Browser
2026.06	Agentic by Default	AI 工具默认以 Agent 模式运行	Claude Code, ChatGPT Agent, Copilot Agent

按功能分类

📐 基础架构层: Transformer → Token/Tokenizer → Embedding → 上下文窗口 → Streaming → Perplexity 🧠 模型层: LLM → GPT系列 → 预训练 → 微调 → LoRA → 量化 → MoE → 蒸馏 → 推测解码 → Scaling Laws → Chinchilla Laws → Model Merging 🤔 推理层: Prompt → CoT → Few-shot/Zero-shot → Self-Consistency → System 2 慢思考 → 推理模型 → Extended Thinking 🔧 工具层: Function Calling → Tool Use → MCP → Computer Use → Plugins → GPTs → Artifacts 🎯 Skills 技能层: Skills → Slash Commands → Hooks → Custom Instructions → Rules 🤖 Agent 层: Agent → ReAct → AutoGPT → 多Agent → Agentic Workflow → Deep Research → Persistent Agent → Agent Swarm → Sub-Agent → A2A Protocol → Agent Economy 📚 知识层: RAG → 向量数据库 → LangChain → LlamaIndex → Prompt Caching → Context Engineering → 大海捞针 🛡️ 安全层: Hallucination → RLHF → DPO → Constitutional AI → Red Teaming → Jailbreak防御 → Guardrails → Structured Output 📊 运维层: Evals → Benchmarks → LLMOps → Observability → Human-in-the-Loop → Memory-as-a-Service → Reasoning Effort Control 🏭 领域 AI / 个人 Agent 层: Hermes Agent (三层记忆+自我推理) → OpenClaw (开源个人 Agent 网关) → 每个人都有的数字助手 → Agent 大众化 💻 本地化层: llama.cpp → GGUF → Ollama → 量化推理 → 端侧AI 🌐 新兴范式 (2025-2026): Vibe Coding → Terminal-Native Agent → Web Agent → Worktree Isolation → Multimodal Agent → AI-Native Development → Agentic by Default 🎯 产品层: ChatGPT → Code Agent → Voice AI → AI-native IDE → Skills 生态 → Agentic AI

🗺️ 建议学习路径

7 周从零到 Agentic，每周聚焦一个主题。

第1周: 理解 Transformer 和 Token → 读 "Attention Is All You Need" 图解版 → 在 OpenAI Tokenizer Playground 上玩 Token 切分 第2周: 理解 LLM 和 Prompt → 使用 ChatGPT/Claude，实验各种 Prompt 技巧 → 学习 CoT、Few-shot、System Prompt 第3周: 理解 RAG → 用 LangChain + Chroma 搭一个简单的 RAG 问答系统 → 理解 Embedding 和向量相似度 第4周: 理解 Agent → 用 LangChain Agent 写一个能搜索+计算的小 Agent → 体验 Function Calling 第5周: 理解 Skills 和 Hooks → 在 Claude Code 中编写一个自定义 Skill → 配置 SessionStart Hook 自动加载项目信息 → 理解 Skills ≠ Plugins ≠ GPTs 的本质差异 第6周: 理解推理模型 → 对比 o1/Claude Extended Thinking 和普通模型的差异 → 学习何时需要"深度思考" 第7周: 理解 Agentic 和 MCP → 搭一个 MCP Server → 体验 Claude Code 或 Cursor 的 Agent 模式 → 用多个 Skills 编排一个端到端工作流

1. 奠基时代（2017 之前）

在 Transformer 出现之前，这些概念是后来所有技术的基础。

1.1 神经网络（Neural Network）

输入层 → 隐藏层 → 输出层 x₁ → h₁ → y₁ x₂ → h₂ → y₂ x₃ → h₃ →

定义：模拟人脑神经元连接的计算模型，通过多层非线性变换从数据中学习模式
关键人物：Geoffrey Hinton、Yann LeCun、Yoshua Bengio（2018 图灵奖）
意义：所有深度学习的基础，没有它就没有后来的 LLM

1.2 词向量 / 词嵌入（Word Embedding）

代表作品：Word2Vec (2013)、GloVe (2014)

核心思想：将词语映射到高维向量空间，语义相近的词在向量空间中距离也近
经典类比：King - Man + Woman ≈ Queen

"猫" → [0.2, -0.5, 0.8, 0.1, ...] (300维向量) "狗" → [0.3, -0.4, 0.7, 0.2, ...] (与"猫"向量距离很近) "汽车" → [0.9, 0.1, -0.3, -0.7, ...] (与"猫"向量距离很远)

遗留问题：词向量是静态的——同一个词在不同上下文中向量相同，“苹果”（水果 vs 公司）无法区分

1.3 RNN / LSTM（循环神经网络）

RNN (Recurrent Neural Network)：能处理序列数据（文本、时间序列），每个时间步的输出依赖于前一步
LSTM (Long Short-Term Memory, 1997/2014)：解决 RNN 的"长期遗忘"问题，引入门控机制（遗忘门、输入门、输出门）
GRU (Gated Recurrent Unit, 2014)：LSTM 的简化版，参数量更少

RNN 展开示意： h₀ → h₁ → h₂ → h₃ → ... → hₙ ↑ ↑ ↑ ↑ ↑ x₁ x₂ x₃ x₄ xₙ

瓶颈：串行计算，无法并行；处理长文本时信息衰减严重

1.4 Seq2Seq（序列到序列）

代表论文：Sequence to Sequence Learning with Neural Networks (Google, 2014)

架构：Encoder（编码器）+ Decoder（解码器）
工作流：编码器将输入序列压缩为固定长度的"上下文向量" → 解码器从该向量逐词生成输出
典型应用：机器翻译、文本摘要、对话生成

"你好世界" → [Encoder] → [上下文向量 C] → [Decoder] → "Hello World"

痛点：所有信息挤压在一个固定大小的向量中，长句翻译质量差

1.5 注意力机制（Attention Mechanism）

代表论文：Neural Machine Translation by Jointly Learning to Align and Translate (Bahdanau, 2015)

核心思想：解码时不再只看最后一个隐藏状态，而是动态关注输入序列中所有位置，给每个位置一个"注意力权重"
通俗比喻：翻译长句时，每翻译一个词，模型"回看"原文中最相关的几个词

输入: "The cat sat on the mat" 翻译 "猫" 时，注意力权重集中在 "cat" 上 翻译 "垫子" 时，注意力权重集中在 "mat" 上

意义：解决了 Seq2Seq 的信息瓶颈，是 Transformer 的前身

2. Transformer 革命（2017-2018）

2.1 Transformer 架构

论文：Attention Is All You Need(Google, 2017.06)
八位作者全部创业成功，被称为"Transformer 八子"

颠覆性创新：完全抛弃 RNN，只用注意力机制处理序列

Transformer 架构（原始论文）: [Encoder 层 ×6] [Decoder 层 ×6] ┌─────────────┐ ┌─────────────┐ │ 多头自注意力 │ │ 掩码多头自注意力│ │ + 残差连接 │ │ + 残差连接 │ │ + 层归一化 │ │ + 层归一化 │ ├─────────────┤ ├─────────────┤ │ 前馈网络 │ │ 交叉多头注意力 │ │ + 残差连接 │ │ (关注Encoder) │ │ + 层归一化 │ │ + 残差连接 │ └───────────

企业官网建设流程全解析

目录

📊 概念速查表

按出现时间排序

按功能分类

🗺️ 建议学习路径

1. 奠基时代（2017 之前）

1.1 神经网络（Neural Network）

1.2 词向量 / 词嵌入（Word Embedding）

1.3 RNN / LSTM（循环神经网络）

1.4 Seq2Seq（序列到序列）

1.5 注意力机制（Attention Mechanism）

2. Transformer 革命（2017-2018）

2.1 Transformer 架构

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

目录

📊 概念速查表

按出现时间排序

按功能分类

🗺️ 建议学习路径

1. 奠基时代（2017 之前）

1.1 神经网络（Neural Network）

1.2 词向量 / 词嵌入（Word Embedding）

1.3 RNN / LSTM（循环神经网络）

1.4 Seq2Seq（序列到序列）

1.5 注意力机制（Attention Mechanism）

2. Transformer 革命（2017-2018）

2.1 Transformer 架构

热门文章

文章分类

标签云

相关文章

在AI产品设计中，如何根据Agent的目标和能力边界来规划所需的Tool与Skill？

交易所搭建教程详细/开源源码搭建

优化数据库查询性能的五个实用技巧

需要专业的网站建设服务？