本文系统梳理了近几年多模态大模型的关键里程碑,从ViT的图像Transformer化,到CLIP的跨模态对齐,再到Qwen-VL的多模态理解,以及GPT-4o和Qwen-Omni的全模态统一。文章探讨了不同技术路线的演进,如统一Tokenizer、双编码器、纯自回归统一,并分析了当前主流模型的架构与局限。最后,展望了全模态统一面临的挑战和未来发展趋势,强调多模态大模型正迈向理解与生成的深度融合,逐步接近通用人工智能的目标。
ViT:让 Transformer 学会"看"(2020)
在ViT之前,计算机视觉是CNN(卷积神经网络)的天下,ResNet、EfficientNet统治着各大榜单。与此同时,NLP领域的Transformer凭借自注意力机制已经一统江湖。
一个自然的问题浮出水面:Transformer能不能也用来处理图像?
Google团队给出的答案简洁而优雅:把图像切成16×16的小块(patch),每个小块就相当于NLP中的一个"词"。这些patch通过线性嵌入层映射为向量序列,直接送入标准Transformer编码器——这就是Vision Transformer(ViT)。
ViT架构:将图像切割为Patch作为Token输入Transformer
- Visual Patch as Token:将一张图像切割成同样大小 (16x16,后续的internvl是14x14 ) 的小块,每个小块(patch)被展平,通过一个线性层 (patch embedding) 转换为一个向量,作为一个token,传递给 Transformer 作为输入。
这一步的意义远超视觉任务本身:它统一了视觉和语言模型的底层架构,为后续两个世界的融合埋下了最重要的伏笔。但此时的ViT还是纯粹的单模态——它只能处理图像,完全不知道"语言"为何物。
CLIP:在图像和语言之间架起桥梁(2021)
ViT让Transformer能处理图像,但图像和语言之间仍然隔着一堵墙。2021年,OpenAI的CLIP推倒了这堵墙。
CLIP的思路极其直觉:同时训练一个图像编码器(ViT)和一个文本编码器,在4亿图文数据对上做对比学习,让语义相似的图文对在嵌入空间中"靠近",不相似的"远离"。
CLIP通过对比学习实现图文对齐
这相当于为图像和语言建立了一本"跨语言词典"——从此,机器可以用同一套坐标系来表示一张猫的照片和"一只毛茸茸的橘猫"这句话。
CLIP开启了Vision Foundation Model时代。它训练出的视觉编码器(CLIP ViT)成为了后续几乎所有多模态大模型的标配"眼睛"。但CLIP本身能力有限——它擅长检索和分类这些判别式任务,却无法像ChatGPT一样生成流畅的文本回答。
下一个问题自然而然地出现了:如何让LLM也拥有视觉能力?
LLaVA 到 Qwen-VL:给大语言模型装上"眼睛"(2023-2024)
2023年,大语言模型(LLM)的浪潮席卷全球。LLaVA给出了一个极其简洁的多模态方案:
预训练好的CLIP ViT(看图)+ 一个MLP投影层(翻译)+ 预训练好的LLM(说话)
LLaVA架构:CLIP ViT + MLP Connector + LLM
整个流程一目了然:
- CLIP ViT把图像编码为特征向量
- MLP将这些向量"翻译"到LLM能理解的空间
- LLM基于图像特征和用户问题生成文本回答。
LLaVA引爆了多模态大模型的研究热潮,但真正将这个范式推向工业级落地的,是以Qwen-VL系列为代表的后续工作。
Qwen 系列:多模态领域的"基础设施"
如果要评选多模态大模型时代影响力最大的模型家族,Qwen系列当之无愧。它的影响力体现在两个层面:
第一,作为LLM底座被广泛采用。今天你看到的大量开源多模态模型——InternVL、Janus-Pro、LLaVA-OneVision等——底层的语言模型几乎清一色用的是Qwen2/Qwen2.5/Qwen3。可以说,Qwen已经成为多模态研究的"水电煤"。
第二,自身的多模态产品线极其完整。阿里围绕Qwen构建了覆盖多模态全场景的模型矩阵:
| 模型 | 定位 | 能力 |
|---|---|---|
| Qwen-VL系列(2023-2025) | 视觉语言模型 | 图文理解、OCR、视觉推理,从Qwen-VL到Qwen2.5-VL持续迭代 |
| Qwen-Audio系列 | 语音理解模型 | 语音识别、音频理解 |
| Qwen-Image | 图像生成模型 | 文生图、图像编辑 |
| Qwen-Omni系列(2025-) | 全模态统一模型 | 文本/图像/音频/视频输入 + 文本/语音输出 |
在"ViT + Connector + LLM"范式下,Qwen-VL/InternVL/Seed-VL等工作进一步从ViT结构、原生分辨率、位置编码、视觉Token压缩等维度持续优化,形成了当前最主流的MLLM范式。
InternVL2.5架构:ViT-MLP-LLM
Qwen2.5-VL架构:ViT-MLP-LLM
但这套范式也存在三个根本性局限:
| 局限 | 具体表现 |
|---|---|
| ViT是信息瓶颈 | 主要提取High-level语义特征,丢失了Low-level细节,OCR、定位等细粒度任务表现不佳 |
| 特征空间投影存疑 | 将视觉空间硬投影到文本空间,是否真正合理? |
| 只能理解,不能生成 | 图像只能作为输入,模型只能输出文本,无法生成或编辑图像 |
第三个局限尤其关键——它指向了下一个重大命题:能否让一个模型既能理解图像、又能生成图像?
理解 vs 生成:一个 Tokenizer 引发的根本矛盾
要回答"统一理解和生成"这个问题,首先需要理解一个核心矛盾——图像的两种Tokenizer在特征空间上存在根本性冲突。
图像生成 Tokenizer:VQ-VAE
图像理解 Tokenizer:ViT
| 图像生成 | 图像理解 | |
|---|---|---|
| Tokenizer | VQVAE | ViT |
| loss | 重构损失loss | 对比学习loss |
| 结构 | 编码+解码 | 仅编码 |
| 量化 | 有量化+离散特征 | 无量化+连续特征 |
| 粒度 | Low-Level 像素级 | High-level 语义级 |
- 生成侧用的是VQVAE/VQGAN——通过重构损失训练,提取的是低层像素特征(每个细节长什么样?),离散、有量化。
- 理解侧用的是CLIP ViT——通过对比学习训练,提取的是高层语义特征(这是猫还是狗?),连续、不量化。
一个要Low-level细节,一个要High-level语义。一个输出离散码字,一个输出连续向量。这就是统一生成和理解的根本矛盾。
这不是一个工程问题,而是一个路线选择问题。围绕这个矛盾,业界发展出了三条不同的技术路线。
路线一:统一 Tokenizer —— Chameleon 的教训
最直觉的想法是:用同一个Tokenizer处理理解和生成,不就统一了吗?
2024年,Meta的Chameleon就是这个思路。它用同一个VQVAE对图像编码,将离散图像Token和文本Token放入同一个自回归序列,基于LLaMA-2架构训练。投入了百万GPU hours。
Chameleon 架构:VQVAE-LLaMA-2(早期融合统一序列)
结果令人遗憾:文生图还行,但图像理解能力很差。原因直指根本——VQVAE是为重构而训练的,几乎没有语义表征能力。用它来做理解,相当于让一个只会临摹的画师去做语文阅读理解。
后续MIT的VILA-U、字节的UniTok等工作尝试在同一个Tokenizer中同时优化重构和对比学习,但Low-level和High-level表征能力的冲突始终难以彻底解决。
教训很清楚:简单地将两种任务塞进一个Tokenizer,行不通。
路线二:双编码器 —— Janus 的"双面神"策略
既然一个Tokenizer搞不定,那就用两个。
2025年初,DeepSeek的Janus-Pro采用了一种巧妙的解耦策略:共享一个LLM Backbone,但理解和生成各用一个独立的编码器。
Janus双编码器架构:共享LLM + 解耦的CLIP ViT和VQVAE
- 理解端:用CLIP ViT提取语义特征
- 生成端:用VQVAE提取像素特征
- LLM:作为统一的自回归"大脑",处理两种特征、共享推理能力
Janus的名字来自罗马神话中的双面神——同时看向"理解"和"生成"两个方向。这种设计成功避开了单一Tokenizer的局限,理解和生成效果都不错。
但双编码器的不足也很明显:两个独立编码器意味着理解和生成的特征空间仍然是分离的,难以实现深度融合。模型结构也不够"原生"。
有没有更极致的方案?
路线三:纯自回归统一 —— 走向 Decoder-Only
2025年中,一个更激进的问题被提出:
“是否可以完全不采用任何外部元件——不要ViT、不要Diffusion——实现一个尽可能简洁的一体化结构?”
这就是Decoder-Only纯自回归统一架构,代表了当前最前沿的探索方向。
其核心设计是一个统一的Transformer解码器,图像直接以patch形式输入(无需ViT),输出也直接从Token生成图像(无需Diffusion)。但前面说的特征空间矛盾依然存在——解决方案是模态MoE(Mixture of Experts):
- 共享QKV和自注意力层:让不同模态在注意力空间中充分交互
- 独立FFN专家:为文本理解、图像理解、图像生成分别配备独立的前馈网络专家
美团OneCAT混合模态专家模型:共享注意力 + 分模态FFN Expert
这样既实现了模态间的深度信息交换,又保持了各模态特有特征的有效提取。生成端用Next-Scale Prediction替代逐像素预测,从粗到细多尺度生成,复杂度从O(H²W²)降到O(L)。
这类架构的优势非常显著:推理时不需要额外的视觉编码器(速度快),支持图文交错生成(先写一段文字、再画一张图、再继续写),并且天然支持统一的RL Post-Training。
字节Bagel架构:双专家Transformer与共享多模态注意力
字节的BAGEL是这条路线的代表之一——7B激活参数(14B总参),采用MoT架构,在理解和生成两个维度都达到了开源模型的顶尖水平。
走向 Omni:不只是图和文,还要加上音频和视频
如果说前面的讨论集中在"图文理解与生成的统一",那么下一步就是全模态(Omni)——将音频、视频、3D等更多模态纳入同一个模型。
2024年5月,OpenAI发布GPT-4o(“o"代表"Omni”),首次实现了文本、图像、音频的原生统一处理,用户可以直接用语音对话,模型能实时理解语气和情感,并生成自然的语音回复和图像。
多模态大模型发展趋势全景:从单模态到全模态理解与生成统一
全模态统一面临的挑战远比图文统一更复杂:模态间数据量差异巨大,不同模态收敛速度不同,训练工程极其复杂。
Qwen-Omni:全模态理解与语音生成的标杆
在全模态赛道上,Qwen系列再次展现了强大的工程能力。
Qwen2.5-Omni(2025.03)率先推出Thinker-Talker架构——Thinker(思考者)负责理解全模态输入并生成文本,Talker(表达者)负责将文本实时转化为流式语音输出。两者并行工作,Thinker还在处理后半部分时,Talker已经开始输出前半部分的语音,端到端延迟低至211ms。
Qwen3-Omni(2025.09)进一步将这条路线推到极致:
- 输入覆盖文本、图像、音频、视频四种模态
- 在36项音视频基准测试中,32项开源最佳、22项SOTA
- 文本和图像理解能力不降智,与专用模型持平
- 支持119种语言的语音识别、10种语言的语音生成
- 支持长达40分钟的音频理解
最新的Qwen3.5-Omni更是新增了音色克隆、语义打断、语音控制等实时交互能力,在215项评测中取得SOTA。
Qwen-Omni目前尚未将图像生成集成进主模型(图像生成由Qwen-Image独立承担),但在"全模态理解 + 语音生成"这条路上已经做到了业界顶尖。
Ming-Omni:开源全模态统一的先行者
蚂蚁集团的Ming系列则在另一个维度发力——成为首个在模态覆盖上全面对标GPT-4o的开源模型,不仅覆盖全模态理解,还同时支持图像生成和语音生成。
Ming-Flash-Omni的MoE跨模态融合架构:Multi-Router + AnyExperts
Ming-Flash-Omni在架构上的关键创新包括:
- Multi-Router + AnyExperts:传统MoE给每个Token激活固定K个专家,但不同Token的重要度差异很大——Ming让模型自己决定每个Token需要激活多少专家,按需分配算力。
- MingTok统一表征:用连续表征做理解和生成效果最好——高维语义表征做自回归输入,低维潜在表征做自回归输出,同一套范式统一图像和语音处理。
全模态第一梯队全景
当前全模态赛道的主要玩家:
| 模型 | 全模态输入 | 文本输出 | 语音输出 | 图像生成 | 亮点 |
|---|---|---|---|---|---|
| GPT-4o/5 | ✅ | ✅ | ✅ | ✅ | 闭源标杆,率先定义Omni形态 |
| Gemini 2/3 | ✅ | ✅ | ✅ | ✅ | 原生多模态训练,长上下文 |
| Qwen-Omni系列 | ✅ | ✅ | ✅ | ❌(独立模型) | 开源音视频理解SOTA,Thinker-Talker架构 |
| Ming-Omni | ✅ | ✅ | ✅ | ✅ | 开源领域首个全模态理解+生成统一 |
| BAGEL | 图文 | ✅ | ❌ | ✅ | 图文理解+生成统一开源标杆 |
全景回顾:五年五个阶段
回顾2020年至今的发展,多模态大模型经历了清晰的五个阶段:
| 阶段 | 核心突破 | 代表模型 | 能力边界 |
|---|---|---|---|
| 视觉Transformer化(2020) | 统一视觉与语言的底层架构 | ViT | 图像分类 |
| 跨模态对齐(2021) | 图文嵌入空间统一 | CLIP、SigLIP | 图文检索、零样本分类 |
| 多模态理解(2023-2024) | LLM获得视觉理解能力 | LLaVA、Qwen-VL、InternVL、GPT-4V | 图文问答、视觉推理 |
| 理解生成统一(2024-2025) | 同一模型同时理解和生成图像 | Chameleon、Janus-Pro、BAGEL | 图文理解+图像生成+编辑 |
| 全模态统一(2025-) | 音视图文全面覆盖 | GPT-4o、Qwen-Omni、Ming-Omni、Gemini | 全模态理解+全模态生成 |
特别值得注意的是,Qwen系列贯穿了第三到第五阶段:Qwen-VL是多模态理解阶段的核心玩家,Qwen2/2.5作为LLM底座支撑了Janus-Pro等统一模型,Qwen-Omni则直接进入了全模态赛道。可以说Qwen是多模态大模型时代真正的"基础设施级"存在。
值得关注的几个技术洞察:
- 统一是大趋势:从分离式模型到统一式模型,减少模块拼接、增加原生融合
- Tokenizer是核心瓶颈:理解和生成的矛盾本质上是Tokenizer特征空间的矛盾
- 原生融合优于后期拼接:早期多模态预训练比后期接Adapter效果更好
- 数据配比决定上限:生成任务对数据量需求高、对参数量需求低,与语言任务呈不同的Scaling趋势
未来:通向世界模型
多模态大模型的终极方向指向何方?综合业界前沿研究,有三个关键方向值得期待:
- 方向一:理解与生成的深度相互促进。未来的模型不仅能用文本做链式推理(Chain-of-Thought),还能在thinking阶段生成辅助图像来辅助视觉推理——比如画辅助线解几何题、变换视角理解3D空间。
- 方向二:视频理解-生成-编辑一体化。视频理解能力可以辅助长时间一致性的视频生成(理解促进生成),视频生成能力本身也能涌现因果推理智能(生成促进理解)。两者的融合最终将收敛为可交互的世界模型和具身智能VLA模型。
- 方向三:新一代多模态预训练范式。当前文本自回归建模本质上是学习Token之间的相关性,并不是真正的因果知识。如何利用海量视频数据,帮助模型更原生地学习和压缩"世界知识"——这将是通向AGI的关键命题。
写在最后
从ViT的"看图",到CLIP的"图文对齐",到Qwen-VL的"多模态理解",再到GPT-4o和Qwen-Omni的"全模态"——几年间,多模态大模型完成了从单一感官到全面感知的跃迁。
人类认知世界的方式从来不是"先看图再转成文字再思考",而是视觉、听觉、语言、推理的深度融合。多模态大模型正在沿着这个方向前进。
当AI学会了看、听、说、画之后,下一步就是理解这个世界并与之交互。那将是通向通用人工智能的关键一跃。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
为什么要学习大模型?
我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。
大模型入门到实战全套学习大礼包
1、大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
2、大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
3、AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
4、大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
5、大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
适用人群
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。