多模态大模型——让大模型看懂世界、听懂声音
2026/7/5 13:50:06 网站建设 项目流程

前置知识:第06篇(Transformer 架构)/ 第05篇(Attention 机制)


引言:大模型不再只看文字

ChatGPT 只能读文本,但人类通过视觉获取的信息远多于文字。多模态大模型就是让 LLM理解图像、音频、视频,而不仅仅是文本。

开源的 GPT-4V 替代方案已经成熟——LLaVA、Qwen-VL、CogVLM 等模型在图文理解任务上的表现已经接近 GPT-4V 的 90%+。


一、CLIP:图文对齐的奠基之作

CLIP(2021)是 OpenAI 开源的里程碑之作。它的核心思想:对比学习图文对齐

1.1 训练时

一个 batch 有 N 对(图像, 文本):

图像编码器(ViT) → N 个图像向量 文本编码器(Transformer) → N 个文本向量 对比学习目标: ✅ 配对的 (图像i, 文本i) → 拉近 cosine similarity ❌ 非配对的 (图像i, 文本j) → 推远 cosine similarity loss = cross_entropy(图像矩阵 @ 文本矩阵^T, 对角矩阵) ↑ 图像 @ 文本^T 是一个 N×N 矩阵 ↑ 对角线上是配对样本,其余位置是负样本

核心洞察

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询