多模态大模型——让大模型看懂世界、听懂声音-酒店常州论坛

前置知识：第06篇（Transformer 架构）/ 第05篇（Attention 机制）

引言：大模型不再只看文字

ChatGPT 只能读文本，但人类通过视觉获取的信息远多于文字。多模态大模型就是让 LLM理解图像、音频、视频，而不仅仅是文本。

开源的 GPT-4V 替代方案已经成熟——LLaVA、Qwen-VL、CogVLM 等模型在图文理解任务上的表现已经接近 GPT-4V 的 90%+。

一、CLIP：图文对齐的奠基之作

CLIP（2021）是 OpenAI 开源的里程碑之作。它的核心思想：对比学习图文对齐。

1.1 训练时

一个 batch 有 N 对（图像, 文本）：

图像编码器（ViT） → N 个图像向量 文本编码器（Transformer） → N 个文本向量 对比学习目标： ✅ 配对的 (图像i, 文本i) → 拉近 cosine similarity ❌ 非配对的 (图像i, 文本j) → 推远 cosine similarity loss = cross_entropy(图像矩阵 @ 文本矩阵^T, 对角矩阵) ↑ 图像 @ 文本^T 是一个 N×N 矩阵 ↑ 对角线上是配对样本，其余位置是负样本

核心洞察：

企业官网建设流程全解析

引言：大模型不再只看文字

一、CLIP：图文对齐的奠基之作

1.1 训练时

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

引言：大模型不再只看文字

一、CLIP：图文对齐的奠基之作

1.1 训练时

热门文章

文章分类

标签云

相关文章

写给初学者的Java核心要点与避坑指南

5 分钟完成接入！OpenClaw 搭配 DeepSeek V4，模型切换一步到位

Claude Code Auto mode 的成本与延迟，别只看模型价格，还要看每一次动作背后的安全往返

需要专业的网站建设服务？