人工智能通识：计算机视觉经典模型-酒店常州论坛

1. 简述CV技术的应用现状

计算机视觉（CV）技术已深度渗透到多个行业，呈现场景化落地加速、多技术融合深化、商业化成熟度提升的特点：

- 消费级场景：手机的人脸解锁、美颜滤镜、图像识别分类；短视频/直播的特效、内容审核；电商的商品视觉搜索、虚拟试衣。

- 工业与安防：工厂的视觉质检（如零部件缺陷检测）；安防领域的人脸识别、行为分析、车辆牌照识别与轨迹追踪。

- 自动驾驶：车载视觉系统实现车道线检测、障碍物识别、交通标识识别，是L2及以上自动驾驶的核心技术之一。

- 医疗健康：医学影像的病灶检测（如CT、MRI图像的肿瘤识别）、病理切片分析，辅助医生诊断。

- 机器人与无人机：服务机器人的环境感知、无人机的航拍图像分析与目标定位。

- 新兴方向：结合大模型的视觉-语言多模态交互（如图文生成、视觉问答），以及元宇宙中的虚拟场景重建与视觉交互。

2. 简述CNN模型识别图像中对象的流程

CNN（卷积神经网络）识别图像对象的核心是从原始像素中逐层提取特征，最终完成分类/检测，流程主要分为五步：

1. 图像预处理：将输入图像统一尺寸、归一化像素值（如缩放到[0,1]或[-1,1]），部分场景会做数据增强（翻转、裁剪等）。

2. 卷积层提取特征：通过卷积核在图像上滑动做卷积运算，提取边缘、纹理等低层特征，再经激活函数（如ReLU）引入非线性，得到特征图。

3. 池化层降维：对卷积层输出的特征图进行下采样（如最大池化、平均池化），减少参数数量和计算量，同时保留关键特征。

4. 全连接层整合特征：将多次卷积+池化后的高维特征图展平为一维向量，通过全连接层整合全局特征，映射到类别维度。

5. 输出层分类/预测：经Softmax激活函数将输出转化为各类别的概率分布，取概率最大的类别作为识别结果；若为目标检测，还会结合锚框、回归分支输出对象的位置与类别。

3. 简述残差学习的设计理念

残差学习（Residual Learning）是为解决深度神经网络的退化问题（网络层数增加后精度饱和甚至下降）提出的核心设计，理念主要包括：

1. 残差映射替代直接映射：传统网络试图让每层学习“从输入到输出的直接映射H(x)”，残差学习则让网络学习残差映射F(x)=H(x)-x，最终输出为H(x)=F(x)+x。当H(x)=x（恒等映射）时，残差F(x)=0更容易学习，避免层数加深时梯度消失/爆炸。

2. 跳跃连接（Shortcut Connection）：通过跳跃连接将输入x直接叠加到卷积层的输出上，实现恒等映射的直接传递，让梯度能从深层直接回流到浅层，缓解梯度消失问题。

3. 适配深度网络训练：残差结构使网络可轻松堆叠至百层甚至千层（如ResNet），既保留了深层网络的特征提取能力，又保证了训练的稳定性和效率。

需要我为你整理CV经典模型对比表，把CNN、ResNet、ViT等模型的特点和适用场景做个汇总吗？

企业官网建设流程全解析