目录
10.5.2 卷积神经网络
1. 核心思想:从图像到广义“空间”的局部感知
2. 在计算广告中的核心应用场景
3. 工程实践中的架构设计与优化
4. 总结:从视觉感知到模式挖掘的通用工具
10.5.3 递归神经网络
1. 核心思想:拥有“记忆”的神经网络
2. 经典变体:解决长期依赖难题
3. 在计算广告中的核心应用场景
4. 工程实践中的挑战与对策
5. 总结:为广告系统注入时间维度与记忆能力
10.5.2 卷积神经网络
在深度学习领域,卷积神经网络因处理图像数据的卓越能力而闻名遐迩。然而,在计算广告这个看似与视觉关系不大的领域,CNN同样扮演着不可或缺的角色。其核心价值在于高效地捕获局部相关性和层次化模式,这一能力被巧妙地应用于处理广告中的文本、序列乃至结构化特征,从而极大地提升了系统对内容与用户意图的理解深度。
1. 核心思想:从图像到广义“空间”的局部感知
CNN的设计哲学源于对视觉皮层的仿生学观察,其三大核心操作在广告场景中被赋予了新的内涵:
局部连接:不同于全连接网络每个神经元都与上一层的全部神经元相连,CNN的神经元只与输入数据的局部区域相连。在图像中,这个局部区域是一个小方块(如3x3像素);在文本中,它可能是一个连续的词序列(如3个词);在用户行为序列中,它可能是一段时间窗口内的事件。
广告意义:一个广告的点击意图,往往由几个关键词的共现(如“优惠”、“立即”、“购买”)、或用户短时间内连续浏览的几个相关商品所决定。局部连接迫使模型聚焦于这些有意义的局部模式,而非所有特征的全局散乱组合,这更符合认知逻辑。
权值共享:同一个卷积核(一组固定的权重)会滑动遍历整个输入空间。这意味着,无论这个模式出现在输入数据的哪个位置(如图像的左上角或右下角,文本的开头或结尾),都由同一个“探测器”来识别。
广告意义:无论“限时折扣”这个短语出现在广告创意的标题还是描述中,它都应被识别为一种促销信号。权值共享赋予了CNN强大的平移不变性和模式泛化能力,显著减少了模型参数,提高了学习效率。
池化:对局部区域进行下采样(如取最大值或平均值),输出一个更抽象、更鲁棒的特征表示。
广告意义:池化操作提供了对微小变化(如同义词替换、词序微调)的不变性,并逐步扩大特征的感受野。例如,从识别“便宜”、“性价比高”等具体词汇,到抽象出“价格优势”这一高层概念。
2. 在计算广告中的核心应用场景
2.1 创意内容理解与质量评估
广告创意(文案、图片、视频)是吸引用户的第一触点。CNN是解析创意内容的利器。
文本创意理解:
一维卷积应用于词序列:将广告标题和描述分词并转换为词向量后,形成词向量序列。使用多个不同宽度(如2,3,4)的一维卷积核进行滑动,可以自动提取出重要的n-gram短语特征(如“新品上市”、“包邮到家”)。这些特征比手工设计的关键词更能捕捉语义。
应用:用于创意点击率预估、创意与落地页相关性审核、违规文本(如虚假宣传)识别。
图像/视频创意理解:
二维/三维卷积的直接应用:使用预训练的CNN(如ResNet)提取广告banner或视频关键帧的高级视觉特征。这些特征可以用于:
素材质量评分:自动判断创意是否清晰、美观、符合品牌调性。
违规内容检测:识别图片中是否存在违禁品、不雅内容或误导性元素。
创意元素定位:结合目标检测网络(如YOLO),识别创意中Logo、商品、人物的位置和大小,用于程序化创意组装和点击热力图分析。
风格与情感分析:判断创意风格是“简约”、“奢华”还是“搞笑”,情感是“积极”还是“紧迫”,为个性化创意推荐提供依据。
2.2 用户短期兴趣与序列模式挖掘
用户的行为(点击、浏览、搜索)是一个时间序列。传统模型难以有效捕捉其动态变化和短期内的强关联。
一维卷积行为序列建模:将用户最近N次交互的物品(商品、文章、视频)的ID或它们的Embedding向量,按时间顺序排列成一个序列。对此序列应用一维卷积,可以高效地提取出局部连续行为所反映的即时兴趣。
例如:用户连续浏览了“篮球鞋”、“运动袜”、“护膝”,CNN可以轻易捕捉到这个“篮球运动装备”的短期兴趣簇,从而立即推荐相关的篮球或运动防护广告。这比基于长期统计的兴趣标签(如“体育爱好者”)更为敏锐和精准。
结合注意力机制的CNN:单纯的CNN对序列中所有局部窗口一视同仁。可以引入注意力机制,让模型在卷积前或池化时,动态衡量不同行为片段的重要性。例如,对用户昨晚的密集搜索行为和一周前的随意浏览赋予不同的权重。
2.3 跨模态语义匹配
在搜索广告和推荐广告中,需要计算用户查询(或当前浏览内容)与广告创意之间的语义相关性。
基于交互的匹配模型:早期的深度匹配模型(如ARC-I)会分别用两个CNN对查询和广告文本进行编码,得到各自的固定向量,然后计算相似度。但这种方法信息损失较大。
基于表示的匹配模型:更先进的做法是,先让查询和广告的文本进行充分的“交互”(如计算词级别的相似度矩阵),形成一个交互图(Interaction Map),然后将这个二维矩阵输入一个二维CNN进行深层特征提取。CNN能够从交互矩阵中自动学习到复杂的、非局部的匹配模式,例如捕捉“同义但不同词”、“上下文相关”等深层次语义关联。
3. 工程实践中的架构设计与优化
在广告系统中部署CNN,需要充分考虑其计算特性和业务约束。
轻量化模型设计:线上预估服务对延迟要求极其苛刻(毫秒级)。用于创意理解的CNN必须足够轻量。
技巧:使用深度可分离卷积(Depthwise Separable Convolution)大幅减少计算量;对预训练的大模型进行知识蒸馏,训练一个轻量级的学生网络;使用模型剪枝和量化技术,降低模型大小和计算精度。
特征融合架构:CNN很少单独使用。经典的广告排序模型架构是双塔模型或多模态融合模型。
双塔模型:用户侧塔和广告侧塔分别用各自的网络(可能包含CNN处理文本或序列)进行编码,最后计算向量内积。这种结构利于离线计算广告向量,实现高速检索。
多模态融合:将CNN提取的视觉特征、文本特征与传统的ID类、统计类特征在MLP层进行拼接和融合,形成最终的综合特征表示。
在线学习适应性:用户兴趣和广告创意风格会随时间演变。CNN模型需要支持在线或准在线的更新。由于CNN参数相对稠密且训练稳定,可以采用周期性全量更新(如每天)结合Embedding层实时增量更新的策略。
4. 总结:从视觉感知到模式挖掘的通用工具
卷积神经网络在计算广告中的应用,完美诠释了基础研究向跨领域应用的迁移。它不再仅仅是“看”图片的眼睛,而是变成了一个强大的广义局部模式探测器。无论是从文字中提取关键短语,从行为序列中发现兴趣片段,还是从跨模态交互中挖掘深层语义,CNN都以其参数高效、层次化抽象的能力,为广告系统提供了更细腻、更动态的认知维度。在创意优化、用户理解和精准匹配这三大战场上,CNN已成为不可或缺的深度智能组件。
10.5.3 递归神经网络
用户与广告系统的交互本质上是一系列有时间先后顺序的事件:一次搜索、一次浏览、一次点击、一次购买。这些事件并非孤立,后续行为深受先前历史的影响。递归神经网络及其变体,正是为建模此类序列依赖关系而生的强大工具,它们赋予广告系统一种“记忆”能力,使其能够理解用户兴趣的演化轨迹,而非仅仅是一个静态的快照。
1. 核心思想:拥有“记忆”的神经网络
RNN的核心在于其循环结构:网络在处理序列中的每个元素时,不仅接收当前的输入,还接收一个来自上一时刻的隐藏状态,该状态编码了之前所有历史信息的总结。然后,它产生当前时刻的输出和传递给下一时刻的新隐藏状态。
基本RNN单元的计算过程:
其中,htht是t时刻的隐藏状态,xtxt是t时刻的输入,ytyt是t时刻的输出(如预测下一项)。这种结构使得信息理论上可以在序列中无限传递。
2. 经典变体:解决长期依赖难题
基本RNN存在严重的梯度消失/爆炸问题,难以学习长序列中的长期依赖。两个革命性的门控机制应运而生:
长短期记忆网络:通过引入“门”控机制(输入门、遗忘门、输出门)和“细胞状态”这一信息高速公路,有选择地记忆和遗忘信息。
遗忘门:决定从细胞状态中丢弃哪些旧信息。
f_t = σ(W_f · [h_{t-1}, x_t] + b_f)输入门:决定哪些新信息被存入细胞状态。
i_t = σ(W_i · [h_{t-1}, x_t] + b_i)候选值:生成待添加到细胞状态的新信息。
\tilde{C}_t = tanh(W_C · [h_{t-1}, x_t] + b_C)更新细胞状态:
C_t = f_t * C_{t-1} + i_t * \tilde{C}_t输出门:基于细胞状态,决定输出什么隐藏状态。
o_t = σ(W_o · [h_{t-1}, x_t] + b_o),h_t = o_t * tanh(C_t)广告意义:LSTM能够记住用户很久之前表现出的核心兴趣(如“母婴”),同时根据近期行为(如开始浏览“学前教育”)动态调整其状态,非常适合建模兴趣的长期演进。
门控循环单元:LSTM的简化变体,将遗忘门和输入门合并为“更新门”,并合并了细胞状态和隐藏状态,结构更简单,计算效率更高,在许多任务上表现与LSTM相当。
更新门:控制有多少旧信息被保留。
z_t = σ(W_z · [h_{t-1}, x_t] + b_z)重置门:控制有多少旧信息被用于计算新候选状态。
r_t = σ(W_r · [h_{t-1}, x_t] + b_r)候选隐藏状态:
\tilde{h}_t = tanh(W · [r_t * h_{t-1}, x_t] + b)最终隐藏状态:
h_t = (1 - z_t) * h_{t-1} + z_t * \tilde{h}_t
3. 在计算广告中的核心应用场景
3.1 用户兴趣动态建模与点击率预估
这是RNN在广告中最经典、最成功的应用。目标是基于用户的历史行为序列,预测其下一次点击广告的概率。
行为序列构建:将用户按时间排序的交互记录(商品ID、广告ID、品类、搜索词等)转化为Embedding序列。
序列建模:将该序列输入RNN(LSTM/GRU)。最后一个时间步的隐藏状态 hThT,被视为对用户当前综合兴趣的动态编码。
点击率预测:将 hThT 与候选广告的Embedding向量、上下文特征等进行拼接,输入到一个多层感知机中,最终输出CTR预估值。
代表模型:阿里巴巴的DIN和DIEN模型是这方面的典范。
DIN:在将用户历史行为与候选广告计算相关性权重后,进行加权求和池化,这可以看作一种“软”注意力机制,但其基础仍是序列数据。
DIEN:更进一步,设计了两层GRU。第一层GRU用于抽取行为序列;第二层“兴趣进化GRU”则显式地建模兴趣随时间的变化过程,并通过注意力机制与候选广告交互,捕捉与当前广告最相关的兴趣演化路径。
3.2 会话式搜索广告与查询建议
在搜索场景中,用户当前的查询往往依赖于之前的搜索历史。
会话上下文理解:将用户在一个搜索会话中的历史查询序列输入RNN,模型可以理解用户的搜索意图演进。例如,序列 [“三亚”, “天气”, “酒店”] 表明用户正在计划一次三亚旅行。当用户输入下一个不完整的查询时,系统可以基于RNN的隐藏状态预测其完整意图,并提供更精准的广告和搜索建议。
下一查询预测:直接使用RNN作为序列生成模型,预测用户最可能进行的下一次搜索是什么,从而进行广告的预加载和资源的提前分配。
3.3 广告创意生成与序列优化
程序化文案生成:给定一些关键词(如产品名、卖点),可以使用基于RNN/LSTM的文本生成模型(类似早期用于生成诗歌的模型),自动组合生成通顺、有吸引力的广告标题或描述。虽然目前主流已转向Transformer,但RNN是这一领域的开创者。
创意投放序列优化:对于同一个用户,不同创意展示的先后顺序会影响整体转化效果。可以将创意展示视为一个序列决策问题,使用RNN来建模用户状态在曝光序列中的变化,并联合优化整个序列的投放策略。
4. 工程实践中的挑战与对策
在工业级广告系统中应用RNN面临独特挑战:
超长行为序列的处理:用户行为序列可能长达数百甚至上千。处理如此长的序列,RNN的计算是顺序的,延迟无法接受,且早期信息可能被稀释。
解决方案:
序列截断与抽样:只取最近N个行为,或进行时间窗口抽样。
层次化建模:先按天或会话将行为分组,在组内和组间分别使用RNN,形成层次化记忆结构。
转向Transformer:这是当前更主流的解决方案。Transformer的自注意力机制可以并行处理整个序列,并直接建模任意两个行为间的依赖关系,在效果和效率上通常优于RNN。但RNN的理论和思想仍是理解序列建模的基础。
在线学习的实时性:用户每产生一个新行为,理想的模型应能即时更新其兴趣状态。传统RNN的循环结构使全量重算变得低效。
解决方案:
增量更新:将RNN的隐藏状态缓存起来。当新行为到来时,以缓存的状态为初始状态,只对新行为进行一步RNN计算,得到更新后的状态。这需要精心的状态管理和一致性保证。
使用近似模型:训练一个轻量级的“状态更新网络”,输入旧状态和新行为,直接输出新状态,避免完整的RNN前向传播。
行为序列的异构性与稀疏性:用户行为类型多样(点击、收藏、购买),且非常稀疏。
解决方案:为不同类型的行为设计不同的Embedding空间或使用类型编码。同时,结合元特征(如行为发生的时间间隔、停留时长)作为RNN的额外输入,丰富序列信息。
5. 总结:为广告系统注入时间维度与记忆能力
递归神经网络将时间这一关键维度系统地引入了计算广告模型。它使系统能够超越静态的画像,去理解用户兴趣如何萌芽、演变、转移和衰减。尽管在工程上面临效率挑战,并部分被Transformer架构所超越或补充,但RNN所开创的序列建模思想——尤其是门控机制和状态记忆——是深度理解用户动态意图的基石。从DIN/DIEN等工业级模型的成功可以看出,掌握RNN及其变体,对于构建真正具备“用户历史意识”的下一代智能广告系统至关重要。它让广告推荐从“猜测你现在可能喜欢什么”进化到“理解你为何走到这一步,并预见你下一步需要什么”