基于对抗梯度的探索模型及其在点击预估中的应用

发布时间：2022-08-26 11:18:43 所属栏目：大数据来源：互联网

导读：1. 摘要排序模型在广告、推荐和搜索系统中起到了至关重要的作用。在排序模块中，点击率预估技术又是重中之重。目前工业界的点击率预估技术大多采用深度学习算法，基于数据驱动来训练深度神经网络，然而数据驱动带来的相应问题是推荐系统中的新进项目会存在

　　1. 摘要
　　排序模型在广告、推荐和搜索系统中起到了至关重要的作用。在排序模块中，点击率预估技术又是重中之重。目前工业界的点击率预估技术大多采用深度学习算法，基于数据驱动来训练深度神经网络，然而数据驱动带来的相应问题是推荐系统中的新进项目会存在冷启动问题。

　　探索与利用（Exploration-Exploitation，E&E）方法通常用于处理大规模在线推荐系统中的数据循环问题。过去的研究通常认为模型预估不确定度高意味着潜在收益也较高，因此大部分研究文献聚焦到对不确定度的估计上。对于采用流式训练的在线推荐系统而言，探索策略会对训练样本的收集产生较大影响，进而影响模型的进一步学习。然而，当前大多数探索策略并不能很好的建模被探索的样本如何对后续模型学习产生影响。因此，我们设计了一个拟探索（Pseudo-Exploration）模块来模拟样本被成功探索并展现后对推荐模型后续学习的影响。

　　拟探索过程通过在模型输入中添加对抗扰动来实现，我们同时也给出了该过程相应的理论分析以及证明。基于此，我们将该方法命名为基于对抗梯度的探索策略（ A dversarial G radient driven E xploration，以下简称 AGE ）。为了提高探索的效率，我们还提出了一个动态门控单元用来过滤低价值样本，避免将资源浪费在低价值的探索上。为了验证AGE算法的有效性，我们不仅在公开学术数据集上进行了大量的实验，也将AGE模型部署到了阿里妈妈展示广告平台上并取得了良好的线上收益。该工作已被KDD 2022 Research Track收录为Full Paper，欢迎阅读交流。

　　论文： Adversarial Gradient Driven Exploration for Deep Click-Through Rate Prediction

　　下载： https://arxiv.org/abs/2112.11136

　　2. 背景
　　在广告系统中，点击率（CTR）预估模型通常采用流式方式加以训练，而流式数据的来源又是由部署在线上的CTR模型产出，这就产生了所谓的数据循环问题。冷启动与长尾广告由于没有充分展现，CTR模型缺乏对这部分广告的训练数据，这也导致模型对这部分广告的估计可能存在较大误差，会使得这些广告更加难以展现，进而难以完成冷启动过程。具体而言，图一给出了广告真实点击率与展现数量之间的关系：我们系统中，一个新广告的展现平均需要达到约一万次，其点击率才能达到收敛态。这给许多在线系统带来了一个常见的难题，即如何在保证用户体验的前提下，为这些广告做好冷启动。

　　探索和利用（E&E）算法通常被用来解决上述问题。在推荐或广告系统中，常见的方法（如Contextual Multi-Armed Bandits，上下文多臂老虎机）一般会将该问题按照如下方式加以建模。在每步中，系统会基于策略P选择一个操作（即为用户推荐一个项目_ _）。为了最大化累积奖励（通常使用总点击量来衡量），系统需要权衡当前是偏重探索，还是偏重利用。先前的研究通常认为，高不确定性是潜在回报的衡量指标。一方面，策略P需要优先选择当前效用较大的项目以最大化本轮收益；另一方面，算法也需要选择不确定度较大的操作以实现探索。如果用来表示权衡探索和利用的策略，那么系统对项目最终打分可以用如下公式表示：

　　不确定性估计已成为许多E&E算法的核心模块。不确定性可能源于数据的可变性、测量噪声和模型不稳定性（例如：参数的随机性），典型的估计方法包括蒙特卡洛MC-Dropout、贝叶斯神经网络、预测不确定性的高斯过程，以及基于梯度范数（模型权重）的不确定性建模等。在此基础上，有两种典型的探索策略：基于UCB的方法通常采用潜在回报的上限作为最终打分[1,2]，而基于汤普森采样的方法是通过从估计的概率分布中抽样来完成 [3]。

　　3. 方法介绍
　　我们认为，上述方法并未考虑一个完整的探索闭环。对于数据驱动的在线系统而言，探索的最终收益来自于从探索过程中获取的反馈数据，以及反馈数据对于模型的训练与更新。而模型预估的不确定度本身并不能完全反映整个反馈闭环。为此，我们引入了一个拟探索模块，用于模拟完成探索动作后反馈数据对于模型的影响，并以此来衡量探索的有效性。分析发现，探索的有效性不仅取决于模型的预估不确定度，还取决于“对抗扰动”的大小。所谓对抗扰动，指的是在模型的输入上加入的固定模长的扰动中使得模型输出变化最大的扰动向量。在论文中，我们也证明了，模型利用被探索的数据进行一次训练后，模型输出变化的期望等价于在输入向量中加入模长为不确定度、扰动向量为对抗梯度的增量向量。我们验证了按照这种方式进行建模，可以闭环地估计出被探索样本对模型的后续影响，从而估计出被探索样本的真实价值。

　　我们将这种方法称为基于对抗梯度的探索（Adversarial Gradient driven Exploration），简称AGE。AGE模型由拟探索模块（Pseudo-Exploration Module）与动态门控阈值单元（Dynamic Gating Unit）两部分组成，其整体结构如图二所示。

　　其中部分的详细介绍详见3.1节，部分的详见3.3节。

　　3.1 拟探索模块（Pseudo-Exploration Module）
　　3.1.1 模块简介

　　拟探索模块的主要目的是定量模拟模型使用探索样本加以训练后，对该样本打分的变化，从而估计探索对于模型的闭环影响。经过推导，我们发现可以通过公式(2)来完成上述过程，其中代表了探索后模型对该样本的打分，我们将其用于最终的排序。

　　上式表示我们不需要对原有模型参数进行任何操作，只需要在输入的表征中加上对抗梯度，预估不确定度以及手工设定的超参数的乘积，即可完成对探索后模型预估分的模拟。其中参数与的计算方法，我们在下一节中介绍。本节后续我们将介绍拟探索模块中公式(2)的详细推导过程。

　　3.1.2 详细推导

　　对于每条数据样本而言，模型的训练将会影响两部分参数：该样本对应的表征（包含商品、用户embedding等）与模型参数。因为模型参数在训练中的目标是适应所有样本而不是单条样本，所以我们可以认为训练单条样本主要会对样本对应的表征产生影响，而模型参数本身只需要微小的调整。因此，在后续研究中，我们将忽略的调整，而仅关注样本对应的表征的变化。假设包含表征的样本真实label为，训练时，我们需要寻找到的更新量，以最小化损失函数。基于此，我们定义：

　　其中代表训练中使用的损失函数，而在CTR预估任务中一般使用交叉熵损失函数。同时，我们用来约束表征的最大变化。为了简化书写，后续我们将上述公式右侧写为。

　　依据拉格朗日中值定理，在的二范数接近0的情况下，我们可以将上述损失函数公式(3)推导为：

　　我们观察公式(4)，易发现该损失函数在与两个向量有相反的方向时，获得最小值。在公式(3)中，我们约束对抗扰动。因此，通过求解公式(3)，我们得到：

　　实践中，我们用来替代公式(5)中的归一化梯度。通过求导链式法则，可以展开为和两部分。进一步计算，得到：

　　在上式中，我们将重新缩放到以保持等式的成立。尽管含义不同，但它们都是手动调节的超参数，故我们可以直接以完成替换。我们进一步简化公式(6)为：

　　上式中，归一化梯度表示模型输出相对于输入表征的导数方向。由于真实的用户反馈在探索时无法得到，我们将使用预估不确定度来衡量预测得分与真实用户反馈之间的差值。

　　公式(7)中，我们找到了在的约束下可以最大化改变模型预测输出的解析解（推导与公式(3)到公式(5)相同）。进一步，我们也发现上述对输入表征添加的过程与对抗扰动（见公式(9)）的形式相同。

（编辑：钦州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

架构迭代无法一蹴而就	Python 取得旅游景点信
两种主流大数据系统架	不良数据会造成更严重