Facebook 预测广告点击率的实践经验

摘要

在线广告允许广告客户只为可以测量的用户反应出价和支付，比如点击广告。所以，在线广告系统中点击预测系统是大多数在线应用的核心。在Facebook上，每天活跃用户超过7.5亿，活跃广告客户有100多万，点击率预估在Facebook广告中是一个具有挑战性的机器学习任务。本文介绍了一个结合决策树与逻辑回归的模型，它超越了其中任何一个单独的方法，效果提升了超过3％，这个提升对整个广告系统的效果有显着的影响。然后我们探索一些基本参数如何影响我们系统的最终预测性能。我们发现，最关键的是要有正确的特征：那些有关用户历史信息或广告领域的其他类型的特征。一旦我们有正确的特征和正确的模型（决策树加逻辑回归），其他因素影响很小（在大规模的情况下，虽然很小的改善也是重要的）。选择最佳处理数据新鲜度，学习速率和数据采样只稍微提高了一点点，远不及添加一个高价值的特征，或选择正确的模型

引言

数字广告是一个价值数十亿美元的行业并且每年大幅增长。在大多数在线广告平台，广告的分配是动态的，基于用户观察后的反馈为用户的兴趣量身打造的。机器学习在预估候选广告给用户的效果中起着核心作用，并增加了市场效率。
2007年，Varian [11]和Edelman[4]等人的开创性论文描述了由Google和Yahoo的出价(bid)和每次点击付费的先驱工作! 同年，微软也是在此基础上基于竞价模型构建一个赞助搜索市场[9]。广告拍卖的效率取决于对点击预测的准确度和校准。该点击预测系统需要具有鲁棒性和自适应性能够从大量的数据中学习。目标本文的目的是分享来自实验的见解考虑到这些要求并执行对现实世界的数据。在赞助搜索广告中，用户查询用于检索候选广告，显式或隐式地匹配查询。在Facebook上，广告没有关联用查询，而是指定人口和兴趣定位。因此，广告的数量有资格在用户访问Facebook时可以显示大于赞助搜索。为了处理大量的候选广告请求，每当用户触发广告请求访问Facebook，我们将首先建立一个级联的分类器增加计算成本。在本文中，我们重点介绍级联分类器的末级点击预测模型，那就是为最终集合产生预测的模型的候选广告。我们发现一个结合决策树的混合模型逻辑回归优于这两种方法之一靠自己超过3％。这种改善有重大意义影响整个系统的性能。一些基本参数影响最终的预测效果 - 我们的系统。如预期的那样最重要的事情是要有正确的功能：形成关于用户或广告主宰其他类型的功能，功能。一旦我们有正确的功能和正确的模式（决策树加逻辑回归），其他因素发挥作用小角色（尽管小小的改进很重要规模）。为数据新鲜度选择最佳处理方式，学习率模式和数据采样改善模型稍微，虽然比添加高价值功能少得多，或者选择合适的模型开始。我们首先概述了我们在Sec- 在第3部分我们评估不同的概率线性
第2页
分类器和多种在线学习算法。在合约线性分类文本我们继续评估影响功能转换和数据新鲜度。受到了启发吸取的实际经验教训，特别是数据新鲜度和在线学习，我们提出了一个模型架构，企业在线学习层，而公平地生产紧凑型号。第4节描述了一个关键组件为在线学习层，在线木匠，一个可以生成实况的实验性基础设施实时训练数据流。最后，我们提出交易记忆和准确性的方法计算时间，并应付大量的培训数据。在第五部分中，我们描述了一些实用的方法，包含大规模应用程序的时间和延迟在第6节我们深入到了训练数据之间的权衡数量和准确性。 2.实验安装为了达到严格和可控的实验，我们通过选择任意一周准备训练数据在2013年第四季度。为了保持不变培训和测试数据在不同的条件下，削减了与观察到的类似的训练数据线上。我们把存储的数据分成训练和测试并使用它们来模拟在线数据，在线培训和预测。相同的培训/测试数据被用作本文所有实验的测试平台。评估指标：因为我们最关心的这些因素对机器学习模型的影响，我们直接使用预测的准确性而不是度量与利润和收入有关。在这项工作中，我们使用Normal- 熵（NE）和校准作为我们的主要评估度量。归一化熵更准确，熵相当于每次印象的平均对数损失除以每次印象的平均对数损失如果一个模型预测了背景点击率（CTR）为每个印象。换句话说，由背景的熵归一化的对数对数损失 CTR。背景点击率是平均经验点击率的训练数据集。这可能会更多的描述 - 将这个度量称为归一化对数（Normalized Logarithmic）失利。值越低，预测越好由模型制作。这个正常化的原因是背景CTR越接近0或1，更容易实现更好的日志丢失。除以en- 背景CTR的回归使得NE不敏感背景点击率。假设一个给定的训练数据集 N个具有标签的示例y i 2 {1，+ 1}和估计的概率 - 点击的能力我在哪里我= 1，2，... N。平均经验值 CTR作为p NE = 1 N P n 我= 1 （ 1 + y 我 2 log（p i ）+ 1y i 2 日志（1 p i ））（p⇤log（p）+（1 p）⇤log（1 P））（1） NE基本上是计算相对信息的一个组成部分，增益（RIG）和RIG = 1 NE 图1：混合模型结构输入功能通过增强的决策树进行转换。每个单独的树的输出被视为一个将分类输入特征映射到稀疏线性分类器。提升的决策树被证明是非常强大的功能转换。校准是平均估计点击率和经验性点击率换句话说，这是数字的比例预期点击次数达到实际观察到的点击次数。校准是一个非常重要的指标，因为准确和经过精心校准的CTR预测对成功至关重要在线竞价和拍卖。校准不同从1开始，模型越好。我们只报告校准在不重要的实验中。请注意，ROC区域（AUC）也是相当不错的不考虑排名质量的度量校准。在现实的环境中，我们预计，词典是准确的，而不是仅仅得到最佳的选择。错误的排列顺序，以避免潜在的不足交付或过度使用，交货。 NE衡量预测的好处，明确地反映了校准。例如，如果一个模型over- 预测2倍，我们应用全球乘数0.5来解决校准后，对应的NE也会有所改善即使AUC保持不变。详见[12] 研究这些指标。 3.预测模型结构在本节中，我们提出一个混合模型结构：提升的决策树和概率 - 抽动稀疏线性分类器，如图1所示。在Sec- 我们显示决策树是非常强大的输入功能转换，这大大增加了ac- 概率线性分类器的精度。在3.2节我们展示如何更新鲜的训练数据导致更准确的预处理，新词语。这激发了使用在线学习的想法方法来训练线性分类器。在3.3节中，削减了两个家庭的在线学习变量概率线性分类器。我们评估的在线学习计划是基于
第3页
随机梯度下降（SGD）算法[2]适用于稀疏线性分类器。经过功能转换后，广告印象是以结构化向量x =给出的（e i 1 ，...，e i n ）其中e i是第i个单位矢量，i 1 ，...，i n 是n个分类输入特征的值。在里面训练阶段，我们也假设我们得到了一个二进制指示点击或不点击的标签y 2 {+1,1}。给定一个标记的广告印象（x，y），让我们表示线性活动权重的组合 s（y，x，w）= y·w T x = y ñ X J = 1 w j，i j ，（2）其中w是线性点击分数的权重向量。在最先进的贝叶斯在线学习计划中概率回归（BOPR）描述[7]的可能性和事先给出 p（y | x，w）= ✓s（y，x，w）◆， p（w）= ñ ÿ k = 1时 N（W·K;μK，2 k ），（t）是标准的累积密度函数正态分布和N（t）是密度函数标准正态分布。在线培训已经实现通过期望传播与时刻匹配。最终的模型由均值和方差组成权重向量的近似后验分布 W上。 BOPR算法中的推理是计算 p（w | y，x）并将其投影到最接近因子分解的Gaus- （w）的sian近似。因此，更新算法可以单独用所有的更新方程来表示意义和方差的非零组件x（见[7]）： μI J μI J + Y· 2 我 j ^·v✓ s（y，x，μ） ^ ◆，（3） 2 我 j 2 我 j ·“1 2 我 j ^ 2 ·w✓ s（y，x，μ） ^ ◆＃，（4） ^ 2 = 2 + ñ X J = 1 2 我 j 。（5）这里，校正函数v和w由v（t）：=给出 N（t）/（t）和w（t）：= v（t）·[v（t）+ t]。这个推断可以被视为信念向量μ和的SGD方案。我们将BOPR与可能性函数的SGD进行比较 p（y | x，w）= sigmoid（s（y，x，w）），其中sigmoid（t）= exp（t）/（1 + exp（t））。由此产生的al- 算法通常被称为Logistic回归（LR）。推断 - 在这个模型中计算对数的导数，可能性和步行每个坐标依赖步长这个梯度的方向： w i j 瓦特 I J + Y·⌘I J·G（S（Y，X，W）），（6）其中g是所有非零com- 并且由g（s）给出：= [y（y + 1）/ 2 y·sigmoid（s）]。请注意，（3）可以被看作是一个每坐标梯度de- 香味等（6）上的平均矢量μ，其中步长⌘I J 是由信念不确定性自动控制的。在 3.3小节将介绍各种步长函数⌘ 并与BOPR进行比较。上述的基于SGD的LR和BOPR都是流式的学习者一个接一个地适应训练数据。 3.1决策树特征转换有两种简单的方法来转换输入功能的线性分类器，以提高其准确性。对于连续的功能，学习非线性的简单技巧转化是为了将这个特征和待处理的垃圾箱 dex作为一个分类特征。线性分类器有效学习特征的分段恒定非线性映射。学习有用的bin边界是很重要的，并且有许多信息最大限度地做到这一点。第二个简单而有效的转换包括构建元组输入功能。对于分类特征，蛮力方法包括采取笛卡尔产品， uct，即创建一个新的分类特征作为原始特征的所有可能值的值。不所有的组合都是有用的，而那些不是可以的剪掉了。如果输入功能是连续的，可以这样做联合装箱，例如使用kd树。我们发现，推动决策树是一个强大的，非常便捷的方式来实现非线性和元组transfor- 我们刚刚描述的那种。我们对待每个指标，个人树作为一个分类特征，作为值叶子的索引最终落入。我们使用1- 这种类型的特征的-K编码。例如，考虑图1中的增强树模型有2个子树，其中第一个子树有3个叶子和第二个叶子。如果实例结束于第一个子树中的叶子2和叶子1中第二个子树，将整体输入到线性分类器中是二进制向量[0,1,0,1,0]，其中前3个条目对应第一个子树的叶子，最后2个那些第二个子树。推动决策树我们使用遵循梯度增压机（GBM）[5]，其中使用经典的L 2 -TreeBoost算法。在每个学习 - 迭代，创建一个新的树来模拟残差以前的树木。我们可以理解提升的决策树作为一个监督的特征编码将实值向量转换为紧凑二进制值向量。从根节点到叶节点的遍历表示某些特征的规则。拟合一个线性分类器二元向量本质上是学习权重的集合规则。提升的决策树以批处理方式进行培训。我们进行实验来显示包括树的效果作为线性模型的输入。在这个实验中我们比较两个logistic回归模型，变换和其他与平原（非转换）特征。我们也只使用一个提升的决策树模型比较。表1显示了结果。树状特征转换有助于减少标准化的En- 相对于标准化来说超过3.4％没有树变换的模型的熵。这是一个非常显着的相对改善。作为参考， ical feature engineering experiment will shave off夫妇几十％的相对NE。有趣的是看到
第4页
表1：Logistic回归（LR）锡永树（树）做出强有力的组合。我们评估他们的归一化熵（NE）相对于只有树的模型。模型结构NE（仅限于树） LR +树木 96.58％只有LR 99.43％树只 100％（参考）图2：预测精度作为一个函数训练和测试之间的延迟以天为单位。 Accu- 活动表示为归一化熵相对于最坏的结果，得到的树木模型推迟6天。孤立使用的LR和Tree模型具有相似性， rable预测准确性（LR是好一点），但它是他们的组合产生了一个精确的飞跃。中的收益预测准确性显着; 供大家参考特征工程实验只能减少归一化的熵由百分之几分之一。 3.2数据新鲜度点击预测系统通常部署在动态环境中，数据分布随时间变化的数据。我们研究训练数据新鲜度对预测每个人的预测效果， formance。要做到这一点，我们在一个特定的日子里训练模型并在连续的几天进行测试。我们运行这些实验对于一个推动的决策树模型和一个逻辑的具有树变换的输入特征的回归模型。在这个实验中，我们训练一天的数据，并进行评估连续六天计算归一化每个熵。结果如图2所示。预测精度明显降低，因为两种模式训练和测试集之间的延迟增加。对于这两个mod- 可以看出NE可以减少近似值从每周的培训到每天的培训只有1％。这些发现表明，每天都值得重新培训基础。一种选择是重复日常工作可能会批量培训模型。所需要的时间再培训推动的决策树根据不同的因素而有所不同如培训的例子数量，树木的数量，每棵树上的叶子数量，cpu，内存等。可能需要超过24小时，建立一个数百人的助推模型数以亿计的实例中， GLE核心CPU。在实际情况下，可以完成培训在几个小时内通过多核心的充分并发整体拥有大量内存的机器训练集。在下一节我们考虑一个替代方案。推动决策树可以每天或每个cou- 几天的时间，但线性分类器可以在近处训练通过使用一些在线学习的风味实时。 3.3在线线性分类器为了最大限度地提高数据的新鲜度，一种选择是训练在线分类器，即直接作为标签广告印象到达。在即将到来的第四部分中，扫描一个可以实时生成的基础设施训练数据。在本节中，我们将评估几种方法为基于SGD的在线学习设置学习率， gistic回归。然后，我们将最好的变体与在线比较学习BOPR模型。就（6）而言，我们探讨以下选择： 1.每坐标学习率：迭代t的ture被设置为 ⌘t ，i = ↵ + qP t j = 1 r 2 J，I 。是两个可调参数（在[8]中提出）。 2.权重平方根学习率： ⌘t ，i = ↵ pn t，i ，其中n t，i是具有特征的总训练实例我直到迭代t。 3.重量学习率： ⌘t ，i = ↵ 不，我。 4.全球学习率： ⌘t ，i = ↵ PT。 5.不断学习率： ⌘t ，i =↵。前三个方案分别设置学习率特征。最后两个使用相同的速度为所有功能。所有可调参数通过网格搜索（optima）进行优化详见表2.）我们将学习率下降0.00001连续学习。我们用相同的数据训练和测试LR模型以上学习率计划。实验结果是如图3所示。从以上结果可以看出，SGD以每坐标学习为主速率达到最好的预测精度，用NE al- 比使用每重量学习率低5％
第5页
表2：学习速率参数学习率模式参数每坐标 0.1 = 0.1，= 1.0 重量平方根 = 0.01 每重量 = 0.01 全球 = 0.01 不变 0.000 = 0.0005 图3：不同学习的实验结果 LR新加坡元汇率。 X轴cor- 回应不同的学习率计划。我们在左侧绘制标定y- 轴，而归一化的熵则用右边的第二y轴。表现最差。这个结果是符合结论的， sion [8]。新元与重量平方根和恒定学习率达到相似和略差的NE。该其他两种方案比以前差很多版本。全球学习率主要由于失败每个功能上的训练实例数量不平衡。由于每个培训实例可能包含不同的功能，一些受欢迎的功能，接受更多的培训，立场比别人。根据全球学习率计划，对于具有较少实例的特征的学习率，折痕太快，并防止收敛到最佳状态重量。虽然每重量学习费率计划ad- 打扮这个问题，它仍然失败，因为它减少了所有功能的学习速度太快。培训终止模型收敛到次优点的地方太早了。这就解释了为什么这个方案的性能最差在所有的选择之中。有意思的是BOPR更新方程（3）平均数与每坐标学习最相似 SGD的LR版本。有效的学习率 BOPR是针对每个坐标而定的，取决于与每个个体相关的体重的后验方差协调，以及给予什么标签的“惊喜” 模型会预测[7]。我们进行了一个实验，通过每个坐标SGD和BOPR训练LR的形式。我们训练LR和BOPR模型排序器” Online'Joiner” 培训师” 功能{x} 点击{y} 楷模 {x，y} 广告图4：在线学习数据/模型流程数据并评估下一次的预测性能天。结果如表3所示。表3：每坐标在线LR与BOPR 模型类型 NE（相对于LR） LR 100％（参考） BOPR 99.82％也许正如人们所期望的那样，鉴于质量的相似性更新公式，BOPR和LR用SGD进行培训每坐标学习率有非常相似的预测，无论是NE还是校准都可以提高性能（未在表格中显示）。 LR比BOPR的一个优点是模型的大小是一半，因为只有一个相关的权重稀疏特征值，而不是均值和方差。去等待实施，更小的模型大小可能导致更好的缓存局部性，从而更快的缓存查找。在在预测时间计算费用的条款，LR 模型只需要一个内部产品的功能vec- tor和权重矢量，而BOPR模型需要两个方差向量和均值向量的内积与特征向量。 BOPR比LR更重要的一个优点是，贝叶斯公式，它提供了一个完整的预测分布 - 点击概率。这可以用来com- 预测分布的百分位数，可以用于探索/开发学习计划[3]。 4.在线数据连接器前一节确定了更新的训练数据导致预测准确度提高。它还提出了一个线性分类器层的简单模型架构在线培训。本部分介绍了一个实验系统，用于训练线性分类器的实时训练数据，通过在线学习更加困难。我们将这个系统称为 “在线木匠”，因为它的关键操作是加入标签（点击/不点击）到培训输入（广告印象）中一个在线的方式。类似的基础设施用于流例如在Google广告系统[1]中学习。在线木匠输出实时训练数据流到一个名为Scribe的基础设施[10]。而积极的
第6页
标签（点击）是明确的，没有这样的事情用户可以按“不点击”按钮。为此，一个印象被认为是否定否定点击标签用户在固定之后没有点击广告，并且充分地看到广告后很长一段时间。的长度等待时间窗口需要仔细调整。使用等待时间过长会延迟实时训练，增加数据并增加分配给缓存的内存等待点击信号的印象。太短了时间窗口导致一些点击丢失，因为相应的印象可能已经被刷新，作为未点击的贝壳。这对“点击覆盖”产生了负面影响所有点击成功加入展示的比例。因此，网上木匠系统必须取得平衡新近度和点击率之间。没有完整的点击覆盖意味着实时培训 - 一套将是有偏见的：经验性的点击率是有点低于事实的真相。这是因为一小部分的标记为未点击的展示次数将会是la- 如果等待时间足够长，可以点击。然而在实践中，我们发现很容易减少这种情况对等待窗口百分比的小数点偏差大小，导致可管理的内存要求。在此外，这个小偏差可以测量和纠正。可以找到更多关于窗口大小和效率的研究在6点钟]。在线木匠被设计来执行分布式流到流加入广告展示和广告点击uti- 将请求ID作为连接的主要组件谓词。每次用户每次生成一个请求ID时，在Facebook上形成一个触发刷新的动作他们所接触到的内容。原理图数据和模型显示了在线加工者随后在线学习的流程如图4所示。初始数据流是当用户产生的访问Facebook并向排名提出请求，没有广告广告被传回给用户的设备并行使用每个广告和相关的功能排名印象被添加到印象流中。如果用户选择点击广告，该点击将被添加到点击流。实现流到流的连接系统利用一个HashQueue组成一个First-In- 先出队列作为缓冲窗口和快速的散列图随机访问标签展示次数一个HashQueue 在键值对上有三种操作：排队，出列和查找。例如，要排队一个项目，我们将项目添加到队列的前面并在中创建一个键散列映射，其值指向队列的项目。只有完整的加入窗口过期后，标签才会显示印象被发射到训练流。如果没有点击它将作为负面标记的例子发射出去。在这个实验设置中，教练员不断学习从培训流程中发布新款车型，对于Ranker而言。这最终形成一个严密的封闭循环的机器学习模型的变化，可以捕获分布或模型性能，了解到，并在短期内继续纠正。实验一个重要的考虑因素实时训练数据生成系统是需要的建立防止异常的保护机制腐败在线学习系统。让我们来简单介绍一下例。如果点击流由于某些原因而变得陈旧数据基础设施问题，网上木匠将产生train- 这些数据具有非常小的甚至为零的经验性点击率。由此，实时教练将开始错误地预测非常低，或者接近零概率单击。广告的预期价值自然取决于估计的点击概率，以及一个结果错误地预测非常低的点击率是系统可能展示广告展示次数减少。异常检测 - 重刑机制可以在这里帮助。例如，从网上木匠matically断开在线教练如果实时训练数据分布突然改变。 5.包含内存和延迟 5.1增强树的数量模型中的树越多，所需的时间就越长做一个预测。在这个部分，我们研究了这个效果估计精度的推动树数量。我们改变树的数量从1到2 000，并训练模型在一天的数据，并测试预测per- 在第二天的表演。我们只限于此每棵树上有12片叶子。与之前的实验类似，我们使用归一化熵作为评估指标。该实验结果如图5所示。图5：增强次数的实验结果树木。不同系列对应不同的子系列楷模。 x轴是助推树的数量。 Y轴是归一化的熵。热带植物减少，因为我们增加了增加树木的数量。然而，增加树木的收益会减少重新生长，转。 NE的改进几乎都来自前500名树木。最后一千棵树使NE降低不到0.1％。此外，我们看到子模型的归一化熵 2棵树开始退化后，1000棵树。之所以这样做，现象是过度配合。由于子模型的训练数据 2比子模型0和1小4倍。 5.2提升功能重要性特征计数是另一个模型特征，在估算精度和计算之间取舍，性能。为了更好地理解功能的效果算上我们首先将特征重要性应用于每个特征。为了衡量我们使用的功能的重要性统计促进特征重要性，
第7页
确定归因于特征的累计损失减少量。在每个树节点结构中，选择一个最佳特征分割以最大化平方误差减少。由于一个功能，可以用于多种树木，（增强特征重要性）为每个功能是通过求和来确定的所有树木的特定特征的总减少量。通常情况下，少数特征贡献了主 - 而其余特征具有解释性权力只有边际贡献。我们看到这种模式当绘制功能的数量与他们的cumu- 图6中的特征重要性。图6：提升功能重要性 X轴cor- 响应功能的数量。我们画功能在左侧小学对数的重要性 y轴，而累积特征的重要性是与右边的副y轴一起显示。从以上的结果可以看出，前十名的特点是负责总功能重要性的大约一半，而最近的300个功能贡献不到1％的功能重要性。基于这个发现，我们进一步做实验只保留了前10,20,50,100和200个功能，并评估表现如何影响。的结果实验如图7所示。从图中我们可以看出可以看到归一化的熵有类似的递减返回属性，因为我们包含更多功能。下面我们将对这个实用性进行一些研究的历史和背景特征。由于数据sen- 敏度的性质和公司政策，我们不能够揭示在我们实际使用的功能细节。有些EX- 充足的上下文特征可以是一天的当地时间，天周等历史特征可以是累计数的点击广告，等等。 5.3历史特点在升压模式中使用的功能可分为分为两种类型：上下文特征和历史特点。语境功能的价值完全取决于CUR- 租有关的上下文信息，其中广告是示出的，诸如由用户或CUR-所使用的设备租页面，用户上。相反，历史功能依赖于广告或用户以前的互动，例如，通过广告的点击率在上周，或平均点击通过用户的速度。图7：结果与顶部fea-推进模型功能。我们利用校准在左侧革命制度党玛丽y轴，虽然示出归一化的熵与右手侧次级y轴。在这一部分，我们研究如何系统的性能取决于两个类型的特征。首先，我们检查这两种类型的特点的相对重要性。我们这样做是通过按重要性排序的所有功能，然后计算出per- 在第k个重要特征历史特色centage。结果在图8中由该结果所示，我们可以看到图8：结果历史风貌百分比。 X轴对应于特征数。Y轴给的历史特点在顶部K-百分比重要特征。该历史风貌提供了相当多的explana- 保守党功率比上下文特征。排名前10的特征或 - 按重要性dered都是历史特色。之间排名前20位的特点，也有只有2上下文特征，尽管历史特征占据的特征大致75％在此数据集。为了更好地理解的比较值从各类型合计，我们班列车2个助推功能荷兰国际集团车型只有上下文特征，只有历史功能，那么这两个型号的完整比较模型的所有功能。结果示于表4。从表中，我们可以再次确认，在他的 - 汇总 torical功能发挥出比上下文特征发挥更大的作用。
第8页
表4：具有不同类型的推进fea-模型功能特征NE的类型（相对于语境）所有 95.65％历史的 96.32％上下文 100％（参考）没有只上下文特征，我们衡量4.5％的损失预测精度。相反，没有上下文功能，我们遭受的预测精度小于1％的损失。应该注意到，上下文功能都非常的IM portant处理冷启动问题。对于新用户和广告，上下文特征是必不可少的一种合理点击率预测。在下一步，我们评估与他的 - 只有在训练的模型在连续torical功能或上下文特征周来测试数据新鲜度的特征依赖。该结果示于图9。图9：结果datafreshness用于不同类型的功能。X轴是而y轴上的评估日期是归一化熵。从图中我们可以看到，与情境模型功能更依赖比历史数据新鲜度特征。这是与我们的直觉线，因为历史fea- 功能形容长期积累的用户行为，比上下文特征更加稳定。 6.海量训练数据期应对 Facebook的广告印象数据的一整天可以包含大量实例。请注意，我们不能透露实际数字，因为它是保密的。但小一天的有价值的数据的部分可以有几百数以百万计的实例。用于控制的一种常用技术培训成本降低了培训的数据量。在这一节中，我们评估两种技术下采样数据，均匀子采样和负向下采样。在每次我们训练了一套增强型树模型与600棵树情况并同时使用校准和标准化评估这些熵。 6.1统一的二次抽样培训行统一欠采样是一个诱人的AP- proach减少数据量，因为它是既容易实现并且可以使用所产生的模型与 - 出来的二次抽样训练数据和修改都非二次抽样的测试数据。在这一部分，我们评估了一组大约成倍增加二次采样率。对于每一个速度，我们培养了增强型树模型，在这个采样率从基部数据集。我们改变二次采样率在{0.001,0.01，0.1％，0.5％，1}。对数据量的结果在图10中它是在示图10：数据量试验的结果。该 X轴对应于训练实例数。我们利用校准在左侧主 y轴，而归一化的熵被示为具有右手侧次级y轴。与我们的直觉线更多的数据带来更好的per- formance。此外，数据表明体积dimin- ishing在预测准确度方面的回报。只用数据的10％，则归一化的熵仅1％reduc- 重刑在相对于整个训练数据集的性能。在这个采样率校准没有显示性能减少。 6.2负下采样一流的失衡已经研究了许多研究人员和已被证明对perfor-显著影响学习模式 - 曼斯。在这一部分中，我们调查使用负向下采样的解决类不平衡问题。我们经验与不同的负试验下采样率来测试的预测精度学习模型。我们而变化{0.1，0.01，0.001，0.0001}的速率。实验结果示于图11。从结果中我们可以看到，负下降SAM- pling率对的性能显著影响训练模型。最佳的性能与neg-实现 ative下行采样率设置为0.025。 6.3型号重新校准负采样可以加快培养和提高模型的性能。需要注意的是，如果一个模型在数据训练
第9页
图11：阴性实验结果比较下降采样。X轴对应于不同nega- 略去下行采样率。我们利用校准的左手侧主y轴，而归一化的熵被示出具有右手侧次级 y轴。设置有负下采样，也校准预文辞的采样空间。例如，如果aver- 取样前年龄的点击率是0.1％，我们做一个负0.01 下采样，经验CTR将成为约10％。我们需要重新校准的实际流量实验模型并取回与q中的0.1％的预测= p P +（1P）/ w的其中p是下采样空间和瓦特的预测负采样率。 7.讨论我们从实验 - 提出了一些实用的经验教训荷兰国际集团与Facebook的广告数据。这一直激励着一个有前途的对于点击预测混合模型架构。 •数据新鲜度的问题。值得一至少再培训日常。在本文中，我们更进一步讨论各种在线学习方案。我们还提出基础设施，使生成的实时培训数据。 •转型实值输入功能与提升决策树显著提高预测AC- 概率线性分类的curacy。这激励着该串接升压混合模型架构决策树和稀疏线性分类。 •最优惠的在线学习方法：LR每个坐标学习率，这最终是类似的在per- 与BOPR formance，并执行胜过一切正在研究其他LR SGD方案。（表4，图12）我们已经描述的技巧来维持内存和延迟CON组 tained在大规模机器学习应用 •我们已经提出的数量之间的权衡提高决策树和准确性。有利的是，保持树木小，以保持计算的数量记忆包含。 •提振决策树给做的一种便捷方式通过功能重要手段特征选择。一可积极地减少的活性特征的数量而只有适度的伤害预测精度。 •我们分析了使用历史fea-的影响功能与上下文特征的组合。对于广告和用户提供的历史，这些功能提供了优于预测性能比背景特征。最后，我们已经讨论了欠采样培训方式数据，都均匀地而且更有趣在偏置办法只有负面例子子采样。