Table of Contents
关于
- 计算广告相关的调研
广告计费方式
- CPC, 按点击付费, 广告主的转化效果无法保证
- CPA, 按转化付费, 广告商的收益很难保证
- OCPC, 按转化作为优化目标, 但是按照点击付费
广告检索系统
Beyond Keywords and Relevance: A Personalized Ad Retrieval Framework in E-Commerce Sponsored Search
- 传统广告检索基于广告主购买关键词构建倒排索引, 在query到来的时候, 通过query改写得到关键词, 然后通过倒排索引检索广告
- 这种方式在广告主没有购买关键词时无法将相关广告发给相关用户, 在电商广告中还有其他GMV等目标要求
- 没有用到个性化信息帮组检索相关广告
- 广告搜索过程
- 广告商为自己的广告购买一些关键词, 并为关键词出价
- 用户提交查询请求, 并携带一些反应意图的信号, 如query
- 广告检索系统基于相关性和收入估计,为用户检索出TOP N条广告
- 处于性能和效率的考虑, 广告搜索系统包含两个关键模块: 检索系统、和排序系统
- 广告检索系统又包含两个关键模块:
- 改写: 将query信息改写、扩展到更多的关键词
- 广告选择: 利用改写的关键词从倒排索引中高效地检索出相关广告
- 三层:
- 信号节点: query, 画像, 短期点击item(在这个query下点过的商品), 长期点击item
- key节点: query, item, shop, brand。key节点用来作为检索的key,类似于query的关键词,所以必须保证覆盖的广告数量不会太多, 所以要选取广告细粒度的属性
- 广告节点: 就是每一个广告了
- 两种边
- 改写边, 信号节点--key节点, 类似于传统query改写的作用, 相当于query改写的推广,用到了更多的信号源,改写后也不限于关键词,还有item,shop等。实现的时候通过倒排索引实现
- 广告选择边, key--广告, 和传统的广告选择一样, key就是关键词的作用, 通过倒排索引实现检索
- 边的初始化
- 信号节点--key节点的边不是那么容易获取, key--广告的边就比较容易, 但也可以通过这个方法增强
- 点击计数, 统计每一对 (信号节点, key节点) 点击次数, 保留点击次数大于某个阈值的; 问题在于点击次数依赖于展示次数
- 信息价值, 计算每一对 (信号节点, key节点) 的信息价值, 保留信息价值大的
- 基于session的相关性, 同一个session里面的行为是相关的, 因此session里面的query、点击的item、点击的广告之间是相关的。用每个node在session空间中的表示向量,计算余弦距离得到相关性
- 初始化的边很多,且是基于相关性的,而不是基于RPM/CTR导向的。在收集一定的数据后可以通过模型打分预估每个边的权重
- 数据集的生成
- <{signal nodes}, ad, label>, 激活的信号节点、广告二元组, label是点击或未点击
- 基于初始化的网络,将信号节点到ad改写为边 <{signal -> key}, {key -> ad}, label>, 注意这里边是一个集合, 所以一个样本包含了不定数量条边
- 特征抽取
- 稀疏特征, 节点和边的id直接作为特征
- 连续统计特征, 点击次数、展示次数、点击率
参考
- 《计算广告》
- Beyond Keywords and Relevance: A Personalized Ad Retrieval Framework in E-Commerce Sponsored Search