搜索
Home
»
machine-learning
»
recommend
» Top-K Off-Policy Correction for a REINFORCE Recommender System
Top-K Off-Policy Correction for a REINFORCE Recommender System
Table of Contents
论文简介
论文简介
推荐是根据推荐算法曝光展示的样本及反馈数据训练模型,是有偏的
主要贡献
将REINFORCE算法应用到百万级别的动作空间任务
利用 off-policy 纠正数据的偏差
展示探索的价值