An Empirical Evaluation of Thompson Sampling

关于

摘要

算法

$$
\int I[E(r|a,x,\theta) = \max_{a'} E(r|a',x,\theta)] P(\theta|D) d\theta
$$

汤普森采样

贝努力bandit

乐观汤普森采样

后验塑形

时延的影响

展示广告

汤普森采样LR

新文章推荐