Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts

简介

问题

以电影推荐为例,我们既要预测用户购买电影,也要预测用户对电影的评分。通过对用户推荐其评分高的电影实现长期收益

模型结构

MOE

合成试验

合成试验效果

Mixture-of-Experts

g 是gate网络,g(x)_i 代表gate网络输出的第i个分量,代表选择第i个专家的概率,g是归一化的,f_i代表第i个专家网络

FAQ

为什么多任务一起学习很多时候不如单任务单独学习的效果

为什么在没有非线性项时,构造数据的label的pearson相关系数精确为p