https://arxiv.org/pdf/1511.06295.pdf
列出了三種不同 loss 的練法(for Q-learning):
NLL

MSE

KL




模型大小和分數


過程中 student 的 variance 比較小!?

ACTOR-MIMIC DEEP MULTITASK AND TRANSFER REINFORCEMENT LEARNING: https://arxiv.org/pdf/1511.06342.pdf
※ AMN: Actor-Mimic Network
用 Boltzmann distribution 來表示 explicit 的 policy。

用 cross-entropy 練

除了預測的 action,feature extraction 也可以學 teacher:feature regression

整理 loss:

文中有一些描述理論推導的地方,這裡略。