Policy Distillation & Actor-Mimic

Policy Distillation & Actor-Mimic

Tags

PriorDistillationMulti-Task

Date

December 8, 2023

Last Edited Date

Language

看 Kickstarting 那篇時，看到了這兩篇。雖然年代久遠，還是讀一下這兩篇在做什麼。

Policy Distillation

https://arxiv.org/pdf/1511.06295.pdf

提出 policy distillation
Teacher & student 皆採 DQN (滿符合那時代的背景)

Teacher 和 student 用的網路架構是一樣(除了 model compression)。

列出了三種不同 loss 的練法(for Q-learning)：

NLL

MSE

KL

Single-task distillation 實驗

在這幾個環境 KL 的表現較好，MSE 較差
從作者的推論看起來：

RL 問題裡，best action 和次高 action 它們 Q 值差異可能不大。但是 MSE 的練法在 Q 差異小時權重較小，反而較難選到最好的 action。
NLL 的設計理念假設了在任何時間點都有一個正確的 action(原則上如果獎勵不是隨機的，任何最佳策略都是確定的)。但如果沒有 optimal teacher，最小化 NLL 可能反而會放大 teacher學習過程中的 noise

基本上就是純監督學習，沒想到 student 的分數還能比 teacher 高，why？

Model-compression 實驗

模型大小和分數

模型大小和分數

竟然模型縮小績效還能比老師好！？
太小的話似乎成績還是會降

Multi-task Distillation

Online Policy Distillation

過程中 student 的 variance 比較小！？

Actor-Mimic

ACTOR-MIMIC DEEP MULTITASK AND TRANSFER REINFORCEMENT LEARNING: https://arxiv.org/pdf/1511.06342.pdf

※ AMN: Actor-Mimic Network

用 Boltzmann distribution 來表示 explicit 的 policy。

用 cross-entropy 練

除了預測的 action，feature extraction 也可以學 teacher：feature regression

整理 loss:

文中有一些描述理論推導的地方，這裡略。