Tags
PriorDistillationMulti-Task
Date
December 8, 2023
Last Edited Date
Language
看 Kickstarting 那篇時,看到了這兩篇。雖然年代久遠,還是讀一下這兩篇在做什麼。
Policy Distillation
https://arxiv.org/pdf/1511.06295.pdf
- 提出 policy distillation
- Teacher & student 皆採 DQN (滿符合那時代的背景)
- Teacher 和 student 用的網路架構是一樣(除了 model compression)。
- 列出了三種不同 loss 的練法(for Q-learning):
- NLL
- MSE
- KL
Single-task distillation 實驗
- 在這幾個環境 KL 的表現較好,MSE 較差
- 從作者的推論看起來:
- RL 問題裡,best action 和次高 action 它們 Q 值差異可能不大。但是 MSE 的練法在 Q 差異小時權重較小,反而較難選到最好的 action。
- NLL 的設計理念假設了在任何時間點都有一個正確的 action(原則上如果獎勵不是隨機的,任何最佳策略都是確定的)。但如果沒有 optimal teacher,最小化 NLL 可能反而會放大 teacher學習過程中的 noise
- 基本上就是純監督學習,沒想到 student 的分數還能比 teacher 高,why?
Model-compression 實驗
- 竟然模型縮小績效還能比老師好!?
- 太小的話似乎成績還是會降
Multi-task Distillation
Online Policy Distillation
過程中 student 的 variance 比較小!?
Actor-Mimic
ACTOR-MIMIC DEEP MULTITASK AND TRANSFER REINFORCEMENT LEARNING: https://arxiv.org/pdf/1511.06342.pdf
※ AMN: Actor-Mimic Network
- 用 Boltzmann distribution 來表示 explicit 的 policy。
- 用 cross-entropy 練
- 除了預測的 action,feature extraction 也可以學 teacher:feature regression
- 整理 loss:
- 文中有一些描述理論推導的地方,這裡略。