Policy Distillation & Actor-Mimic

Chinese RL RL from Prior Distillation Multi-Task

written by LiaoWC on 2023-11-08


Policy Distillation


https://arxiv.org/pdf/1511.06295.pdf

  • 提出 policy distillation
  • Teacher & student 皆採 DQN (滿符合那時代的背景)
    • Teacher 和 student 用的網路架構是一樣(除了 model compression)。
  • 列出了三種不同 loss 的練法(for Q-learning):

    • NLL

      Untitled

    • MSE

      Untitled

    • KL

      Untitled

Single-task distillation 實驗

Untitled

Untitled

  • 在這幾個環境 KL 的表現較好,MSE 較差
  • 從作者的推論看起來:
    • RL 問題裡,best action 和次高 action 它們 Q 值差異可能不大。但是 MSE 的練法在 Q 差異小時權重較小,反而較難選到最好的 action。
    • NLL 的設計理念假設了在任何時間點都有一個正確的 action(原則上如果獎勵不是隨機的,任何最佳策略都是確定的)。但如果沒有 optimal teacher,最小化 NLL 可能反而會放大 teacher學習過程中的 noise
  • 基本上就是純監督學習,沒想到 student 的分數還能比 teacher 高,why?

Model-compression 實驗

模型大小和分數

模型大小和分數

  • 竟然模型縮小績效還能比老師好!?
  • 太小的話似乎成績還是會降

Multi-task Distillation

Untitled

Untitled

Online Policy Distillation

過程中 student 的 variance 比較小!?

Untitled

Actor-Mimic


ACTOR-MIMIC DEEP MULTITASK AND TRANSFER REINFORCEMENT LEARNING: https://arxiv.org/pdf/1511.06342.pdf

※ AMN: Actor-Mimic Network

  • 用 Boltzmann distribution 來表示 explicit 的 policy。

    Untitled

  • 用 cross-entropy 練

    Untitled

  • 除了預測的 action,feature extraction 也可以學 teacher:feature regression

    Untitled

  • 整理 loss:

    Untitled

  • 文中有一些描述理論推導的地方,這裡略。