TL;DR
- I read this because.. : ๋ฐฐ๊ฒฝ์ง์ ์ฐจ
- task : RL
- problem : q-learning์ ๋๋ฌด ๋ถ์์ ํ๊ณ , trpo ๋ ์๋์ ์ผ๋ก ๋ณต์ก. data efficientํ๊ณ sclableํ arch?
- idea : KL divergence term ๋์ ์ clipping์ ์ฌ์ฉํ์. step size $\beta$๋ฅผ adaptiveํ๊ฒ ๋ณ๋์ํค์
- input/output : state -> action
- architecture : MLP
- objective : $L^{CLIP}(\theta) = \hat{\mathbb{E}}_t \left[ \min(r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1 - \epsilon, 1 + \epsilon)\hat{A}_t) \right]$
- baseline : loss(no clipping, KL penalty), A2C, CEM, TRPO
- data : OpenAI Gym(Mujoco), human control task(Roboschool), Atari
- evaluation : ๋ชฐ๋ผ
- result : ์ข๋ค
- contribution : ๊ฐ๋จํ๊ณ ์ง๊ด์ ์ธ loss.. ์ฌ์ค ์ด ๋ ผ๋ฌธ๋ง ๋ณด๋ฉด ์ง๊ด์ ์ธ ์ดํด๊ฐ ๋์ด์ ๊ตณ์ด ๊ทธ ์ ๋ด์ฉ์ ์์์ด์ผ ํ๋ ์๊ฐ๋.. ใ ใ
- etc. :
Details
preliminary
- policy gradient method
policy network์ ๋ํ gradient๋ฅผ advantage์ ๊ฐ์คํ์ฌ ๋ฏธ๋ถํ๋ ํํ ์ฌ๊ธฐ์ E๋ sample์ ๋ฝ์์ ๊ทธ๋ฅ ํ๊ท ์ทจํ๋ ํํ
loss๋ ์ด๋ฌํ policy๋ฅผ ๋ฐ๋ฅด๋ trajectory์ ๋ํ advantage ๊ฐ์คํฉ์ ๊ธฐ๋๊ฐ์ด ์ต๋๊ฐ ๋๋๋ก ํ๋ฉด ๋๋ค ๊ทธ๋ฌ๋ large policy update๊ฐ ๋ ๊ฒฝ์ฐ ์ฑ๋ฅ์ด ์ข์ง ์๋ค
- Trust Region methods
TRPO๋ ๋๋ฆฌ ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ์ฑ๋ฅ ๊ฐ์ ์ด ๋ณด์ฅ๋๋ policy update๋ฅผ ํ ์ ์๋ surrogate ํจ์๋ฅผ ์ฆ๋ช
ํ๊ณ (https://github.com/long8v/PTIR/issues/154
) ์ด๋ policy๊ฐ ์
๋ฐ์ดํธ ๋ ๋์ ์ ์ฝ์ด ์๊ฒจ์ ๊ฒฐ๋ก ์ ์ผ๋ก ์๋์ ๊ฐ์ด new, old policy network์ importance weight์ advantage๊ฐ ๊ณฑํด์ง ํํ
์ค์ ๋ก๋ ์ ์ฝ์ด ์๋๋ผ penalty term์ ์ถ๊ฐํจ ์ฌ๊ธฐ์ $beta$๋ ํ์ดํผํ๋ผ๋ฏธํฐ์.
์ด ๋ ผ๋ฌธ์์ ๋งํ๋ TRPO์ ๋ฌธ์ ์ ์ $\beta$๊ฐ ํ๋๋ก ๊ณจ๋ผ์ง ์ ์๋ค ์ ๋์ธ๋ฏ.
Clipped Surrogate Objective
๊ฒฐ๋ก ์ ์ผ๋ก $r_t(\theta) = \frac{\pi_\theta(a_t | s_t)}{\pi_{\theta_{old}}(a_t | s_t)}$๊ฐ ๋๋ฌด ํฌ๊ฑฐ๋ ์์ง ์๋๋ก clipํ๋ค๊ณ ๋ณด๋ฉด ๋จ
์ด๋ ๊ฒ ํ๋ policy network์ ๋ณ๋์ด ์ ์๋ค๊ณ ํจ
Adaptive KL Penalty Coefficient
์์ด์ฐธ ์ด๊ฒ๋ ์์ฃผ ์ง๊ด์ ์ด๊ณ ๊ฐ๋จํ๋ค..
Algorithm
์์๋ policy์ ๋ํ gradient ์
๋ฐ์ดํธ๋ฅผ ์ด๋ป๊ฒ ํ ์ง ์ ํ๊ฑฐ๊ณ ์ธ์ ๊ฒ๋ค์ ๊ด์ฐฎ์ ๊ฒ๋ค ๊ฐ๋ค ์.
V(s)๋ฅผ ๋์
ํ์ฌ reward์ variance ์ค์. ์ฆ policy surrogate์ value function error term์ ์ถ๊ฐํจ. ์ฌ๊ธฐ์ exploration ๋ ๋ง์ด ํ๋ผ๊ณ entropy bonus๋ฅผ ์ถ๊ฐํด์ค.
advantage๋ ํ์ฌ ํ ์ธ๋ Reward์ summation์์ ํ์ฌ์ V๋ฅผ ๋นผ๊ณ ๋ฏธ๋์ V๋ฅผ ํ ์ธํด์ ๋ํจ.
์ ๊ธฐ์ต ์๋๋๋ฐ.. fixed time step์์ bias // vairance๋ฅผ ์ต์ ํํ๋ ๊ธฐ๋ฒ์ ์จ์ ์๋์ ๊ฐ์ด ๊ตฌํจ
Experiments
loss term
other RL algorithms ๋ด๋ ๋ชจ๋ฅด์ฅฌ ใ