image

paper

TL;DR

  • I read this because.. : CS285 기말과제
  • task : reinforcement learning
  • problem : 이론적으로 무조건 성능이 개선되는 policy update 방식이 있을까
  • idea : conservative policy iteration에서 증명한 lower bound를 일반적인 policy network에 대해 구하고 이 lower bound를 surrogate function으로 해서 maximization하자
  • input/output : {s, a, r, … } -> policy
  • architecture : conv+ linear
  • baseline : deep Q-learning
  • result : 나쁘지 않은 성능. Deep Q-learning보다 별로 좋진 않음
  • contribution : PPO의 전신
  • etc. :

Details

TRPO.pptx

  • objective 스크린샷 2023-12-25 오후 8 53 45