TL;DR
- I read this because.. : agent + VLM ๊ฒ์ํ๋ค๊ฐ ๋์ด. gaming rl์ ๊ด์ฌ ์์ด์. ICML'24 oral
- task : world modeling, embodied agent(language instruction์ ์ํํ๋ agent)
- problem : ๊ธฐ์กด ๋ฐฉ์์ language๊ฐ ์ฃผ์ด์ง๊ณ ํ๋์ ํ๋ ์์ด์ง๋ง real-world๋ ์ค์ ๋ก language, action, video ๊ฐ ์ฐ์์ ์ผ๋ก input/output ๋๋ ๊ฒ์ ๊ฐ๊น์
- idea : language๋ฅผ instruction ๋ฟ ์๋๋ผ ์ง์์ ์ต๋ํ๊ณ ๋ฏธ๋๋ฅผ ์์ธกํ๋๋ฐ ์ฌ์ฉํ ์ ์์ง ์์๊น?
- input/output : (world model) {video, text, action} -> {representation of future, (optional) language} (agent) state -> action
- architecture : (vision encoder) strided image encoder (vision decoder) strided image decoder (text embedding) embedding from scratch or T5 (sequence modeling) GRU /// (policy model) DreamerV3
- objective : (world model) reconstruction error + regularization + next representation prediction (policy model) maximize expected reward
- baseline : (model-free RL) IMPALA, R2D2, (task-specific model) EMMA (Messenger)
- data : (world model) replay buffer from {homegrid, messenger, vln-ce, langroom} (pretraining) messenger manual(in-domain), tiny stories(general)
- evaluation : HomeGrid (proposed), Messenger, VLM-CE, LangRoom (proposed)
- result :
- contribution : streaming ์ผ๋ก ๋ค์ด์ค๋ ์ ๋ณด์ ๋ํด ํจ๊ณผ์ ์ธ world model ํ์ต (single “text” modality pretraining ์ด ๊ฐ์ฅ contribution ์ธ๋ฏ?) – ์ธ์ world model + actor-critic ์ด๋ ๊ฐ์ด ํ์ตํ๋ ๊ฑด dreamer v3(https://arxiv.org/abs/2301.04104 )์ contribution์ธ๋ฏํ๋ค.
- etc. :
Details
problem setting
- action: $a_t$ – discrete action
- reward $r_t$
- episode end $c_t$ ($c_t$=0 when ends)
- observation $o_t$ -> multimodal observation (visual $x_t$, textual $l_t$)
world model learning
- Recurrent State Space Model(RSSM) – GRU ๊ธฐ๋ฐ์ sequence model์ ์ฌ์ฉ
- $z_t$ : reresentation representation -> $\hat{z_{t+1}}$๋ฅผ ์์ธก
- $h_t$ : recurrent state
- multimodal representation
- variational autoencoder objective๋ก $z_t$๋ก ์์ถ. ์ดํ $z_t$์ ๋ํด reward $\hat r_t$์ $\hat c_t$๋ ์์ธก.
- ์ถ๊ฐ๋ก $z_t$์ $\hat z_t$๊ฐ ๋๋ฌด ๋ฌ๋ผ์ง์ง ์๋๋ก regularize ์ถ๊ฐ
- future prediction
- ํ์ฌ์ model state $z_{t-1}$, $h_{t-1}$์์ ๋ชจ๋ธ์ด ์์ธกํ $\hat {z_t}$๊ฐ ์ค์ ๋ค์ step์ $z_t$์ match ๋๋๋ก ํ์ต.
- world model์ด ๋ฏธ๋์ ํํ์ ๋ํ $\hat z_t$๋ฅผ ์์ธกํ๊ฒ ํจ์ผ๋ก์ ๋ฏธ๋์ image, language, reward๋ฅผ ์์ธกํ๊ณ ๋ค์ํ multiple modalities์ correlation์ ํ์ตํ๋๋ก ํจ
- single modality pretraining
- world model์ offline์ผ๋ก๋ ํ์ตํ ์ ์๊ธฐ ๋๋ฌธ์ text-only, video-only data๋ก world model์ ํ์ตํ ์ ์์
- text only์ ๊ฒฝ์ฐ image, action input์ zero๋ก ๋๊ณ decoder loss coefficient๋ฅผ 0์ผ๋ก ๋๋ฉด pretraining์ ํ ์ ์์.
- language modeling loss์ ๋ฌ๋ฆฌ ๋ค์์ representation์ ์์ธกํ๋ ๋ฐฉ์์ผ๋ก ํ์ต๋จ
- actor, critic ์ ์ด๊ธฐํํ ๋ค ๊ฐ๊ฐ์ modality ์ ๋ํด ์ด์ ๊ฐ์ด pretraining ํ ์ ์์
policy learning
- actor-critic ์ผ๋ก Dreamer V3์ ๊ตฌ์กฐ๋ฅผ ๊ทธ๋๋ก ๊ฐ์ ธ๊ฐ
experiment
RQ1: {image, language}๋ฅผ timestep ๋ณ pair๋ก ๋ฃ๋ ๊ฒ์ด ๋ ์ข์ ๊ฒ์ด๋ค
RQ2: ํ์ตํ ๋ ๋ค์ํ language๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ model-free baseline๊ณผ ๋น๊ตํ์ ๋ ๋ค์ํ ์ข ๋ฅ์ language๋ฅผ ๋ฃ์์ ๋ ์ฑ๋ฅ์ด ๊ด์ฐฎ์ ๊ฒ์ด๋ค.
RQ3: instruction์ world model์ ๋ฃ๋ ๊ฒ์ language-conditioned policy๋ฅผ ์ฌ์ฉํ๋๊ฒ๋ณด๋ค ๋์์ง ์์ ๊ฒ์ด๋ค.
RQ4: multimodal generative model์ ํตํด grounded language generation๊ณผ offline text-only data ํ์ต์ด ๊ฐ๋ฅํจ์ ๋ณด์
RQ1: {image, language}๋ฅผ timestep ๋ณ pair๋ก ๋ฃ๋ ๊ฒ์ด ๋ ์ข์ ๊ฒ์ด๋ค
- language conditioned์ธ ๋ค๋ฅธ ๋ฒ ์ด์ค๋ผ์ธ(~10M) ๋๋น Dynalang ์ด ๊ฐ์ฅ ์ข์์.
RQ2 & 3:
- language instruction ์ธ์๋ language hint๊ฐ ์๋ ํ๊ฒฝ์ธ HomeGrid๋ฅผ ์ ์.
- 100 step ๋ด์ ํ์คํธ๋ฅผ ๋ง์ด ์ฑ๊ณตํ๋ ๊ฒ์ด reward
- future observation : object๊ฐ ์ด๋์๋์ง
- dynamics : ์ฐ๋ ๊ธฐํต์ ์ด๋ ค๋ฉด ์ด๋ค ํ๋์ ํด์ผํ๋์ง
- correction: ํ์ฌ ๋ชฉํ์์ ๊ฑฐ๋ฆฌ๊ฐ ๋ฉ์ด์ง๋ฉด “no, turn around"์ ๊ฐ์ด ๋งํด์ค
- ํํธ๋ฅผ ๋ฐ์์ ๋ ๋ ์ข์ ์ฑ๋ฅ์ ๋ด๊ณ , task-only instruction์์๋ ๋ ์ข์ ์ฑ๋ฅ์ ๋.
game manual์ด ์ ๊ณต๋์ด ์๋ Messenger game์ ๋ํ ์ฑ๋ฅ
Vision language navigation continuous environment
- ๊ธธ์ ์ฐพ๋ task์ด๊ณ ์กฐ๊ธ ๋ action์ด low-level์ธ ์ ํ ์ด continuous environment
- goal๊ณผ์ ๊ฑฐ๋ฆฌ์ ๊ด๋ จ๋ dense reward๋ฅผ ๋ฐ๊ณ , ์ฑ๊ณตํ๋ฉด ์ฑ๊ณต reward๋ฅผ ๋ฐ๋ ํํ
- ์๋ r2d2๋ ์์ ์ฑ๊ณต์ ๋ชปํ์๋ ใ ใ ๋ฒ ์ด์ค๋ผ์ธ์ด ์ด๊ฒ ๋ง๋
LangRoom : embodied question answering
- ์ค๊ฐ์ language ์์ฑ๋ ํ ์ ์๋์ง ๋ณด์ฌ์ค
- ์ง๋ต์ ํ๋ perception์ ํตํด utterance๊ฐ ์ด๋ฃจ์ด์ง๋ ์ ํ
- ์ด๋ vocab size๋ฅผ ๋๋ฌด ๋๋ฆฌ๋ฉด prior ์์ด๋ ์ฑ๋ฅ์ด ์๋ ดํ์ง ๋ชปํ์
- ์ด๋ฅผ ํด๊ฒฐ ํ๊ธฐ ์ํด world model์ entropy regularizer๋ฅผ ์ถ๊ฐํด์ ์ด๋ฅผ ํด๊ฒฐํจ
text-only pretraining
- ์ฌํ๊น์ง๋ experience online์ ๋ํ ์คํ์ด์๊ณ offline๋ ํ์ํ๋ค๊ณ ์๊ฐํด์ text only pretraining ์ ํด๋ด.
- in-domain ์ manuals from Messenger S2 games
- domain-general text๋ GPT-4๋ก ์์ฑ๋ 2M short story
- T5๋ฅผ ์ฐ๋ ๊ฒ๋ณด๋ค one-hot from scratch๋ก general domain์ ๋ํด ํ์ตํ๋ ๊ฒ์ด ๋ ์ฑ๋ฅ์ด ์ข์์.
- actor model config