TL;DR
- I read this because.. : q*์ star๊ฐ ์ด๊ฑฐ๋ค ๋ฑ๋ฑ ๋ง์ด ์ธ๊ธ๋์ด
- task : problem solving
- problem : rationale์ ํ์ตํ๋ฉด ๋ชจ๋ธ ์ฑ๋ฅ์ด ๋ ์ข์ง ์์๊น?
- idea : ํด๋ฆฌ์คํฑ์ผ๋ก๋ ํ๊ณ๊ฐ ์์ผ๋ ๋ชจ๋ธ์๊ฒ rationale์ ์์ฑํ๊ฒ ํ์. ๋ชป ์์ฑํ๋ฉด ์ ๋ต์ hint๋ก ์ฃผ์.
- input/output : Q -> rationale - A
- architecture : GPT-J
- objective : CE loss
- baseline : direct answer tuned GPT-J, Few-shot GPT-J, Few-shot LaMDA 137B
- data : (source) GSM, CommonsenceQA, arithmetic problem
- evaluation : accuracy
- result : ๋ ๋น ๋ฅด๊ฒ ์ ํ๋๊ฐ ์ฌ๋ผ๊ฐ. ๋ชป ํ๋ ๋ฌธ์ ๋ ํ(์ต์ข ์ ํ๋๊ฐ ์ฌ๋ผ๊ฐ).
- contribution : self-improvement? self-evolvement? rationale ๊ฐ์กฐ?
- etc. :
Details
STaR
๋ํ ์ผ์ 1) ์ ๋ต์ ๋ง์ถ์ง ์์ ๋ฌธ์ ์ ๋ํด์๋ง hint๋ฅผ ์ค 2) model finetune์ ํ ๋ iterativeํ๊ฒ ํ๋๊ฒ ์๋๋ผ base model์์ ํ๋ค๊ณ ํจ. ์ ์ด๋ ๊ฒ ํ๋ฉด์ ์ ์ rationale์ด ์ข์์ง๋๊ฑด๊ฐ? ์ด๊ฑด ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ด๋ ๋ฐฉ์์ด ์ข ๋ค๋ฅธ๋ฏ..
์ ๋ต์ด ํ๋ฆฐ rationale์ ๋ํด์ filteringํ๋ ํ๋ก์ธ์ค๊ฐ RL objectvie๋ ๋น์ทํ๋ค๊ณ ์ฃผ์ฅ
Result
color๋ ๋ช์๋ฆฌ digit problem์ธ์ง
๋ชป๋ณธ digit์ ๋ํด๋ ํ์ ์๋ ๋ฅ๋ ฅ์ด ๋ฐํ