[195] STaR: Self-Taught Reasoner Bootstrapping Reasoning With Reasoning

TL;DR

I read this because.. : q*의 star가 이거다 등등 많이 언급되어
task : problem solving
problem : rationale을 학습하면 모델 성능이 더 좋지 않을까?
idea : 휴리스틱으로는 한계가 있으니 모델에게 rationale을 생성하게 하자. 못 생성하면 정답을 hint로 주자.
input/output : Q -> rationale - A
architecture : GPT-J
objective : CE loss
baseline : direct answer tuned GPT-J, Few-shot GPT-J, Few-shot LaMDA 137B
data : (source) GSM, CommonsenceQA, arithmetic problem
evaluation : accuracy
result : 더 빠르게 정확도가 올라감. 못 풀던 문제도 품(최종 정확도가 올라감).
contribution : self-improvement? self-evolvement? rationale 강조?
etc. :

Details

STaR

디테일은 1) 정답을 맞추지 않은 문제에 대해서만 hint를 줌 2) model finetune을 할 때 iterative하게 하는게 아니라 base model에서 했다고 함. 음 이렇게 하면서 점점 rationale이 좋아지는건가? 이건 다른 모델들이랑 방식이 좀 다른듯..

정답이 틀린 rationale에 대해서 filtering하는 프로세스가 RL objectvie랑 비슷하다고 주장

Result

color는 몇자리 digit problem인지

못본 digit에 대해도 풀수 있는 능력이 발현

TL;DR#

Details#

STaR#

Result#

TL;DR

Details

STaR

Result