
TL;DR
- I read this because.. : GPT ์๋ฆฌ์ฆ. ์ฌ๋ฌ ๊ณณ์์ ํ์ ๋์ด.
- task : chatGPT with visual input output
- problem : chatGPT๋ ์ธ์ด๋ก๋ง ์ฃผ๊ณ ๋ฐ๋๋ค. ์ด๋ฏธ์ง input / output์ ๋ฐ์ผ๋ฉด ์ข๊ฒ ๋ค. ๊ทธ๋ ๋ค๊ณ chatGPT๋ฅผ vision model๋ ๋ฐ๊ฒ ํ์๋ ๋ชจ๋ธ ํ์ตํ๋๋ฐ ๋๋ฌด ์ค๋๊ฑธ๋ฆฐ๋ค.
- idea : ๊ทธ๋ฅ external Vision Foundation Model๋ค์ call ํ ์ ์๋ ์์คํ ์ ๋ง๋ค์ -> chain of thought๋ก ์ด๋ค vision model์ call ํ ๊ฑด์ง thought - action์ ํ๋๋ก ํจ. -> ์ฑํ ์ธํฐํ์ด์ค์ ๋ง๊ฒ ์ ๋งคํ ์ฟผ๋ฆฌ ์ฌ์ง๋ฌธํ๊ณ ๋ง๋ ์ด๋ฏธ์ง ํ์ผ์ ์ ์ธ์ฉํ๊ฑฐ๋ ํ ์ ์๊ฒ ์์คํ ์ ๋ง๋ฆ
- architecture : ๋น์ ๋ชจ๋ธ๋ค hf ๋ฑ์์ ์ค์ค + instructGPT ๊ธฐ๋ฐ์ chatGPT + LangChain ์ ํตํด์ ์์คํ ์ ์ฉ
- objective : LM ce loss
- baseline : x
- data : ์๋ก ํ์ตํ์ง ์์ ๋ฏ ํ๋ค
- evaluation : qualatatively
- result : ์๋
- contribution : ์ต์ด์? vision chatGPT
- limitation / things I cannot understand : flamingo ๊ฐ์ ๋ชจ๋ธ์ธ์ค ์์์ผ๋ ์๋์์.. ๋ญ๊ฐ ๋ชจ๋ธ์ด๋ผ๊ธฐ ๋ณด๋จ ์ฌ์ฉ์ค๋ช ์ ๊ฐ์ ๋๋ .. fancyํ์ง ์์ผ๋ ์์ผ๋ก ์ด๋ฐ ์ ๊ทผ๋ฒ์ด ๋์ธ์ด๋ ค๋ญ..
Details

hf์์ visual foundation models + MaskFormer
Since Visual ChatGPT is a text language model, Visual ChatGPT must use tools to observe images rather than imagination. The thoughts and observations are only visible for Visual ChatGPT, Visual ChatGPT should remember to repeat important information in the final response for Human. Thought: Do I need to use a tool?โ๋ฅผ prefix๋ก ๋๊ณ ์ฟผ๋ฆฌ๋ฅผ ๋ ๋ ธ๋ค๊ณ ํจ.
