
TL;DR
- task : graph representation
- problem : Graph๋ฅผ ํํํ๊ธฐ ์ํด attention์ ์ฌ์ฉํ๋ GAT(Graph Attention Network) ๋ชจ๋ธ๋ค์ด ์์ง๋ง, ์ค์ ๊ทธ๋ํ๋ ๋งค์ฐ ํฌ๊ณ noisyํ๊ธฐ ๋๋ฌธ์ ์ผ๋ฐํ๋๊ธฐ ์ด๋ ต๋ค.
- idea : ์ด๋ค edge๊ฐ ์ค์ํ์ง๋ฅผ ์ ํํ๋ attention score๋ฅผ ๋ชจ๋ ๋ ์ด์ด์์ ํ๋๋ง ์ ํํ๊ณ ๋๋จธ์ง๋ ๋ค 0์ผ๋ก ๋์.
- architecture : GAT์ธ๋ฐ attention score๋ฅผ ํ๊ฐ๋ง ์ ํํจ.
- objective : cross entropy loss์ edge์ ๊ฐ์์ ๋ํ loss
- baseline : GCN, GAT, GraphSage
- data : Cora, Citesser, Pubmed, Amazon computer, Amazon Photo, PPI, Reddit
- result : GAT์ ์ ์ฌํ ์ฑ๋ฅ. layer ๋ณ๋ก ํ๋๋ง ์ ํ๋๊ธฐ ๋๋ฌธ์ ๋ ํด์ ๊ฐ๋ฅํจ.
- contribution : ์ต์ด๋ก spareํ GNN์ด ๊ทธ๋ ์ง ์์ GNN๋งํผ์ ์ฑ๋ฅ์ด ๋์จ๋ค๋ ๊ฒ์ ๋ณด์
- limitation or ์ดํด ์๋๋ ๋ถ๋ถ : GNN์ด transductive ํ๋ค๋๋ฐ ์ดํด๋ฅผ ํ์คํ ๋ชปํจ. $z_{ij}$๋ ์ด๋ป๊ฒ ํ์ต์ด ๋๋๊ฑด์ง?
Details
GNN in general
$G$ = ( $V$, $E$ ) ๊ทธ๋ํ๋ node( $V$ )์ edge ( $E$ )๋ก ๊ตฌ์ฑ
node๋ค์ feature $X$๋ก ํํ๋จ. ์ฐจ์์ $N$(๋ ธ๋ ๊ฐ์) x $D$(feature ์ฐจ์)
adjacency matrix $A$๋ edge๋ก ์ฐ๊ฒฐ๋์ด ์์ผ๋ฉด 1, ์๋๋ฉด 0์ธ matrix์. ์ฐจ์์ $N$x$N$ ์ฐ๋ฆฌ ๊ฒฐ๊ตญ ํ๊ณ ์ ํ๋ ๊ฒ์ feature $X$์ $A$๋ฅผ ๋ฐ๊ณ ๊ฐํ๋ node ํํ $H$๋ฅผ ๋ง๋๋ ๊ฒ์ด๋ค. ์ด๋ ํจ์๋ ๋ณดํต ์ด๋ ๊ฒ ์ ์๋๋ค.

$f$๋ ๊ทธ๋ํ๋ฅผ ์ธ์ฝ๋ฉ ํ๋ ํจ์๋ค.
์ฌ๊ธฐ์ loss๋ node ๋ถ๋ฅ ํ์คํฌ์ ๊ฐ์ ๊ฑธ ํ๋ค๋ฉด cross entropy loss๊ฐ ๊ฑธ๋ฆฌ๊ฒ ๋๋ค
๊ฒฐ๊ตญ GNN์ ๋ค์ํ variants๋ค์ $f$๋ฅผ ์ด๋ป๊ฒ ๊ตฌ์ฑํ ๊น?๊ฐ ๋ฌธ์ ๋ค.
Neighbor Aggregation Methods
graph learning์ ํ ๋ ๊ฐ์ฅ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ ์ค ํ๋๊ฐ neighbor aggregation mechanism์ธ๋ฐ, feature vector $x_i$์ ๊ทธ neighbor์ธ j๋ค์ ๋ํด์ feature vector๋ฅผ aggregateํ๋ ๊ฒ์ด๋ค.
๊ฐ๋ น Graph Convolution Network(GCN)๋ ๊ทธ ์ข
๋ฅ๋ค ์ค ํ๋๋ฐ, ์์ ์๋์ ๊ฐ์ด ์ธ ์ ์๋ค.

์ด๊ฑธ ์กฐ๊ธ ๋ general ํ๊ฒ ์ฐ๋ฉด ์๋์ ๊ฐ์ด ์ธ ์ ์๋ค.

ํ์ง๋ง GCN์ transductive ํ๊ฒ ๋ฐ์ ๋ชป์ฐ๋๋ฐ, ๊ทธ๋ํ ๊ตฌ์กฐ๊ฐ ๋ฐ๋๋ฉด ์๋ก ํ์ต์ ํด์ค์ผํ๋ค.
Graph Attention Networks(GAT)
GCN๊ณผ ์ ์ฌํ๊ฒ neighborhood๋ฅผ aggregateํ๋๋ฐ, attention ์ ์ฌ์ฉํด์ ์ด๋ค ege์ ์ง์คํ ์ง๋ฅผ attention score๋ฅผ ๊ตฌํ๊ฒ ๋๋ฉด GAT๊ฐ ๋๋ค.

๊ทธ๋ฐ๋ฐ ์ด ๊ฒฝ์ฐ์, attention score๋ฅผ ๊ฐ edge๋ณ ์ค์๋๋ผ๊ณ ๋ณผ ์ ์๋๋ฐ layer๋ง๋ค attention score๊ฐ ๋ฌ๋ผ์ง๊ธฐ ๋๋ฌธ์ ํด์์ ์ด๋ ต๋ค. ๊ทธ๋ํ๋ฅผ ๋ง๋ค ๋ noisy/task-irrevalentํ edge๋ค์ ์ ๋ฆฌํ๊ธฐ ์ํด SGAT๋ฅผ ์ ์ํ๋ค!
SparseGAT(SGAT)
์ค์ํ edge๋ง ๋จ๊ธฐ๊ธฐ ์ํด์ binary gate $z_{ij}$๋ฅผ ๊ฐ ege ๋ณ๋ก ์ถ๊ฐํ๋ค. ์ด $z_{ij}$๋ edge $e_{ij}$๋ฅผ ์ฌ์ฉํ ์ง ๋ง์ง์ ๋ํ bianry masking์ ํ๊ฒ ๋๋ค.

์ต๋ํ ์ ์ edge๋ฅผ ๋จ๊ธฐ๊ธฐ ์ํด loss term์ L0 loss๋ฅผ ์ถ๊ฐํ๋ค. $z_{ij}$ ๊ฐ 1์ด๋ฉด 1 ์๋๋ฉด 0์ธ๊ฑธ sumํ๋ term์ด๋ค.(edge ๊ฐ์์ ๋ํ loss)

attention based aggregation function์ ์๋์ ๊ฐ์ด ์ธ ์ ์๋๋ฐ (GAT)์ ๋ค๋ฅธ ๊ฒ ์์

์ด๋ attention score๋ฅผ ์๋์ ๊ฐ์ด ๊ตฌํ๋ค.

-> $z_{ij}$๋ ์ด๋ป๊ฒ ํ์ต์ด ๋๋๊ฑด์ง?
์ด๋ ๊ฒ sparse ํ๊ฒ ๊ตฌ์ฑํ๊ฒ ๋ ์์์ attention score์ ๋ํ head๋ณ layer ๋ณ ๋ถ์ฐ์ ๊ตฌํด๋ดค๋๋ฐ ์๋์ ๊ฐ์ด ๊ฑฐ์ 0์ ๊ฐ๊น์ ๊ธฐ ๋๋ฌธ์.
