Learn to Pay Attention
1. どんなもの?
2. 先行研究と比べてどこがすごいの?
Convolutional Neural Network (CNN) は画像処理分野で素晴らしい結果を残しているが、こうした問題に対してモデルが推論する過程が不透明であり、結果の考察が難しい。 そこで先行研究ではモデルの解釈性の向上のために、推論する画像のどの部分に注目しているかを可視化する手法が複数提案されている。 しかしながらこれらの手法は学習済みのモデルに対してのみ適用可能という制限がある。
3. 技術や手法の”キモ”はどこにある?
local feature vector
と global feature vector
- 畳み込み層から活性化関数を通して得られるlocal feature vector L と最終全結合層の出力であるglobal feature vector G から、
compatibility score
C(ˆL,G) を計算し、各local feature vectorの重要度 A (attention) を算出する - 重要度 A とlocal feature vectorとの重み付き平均 Ga を計算する
- 各畳み込み層から得られる複数の Ga をconcatしたベクトルを用いて分類を行う
compatibility socre
を計算する際に用いる C は ドット積 を利用した
4. どうやって有効だと検証した?
global feature vectorとlocal feature vectorに対してcompatibility scoreを計算する際にドット積を用いたdp
5. 議論はあるか?
提案手法 (proposed) と既存手法 (existing) それぞれのattention mapを可視化した結果である。提案手法がよりdiscriminativeな形で物体を認識していることが示されている。
6. 次に読むべき論文はあるか?
