Learn to Pay Attention

1. どんなもの？

画像認識に対して学習可能なattention機構をCNNに導入し、baseline手法を超える精度を実現

2. 先行研究と比べてどこがすごいの？

Convolutional Neural Network (CNN) は画像処理分野で素晴らしい結果を残しているが、こうした問題に対してモデルが推論する過程が不透明であり、結果の考察が難しい。そこで先行研究ではモデルの解釈性の向上のために、推論する画像のどの部分に注目しているかを可視化する手法が複数提案されている。しかしながらこれらの手法は学習済みのモデルに対してのみ適用可能という制限がある。

Attention機構は学習時に入力のどの部分に注視するかを学習することが可能であり、機械翻訳や画像に対する説明文自動生成(キャプショニング)、VQAなどにおいて精度向上に寄与している。

Attentionを計算する場合にクエリが必要な画像キャプションやVQAに対して、本研究ではattentionを推定するためにglobalな画像表現を利用し、分類問題においてもattention機構を導入することに成功している。

3. 技術や手法の”キモ”はどこにある？

local feature vector と global feature vector を用いたattention機構を実現した。

畳み込み層から活性化関数を通して得られるlocal feature vector $\mathcal{L}$ と最終全結合層の出力であるglobal feature vector $\mathcal{G}$ から、compatibility score $C\left(\hat{\mathcal{L}}, \mathcal{G} \right)$ を計算し、各local feature vectorの重要度 $\mathcal{A}$ (attention) を算出する
重要度 $\mathcal{A}$ とlocal feature vectorとの重み付き平均 $\mathcal{G}_a$ を計算する
各畳み込み層から得られる複数の $\mathcal{G}_a$ をconcatしたベクトルを用いて分類を行う
compatibility socre を計算する際に用いる $\mathcal{C}$ はドット積を利用した

4. どうやって有効だと検証した？

ベースラインとして、先行研究のVGG-GAPおよびVGG-PAN、ResNet164と、VGG/ResNetに対して本研究のattention機構を導入できるようパラメータを調整したネットワークを比較している。 global feature vectorとlocal feature vectorに対してcompatibility scoreを計算する際にドット積を用いたdpと、パラメータを用いたpcを比較している。

評価に用いるデータセットはCIFAR10/100、CUB-200-2011、SVHN等を利用している。また導入したattention機構がadversarialなサンプルに対してもロバストであることを示す実験も行っている。