1. どんなもの?

画像認識に対して学習可能なattention機構をCNNに導入し、baseline手法を超える精度を実現

2. 先行研究と比べてどこがすごいの?

Convolutional Neural Network (CNN) は画像処理分野で素晴らしい結果を残しているが、こうした問題に対してモデルが推論する過程が不透明であり、結果の考察が難しい。 そこで先行研究ではモデルの解釈性の向上のために、推論する画像のどの部分に注目しているかを可視化する手法が複数提案されている。 しかしながらこれらの手法は学習済みのモデルに対してのみ適用可能という制限がある。

Attention機構は学習時に入力のどの部分に注視するかを学習することが可能であり、機械翻訳や画像に対する説明文自動生成(キャプショニング)、VQAなどにおいて精度向上に寄与している。

Attentionを計算する場合にクエリが必要な画像キャプションやVQAに対して、本研究ではattentionを推定するためにglobalな画像表現を利用し、分類問題においてもattention機構を導入することに成功している。

3. 技術や手法の”キモ”はどこにある?

Figure 2

local feature vectorglobal feature vector を用いたattention機構を実現した。

  • 畳み込み層から活性化関数を通して得られるlocal feature vector と最終全結合層の出力であるglobal feature vector から、compatibility score を計算し、各local feature vectorの重要度 (attention) を算出する
  • 重要度 とlocal feature vectorとの重み付き平均 を計算する
  • 各畳み込み層から得られる複数の をconcatしたベクトルを用いて分類を行う
  • compatibility socre を計算する際に用いる は ドット積 を利用した

4. どうやって有効だと検証した?

ベースラインとして、先行研究のVGG-GAPおよびVGG-PAN、ResNet164と、VGG/ResNetに対して本研究のattention機構を導入できるようパラメータを調整したネットワークを比較している。 global feature vectorとlocal feature vectorに対してcompatibility scoreを計算する際にドット積を用いたdpと、パラメータを用いたpcを比較している。

評価に用いるデータセットはCIFAR10/100、CUB-200-2011、SVHN等を利用している。また導入したattention機構がadversarialなサンプルに対してもロバストであることを示す実験も行っている。

5. 議論はあるか?

Figure 3

提案手法 (proposed) と既存手法 (existing) それぞれのattention mapを可視化した結果である。提案手法がよりdiscriminativeな形で物体を認識していることが示されている。

Figure 4

CUB-200データセットで学習した提案手法の結果である。10層目は目の特徴を捉えており、13層目は体全体を捉えていることが示されている。

6. 次に読むべき論文はあるか?

論文情報・リンク