解釈可能な敵対的摂動を用いた頑健な注意機構の学習

March, 2020 Natural Language Processing, Interpretability, Adversarial Training

Abstract

注意機構や損失勾配は入力に対する予測の説明に使われてきたが，これらの手法は摂動に頑健ではないと示唆されている．またこの 2 つの関係性の評価はこれまで順位相関が用いられてきたが，その意義にも議論の余地がある．このように，摂動に頑健な注意機構の学習方法や，注意機構と損失勾配の関係を適切に評価する方法について課題が残されている．本研究では摂動に頑健な注意機構の学習のために，interpretable adversarial training (iAdvT) をもとにした Attention iAdvT の提案を行うとともに，これらの説明手法の評価基準としてピアソン相関を用いることを主張する． 4 つのオープンデータセットからなる，様々なテキスト分類タスクを用いた評価実験において，Attention iAdvT がほぼすべてのタスクで最高性能を達成した．また，注意機構と損失勾配は高く相関することを示し，すべてのタスクにおいて提案手法が一番高い相関を示すことを確認した．

Type

Preprint

Publication

言語処理学会第 26 回年次大会，2020.

Domestic Conference Non-refereed Natural Language Processing ANLP

北田俊輔

Research Scientist working on Vision & Language with Deep Learning

My research interests include deep learning-based natural language processing, computer vision, medical image processing, and computational advertising.

解釈可能な敵対的摂動を用いた頑健な注意機構の学習

Abstract

北田 俊輔

Research Scientist working on Vision & Language with Deep Learning

北田俊輔