文字単位の解釈可能な潜在表現のdata augmentation

Abstract

深層学習ベースのモデルにおいて,日本語や中国語などのアジア圏の言語の解析は単語単位よりも文字単位での処理が効果を上げている. しかし,過学習が起きやすいため,過学習抑制手法を適用する必要がある. 本研究では $\beta$ -variational auto-encoder ( $\beta $ -VAE)が各次元独立の低次元確率分布を獲得することを活用し,解釈可能なdata augmentationであるinterpretable wildcard training (IWT)を提案する. IWTは$\beta$-VAEにより得られた文字の低次元表現に対して, ガウス分布に従ったノイズを付加させることで,異なる文字の表現生成が可能であり,従来のwildcard trainingよりも解釈性が高い. 新聞記事の分類タスクによる評価実験において,IWTによる解釈可能な文字表現の獲得ならびに,2%程度の分類精度向上から,解釈性のあるdata augmentationの効果を確認した.

Publication
言語処理学会第 26 回年次大会, 2020.

Related