Majority or Minority: 固有表現抽出におけるデータの不均衡性に着目した損失関数の提案

Abstract

多くの自然言語処理タスクはデータの不均衡の問題に直面しており、実用的な応用がなされている固有表現抽出もその一つである。固有表現抽出は抽出対象の固有表現以外のトークンすべてが O クラスとなるため、O クラスが大多数を占める不均衡なデータとなっている。本論文では、固有表現抽出における不均衡性に着目した新たな損失関数 majorityor minority loss (MoM loss) を提案する。提案手法の核となるアイディアは多数派のクラスである O クラスのトークンのみを計算対象した loss を従来のモデルの損失関数に追加するものである。実験を通じて MoM loss がマルチクラス、2 クラス分類問わず、言語非依存で性能向上に寄与することを確認した。

Publication
言語処理学会第 29 回年次大会,2023.
北田 俊輔
北田 俊輔
Research Scientist working on Vision & Language with Deep Learning

My research interests include deep learning-based natural language processing, computer vision, medical image processing, and computational advertising.