固有表現認識タスクにおけるデータセットの偏りに着目した動的重み付け損失関数の提案

Abstract

固有表現認識(Named Entity Recognition; NER)は自然言語で記述されたテキスト中から人名や地名、日付などの固有表現を取り出す、情報抽出タスクの一つである。本タスクを各語に対する分類問題とみなしたとき、分類すべきクラスの数は多い反面、大部分の語が「その他」に分類される、非常に不均衡なデータを元にしたタスクである。このようなデータを機械学習モデルでそのまま学習すると、本来識別が必要なサンプル数の少ないクラスの認識精度は非常に低くなってしまう。本研究では、NER タスクにおけるデータセットの不均衡性に着目した、新たな損失関数を導入する学習手法を提案する。我々の提案する損失関数は、大部分を占めるその他クラスと少数のそれ以外のクラスを区別できるように学習しつつ、少数のクラスにおいても粒度の細かい区別ができるように訓練する。複数の日本語 NER データセットを用いて提案手法の有効性を確認した。

Publication
NLP 若手の会 (YANS) 第 17 回シンポジウム,2022.
北田 俊輔
北田 俊輔
深層学習による Vision & Language を研究するリサーチサイエンティスト

研究テーマは、ディープラーニングを用いた自然言語処理、コンピュータビジョン、医療画像処理、計算広告などです