固有表現認識タスクにおけるデータセットの偏りに着目した動的重み付け損失関数の提案

August, 2022 Natural Language Processing, Imbalanced Dataset, Named Entity Recognition

Abstract

固有表現認識（Named Entity Recognition; NER）は自然言語で記述されたテキスト中から人名や地名、日付などの固有表現を取り出す、情報抽出タスクの一つである。本タスクを各語に対する分類問題とみなしたとき、分類すべきクラスの数は多い反面、大部分の語が「その他」に分類される、非常に不均衡なデータを元にしたタスクである。このようなデータを機械学習モデルでそのまま学習すると、本来識別が必要なサンプル数の少ないクラスの認識精度は非常に低くなってしまう。本研究では、NER タスクにおけるデータセットの不均衡性に着目した、新たな損失関数を導入する学習手法を提案する。我々の提案する損失関数は、大部分を占めるその他クラスと少数のそれ以外のクラスを区別できるように学習しつつ、少数のクラスにおいても粒度の細かい区別ができるように訓練する。複数の日本語 NER データセットを用いて提案手法の有効性を確認した。

Type

Presentation

Publication

NLP 若手の会 (YANS) 第 17 回シンポジウム，2022.

Named Entity Recognition Domestic Conference Non-refereed YANS

北田俊輔

Research Scientist working on Vision & Language with Deep Learning

My research interests include deep learning-based natural language processing, computer vision, medical image processing, and computational advertising.

固有表現認識タスクにおけるデータセットの偏りに着目した動的重み付け損失関数の提案

Abstract

北田 俊輔

Research Scientist working on Vision & Language with Deep Learning

北田俊輔