Script-aware embedding を用いた文字表現の獲得

Abstract

日本語の漢字や中国語などはそれぞれの文字が表意性を持つため,この性質を捉えることはこれら言語の意味理解において重要な手かがりとなる. 文字を画像として扱い CNN 等を用いて,形状情報を低次元ベクトルに埋め込むモデルは,こうした特徴を捉えることで文書分類タスクにおいて成果を上げている. しかしながら日本語では平仮名や片仮名等の表音文字が多く使われる文書に対しては適切な文字表現を得ることが難しい. 本研究では文字形状を学習した visual feature と文脈情報を学習した context feature の2つの文字表現手法を用いることで,表意文字および表音文字を考慮した文字表現の学習手法である script-aware embedding を提案する. 本報告では文書分類のタスクにおいて,提案手法の評価を行った.

Publication
言語処理学会第 26 回年次大会,2020.
北田 俊輔
北田 俊輔
深層学習による Vision & Language を研究するリサーチサイエンティスト

研究テーマは、ディープラーニングを用いた自然言語処理、コンピュータビジョン、医療画像処理、計算広告などです