-
Subcharacter Information in Japanese Embeddings: When Is It Worth It?
1. どんなもの?漢字が有する部首のコンポーネントを分解し、サブキャラクターとして扱った際の言語タスクにおける性能を、新たに提案するデータセットも含めて調査を行った。2. 先行研究と比べてどこがすごいの?漢字は自身にへんやつくりといった複数のコンポーネントを有している。これらサブキャラクターとして埋め込みを学習することで、中国語のいくつかの言語処理タスクで良い精度となることが報告されている。本研究ではこうしたサブキャラクターの情報を日本語に対して適用した場合の効果を調査している。中国語で効...
-
Semi-supervised Deep Learning by Metric Embedding
1. どんなもの?少ないラベル付きデータとラベルなしデータを元に距離埋め込み (neighbor embedding) を学習する、半教師あり学習を提案2. 先行研究と比べてどこがすごいの?従来のニューラルネットワークの学習では学習データに対してラベルを推定する枠組みであったが、ラベル付きの学習データが少ない場合に容易に過学習を引き起こす。本研究ではラベル付きの学習データに対して距離埋め込み (neighbor embedding) を推定する枠組みを導入することで、ラベルなしデータも含め...
-
Joint Embedding of Words and Labels for Text Classification
1. どんなもの?テキスト分類の際に教師ラベルのembeddingと単語のembeddingを組み合わせたattentionの枠組みを用いる、Label-Embedding Attentive Model (LEAM) を提案。2. 先行研究と比べてどこがすごいの?画像認識分野および自然言語処理分野において、label embeddingを用いたさまざまな枠組みが提案されてきた。近年の自然言語処理分野では単語embeddingやattentionを用いることで、テキスト分類等のタスクの精度...