-
Realistic Evaluation of Semi-Supervised Learning Algorithms
1. どんなもの?現在SoTAである半教師あり学習のアルゴリズムについて、平等なテスト環境で性能を比較した。2. 先行研究と比べてどこがすごいの?Deep neural networkを学習させるためには大量の教師データが必要になるが、実際はデータが取りづらかったり、コストがかかる。そこで教師ラベルのないデータセットも有効に活用する、半教師あり学習(SSL)が提案されている。先行研究で成果を上げているモデルは実際の使用環境を想定したモデルになっているかが疑問点としてあげられている。本研究で...
-
Word Embedding Perturbation for Sentence Classification
1. どんなもの?入力される単語embeddingに対していくつかのノイズで摂動を与え、文書分類における精度の検証する2. 先行研究と比べてどこがすごいの?自然言語処理では単語は離散的であり、連続空間では単語表現を変更できないため、一般的にdata augmentationは利用されてこなかった。近年ではシソーラスを用いた単語の置換や、2つの単語間の依存関係の向きを逆にすることで学習データを2倍に増やす手法が提案されている。これらは外部の知識体系が必要であったり、洗練されたNLPツールが必...
-
Learning to Compute Word Embeddings On the Fly
1. どんなもの?OOV問題に対してWordNetの単語定義文をエンコードし未知語に対処する,On the Fly Embdddingsを提案.2. 先行研究と比べてどこがすごいの?自然言語では頻繁に出現する単語もあるが,ほとんどがZipfian分布に従うような,あまり現れない単語から形成されている.こうした単語の低頻度の単語はout-of-vocabulary (OOV) 問題として扱われる.先行研究ではボキャブラリ外の単語を固定のランダムベクトルで代用する研究があり,効果を示している....