UNITN: Training Deep Convolutional Neural Network for Twitter Sentiment Classification
1. どんなもの?
Convolutional Neural Network(CNN)の重みパラメータの初期化を工夫し、Twitterデータにおける感情分析で公式ランキング1位を獲得。
2. 先行研究と比べてどこがすごいの?
先行研究では畳み込み層に単語ベクトルを入力する際はskip-gramをベースとするword2vecでの学習済みベクトルを入力することが多い。本研究ではDistant Supervisionと呼ばれる手法で獲得したembeddingを用いることで、Twitterコーパスの感情分析において公式ランキングで1位を獲得することができている。
3. 技術や手法の”キモ”はどこにある?
- Single level CNNアーキテクチャ
- 活性化関数にはReLUを用いて学習のスピードアップを図る
- Max Poolingを使用(先行研究では語の順序が保存されるk-max poolingを用いているものが多い)
- DropoutやL2正則化などの正則化で可学習を抑える
- 学習済みの単語ベクトルを入力
4. どうやって有効だと検証した?
Semeval-2015というTwitterのデータをメインとしたデータセットを用いて、フレーズレベルのものとメッセージレベルのデータで感情分析タスクを解いている。重みパラメータの3つの初期化方法(Random、word2vec、distant supervision)のうちDistant supervisionでの学習済み単語ベクトルを用いた場合が一番良い結果であり、公式のランキングで1位のスコアを獲得している。
5. 議論はあるか?
個人的に本論文のCNNアーキテクチャの図がわかりやすかった。
6. 次に読むべき論文はあるか?
先行研究で用いられているSingle levelのCNNアーキテクチャについて。
Distant Supervisionについて。