Improving neural networks by preventing co-adaptation of feature detectors
1. どんなもの?
大規模なニューラルネットワークの隠れ層をランダムにドロップアウトさせることで過学習を大幅に抑える。
2. 先行研究と比べてどこがすごいの?
様々なベンチマークタスクに対してランダムなドロップアウトを採用することで、大きな改善をもたらし、多くの新記録を生み出した。
3. 技術や手法の”キモ”はどこにある?
- 学習率を10からスタートさせ、学習毎に0.998を掛けて減少させている。 これにより重みの初期値が小さく、なおかつ学習率も小さい場合のニューラルネットワークに比べて、重みの探索範囲が広範囲になる。
- モーメンタム項を適用することによって、学習を早めることができる。
- 重み更新時にはペナルティを設定する。 ペナルティはL2ノルムの代わりに閾値を設定している。この閾値を超えた時に、閾値以下になるように重みを再調整する。
4. どうやって有効だと検証した?
MNISTデータセットやCIFAR10データセットに対してより早く学習が収束し、fine-tuningをした場合でも良い結果が出ている。
5. 議論はあるか?
- Dropoutに似たアンサンブル学習として、ベイジアンモデルの「バギング」というものがある。これはブートストラップ法と呼ばれるリサンプリング法によって抽出されたサンプルデータを複数用意し、各々のリサンプリングデータで弱学習器を複数作り、各々の弱学習器の推定値を統合(組み合わせる)方法である。
- ナイーブベイズの学習方法、またテスト方法と似ている部分がある。