Class-Balanced Loss Based on Effective Number of Samples

1. どんなもの？

Long-tail な不均衡データに対して、各クラス数の分布を適切に考慮した class-balanced loss を提案。

2. 先行研究と比べてどこがすごいの？

実世界のデータセットは long-tail な分布を持つ不均衡データであることが多い。こうした不均衡データに対して、先行研究では主に re-sampling と cost-sensitive learning の観点から解決が図られてきた。 Re-sampling における over-sampling では学習時に重複したデータを学習して過学習を引き起こしたり、under-sampling では学習に重要なデータを適切にサンプリングして学習することが難しい。そこで深層学習の文脈では損失関数に重み付けを行う cost-sensitive learning を採用する場合が多いが、こうした手法は実世界の long-tail な分布を持つ不均衡データに対してパフォーマンスが低下してしまう場合が多い。本研究では long-tail な不均衡データに対して、対象となるデータ数に効果的な class-balanced loss を提案し、一般的に広く使われている softmax cross-entropy や sigmoid cross-entropy、focal loss などに適用し効果の検証を行っている。

3. 技術や手法の”キモ”はどこにある？

Class-balanced loss

各クラス数に反比例する重み係数を導入することによって、long-tail な不均衡データに対しても効率的に学習するよう損失関数を定義した。

${\rm CB}({\bf p}, y) = \frac{1}{E_{n_y}} \mathcal{L}({\bf p}, y) = \frac{1 - \beta}{1 - \beta^{n_y}} \mathcal{L}({\bf p}, y)$

Class-balanced loss を一般的な損失関数に適用した場合は以下の通りになる。

Class-balanced softmax cross-entropy
- ${\rm CB}_{\rm softmax}({\bf z}, y) = - \frac{1 - \beta}{1 - \beta^{n_y}} \log{\left( \frac{\exp{(z_y)}}{\sum_{j=1}^{C} \exp{(z_j)}} \right)}$
Class-balanced sigmoid cross-entropy
- ${\rm CB}_{\rm sigmoid}({\bf z}, y) = - \frac{1 - \beta}{1 - \beta^{n_y}} \sum_{i=1}^{C} \log{\left(\frac{1}{1+\exp{(-z_{i}^{t})}} \right)}$
Class-balanced focal loss
- ${\rm CB}_{\rm focal}({\bf z}, y) = \frac{1 - \beta}{1 - \beta^{n_y}} \sum_{i=1}^{C} (1 - p_{i}^{t})^{\gamma} \log{(p_{i}^{t})}$

4. どうやって有効だと検証した？

CIFAR10/100 に対して imbalanced factor を元にデータの分布を擬似的に不均衡にした long-tailed CIFAR10/100 、iNatiralist 、ImageNet を用いて、ベースラインのモデルと class-balanced loss を導入したモデルの比較を行っている。

Sigmoid ベースの loss を用いる場合は、最終全結合層のバイアスに対してクラスの事前確率を $\pi = 1/C$ として、 $b = - \log{((1 - \pi)/{\pi})}$ として初期化し、バイアス項にのみ weight decay を適用している。