Personalized Fashion Recommendation with Visual Explanations based on Multimodal Attention-Network
1. どんなもの?
ユーザー単位でファッション画像・レビューテキストを用いた解釈性のある注意機構つきファッション商品推薦システムを提案。
2. 先行研究と比べてどこがすごいの?
ファッションアイテムのオンラインショッピングがますます盛んになっており、ファッション業界や学術界ではファッションに対する推薦が注目を集めている。
ファッション商品には画像の他に商品のレビューが付与されている。
- ユーザ A は首元にフォーカスしている
- ユーザ B は服のポケットにフォーカスしている
ファッション画像全体の特徴を捉えるのではなく、ユーザーごといくつかの領域にフォーカスする必要がある。
先行研究ではファッション商品の推薦を行うモデルにおいて、以下の 3 つの点で疑問点が残る:
- ファッション画像全体の特徴を捉えるのではなく、ユーザごとにいくつかのサブ領域に着目すべき
- 複数の要素が組み合わさったファッション画像をそのままエンコードするのは、モデルの学習時にノイズとなりうる
- ユーザの勾配体験向上のためには、推薦の根拠の提示や説明性の向上が重要である
これら 3 つの疑問点を解決し、より効果的なファッション推薦システムを行うモデルが必要である。 しかしこれらの疑問点を解決するには、以下の問題点が存在する:
- 情報量の少ない教師信号
- 先行研究ではクリック等のスパースで暗黙的なフィードバックを教師信号として使用している
- 個々人に合った商品画像の興味領域の選択
- 個々人の興味を元にファッション画像に対してアノテーションするのは時間がかかり、そもそも教師ラベルを定義するのも難しい
- 評価データセットの欠如
- 特に説明性のある可視化結果に対する評価に利用できるデータセットは非常に少ない
本研究ではこれらの問題に対処するため、Visually Explanable Collaborative Filtering (VECF) を提案している。
3. 技術や手法の”キモ”はどこにある?
Fine-grained Visual Preference Modeling
- ファッション画像に対して事前学習済み VGG19 の
conv5
ブロック (最終ブロック) を画像特徴量として利用- 計算リソースが許すなら fine-tuning してもよいが今回は実施していない
- ユーザ単位の fine-grained な視覚特徴を考慮するために visual attention 機構を導入
- 推薦時に視覚的な説明性を提供することも可能
Review enhanced Model Supervision
- ファッション商品のレビューテキストにはユーザの趣向が含まれている
- クリック等のスパースで暗黙的なフィードバックと比較すると、よりリッチな情報を含んでいる
- 弱教師 (weak supervision signal) としてレビュー情報を使用し、推薦のパフォーマンスや説明性を向上させる
- LSTM をベースに、抽出した画像特徴を concat して学習させる
- 論文中の図では GRU と書いてあるが本文では LSTM を使用していると記述あり
- このコンポーネントは推薦スコアの予測には直接必要ないため、より計算量的な観点で実践的である
ハイパーパラメータ によって暗黙的なフィードバックかレビューテキストのトレードオフを決める。
4. どうやって有効だと検証した?
ファッションデータセットとして Amazon.com をベースとした公開データセットを使用し、ベースラインの手法と提案手法を比較している。またレビューテキストを考慮しないモデル VECF(-rev)と visual attention を適用しない VECF(-att)を比較対象に追加している。
5. 議論はあるか?
ファッション推薦システムにおける視覚的な説明性を評価するのは著者らが知る限り本研究が初であるため、評価できるデータセットもまた存在しない。
クラウドソーシングを使ってこれらを評価できるデータセットを構築した。 商品レビューからユーザが 7x7 の格子に分けたファッション画像のどの領域に着目しているかをワーカーがラベリングした。
- 定量的評価
- VECF と VECF(-rev)に対して視覚的説明性を比較
- 定量的評価
- VECF と VECF(-rev)における attention の可視化を定性的に評価
6. 次に読むべき論文はあるか?
説明性のあるレコメンデーションについて
- HFT
- RBLT
- D-attn
- NARRE
- CARL
- MPCN
- DER
- NRT
- gC2S
- NOR
- KSR
- ECFKG
- RippleNet
- KPRN
- KTUP