Learning Chinese Word Representations From Glyphs Of Characters

1. どんなもの？

漢字の文字画像からConvolutional AutoEncoder(convAE)を利用して文字表現を獲得し，その文字表現を用いた中国語の単語表現を獲得する手法を提案している．

2. 先行研究と比べてどこがすごいの？

先行研究における単語の分散表現の学習はCBOWやSkipgram，GloVeといったものがある．また中国語における単語の分散表現の学習は「漢字」の形状的特徴を活用する，Character-enhanced word embedding(CWE)やMulti-granularity Embedding(MGE)といったものが提案されている．

本研究ではCWEやMGEといった先行研究と同様に，漢字の形状に着目し文字の形状情報を抽出したのち，単語表現の学習に利用する2つの手法を提案している．

3. 技術や手法の”キモ”はどこにある？

文字表現の獲得
- 漢字の形状的特徴を考慮した文字表現を抽出するconvAE
単語表現の獲得
- Glyph-Enchanced Word Embedding(GWE)
  - Enhanced by Context Word Glyphs(ctxG)
    - 文字表現を組み合わせた単語表現ctxGからターゲット単語の表現を学習する
  - Enhanced by Target Word Glyphs(tarG)
    - ターゲット単語の文字表現の平均値を用いてターゲット単語の表現を学習する
- Directly Learn From Character Glyph Features
  - RNN-Skipgram
    - GRUを用いて直接文字表現を並べた単語からターゲット単語の表現を学習する
  - RNN-GloVe
    - ターゲット単語と異なる単語を用いて共起からターゲット単語の表現を学習する