-
Glyph-aware Embedding of Chinese Characters
1. どんなもの?漢字特有の文字の表意性を明示的に組み込み,文字形状を意識した文字の埋め込み手法を提案.2. 先行研究と比べてどこがすごいの?英語と比べて中国語は多数の文字が使用され,なおかつ単語と単語の境目が明確ではない.漢字には形状的な特徴があり,特に”へん”や”つくり”などの部分的な構造が集まり,それら自身が文字の意味・構文的役割・発音などの情報を有している.本研究ではこれら漢字の文字形状に着目することで,優れた文字表現の獲得を目指す glyph-aware embedding を提...
-
A New Method of Region Embedding for Text Classification
1. どんなもの?CNNやRNNを必要とせずに語順を考慮することができるLocal Context Unitを利用し、タスク固有の単語埋め込み表現を学習するRegion Embeddingを提案。2. 先行研究と比べてどこがすごいの?文書分類などのタスクにおいて単語の語順を考慮した単語表現にn-gramが用いられることが多いが、特に の値が大きいn-gramの場合、モデルが大きくなってしまったり、データスパースネス問題が起こる恐れがある。近年ではn-gramを考慮した単語の分散表現を獲得...
-
Variable Importance Using Decision Tree
1. どんなもの?決定木とランダムフォレストは優れたパフォーマンスと示すだけでなく、Feature importanceといった情報が分かる、確立されたモデルである。 不純度ベースで変数の重要度を知ることができるため使われることが多いモデルであるが、これらの重要度は理論的に不明な点が多い。本研究ではDSTUMPを提案し、様々な仮定におけるモデリングの下で高次元のデータ利用で有限のサンプルパフォーマンス保証性を導き出すことによって、ツリー系のモデルの性能についての考察を行っている。またこれら...