A statistical interpretation of term specificity and its application in retrieval
1. どんなもの?
- IDF(inverse document frequency)の原典。
- 文書の記述の網羅性と索引用語の特異性は、通常独立していると考えられている。
- 特異性は、用語の意味ではなく、用語の使用法に応じて統計的に解釈されるべき。
- 頻繁に出現する用語は、全体的な成果を上げるために必要である。
- 用語というのは、観測された頻度に応じて重み付けされる。
2. 先行研究と比べてどこがすごいの?
これらのとてもシンプルなルールに従ってテストデータを検証した結果、よりよいパフォーマンスを出した。