四、在有 N 篇文長近似的文件(如 N 篇摘要,都約 300 詞)的全文檢索系統 中,索引詞彙 T 在每一篇文件都有其權重。最簡單的詞彙權重設定方式 是布林(Boolean)邏輯方式,亦即詞彙 T 出現在文件 D,則其權重為 1, 若沒出現在文件 D 則其權重為 0。另一種詞彙權重設定方式為 TF x IDF, 亦即:T 出現在 D 的次數(或是正規化後之詞頻,TF)「乘以」T 在 N 篇文件中出現篇數的倒數(或是正規化後之文件篇數倒數,IDF)。請說 明並比較布林權重、TF、IDF 及 TF x IDF 等四種權重方式,對相關文件 排序的影響。(25 分)

詳解 (共 2 筆)

陳家平
陳家平
詳解 #4130906
2020/07/10
資訊檢索是當前應用十分廣泛的一種技術,論...
(共 6622 字,隱藏中)
前往觀看
Annie
Annie
詳解 #6866942
2025/10/09
二、四種權重對文件排序的影響 ...

(共 596 字,隱藏中)
前往觀看