5. 某企業以詞頻–逆文件頻率(Term Frequency–Inverse Document Frequency, TF-IDF)方法分析顧客意見內容,但發現模型在處理篇幅較長的回饋文本時,無法準確反映關鍵詞的重要性。下列何者為造成此現象的主要原因?
(A)長文本中的詞頻偏高,導致常見詞權重被過度放大;
(B)長文本中缺乏明確句子邊界,造成 TF-IDF 無法計算詞頻;
(C)TF-IDF 無法同時處理多份文件;
(D)長文本會改變 IDF(Inverse Document Frequency)的計算,使所 有詞權重趨於相近
答案:登入後查看
統計: A(14), B(2), C(0), D(3), E(0) #3773556
統計: A(14), B(2), C(0), D(3), E(0) #3773556
詳解 (共 1 筆)
#7373116
- TF-IDF原理:TF-IDF(詞頻-逆文件頻率)旨在衡量詞彙對文檔的重要性。核心思想是一個詞在某文檔中出現頻率高(高TF),且在其他文檔中出現頻率低(高IDF),則該詞重要。
- 長文本問題:在長篇幅的回饋文本中,許多常見的普通詞彙(非停用詞但非關鍵字)可能會因為文本長度大而被重複多次,導致其詞頻(Term Frequency, TF)相較於短文本偏高。
- 權重偏差:儘管 TF-IDF 試圖通過將總詞數作為分母來歸一化 TF(即除以文件總詞數),但在實際應用中,長文本中常見詞的累計頻率仍可能產生不恰當的高權重,掩蓋了真正具有代表性的關鍵詞,導致模型無法準確反映關鍵詞的重要性。
0
0