19. 某醫療機構開發疾病早期偵測模型,正樣本(確診病例)僅佔 3%。在模型訓練與評估過程中,下列哪一種作法最不適合用於提升對少數類病例的預測能力?
(A)使用 SMOTE 過採樣;
(B)調整類別權重;
(C)使用準確率(Accuracy)作為評估指標;
(D)欠採樣多數類(Undersampling the majority class)
答案:登入後查看
統計: A(2), B(2), C(16), D(4), E(0) #3774693
統計: A(2), B(2), C(16), D(4), E(0) #3774693
詳解 (共 2 筆)
#7372361
在正樣本(確診病例)僅佔 3% 的極度不平衡資料(Class Imbalance)情況下,開發疾病早期偵測模型時,應著重於提升少數類(確診)的預測能力(召回率 Recall)。
ㅤㅤ
以下分析各選項:
ㅤㅤ
(A) 使用 SMOTE 過採樣 (Synthetic Minority Over-sampling Technique): 通過在少數類樣本之間進行插值,生成人工的少數類數據,能有效增加少數類樣本數,適合提升對少數類的預測能力。
ㅤㅤ
(B) 調整類別權重 (Class Weighting): 調整損失函數,賦予少數類(正樣本)更高的懲罰權重,使模型在訓練時更重視正樣本,是提升預測能力的常用方法。
ㅤㅤ
(C) 使用準確率 (Accuracy) 作為評估指標: 最不適合。當正樣本僅佔 3% 時,即使模型將所有數據都預測為「陰性」(多數類),準確率仍高達 97%,但該模型對確診病例的預測能力為零。在不平衡數據中,準確率會產生極大的誤導,應使用 F1-score、AUPRC 或召回率等指標。
ㅤㅤ
(D) 欠採樣多數類 (Undersampling the majority class): 減少多數類樣本數,使資料類別平衡。這有助於模型學習少數類特徵,適合提升對少數類的預測能力。
0
0