17. 某醫院欲建立一套加護病房(ICU)敗血症預測模型,資料來自 120 位病患之生命徵象 ,每 5 分鐘記錄一次。資料中敗血症相關樣本僅佔 3.2%,屬 (如心率、血壓、體溫等) 於高度不平衡資料。在資料檢查過程中發現數項問題,包括血氧資料會出現 10 至 30 分鐘的連續缺失、部分血壓感測器隨使用時間產生系統性偏高(感測器漂移) 、敗血症 標註時間存在約±2 小時誤差,以及不同病患之正常生命徵象基準差異甚大。請問下列 何種資料處理與建模方式最為適當?
(A)將缺失值以整體平均填補,未額外處理感測器漂移,並將敗血症標註區間由 6 小時 擴大至 8 小時以涵蓋時間誤差,模型評估採用 ROC-AUC 作為主要指標;
(B)對缺失值進行線性插值,若連續缺失時間過長則刪除該段資料,並以 Z-score 標準 化處理感測器漂移,交叉驗證採隨機切分,未避免同一病患資料同時出現在訓練與測 試集中;
(C)刪除所有含缺失值之資料,對資料進行 Min-Max 正規化處理,未考慮病患間差異直 接建模,並以 Accuracy 作為評估指標,交叉驗證採分層 K-Fold 方式進行;
(D)對缺失值採前向填補並加入缺失指標特徵,利用感測器 72 小時滾動中位數進行漂 移校正,並處理標註雜訊,同時以個別病患基準建模,交叉驗證採病患分組,評估採 PR-AUC 與 Recall 指標

答案:登入後查看
統計: 尚無統計資料