10. 某團隊為職業籃球隊建立球員受傷風險預測模型,原始特徵 280 個。初始模型訓練集 AUC 為 0.94、測試集僅 0.68,顯示嚴重過擬合。為改善模型,團隊進行以下處理步驟: 第一步於全體資料(含測試集)上計算特徵間線性相關係數並移除高度相關特徵;第二步依模型重要性篩選特徵後重新訓練模型。最終測試集 AUC 提升至 0.81。關於上述調 整流程,下列敘述何者最為正確?
(A)使用相關係數進行特徵篩選方向正確,主要問題在於相關係數門檻設定過高;
(B)在全體資料(含測試集)上進行特徵篩選會造成資料洩漏,且線性相關無法捕捉非 線性關係;
(C)特徵篩選後需重新對測試集進行標準化,否則會影響模型表現;
(D)測試集表現提升代表過擬合已解決,流程可直接部署
答案:登入後查看
統計: 尚無統計資料
統計: 尚無統計資料