15. 某新創公司希望針對特定醫療診斷任務微調語言模型,但受限於資料取得困 難,目前僅收集到少量已標註的診斷病例。在標註資料極為有限的條件下,強 化微調(Reinforcement Fine-Tuning, RFT)相較於監督式微調(Supervised Fine-Tuning, SFT))最主要的優勢為何?
(A)RFT 需仰賴大量高品質標註資料進行訓練,因此在資料有限時仍能維持較佳 穩定性;
(B)RFT 透過獎懲回饋機制引導模型優化,對大量標註資料的依賴相對較低,較 適用於資料有限的情境;
(C)RFT 與 SFT 在資料需求上本質相同,主要差異僅在訓練效率,資料量不影響 兩者適用性;
(D)RFT 可直接從未標註的診斷資料中自動產生正確標註,因此在資料有限時可 完全取代 SFT

答案:登入後查看
統計: A(0), B(1), C(0), D(0), E(0) #3923249