15. 某新創公司希望針對特定醫療診斷任務微調語言模型，但受限於資料取得困難，目前僅收集到少量已標註的診斷病例。在標註資料極為有限的條件下，強化微調(Reinforcement Fine-Tuning, RFT)相較於監督式微調(Supervised Fine-Tuning, SFT))最主要的優勢為何？ (A)RFT 需仰賴大量高品質標註資料進行訓練，因此在資料有限時仍能維持較佳穩定性； (B)RFT 透過獎懲回饋機制引導模型優化，對大量標註資料的依賴相對較低，較適用於資料有限的情境； (C)RFT 與 SFT 在資料需求上本質相同，主要差異僅在訓練效率，資料量不影響兩者適用性； (D)RFT 可直接從未標註的診斷資料中自動產生正確標註，因此在資料有限時可完全取代 SFT