39. 某研究團隊希望評估大型語言模型在不同學科領域的整體理解能力,包含法 律、醫學、數學與歷史等,並要求模型在未見過的題型中仍能正確推理與作 答。下列何者最符合此類評測設計的核心概念?
(A)單一領域專業知識記憶測驗;
(B)多領域、多任務之語言理解能力評估;
(C)對話流暢度與語言生成品質測試;
(D)資料檢索準確率評估
答案:登入後查看
統計: A(0), B(1), C(0), D(0), E(0) #3923273
統計: A(0), B(1), C(0), D(0), E(0) #3923273