2. 一家新創公司希望對 Llama3 70B 模型進行領域微調(Domain Fine-Tuning)以建 立企業專用助理,但 GPU 記憶體有限,無法支撐完整模型的反向傳播梯度計算。 工程師希望凍結(freeze)原模型權重、僅訓練少量額外參數的前提下,評估採用 LoRA(Low-Rank Adaptation)方案。請問 LoRA 在此場景下的主要優勢為何?
(A)透過知識蒸餾(Knowledge Distillation)將 70B 模型壓縮為較小的學生模型;
(B)對原始模型各層權重進行剪枝(Pruning),移除低重要性參數後再進行微調;
(C)凍結原始預訓練權重,僅在各層加入低秩分解的可訓練矩陣,大幅降低可訓練 參數量與 GPU 記憶體需求;
(D)將模型中的注意力機制改為稀疏注意力(Sparse Attention),以降低長序列計 算成本

答案:登入後查看
統計: 尚無統計資料