50. 為了修復訓練過程中 Loss 突然變成 NaN 的問題,工程師考慮在 PyTorch 訓練迴圈 中加入梯度裁剪(Gradient Clipping)機制,例如 torch.nn.utils.clip_grad_norm_。若要正確加入梯度裁剪,最適合插入於哪個位置?其主要作用為何?

(A)插入於位置 3 與位置 4 之間;用以限制 Loss 數值大小,避免梯度消失;
(B) 插入於位置 4 與位置 5 之間;用以限制梯度範數過大,避免更新步幅失控導致 數值不穩;
(C) 插入於位置 5 之後;用以將更新後的權重強制壓縮回正常範圍;
(D)插入於位置 1 與位置 2 之間;用以對輸入影像進行批次標準化

答案:登入後查看
統計: 尚無統計資料