30. 訓練資料共 5,000 萬筆,工程師比較 Batch Size=32 與 Batch Size = 4096 的訓練表現, 發現大批次(Large Batch)雖然訓練較快,但模型泛化能力較差。從最佳化理論角度, 下列何者為此現象最合理的解釋?
(A)大批次(Large Batch)計算量過大,GPU 無法有效處理;
(B)大批次(Large Batch)梯度估計更穩定,但容易收斂至局部極小值(Local Minima) , 導致泛化能力較差;
(C)小批次(Small Batch)因隨機性高,更容易發生梯度爆炸(Gradient Explosion);
(D)批次大小(Batch Size)與泛化能力無關,問題出在學習率(Learning Rate)設定

答案:登入後查看
統計: 尚無統計資料