21. 某 AI 平台的資料工程師需要在 Apache Spark 叢集上,對包含 10 億筆使用者行為紀錄 的 RDD/DataFrame 計算整體標準差(Standard Deviation) 。請問下列哪種策略在分散式 環境中最正確且有效率?
(A)呼叫 collect()將所有資料傳回 Driver 節點的本機記憶體後,再使用 Python 的 statistics.stdev()計算;
(B)先對資料進行全域排序(sortBy),再取中間值計算變異數;
(C)將資料輸出為 CSV,再以 Excel 的 STDEV 函數計算;
(D)使用 DataFrame.agg({'col': 'stddev'})或 RDD.aggregate()等分散式統計方法,由各 Executor 計算局部統計量後再進行彙總

答案:登入後查看
統計: 尚無統計資料