21. 某 AI 平台的資料工程師需要在 Apache Spark 叢集上，對包含 10 億筆使用者行為紀錄的 RDD/DataFrame 計算整體標準差(Standard Deviation) 。請問下列哪種策略在分散式環境中最正確且有效率？
(A)呼叫 collect()將所有資料傳回 Driver 節點的本機記憶體後，再使用 Python 的 statistics.stdev()計算；
(B)先對資料進行全域排序(sortBy)，再取中間值計算變異數；
(C)將資料輸出為 CSV，再以 Excel 的 STDEV 函數計算；
(D)使用 DataFrame.agg({'col': 'stddev'})或 RDD.aggregate()等分散式統計方法，由各 Executor 計算局部統計量後再進行彙總

答案：登入後查看
統計： 尚無統計資料

相關試題

22. 某連鎖便利商店集團欲建立門市未來 14 天每日銷售額預測模型(500 間門市、3 年歷史資料) 。資料具有明顯的週期性(週末較高) 、年度季節性(暑假與年末高峰)及長期成長趨勢，並包含已知節日與不定期事件(如颱風) 。在此情境下，關於資料切分與建模策略，何者最適當？ (A)採隨機切分(80/20) ，使用傳統時間序列模型建模，刪除節日資料避免極端值影響，並以均方根誤差(RMSE)評估； (B)依時間順序切分(最後 90 天為測試集) ，使用具季節性建模能力的時間序列模型並加入節日資訊，不處理不定期事件，以平均絕對百分比誤差(MAPE)評估； (C)依時間順序切分並採前進式驗證(Walk-Forward Validation)，結合時間序列分解與機器學習模型，加入時間特徵、滯後與滾動統計特徵，並納入節日與不定期事件資訊，使用均方根誤差(RMSE)與平均絕對百分比誤差(MAPE)評估； (D)依時間順序切分，直接使用深度學習模型建模，不進行特徵工程，所有門市共用模型，以平均絕對誤差(MAE)評估

23. Receiver Operating Characteristic(ROC)曲線係由單一分類模型在不同決策閾值下形成，並以真陽率(True Positive Rate, TPR)為縱軸、假陽率(False Positive Rate, FPR)為橫軸。請問下圖中四條曲線，何者最不可能是 ROC 曲線？ (A)水平線 A； (B)曲線 B； (C)曲線 C； (D)斜直線 D

24. 某 AI 工程師評估客戶滿意度評分(1–5 分，含有明顯離群值)與退款率(連續型比例變數)之間的相關性，考慮使用皮爾森(Pearson)、斯皮爾曼(Spearman)或肯德爾 (Kendall)相關係數。關於三者的特性比較，下列敘述何者不正確？ (A)皮爾森衡量兩個連續變數間的線性關係強度；斯皮爾曼與肯德爾基於排名(Rank) 計算，對非線性單調關係也適用； (B)斯皮爾曼相關係數的計算公式等價於皮爾森，只是將原始數值替換為其排名後代入計算； (C)與肯德爾相比，斯皮爾曼對離群值的穩健度更強； (D)三者的數值範圍(相關係數區間)皆相同，均在[-1, 1]之間

25. 某金融機構導入 AI 模型進行信用卡詐欺偵測，由於詐欺交易極為稀少(約佔全部交易 0.3%) ，因此模型在測試階段得到 99.6%準確率(Accuracy) ，被初步認定為「高效模型」。然而在實際上線後，風控部門發現模型幾乎無法攔截詐欺交易，且大量誤判正常交易。經進一步檢查，發現資料極度不平衡，但模型仍以 Accuracy 作為主要優化與評估指標。在此情境下，下列何者最適當的改善方向？ (A)持續優化 Accuracy 指標以提升整體分類正確率； (B)改用精確率(Precision)作為主要評估指標以降低誤報； (C)引入 Class Weight 或 Cost-sensitive Learning 調整損失函數； (D)移除少數類資料以提升模型穩定性與收斂速度

26. 某電商推薦系統的資料工程師在建構模型特徵時，將使用者的訂單 UNIX 時間戳記(連續數值)轉換為「早晨(6–12 時) 、下午(12–18 時) 、夜晚(18–6 時)」三個區間類別，以讓推薦模型更容易學習消費時段規律。在資料前處理中，這種將連續數值轉換為有序類別的操作最精確的名稱為何？ (A)特徵離散化(Feature Discretization)； (B)特徵縮放(Feature Scaling)； (C)數據降維(Dimensionality Reduction)； (D)One-Hot 編碼(One-Hot Encoding)

27. 某 AI 產品的商業分析師在準備月度報告時，需要在單一頁面上同時呈現 1,000 位使用者的留存率、活躍程度與付費轉換率三項指標，以讓決策層快速掌握整體趨勢。若依據 Edward Tufte 的資料視覺化原則中資料密度(Data Density)的概念，下列何者最符合此原則的設計方向？ (A)將 1,000 筆資料分散至多張圖表(每張顯示約 100 筆)，避免單一圖表資訊過載； (B)移除所有圖例、軸標籤與輔助線等非資料墨水(Non-data Ink)，使版面最簡潔； (C)在圖表中加入大量裝飾性元素(如色塊、陰影、3D 效果)，使視覺效果更豐富； (D)在有限頁面空間中呈現盡可能多的有效資料資訊，同時維持可讀性與清楚的視覺層次

28. 行銷團隊比較三種廣告投放管道(A／B／C)的轉換率差異，原始數據如下，A：3.2%、 B：3.8%、C：4.0%。若設計圖表時將 y 軸刻意截斷(不從 0 開始) ，造成視覺差異放大。此做法最可能產生的問題為何？ (A)提升資料解析效率並減少認知負擔； (B)增強小幅差異的可視化辨識能力； (C)造成視覺誤導並放大實際差異感； (D)提升圖表計算準確性與數據正確性

29. 某 AI 系統的維運工程師需要在儀表板上呈現「模型推論延遲(ms)隨時間的變化趨勢」，以便即時監控服務水準協議(Service Level Agreement, SLA)是否達標(P99<200 ms) 。在資料視覺化的圖表類型選擇上，下列哪種圖表最適合呈現連續數值隨時間變化的趨勢？ (A)面積圖(Area Chart)； (B)散佈圖(Scatter Plot)； (C)長條圖(Bar Chart)； (D)折線圖(Line Plot)

30. 訓練資料共 5,000 萬筆，工程師比較 Batch Size=32 與 Batch Size = 4096 的訓練表現，發現大批次(Large Batch)雖然訓練較快，但模型泛化能力較差。從最佳化理論角度，下列何者為此現象最合理的解釋？ (A)大批次(Large Batch)計算量過大，GPU 無法有效處理； (B)大批次(Large Batch)梯度估計更穩定，但容易收斂至局部極小值(Local Minima) ，導致泛化能力較差； (C)小批次(Small Batch)因隨機性高，更容易發生梯度爆炸(Gradient Explosion)； (D)批次大小(Batch Size)與泛化能力無關，問題出在學習率(Learning Rate)設定

31. 某公司中，A 團隊負責信用評分模型，B 團隊負責詐欺偵測模型，兩團隊皆需要「使用者過去 30 天交易行為」資料，但各自會進行特徵工程與後續工作。以公司整體管理角度，下列何者為導入統一管理與共用特徵的主要目的？ (A)模型推論延遲過高，導致線上服務回應時間不符合系統即時性需求與使用體驗要求； (B)降低跨團隊重複開發的維護成本； (C)訓練資料儲存空間不足，造成歷史資料保存與批次訓練流程效率下降問題； (D)模型版本管理混亂，導致不同模型部署與回溯分析困難並增加維運複雜度

相關試卷

115年 - 115-1 AI應用規劃師_中級能力鑑定公告試題_第三科：機器學習技術與應用#141075

2026 年 · #141075

115年 - 115-1 中級AI應用規劃師試題_第二科：大數據處理分析與應用#141063

2026 年 · #141063

115年 - 115-1中級AI應用規劃師公告試題_第一科：人工智慧技術應用與規劃_#141062

2026 年 · #141062

114年 - 114-2 AI 應用規劃師-中級能力鑑定公告試題_第三科：機器學習技術與應用#136329

2025 年 · #136329

114年 - 114-2 AI 應用規劃師-中級能力鑑定公告試題_第二科：大數據處理分析與應用#136306

2025 年 · #136306

114年 - 114-2 AI 應用規劃師-中級能力鑑定公告試題_一科：人工智慧技術應用與規劃#136301

2025 年 · #136301

114年 - iPAS AI應用規劃師中級能力鑑定-考試樣題(114/09)_科目三：機器學習技術與應用#136300

2025 年 · #136300

114年 - iPAS AI應用規劃師中級能力鑑定-考試樣題(114/09)_科目二：大數據處理分析與應用#136295

2025 年 · #136295

114年 - iPAS AI應用規劃師中級能力鑑定-考試樣題(114/09)_科目一：人工智慧技術應用與規劃#136294

2025 年 · #136294

114年 - iPAS AI 應用規劃師能力鑑定考試樣題(中級)#126106

2025 年 · #126106