11. 某工程師在分析 Transformer 架構時,發現自注意力機制(Self-Attention)能夠有 效提升模型對序列中長距離依賴關係的建模能力。請問 Self-Attention 的核心功能 為何?
(A)透過隱藏狀態的遞迴傳遞,逐步累積序列中的上下文資訊;
(B)讓序列中每個 token 能與其他所有 token 建立關聯,並根據重要性分配權重;
(C)對輸入序列進行局部運算,以捕捉相鄰詞之間的關係;
(D)將整個序列壓縮為固定長度表示,以提供後續任務使用

答案:登入後查看
統計: 尚無統計資料