圖書館要把自己手上的藏書、古籍、地圖、報紙，通通「格式化、打包」變成電腦讀得懂的「資料集（Datasets）」，像開放原始碼一樣，直接整包送給讀者拿去餵 AI、跑統計、做文字探勘（Text Mining）。

一句話解釋：不再把你當成「看書的讀者」，而是把你當成「跑資料、寫程式的科學家」！

ㅤㅤ

✍️ 考場專用：標準申論題滿分範本

這個概念源自 2016 年左右美國的「Always Already Computational: Collections as Data」計畫，是這幾年圖資學、數位典藏非常火熱的考題 [1, 2]。在考場上，你要用以下這套充滿學術術語的架構來拿高分：

ㅤㅤ

一、何謂「館藏即資料（Collections as Data）」之內涵

「館藏即資料」係指圖書館、檔案館與博物館（GLAM 領域）將其所典藏的實體或數位化館藏（如古籍、報紙、地圖、影音等），轉化為「適合計算機進行大規模計算、文字探勘（Text Mining）、機器學習與大數據分析」之結構化資料集（Datasets）的典範轉型 [2, 3]。

其核心邏輯在於，圖書館不再僅僅將數位館藏視為「供人類肉眼閱讀的模擬電子書（如 PDF 或圖檔）」，而是將其解構為「可供電腦演算法重組、重用與大規模運算的數位資源」，藉此支持現代「數位人文（Digital Humanities）」與資料科學的研究範式 [2, 3]。

ㅤㅤ

二、「館藏即資料」之核心經營原則（The Santa Barbara Statement）

根據 2018 年國際發表的《聖塔芭芭拉宣言（Santa Barbara Statement on Collections as Data）》，經營「館藏即資料」應遵循以下核心原則 [3, 4]：

ㅤㅤ

(一) 易用性與可計算性第一（Prioritize Actionability and Computability）

館藏資料集的設計必須符合「機器可讀（Machine-readable）」與結構化標準（如 CSV, JSON, XML），並提供公開的 API 接口或大量下載（Bulk Download）功能，確保研究者能毫無阻礙地將資料匯入 Python、R 等分析工具中 [2, 3]。

ㅤㅤ

(二) 開放與倫理並重（Balance Openness and Ethics）

開放取用（Open Access）： 盡可能採用最寬鬆的授權條款（如 CC0 或 CC BY），移除法律與版權限制，鼓勵資料無償重製與加值應用 [1, 3]。
倫理審查： 在釋出資料前，必須嚴格評估隱私權、去識別化、以及敏感原住民文化資產之數位倫理權利，避免資料遭到濫用或造成傷害 [3, 4]。

ㅤㅤ

(三) 完整的中介資料與脈絡化（Provide Rich Metadata and Context）

提供詳盡的 provenance（來源出處明細）與中介資料（Metadata）。資料集必須清楚記錄：這些資料是怎麼被數位化的？文字識別（OCR）的正確率是多少？有哪些部分被刪減？確保研究者在跑統計時，能理解資料的局限性與歷史脈絡 [3, 4]。

ㅤㅤ

(四) 促進多元、包容與公平性（Foster Diversity, Equity, and Inclusion）

在建置資料集時，圖書館應刻意平衡學術偏見，積極將「非主流社群、邊緣化團體、歷史弱勢族群」的館藏轉化為資料集，避免演算法在進行機器學習時，因資料庫單一化而產生 AI 偏見（Algorithmic Bias） [3, 4]。

ㅤㅤ

(五) 永續保存與互操作性（Ensure Sustainability and Interoperability）

資料集應儲存於具備永續維護機制的「機構典藏（IR）」系統中，並給予數位物件識別碼（DOI）以利學術引用，且檔案格式需具備國際通用性，避免因軟體停產而無法讀取 [1, 3]。

ㅤㅤ

三、具體應用服務範例

圖書館在實務上可以推動以下應用服務，滿足現代讀者需求：

歷史地圖空間資訊服務（GIS 應用）： 將館藏的百年古地圖進行幾何校正與數位向量化，打包成 GIS 空間資料集，讓研究者直接疊加現代 Google 地圖，分析都市百年的地景與河道變遷。
報紙文本與輿情探勘服務： 將數十萬全頁歷史報紙透過光學字元識別（OCR）轉為純文字資料集，提供研究者進行「情感分析（Sentiment Analysis）」或「主題模型（Topic Modeling）」分析，研究特定歷史事件的社會輿論演變。

ㅤㅤ

四、結論：對新時代圖書館與館員的啟示

「館藏即資料」的興起，體現了阮甘納桑第五律「圖書館是一成長中有機體」在 AI 時代的極致實踐。

這項轉型對圖書館實務帶來深刻的啟示：圖書館館員的定位必須從「書籍的看守者」轉型為「數據的策展人（Data Curator）」。圖書館未來的競爭力，不在於實體館舍擁有多少藏書，而在於其能提供多少高品質、高潔淨度且符合 FAIR 原則（可發現、可存取、可互操作、可重用）的數位資料集。透過將館藏資料化，圖書館成功打破了圍牆，將知識直接嵌入到全球科學研究的數位生態系中。

ㅤㅤ

? 加分小撇步：

答題時，記得寫出《聖塔芭芭拉宣言（Santa Barbara Statement）》這個關鍵詞 [3, 4]，這就像寫 OCLC 要寫 Reordering Ranganathan 一樣，能瞬間證明你非常專業！
只要掌握「把書變成電腦好讀的 Dataset 餵給 AI」這個核心白話，這題無論怎麼變形你都能拿到基本分。

GLAM 領域是美術館（Galleries）、圖書館（Libraries）、檔案館（Archives）及博物館（Museums）這四類文化典藏機構的英文首字母縮寫。該領域的核心宗旨在於保存人類文化遺產、推動知識共享，並致力於數位化典藏、開放近用與跨機構資源整

FAIR 原則是一組旨在優化數位資產與科學數據管理的國際指導方針。它強調資料不僅要「能被人類閱讀」，更要具備「機器可讀性」，以促進數據的跨領域整合與 AI 應用。

學術傳播補給站 +4

四大核心原則如下：

Findable (可尋找性)：數據應具備豐富的詮釋資料 (Metadata) 與永久識別碼（如 DOI），確保在搜尋引擎或資料庫中能被輕易定位。
Accessible (可取得性)：數據及其詮釋資料應能透過標準化的通訊協定（如 HTTP、API）被免費且公開地取得與存取。
Interoperable (互通性)：數據應採用標準化的格式與通用詞彙，使其能與其他數據集互相結合，並能順暢地在不同的應用程式或系統間交換。
Reusable (可重複使用性)：數據必須具備詳細的授權條款及來源背景，以便其他人（或 AI 模型）能清楚理解、引用並在不同情境中再次應用。
學術傳播補給站 +3

想深入了解如何落實這些標準，可參考政府資料開放平臺的開放資料指南，或閱讀中央研究院調查研究資料庫的資料共享規範。

ㅤㅤ

「館藏即資料（Collection as Data）」是指將圖書館的數位化資源或典藏項目，轉化為可供電腦程式進行大規模運算、分析及探勘的結構化資料集，讓研究者能進行文本探勘、巨量資料分析或機器學習，賦予館藏全新的學術研究價值。

以下為館藏即資料的意義與四大經營原則：

ㅤㅤ

一、何謂館藏即資料？

傳統的圖書館數位化旨在「供人閱讀」（如線上瀏覽圖書、檢索文獻）。而館藏即資料則是將文本、圖像、影音等資源，透過 OCR（光學字元辨識）、XML 結構化標記、API 串接或整合為資料集（Datasets），供機器與程式讀取。研究者可以批次下載或利用程式介面擷取數十萬筆文獻，進行趨勢預測、關聯性分析或視覺化研究，打破了單篇閱讀的限制。

ㅤㅤ

二、經營原則

為了確保資料的可用性與學術價值，圖書館在推展此服務時，通常依循以下核心原則：

可機讀性（Machine-actionability）： 資料必須採用結構化或標準化的格式（如 JSON, CSV, RDF 或 XML），且具備清楚的詮釋資料（Metadata），使程式能直接解析、清洗與處理。
開放與近用性（Open and Accessible）： 在不違反著作權的前提下，應盡可能移除取用障礙。透過開放授權（如 CC 授權）或開放 API，讓公眾與研究人員自由取用。
長期保存與穩定性（Preservation）： 確保資料集具有持久的識別碼（如 DOI）與版本控制，當資料被引用或用於歷史分析時，能維持其完整性與來源可追溯性。
合規與道德性（Ethics and Compliance）： 妥善處理涉及個人隱私、敏感資訊或版權的資料，在開放資料與保護智慧財產權／個資之間取得平衡。

若欲進一步了解實務推動的標準與指引，可參考美國國家數位倡議聯盟（NDSA）推動的 Collection as Data 專案，以掌握國際上關於資料集創建與服務的最新框架。

ㅤㅤ

SAP

以下為兩者的具體差異比較：

ㅤㅤ

比較項目	API 串接 (API Integration)	鏈結資料 (Linked Data)
核心概念	溝通互動。定義規則讓兩套系統互相傳遞請求與資料（如：發送訂單、查詢天氣）。	資料結構。將資料結構化並賦予語意，讓資料之間產生關聯（如：A資料的「創作者」是B資料的「作者」）。
運作方式	透過端點（Endpoint）拋接資料。通常一端發出請求，另一端處理後回傳結果（如 JSON 格式）。	使用 URI 識別具體事物，並用 RDF 語法連接資料點，形成網狀結構（Web of Data）。
應用目的	系統功能的整合與自動化（如：電商網站串接綠界科技或LINE Pay進行付款）。	知識圖譜的建立與數據推理（如：維基百科建構的 DBpedia，讓電腦可自動檢索與推論複雜資訊關係）。
資料關係	封閉或特定。通常由 API 提供者定義好能取什麼資料，外部程式無法直接推斷未定義的內容。	開放且可推理。透過標準本體論（Ontology）語意，賦予資料邏輯關係，讓搜尋與關聯性更深層。

ㅤㅤ

簡單比喻

API 串接就像是電話：您（客戶端）打電話給餐廳（伺服器）詢問今日菜單，對方口頭告訴您有什麼菜。
鏈結資料就像是圖書館的交互參照卡：每一本書和作者都被編碼定義好，您不僅能查到這本書，還能順著卡片上的標籤，自動找出同作者寫的其他書，甚至該作者出生的城市歷史。

ㅤㅤ

詳解 #7379103

2026/05/20

1. 後設資料（Metadata）

它是什麼：菜單上的菜名、價格、辣度標籤。
誰在用：想點菜的客人。
目的：讓客人看一眼標籤，就能「精準找到」想吃的那道菜。

ㅤㅤ

2. 館藏即資料（Collection as Data）

它是什麼：把整間餐廳倉庫裡所有的食材（牛肉、番茄、洋蔥）通通打碎、打包成一整大桶的「原料泥」。
誰在用：食品科學家、AI 機器人、寫程式的人。
目的：他們不點菜，他們要把這一大桶原料「倒進機器裡」，去研究過去這一年，食物裡面的營養成分、卡路里大數據。

ㅤㅤ

3. 語意網（Semantic Web）

它是什麼：一個超聰明的經理。
誰在用：餐廳系統與客人。
目的：告訴電腦「番茄是蔬菜也是水果」，所以當客人搜尋「健康水果」時，電腦會自動把「番茄炒蛋」推薦給他。

ㅤㅤ

4. TF-IDF

它是什麼：一台電子秤（數學公式）。
誰在用：餐廳後台的計算系統。
目的：用來算出這道菜裡面，到底「牛肉」是主角，還是「鹽巴」是主角（算出誰最重要）。

ㅤㅤ

? 總結「館藏即資料」：

誰在用？
不看書的科學家、寫 Python 跑程式的研究員、大數據分析師。
目的？
不要讓人一本一本翻，而是讓電腦一次吃下幾萬本書的內容，直接跑統計、抓出歷史大趨勢！

「館藏即資料」抓出歷史大趨勢，核心目的完全不是為了解決圖書館內部的行政問題（如進書或館藏依據），也不是為了解決一般的網頁搜尋，而是為了「支援學術研究與知識創新（數位人文研究）」。

如果一定要從你列出的選項中挑選一個最接近、最宏觀的答案，那它是為了「吸引讀者」。

但這裡的「讀者」不是一般借小說的人，而是「要把圖書館當作大型資料庫來跑研究的科學家與學者」。

ㅤㅤ

? 為什麼要抓歷史大趨勢？（用開餐廳的例子秒懂）

延續前面開餐廳的例子：圖書館把幾萬本古籍報紙打包成一整桶「原料泥」（資料集），讓研究員用電腦程式抓出「這一百年來的歷史大趨勢」。

這既不是為了決定明天要買什麼菜（進書依據），也不是為了優化點菜單的系統（優化搜尋）。

它的真正目的有兩個：

ㅤㅤ

1. 為了吸引一種全新的「數位讀者」（學者、研究員）

傳統上：歷史學家或社會學家不愛來圖書館，因為一本一本翻書太慢了，他們都跑去用 Google 或商業大數據庫。
轉變後：圖書館提供「館藏即資料」後，研究員發現可以直接下載一整包文獻去跑 Python 抓趨勢。圖書館成功用「大數據原料」吸引了這群不看實體書的科技讀者與科學家。

ㅤㅤ

2. 為了幫人類發現「以前看不到的全新知識」

舉個例子：如果只靠人類肉眼一本一本讀，我們一輩子也讀不完十萬本清代奏摺。
抓出趨勢的目的：用電腦跑「館藏即資料」，學者一秒鐘就能抓出這兩百年間，某種傳染病跟天氣變化的歷史大趨勢圖。這能幫人類發現全新的歷史規律、政治走向，這叫「數位人文（Digital Humanities）」研究。

ㅤㅤ

? 考場上你可以這樣選與論述：

如果這是選擇題或申論題，請牢記它的核心目標：

❌ 不是：優化搜尋（那是語意網和 TF-IDF 的工作）。
❌ 不是：進書依據/館藏依據（那是圖書館館長看借閱率大數據的工作，叫館藏發展政策）。
? 核心是：提升館藏的「可計算性（Computability）」，吸引研究型讀者，進而推動學術研究與數位人文的知識創新。

這個概念是圖書館從「服務借書的人」變成「服務做研究的電腦與科學家」的關鍵！

ㅤㅤ

三、在館藏數位化後，圖書館積極推展所謂的館藏即資料（Collection as Data）應用服務。請論述何謂館藏即資料，及其經營原則為何？（25 分）

申論題作答 (共 1 筆)

詳解 (共 2 筆)

相關申論題

相關試卷

三、在館藏數位化後，圖書館積極推展所謂的館藏即資料（Collection as Data） 應用服務。請論述何謂館藏即資料，及其經營原則為何？（25 分）

申論題作答 (共 1 筆)

詳解 (共 2 筆)

相關申論題

相關試卷

三、在館藏數位化後，圖書館積極推展所謂的館藏即資料（Collection as Data）應用服務。請論述何謂館藏即資料，及其經營原則為何？（25 分）