105年法務部調查局調查人員三等資料庫應用
四、請說明何謂大數據 (Big Data)?(5分)何謂資料探勘 (Data Mining)?(5分)近年來,各級政府與部門機關推動政府資料開放 (Open Data),在推動的過程中,主辦機關應該注意那些重要原則?(15分) |
答:
(一)大數據(Big Data)
1.定義:
所涉及的資料量規模,巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理,使它成為幫助企業經營決策更積極目的的資訊,簡言之,就是排山倒海而來又雜亂無章的資訊。在海量資料潮流下,以 Hadoop 為核心的生態系統因為能有效率處理大量、多樣性的資料,已成為實作的主流關鍵技術。
2.基本3V特性:
(1)大量性(Volume):要儲存處理 Terabytes、Petabytes 等級的大量資料。
(2)迅速性(Velocity):資料不斷地迅速更新,需要被即時、快速處理。
(3)多樣性(Variety):
要處理來自企業內外部多種來源的資料,包括結構化 (傳統資料庫裡的資料)、半結構化 (社群媒體網站內容)、非結構化 (影音) 多樣形式。
(二)資料探勘(Data Mining)
1.定義:
利用統計、人工智慧 (AI) 或其他的分析技術,在企業的大型資料庫 (或倉儲) 內尋找與發掘事前未知、有效且可付諸行動的資料彼此之間所隱藏的關係與規則,用來指導企業的決策制定。
2.目的:
主要是知識的發掘與描述,找出隱藏於大量資料中具特殊意義的知識,並以易於理解的方式呈現。
(三)各級政府與部門機關推動政府資料開放應該注意那些重要原則?
1.全面開放(Complete):
所有公眾資料都可被取得。所謂公眾資料,是指(與眾人相關但)不受隱私、安全、或其他特別權利合理限制的資料。
2.資料完整(Primary):
資料以其來源最完整型式、最精細的尺度收錄,不使用加總或修改後的格式。
3.即時發布(Timely):資料應就需要儘速提供,以保留資料價值。
4.便民使用(Accessible):資料應向最廣泛的使用者揭示,並容許最大範圍的使用。
5.機器處理(Machine processable):資料須組織為可被自動化處裡的形式。
6.不作限制(Non-discriminatory):資料公開給任何人使用,不需要註冊。
7.公開格式(Non-proprietary):用以發布資料的格式不可被特定人所控制。
8.不需授權(License-free):
資料不受著作權、專利權、商標權,以及營業秘密的管制;然在隱私、安全,或其他特別權利上可受合理限制。
※參考資料:李治安-開放政府資料的基本原則與相關政策議題.pdf