105年法務部調查局調查人員三等資料庫應用

四、請說明何謂大數據 (Big Data)?(5分)何謂資料探勘 (Data Mining)?(5分)近年來,各級政府與部門機關推動政府資料開放 (Open Data),在推動的過程中,主辦機關應該注意那些重要原則?(15分)

答:

()大數據(Big Data)

1.定義:

所涉及的資料量規模,巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理,使它成為幫助企業經營決策更積極目的的資訊,簡言之,就是排山倒海而來又雜亂無章的資訊。在海量資料潮流下,以 Hadoop 為核心的生態系統因為能有效率處理大量、多樣性的資料,已成為實作的主流關鍵技術。

2.基本3V特性:

(1)大量性(Volume):要儲存處理 TerabytesPetabytes 等級的大量資料。

(2)迅速性(Velocity):資料不斷地迅速更新,需要被即時、快速處理。

(3)多樣性(Variety)

要處理來自企業內外部多種來源的資料,包括結構化 (傳統資料庫裡的資料)、半結構化 (社群媒體網站內容)、非結構化 (影音) 多樣形式。

()資料探勘(Data Mining)

1.定義:

利用統計、人工智慧 (AI) 或其他的分析技術,在企業的大型資料庫 (或倉儲) 內尋找與發掘事前未知、有效且可付諸行動的資料彼此之間所隱藏的關係與規則,用來指導企業的決策制定。

2.目的:

主要是知識的發掘與描述,找出隱藏於大量資料中具特殊意義的知識,並以易於理解的方式呈現。

()各級政府與部門機關推動政府資料開放應該注意那些重要原則?

1.全面開放(Complete)

所有公眾資料都可被取得。所謂公眾資料,是指(與眾人相關但)不受隱私、安全、或其他特別權利合理限制的資料。

2.資料完整(Primary)

資料以其來源最完整型式、最精細的尺度收錄,不使用加總或修改後的格式。

3.即時發布(Timely):資料應就需要儘速提供,以保留資料價值。

4.便民使用(Accessible):資料應向最廣泛的使用者揭示,並容許最大範圍的使用。

5.機器處理(Machine processable):資料須組織為可被自動化處裡的形式。

6.不作限制(Non-discriminatory):資料公開給任何人使用,不需要註冊。

7.公開格式(Non-proprietary):用以發布資料的格式不可被特定人所控制。

8.不需授權(License-free)

資料不受著作權、專利權、商標權,以及營業秘密的管制;然在隱私、安全,或其他特別權利上可受合理限制。

※參考資料:李治安-開放政府資料的基本原則與相關政策議題.pdf

arrow
arrow
    文章標籤
    資料庫應用
    全站熱搜

    jacksaleok 發表在 痞客邦 留言(0) 人氣()