111年高考二級資訊管理與資通安全研究第二題－國考資訊處理工作室(高考二級資訊處理/高考三級資訊處理/調查局三等/關務人員三等/地方特考三等)

111年高考二級資訊管理與資通安全研究第二題

二、請分別詳述監督式機器學習 (Supervised Machine Learning) 及非監督式機器學習 (Unsupervised Machine Learning) 的運作原理，並說明具體的應用實例。（25分）

答：

(一)監督式學習(Supervised Machine Learning)

1.是電腦從標籤化 (labeled) 的資訊中分析模式後做出預測的學習方式。標記過的資料就好比標準答案，電腦在學習的過程透過對比誤差，一邊修正去達到更精準的預測，這樣的方式讓監督式學習有準確率高的優點。

2.需要倚靠大量的事前人工作業，將所有可能的特質標記起來，這過程相當繁複。當範圍擴大、資訊量增加，會更難去對資料標記出所有特徵，所以在面對未知領域時，幾乎是完全無法運作。

3.例如任意選出100張照片並且「標註 (Label)」那些是貓那些是狗，輸入電腦後讓電腦學習認識貓與狗的外觀，因為照片已經標註了，因此電腦只要把照片內的「特徵 (Feature)」取出來，將來在做預測時只要尋找這個特徵 (四肢腳、尖耳朵、長鬍子) 就可以辨識貓了！這種方法等於是人工「分類(Classification)」，對電腦而言最簡單，但是對人類來說最辛苦。

(二)非監督式學習(Unsupervised Machine Learning)：

1.訓練資料不需要事先以人力處理標籤，機器面對資料時，做的處理是依照關聯性去歸類 (Co-occurance Grouping)、找出潛在規則與套路 (Association Rule Discovery)、形成集群 (Clustering)，不對資訊有正確或不正確的判別。

2.在資料探勘初期是好用的工具。對比監督式學習，非監督式學習可以大大減低繁瑣的人力工作，找出潛在的規則。但是這樣的方式，也會造成較多功耗，甚至也可能造成不具重要性的特徵（Feature) 被過度放大，導致結果偏誤、無意義的分群結果。

3.所有資料都沒有標準答案，無法提供機器學習輸出時判斷誤差使用，機器必須自己尋找答案，預測時比較不準，就像模擬考沒有提供答案，學生考後無法比對誤差，這樣聯考時成績會比較差。

4.例如任意選出100張照片但是沒有標註，輸入電腦後讓電腦學習認識貓與狗的外觀，因為照片沒有標註，因此電腦必須自己嘗試把照片內的「特徵 (Feature)」取出來，同時自己進行「分類 (Classification)」，將來在做預測時只要尋找這個特徵 (四肢腳、尖耳朵、長鬍子) 就可以辨識是「那一類動物」了！這種方法不必人工分類，對人類來說最簡單，但是對電腦來說最辛苦，而且判斷誤差比較大。

※參考資料：

https://ai4dt.wordpress.com/2018/05/25/%E4%B8%89%E5%A4%A7%E9%A1%9E%E6%A9%9F%E5%99%A8%E5%AD%B8%E7%BF%92%EF%BC%9A%E7%9B%A3%E7%9D%A3%E5%BC%8F%E3%80%81%E5%BC%B7%E5%8C%96%E5%BC%8F%E3%80%81%E9%9D%9E%E7%9B%A3%E7%9D%A3%E5%BC%8F/