• Tidak ada hasil yang ditemukan

模型評估與參數選擇

一、 交叉驗證

由於原始資料「屬於不平衡數據」,或是投入模型的訓練集在隨機抽樣時可 能幾乎都抽到未標記的樣本,也就造成訓練集與測試集有標記的樣本比例不一 致,其結果是訓練後的模型效能達預期,卻產生過擬合(Overfitting)現象,這種 現象會讓模型無法正常地預測新樣本,而避免過擬合現象的其中一個方法便是 交叉驗證(Corss Validation, CV),目前交叉驗證有許多方式能被實現[68, 69]。

最常見方式的是K等分交叉驗證法(K-fold Cross Validation)來評估模型的效 能,它是將訓練資料隨機切成K等分,每個等分之間獨立。選取一個等分作為 驗證資料,其餘K-1個等分則做為訓練資料,重複這步驟K次讓每一個等分都 輪流當過一次驗證資料,接著加總平均每次驗證的預測準確率,然後得出來K 次平均預測準確率分數便是該模型的最終準確率[69, 70],其整體流程如圖 14。

圖 14、K等分交叉驗證

26

二、 網格搜尋法

一般建模型前會先設定學習法的參數值(例如:決策樹葉節點的樣本個數閾 值、隨機森林樹的數量或XGBoost裡弱CART決策樹的深度等),通常是不確定 哪組參數值能讓模型效能達到最佳,所以必須每個參數都要嘗試建模,以此來 得知哪個參數設定值最適合建模,而且每次嘗試時也必須避免上述的過擬合結 果。

網格搜尋法(GridSearch)則可以解決上述兩者問題,它是使用指定的參數組 列自動進行每個參數輪流嘗試建模,且每次嘗試建模都會經過上述的K等分交 叉驗證法以此得出每次嘗試的平均準確率值,然後互相比較以找出何組參數的 平均準確率值最高,並選擇那組參數為最佳建模的參數組[71, 72],整體流程概 念如圖 15。

圖 15、網格搜尋法

27

三、 模型評估指標

評估模型效能方式最常見的方式是混淆矩陣(Confusion Matrix)分析,它被廣 泛地應用在二分類的模型方面[73],表 5列出混淆矩陣。

表 5、混淆矩陣

1. 真陽性(TP):實際是陽性樣本,預測也是陽性。

2. 偽陽性(FP):實際是陰性樣本,卻被預測成陽性。

3. 真陰性(TN):實際是陰性樣本,預測也是陰性。

4. 偽陰性(FN):實際是陽性樣本,卻被預測成陰性。

模型評估不只應觀察混淆矩陣四個指標,也應評估準確率(Accuracy)、敏感 度(Sensitivity)、特異度(Specificity)、陽性預測值(Positive Predictive Value, PPV)與 陰性預測值(Negative Predictive Value, NPV)指標。

準確率(Accuracy),即有多少正負樣本的預測結果與原先一致(真陽性與陰 性),計算公式如下:

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = (𝑇𝑃 + 𝑇𝑁)

(𝑇𝑃 + 𝐹𝑁 + 𝐹𝑃 + 𝑇𝑁)

28

敏感度(Sensitivity),也稱真陽性率,即有多少陽性樣本被準確預測成陽 性,在醫學上被視為實際上有罹病者(陽性)被判斷為有病的機率,其計算公式如 下:

𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = 𝑇𝑃 (𝑇𝑃 + 𝐹𝑁)

特異度(Specificity),也稱真陰性率(True Positive Rate, TPR),即有多少陰性樣 本被準確預測成陰性,在醫學上被視為有實際上未罹病者(陰性)被判斷為無病的 機率,其計算公式如下:

𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 = 𝑇𝑁 (𝐹𝑃 + 𝑇𝑁)

陽性預測值(Positive Predictive Value, PPV),也稱精確率(Precision),即有預 測為陽性樣本占真正陽性的比例,在醫學上被視為判斷有病者(陽性)實際上有罹 病的機率。從公式推導得知陽性預測值與盛行率(Prevalence)有高度相關,盛行 率在流行病學研究上被用以觀察陽性樣本占總樣本比例,通常盛行率越高,陽 性預測值也會越高[74]。其兩項指標相關計算公式如下:

𝑃𝑃𝑉 = 𝑇𝑃

(𝑇𝑃 + 𝐹𝑃) = (𝑇𝑃 + 𝐹𝑁 + 𝐹𝑃 + 𝑇𝑁) × 𝑃𝑟𝑒𝑣𝑎𝑙𝑒𝑛𝑐𝑒 × 𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 (𝑇𝑃 + 𝐹𝑃)

𝑃𝑟𝑒𝑣𝑎𝑙𝑒𝑛𝑐𝑒 = 陽性樣本(𝑇𝑃 + 𝐹𝑁) 總樣本(𝑇𝑃 + 𝐹𝑁 + 𝐹𝑃 + 𝑇𝑁)

陰性預測值(Negative Predictive Value, NPV),即有預測為陰性樣本占真正陰 性的比例,在醫學上被視為判斷無病者(陰性)實際上未罹病的機率,其計算公式 如下:

𝑁𝑃𝑉 = 𝑇𝑁

(𝐹𝑁 + 𝑇𝑁)

29

除了上述的評估指標,ROC(Receiver Operating Characteristic)曲線下的 AUC

(Area Under the Curve)值也是評估模型訓練性能的指標。ROC曲線圖是指用來觀

察學習法之模型在各種「閥值」下,計算出的FPR(False Positive Rate)與TPR(True

Positive Rate)的表現圖形(圖 16)[59]。一般以ROC曲線評估模型性能時,會以一

個對角線為參考,若 ROC 曲線越靠近對角線代表敏感度(TPR)越高,即模型辨識 能力良好。FPR與TPR的計算公式如下:

𝑇𝑃𝑅 = 𝑆𝑒𝑛𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = 𝑇𝑃 (𝑇𝑃 + 𝐹𝑁) 𝐹𝑃𝑅 = 1 − 𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 = 𝐹𝑃

(𝐹𝑃 + 𝑇𝑁)

而AUC值是指ROC 曲線之下所覆蓋的面積,除以總面積的比率,通常AUC 值越大代表模型越能準確預測正樣本或負樣本(圖 16),一般來說 AUC 值 0.7 以 上是評估模型性能可以接受的比率[59]。

圖 16、ROC曲線

30

第參章 研究方法

Dokumen terkait