第三節 資料前置處理
二、 欄位處理
(一) 資料來源
本研究之資料來源為學術調查研究資料庫(SRDA)中紀玫如的「中老年人健 康素養調查研究與介入模式探討」之蒐集資料,該研究是以問卷填答方式蒐集 參與者健康識能等相關資料,問卷架構如下表 6[6]。
表 6、中老年人健康素養調查問卷之架構 A.基本健康情形(含慢性病罹患紀錄) B.自覺健康素養
C.健康知識
D1.健康識能評估簡式量表-門診對話 D2.健康識能評估簡式量表-用藥資訊 E.人口學特質
33
(二) 填補缺失值
由於原始資料有缺失值,所以利用以下方式填補。
middle_age_HL_data=middle_age_HL_data.fillna(0) middle_age_HL_data=middle_age_HL_data.replace("","0") middle_age_HL_data=middle_age_HL_data.replace(" ","0")
(三) 特徵轉換
原始問卷資料之「自覺健康素養」面向之評估,其包含的題項(b1~b19)如 下表 7,有「非常不同意」至「非常同意」5種回答(1~5分),其設計概念與
Sørensen開發之HLS-EU-Q47涵蓋的三個領域(健康照護、疾病預防、健康促進)
極為類似[5, 18],故本研究將「自覺健康素養」之題項依照Sørensen (表 2)的概 念矩陣進行對應分類,並各自加總建立為4個新特徵面向,以此新資料面向來 進行機器學習模型,以獲得較好之機器學習效能,其結果如表 8顯示。
34
表 7、中老年人健康素養調查問卷之「自覺健康素養」部分[6]
35
表 8、中老年人健康素養調查問卷之自覺健康素養之轉換後新特徵
新特徵 加總的欄位
整體自覺健康(Conscious_Health_Literacy) b1、b2…..b19
健康照護(Health Care,CHL_HC) b1、b2、b3、b5、b6、b9、b13、b14、b16 疾病預防(Disease Prevention,CHL_DP) b10、b11、b15、b17、b18、b19
健康促進(Health Promotion,CHL_HP) b4、b7、b8、b12
接著,在原始資料中「健康知識」部分,此部分是負責評估基本健康知 識,類似於是非題概念,所以會有正確答案。由於原始的問卷未提供正確答 案,所以本研究延請一位健康照護領域專家提供正確答案(表 9),然後計算每 位參與者的回答得分數,並產生一個新特徵面向「健康知識之答對題數 (HK_25)」。
36
表 9、中老年人健康素養調查問卷之健康知識[6]
原始資料中「健康識能評估簡式量表」的部分,分成「第一部分:門診對 話」與「第二部分:用藥資訊」(圖 18、圖 19),它是負責評估健康知識的應 用概念,類似於選擇題概念,也會有正確答案。題目內容是情境題,主要是觀 察答題者在現實門診或服藥中碰到這些情境時會選擇的應對方式(圖 18、圖 19)。由於原始的問卷也未提供正確答案,本研究請一位健康照護領域專家查證 後提供正確答案(圖 18、圖 19),然後再計算每參與者的回答正確題數,並產 生一個新特徵「健康識能應用之答對題數(HLap_11)」。
37
圖 18、中老年人健康素養調查問卷之健康識能評估簡式量表之第一部分[6]
圖 19、中老年人健康素養調查問卷之健康識能評估簡式量表之第二部分[6]
38
將自覺健康素養、健康知識與健康識能評估簡式量表與都進行上述的欄位 轉換後,本研究將會依照下列表 10所示將新特徵值各自切成以下的範圍規則 並轉換,以產生成新特徵欄位,以便後續的模型建立。
表 10切分的數值範圍是本研究是參考HLS-EU-Q47健康維護3面向值的切 分方式且經由機器學習多次嘗試建模後,得出以下切分數值範圍是最適合用來 機器學習建模的數據內容。其中代表健康識能相關的「健康照護(CHL_HC_2)」、
「疾病預防(CHL_DP_2)」、「健康促進(CHL_HP_2)」與「整體自覺健康
(Conscious_Health_Literacy2)」四項指標值0代表低段分;1代表中段分;2代表 高段分。
表 10、特徵轉換規則
特徵 轉換規則 新特徵
整體自覺健康(Conscious_Health_Literacy)
0~49:0 50~70:1
>= 71:2
Conscious_Health_Literacy2
健康照護(Health Care,CHL_HC)
0~23:0 24~34:1
>= 35:2
CHL_HC_2
疾病預防(Disease Prevention,CHL_DP)
0~21:0 22~25:1
>= 26:2
CHL_DP_2
健康促進(Health Promotion,CHL_HP)
0~10:0 11~15:1
>= 16:2
CHL_HP_2
健康知識之答對題數(HK_25) 0~13:0
>= 14:1 HK_25_2 健康識能應用之答對題數(HLap_11) 0~6:0
>= 7:1 HLap_11_2
39
由於本原始資料有些特徵內容是屬於描述型文字內容,此種資料特徵不適 合本研究採用的機器學習法,另外,原始資料也存在特徵數量多疑慮。因此本 研究依據資料的型別分別篩選出「過去一年是否曾經住院(a6)」、「過去一年是否 曾經急診(a7)」,再加上上述提到的「健康照護(CHL_HC_2)」、「疾病預防(CHL_DP _2)」、「健康促進(CHL_HP_2)」、「整體自覺健康(Conscious_Health_Literacy2)」、
「健康識能應用之答對題數(HLap_11_2)」與「健康知識之答對題數(HK_25_2)」
這些整合過且類別內容種類少的新特徵作為機器學習的預測變數。結果變數則 依據表 11將有勾選三種以上慢性病的患者歸類成「有罹患三種以上慢性疾 病」,未滿勾三個則歸類成「無罹患三種以上慢性疾病」,以此生成產生一個新 特徵「有無三種以上慢性疾病(ever_three_chronic)」。
表 11、中老年人健康素養調查問卷之常見併發症[6]
最後經過預處理整體的資料集,總共有7個預測變數與1個結果變數,詳細如 下表 12。
40
表 12、變數資料格式
特徵 英文名稱 數值
a6 過去一年是否曾經住院(a6) 0:沒有、1:有 a7 過去一年是否曾經急診(a7) 0:沒有、1:有 Conscious_Health_Literacy2 整體自覺健康(Conscious_Health_Literacy) 0~49:0
50~70:1
>= 71:2
CHL_HC_2 健康照護(Health Care,CHL_HC) 0~23:0
24~34:1
>= 35:2
CHL_DP_2 疾病預防(Disease Prevention,CHL_DP) 0~21:0
22~25:1
>= 26:2
CHL_HP_2 健康促進(Health Promotion,CHL_HP) 0~10:0
11~15:1
>= 16:2
HK_25_2 健康知識之答對題數(HK_25) 0~12:0
>= 13:1
HLap_11_2 健康識能應用之答對題數(HLap_11) 0~5:0
>= 6:1
ever_three_chronic(結果變數) 有無三種以上慢性疾病 0:沒有、1:有