• Tidak ada hasil yang ditemukan

第三節 資料前置處理

二、 欄位處理

(一) 資料來源

本研究之資料來源為學術調查研究資料庫(SRDA)中紀玫如的「中老年人健 康素養調查研究與介入模式探討」之蒐集資料,該研究是以問卷填答方式蒐集 參與者健康識能等相關資料,問卷架構如下表 6[6]。

表 6、中老年人健康素養調查問卷之架構 A.基本健康情形(含慢性病罹患紀錄) B.自覺健康素養

C.健康知識

D1.健康識能評估簡式量表-門診對話 D2.健康識能評估簡式量表-用藥資訊 E.人口學特質

33

(二) 填補缺失值

由於原始資料有缺失值,所以利用以下方式填補。

middle_age_HL_data=middle_age_HL_data.fillna(0) middle_age_HL_data=middle_age_HL_data.replace("","0") middle_age_HL_data=middle_age_HL_data.replace(" ","0")

(三) 特徵轉換

原始問卷資料之「自覺健康素養」面向之評估,其包含的題項(b1~b19)如 下表 7,有「非常不同意」至「非常同意」5種回答(1~5分),其設計概念與

Sørensen開發之HLS-EU-Q47涵蓋的三個領域(健康照護、疾病預防、健康促進)

極為類似[5, 18],故本研究將「自覺健康素養」之題項依照Sørensen (表 2)的概 念矩陣進行對應分類,並各自加總建立為4個新特徵面向,以此新資料面向來 進行機器學習模型,以獲得較好之機器學習效能,其結果如表 8顯示。

34

表 7、中老年人健康素養調查問卷之「自覺健康素養」部分[6]

35

表 8、中老年人健康素養調查問卷之自覺健康素養之轉換後新特徵

新特徵 加總的欄位

整體自覺健康(Conscious_Health_Literacy) b1、b2…..b19

健康照護(Health Care,CHL_HC) b1、b2、b3、b5、b6、b9、b13、b14、b16 疾病預防(Disease Prevention,CHL_DP) b10、b11、b15、b17、b18、b19

健康促進(Health Promotion,CHL_HP) b4、b7、b8、b12

接著,在原始資料中「健康知識」部分,此部分是負責評估基本健康知 識,類似於是非題概念,所以會有正確答案。由於原始的問卷未提供正確答 案,所以本研究延請一位健康照護領域專家提供正確答案(表 9),然後計算每 位參與者的回答得分數,並產生一個新特徵面向「健康知識之答對題數 (HK_25)」。

36

表 9、中老年人健康素養調查問卷之健康知識[6]

原始資料中「健康識能評估簡式量表」的部分,分成「第一部分:門診對 話」與「第二部分:用藥資訊」(圖 18、圖 19),它是負責評估健康知識的應 用概念,類似於選擇題概念,也會有正確答案。題目內容是情境題,主要是觀 察答題者在現實門診或服藥中碰到這些情境時會選擇的應對方式(圖 18、圖 19)。由於原始的問卷也未提供正確答案,本研究請一位健康照護領域專家查證 後提供正確答案(圖 18、圖 19),然後再計算每參與者的回答正確題數,並產 生一個新特徵「健康識能應用之答對題數(HLap_11)」。

37

圖 18、中老年人健康素養調查問卷之健康識能評估簡式量表之第一部分[6]

圖 19、中老年人健康素養調查問卷之健康識能評估簡式量表之第二部分[6]

38

將自覺健康素養、健康知識與健康識能評估簡式量表與都進行上述的欄位 轉換後,本研究將會依照下列表 10所示將新特徵值各自切成以下的範圍規則 並轉換,以產生成新特徵欄位,以便後續的模型建立。

表 10切分的數值範圍是本研究是參考HLS-EU-Q47健康維護3面向值的切 分方式且經由機器學習多次嘗試建模後,得出以下切分數值範圍是最適合用來 機器學習建模的數據內容。其中代表健康識能相關的「健康照護(CHL_HC_2)」、

「疾病預防(CHL_DP_2)」、「健康促進(CHL_HP_2)」與「整體自覺健康

(Conscious_Health_Literacy2)」四項指標值0代表低段分;1代表中段分;2代表 高段分。

表 10、特徵轉換規則

特徵 轉換規則 新特徵

整體自覺健康(Conscious_Health_Literacy)

0~49:0 50~70:1

>= 71:2

Conscious_Health_Literacy2

健康照護(Health CareCHL_HC)

0~23:0 24~34:1

>= 35:2

CHL_HC_2

疾病預防(Disease PreventionCHL_DP)

0~21:0 22~25:1

>= 26:2

CHL_DP_2

健康促進(Health PromotionCHL_HP)

0~10:0 11~15:1

>= 16:2

CHL_HP_2

健康知識之答對題數(HK_25) 0~13:0

>= 14:1 HK_25_2 健康識能應用之答對題數(HLap_11) 0~6:0

>= 7:1 HLap_11_2

39

由於本原始資料有些特徵內容是屬於描述型文字內容,此種資料特徵不適 合本研究採用的機器學習法,另外,原始資料也存在特徵數量多疑慮。因此本 研究依據資料的型別分別篩選出「過去一年是否曾經住院(a6)」、「過去一年是否 曾經急診(a7)」,再加上上述提到的「健康照護(CHL_HC_2)」、「疾病預防(CHL_DP _2)」、「健康促進(CHL_HP_2)」、「整體自覺健康(Conscious_Health_Literacy2)」、

「健康識能應用之答對題數(HLap_11_2)」與「健康知識之答對題數(HK_25_2)」

這些整合過且類別內容種類少的新特徵作為機器學習的預測變數。結果變數則 依據表 11將有勾選三種以上慢性病的患者歸類成「有罹患三種以上慢性疾 病」,未滿勾三個則歸類成「無罹患三種以上慢性疾病」,以此生成產生一個新 特徵「有無三種以上慢性疾病(ever_three_chronic)」。

表 11、中老年人健康素養調查問卷之常見併發症[6]

最後經過預處理整體的資料集,總共有7個預測變數與1個結果變數,詳細如 下表 12。

40

表 12、變數資料格式

特徵 英文名稱 數值

a6 過去一年是否曾經住院(a6) 0:沒有、1:有 a7 過去一年是否曾經急診(a7) 0:沒有、1:有 Conscious_Health_Literacy2 整體自覺健康(Conscious_Health_Literacy) 0~49:0

50~70:1

>= 71:2

CHL_HC_2 健康照護(Health Care,CHL_HC) 0~23:0

24~34:1

>= 35:2

CHL_DP_2 疾病預防(Disease Prevention,CHL_DP) 0~21:0

22~25:1

>= 26:2

CHL_HP_2 健康促進(Health Promotion,CHL_HP) 0~10:0

11~15:1

>= 16:2

HK_25_2 健康知識之答對題數(HK_25) 0~12:0

>= 13:1

HLap_11_2 健康識能應用之答對題數(HLap_11) 0~5:0

>= 6:1

ever_three_chronic(結果變數) 有無三種以上慢性疾病 0:沒有、1:有

Dokumen terkait