• Tidak ada hasil yang ditemukan

國立臺北護理健康大學資訊管理研究所碩士論文

N/A
N/A
Protected

Academic year: 2023

Membagikan "國立臺北護理健康大學資訊管理研究所碩士論文"

Copied!
84
0
0

Teks penuh

实现学习型健康系统:将机器学习应用于健康知识,构建中老年人慢性病预测模型 实现学习型健康系统:将机器学习应用于健康知识,构建中老年人慢性病预测模型中老年人。

研究背景

此外,苏慧珍的研究探讨了气候变化下公众应对热害的能力。本研究为公众创建了一套面对气候变化和热暴露风险的健康知识项目,并通过信度和效度分析,评估人们对热损伤、预防和应急处置的认知程度,结果研究发现,老年群体获取健康知识的能力以及对高温的警觉性较年轻群体明显不足[7]。基于机器学习的发展,医疗保健领域的“学习模型”和“健康系统”的概念也被提出。学习型健康系统的目标是利用大量的健康数据,通过数据处理和分析技术,将其转化为面向健康的信息,供医务人员解读和使用,以改善患者治疗,同时公众您还可以利用与健康相关的信息来促进您的健康[8]并在数据库健康方面建立新的临床理论和经验,然后进行数据提取(Extract)、转换(Transform)和加载(Load)的过程来改善未来诊断分析的准确性。近年来,许多研究人员也利用这一技术理念进行研究,他们从患者回答的问卷中收集数据,然后利用机器学习技术创建疾病预测模型,并将其应用到医疗领域。许多研究报告发现,只要机器学习分析方法选择正确,其预测精度是相当惊人的。这种非侵入性的评估方法可以以较低的成本实现辅助疾病诊断[7]。目前国外有不少研究利用辅助诊断问卷作为疾病的辅助诊断,或者作为患慢性病可能性的参考,相对而言,台湾将卫生系统的学习纳入诊断的研究较少。的辅助疾病。模型。

研究動機

研究目的

慢性病

定義與概念

图1 2006年中老年人身体和社会生活状况长期监测中患有多种慢性病的人数比例[12]同时患有两种或两种以上慢性病的人”,研究还发现许多慢性疾病在老年人群中常见[10]。

圖  1、2006 年中老年身心社會生活狀況長期追蹤之多重慢性疾病者之比例[12]
圖 1、2006 年中老年身心社會生活狀況長期追蹤之多重慢性疾病者之比例[12]

慢性病與機器學習相關應用

健康識能

量測工具

HLS-EU-Q47作为面向公众的健康素养评估工具,在研究结果和问卷的信度、效度方面均得到了认可。 :.

表  4、健康識能評估工具綜合整理
表 4、健康識能評估工具綜合整理

健康識能與慢性病之相關

學習型健康系統、決策支援系統與機器學習

  • 學習型健康系統
  • 決策支援系統
  • 機器學習
  • 機器學習之採樣方法

通过处理大量的样本数据,找出其运行规律并从中学习,最终实现人工智能。基尼指数(Gini index)是指节点的样本杂质度,即节点样本中两个类别的混淆程度。基尼不纯度是指节点分裂后样本的不确定性。通常,基尼杂质值用于确定选择哪种特征分布[48, 49]。以图8为例,本研究的工作原理描述如下:

圖  3、學習型健康系統之概念流程步驟[29, 30]
圖 3、學習型健康系統之概念流程步驟[29, 30]

模型評估與參數選擇

交叉驗證

網格搜尋法

模型評估指標

灵敏度(Sensitivity),也称为真阳性率,即有多少阳性样本被准确预测为阳性,在医学上被认为是一个患者(阳性)实际被诊断出患有某种疾病的概率及其计算。公式如下: 阳性预测值(PPV),也称为精确度(Precision),即预测的阳性样本与真阳性的比例,在医学上被认为是判断一个人患有某种疾病(阳性)实际上有患病的可能性。公式显示,阳性预测值与患病率(Prevalence)高度相关。患病率用于流行病学研究,观察阳性样本占总样本的比例。通常,患病率越高,阳性预测值越高[74]。两个指标的计算公式如下:

圖  16、ROC 曲線
圖 16、ROC 曲線

研究流程

研究工具

Python

資料前置處理

資料匯入

欄位處理

表7 中老年人健康素养调查问卷[6]中“健康素养知晓”部分 表9 中老年人健康素养调查问卷[6]中的健康知识

表  7、中老年人健康素養調查問卷之「自覺健康素養」部分[6]
表 7、中老年人健康素養調查問卷之「自覺健康素養」部分[6]

不平衡數據處理

建立模型與評估

完成后,使用预测精度和混淆矩阵来评估模型的性能,以确定使用哪种学习方法,然后保存最佳模型以供后续网站评估。

建置健康識能預測慢性疾病風險系統

統計分析

模型評估與比較

  • CART 決策樹
  • 隨機森林
  • XGBoost
  • 邏輯斯迴歸
  • VotingClassifier
  • 最終模型選擇

表 17 显示了随机森林模型的结果。训练集得分是采用网格搜索方法调整参数后最佳参数组合的训练集得分。最佳参数组合参见表16。测试集部分,准确度:70.46%,灵敏度:33.33%,特异度:84.03%,PPV:表22,VotingClassifier中的学习方法参数组学习方法名称参数内容。

表  14、CART 最佳參數組
表 14、CART 最佳參數組

健康識能預測慢性疾病風險系統平台

图28 慢性病风险评估健康知识第二屏 图29 慢性病风险评估健康知识第三屏

圖  28、健康識能之慢性疾病罹患風險評估系統之畫面之二
圖 28、健康識能之慢性疾病罹患風險評估系統之畫面之二

模型比較

相關研究比較

为了收集本研究的数据,参考Sørensen的概念矩阵(表2)将数据集的一些特征转化为与健康素养相关的四个指标(感知一般健康、保健、预防疾病和健康促进),然后使用机器学习学习方法创建了一个可以识别“患有或不患有三种或以上慢性疾病”的模型。在特征转换过程中,本研究阅读了大量文献并与一些专家讨论,试图将原始数据“简明知识能力评定量表”请专业教授帮助回答正确,从而“正确的健康知识答案”。 “问题数”可以计算出“问题数(HK_25_2)”和“健康知识应用正确问题数(HLap_11_2)”,本研究创建的新特征通过上述特征转换方法适合机器学习。

本研究之應用性

这项研究与 Sørensen 等人的研究之间的差异。值得注意的是,本研究使用的数据集是季美如的研究。本研究最终选择的机器学习方法是随机森林,王小强的研究使用该方法在流行的病理亚健康状态预测和讨论的因素中[50]发现了相当程度的预测性能。 Sarah DuBrava 的研究使用该算法来识别糖尿病周围神经病变患者 [51] 也取得了比较高的预测性能,而 Cafri 使用随机森林算法预测了不良健康事件(Adverse Health Events)发生的概率 [52] 所有代表着一定的预测能力。由上可见,随机森林方法常用于医疗卫生领域的疾病预测或因子分析。

研究限制

研究結論

敏感性指标的目的是确保“将患三种及以上慢性病”的潜在中老年人和普通大众能够被模型准确预测,从而达到理想的敏感性值以上60% 因此,我们将在未来阶段的研究中进行更先进的数据集预处理研究或其他机器学习方法,并通过这种方式尝试提高模型的灵敏度值。

研究貢獻

未來研究方向

Sørensen et al., "Health literacy and public health: A systematic review and integration of definitions and models," (på engelsk), BMC Public Health, vol. Friedman et al., "Toward a science of learning systems: a research agenda for the high-functioning Learning Health System," (på engelsk), Journal of the American Medical Informatics Association, vol.

Gambar

圖  1、2006 年中老年身心社會生活狀況長期追蹤之多重慢性疾病者之比例[12]
圖  2、健康識能層級  其說明涵義如下:
表  3、HLS-EU-Q47 問卷中的 12 個維度矩陣之內容[5]
表  2、健康識能核心概念與應用領域矩陣[2, 18, 22]
+7

Referensi

Dokumen terkait

Analysis of emergency department utilization by elderly patients under National Health Insurance.The Kaohsiung Journal of Medical Sciences, 193, 113-120.. 2007.Characteristics of the