• Tidak ada hasil yang ditemukan

구현한 데이터베이스의 궁극적인 목적은 관련 연구자들에게 빠르고 편리한 통합적 만성질환의 건강 지표가 될 수 있는 증상이나 건강 행태와 같은 데이터를 제공하고 이를 데이터베이스화 시켜 머신 러닝 알고리즘을 활용하여 질병 요인을 분석하고 위험도 예측 연구에 도움이 되는 플랫폼을 제공하는 것이다. 본 연구에서는 4차년도에 걸친 대용량의 데이터들을 1차적으로 분리하여 ‘2013’, ‘2014’, ‘2015’, ‘2016’ 4개의 raw data table을 생성하였다. 그 다음 Java 프로그래밍을 통해 기본 정보와 건강 검진 정보들을 변수 명을 이용하여 추출한 다음 이를 텍스트 파일 형식으로 저장하였다. Java코드를 작성하여 텍스트 파일의 정보를

다시 MySQL에 각각 ‘2013_1’, ‘2014_1’, ‘2015_1’, ‘2016_1’의

데이터베이스를 구축하였다.

각 컬럼은 원시 자료에서 제공하는 기본 변수를 사용하였으며, 개별 아이디, 가족 아이디의 경우 필드에 ‘varchar’ 데이터 타입으로 저장하고, 수치 정보를 분석에 이용하고자 하는 데이터의 경우

‘integral’ 타입으로 저장하였다. 아이디, 조사 연도, 성별, 나이, 신장,

체중, 허리둘레, BMI, 혈압과 같은 기본 정보는 총 12개의 컬럼으로 구성되어 있으며 기침, 가래, 흉통, 호흡곤란, 피로감, 체중감소, 발열, 혈담 등과 같은 증상 관련 정보의 경우 24개의 컬럼으로 각 필드 타입은 ‘integral’과 ‘varchar’로 저장하였다. 건강 행태에 관한 설문 자료 중 음주, 흡연에 관한 정보를 사용하였으며, 음주 경험의 유무, 음주 시작 연령, 음주 빈도수 월간 음주 율 등의 13개 컬럼과 흡연 여부, 현재 흡연 여부, 흡연 기간, 과거 및 현재 평균 흡연량 등의 9개 정보를 ‘integral’과 ‘varchar’ 타입으로 저장하여 총 47개의 증상 및 행동 데이터로 저장하였다. 만성질환의 경우 과거나 현재에

33

의사에게서 진단을 받은 경우와 현재 유병의 여부 응답을 이용하여 총 63가지의 컬럼을 생성하여 저장하였다. 마지막으로 평균 수명 시간, 체중 조절 방법, 스트레스 인지 정도, 우울 감과 같은 기타 특이적인 사항들과 원시자료에서 제공된 가중치 값들 또한 ‘integral’,

‘varchar’, ‘decimal’의 형태로 필드에 입력해주었다<Figure 2.1>. 전체는 총 99개의 컬럼으로 구성되어있으며, 2013년도 8,019개, 2014년도

7,551개, 2015년도 7,381개, 2016년도 8,151개로 총 31,102개의 열로

이루어져있다. 통합 데이터베이스 가공 과정에서 간혹 특정 연도에만 조사된 내용의 데이터가 존재하는 경우 이를 포함하지 않는 데이터에도 조사 코드를 포함시키고 ‘null’ 값으로 처리하여 해당 데이터 사용시 오류가 나지 않도록 하였다. 마지막으로 구축될 시스템을 이용하여 분석 시 각 명령어를 수행하는데 있어서 목차의 역할을 해 줄 수 있도록 인덱스 키를 설정하여 이를 이용한 검색 또한 가능하도록 해 주었다. 편리한 정보의 이용을 위해 검색 기능을 추가하여 사용자가 원하는 만성질환의 정보를 쉽게 찾아 볼 수 있으며, 변수 코드와 설명에 관한 정보를 테이블로 시각화하여 웹 상에서 확인이 가능하도록 하여 각 연도 별 데이터 중 필요한 변수들을 선택하여 비교하여 볼 수 있도록 하였다.

34

Figure 2.1 Database schema.The diagram shows only the major tables in the database and which files should be linked with which other fields when creating queries. After receiving the basic information query from the user, it passes the query value related to the symptoms. Then, the value according to the health behavior such as drinking and smoking is received, and it is handed to the query value as the diagnosis result according to the weight value. The information about the disease risk and the possible disease according to the symptom and the body measurement is shown.

35