• Tidak ada hasil yang ditemukan

파이썬 14일차

N/A
N/A
Protected

Academic year: 2023

Membagikan "파이썬 14일차"

Copied!
130
0
0

Teks penuh

디지털 환경에서 대량의 모든 데이터. 데이터 유통 및 활용을 위한 모든 프로세스를 포함하여 대규모 데이터를 저장, 관리, 분석할 수 있는 하드웨어 및 소프트웨어 기술. 빅데이터 플랫폼을 구성하는 하드웨어, 소프트웨어, 애플리케이션 간의 유기적인 순환을 통해 가치가 창출됩니다.

빅데이터의 활용

빅 데이터 처리 단계 및 신기술에 대한 이해. 빅 데이터의 사용, 분석 및 처리를 포함하는 인프라. 데이터 과학자는 내부화되어 외부 직원이 아닌 내부 직원으로 사용됩니다.

빅데이터 산업의 이해

유틸리티 고객의 빅데이터를 분석하는 소프트웨어를 제공합니다. 소비자가 빅데이터와 소통할 수 있는 메커니즘을 제공합니다. 기존 클라우드 컴퓨팅 시스템을 사용하여 빅데이터 서비스를 제공합니다.

빅데이터 분석 방법과 접근법

기존 데이터를 분석하여 의미 있는 관계 또는 패턴을 찾아 인사이트를 발견하고 문제를 해결하는 방법입니다. 다양한 소스의 정형 데이터와 비정형 데이터를 결합하고 시각화를 통해 의미 있는 패턴을 식별하고 이를 적용하여 문제를 해결하는 데이터 기반 접근 방식입니다. 빅데이터 환경의 불확실성을 고려한 방법.

빅데이터 분석을 위한 데이터 과학 방법론

프로젝트에 필요한 데이터의 위치와 형태를 파악하고 Raw Data를 수집합니다. 데이터와 변수 간의 관계 또는 상호 작용을 이해하기 위한 단계입니다. 이 단계는 이전 단계에서 얻은 데이터 탐색 결과를 기반으로 프로젝트에 대한 답을 찾는 것입니다.

데이터 분석을 위한 주요 라이브러리

데이터 분석을 위한 메인 라이브러리. 데이터 분석을 위한 메인 라이브러리.

네이버 API 를 이용한 크롤링

네이버 개발자 센터 접속하기

오픈 API 이용 신청하기

애플리케이션 등록하기

애플리케이션 정보 확인하기

검색 API 이용 안내 페이지 확인하기

파이썬 셸 창에서 검색어를 입력하고 srcText 줄에 저장합니다. 07. 정리된 데이터를 JSON 파일로 저장할 파일 객체를 만듭니다. Request.add_header(): 서버로 보내는 요청 객체에 헤더 정보를 추가합니다.

요청 오브젝트 헤드에 API를 사용할 Client ID와 Client Secret 코드를 추가합니다. 요청 객체를 보내고, 응답을 받고, 응답 객체에 저장합니다. responseDecode에 입력된 URL을 사용하여 getRequestUrl() 함수를 호출하여 수신된 UTF-8 디코딩된 응답을 저장합니다.

서버로부터 받은 JSON 형식의 응답 객체를 Python 객체로 로드하여 반환합니다. 검색 결과가 포함된 게시물 객체에서 필요한 데이터 항목을 추출하여 변수에 저장합니다. 네이버에서 제공하는 시간인 pubDate는 문자열 형태이므로 날짜 객체로 변환합니다.

2~5행에 저장된 데이터는 {'key':value}에서 사전 형태로 컴파일되어 목록 객체 jsonResult에 추가됩니다.

전체 프로그램 작성하기

[F5] 키를 눌러 실행하면 파이썬 셸 창에 "Enter search term:"이 출력되는데 이는 인쇄 명령어를 실행한 결과이다. - "World Cup"을 입력하면 nvCrawler 파일이 있는 위치에 JSON 파일이 생성된다. .py에 저장됩니다.

공공데이터 API 기반 크롤링

공공데이터포털 회원가입하기

출입국관광통계서비스 검색하기

OpenAPI 개발계정 신청하기

선택 후 아래 입력란에 공공데이터 활용학습을 입력합니다.

OpenAPI 개발계정 발급받기

오픈 API 사용 방법 확인하기

데이터를 수집할 마지막 연도를 입력합니다. 수집된 데이터를 딕셔너리 목록으로 저장하는 jsonResult를 json.dumps()를 통해 json 객체로 변환하여 JSON 파일로 저장 18행 데이터 프레임에 생성할 컬럼명 목록을 생성한다.

수집된 데이터를 리스트로 저장한 결과를 데이터 프레임으로 변환 20행. Data Request의 getRequestUrl(url)을 URL, 요청 파라미터 정보, 발급된 인증키를 이용하여 호출하여 받은 응답 데이터를 반환한다.

responseDecode에 설정된 URL로 getRequestUrl() 함수를 호출하여 받은 응답(utf-8로 디코딩됨)을 저장합니다. 검색할 연도와 월을 6자리로 설정하고 yyyymm 07행에 저장합니다. 월만이므로 dataEND에 날짜를 저장하고 데이터 수집 작업을 중지합니다. 규칙 15.

University of California, Irvine의 Machine Learning Archive에서 제공하는 개방형 데이터 사용 - 다운로드한 파일은 My_Python/Chapter 7_data 폴더 생성 후 저장됩니다.

다운로드한 CSV 파일 정리하기

파이썬에서 저장한 CSV 파일을 엑셀에서 열어 상태를 확인

데이터 병합하기

레드 와인과 화이트 와인 파일 합치기

레드 와인과 화이트 와인 파일을 함께 병합합니다. 레드 와인과 화이트 와인 파일을 함께 병합합니다.

결합된 파일 확인하기

기본 정보 확인하기

함수를 사용해 기술 통계 구하기

Line 04 wine.quality.unique() 함수를 사용하여 quality 속성 값 중 고유한 값을 출력합니다. 05행, quality.value_counts() 함수는 품질 속성 값의 빈도 수를 반환합니다.

01~02 행

회귀 분석 모델로 새로운 샘플의 품질 등급 예측하기

회귀 모델을 사용하여 새 샘플의 품질 등급을 예측합니다. Rule 01 Wine quality와 type 컬럼을 제외하고 회귀분석 모델에서 사용할 독립변수만 추출하여 sample1에 저장한다. Row 03 샘플 데이터를 회귀 모델 regression_result의 predict() 함수에 적용하고 예측 값을 sample1_predict에 저장합니다.

Line 04 sample1_predict를 인쇄하여 예상 품질을 확인합니다. 05 vino 라인에 샘플 품질 값 0~4를 인쇄하여 sample1_predict가 올바르게 예측되었는지 확인합니다. 06 회귀선 방정식에 사용된 독립변수를 대입할 각 값을 사전 형태로 구성하였다.

Line 07 딕셔너리 형태의 값과 sample1의 컬럼명만을 출력하여 데이터 프레임인 sample2를 생성한다. Line 09 샘플 데이터를 회귀 분석 모델 regression_result의 predict() 함수에 적용하고 예측 값을 sample2_predict에 저장합니다. 10개의 sample2_predict 행을 출력하여 예측 품질을 확인합니다.

와인 유형에 따른 품질 등급 히스토그램 그리기

부분 회귀 플롯으로 시각화하기

Line 02 기타 목록에서 부분 회귀에 사용된 독립 및 종속 변수를 제외한 나머지 변수 이름 추출 – Line 03 나머지 변수를 고정하고 fixed_acidity가 종속 변수 품질에 미치는 영향에 대한 부분 회귀 수행 – Line 04 부분 회귀 결과 변수 회귀 플롯으로 시각화됩니다. Row 06 다중선형회귀분석 결과가 있는 regression_result를 이용하여 독립변수별 편회귀 plot을 구한다. – Row 07 부분회귀 결과를 plot으로 시각화한다. Titanic의 생존자와 관련된 변수의 상관 관계를 찾습니다.

어떤 변수가 생존과 가장 관련이 있는지 분석합니다. 변수 간의 상관 관계를 시각화하고 분석합니다. 두 변수 간의 선형 관계를 분석하는 방법입니다.

두 변수는 서로 독립적이거나 상관관계가 있을 수 있으며, 두 변수 간의 관계의 강도를 상관관계라고 합니다. 상관관계 분석에서는 상위 상관계수 ρ를 상관관계의 정도를 나타내는 단위로 사용합니다. 상관계수는 두 변수가 연관되어 있는 정도를 나타내지만 인과관계를 설명하지 못하므로 정확한 예측값을 계산하는 데 사용할 수 없습니다. 두 변수 사이의 관계가 얼마나 강한지를 나타내는 척도입니다.

부분 상관 분석: 다른 변수와의 관계를 설정하고 두 변수 간의 관계 강도를 보여줍니다.

데이터의 기본 정보 탐색하기

차트를 그려 데이터를 시각적으로 탐색하기

등급별 생존자 수를 차트로 나타내기

상관 분석을 위한 상관 계수 구하고 저장하기

상관 계수 확인하기

특정 변수 사이의 상관 계수 구하기

산점도로 상관 분석 시각화하기

두 변수의 상관관계 시각화하기

변수 사이의 상관 계수를 히트맵으로 시각화하기

변수 사이의 상관 계수를 히트맵으로 시각화하기

Referensi

Dokumen terkait

• 프로그램 자체의 안정성이 높다 • 툴바와 단축키 등에서 표준적인 인터페이스를 가지고 있다.. • 전문가적인 작곡도 무리없이 해낼수