11. 데이터 분석하기 보스턴 주택가격 예측(22.07.20) [선형 회귀 분석 + 산점도/선형 회귀 그래프] 목표:보스턴 주택 가격 데이터에 회귀분석을 수행, 주택가격 예측 머신러닝이란?: 인간이 지식과 경험을 학습하는 방법을 적용하여 컴퓨터에 입력된 데이터에서 스스로 패턴을 찾아 학습하여 새로운 지식을 만들고 예측하는 통찰을 제공하는 AI [데이터수집]->[데이터 전처리 및 훈련/테스트 데이터 분할]->모델 구축 및 학습->모델 평가->예측 지도학습이란?: 학습을 하기 위한 훈련데이터에 입/출력 결과를 모두 제공시켜 학습시키는 방식 ->[회귀, 분류] 입력: 예측변수, 속성, 특징(feature) 출력: 반응변수, 목표변수, 클래스, 레이블 사이킷런이란?: 파이썬의 머신러닝 라이브버리중 가장 많이 사..
데이터분석실습/데이터 과학 기반의 파이썬 빅데이터 분석
10. 데이터 분석하기행정구역 분석(22.07.19) 행정구역별 데이터 분석 + 블록맵] 목표:행정구역별로 공공보건의료기관 수를 파악, 인구수 대비 공공보건의료기관 비율을 비교 분석 -> 블록맵 시각화 블록맵이란?: 구역의 경계선을 단순화한 뒤 블록 형태로 그려서 지도를 나타내는 시각화 기법 1.데이터 수집 전국 공공보건의료기관 현황 데이터: 공공데이터포털 사이트에서 다운 공공데이터 포털 국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase www.data.go.kr - 공공데이터포털 -> 공공보건 의료기관 현황 검색->보건복지부 공공보건 의료기관 현황->다운로드 ..
9. 데이터 분석하기지리정보 분석(22.07.18) [주소 데이터 분석 + 지오맵] 목표:특정 주소에 대한 지리정보를 분석 -> 시각화 맵 생성 1.데이터 수집 주소데이터: 맵에 위치를 표시할 주소 데이터 행정구역 주소 체계 데이터: 국가통계포털에서 다운로드한 데이터로 주소데이터의 행정규역이름을 정제 -> 정확한 GPS좌표 획득 이전에 실습한 CoffeeBean.csv파일을 사용. 국가통계포털 사이트에서 '행정구역'을 검색 '주민등록인구현황:행정구역9시군구)별, 성별 인구수' 선택 3.[행정구역(시군구)별] 탭을 클릭, [2 레벨 전체선택]을 체크후 선택 [시점]탭을 클릭, 2020.01을 선택한뒤 선택 파일을 액셀형태로 다운로드 > 데이터를 받은 후 액셀 내에서 정제를 거친뒤 생성한 파일을 아래 첨부했..
8. 데이터 분석하기한글분석(22.07.17) [한글분석 + 워드클라우드] 목표:4차 산업혁명에 관한 한글 기사에서 명사키워드 분석 형태소 분석, 품사 태깅 형태소와 형태소 분석이란?: 형태소: 언어에서 의미가 있는 가장 작은 단위 단어: 형태소 + 접사 형태소분석: 형태소,어근,접두사.접미사,품사등 다양한 언어학적 속성으로 구조 파악 품사태깅이란?:형태소의 뜻과 문맥을 고려하여 품사를 붙이는 것 Ex) 가방에 들어가신다 -> 가방/NNG + 에/JKM + 들어가/VV + 시/EPH + ㄴ다/EFN > KoNLPy패키지내에 Hannanum, Kkma, Komoran, Mecab, Okt등이 있다. 1.데이터 수집 페이스북 전자신문 페이지에 있는 '4차 산업혁명' 관련 기사 크롤링 데이터 한빛출판네트워크 ..
7. 데이터 분석하기영문분석(22.07.16) [영문분석 + 워드클라우드] 목표:검색한 영문 논문의 제목에서 빈도분석을 수행하여 키워드 도출 >텍스트 분석, 전처리 , 토큰화, 불용어 및 어간 추출, 워드클라우드 구성 텍스트 분석이란?: 자연어 처리와 데이터 마이닝이 결합한 것으로, 비정형 텍스트 데이터에서 정보를 추출하여 분석 > 텍스트 분류, 텍스트 군집화, 감성분석 전처리란?:분석의 정확도를 높이기 위해 분석에 사용할 데이터를 정리하고 변환하는 작업 >정제, 정규화, 토큰화, 불용어제거, 어간추출, 표제어 추출 | 단어 | 어간 추출 | 표제어 추출 | | --- | --- | --- | | am | am | be | | the going | the go | the going | | having |..
6. 데이터 분석하기타이타닉 생존자 예측 (22.07.13) [상관분석 + 히트맵] 목표:타이타닉호 승객 변수를 분석하여 생존율과의 상관관계를 구하기 >타이타닉호의 생존자와 관련된 변수의 상관관계 분석, 피어슨 상관계수 사용, 변수간의 상관계수 분석 상관분석이란?: 두 변수가 어떤 선형적 관계에 있는지 분석하는 방법. 상관관계의 정도를 나타내는 단위인 모상관계수 ρ사용 > 두 변수의 연관정도를 나타낼 뿐 정확한 예측치 계산불가 > 두개의 변수의 상관관계를 추측하는 단순상관분석과 여러개의 변수의 관계를 측정하는 다중상관분석으로 나뉨 상관계수(ρ)란?:변수 간 관계의 정도(0~1)과 방향(+,-)를 요약해주는 지수로써 (-1 ~ +1)사이의 값을 가진다. 상관계수가 양이면 한변수가 증가할 때 다른 변수도 증..