3. 탐색적 분석(EDA)의 단계(22.04.29)
저번시간에 잠깐 소개한 EDA(탐색적분석)으로 글을 시작하겠다.
EDA-탐색적 분석이란 주어진 데이터를 다양한 각도에서 관찰하고 이해하는 과정을 말한다.
탐색적분석을 하는 이유에는 여러가지가있다.
- 데이터의 분포,값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하고, 데이터에 대한 잠재적인 문제를 발견할 수 있다.
- 데이터분석을 본격적으로 들어가기전에 데이터를 다시 수집하거나 추가로 수집하는 결정을 내릴 수 있다.
- 문제 정의단계에서 발견하지 못한 다양한 패턴등을 새롭게 발견하고 기존 가설을 수정하고 새로운 가설을 내릴 수 있다.
- 추후에 통계적 추론을 시도하거나 예측 모델을 생성할 때 도움이 된다.
탐색적 분석 단계
우선 데이터를 전체적으로 살펴보고 개별 속성값을 관찰하며 속성간의 관계에 초점을 맞추어 찾아내지 못했던 패턴을 발견한다. 탐색적분석의 수단에는 세가지가 있는데 그들의 장단점을 알아보자
- 원본데이터를 통한 분석- 개별속성의 값들을 세세하게 볼 수 있지만, 전체적인 것을 한눈에 보기는 어렵다.
- 요약통계값을 통한 분석- 데이터의 전체적인 것을 한눈에 볼 수 있지만 각각의 값들을 보지못하는 어려움이 있다.
- 시각화를 통한 분석- 데이터를 보다 직관적으로 이해하기 쉽게 볼 수 있다.
이처럼 위와 같은 다양한 방법을 섞어서 사용해야지만 좋은 탐색적 분석을 할 수 있다.
데이터 개관하기
우선 데이터를 불러들인 후에 전체적으로 살펴본다.
- 일반적으로 데이터의 앞, 뒷부분을 확인하여 데이터의 속한 항목 개수와 속성 목록이 예상과 일치하는지 확인한다.
- 데이터의 각 속성이 가지는 데이터형(수치, 카테고리, 텍스트, 시간 등)을 확인한다.
속성 분석하기
개별 속성을 살펴보자.
데이터를 구성하는 각 속성값이 우리가 예측한 범위와 분포를 갖는지 확인한다.
데이터에 정상 범주를 벗어난 이상값이 있는지 확인한다.
위에서 말했던, 원본데이터, 요약통계값, 시각화등의 다양한 방법을 통해 분석하도록 한다.
시각화: 시각화는 각 속성의 데이터형 및 분석의 초점에 따라 확률밀도함수, 히스토그램, 점플롯, 워드클라우드, 시계열차트, 지도등의 다양한 방식이 있다.
요약통계값: 다양한 통계지표인 평균, 중앙값, 최빈값, 분산, 범위등을사용하는데 이러한 지표들을 사용할 때 에는 이상값들의 존재들을 주의하고 잘 판단하여 사용하여야 한다.
속성 간 관계 분석하기
데이터형의 조합에 따라 주로 사용되는 요약통계 및 시각화 방법
데이터형 | 요약 통계 | 시각화 |
카테고리-카테고리 | 교차 테이블 | 모자이크플롯 |
수치 - 수치 | 상관계수 | 스케터플롯 |
카테고리 - 수치 | 카테고리별 통계 값 | 박스플롯 |
두 카테고리형 관계를 분석할 때에는 각 속성값의 쌍에 해당하는 값을 표시하는 교차테이블이나 모자이크플롯을 이용한다.
두 수치형 관계는 상관계수를 이용하는데 상관계수란 음의 상관관계(-1), 상관관계 없음(0), 양의 상관관계(1)로 나타낸다. 같은 상관관계를 가지는 두 속성의 관계를 보다 다양하게 볼 수 있는 것이 스케터 플롯이다.
카테고리형과 수치형관계는 박스플롯을 통해 확인한다.
다음시간에는 탐색적 데이터 분석을 액셀을 통해 진행해보겠다.
'데이터분석실습 > 헬로 데이터 과학' 카테고리의 다른 글
헬로 데이터 과학 Day 5 (0) | 2023.10.26 |
---|---|
헬로 데이터 과학 Day 4 (0) | 2023.10.26 |
헬로 데이터 과학 Day 2 (0) | 2023.10.26 |
헬로 데이터 과학 Day 1 (0) | 2023.10.26 |
헬로 데이터 과학 Day 0 (0) | 2023.10.26 |