헬로 데이터 과학 Day 3

2023. 10. 26. 16:17·데이터분석실습/헬로 데이터 과학

3. 탐색적 분석(EDA)의 단계(22.04.29)

 저번시간에 잠깐 소개한 EDA(탐색적분석)으로 글을 시작하겠다.

 EDA-탐색적 분석이란 주어진 데이터를 다양한 각도에서 관찰하고 이해하는 과정을 말한다.

 탐색적분석을 하는 이유에는 여러가지가있다.

  • 데이터의 분포,값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하고, 데이터에 대한 잠재적인 문제를 발견할 수 있다.
  • 데이터분석을 본격적으로 들어가기전에 데이터를 다시 수집하거나 추가로 수집하는 결정을 내릴 수 있다.
  • 문제 정의단계에서 발견하지 못한 다양한 패턴등을 새롭게 발견하고 기존 가설을 수정하고 새로운 가설을 내릴 수 있다.
  • 추후에 통계적 추론을 시도하거나 예측 모델을 생성할 때 도움이 된다.

 탐색적 분석 단계

 우선 데이터를 전체적으로 살펴보고 개별 속성값을 관찰하며 속성간의 관계에 초점을 맞추어 찾아내지 못했던 패턴을 발견한다. 탐색적분석의 수단에는 세가지가 있는데 그들의 장단점을 알아보자

  • 원본데이터를 통한 분석- 개별속성의 값들을 세세하게 볼 수 있지만, 전체적인 것을 한눈에 보기는 어렵다.
  • 요약통계값을 통한 분석- 데이터의 전체적인 것을 한눈에 볼 수 있지만 각각의 값들을 보지못하는 어려움이 있다.
  • 시각화를 통한 분석- 데이터를 보다 직관적으로 이해하기 쉽게 볼 수 있다.

 이처럼 위와 같은 다양한 방법을 섞어서 사용해야지만 좋은 탐색적 분석을 할 수 있다.

 데이터 개관하기

 우선 데이터를 불러들인 후에 전체적으로 살펴본다.

  • 일반적으로 데이터의 앞, 뒷부분을 확인하여 데이터의 속한 항목 개수와 속성 목록이 예상과 일치하는지 확인한다.
  • 데이터의 각 속성이 가지는 데이터형(수치, 카테고리, 텍스트, 시간 등)을 확인한다.

 속성 분석하기

 개별 속성을 살펴보자.

 데이터를 구성하는 각 속성값이 우리가 예측한 범위와 분포를 갖는지 확인한다.

 데이터에 정상 범주를 벗어난 이상값이 있는지 확인한다.

 위에서 말했던, 원본데이터, 요약통계값, 시각화등의 다양한 방법을 통해 분석하도록 한다.

 시각화: 시각화는 각 속성의 데이터형 및 분석의 초점에 따라 확률밀도함수, 히스토그램, 점플롯, 워드클라우드, 시계열차트, 지도등의 다양한 방식이 있다.

 요약통계값: 다양한 통계지표인 평균, 중앙값, 최빈값, 분산, 범위등을사용하는데 이러한 지표들을 사용할 때 에는 이상값들의 존재들을 주의하고 잘 판단하여 사용하여야 한다.

 속성 간 관계 분석하기

 데이터형의 조합에 따라 주로 사용되는 요약통계 및 시각화 방법

데이터형 요약 통계 시각화
카테고리-카테고리 교차 테이블 모자이크플롯
수치 - 수치 상관계수 스케터플롯
카테고리 - 수치 카테고리별 통계 값 박스플롯

 두 카테고리형 관계를 분석할 때에는 각 속성값의 쌍에 해당하는 값을 표시하는 교차테이블이나 모자이크플롯을 이용한다.

 두 수치형 관계는 상관계수를 이용하는데 상관계수란 음의 상관관계(-1), 상관관계 없음(0), 양의 상관관계(1)로 나타낸다. 같은 상관관계를 가지는 두 속성의 관계를 보다 다양하게 볼 수 있는 것이 스케터 플롯이다.

 카테고리형과 수치형관계는 박스플롯을 통해 확인한다.

 다음시간에는 탐색적 데이터 분석을 액셀을 통해 진행해보겠다.

728x90

'데이터분석실습 > 헬로 데이터 과학' 카테고리의 다른 글

헬로 데이터 과학 Day 5  (0) 2023.10.26
헬로 데이터 과학 Day 4  (0) 2023.10.26
헬로 데이터 과학 Day 2  (0) 2023.10.26
헬로 데이터 과학 Day 1  (0) 2023.10.26
헬로 데이터 과학 Day 0  (0) 2023.10.26
'데이터분석실습/헬로 데이터 과학' 카테고리의 다른 글
  • 헬로 데이터 과학 Day 5
  • 헬로 데이터 과학 Day 4
  • 헬로 데이터 과학 Day 2
  • 헬로 데이터 과학 Day 1
창빵맨
창빵맨
  • 창빵맨
    Let's be Developers
    창빵맨
    로그인/로그아웃
  • 전체
    오늘
    어제
    • 분류 전체보기 (471)
      • 알쓸신잡 (79)
      • ML & DL (85)
        • Computer v.. (22)
        • NLP (22)
        • 파이썬 머신러닝 완.. (3)
        • 개념정리 (38)
      • 리눅스 (21)
      • 프로젝트 (29)
        • 산불 발생 예측 (6)
        • 음성비서 (12)
        • pdf 병합 프로그.. (0)
        • 수위 예측 (5)
        • 가짜 뉴스 분류 (5)
        • 전력사용량 예측 (1)
      • 코딩테스트 (217)
        • 프로그래머스[Pyt.. (17)
        • 프로그래머스[Fai.. (3)
        • 백준[Python] (160)
        • 이것이취업을위한코딩.. (18)
        • 파이썬 알고리즘 (19)
      • 데이터분석실습 (25)
        • 데이터 과학 기반의.. (18)
        • 헬로 데이터 과학 (7)
      • 메모장 (0)
      • 잡담 (4)
  • Personal

    GITHUB
    Instagram
  • 공지사항

  • 인기 글

  • 태그

    이코테
    이분탐색
    DFS
    나동빈
    BFS
    dp
    백준
    파이썬
    그리디
    이것이취업을위한코딩테스트다
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3

HOME

HOME

상단으로

티스토리툴바