4. 탐색적 분석 EXCEL(22.05.01)
저번 글에서 배운 탐색적 분석을 액셀로 진행해보겠다.
데이터셋은 학습자료에 있는 MPG데이터셋을 이용하였다. 분석목표는 자동차 연비에 영향을 미치는 다양한 요인들을 찾아보는 것이다.
1.데이터 서식 정하기
데이터를 MPG.txt에서 액셀로 복사한 뒤 표 서식으로 만들고 displ, cty, hwy열에 조건부서식을 적용해주었다.
2.샘플데이터를 무작위로 추출한다.
표의 가장 오른쪽에 sample이라는 새로운 열을 만들고 아래 함수에 =rand() 함수를 작성한다.
3.샘플데이터를 정렬한다.
샘플데이터중 한개를 선택한뒤 [정렬 및 필터] 에서 오름차순 또는 내림차순으로 정렬이 가능하다.
4. 표본을 추출한다.
샘플데이터의 갯수를 정하고 그만큼의 행을 선택한뒤에 새로운 시트에 복사한다. 이번에는 30개의 샘플데이터를 선택해서 복사해보도록 하겠다.
5. 개별 속성 분석하기(피벗테이블)
개별 속성을 분석할 건데, 카테고리형 속성이 있기 떄문에 피벗테이블을 만들 것이다.
피벗테이블을 두개를 만들건데 둘다 행필드값에는 실린더수(cyl)로 설정하고 값에는 도시연비(cty)와 구동방식(drv)로 각각 생성해준다. 집계 방법은 '개수'를 선택해준다. 그러면 아래와 같은 피벗테이블 2개가 만들어진다.
이제 이와 같이 다른 카테고리형 항목들에 대해서 피벗테이블을 만들어보겠다.
6. 개별 속성 분석하기(히스토그램)
이렇게 카테고리형 항목들에 대해서는 피벗테이블을 이용하면 분포를 쉽게 알 수 있지만 수치형 데이터들은 값이 모두 다르기 때문에 이런 방법이 어렵다. 따라서 수치형 데이터들은 히스토그램을 통해서 분석한다.
1. 우선 액셀->옵션->추가기능에서 분석도구를 따로 설치한다.
2. 원본데이터의 가장 오른쪽에 mpg라는 새로운 행을 만들어주고 히스토그램에 사용될 구간을 직접 입력해줘야한다.
3. [데이터/데이터분석]메뉴에서 히스토그램을 선택한뒤에 입력범위는 cty열을 선택해주고, 계급구간에는 방금 만든 mpg열을 선택해준다. 이때 맨위가 mpg라는 column명이므로 이름표 항목에 체크를 해준다. 그러면 새로운 시트에 히스토그램이 완성되게 된다.
4. 생성된 히스토그램을 선택한 뒤에 삽입 메뉴에서 막대형 그래프를 선택해주면 시각적으로 확인할 수도 있다.
5. 입력값을 hwy로 해서 히스토그램을 한번 더 생성한뒤에 분석해보자.
위의 히스토그램을 통해서 도시연비는 15-20사이지만 , 고속도로 연비는 전반적으로 보다 높으며 차종 간 편차가 더 크다는 것을 알 수 있게된다.
6. 개별 속성 분석하기(기술통계법)
통계지표를 계산하는 sum()등의 다양한 함수가 있지만 분석도구를 이용하면 한번에 통계지표들을 계산할 수 있다.
1. [데이터/데이터분석]에서 기술통계법을 선택한다.
2. 입력범위를 원본데이터의 cty열과 hwy로 선택해주고 이름표 항목을 체크해준뒤 출력옵션은 보고 싶은 통계값을 모두 선택해준다.
이렇게 통계지표들을 이용해서도 도시와 고속도로 연비들을 비교해볼 수 있다.
7. 속성간의 관계 분석하기
우선 수치형 데이터들의 관계들을 분석해 볼 것이다. 수치형 데이터들의 관계는 상관분석을 통해 분석한다,
1. [데이터/데이터분석]에서 상관분석을 선택한다.
2. 입력범위는 원본데이터의 E~I행을 선택해주고 이름표항목을 체크해준다.
저번에도 한번 설명했듯이 1은 양의 상관관계를, 0은 상관관계가 없음을, -1은 으음의 상관관계를 나타낸다.
3. 같은 속성끼리의 상관관계는 당연히 1이므로 의미가 없으니 제거해주고, 시각화하기위해 조건부서식을 걸어주겠다.
마무리
오늘은 이처럼 간단하게 액셀을 통해서 표본데이터추출, 범주형 속성들을 위한 피벗테이블, 수치형 속성들을 위한 히스토그램과 기술통계법 그리고 상관분석을 해보았다.
느낀점
좋은 말을 쓰고 싶지만 매번 느끼는데 위와 같은 것들을 python에서는 그냥 함수하나쓰면 슉 나오는데, 왜 액셀을 사용하는지 궁금하다. 물론 액셀에도 내가 모르는 다양한 기능들이 있겠지만, 완성도도 그렇고 접근성도 파이썬이 훨씬 쉬워보인다.
'데이터분석실습 > 헬로 데이터 과학' 카테고리의 다른 글
헬로 데이터 과학 Day 6 (0) | 2023.10.26 |
---|---|
헬로 데이터 과학 Day 5 (0) | 2023.10.26 |
헬로 데이터 과학 Day 3 (0) | 2023.10.26 |
헬로 데이터 과학 Day 2 (0) | 2023.10.26 |
헬로 데이터 과학 Day 1 (0) | 2023.10.26 |