6. 통계적 추론 EXCEL(22.05.04)
이번 데이터셋은 fba.txt를 사용할 것이다.
탐색적분석
우선 각 trial에 대한 air의 분포를 살펴볼 것이다.
1. 조건부서식을 통해 시각화를 해준다.
2. 조건에 따른 air(비행거리)를 비교하기 위해 차트를 그린다.
[삽입]메뉴에서 꺽은선 차트를 선택하여 그래프를 그리고, 그래프의 이름을 설정해준다.
3. 차트를 선택하고 [디자인/차트 요소 추가/추세선] 메뉴에서 적절한 유형을 고른다.
위와 같은 탐색적 분석을 통해서 추론할 수 있는것은,
1. 시도횟수가 늘어남에 따라 평균거리가 늘어나고 있는 것을 보니, kicker의 학습효과 때문일 것이다.
2. 둘다 평균에 훨씬 못 미치는 값이 나타날 때가 있는데, 이는 kicker의 실수때문일 것이다.
이러한 추론을 통해서 우리가 해볼 수 있는것은
1. 공의 운동거리와 시도횟수는 양의 상관관계를 가지므로 시도횟수의 효과를 제거하기 위해서는 각 시도 횟수별 데이터를 따로 묶어서 비교하는 것이 좋을 것이다.
2. 실수에 의한 영향을 제거하기 위해서 일정 기준에 못미치는 결과는 제거하고 분석한다.
데이터 가공하기
1. 헬륨을 채운공과 공기를 채운공의 운동거리의 차이를 찾아본다.
데이터에 air거리와 helium거리의 차를 나타내는 column을 추가한다,.
2. 일정 기준에 못미치는 결과를 각각 제거한다.
우리는 15야드 이하의 측정값을 실수라고 생각하고 제거한다.
처음 원본데이터와의 플롯과 비교해봤을 때 확실히 시행시기에 따라 꾸준히 거리가 증가하는 현상을 더 잘 볼 수 있다.
통계적 추론
신뢰구간
다음으로 신뢰구간을 계산해볼 것인데 excel에는 CONFIDENCE.T()라는 함수가 있다. 인자는 신뢰구간의 넓이, 표본의 표준편차, 표본의 크기가 들어간다. 우리는 95프로의 신뢰구간을 구하기위해서 신뢰구간의 넓이는 0.05를, 표본의 표준편차에는 DIFEER속성에 STDEV()를 통한 표준편차를, 표본의 크기는 아까 제거하고 남은 표본의 크기 35를 넣어준다.
=CONFIDENCE.T(0.05,STDEV([Differ]),35)
이렇게 하면 신뢰구간의 넓이가 2.1이 나오게되고 실제 구간은 (1.6-2.1)에서 (1.6+2.1)인 -0.5~3.7사이에 위치한다. 시행별 차이에 대한 평균차이에 대한 추정치인 신뢰구간이 0을 포함하는지를 확인해보면 0이 저 구간 사이에 들어가기 때문에 주어진 데이터에서 두 집단간의 차이는 유의미하지 않은 것을 볼 수 있다.
가설검정
가설검정은 T.TEST()함수를 이용해서 하는데 이 함수는 두 수치형 속성간의 유의미한 차이에 대한 검정을 할 수 있다.
인자는 첫번째 표본, 두번쨰 표본, 가설유형, 검정유형인데 여기서 가설유형은 1과 2가 있는데 두속성 값에 유의미한 차이가 없다는 것은 2를 한쪽 속성이 다른 쪽보다 크다는 것은 1을 선택하면 된다. 검정유형은 각 속성값이 대응되면 1을 각 속성의 분산이 일치하면 2를 일치하지 않으면 3을 선택한다. 우리는 가설유형은 2를 검정유형에는 1을 작성한다.
=T.TEST(B2:B36,C2:C36,2,1)
PVALUE가 0.05를 넘지 못하기 때문에 공기와 헬륨을 채운 공의 운동거리가 같다는 귀무가설을 기각할 수 없다.
'데이터분석실습 > 헬로 데이터 과학' 카테고리의 다른 글
헬로 데이터 과학 Day 5 (0) | 2023.10.26 |
---|---|
헬로 데이터 과학 Day 4 (0) | 2023.10.26 |
헬로 데이터 과학 Day 3 (0) | 2023.10.26 |
헬로 데이터 과학 Day 2 (0) | 2023.10.26 |
헬로 데이터 과학 Day 1 (0) | 2023.10.26 |