5. 통계적 추론(22.05.02)
통계적 추론
탐색적분석을 통해서 개별 속성값들에 대한 분포나 속성들간의 관계를 알아볼 수는 있지만 데이터 분석의 목표는 단순히 주어진 데이터들의 분석이 아니라 더 많은 정보를 얻기 위함이다. 즉 부분적인 것들을 관찰해서 전체를 알아내는 추론이 필요하다.
통계학에서 주어진 데이터를 표본, 데이터가 나타내는 현상의 전체를 모집단이라고 부르는데, 표본을 바탕으로 모집단의 특성에 대한 결론을 내리는 것을 통계적 추론이라고 한다. 통계적 추론은 추론이니만큼 본질적으로 불확실성을 동반하는데 이 불확실성을 줄이기 위해 많은 기법들을 사용하는 것이다.
통계적 추론을 가능하게 하는것은 통계적 모델을 이용하는 것인데, 어떤 현상이 특정모델에서 발생했다고 가정하고 그 모델에서의 데이터(표본)을 통해 일반적으로 어떤 현상이 발생하는지를 예측하는 것이다. 즉 통계적추론을 간단하게 요약하면 현상에 대한 가정과 주어진 데이터를 사용하여 통계적 모델을 만들고, 이를 바탕으로 다양한 결론을 도출해내는 것이다.
통계적 추론의 원리
통계적 추론의 기법은 통계적 모델의 유형에 따라 모수적 방법과 비모수적 방법이 있다.
모수적방법: 특정한 확률 분포를 가정하고 해당 분포의 모수를 추정하는 방법
비모수적 방법: 원래 표본에서 표본 재추출을 통해 표본분포를 생성
우선 모수적방법은 표본이 생성된 과정에 대한 확률 분포를 알거나 추측할 수 있다고 가정한다.
여기서 확률분포란 어떤 사건의 가능한 결과와 각 결과가 발생할 확률에 대한 분포인데 예로 정규분포, 이항분포등의 방법이 있다. 통계적 추론은 평균을 대상으로 하는 경우가 많아서 모수적방법이 많이 쓰인다. 주어진 표본의 평균과 표준편차만 알 수 있으면 표본집단의 평균이 이루는 분포를 구할 수 있기 떄문이다.
그러나 우리 구하고자 하는 값이 평균이 아니거나 표본의 갯수가 많지 않은경우에는 정규분포를 가정할 수 없기 때문에 비모수적 방법을 사용한다. 비모수적 방법은 간단하게 주어진 표본이 모집단이라고 가정하고 그 표본에서 표본을 또 무작위로 반복추출하여 하나의 표본을 여러 표본의 집단으로 확장하는 것이다.
모수적방법: 중심극한 정리
표본을 모집단으로 일반화하기 위해서 사용되는 기법은 모델을 생성하는 것이다. 여기서 모델이랑 이항분포, 정규분포등을 말한다. 그러나 우리가 다루고자 하는 문제와 데이터형이 다양하고 딱 맞는 확률 모델을 찾기 어렵다. 그러나 이미 통계학에 우리가 평균을 추론하고자 할 때는 원래 값의 분포와 관계없이 해당 표본의 평균값은 정규분포를 따른다는 중심극한정리가 이미 있다.
중심극한정리에 대해서 살짝 자세하게 말하자면 우리가 구하고자 하는 통계값이 충분한 수위 표본(보통 n=30)으로 부터 계산된 평균값인 경우, 원래 개별 측정값의 분포와 관계없이 이 표본의 평균은 정규분포를 따른다는 의미이다. 이 때 이 표본평균의 분포를 표본분포라고 하고 표본분포의 평균은 표본의 평균값과 같고, 표본분포의 분산은 표본의 분산을 표본 수로 나눈 것과 같다.
비모수적방법: 표본 재추출법
모집단의 분포를 모르거나 표본평균이 아닌 다른 통계값에 적용할 때는 비모수적 방법을 사용한다. 비모수적 기법에도 여러가지가있는데 표본재추출법을 보통 사용한다. 표본재추출법을 사용할 때는 비슷한 특성을 갖는 표본을 여러개 만들어내는 것이므로 복원추출을 사용한다. 표본재추출법의 순서는 아래와 같다.
1. 주어진 n개의 표본이 있다.
2. 주어진 표본에서 복원추출을 통해 크기가 n인 표본 k개를 만든다
3. 각 표본에서 추론 대상인 통계값 S를 계산한다.
4. 위에서 구한 K개의 통계값 S를 바탕으로 표본 분표를 만든다.
비모수적 방법은 이렇듯 모집단에 대한 어떠한 가정도 하지않고 주어진 표본을 통해서 평균뿐만이 아니라 여러 종류의 통계값을 계산해 낼 수 있다. 다만 단점은 계산량이 많다는 점이있다.
신뢰구간
통계적 추론의 가장 기본적인 작업은 평균등의 모집단의 통계값을 추정하는데 말 그대로 추정인 만큼 오류가 있다. 이 오류를 수치화하는 것을 신뢰구간이라고 한다. 신뢰구간의 범위가 좁을수록 더 정확하게 추정했다고 말할 수 있다.
이때 신뢰구간의 신뢰도(95%,99% 등)는 개별 신뢰구간에 대해서 정해지는 것이 아니라 모집단의 평균을 포함하는 신뢰구간의 비율을 가리키며 표본의 크기가 커질 수록 신뢰구간이 좁아진다는 것을 알 수 있다.
신뢰구간은 다음과 같이 구할 수 있다. 신뢰구간=표본평균(+-) 신뢰도상수 X 표준에러 여기서 신뢰도 상수는 우리가 목표로 하는 신뢰도가 높을수록 커지는데 95%의 신뢰도는 1.96을 99%의 신뢰도는 2.58을 사용한다. 다음으로 표준에러는 표본의 표준편차를 표본크기의 제곱근으로 나눈 값을 말하는데, 주어진 표본을 바탕으로 계산한 통계값의 표준편차가 작을수록 표준에러가 작아져서 신뢰구간을 좁힐 수 있다.
가설검정하기
대부분의 분석의 목적은 명제에 대한 참/거짓을 가리는 것이다. 이 명제가 검증되기 전까지를 가설이라고 부르는데 가설검정이란 말 그대로 이 가설의 진위를 가리는 것이다. 가설검정에는 검정통계값에 대한 조건을 사용하는데, 우선 용어들은 아래와 같다.
대립가설: 우리가 증명하고자 하는 명제
귀무가설 우리가 부정하려고 하는 명제
또한 신뢰구간 계산은 가설검정과 큰 연관이 있는데, 가설 검정의 결과가 우리가 관심을 갖는 통계값이 속하는 범위에 따라 결정되기 때문이다.
'데이터분석실습 > 헬로 데이터 과학' 카테고리의 다른 글
헬로 데이터 과학 Day 6 (0) | 2023.10.26 |
---|---|
헬로 데이터 과학 Day 4 (0) | 2023.10.26 |
헬로 데이터 과학 Day 3 (0) | 2023.10.26 |
헬로 데이터 과학 Day 2 (0) | 2023.10.26 |
헬로 데이터 과학 Day 1 (0) | 2023.10.26 |