데이터 전처리(이상치&결측치)
·
ML & DL/개념정리
1. 결측치 결측치란 데이터에서 누락된 값을 말한다. 이는 데이터의 손실과 더불어서 분포를 왜곡시켜서 편향을 만든다. 보통 `N/A`, `NaN`, `NULL`,` `,`?` 등으로 기입되어 있다. 이러한 결측치가 발생한 타입, 패턴, 처리하는 방법에 대하여 알아볼 것이다. 1-1. 결측치 매커니즘 1-1-1. 완전 무작위 결측 MCAR:Missing Completely At Random 완전 무작위 결측이라고 부르며 결측치가 다른 변수와 상관없이 무작위로 발생한 경우를 의미한다. 보통 센서 고장 전산 오류 등과 같은 관측과 입력과정에서의 누락으로 인한 결측이다. 1-1-2. 무작위 결측 MAR:Missing At Random은 무작위 결측으로, 관측치가 해당 변수와는 무관하나 다른 변수와 연관이 있는 ..