Chapter 01. 데이터사이언스란?
DataScience
: 데이터를 통해 실제 현상을 이해하고 분석하는데 통계학, 데이터분석, 기계학습과 연관된 방법론을 통합하는 개념
선형대수학
벡터 : 숫자의 나열. 숫자들의 묶음. x = (1, 2, 3)
x = (1, 2, 3) , y = (4, 3, 1)
- 벡터의 연산 : x + y = (5, 5, 4) // 3 * x = (3, 6, 9)
- 벡터의 특징 : 원소값, 방향(상대적인 위치)
- 벡터의 차원 : 원소의 개수
- 벡터의 크기(norm) : 벡터의 모든 원소를 제곱하고 다 더한 뒤, 루트를 씌워준 값. → 원점과의 거리.
(L2 norm) - 벡터 공간(Vector Space) : 벡터가 정의되는 집합. 연산, 차원, 기저(basis)(=축), ...
통계
기술통계량(descriptive statistics) : 데이터에서 측정할 수 있는 요약된 수치값들.
- 평균 : 모든 데이터의 값을 더한 다음, 개수로 나눈 값.
- 분산 : 데이터의 퍼진 정도. 각 데이터에서 평균을 뺀 값을 제곱해서 다 더한 뒤 데이터 개수로 나눈 값.
- 표준편차 : 분산의 양의 제곱근.
- 중앙값 : 오름차순으로 정렬을 했을 때, 한가운데 있는 값. ex. 1 2 3 4 6 12 → 3.5
- 최빈값 : 데이터 중에서 가장 많이 등장한 횟수.
- 사분위수 : 오름차순으로 정렬해서 4등분한 지점. 25% / 50% / 75%
추론통계량(inferential statistics) : 모집단에 대해서 예측한 수치값들.
- 모집단 : 우리가 알고 싶은 대상.
- 표본집단 : 모집단에 대상이 될 것 같은 데이터의 일부. (sample)
- 표본평균 : 표본집단의 평균.
- 표본분산 : 표본집단의 분산.
- 추정(estimation) : 표본집단을 통해서 모집단의 정보들을 예측하는 행위.
- 가설 검정(testing hypothesis) : 추정할 때 가정하는 명제가 맞는지 틀리는지를 확인하는 작업.
정보 이론
정보 이론(information theory) : 정보라는 대상에 대해서 다루는 학문.
- Bit : 0 또는 1
- Byte : 8bits = 1B
- KB, MB, GB, TB, PB : 1000B = 1KB, 1000KB = 1MB, 1000MB = 1GB, 1000GB = 1TB, 1000TB = 1PB
- entropy(엔트로피) : 정보의 차이를 나타낸 값.
- 데이터(data) : 관측된 사실.
- 정보(information) : 데이터를 가공해서 정형화한 수치값. 양. 사실
모델링
모델링이란 수학/통계적인 방법을 이용하여 데이터를 해석하는 과정
데이터사이언스에서는 통계 모델 그 자체를 말하기도하며, 데이터를 분석하는 어떤 시스템 자체를 말하기도 한다.
-> 예측모델, 생성모델, 요약모델
주로 통계적인 모델링과 머신러닝 방법을 이용하게 된다.
Statistical Modeling
통계적 모델링, 데이터가 정의되는 공간과 그 공간에서의 확률 분포가 있다고 했을 때, 어떤 데이터는 공간에서의 확률을 통해 만들어졌다고 가정하고 데이터를 잘 설명하는 확률을 찾아내는 과정
- 확률 P는 parameter들에 의하여 정의되는데, parameter이란 어떤 통계 집단을 기술하는 측정된 값 (평균,표준편차)
- 적절한 parameterd을 찾음으로써 확률 P를 구할 수 있고, 이러한 parameter을 찾아가는 과정
Machine Learning Modeling
머신러닝 모델링, 주어진 학습 데이터로 얻은 정보로 학습하지 않은 데이터에 대해서 예측(또는 추론)을 하는 과정.
- 머신러닝 모델은 어떤 task를 수행하느냐에 따라 다양하고 각각 적합한 모델들이 존재한다.
ex. 분류 - Logistic Regression, Naive Bayes / 회귀 - Linear Regression, Random Forest, ... - 통계적인 모델링처럼 적절한 Parameter(또는 weight)를 찾는 과정이라고 볼 수 있다.
- 학습 방법을 결정하는 parameter인 hyper-parameter의 영향을 받는다.
728x90
반응형
'ML & DL > 개념정리' 카테고리의 다른 글
분류와 회귀 (0) | 2023.12.11 |
---|---|
Evaluation metric (평가 지표) (1) | 2023.12.11 |
부스팅(Boosting) 알고리즘 (0) | 2023.11.30 |
Clustering: 클러스터링 (0) | 2023.11.28 |
머신러닝 기초 (0) | 2023.11.24 |