데이터사이언스 시작

2023. 11. 24. 14:37·ML & DL/개념정리

Chapter 01. 데이터사이언스란?

DataScience: 데이터를 통해 실제 현상을 이해하고 분석하는데 통계학, 데이터분석, 기계학습과 연관된 방법론을 통합하는 개념

선형대수학

벡터 : 숫자의 나열. 숫자들의 묶음. x = (1, 2, 3)
x = (1, 2, 3) , y = (4, 3, 1)

  • 벡터의 연산 : x + y = (5, 5, 4) // 3 * x = (3, 6, 9)
  • 벡터의 특징 : 원소값, 방향(상대적인 위치)
  • 벡터의 차원 : 원소의 개수
  • 벡터의 크기(norm) : 벡터의 모든 원소를 제곱하고 다 더한 뒤, 루트를 씌워준 값. → 원점과의 거리.
    (L2 norm)
  • 벡터 공간(Vector Space) : 벡터가 정의되는 집합. 연산, 차원, 기저(basis)(=축), ...

통계

기술통계량(descriptive statistics) : 데이터에서 측정할 수 있는 요약된 수치값들.

  • 평균 : 모든 데이터의 값을 더한 다음, 개수로 나눈 값.
  • 분산 : 데이터의 퍼진 정도. 각 데이터에서 평균을 뺀 값을 제곱해서 다 더한 뒤 데이터 개수로 나눈 값.
  • 표준편차 : 분산의 양의 제곱근.
  • 중앙값 : 오름차순으로 정렬을 했을 때, 한가운데 있는 값. ex. 1 2 3 4 6 12 → 3.5
  • 최빈값 : 데이터 중에서 가장 많이 등장한 횟수.
  • 사분위수 : 오름차순으로 정렬해서 4등분한 지점. 25% / 50% / 75%

추론통계량(inferential statistics) : 모집단에 대해서 예측한 수치값들.

  • 모집단 : 우리가 알고 싶은 대상.
  • 표본집단 : 모집단에 대상이 될 것 같은 데이터의 일부. (sample)
  • 표본평균 : 표본집단의 평균.
  • 표본분산 : 표본집단의 분산.
  • 추정(estimation) : 표본집단을 통해서 모집단의 정보들을 예측하는 행위.
  • 가설 검정(testing hypothesis) : 추정할 때 가정하는 명제가 맞는지 틀리는지를 확인하는 작업.

정보 이론

정보 이론(information theory) : 정보라는 대상에 대해서 다루는 학문.

  • Bit : 0 또는 1
  • Byte : 8bits = 1B
  • KB, MB, GB, TB, PB : 1000B = 1KB, 1000KB = 1MB, 1000MB = 1GB, 1000GB = 1TB, 1000TB = 1PB
  • entropy(엔트로피) : 정보의 차이를 나타낸 값.
  • 데이터(data) : 관측된 사실.
  • 정보(information) : 데이터를 가공해서 정형화한 수치값. 양. 사실

모델링

모델링이란 수학/통계적인 방법을 이용하여 데이터를 해석하는 과정
데이터사이언스에서는 통계 모델 그 자체를 말하기도하며, 데이터를 분석하는 어떤 시스템 자체를 말하기도 한다.
-> 예측모델, 생성모델, 요약모델
주로 통계적인 모델링과 머신러닝 방법을 이용하게 된다.

Statistical Modeling

통계적 모델링, 데이터가 정의되는 공간과 그 공간에서의 확률 분포가 있다고 했을 때, 어떤 데이터는 공간에서의 확률을 통해 만들어졌다고 가정하고 데이터를 잘 설명하는 확률을 찾아내는 과정

  • 확률 P는 parameter들에 의하여 정의되는데, parameter이란 어떤 통계 집단을 기술하는 측정된 값 (평균,표준편차)
  • 적절한 parameterd을 찾음으로써 확률 P를 구할 수 있고, 이러한 parameter을 찾아가는 과정

Machine Learning Modeling

머신러닝 모델링, 주어진 학습 데이터로 얻은 정보로 학습하지 않은 데이터에 대해서 예측(또는 추론)을 하는 과정.

  • 머신러닝 모델은 어떤 task를 수행하느냐에 따라 다양하고 각각 적합한 모델들이 존재한다.
    ex. 분류 - Logistic Regression, Naive Bayes / 회귀 - Linear Regression, Random Forest, ...
  • 통계적인 모델링처럼 적절한 Parameter(또는 weight)를 찾는 과정이라고 볼 수 있다.
  • 학습 방법을 결정하는 parameter인 hyper-parameter의 영향을 받는다.
728x90

'ML & DL > 개념정리' 카테고리의 다른 글

분류와 회귀  (0) 2023.12.11
Evaluation metric (평가 지표)  (1) 2023.12.11
부스팅(Boosting) 알고리즘  (0) 2023.11.30
Clustering: 클러스터링  (0) 2023.11.28
머신러닝 기초  (0) 2023.11.24
'ML & DL/개념정리' 카테고리의 다른 글
  • Evaluation metric (평가 지표)
  • 부스팅(Boosting) 알고리즘
  • Clustering: 클러스터링
  • 머신러닝 기초
창빵맨
창빵맨
  • 창빵맨
    Let's be Developers
    창빵맨
    로그인/로그아웃
  • 전체
    오늘
    어제
    • 분류 전체보기 (481)
      • 알쓸신잡 (88)
      • ML & DL (85)
        • Computer v.. (22)
        • NLP (22)
        • 파이썬 머신러닝 완.. (3)
        • 개념정리 (38)
      • 리눅스 (21)
      • 프로젝트 (29)
        • 산불 발생 예측 (6)
        • 음성비서 (12)
        • pdf 병합 프로그.. (0)
        • 수위 예측 (5)
        • 가짜 뉴스 분류 (5)
        • 전력사용량 예측 (1)
      • 코딩테스트 (217)
        • 프로그래머스[Pyt.. (17)
        • 프로그래머스[Fai.. (3)
        • 백준[Python] (160)
        • 이것이취업을위한코딩.. (18)
        • 파이썬 알고리즘 (19)
      • 데이터분석실습 (25)
        • 데이터 과학 기반의.. (18)
        • 헬로 데이터 과학 (7)
      • 메모장 (0)
      • 잡담 (4)
  • Blog

    • 🏠 Home

    ✏️글쓰기
    💻 관리

    Personal

    GITHUB
    Instagram
  • 공지사항

  • 인기 글

  • 태그

    BFS
    그리디
    나동빈
    백준
    DFS
    이코테
    이것이취업을위한코딩테스트다
    dp
    파이썬
    이분탐색
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
상단으로

티스토리툴바