데이터분석실습

1. 액셀,R로 데이터 과학 맛보기(22.04.06) 오늘은 액셀과 R을 이용하여 데이터를 잠깐 다뤄보도록 하겠다. 위 링크에서 실습에서 사용되는 전체 파일을 다운받는다. 실습은 데이터를 데이터 테이블 형태로 만들고, 피벗테이블로 변화한뒤, 통계/시각화까지 해볼 것이다. [EXCEL] 1. mtcars.txt 파일을 열고 안의 텍스트를 복사하여 액셀에 붙여넣는다. 2. 액셀에 붙여놓은 후에 ctrl키를 누럴서 텍스트 마법사로 들어가 기본설정 그대로 마침을 누르면 텍스트들이 정리돼서 액셀에 들어갈 것이다. 데이터를 전체 선택한 뒤 [표 서식]에서 표로 만들어준다. 다음으로 데이터를 정제해 볼 것이다. 우선 A열에 자동차의 제조사+모델명이 들어가 있는데 이것을 제조사만 뽑아서 표시할 것이다. 4. 새로운 열..
이번 카테고리는 헬로 데이터 과학이라는 교재를 실습해가며 작성한 글들이다. 액셀을 기반으로 실습을 진행하였다.
16. 데이터 분석하기영화 리뷰 분석(22.07.26) [감성분석 + 토픽 모델링] 목표: 영화 리뷰 데이터에 감성 분석 모델을 구축하여 새로운 데이터의 감성을 분석 텍스트마이닝이란?: 비정형 텍스트 데이터로부터 패턴을 찾아내어 의미있는 정보를 추출하는 분석 기법 ->데이터마이닝 + 자연어 처리 과정: 텍스트 전처리->특성 벡터화->머신러닝 모델 구축 및 학습/평가 프로세스 수행 특성 벡터화란?: 텍스트를 구성하는 단어 기반의 특성 추출을 하고, 이를 숫자형 값인 벡터값을 표현하는 것 >> 내용이 많아 따로 정리하였음. 감성분석이란?: 텍스트에서 사용자의 주관적인 의견이나, 감성,태도를 분석하는 텍스트 마이닝의 핵심 분석 기법중 하나. 텍스트에서 감성을 나타내는 단어를 기반으로 긍정/부정의 감성을 결정,..
15. 데이터 분석하기판매 데이터 분석(22.07.25) [K-평균 군집화 분석 + 그래프] 목표: 판매 데이터를 분석하여, 소비자 군집을 구성하기. 비지도 학습이란?: 훈련데이터에 타깃값이 없는 상태에서 학습을 진행. 훈련데이터 학습 -> 모델 생성 -> 유사한 특성을 가지는 데이터를 클러스터로 구성-> 새로운 데이터의 특성을 분석하여 클러스터 예측 군집화란?: 데이터를 군집으로 구성하는 작업. 군집에 대한 정보를 가지고 있지 않기 때문에 비지도 학습을 수행하여, 데이터의 관계를 분석하고 이에 따라 유사한 데이터를 군집으로 구성. -> K-평균, 계층적 군집 K-평균 군집이란?: k개의 클러스터를 구성하기 위한 것. k개의 임의의 중심점을 잡고 그 점을 기준으로 가까이 있는 데이터를 두 사이의 평균지점..
14. 데이터 분석하기사람 움직임 분류(22.07.22) [결정 트리 분석 + 산점도/선형 회귀 그래프] 목표: 센서 데이터를 분석하여 사람의 움직임에 대한 분류 모델을 생성 -> 움직임 유형 예측 결정 트리란?: 스스로 데이터 안에서 if/else 기반으로 규칙을 찾아 학습하여 트리 구조의 분리 규칙을 생성. 결정 트리-> 규칙 조건을 나타내는 규칙 노드, 결정된 클래스 값이 표시된 리프 노드로 구성. 규칙노드가 많을수록 분할이 많아져서 트리의 깊이가 증가하여 어떤 피처를 규칙으로 분할할 것인가가 중요. 분할된 하위 그룹에 있는 데이터의 균일도를 최대로 높게 만드는 규칙을 찾아서 규칙 노드로 구성 데이터의 균일도를 계산하는 방법: 정보 이득 지수, 지니계수 정보이득지수란?: (1-엔트로피) -> 결정 ..
13. 데이터 분석하기유방암 데이터 분석(22.07.21) [선형 회귀 분석 + 산점도/선형 회귀 그래프] 목표: 로지스틱 회귀분석을 이용해 유방암에 영향을 미치는 특징 데이터 분석, 예측 모델 생성 분류란?: 데이터에 주어진 클래스 값을 학습하여 각 클래스를 구별할 수있는 패턴을 찾아 학습 모델을 생성하고, 새로운 데이터에 대한 클래스를 예측 및 분류하는 기법 로지스틱 회귀란?: 분류에 사용하는 기법으로 S자 함수를 사용하여 참,거짓을 분류 시그모이드함수란?: 로지스틱 회귀에서 사용하는 S자 함수 X의값이 커지면 Y의값은 1에 근사하게되고, X의 값이 작아지면 Y의 값은 0에 근사하게 되어 S자 형태의 그래프가 만들어진다. 이러한 특성을 이용해 이진 분류에 많이 사용된다. 로지스텍 회귀 모델의 성능 평..
창빵맨
'데이터분석실습' 카테고리의 글 목록 (2 Page)