17. 데이터 분석하기 코로나 뉴스 토픽분석(22.08.03) [토픽 분석 + LDA 토픽 모델] 목표: 뉴스에서 코로나 관련 토픽을 분석하고 결과 시각화 1. 데이터 수집 이전에 사용한 네이버에서 크롤링한 코로나 뉴스에서 명사만을 추출한 단어 상태의 리스트를 준비 저번시간에 "코로나navernews.csv" 파일을 사용하면 된다. 2.데이터 준비 및 탐색 train데이터부터 데이터 전처리를 해볼 것이다. data=pd.read_csv("../data/Corona/코로나_naver_news.csv",encoding='euc-kr') description=data['description'] description_noun_tk=[] for d in description: description_noun_tk...
데이터분석실습/데이터 과학 기반의 파이썬 빅데이터 분석
16. 데이터 분석하기영화 리뷰 분석(22.07.26) [감성분석 + 토픽 모델링] 목표: 영화 리뷰 데이터에 감성 분석 모델을 구축하여 새로운 데이터의 감성을 분석 텍스트마이닝이란?: 비정형 텍스트 데이터로부터 패턴을 찾아내어 의미있는 정보를 추출하는 분석 기법 ->데이터마이닝 + 자연어 처리 과정: 텍스트 전처리->특성 벡터화->머신러닝 모델 구축 및 학습/평가 프로세스 수행 특성 벡터화란?: 텍스트를 구성하는 단어 기반의 특성 추출을 하고, 이를 숫자형 값인 벡터값을 표현하는 것 >> 내용이 많아 따로 정리하였음. 감성분석이란?: 텍스트에서 사용자의 주관적인 의견이나, 감성,태도를 분석하는 텍스트 마이닝의 핵심 분석 기법중 하나. 텍스트에서 감성을 나타내는 단어를 기반으로 긍정/부정의 감성을 결정,..
15. 데이터 분석하기판매 데이터 분석(22.07.25) [K-평균 군집화 분석 + 그래프] 목표: 판매 데이터를 분석하여, 소비자 군집을 구성하기. 비지도 학습이란?: 훈련데이터에 타깃값이 없는 상태에서 학습을 진행. 훈련데이터 학습 -> 모델 생성 -> 유사한 특성을 가지는 데이터를 클러스터로 구성-> 새로운 데이터의 특성을 분석하여 클러스터 예측 군집화란?: 데이터를 군집으로 구성하는 작업. 군집에 대한 정보를 가지고 있지 않기 때문에 비지도 학습을 수행하여, 데이터의 관계를 분석하고 이에 따라 유사한 데이터를 군집으로 구성. -> K-평균, 계층적 군집 K-평균 군집이란?: k개의 클러스터를 구성하기 위한 것. k개의 임의의 중심점을 잡고 그 점을 기준으로 가까이 있는 데이터를 두 사이의 평균지점..
14. 데이터 분석하기사람 움직임 분류(22.07.22) [결정 트리 분석 + 산점도/선형 회귀 그래프] 목표: 센서 데이터를 분석하여 사람의 움직임에 대한 분류 모델을 생성 -> 움직임 유형 예측 결정 트리란?: 스스로 데이터 안에서 if/else 기반으로 규칙을 찾아 학습하여 트리 구조의 분리 규칙을 생성. 결정 트리-> 규칙 조건을 나타내는 규칙 노드, 결정된 클래스 값이 표시된 리프 노드로 구성. 규칙노드가 많을수록 분할이 많아져서 트리의 깊이가 증가하여 어떤 피처를 규칙으로 분할할 것인가가 중요. 분할된 하위 그룹에 있는 데이터의 균일도를 최대로 높게 만드는 규칙을 찾아서 규칙 노드로 구성 데이터의 균일도를 계산하는 방법: 정보 이득 지수, 지니계수 정보이득지수란?: (1-엔트로피) -> 결정 ..
13. 데이터 분석하기유방암 데이터 분석(22.07.21) [선형 회귀 분석 + 산점도/선형 회귀 그래프] 목표: 로지스틱 회귀분석을 이용해 유방암에 영향을 미치는 특징 데이터 분석, 예측 모델 생성 분류란?: 데이터에 주어진 클래스 값을 학습하여 각 클래스를 구별할 수있는 패턴을 찾아 학습 모델을 생성하고, 새로운 데이터에 대한 클래스를 예측 및 분류하는 기법 로지스틱 회귀란?: 분류에 사용하는 기법으로 S자 함수를 사용하여 참,거짓을 분류 시그모이드함수란?: 로지스틱 회귀에서 사용하는 S자 함수 X의값이 커지면 Y의값은 1에 근사하게되고, X의 값이 작아지면 Y의 값은 0에 근사하게 되어 S자 형태의 그래프가 만들어진다. 이러한 특성을 이용해 이진 분류에 많이 사용된다. 로지스텍 회귀 모델의 성능 평..
12. 데이터 분석하기자동차 연비 분석(22.07.20) [선형 회귀 분석 + 산점도/선형 회귀 그래프] 목표:자동차 연비 데이터에 회귀분석을 통해 연비에 영향을 미치는 항목을 확인->자동차 연비 예측 1.데이터 수집 UCI Machine Learning Repository 접속 -> auto 검색 -> 검색목록 중 첫번째 클릭 -> data folder클릭 -> auto-mpg.data 다운->csv로 저장 csv로 변경하는 과정에서 일부 컬럼을 추가하는 등의 과정이 있어서 데이터를 올리겠다. 2.데이터 준비 및 탐색 data=pd.read_csv('data/car_fuel/auto-mpg.csv',header=0,engine='python') data.shape data.head() data=data..