데이터분석실습

17. 데이터 분석하기 코로나 뉴스 토픽분석(22.08.03) [토픽 분석 + LDA 토픽 모델] 목표: 뉴스에서 코로나 관련 토픽을 분석하고 결과 시각화 1. 데이터 수집 이전에 사용한 네이버에서 크롤링한 코로나 뉴스에서 명사만을 추출한 단어 상태의 리스트를 준비 저번시간에 "코로나navernews.csv" 파일을 사용하면 된다. 2.데이터 준비 및 탐색 train데이터부터 데이터 전처리를 해볼 것이다. data=pd.read_csv("../data/Corona/코로나_naver_news.csv",encoding='euc-kr') description=data['description'] description_noun_tk=[] for d in description: description_noun_tk...
6. 통계적 추론 EXCEL(22.05.04) 이번 데이터셋은 fba.txt를 사용할 것이다. 탐색적분석 우선 각 trial에 대한 air의 분포를 살펴볼 것이다. 1. 조건부서식을 통해 시각화를 해준다. 2. 조건에 따른 air(비행거리)를 비교하기 위해 차트를 그린다. [삽입]메뉴에서 꺽은선 차트를 선택하여 그래프를 그리고, 그래프의 이름을 설정해준다. 3. 차트를 선택하고 [디자인/차트 요소 추가/추세선] 메뉴에서 적절한 유형을 고른다. 위와 같은 탐색적 분석을 통해서 추론할 수 있는것은, 1. 시도횟수가 늘어남에 따라 평균거리가 늘어나고 있는 것을 보니, kicker의 학습효과 때문일 것이다. 2. 둘다 평균에 훨씬 못 미치는 값이 나타날 때가 있는데, 이는 kicker의 실수때문일 것이다. 이러..
5. 통계적 추론(22.05.02) 통계적 추론 탐색적분석을 통해서 개별 속성값들에 대한 분포나 속성들간의 관계를 알아볼 수는 있지만 데이터 분석의 목표는 단순히 주어진 데이터들의 분석이 아니라 더 많은 정보를 얻기 위함이다. 즉 부분적인 것들을 관찰해서 전체를 알아내는 추론이 필요하다. 통계학에서 주어진 데이터를 표본, 데이터가 나타내는 현상의 전체를 모집단이라고 부르는데, 표본을 바탕으로 모집단의 특성에 대한 결론을 내리는 것을 통계적 추론이라고 한다. 통계적 추론은 추론이니만큼 본질적으로 불확실성을 동반하는데 이 불확실성을 줄이기 위해 많은 기법들을 사용하는 것이다. 통계적 추론을 가능하게 하는것은 통계적 모델을 이용하는 것인데, 어떤 현상이 특정모델에서 발생했다고 가정하고 그 모델에서의 데이터(표..
4. 탐색적 분석 EXCEL(22.05.01) 저번 글에서 배운 탐색적 분석을 액셀로 진행해보겠다. 데이터셋은 학습자료에 있는 MPG데이터셋을 이용하였다. 분석목표는 자동차 연비에 영향을 미치는 다양한 요인들을 찾아보는 것이다. 1.데이터 서식 정하기 데이터를 MPG.txt에서 액셀로 복사한 뒤 표 서식으로 만들고 displ, cty, hwy열에 조건부서식을 적용해주었다. 2.샘플데이터를 무작위로 추출한다. 표의 가장 오른쪽에 sample이라는 새로운 열을 만들고 아래 함수에 =rand() 함수를 작성한다. 3.샘플데이터를 정렬한다. 샘플데이터중 한개를 선택한뒤 [정렬 및 필터] 에서 오름차순 또는 내림차순으로 정렬이 가능하다. 4. 표본을 추출한다. 샘플데이터의 갯수를 정하고 그만큼의 행을 선택한뒤에 ..
3. 탐색적 분석(EDA)의 단계(22.04.29) 저번시간에 잠깐 소개한 EDA(탐색적분석)으로 글을 시작하겠다. EDA-탐색적 분석이란 주어진 데이터를 다양한 각도에서 관찰하고 이해하는 과정을 말한다. 탐색적분석을 하는 이유에는 여러가지가있다. 데이터의 분포,값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하고, 데이터에 대한 잠재적인 문제를 발견할 수 있다. 데이터분석을 본격적으로 들어가기전에 데이터를 다시 수집하거나 추가로 수집하는 결정을 내릴 수 있다. 문제 정의단계에서 발견하지 못한 다양한 패턴등을 새롭게 발견하고 기존 가설을 수정하고 새로운 가설을 내릴 수 있다. 추후에 통계적 추론을 시도하거나 예측 모델을 생성할 때 도움이 된다. 탐색적 분석 단계 우선 데이터를 전체적으로 살펴보고 개..
2. 문제정의와 데이터 수집 준비(22.04.07) 데이터 과학의 프로세스 [데이터 문제 해결 단계] 문제를 명확하게 정의한다. 이를 통해 필요한 데이터와 접근 방법을 결정한다. 데이터를 수집한다. 데이터를 적합한 형태로 정제한다. 정제된 데이터를가지고 해결책을 찾는다. 해결책을 여러 방식으로 구현해본다. 관계자에게 결과를 적절한 형태로 소통한다. 데이터 분석 단계 EDA(탐색적 데이터 분석) 통계적 추론 기계학습 [EDA] EDA (Exploratory Data Analysis) 탐색적 데이터 분석 1.EDA란? 1) 정의 수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 과정입니다. 한마디로 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보 eda-ai-l..
창빵맨
'데이터분석실습' 카테고리의 글 목록