데이터분석실습/헬로 데이터 과학

6. 통계적 추론 EXCEL(22.05.04) 이번 데이터셋은 fba.txt를 사용할 것이다. 탐색적분석 우선 각 trial에 대한 air의 분포를 살펴볼 것이다. 1. 조건부서식을 통해 시각화를 해준다. 2. 조건에 따른 air(비행거리)를 비교하기 위해 차트를 그린다. [삽입]메뉴에서 꺽은선 차트를 선택하여 그래프를 그리고, 그래프의 이름을 설정해준다. 3. 차트를 선택하고 [디자인/차트 요소 추가/추세선] 메뉴에서 적절한 유형을 고른다. 위와 같은 탐색적 분석을 통해서 추론할 수 있는것은, 1. 시도횟수가 늘어남에 따라 평균거리가 늘어나고 있는 것을 보니, kicker의 학습효과 때문일 것이다. 2. 둘다 평균에 훨씬 못 미치는 값이 나타날 때가 있는데, 이는 kicker의 실수때문일 것이다. 이러..
5. 통계적 추론(22.05.02) 통계적 추론 탐색적분석을 통해서 개별 속성값들에 대한 분포나 속성들간의 관계를 알아볼 수는 있지만 데이터 분석의 목표는 단순히 주어진 데이터들의 분석이 아니라 더 많은 정보를 얻기 위함이다. 즉 부분적인 것들을 관찰해서 전체를 알아내는 추론이 필요하다. 통계학에서 주어진 데이터를 표본, 데이터가 나타내는 현상의 전체를 모집단이라고 부르는데, 표본을 바탕으로 모집단의 특성에 대한 결론을 내리는 것을 통계적 추론이라고 한다. 통계적 추론은 추론이니만큼 본질적으로 불확실성을 동반하는데 이 불확실성을 줄이기 위해 많은 기법들을 사용하는 것이다. 통계적 추론을 가능하게 하는것은 통계적 모델을 이용하는 것인데, 어떤 현상이 특정모델에서 발생했다고 가정하고 그 모델에서의 데이터(표..
4. 탐색적 분석 EXCEL(22.05.01) 저번 글에서 배운 탐색적 분석을 액셀로 진행해보겠다. 데이터셋은 학습자료에 있는 MPG데이터셋을 이용하였다. 분석목표는 자동차 연비에 영향을 미치는 다양한 요인들을 찾아보는 것이다. 1.데이터 서식 정하기 데이터를 MPG.txt에서 액셀로 복사한 뒤 표 서식으로 만들고 displ, cty, hwy열에 조건부서식을 적용해주었다. 2.샘플데이터를 무작위로 추출한다. 표의 가장 오른쪽에 sample이라는 새로운 열을 만들고 아래 함수에 =rand() 함수를 작성한다. 3.샘플데이터를 정렬한다. 샘플데이터중 한개를 선택한뒤 [정렬 및 필터] 에서 오름차순 또는 내림차순으로 정렬이 가능하다. 4. 표본을 추출한다. 샘플데이터의 갯수를 정하고 그만큼의 행을 선택한뒤에 ..
3. 탐색적 분석(EDA)의 단계(22.04.29) 저번시간에 잠깐 소개한 EDA(탐색적분석)으로 글을 시작하겠다. EDA-탐색적 분석이란 주어진 데이터를 다양한 각도에서 관찰하고 이해하는 과정을 말한다. 탐색적분석을 하는 이유에는 여러가지가있다. 데이터의 분포,값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하고, 데이터에 대한 잠재적인 문제를 발견할 수 있다. 데이터분석을 본격적으로 들어가기전에 데이터를 다시 수집하거나 추가로 수집하는 결정을 내릴 수 있다. 문제 정의단계에서 발견하지 못한 다양한 패턴등을 새롭게 발견하고 기존 가설을 수정하고 새로운 가설을 내릴 수 있다. 추후에 통계적 추론을 시도하거나 예측 모델을 생성할 때 도움이 된다. 탐색적 분석 단계 우선 데이터를 전체적으로 살펴보고 개..
2. 문제정의와 데이터 수집 준비(22.04.07) 데이터 과학의 프로세스 [데이터 문제 해결 단계] 문제를 명확하게 정의한다. 이를 통해 필요한 데이터와 접근 방법을 결정한다. 데이터를 수집한다. 데이터를 적합한 형태로 정제한다. 정제된 데이터를가지고 해결책을 찾는다. 해결책을 여러 방식으로 구현해본다. 관계자에게 결과를 적절한 형태로 소통한다. 데이터 분석 단계 EDA(탐색적 데이터 분석) 통계적 추론 기계학습 [EDA] EDA (Exploratory Data Analysis) 탐색적 데이터 분석 1.EDA란? 1) 정의 수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 과정입니다. 한마디로 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보 eda-ai-l..
1. 액셀,R로 데이터 과학 맛보기(22.04.06) 오늘은 액셀과 R을 이용하여 데이터를 잠깐 다뤄보도록 하겠다. 위 링크에서 실습에서 사용되는 전체 파일을 다운받는다. 실습은 데이터를 데이터 테이블 형태로 만들고, 피벗테이블로 변화한뒤, 통계/시각화까지 해볼 것이다. [EXCEL] 1. mtcars.txt 파일을 열고 안의 텍스트를 복사하여 액셀에 붙여넣는다. 2. 액셀에 붙여놓은 후에 ctrl키를 누럴서 텍스트 마법사로 들어가 기본설정 그대로 마침을 누르면 텍스트들이 정리돼서 액셀에 들어갈 것이다. 데이터를 전체 선택한 뒤 [표 서식]에서 표로 만들어준다. 다음으로 데이터를 정제해 볼 것이다. 우선 A열에 자동차의 제조사+모델명이 들어가 있는데 이것을 제조사만 뽑아서 표시할 것이다. 4. 새로운 열..
창빵맨
'데이터분석실습/헬로 데이터 과학' 카테고리의 글 목록