데이터분석실습

6. 데이터 분석하기타이타닉 생존자 예측 (22.07.13) [상관분석 + 히트맵] 목표:타이타닉호 승객 변수를 분석하여 생존율과의 상관관계를 구하기 >타이타닉호의 생존자와 관련된 변수의 상관관계 분석, 피어슨 상관계수 사용, 변수간의 상관계수 분석 상관분석이란?: 두 변수가 어떤 선형적 관계에 있는지 분석하는 방법. 상관관계의 정도를 나타내는 단위인 모상관계수 ρ사용 > 두 변수의 연관정도를 나타낼 뿐 정확한 예측치 계산불가 > 두개의 변수의 상관관계를 추측하는 단순상관분석과 여러개의 변수의 관계를 측정하는 다중상관분석으로 나뉨 상관계수(ρ)란?:변수 간 관계의 정도(0~1)과 방향(+,-)를 요약해주는 지수로써 (-1 ~ +1)사이의 값을 가진다. 상관계수가 양이면 한변수가 증가할 때 다른 변수도 증..
5. 데이터 분석하기와인 품질 분류 [기술통계 분석 + 그래프] 목표: 와인 속성 분석 + 품질 등급 예측 >와인 데이터의 기술 통계를 구함 / 와인 그룹 품질에 대한 t검정 수행 / 와인속성과 품질등급으로 선형회귀분석 수행 기술통계란?: 데이터의 특성을 나타내는 수치들을 분석하는 기본적인 통계 방법. 수치들에는 평균,중앙값,최빈값,표준편차등이 포함됨. 회귀분석이란?: 독립변수X와 종속변수Y간의 연관성 정도를 파악하는 분석기법 변수간의 인과관계를 분석 독립변수의 갯수에 따라 단순, 다중회귀분석으로 나뉘고 독립변수와 종속변수의 관계에 따라 선형, 비선형회귀분석으로 나뉜다. t검정이란? 데이터에서 찾은 평균을 통해 두 그룹에 차이가 있는지를 알아내는 방법이다. 히스토그램이란? 데이터값의 범위를 구간으로 나누..
4. 동적 웹페이지 크롤링(22.07.07) 이번시간에는 동적 웹페이지를 크롤링 해볼 것이다. 우선 간단하게 정적 크롤링과 동적 크롤링을 비교해보자 정적크롤링은 말 그대로 정적인 데이터를 수집하는 방법을 말한다. 페이지 내에서 원하는 정보가 모두 드러나 있는 것을 정적 데이터라고 말한다. 동적크롤링은 동적인 데이터를 수집하는 방법으로입력, 클릭, 로그인 등과 같이 페이지 이동을 통해 얻을 수 있는 데이터를 말한다. 정적데이터 크롤링 수집보다 속도가 느리지만 더 많은 정보를 수집할 수 있다. 동적 크롤링을 하기위해서는 우선 selenium이라는 라이브러리가 필요하다. 이 selenium은 웹 브라우저를 원격으로 조작하는 기능을 제공한다. 우선 selenium과 웹브라우저에 적용될 수 있도록 크롬 드라이버를..
3. 정적 웹페이지 크롤링(22.07.06) 오늘은 BeautifulSoup 라이브러리를 통한 정적 웹피이지를 크롤링하는 작업을 할 것이다. 크롤링을 하기전에 크롤링여부 확인을 위해 '크롤링하고자하는주소/robots.txt' 를 통해서 크롤링을해도 되는지 확인해야한다. allow가 되있거나 robots.txt가 존재하지 않는 경우 크롤링을 해도 된다. 이번 글에서는 할리스커피 홈페이지에서 매장정보에 대한 크롤링 작업을 진행할 것이다. from bs4 import BeautifulSoup from tqdm import tqdm import time import urllib.request import pandas as pd 우선 BeautifulSoup, urllib.request 라이브러리를 import ..
2. 공공데이터 API를 이용한 크롤링(22.05.23) 1. 전체 작업 설계 | 작업설계 | 사용할 코드 | | --- | --- | | 1. 데이터를 수집할 국가코드와 연도 입력하기 | national_code, nStartYear, nEndYear | | 2. 데이터 수집 요청하기 | getTourismStatsService() | | 2.1 url 구성하여 데이터 요청하기 | getTourismStatsItem() | | 2.2 url 접속하고 요청하기 | getRequestUrl() | | 2.3 응답 데이터를 리스트로 구성하기 | jsonResult, result | | 3. 데이터를 JSON 파일과 CSV 파일로 저장하기 | json.dumps(), to_csv() | 2. 프로그램 구성 설..
1. 네이버 API를 이용한 크롤링(22.05.12) 1. 크롤링이란 웹에서 데이터를 수집하는 기술에는 스크레이핑, 크롤링 이렇게 두가지가 존재한다. 두개를 구분하자면 스크레이핑은 웹에서 특정데이터를 수집하는 것이고, 크롤링은 프로그램으로 웹사이트에서 데이터를 추출하는 것인데 그냥 웹에서 데이터를 수집하는 것 자체를 크롤링이라고 묶어서 부른다. 크롤링의 원리는 웹의 통신 방법에 있다. [웹의 통신방법] 사용자가 데이터를 가지고있는서버의 url에 접속 수집할 데이터에 HTTP 요청(request) 서버가 그에 대한 응답(response) 응답을 JSON 또는 XML형식으로 보내는 방식 > 이 때 API( 웹사이트의 기능을 외부에서 쉽게 사용할 수 있도록 사용절차와 규약을 정의해놓은 것)을 사용한다. 웹 A..
창빵맨
'데이터분석실습' 카테고리의 글 목록 (4 Page)