11. 데이터 분석하기 보스턴 주택가격 예측(22.07.20)
[선형 회귀 분석 + 산점도/선형 회귀 그래프]
목표:보스턴 주택 가격 데이터에 회귀분석을 수행, 주택가격 예측
머신러닝이란?: 인간이 지식과 경험을 학습하는 방법을 적용하여 컴퓨터에 입력된 데이터에서 스스로 패턴을 찾아 학습하여 새로운 지식을 만들고 예측하는 통찰을 제공하는 AI
[데이터수집]->[데이터 전처리 및 훈련/테스트 데이터 분할]->모델 구축 및 학습->모델 평가->예측
지도학습이란?: 학습을 하기 위한 훈련데이터에 입/출력 결과를 모두 제공시켜 학습시키는 방식 ->[회귀, 분류]
입력: 예측변수, 속성, 특징(feature)
출력: 반응변수, 목표변수, 클래스, 레이블
사이킷런이란?: 파이썬의 머신러닝 라이브버리중 가장 많이 사용되는 것중 하나.
평가지표에 대한 자세한 내용은 [머신러닝] 카테고리에 정리했습니다.
1.데이터 수집, 준비 및 탐색
보스턴 주택 가격데이터는 공개 데이터셋으로 사이킷런에 내장되어 있다.
from sklearn.datasets import load_boston
boston=load_boston()
print(boston.DESCR)
[02행]:sklearn의 학습용 데이터셋에서 boston 데이터셋을 로드한다.
(경고창이 뜨는데, 다음버전부터는 어떤 윤리적 문제땜에 데이터셋을 따로 수정해야 한다고 하는 것 같다.
boston_df=pd.DataFrame(boston.data,columns=boston.feature_names)
boston_df['PRICE']=boston.target
boston_df.head()
boston_df.shape
boston_df.info()
[01행]: 로드한 boston 데이터셋 객체를 데이터프레임 형태로 가져온다.
[02행]: 데이터셋의 종속변수인 target column을 데이터프레임에 합쳐준다.
[04~05행]: 데이터셋에 대한 정보를 확인한다.
2.분석 모델 구축, 결과 분석 및 시각화
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
x=boston_df.drop(['PRICE'],axis=1)
y=boston_df['PRICE']
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.3,random_state=156)
lr=LinearRegression()
lr.fit(x_train,y_train)
y_pred=lr.predict(x_test)
[01~03행]: sklearn에서 선형회귀모델과 테스트셋과 트레인셋을 나누고 평가지표들인 mse,r^2를 불러온다.
[04,05행]: 예측에 사용될 독립변수(price행을 제외한 나머지)와 종속변수 (prcie column)을 가져온다.
[06행]: random state를 156으로 고정하고, 테스트셋과 트레인셋의 비율을 7:3으로 분할한다.
[07~09행]: 선형회귀모델을 통해서 y_pred을 산출
mse=mean_squared_error(y_test,y_pred)
rmse=np.sqrt(mse)
r2=r2_score(y_test,y_pred)
print('MSE: {0: .3f},RMSE: {1:.3f}'.format(mse,rmse))
print('R^2(Variance score): {0: .3f}'.format(r2))
print('Y절편: ',lr.intercept_)
print('회귀 계수 값:', np.round(lr.coef_, 1))
coef=pd.Series(data=np.round(lr.coef_,2),index=x.columns)
coef.sort_values(ascending=False)
[01~03행]: mse,rmse,r^2 평가지표들을 load
[04,05행]: 모델의 성능을 평가
[06~09행]: 선형회귀식을 산출하기위한 계수들을 계산
다음 아래와 같은 값들과 선형회귀식이 산출되게 된다.
MSE: 17.297 / RMSE: 4.159
R^2: 0.757
Y절편: 40.995595172164336
YPRICE = -0.11XCRIM + 0.07XzN + 0.03XINDUS + 3.05XCHAS - 19.80XNOX + 3.35XRM + 0.0LXACE - 1.74X DIS + 0.30XRAD - 0.01XTAX - 0.92XPTRATIO + 0.01XB - 0.57XISTAT + 41.00
3.시각화
마지막으로 종속변수인 'PRICE'를 제외한 독리변수들이 회귀분석에 끼치는 영향을 시각화해보았다.
import matplotlib.pyplot as plt
import seaborn as sns
fig,axes=plt.subplots(figsize=(16,16),ncols=3,nrows=5)
x_features=boston_df.columns[:-1]
for i,feature in enumerate(x_features):
row=int(i/3)
col=i%3
sns.regplot(x=feature, y='PRICE',data=boston_df,ax=axes[row][col])
.
'데이터분석실습 > 데이터 과학 기반의 파이썬 빅데이터 분석' 카테고리의 다른 글
파이썬 빅데이터 분석 Day 13 (0) | 2023.10.26 |
---|---|
파이썬 빅데이터 분석 Day 12 (1) | 2023.10.26 |
파이썬 빅데이터 분석 Day 10 (1) | 2023.10.26 |
파이썬 빅데이터 분석 Day 9 (1) | 2023.10.26 |
파이썬 빅데이터 분석 Day 8 (0) | 2023.10.26 |