전체 글

1. Feature Engineering 파생변수란 기존 변수의 정보를 토대로 정제 및 생성을 하여 만들어진 변수를 의미한다. 이전에 범주형, 수치형 변수를 처리할 때 사용했던 함수변환, 스케일링, 구간화 등도 이러한 파생변수를 생성하는 것의 일종이다. 또 다른 방법으로는 도메인 지식을 활용하여 기존의 변수들을 조합하여 새로운 변수들을 생성하는 방법도 있다. 파생변수 생성은 변수 간의 연관관계를 파악하기 쉽게 만듦으로써 모델의 성능향상을 기대할 수 있으며, 정보의 손실을 줄이면서 메모리를 최적화시킬 수 도 있고, 도메인을 활용함으로써 해석적인 관점을 제공할 수 있다. 함수 변환과 스케일링, 구간화에 대해서는 이미 다뤄봤기 때문에 나머지 파생변수를 만드는 방법에 대해서 알아보겠다. 1-1. 분할(Split..
이번시간에는 데이터 전처리 과정에 포함되어 있는 연속형 변수와 범주형 변수를 처리하는 과정에 대하여 알아볼 것이다. 우선 데이터, 변수는 위와 같이 크게는 수치형과 범주형으로 나뉘고 각각 연속형과 이산형 그리고 순위형과 명목형으로 분류된다. 모델에 input 데이터를 넣기전에 연속형이나 범주형 변수의 처리를 진행해줘야 제대로 모델이 돌아가며 성능이 좋아질 수 있다. 각각의 변수는 다음과 같은 처리를 진행할 것이다. 1. 연속형 변수 1-1. 함수변환 1-1-1. Log Transform 로그변환이란 비대칭된 임의의 분포를 정규분포에 가깝게 전환시키는 역할을 한다. 데이터를 정규화시키는 것은 모델의 성능을 향상시키는데 도움을 주며, 로그화를 통해서 데이터의 스케일을 작게 만들어 데이터 간의 편차를 줄이는데..
1. 결측치 결측치란 데이터에서 누락된 값을 말한다. 이는 데이터의 손실과 더불어서 분포를 왜곡시켜서 편향을 만든다. 보통 `N/A`, `NaN`, `NULL`,` `,`?` 등으로 기입되어 있다. 이러한 결측치가 발생한 타입, 패턴, 처리하는 방법에 대하여 알아볼 것이다. 1-1. 결측치 매커니즘 1-1-1. 완전 무작위 결측 MCAR:Missing Completely At Random 완전 무작위 결측이라고 부르며 결측치가 다른 변수와 상관없이 무작위로 발생한 경우를 의미한다. 보통 센서 고장 전산 오류 등과 같은 관측과 입력과정에서의 누락으로 인한 결측이다. 1-1-2. 무작위 결측 MAR:Missing At Random은 무작위 결측으로, 관측치가 해당 변수와는 무관하나 다른 변수와 연관이 있는 ..
수위예측의 연장 프로젝트인 선행시간에 따른 잠수교 수위 예측의 경우 포트폴리오 겸으로 생성하기 위하여 노션에 정리하였습니다. 잠수교 수위 예측 | Built with Notion 주제 quill-celery-3b2.notion.site
0.PyTorch Lightening PyTorch Lighting은 구현하는 코드의 양이 늘어나면서 코드의 복잡성이 증가하고, 다양한 얽혀있는 요소들로 인해 복잡해지는 것들을 조금 더 간단하게 구현하도록 등장하였다. 이는 PyTorch를 좀 더 단순하고 이해하기 쉽게 만들어주는 오픈소스 라이브러리이며, 코드를 간단하게 작성할 수 있도록 돕는다. PyTorch Lightening의 주요 기능들을 확인해 보자. 1. PyTorch Lightening 특징 1-1. 코드 추상화 & 하드웨어 호출 기존의 PyTorch는 `model`. `optimizer`,`training loop`를 전부 따로따로 구현해야 했다. 그러나 PyTorch Lightning에서는 `LightningModule`이라는 클래스 안에..
이번에는 Hugging Face에 있는 사전 학습 모델을 불러와 실습을 진행해보겠다. 이전 timm을 이용했던 실습과 다르게 자연어처리를 실습해볼 것이다. 1. 라이브러리 import import torch import numpy as np import warnings import matplotlib.pyplot as plt import pandas as pd from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score from tqdm.notebook import tqdm warnings.filterwarnings('ignore') import torch.nn as nn import torch..
이번에는 이전에 배웠던 Timm 라이브러리의 사전 학습 모델을 이용해 보는 실습을 진행하였다. 1. 라이브러리 import import torch import numpy as np import warnings import matplotlib.pyplot as plt import pandas as pd from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score from tqdm.notebook import tqdm warnings.filterwarnings('ignore') import torch.nn as nn # 모델 구성 from torchvision.datasets import CIFAR..
창빵맨
Let's be Developers