ML & DL

모델 성능 평가란, 실제값과 모델에 의해 예측된 값의 차이를 구하는 것. 실제값과 예측값이 오차가 0인 것은 실질적으로 힘들기 때문에 오차의 한계를 정해서 그 오차까지는 허용해 준다. 성능평가를 하기 위해서는 예측값과 실제값을 비교할 수 있어야 하기 때문에 지도학습에만 사용된다. Training set의 결과와 Test set의 결과가 비슷해야 좋은 모델이라고 말할 수 있다. Training의 성능만 좋게 나왔다면. 이 모델은 과적합된 모델이다. [Regression] ex)선형 회귀, Random Regressor -> MSE, RMSE, MAE, MAPE 등의 평가지표 사용 -> 작을수록 성능이 좋음을 의미 1. MSE $$ \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (Y..
· ML & DL/NLP
영어의 경우 합성어나 줄임말 등과 같은 예외처리만 되면 띄어쓰기를 기준으로 토큰화를 진행하면 어느 정도 성능을 보장할 수 있다. 그러나 한국어의 경우 조사나 어미 등이 발달되어 있기 때문에 띄어쓰기만으로 단어를 분리하면 의미적인 훼손이 일어날 수 있다. 한국어의 경우 띄어쓰기 단위가 되는 단위를 어절이라고 부르는데, 어절 토큰화와 단어 토큰화가 같지 않기 때문이다. 이는 한국어가 교착어이기 때문에 발생하는 특징이다. 1. 형태소 분석 형태소 분석이란 형태소를 비롯하여 어근, 접두사, 접미사, 품사 등 다양한 언어적 속성의 구조를 파악하는 것을 의미한다. 이는 형태소를 추출, 분리하고 품사를 태깅(PoS) 순서로 진행된다. 만약 일반적인 영어와 같은 전처리 방법(띄어쓰기 단위로 분류)를 이용하면 한국어에서..
· ML & DL/NLP
1. 자연어 Corpus `자연어 Corpus`=대량의 텍스트 데이터. --> 자연어처리 작업의 특성을 잘 담아낼 수 있는 다양한 패턴의 데이터가 포함되어야 하며, 유의미한 규모를 가지고 있어야 하고 그 데이터가 대표성을 띄워야 한다. -> 문제정의 및 설루션을 설정해야 하며 언어 종류, 코퍼스의 종류, 코퍼스의 규모 등을 결정해야 한다. 코퍼스는 외부데이터셋 혹은 온라인 뉴스, 책, 웹 등에서 저작권을 고려하여 수집할 수 있다. 1-1. 코퍼스의 종류 필요한 자연어 코퍼스 유형을 구체적으로 결정해야 한다. 이는 자연어 처리 작업과 연결된다. 이들은 해당 자연어 처리 작업의 특성을 잘 담아낼 수 있도록, 데이터의 패턴이 다양할수록 모델의 일반화 성능이 좋아진다. ex) 기계번역 작업 = 영어 원본 문장,..
부스팅 부스팅은 머신러닝 앙상블 기법 중 하나로 약한 학습기를 순차적으로 결합하여 예측/분류 성능을 높이는 알고리즘이다. 위의 데이터처럼 모델링을 진행하면서 가중치를 업데이트하며 순차적으로 학습시키는 방식이다. 부스팅 알고리즘에 여러 개의 모델(알고리즘)이 있는데 각기 다른 특징을 가지고 있다. 1. AdaBoost AdaBoost는 Adaptive Boosting의 약자로 오류 데이터에 가중치를 가하여 더하는 방식이다. 분류하기 어려운 것들에는 가중치를 더하고, 분류하기 쉬운 것들에는 가중치를 줄이면서 가중치를 업데이트한다. 이때 약한 학습기 즉 각각의 분류기는 Decision Tree를 약한 학습기로 사용한다. 그림으로 보면, 첫 번째 반복에서 잘못학습된 것들은 두 번째 반복에서 가중치가 커진 것(모..
0. Clustering 클러스터링은 주어진 데이터(X)와 유사한 데이터들을 묶어주는 방법이다. 클러스터링은 비지도학습이기 때문에 y가 존재하지 않는다. 클러스터링에서 가장 중요한 것은 feature vector과 similarity이다. Clustering(군집화) 알고리즘으로 K-means가 있다. k-means는 각 클러스터와의 거리 차이 분산을 최소화하여 데이터를 분류하는 것을 목적으로 한다. 우선 k-means의 방법을 간단하게 확인해 보자. 1. K-means 1-1. 군집의 개수(K) 설정 우선 군집의 개수 K를 설정하는 것부터 시작된다. 사실 이점은 어찌 보면 k-means의 단점이라고 볼 수 있다. 사용자가 임의로 정해줘야 하는 파라미터이기 때문이다. 하지만 추후에 이런 K를 정하는 다른..
· ML & DL/NLP
오늘은 자연어처리를 진행할 때 자주 참고하게 될 hugging face 관련한 실습을 진행하였다. 우선 지금까지 배운내용이 사용되진 않지만 전체적인 flow가 어떻게 되는지 참고할 수 있다. 1. Huggingface HuggingFace란 자연어처리 모델에서 사용되는 Transformer 기반의 다양한 모델들과 학습 데이터셋들을 모아놓은 플랫폼이다. 또한 pretrained 모델들도 쉽게 사용할 수 있기 때문에 편리하다. GitHub - huggingface/transformers: 🤗 Transformers: State-of-the-art Machine Learning for Pytorch, TensorFlow, and JAX. 🤗 Transformers: State-of-the-art Machine..
창빵맨
'ML & DL' 카테고리의 글 목록 (10 Page)