'ML & DL' 카테고리의 글 목록 (5 Page)

2023.12.28· ML & DL/개념정리

이번 글에서는 딥러닝의 발전에 크게 기여한 모델들에 대하여 간단하게만 알아볼 것이다. 1. LeNet-5 1998년 Yann LeCun에 의해 제안된 LeNet-5 모델은 손글씨 숫자를 인식하기 위해 설계된 최초의 합성곱 신경망 구조이다. 2. ILSVRC Mnist 데이터 셋에 대하여 모델들이 성능이 뛰어나자 새로운 데이터 셋을 생성하였다. ILSVRC: ImageNet Large Scale Visual Recognition Challenge라고 부르며, 수백만 개의 이미지로 구성된 데이터베이스로, 각 이미지는 라벨이 붙어 있어 다양한 컴퓨터 비전 연구에서 사용된다. ImageNet 자체는 거대한 이미지 데이터베이스이며, ILSVRC는 이 데이터셋을 이용해 2010~2017년에 개최된 대회로, 여러 비..

[패캠/NLP] BERT

2023.12.28· ML & DL/NLP

0. BERT 등장 BERT는 Google의 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 논문에서 처음 제안된 모델로, 이전의 Transformer의 인코더 기반의 언어 모델이다. 우선 unlabeld data로부터 pre-train을 진행한 후, 전이학습을 하는 모델이며, 하나의 output layer을 pre-trained BERT에 추가하여 다양한 NLP task에서 SOTA를 달성하였다. 기존의 사전학습된 벡터 표현을 이용하는 방법은 크게 2가지가 존재하였다. 0-1. feature based approach 대표적으로 ELMo가 있으며, pre-trained representations를 하나의 ..

[패캠/NLP] GPT

2023.12.27· ML & DL/NLP

오늘은 생성 모델 GPT에 대한 강의를 정리해 보도록 하겠다. 0. GPT 등장 GPT 모델은 2018년에 OpenAI에서 "Improving Language Understanding by Generative Pre-Training"이라는 논문에서 처음 등장하였다. 일반적으로 자연어처리에서 특정 작업을 진행하기 위한 데이터셋이 부족하기 때문에 기존에도 unsupervised learning이나, semi-supervised learning 같이 라벨이 없는 비정형 텍스트를 사용하는 방법들이 계속 제안되었었다. 또한 ELMo 같이 LM을 기반으로 사전학습을 거친 모델들이 좋은 성능을 보인다는 것이 알려져 있었다. 그러나 RNN기반의 모델들은 구조적 한계가 있었다. 그래서 GPT는 Transformer이 등..

Linear, Lasso, Ridge Regression

2023.12.27· ML & DL/개념정리

Linear Regression 은 $y=Wx+b$로 표시되는 선형식으로 $x$와 $y$사이의 관계를 찾는 모델이다. 분류와는 다르게 회귀 모델은 선형식의 계산결과 자체가 예측값이다. 이 선형회귀의 관계식을 찾을 때 실제 현실에서는 오차가 0일 수없기 때문에 선형회귀란, 오차가 가장 적게 되는, 즉 관계를 가장 잘 대변하는 식을 찾는 것이라고 할 수 있다. 따라서 오차가 가장 적게 되도록 학습을 진행하며 가장 많이 사용되는 Loss function은 `MSE:Mean Squared Error`이다. 각 loss function에 대한 설명은 아래에 자세하게 설명하였다. 간단하게만 말하자면, MSE는 outlier 데이터가 있다면 오차가 매우 크게 나오기 때문에 미리 이상치등을 제거해줘야 한다. Evalu..

Random Forest: 랜덤포레스트

2023.12.26· ML & DL/개념정리

0. 등장배경 Random Forest를 아주 간단하게 설명하자면, Decision Tree가 모여서 더 좋은 결과를 내는 모델이다. 자세하게 말하자면 Random Forest는 CART모델의 단점을 극복하기 위해 제시된 모델로서, Decision Tree 하나로는 training data에 너무 쉽게 overfitting 되고, 이에 여러 개의 Decision Tree를 사용하여 다수결을 사용하는 방식으로 보완하고자 하였다. 이렇게 단일 모델 여러 개를 모아서 더 좋은 판단을 하는 방법론은 `Model Ensemble`이라고 한다. 이때 단순 DT를 모은 것이 아니다. 왜냐면 같은 데이터에 대해서 만들어진 DT는 같은 결과를 출력하게 된다. 이에 다양성을 추가해 주기 위하여 2가지 기법을 사용하였다. ..

[패캠/NLP] Transformer: 트랜스포머

2023.12.26· ML & DL/NLP

0. 등장배경 Transformer: 트랜스포머는 2017년 구글이 발표한 "Attention in all you need"에서 발표된 모델로, Seq2Seq의 구조인 인코더 디코더 형태를 따르면서도 Attention으로만 구현된 모델이다. 이 모델은 RNN구조를 사용하지 않았음에도 번역 성능에서도 RNN보다 우수한 성능을 보여줬으며 지금까지도 다양한 분야에서 사용된다. RNN, LSTM, Seq2Seq 등의 언어모델들은 연속적인 입력에 대한 모델링을 개선하여 자연어처리 분야에서 많은 성과를 가져왔으며, Seq2Seq 등의 모델들은 시간에 의존적인 입력시퀀스에 따라 hidden state를 생성하여 입력을 처리하는 구조이며, 가변적인 입/출력을 처리하는데 효과적이었다. 그러나 고정된 크기의 context..

티스토리툴바