ML & DL

· ML & DL/NLP
0. ELMo 개요 Deep Contextualized Word Representations Matthew E. Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, Luke Zettlemoyer. Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Vol aclanthology.org 이번에는 저번 Seq2Seq에 이어서 ELMo라는 임베딩 기을 공부해 볼 것이다. 우선 ELMo: Embeddings from L..
· ML & DL/NLP
0. 문장임베딩이란? 기존의 Word2Vec, Glove, FastText 등은 모두 단어 수준의 임베딩 모델이었다. 이러한 단어 수준의 임베딩 기법은 단어의 형태만 보고 동일한 단어로 판단하여, 자연어의 특성인 모호성(중의성 등)을 구분하기 어렵다는 한계가 있었다. 이에 문장수준의 언어 모델링 기법들이 등장하기 시작하였다. 언어 모델이란, 자연어 문장 혹은 단어에 확률을 할당하여 컴퓨터가 처리할 수 있도록 하는 모델로, 주어진 입력에 대해 가장 자연스러운 단어 시퀀스를 찾도록 해준다. 따라서 언어 모델링은 주어진 단어로부터 아직 모르는 단어들을 예측하는 작업을 뜻한다. 단어 시퀀스에 확률을 할당하게 하기 위하여 주로 사용되는 방법으로는 Masked Language Modeling 혹은 Next Toke..
이번 시간에는 대표적인 딥러닝 모델 CNN에 대하여 설명해 볼 것이다. 0. CNN:Convolution Neural Network 우선 CNN이 도입되게 된 이유는 기존의 MLP 등에서 사용되던 Fully connected layer: 완전연결계층에서는 이미지 데이터등의 데이터를 를 입력으로 넣었을 때, 이를 학습시키기 위하여 1차원으로 평탄화(Flatten)를 시켰다. 그러나 이렇게 평탄화하는 과정에서 이미지 데이터의 경우 "형상정보" 가 사라진다. 형상정보라 함은 공간적 구조를 의미한다. 이러한 형상정보를 유지하기 위해 합성곱 신경망이 등장하였다. 합성곱 신경망은 모델의 첫부분에 합성곱과 관련된 연산, 합성곱연산을 진행하여 주요 특징들을 추출한 뒤 이후에 flatten을 시키는 방식이다. 1. 합성..
1. 딥러닝 프레임워크 딥러닝의 뉴럴네트워크를 구현하기 위해서는 다양한 것들을 구현해야 한다. 1. neural network의 모든 layer 2. Loss Function 3. 모든 layer의 weight, bais에 대한 gradient 4. 최적화 알고리즘 이러한 것들을 매번 하나하나 구현할 수 없고 모델이 복잡해지는 만큼 이러한 것들이 힘들어진다. 이때, PyTorch 같은 딥러닝 프레임워크에 모델을 구성하는 구성요소, 다양한 loss function, 자동 미분 계산, 다양한 optimizer 등을 제공하기 때문에 쉽게 구현을 도와준다. 1-1. 트렌드 딥러닝 프레임워크는 다양한 것들이 있다. 1. `TensorFlow`- Google 2. `PyTorch` - Meta 3. `JAX` - ..
오늘은 Loss function: 손실함수에 대하여 알아볼 것이다. 크게 손실함수의 중요성과 대표적인 손실 함수들, 해석 관점 등을 알아볼 것이다. 손실함수를 바꾼다는 것은, 파라미터를 조정하는 최적화 방법 즉 학습 방법도 달라진다. 따라서 모델의 성능에 매우 크게 영향을 끼치는 것이다. 1. 대표 손실함수 1-1. 평균제곱오차 MSE `평균제곱오차`는 `Mean Squared Error: MSE` 라고 부르며, `Quadratic Loss` 혹은 `L2 Loss`고도 부른다. $$ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $$ 이 함수는 실제값($y$)와 모델의 예측값(y hat)의 차이를 제곱하여 평균 낸 값을 말한다. 실제값과 예측값 사이의 오차..
이번에는 역전파 알고리즘에 대하여 알아볼 것이다. 0. 역전파 배경 이전에 확률적, 미니배치 경사하강법이 등장한 이유를 Loss 값을 계산을 할 때 모든 데이터 셋에 대하여 계산하는 것이 아니라, 학습 샘플(1 혹은 배치사이즈)만큼의 평균 Loss값을 이용하여 계산을 효율적으로 하였다. 그러나 경사하강법을 진행하기 위해서는 모델을 구성하는 각 파라미터에 대한 손실함수를 미분한 결과(그래디언트)는 여전히 계산해야 한다. 이 모든 파라미터에 대한 미분값을 그래디언트 하고 불렀다. 이때, 모든 파라미터에 대한 편미분을 효율적으로 하기 위해 역전파란 개념이 등장하였다. 손실함수가 단순 선형식일 경우 각 파라미터에 대하여 편미분 하는 것은 간단하다. 예를 들어, 모델을 $ y=ax+b $라하고, 손실함수로 MSE..
창빵맨
'ML & DL' 카테고리의 글 목록 (7 Page)