RNN, LSTM, GRU
·
ML & DL/개념정리
이번에는 순환신경망: RNN과 RNN의 한계를 보완하여 나온 LSTM, GRU에 대하여 공부해 볼 것이다. 이는 아주 많이 쓰이는 모델 구조이기 때문에 잘 알아두면 좋을 것이다. 0. 순환신경망의 등장 기존에 딥러닝은 합성곱신경망을 기반으로 많이 발전을 했었다. 그런데 이러한 합성곱 신경망은 고정된 크기의 입력과 출력을 처리하도록 설계되었다. 따라서 고정된 크기를 요구하는 이미지 분류 등의 task에는 훌륭했다. 이러한 합성곱 신경망에서는 모델 학습 때와 동일한 사이즈로 입력을 resize 해줌으로써 사용할 수 있었다. 그러나 텍스트, 음성 등은 길이가 고정되어있지 않은 sequence 데이터이고, 이러한 seqeunce데이터는 고정된 크기가 아닐뿐더러 과거의 정보를 기억하면서 현재의 입력도 동시에 처리..
[패캠/NLP] 문장 임베딩
·
ML & DL/NLP
0. 문장임베딩이란? 기존의 Word2Vec, Glove, FastText 등은 모두 단어 수준의 임베딩 모델이었다. 이러한 단어 수준의 임베딩 기법은 단어의 형태만 보고 동일한 단어로 판단하여, 자연어의 특성인 모호성(중의성 등)을 구분하기 어렵다는 한계가 있었다. 이에 문장수준의 언어 모델링 기법들이 등장하기 시작하였다. 언어 모델이란, 자연어 문장 혹은 단어에 확률을 할당하여 컴퓨터가 처리할 수 있도록 하는 모델로, 주어진 입력에 대해 가장 자연스러운 단어 시퀀스를 찾도록 해준다. 따라서 언어 모델링은 주어진 단어로부터 아직 모르는 단어들을 예측하는 작업을 뜻한다. 단어 시퀀스에 확률을 할당하게 하기 위하여 주로 사용되는 방법으로는 Masked Language Modeling 혹은 Next Toke..