
[패캠/NLP] 문장 임베딩
·
ML & DL/NLP
0. 문장임베딩이란? 기존의 Word2Vec, Glove, FastText 등은 모두 단어 수준의 임베딩 모델이었다. 이러한 단어 수준의 임베딩 기법은 단어의 형태만 보고 동일한 단어로 판단하여, 자연어의 특성인 모호성(중의성 등)을 구분하기 어렵다는 한계가 있었다. 이에 문장수준의 언어 모델링 기법들이 등장하기 시작하였다. 언어 모델이란, 자연어 문장 혹은 단어에 확률을 할당하여 컴퓨터가 처리할 수 있도록 하는 모델로, 주어진 입력에 대해 가장 자연스러운 단어 시퀀스를 찾도록 해준다. 따라서 언어 모델링은 주어진 단어로부터 아직 모르는 단어들을 예측하는 작업을 뜻한다. 단어 시퀀스에 확률을 할당하게 하기 위하여 주로 사용되는 방법으로는 Masked Language Modeling 혹은 Next Toke..