
[패캠/NLP] 임베딩 기법(Word2Vec, FastText, GloVe)
·
ML & DL/NLP
분산표현은 분포가설이라는 가정하에 만들어진 표현방법으로, 비슷한 문맥에서 등장하는 단어들은 비슷한 의미를 가진다는 가설로, 주변(window크기) 단어에 따라 정의되는 문맥의 의미를 이용하여 단어를 벡터로 표현하는 것이다. 이 또한 원-핫 벡터처럼 차원이 단어집 합의 크기일 필요가 없으므로, 효율적인 방식이다. 이는 이전에 말한 밀집 표현과 혼용하여 사용되며 하나의 차원이 하나의 속성을 표현하는 것이 아니라, 여러 차원들이 조합되어 속성들을 표현한다. 이런 방법을 이용하여 단어의 유사도 또한 계산할 수 있다. 1. Word2Vec `Word2Vec`모델은 분포 가설 하에 표현한 분산 표현을 따르는 Google이 공개한 워드 임베딩 모델이다. 이 모델에는 두 가지 방식 `CBOW`와 `Skip-Gram` ..