
Transformer
·
ML & DL/Computer vision
이전에 자연어처리 카테고리에서 Transformer 모델에 대하여 한번 설명했었는데, CV 강의를 들으면서 한번 더 나와서 다시 정리해보도록 하겠다. 0. 배경 Transformer:NLP에서 생기는 문제점을 해결하기 위해 고안된 모델로, 기존 모델들이 sequence data를 처리할 때 데이터를 순차적으로 처리하면서 발생하는 정보손실 즉 `Long-term dependency`를 해결하기 위함. 또한 Next token을 예측할 때 sequence 내의 다른 위치에 있는 정보들과의 상관관계도 매우 중요하고 이를 반영하는 것은 `attention`이다. 즉, Transformer은 Long-term dependency를 해결하고 attention을 도입한 모델이다. CNN의 한계점 Computer Vi..