분류 전체보기

1. Grad-CAM 소개 CAM은 Global average pooling layer가 없는 모델들에 한해서는 사용하기 어려웠고(사용하려면 모델 재학습 필요), 마지막 feature map에 대한 것만 시각화할 수 있다는 단점이 존재하였다. 이때 기존 네트워크 구조를 그대로 유지하면서 CAM과 유사하게 특징맵을 시각화할 수 있는 Grad-CAM이 2017년도에 등장하였다. 2. Grad-CAM 원리 우선 간단하게 CAM과의 차이를 말하자면, CAM은 Global Average Pooling layer을 거쳐 나온 벡터를 fc layer에 통과시킴에 따라 가중치를 계산하여 해당 가중치를 feature map에 곱하는 방식이었고, Grad-CAM은 동일한 원리인데 가중치를 GAP을 거치는 것이 아닌 Gra..
1. CAM 소개 오늘은 CAM: Class Activation Map이라는 기법에 대하여 알아볼 것이다. 해당 기법은 모델이 이미지의 어떤 위치를 보고 각각의 class를 예측하는지를 시각화하는 기법이라고 생각하면 간단하다. 기존 이미지 분류 모델들은 좌측 이미지처럼 각 layer을 거쳐 feature map을 뽑아서 해당 feature map을 flatten 시켜 Fully connected layer을 거쳐 각각의 클래스에 대한 확률을 얻게 된다. 그러나 이러한 flatten을 함으로써 이미지의 spatial한 정보를 잃게 된다. CAM은 `fully connected layer` 대신에 `Global Average Pooling`을 이용하여 spatial 정보를 잃지 않고 확률값을 얻게 하였다. ..
0. 활성화함수 활성화함수는 이전에도 여러 번 말했듯이 모델에 비선형성을 부여하기 위해 사용된다. 선형함수의 layer들로만 구성할 경우 아무리 많이 쌓아도 결국 선형함수 하나로 표현되기 때문에 이는 레이어를 깊게 쌓는 의미가 없다. 따라서 적절한 선형함수를 적용해줘야 한다. 이번 글에서는 아주 간단하게 각 활성화 함수들의 특징에 대하여 알아보고자 한다. 1. Sigmoid $$ \sigma(x) = \frac{1}{1+e^{-x}} $$ 입력값과 상관없이 출력값이 반드시 0~1 사이 연속적이고 모든 값에 대하여 미분 가능 -> 출력값이 0 혹은 1에 가까울수록 미분값이 0에 가까워지는 gradient vanishing 문제 -> 이로 인해 잘 쓰이지 않음 -> 분류 문제에서 마지막 출력층에 사용됨 함숫..
0. EfficientNet 이번에는 EfficentNet에 대하여 리뷰를 해볼 것이다. 너무나도 유명한 네트워크이며 b0부터 지금 b7까지 다양한 버전이 존재하고 성능이 뛰어나다. 우선 이 논문의 Introduction에서 바로 성능비교를 한 이미지가 나오는데 이것만 봐도 솔깃하다. 동일 파라미터 수를 가진 모델들 대비 성능이 매우 뛰어난 것을 볼 수 있다. . 1. 배경 이 모델이 나오기 이전 VGG net에서 모델이 깊게 쌓을 때 모델의 성능이 올라가는 것을 밝혀내고 , ResNet에서 residual connection을 이용해서 엄청나게 깊게 쌓을 수 있도록 발전시켰었다. 이렇게 모델 깊이나 너비가 크고 입력 이미지의 스케일이 커질수록 성능이 잘 나오는 것은 이미 알려진 사실이었지만 그렇게 될수..
0. VGGNet VGGNet은 앞서 올린 AlexNet보다 2년 뒤에 나온 모델로 layer의 개수가 많이 증가하고 성능 또한 매우 향상된 것을 볼 수 있다. VGGNet은 네트워크의 깊이가 깊어질수록 성능의 변화에 대한 것을 분석해 보자고 하였다. 따라서 컨볼루션 필터 사이즈를 가장 작은 3x3으로 고정을 하고 레이어의 깊이를 깊게 만들어 비교하였다. 아래가 해당 연구에서 실행해본 구조들이며 현재에는 일반적으로 16개의 layer을 쌓은 것과 19의 layer을 이용한 VGGNet을 사용한다. 1. 커널 사이즈 우선 앞서 말했듯이 VGGNet은 컨볼루션 레이어의 필터 크기를 모두 3x3으로 고정하였는데 이것에 대하여 알아보자. 기존의 AlexNet 같은 경우에는 초반에 size=11, size=5 등..
0. AlexNet 이번에 소개할 모델은 AlexNet이다. AlexNet은 2012년 ImageNet 대회의 우승을 차지한 CNN구조의 모델이다. AlexNet은 크게 Convolution, Pooling, Normalization layer로 구성되어 총 8개의 layer 구조이며 최종적으로 1000개의 class로 분류한다. 위의 모델 구조를 조금 더 쉽게 볼 수 있는 layer 구조로 살펴보자. 주의할 점은 위의 모델 구조는 논문에 있는 모델 구조인데, input size가 아닌 224가 아니라 227이라고 저자가 밝혔다. 우선 AlexNet의 큰 특징들을 말해보고, 각각에 대하여 알아보자 1. ReLU 2. Reducing Overfitting -> Data Augmentation + DropO..
창빵맨
'분류 전체보기' 카테고리의 글 목록 (3 Page)