ML & DL/Computer vision

1. U-Net U-net은 본래 의학 이미지 segmentation을 목적으로 나온 모델이다. 의학 이미지 특성상 이미지가 매우 적었고 이러한 매우 적은 수의 학습 데이터로도 정확한 이미지 세그멘테이션 성능을 보여줬다. U-net은 Fully Convolution Network(FCN)을 기반으로 구축하였으며 인코더-디코더 기반의 모델로, 인코딩 단계에서 입력 이미지의 특징을 포착할 수 있도록 채널의 수를 늘리면서 차원을 축소해 나가고, 디코딩 단계에서 저 차원으로 인코딩 된 정보를 이용하여 채널의 수를 줄이고 차원을 늘려서 고차원의 이미지를 복원한다. 1-1. Skip connection 일반적인 segmentation 모델의 인코더는 차원 축소를 거치면서 객체에 대한 위치 정보를 잃고, 디코딩 단계..
0. Image segmentation Image segmentation은 object의 boundary를 참조하여, 해당 객체가 있는 위치를 정확히 가리키는 역할을 한다. 대부분의 image segmentation 모델은 encoder, decoder구조로 구성되어 있다. Encoder: input의 latent space representation을 인코딩 Decoder: encoder로부터 encoding된 정보로부터 decoding하고 segment map을 형성 Image segmentation은 크게 3가지로 나뉜다. 1. Semantic segmentation Image의 pixel을 semantic(의미론적)으로 분류하는 것. == 실제로 인식할 수 있는 물리적 의미 단위로 인식하는 세그멘..
모델의 아키텍쳐를 구성할 때 얼마나 많은 layer(depth), 얼마나 많은 픽셀 resolution. 얼마나 많은 filter을 사용할지를 찾아주는 Compound scaling을 방식을 사용 → 모델의 크기와 연산량를 결정하는 요소들(input resolution, depth, width)을 동시에 고려하여 증가시키는 방법. EfficientNet이 제안했고 이 EficientNet을 backbone으로 사용한 모델이 EfficientDet이다. EfficientNet의 compound scaling에 대하여 간단하게 설명하면, Width와 resolution은 연산량에 거듭제곱형태로 연산량이 늘고, depth는 linear 하게 늘어나기 때문에, 같은 연산량에서 scaling을 해보기 위해, 아래..
0. YOLO SSD 이전에 나온 1-stage detector로 unified, simple, real-time object detection이라고 부르기도 한다. YOLO의 특징은 이미지 전체를 한 번만 보고, 통합된 네트워크를 사용하여 간편하고 빠르며 거의 실시간 객체 검출이 가능하다. 1. Grid Image YOLO는 우선 이미지를 SxS 크기의 grid로 나눈다. 다음으로 객체의 중심이 특정 grid cell에 위치한다면, 해당 grid cell은 그 객체를 detect 하도록 할당된다. 이 선택된 셀은 Bounding Box와 Confidence, Class probability map을 예측하는데 사용된다. 2. Backbone 앞서 하나의 이미지를 SxS의 그리드로 나눈뒤 해당 이미지는 ..
SSD(Single Shot MultiBox Detector) YOLO는 Faster R-CNN보다 속도가 향상됐지만, 정확도가 낮아졌다는 단점이 있었다. 또한 작은 물체를 잘 못잡는다는 단점이 있었다. 이에 SSD가 이러한 한계점을 극복하였다. SSD 모델의 장점은 이미지의 변형 없이 한장의 사진 그대로를 넣어 네트워크를 덜 거쳐 기존 single shot detector보다 빨랐으며, mAP점수도 Faster R-CNN과 거의 유사하였다. 가장 중요한 특징은 각 default box들마다 cnn필터를 적용하여 점수를 게산하였다. →서로 다른 피쳐맵에서 다양한 크기의 예측이 가능하였다. 또한 다양한 data augmentation을 진행하였다 위와 같이, VGG NET을 거치면서 각 단계별에서 추출된 ..
1. R-CNN 동작방식 1. Selective Search를 이용해 2000개의 ROI(Region of Interest)를 추출한다. ( on CPU ) == Region Proposal 2. 각 ROI에 대하여 warping을 수행하여 동일한 크기의 입력 이미지로 변경한다. 3. Warped image를 CNN에 넣어서 이미지 feature를 추출한다. == (pre-trained) CNN 4. 해당 feature를 SVM에 넣어 class의 분류 결과를 얻는다.(binary SVM Classifier [Yes / No] 모델 사용) == SVM 5. 해당 feature를 Regressor에 넣어 위치(bounding box)를 예측한다. ==Bounding Box Regression 한계 1. 입..
창빵맨
'ML & DL/Computer vision' 카테고리의 글 목록 (3 Page)