객체 탐지(object detection)는 분류(classification)와 로컬라이제이션(localization)을 합친 것이라고 볼 수 있습니다.
즉, 객체의 위치를 바운딩박스(bounding box)로 찾고 분류하는 것입니다. 여기서 객체의 위치는 4개의 좌표를 사용하며, 이것은 회귀 문제와 같습니다.
따라서 객체 탐지는 이미지 분류, 좌표 회귀 분석 두 가지 작업이 필요합니다.
객체 탐지를 위해 좌표를 찾는 방법은 여러가지가 있습니다. 앞서 언급한 것처럼 회귀 분석을 사용할 수도 있고, 슬라이딩 윈도우(sliding-window) 알고리즘을 사용할 수도 있습니다. 하지만 회귀 분석은 실효성이 떨어지며, 슬라이딩 윈도우는 계산 측면에서 비효율적입니다.
따라서 좌표를 찾기 위해 영역 제안 기법을 적용한 객체 탐지 모델인 R-CNN을 시작으로, Fast R-CNN, Faster R-CNN 등이 있습니다.
또한 YOLO(You Only Look Once)도 많이 사용되고 있습니다.
객체 탐지 모델을 직접 설계해도 되지만, SOTA(State-of-the-art) 모델을 잘 파인튜닝(fine-tuning) 하는 것이 더 좋은 경험이 될 수 있을 것 같습니다.
모델 실습은 이곳을 참조 해주세요.
'AI > Computer Vision' 카테고리의 다른 글
[Computer Vision] 시맨틱 분할 (Semantic Segmentation) (0) | 2023.06.25 |
---|---|
[Computer Vision] 이미지 검색 (0) | 2023.06.16 |
[Computer Vision] 이미지 분류 (1) | 2023.06.15 |