Awesome Detection Transformer

작성일:

Tags: object-detection, detr, survey


DETR 계열 검출기 정리

DETR 계열 검출기 모델들을 정리, Object365 등 추가 데이터를 활용하여 Pre-training한 모델은 제외하고 Backbone으로 ResNet50(R50)을 사용한 모델들 위주로 우선 리스트업.

성능표 (MS-COCO val2017)

Model Epochs AP Params(M) Date Publication
DETR-DC5 R50 500 43.3 41 2020.08 ECCV
Deformable-DETR++ (two-stage, R50) 50 46.2 40 2021.05 ICLR
Conditional-DETR DC5 R50 108 45.1 44 2021.10 ICCV
DAB-DETR DC5 R50 50 45.7 44 2022.04 ICLR
DN-DETR DC5 R50 50 46.3 44 2022.06 CVPR
DINO-5scale R50 36 51.2 47 2023.05 ICLR
Group-DINO-4scale R50 36 51.3 47 2023.10 ICCV
Co-DINO-5scale-Deformable-DETR++ R50 36 54.8 47 2023.10 ICCV
RT-DETR R50 72 53.1 42 2024.06 CVPR
Relation-DETR R50 24 52.1 47 2024.10 ECCV
Align-DETR R50 24 51.7 47 2024.11 BMVC
D-FINE-X 72 55.8 62 2025.04 ICLR
DEIM-D-FINE-X 50 56.5 62 2025.06 CVPR
MI-DETR R50 24 52.7 47 2025.06 CVPR
Mr. DETR (Align-DETR, R50) 24 52.3 47 2025.06 CVPR

†: Estimation, ‡: Use HGNetv2 as backbone

성능 그래프

모델 분류표

DETR 후속 연구들은 attention 구조(self-attention 및 cross-attention) 를 개선하여 느린 수렴 문제를 해결하려는 방향으로 발전했다. 특히, decoder의 cross-attention이 encoder memory 전역에서 객체를 탐색하는 비효율성을 줄이기 위해, deformable sampling, conditional attention 등을 적용하여 수렴 속도를 크게 향상시켰다.

또한, object query를 단순한 random vector로 초기화하던 기존 방식 대신, box(anchor)나 reference point와 같은 물리적 의미를 가진 형태로 설계하여 학습 안정성과 해석 가능성을 높이는 연구들이 등장했다. 이로써 쿼리가 이미지 내의 실제 위치 정보를 직접 참조할 수 있게 되어, decoder가 불필요한 attention 탐색을 수행하지 않고 효율적으로 객체–특징 대응을 학습할 수 있게 되었다.

이후에는 DETR의 핵심인 bipartite matching(one-to-one) 전략의 한계를 보완하기 위해, one-to-many matching이나 auxiliary matching branch를 추가하는 연구들이 등장하였다. 이 방법들은 학습 안정성을 유지하고 one-to-one 매칭을 유지하여 nms와 같은 후처리가 필요없는 심플한 구조를 유지하면서도 recall과 convergence를 동시에 개선하려는 시도라 할 수 있다.

전체적으로 보면, DETR 계열의 발전 방향은 Object Query (입력 설계), Transformer Architecture (Attention 및 Decoder 구조), 그리고 Matching Mechanism (Loss 및 학습 전략) 의 세 축으로 구분하여 이해할 수 있다.

Reference


← Back to blog