
0. Abstract
- SORT는 단순하면서도 효과적인 MOT 알고리즘.
- 본 논문에서는 SORT의 성능 향상을 위해 시각적 외형(appearance) 정보를 추가.
- 이를 통해 물체가 가려지는(occlusion) 구간이 길어져도 같은 ID를 유지하며 추적할 수 있음. -> ID 스위치 문제 줄어듦.
1. Intoduction
- object detection 기술의 발전으로 인해, tracking-by-detection 방식이 MOT의 주요 패러다임으로 자리 잡음.
- SORT는 칼만 필터링과 헝가리안 알고리즘 기반의 단순한 프레임워크로 높은 프레임 속도에서 우수한 성능을 달성.
- 하지만, SORT는 상대적으로 많은 ID switch 문제를 발생, 특히 가림(occulusion) 상황을 통한 추적에 취약함.
- 본 논문에서는 이러한 문제를 해결하기 위해, 이동 정보(motion)와 외형 정보(appearance)를 결합한 보다 정교한 연관 척도로 기존 척도를 대체.
- 대규모 사람 재식별(Person Re-Identification) 데이터셋을 이용해 학습된 CNN을 적용.
2. SORT With Deep Association Metric
2.1. Track Handling and State Estimation
- 본 논문의 추적 시나리오
- 8차원 상태 공간 (u, v, γ, h, x', y', γ', h') : 바운딩 박스 중심 위치 (u, v), 종횡비 γ, 높이 h, 그리고 이들 각각의 속도 항.
- 모델 : 표준 칼만 필터를 사용하며, 등속 운동 모델을 가정.
- 관측 : 바운딩 박스 좌표를 직접적인 관측값으로 사용, 필터를 업데이트.
- 각 트랙 k마다 마지막으로 탐지된 이후 흐른 프레임 수를 a_k를 카운트.
- a_k는 매칭되지 않으면 증가하고, 매칭에 성공하면 0으로 초기화.
- 미리 정해서 최대 수명 A_max 동안 매칭되지 않으면, 객체가 사라졌다고 판단하고 추적을 중단.
- 기존 트랙과 매칭되지 않는 새로운 탐지가 있으면 새로운 트랙을 생성.
- 새로 생긴 트랙은 처음 3 프레임 동안 임시 상태 -> 연속으로 탐지되어야만 정식 트랙으로 인정.
2.2. Assignment Problem (할당 문제)
MOT에서 연관(association)은 이전 프레임에서 추적 중인 객체를 현재 프레임에서 올바르게 연결하는 문제로, 전통적으로 헝가리안 알고리즘으로 해결 가능한 할당 문제로 모델링 된다.
본 논문에서는 이 할당 문제에 이동 정보와 외형 정보를 동시에 활용하기 위해, 두 가지 척도를 결합하는 방식을 제안.
1) 이동 기반 척도
첫 번째 척도는 이동 정보를 반영하기 위한 마할라노비스 거리(Mahalanobis distance)이다.
칼만 필터로 예측된 트랙 위치와 새로 검출된 위치 사이의 거리를 계산한다.

- (yi, Si) : i번째 트랙의 예측된 상태와 그에 대한 불확실성(공분산)
- dj : j번째 바운딩 박스 검출 결과 (측정값)
- 마할라노비스 거리는 상태 추정의 불확실성을 고려하여, 해당 검출 결과가 평균 트랙 위치로부터 몇 표준편차만큼 떨어져 있는지를 측정한다.
- 이 척도에 대해 분포의 95% 신뢰 구간을 기준으로 임계값을 적용하여 연관 가능 여부를 판단.

- i번째 트랙과 j번째 검출 간의 연관이 허용 가능한 경우 1의 값. (본 논문에서는 t(1)=9.4877)
- 마할라노비스 거리는 이동 불확실성이 낮을 때는 적절한 연관 척도지만, 가림(occlusion) 상황에서의 추적에는 충분히 정보력 있는 척도가 되지 못한다.
2) 외형 기반 척도
두 번째 척도는 외형 공간에서의 최소 코사인 거리(cosine distance).

- rj : 검출된 바운딩 박스 dj의 외형 특징 벡터. (사전 학습된 CNN을 사용.)
- rk : 트랙 k에 대해 최근에 연관된 특징 벡터.

- 마찬가지로, 이 척도에 따라 연관이 허용 가능한지를 나타내는 이진 변수를 정의.
- 임계값 t(2)는 별도의 학습 데이터셋을 통해 결정.
이 두 척도는 할당 문제의 서로 다른 측면을 담당, 상호 보완적인 역할을 한다.
마할라노비스 거리는 이동 정보를 기반으로 한 가능한 객체 위치를 제공, 단기 예측에 유용.
코사인 거리는 외형 정보를 고려함으로써, 이동 정보의 구분력이 떨어지는 장기 가림 상황 이후 ID 복구에 효과적.
할당 문제를 구성하기 위해, 두 척도를 다음과 같이 가중합으로 결합.

또한, 두 척도의 게이팅 조건을 모두 만족하는 경우에만 연관을 허용.

2.3. Matching Cascade
1) 기존 방식의 문제
기존 SORT에서는 모든 트랙과 모든 검출을 한 번에 모아서 하나의 큰 헝가리안 알고리즘으로 매칭(전역 할당).
그러나 이런 방식은 어떤 객체가 오래 가려지면(occlusion), 칼만 필터의 위치 불확실성이 커지게 된다. -> 위치 예측이 매우 퍼짐.
마할라노비스 거리는 불확실성이 커서 분포가 커질수록, 실제 물리적 거리가 멀어도 통계적 거리로 '가깝다'라고 계산함.
그 결과, 불확실한 트랙(오래 가려진 객체)이 확실한 트랙(최근까지 본 객체)이 가져야 할 탐지 결과를 가로채는 부작용이 발생.
이로 인해 트랙이 끊기거나 추적이 불안정해지는 문제를 유발한다.
2) 매칭 캐스케이드(Matching Cascade)
이를 해결하기 위해, 본 논문에서는 최근에 더 자주 관측된 객체에 우선순위를 부여하는 매칭 캐스케이드 방식을 도입.
모든 트랙을 한 번에 매칭하는 것이 아니라, 단계별(Cascade)로 나누어 매칭.

- T : 현재 추적 중인 트랙들의 인덱스 집합.
- D : 현재 프레임에서 검출된 객체들의 인덱스 지합.
- Amax : 트랙을 유지할 수 있는 최대 나이, 이보다 오래 안 보이면 트랙 삭제
1. 사전 준비
- C : 트랙 i와 검출 j 사이의 연관 비용. (이동 정보 + 외형 정보)
- B : 이 매칭이 가능한지를 나타내는 이진 값. (임계값)
2. 초기화
- M : 최종 트랙-검출 매칭 결과 집합
- U <-D : 아직 어떤 트랙에도 연결되지 않은 검출들. 처음에는 전부 미매칭 상태
3. 핵심 루프
- for n ∈ {1 … Amax} : age를 1부터 증가시키며 최근 트랙부터 먼저 처리
- Tn ← {i ∈ T | ai = n} : 매칭된 지 n 프레임 지난 트랙들 (age = n)
- [xi, j] ← min cost matching(C, Tn, U) : 현재 age 그룹 트랙(Tn)과 남아 있는 검출(U) 사이에서 매칭 수행.
- M ←... : 헝가리안 결과라도 게이팅을 통과한 것만 최종 매칭
- U ←... : 이미 트랙과 연결된 검출은 제거
- return M, U : 최종 트랙-검출 매칭 결과와 끝까지 매칭되지 못한 검출을 반
결과적으로, 트랙을 age 기준으로 나누어, 최근 관측된 트랙부터 순차적으로 검출과 매칭하는 방식.
2.4. Deep Appearance Descriptor
DeepSORT는 대규모 사람 재식별(person re-identification) 데이터셋으로 사전에 학습된 CNN을 사용.
해당 데이터셋은 1261명의 보행자에 대해 110만 장 이상의 이미지를 포함하고 있어, 사람 추적 환경에서의 deep metric learning에 매우 적합하다.

본 논문에서 사용한 CNN 구조는, 두 개의 conv layer와 여섯 개의 residual block으로 구성된 Wide Residual Network를 사용.
차원 수가 128인 전역 feature map은 10번째 dense layer에서 계산된다. 이후 최종적으로 batch normalization과 L2 normalization을 적용, feature 벡터를 코사인 거리 기반 외형 기반 척도와 호환되도록 한다.
이 네트워크는 한 번 추론하는 데 약 30ms가 소요, 최신 GPU 환경이 갖춰진 경우 온라인 추적에 충분한 성능을 제공한다.
3. Experiments
- 본 논문에서는 제안한 tracker의 성능을 MOT16 벤치마크에서 평가.
- MOT16은 이동하는 카메라가 포함된 전면 시점 장면과 상단 시점의 감시 환경 등, 총 7개의 테스트 시퀀스로 구성.
- Faster R-CNN 검출 결과를 사용하여 SORT와 공정하게 비교.

- MOTA: 오탐, 미탐, ID 스위치를 종합적으로 고려한 전체 추적 정확도.
- MOTP: 정답 위치와 예측된 바운딩 박스 간의 겹침 정도.
- MT: 전체 수명 중 80% 이상 동일한 ID로 추적된 실제 트랙의 비율.
- ML: 전체 수명 중 20% 이하만 추적된 실제 트랙의 비율.
- ID: 하나의 실제 객체에 대해 추적 ID가 변경된 횟수.
- FM: 검출 누락으로 인해 트랙이 끊긴 횟수.
실험 결과, SORT와 비교했을 때 ID 스위치가 1423회에서 781회로 줄어 약 45% 감소.
가림(occlusion)과 검출 누락 상황에도 객체의 ID를 유지하려다 보니 트랙 단절 수는 소폭 증가했지만, 전체적으로 경쟁력 있는 MOTA 성능을 유지.
또한 GPU 환경에서 20Hz로 동작해 실시간 적용이 가능함을 확인.
4. Conclusion

- DeepSORT에서는 사전 학습된 연관(association) metric을 통해 외형 정보를 통합한 SORT의 확장 기법을 제안.
- 이를 통해 객체가 오랜 시간 가려지는 상황에서도 안정적인 추적이 가능.
- 최신 온라인 MOT 알고리즘들과 경쟁 가능하며, 또한 구현이 간단하고 실시간으로 동작한다는 장점을 유지했다.
'DeepLearning > Tracking' 카테고리의 다른 글
| [Tracking] SORT: SIMPLE ONLINE AND REALTIME TRACKING 리뷰 (0) | 2025.03.17 |
|---|---|
| Fast Online Object Tracking and Segmentation: A Unifying Approach (SiamMask) (0) | 2022.04.13 |