Abstract
본 논문에서는
- 학습 데이터가 전혀 없는 객체라도 이미지에서 인식할 수 있는 Zero-Shot Learning(ZSL) 모델을 제안
- 학습 데이터가 풍부한 클래스에 대해서는 SOTA 수준의 성능을 달성, 동시에 학습 데이터가 없는 클래스에 대해서도 합리적인 성능을 보임
- 먼저 의미 공간(semantic space)에서의 이상치 탐지를 수행한 뒤, 두 개의 분리된 인식 모델을 사용하는 방식으로 달성
- 또한 수작업으로 정의된 의미적 특징이 전혀 필요로 하지 않는다는 장점
1. Introduction
현실 세계에는 라벨이 없는 데이터가 매우 풍부하며, 새로운 제품이나 기술의 등장으로 인해 기존에 학습되지 않은 시각적 범주가 지속적으로 생성된다. 이러한 환경에서 기존의 지도학습 기반 분류기는 학습된 클래스만 예측할 수 있다는 한계를 가진다.
본 논문은 자연어 기반의 의미적 지식(semantic knowledge)을 활용하여, 학습 데이터가 존재하지 않는 객체(unseen class)까지 분류할 수 있는 모델을 제안한다.
제안 모델은 학습된 클래스(seen class)와 학습되지 않은 클래스(unseen class)를 모두 예측할 수 있는 결합형 분류 모델로, 다음 두 가지 핵심 아이디어를 기반으로 한다.

1) 의미 공간(Semantic space)으로의 매핑
이미지를 단어로 구성된 의미 공간으로 매핑함으로써 시각 정보와 언어적 의미를 연결한다.
이 의미 공간은 대규모 비지도 텍스트 코퍼스에서 학습된 신경망 언어 모델을 통해 구축되며, 이미지 특징을 해당 공간에 투영함으로써 시각적 개념과 단어 간의 의미적 관계를 활용할 수 있다.
2) 이상치 탐지(Outlier detection)의 도입
일반적인 분류기는 입력 이미지가 반드시 학습된 클래스 중 하나에 속한다고 가정한다. 반면, 본 논문에서는 입력 이미지가 기존 학습 클래스의 분포에 속하는지 여부를 확률적으로 판단한다.
표준 분류기를 통해 학습 클래스 분포를 모델링하고, 해당 분포에서 벗어나는 샘플은 이상치(outlier)로 간주하여 보지 못한 클래스일 가능성을 평가한 뒤, 의미 공간 상의 정보를 기반으로 적절한 클래스를 할당한다.
2. Related Work
Zero-Shot Learning
기존 Zero-Shot Learning 연구에서는 데이터(예: 특정 단어를 떠올리고 있는 사람의 fMRI 스캔)를 사람이 수작업으로 설계한 특징 공간으로 매핑한 뒤, 해당 의미적 특징을 이용해 분류를 수행하였다. 이러한 접근은 학습 데이터가 없는 단어에 대해서도 의미적 특징을 예측할 수 있으며, 여러 zero-shot 클래스 간의 구분 실험을 가능하게 한다.
그러나 기존 방법들은 테스트 인스턴스가 학습된 클래스(seen class)인지, 혹은 학습되지 않은 클래스(unseen class)인지를 구분하지 못한 채, 오직 unseen 클래스 집합 내에서만 분류를 수행한다는 한계를 가진다. 즉, 실제 환경에서 요구되는 seen/unseen 클래스를 동시에 포함하는 분류 설정을 다루지 못한다.
본 논문은 이러한 한계를 극복하기 위해 이상치 탐지(outlier detection)를 도입함으로써, 입력 샘플이 기존 학습 클래스의 분포에 속하는지를 먼저 판단하고, unseen 클래스일 가능성이 있는 경우에만 zero-shot 분류를 수행하는 설정을 가능하게 한다.
One-Shot Learning / Few-Shot Learning
One-shot learning(또는 few-shot learning)은 매우 적은 수의 학습 예제를 사용하여 새로운 객체 클래스를 학습하는 문제를 다룬다. 최근 연구들은 딥러닝을 통해 저수준 이미지 특징을 학습하고, 이를 확률적 모델이나 메트릭 학습을 통해 새로운 클래스에 전이하는 방식으로 성능을 향상시켰다.
반면, 본 논문은 자연어로부터의 cross-modal 지식 전이를 활용하여, 학습 데이터가 전혀 없는 객체 클래스에 대해서도 분류를 수행할 수 있다. 동시에 충분한 학습 데이터가 존재하는 클래스에 대해서는 기존의 지도학습 분류 성능을 유지함으로써, zero-shot과 supervised learning을 하나의 프레임워크로 통합한다.
Knowledge and Visual Attribute Transfer
기존 연구에서는 보지 못한 클래스에 대해 사람이 정교하게 설계한 시각적 속성(visual attributes)을 활용하여 분류를 수행하였다. 이러한 방식은 높은 표현력을 가지지만, 속성 정의 및 어노테이션에 많은 인적 비용이 필요하다는 단점이 있다.
본 논문에서는 이러한 수작업 속성 설계를 배제하고, 비지도 및 비정렬(unlabeled, unaligned) 텍스트 코퍼스로부터 학습된 단어의 분포적 특징(distributional semantics)만을 사용한다. 이를 통해 수천 장의 학습 이미지가 존재하는 클래스와 학습 이미지가 전혀 없는 클래스를 동시에 분류할 수 있는 모델을 제안한다.
Multimodal Embeddings
멀티모달 임베딩은 이미지–텍스트, 영상–음성 등 서로 다른 정보 소스를 공통의 표현 공간으로 매핑하는 연구 분야이다. 기존 연구들은 일반적으로 각 클래스마다 일정량의 학습 데이터가 필요하다는 제약을 가진다.
본 연구는 이러한 제약을 완화하여, 완전한 zero-shot 상황에서도 동작 가능한 멀티모달 임베딩 모델을 제안한다. 특히, 객체 분류와 의미적 속성 예측을 동시에 수행할 수 있도록 설계된 결합(Joint) 모델을 통해 보다 효과적인 시각–언어 표현 학습을 달성한다.
3. Word and Image Representations
본 논문에서는 단어와 이미지에 대한 특징 표현(feature representation)을 다음과 같이 정의한다.
Word Representation
단어 특징 표현을 위해, 비지도 학습으로 사전 학습된 50차원 단어 임베딩을 사용한다. 해당 단어 임베딩 모델은 위키피디아에서 수집한 대규모 비정형 텍스트 코퍼스를 이용하여, 주어진 문맥에서 특정 단어가 등장할 확률을 예측하는 방식으로 학습된다.
이 과정에서 단어 주변의 로컬 문맥(local context)과 문서 수준의 글로벌 문맥(global document context)을 모두 고려하며, 결과적으로 생성된 단어 벡터는 단어의 분포적 구문 정보와 의미 정보를 효과적으로 포착한다.
Image Representation
이미지 특징 추출을 위해 비지도 학습 기반의 특징 학습 방법을 사용하여, 원시 픽셀(raw pixel)로부터 F차원의 이미지 특징 벡터를 추출한다. 따라서 각 이미지는

형태의 벡터로 표현된다.
4. Projecting Images into Semantic Word Spaces
본 논문에서는 이미지 간의 의미적 관계와 클래스 정보를 학습하기 위해, 이미지 특징 벡터를 50차원의 단어 의미 공간(semantic word space)으로 투영한다. 이를 통해 시각적 특징과 언어적 의미를 동일한 표현 공간에서 비교할 수 있도록 한다.
Semantic Projection Model
이미지–단어 간 매핑을 학습하기 위한 목적 함수는 다음과 같이 정의된다.

여기서
- : 이미지 특징 벡터
- : 이미지가 속한 클래스 에 대응하는 단어 벡터
- : 학습해야 할 이미지-단어 매핑 행렬
이 목적 함수를 최소화하도록 학습함으로써, 이미지 특징은 해당 클래스의 단어 의미와 암묵적으로 정렬(alignment)되며, 결과적으로 이미지와 단어 간의 의미적 연결이 형성된다.
Semantic Space Visualization
아래 그림은 학습된 클래스와 보지 못한 클래스(unseen class)를 모두 포함한 50차원 의미 공간을 시각화한 결과이다.
시각화를 위해 T-SNE를 사용하여 50차원 공간을 2차원으로 축소하였다.

이 그림에서 보지 못한 클래스는 cat과 truck이다. 시각화 결과, 대부분의 학습된 클래스 이미지들은 해당 클래스 이름에 대응하는 단어 벡터 주변에 밀집되어 분포하는 반면, zero-shot 클래스는 직접적으로 가까운 단어 벡터를 가지지 않는다.
그러나 zero-shot 클래스에 속한 이미지들은 의미적으로 유사한 클래스 인근에 위치하는 경향을 보인다. 예를 들어, cat 클래스의 이미지는 dog나 horse와 같은 동물 클래스 근처로 매핑되며, 이는 학습된 의미 공간이 시각적 의미 유사성을 효과적으로 반영하고 있음을 보여준다.
5. Zero-Shot Learning Model
본 절에서는 제안하는 Zero-Shot Learning 모델의 전체 구조를 개괄한 후, 각 구성 요소를 순차적으로 설명한다.
모델의 목표는 입력 이미지 가 주어졌을 때, 학습된 클래스(seen class)와 학습되지 않은 클래스(unseen class)를 모두 포함하는 클래스 집합

에 대해 조건부 확률 를 추정하는 것이다.
일반적인 분류기는 학습 데이터가 존재하지 않는 클래스를 예측할 수 없다는 한계를 가진다.
본 논문에서는 이미지가 학습된 클래스에 속하는지 여부를 나타내는 이진 가시성 변수(binary visibility variable)

를 도입한다. 는 이미지가 학습된 클래스에 속함을, 는 학습되지 않은 클래스에 속함을 의미.
새로운 입력 이미지 에 대한 클래스 예측은 다음과 같이 수행된다.

이후에는 위 식의 각 항을 구성하는 요소들을 설명.
Outlier Detection을 통한 Unseen Class 판별
는 입력 이미지가 학습되지 않은 클래스(unseen class)에 속할 확률을 의미한다.
이 값은 의미 공간(semantic space)으로 투영된 학습 이미지들의 분포를 기반으로 한 이상치 탐지(outlier detection)를 통해 계산된다.
구체적으로, 학습된 클래스의 이미지들을 의미 공간으로 매핑한 후, 각 클래스에 대해 가우시안 분포를 가정한다.
학습된 클래스 전체에 대한 주변 확률(marginal probability)은 다음과 같이 정의된다.

여기서 각 클래스 에 대한 가우시안 분포는 해당 클래스의 단어 벡터 를 평균으로 하며, 공분산 행렬 는 동일한 클래스에 속한 모든 학습 샘플로부터 추정된다. 과적합을 방지하기 위해, 가우시안 분포는 등방성(isometric)으로 제한된다.
등방성(isometric)이란?
- 일반적인 가우시안: 데이터 분포에 따라 찌그러진 타원형 모양을 가질 수 있다.
- 등방성 가우시안: 모든 방향으로 퍼진 정도가 똑같아서 완벽한 원 모양을 가진다. 중심에서 어느 방향으로 가든 확률이 똑같이 줄어든다는 특징을 가짐.
새로운 입력 이미지 에 대해, 주변 확률 임계값 보다 작은 경우 해당 이미지를 이상치로 간주한다.

다양한 임계값 에 대한 성능은 실험을 통해 분석한다.
Seen/Unseen 클래스에 대한 분류
입력 이미지가 학습된 클래스에 속한다고 판단된 경우, 기존의 지도학습 분류기를 사용하여

를 계산할 수 있다. 본 논문에서는 원본 차원 이미지 특징을 입력으로 하는 softmax 분류기를 사용한다.
반면, 입력 이미지가 학습되지 않은 클래스에 속한다고 판단된 경우, 각 zero-shot 클래스의 단어 벡터를 평균으로 하는 등방성 가우시안 분포를 가정하여 확률을 계산한다. 이를 통해 학습 데이터가 전혀 없는 클래스에 대해서도 분류가 가능해진다.
6. Experiments
본 논문에서는 CIFAR-10 데이터셋에서 대부분의 실험을 수행.
CIFAR-10 데이터셋?
10개의 클래스와 클래당 5,000장의 32x32x3 RGB 이미지로 구성
이미지 특징 추출을 위해 비지도 학습 기반 특징 추출 방법을 사용, 각 이미지는 12,800차원 특징 벡터로 표현.
Zero-shot 분석을 위해, 이후 실험에서는 전체 10개 클래스 중 2개 클래스를 학습 과정에서 제외.
6.1. Zero-Shot Classes Only
본 절에서는 두 개의 zero-shot 클래스만을 대상으로 한 분류 성능을 비교한다.
실험 결과, 학습된 클래스(seen class) 중 zero-shot 클래스와 의미적으로 유사한 클래스가 존재하지 않는 경우, 분류 성능은 무작위 추측에 가까운 수준으로 떨어진다.
예를 들어, cat과 dog 클래스를 학습 과정에서 제외할 경우, 나머지 8개 클래스 중 어느 것도 이들과 충분히 유사하지 않기 때문에 효과적인 특징 매핑을 학습할 수 없으며, 결과적으로 zero-shot 분류 성능도 낮게 나타난다.
반면, cat과 truck 클래스를 학습에서 제외한 경우, cat은 dog 클래스로부터, truck은 car 클래스로부터 의미적 지식 전이가 가능하다. 이로 인해 해당 클래스들의 단어 벡터는 의미 공간으로 효과적으로 매핑될 수 있으며, zero-shot 분류 성능 또한 매우 높게 나타난다.

위 그림은 이상치 탐지(outlier detection)에 사용된 다양한 cutoff 값(축)에 따른 성능을 보여준다.
여기서, cutoff는 이상치 탐지 과정에서 각 샘플의 주변 확률(marginal)에 대한 음의 로그 우도(negative log-liklihood)를 기준으로 정의된다.
실험 결과, unseen 클래스의 이미지들을 zero-shot 클래스 집합 내에서만 분류하는 경우(그림의 오른쪽), 80% 이상의 분류 정확도를 달성할 수 있음을 확인할 수 있다.
즉, cutoff(이상치 탐지에 사용된 임계값 )가 커지면 이미지 가 unseen class로 분류가 되고,
unseen 끼리 분류 할 경우 80% 이상의 분류 정확도를 달성했다.
6.2. Zero-Shot and Seen Classes
위 그림을 통해, 테스트 단계에서 이미지를 학습된 클래스(seen class)와 학습되지 않은 클래스(unseen class)로 분리하는 임계값에 따라 분류 성능이 달라짐을 확인할 수 있다.
적절한 임계값을 설정할 경우, 학습된 클래스에 대해서는 약 80% 수준의 분류 정확도를 얻을 수 있다.
이때 학습된 클래스의 분류 정확도가 약 70% 수준일 경우, 학습되지 않은 클래스는 15%에서 30% 사이의 정확도로 분류 된다.
이는 무작위 추측인 10%에 비해 유의미하게 높은 성능으로, 본 모델이 seen/unseen 클래스를 동시에 포함하는 분류 문제에서도 일정 수준의 성능을 유지함을 보여준다.
7. Conclusion
본 논문에서는 표준 분류와 zero-shot 분류를 동시에 수행할 수 있는 새로운 결합 모델을 제안.
제안 모델은 딥러닝을 통해 학습된 단어 표현과 이미지 표현을 기반으로 하며, 두 가지 핵심 아이디어에 의해 구성.
1) Semantic word vector representations
의미적 단어 벡터 표현을 활용함으로써, 해당 표현이 비지도 학습 방식으로 학습되었음에도 불구하고, 클래스 간 지식 전이가 가능함을 보임.
이를 통해 학습 데이터가 없는 클래스에 대해서도 의미적 정보를 활용한 분류가 가능해진다.
2) Outlier detection
의미 공간으로 투영된 이미지들이 형성하는 분포에서 이상치(outlier)를 먼저 구분함으로써, zero-shot 분류와 기존의 지도학습 기반 분류를 하나의 통합된 모델 안에서 효과적으로 결합할 수 있음을 보였다.
특히, 분류 대상이 zero-shot 클래스들 간의 구분으로 제한된 경우, 제안한 모델은 완전한 비지도 학습 설정에서도 최대 90%에 달하는 분류 정확도를 달성할 수 있음을 실험적으로 확인.
'DeepLearning > Classification' 카테고리의 다른 글
| CBAM: Convolutional Block Attention Module 리뷰 (0) | 2024.05.29 |
|---|---|
| BAM: Bottleneck Attention Module 리뷰 (0) | 2024.05.23 |
| [Classification] ResNet (0) | 2021.09.10 |
| [Classification] VGGNet (0) | 2021.08.05 |
| [Classification] AlexNet (0) | 2021.08.03 |