DeViSE:A Deep Visual-Semantic Embedding Model
·
DeepLearning/Zero-Shot
Abstract비전 인식(vision recognition)은 카테고리 수가 증가함에 따라 라벨이 붙은 이미지 학습 데이트를 확보하기 매우 어려움이에 대한 해결 방안으로 본 논문에서는 주석이 없는 텍스트에서 추출된 의미적(semantic) 정보를 함께 활용하여 객체를 인식하도록 학습된 새로운 Deep Visual-Semantic Embedding 모델을 제안1000개 클래스를 구분하는 ImageNet 객체 인식 챌린지에서 당시 SOTA 모델과 동등한 성능을 달성또한 오답을 예측하더라도 좀 더 의미적으로 타당한 오답을 예측 Introdction기존 비전 인식 시스템의 한계기존 비전 인식은 N-Way 이산 분류로 이미지를 정해진 N개의 클래스로만 할당하여 문제를 해결이러한 방식은 N개의 범주를 넘어서 시스템..