
Abstract 미리 결정된 객체 범주의 고정된 집합을 예측하도록 훈련 -> 이러한 지도 학습 방법은 일반성과 유용성 제한, 다른 시각적 개념 지정하기 위해 추가적인 레이블 데이터가 필요 이미지에 대한 Raw Text에서 직접 학습하는 것은 훨씬 더 광범위한 지도 학습 소스를 활용하는 대안 어떤 캡션이 어떤 이미지와 어울리는지 예측하는 간단한 사전 훈련 작업이 인터넷에서 수집된 4억 개(이미지, 텍스트) 쌍 데이터 세트에서 처음으로 SOTA 이미지 표현을 학습하는 효율적이고 확장 가능한 방법임을 입증 사전학습 후 자연어는 학습된 시각적 개념을 참조하거나 -> 모델의 다운스트림 작업으로의 제로샷 전이를 가능하게 함 OCR, 비디오의 액션 인식, 지리적 위치 파악 및 여러 유형의 세분화된 객체 분류 같은..