
데이터셋이 너무 작거나 품질이 많이 떨어질 때, DINOv2는 self-supervised learning을 통해서 하고, 방대한 양의 데이터셋, 메모리 사용을 줄이면서도 빠른 학습 기법을 가집니다. Data Processing1. Collecting Raw Images 2. Deduplication중복되는 이미지들을 제거 3. self-supervised image retrieval인터넷에서 모은 uncurated data에 대해서 curation, Curated/Uncurated 모두 vit-h/16 모델을 통해 embedding으로 뽑아줌, uncurated data에 대해 k-means clustring 수행, 각 curated 데이터에 대해 가장 가까운 N개의 uncurated data 를..