분류 전체보기 490

DINOv2

데이터셋이 너무 작거나 품질이 많이 떨어질 때, DINOv2는 self-supervised learning을 통해서 하고, 방대한 양의 데이터셋, 메모리 사용을 줄이면서도 빠른 학습 기법을 가집니다. Data Processing1. Collecting Raw Images 2. Deduplication중복되는 이미지들을 제거 3. self-supervised image retrieval인터넷에서 모은 uncurated data에 대해서 curation, Curated/Uncurated 모두 vit-h/16 모델을 통해 embedding으로 뽑아줌, uncurated data에 대해 k-means clustring 수행, 각 curated 데이터에 대해 가장 가까운 N개의 uncurated data 를..

카테고리 없음 2025.07.24

DINO: DETR with Improved DeNoising AnchorBoxes for End-to-End Object Detection

Abstract기존의 객체 탐지 알고리즘(Faster R-CNN)들은 여러 수작업으로 설계된 구성 요소가 필요했습니다. 앵커박스, 비최대억제, ROL POOLING/ALIGN 등, 이러한 구성 요소들은 세심한 튜닝이 필요하고, 때로는 복잡하게 얽혀 있어 관리하기 어렵습니다. DETR은 수작업 구성 요소의 필요성을 대부분 없애며 파이프라인을 훨씬 단순화하여, 객체 감지 모델을 더 간결하고 효율적으로 마듬 고전적인 감지기 : 수많은 경계 상자 후보를 예측한 다음 NMS를 사용하여 이를 필터링DETR : 객체 감지를 '직접적인 집합 예측' 작업을 모델링, 중복 박스를 예측하는 대신, 고정된 크기의 고유한 경계 상자 집합과 해당 클래스 레이블을 직접 예측하는 방식, 고정된 크기보다 객체 수가 작다면, 나머지 예..

CLIP

Abstract 미리 결정된 객체 범주의 고정된 집합을 예측하도록 훈련 -> 이러한 지도 학습 방법은 일반성과 유용성 제한, 다른 시각적 개념 지정하기 위해 추가적인 레이블 데이터가 필요 이미지에 대한 Raw Text에서 직접 학습하는 것은 훨씬 더 광범위한 지도 학습 소스를 활용하는 대안 어떤 캡션이 어떤 이미지와 어울리는지 예측하는 간단한 사전 훈련 작업이 인터넷에서 수집된 4억 개(이미지, 텍스트) 쌍 데이터 세트에서 처음으로 SOTA 이미지 표현을 학습하는 효율적이고 확장 가능한 방법임을 입증 사전학습 후 자연어는 학습된 시각적 개념을 참조하거나 -> 모델의 다운스트림 작업으로의 제로샷 전이를 가능하게 함 OCR, 비디오의 액션 인식, 지리적 위치 파악 및 여러 유형의 세분화된 객체 분류 같은..

Segment Anything

Abstract메타에서 나온 논문으로 1,100만 개의 라이선스 및 개인 정보 보호 이미지를 기반으로 10억 개 이상의 마스크를 포함하는 현재 가장 큰 segmentation 데이터셋을 구축, 새로운 이미지 분포에 zero shot으로 전이될 수 있습니다. 데이터셋 공개 Introduction웹 규모 데이터셋 LLM은 강력한 zero-shot, few-shot으로 자연어 처리의 혁명 [LMs are Few-shot learners] 텍스트와 이미지를 정렬하는 것 CLIP과 ALIGN은 contrastive learning을 사용하여 두 modality를 정렬하는 텍스트 및 이미지 인코더를 훈련, 훈련이 완료되면 엔지니어링된 텍스트 prompt를 통해 새로운 시각적 개념 및 데이터 분포에 대한 zero-..

Do As I Can, Not As I Say:Grounding Language in Robotic Affordances

Abstract언어 모델의 중요한 약점은 현실세계의 경험이 부족하다는 것입니다. 그래서 주어진 것 이내에는 어떠한 결정을 하는 것이 어렵습니다. 현실 세계의 제약 조건이나 로봇의 능력을 고려하지 않음 Pretained Skills로봇이 수행할 수 있는 사전 훈련된 저수준 동작 기술들 이 기술들을 제약 조건으로 사용하여 언어 모델이 제안하는 행동들이 현실적으로 실행 가능하고 문맥에 맞는 형태가 되도록 유도 Language Model: 고수준 지식 및 절차 제공 (예: “액체를 닦아라”와 같은 추상적 지시)로봇: 언어 모델의 “눈과 손”이 되어 실제 환경에서 동작 수행Value Functions (가치 함수): 각 기술의 적합성과 효과를 평가하여 현실과 연결된 결정을 가능하게 함여러 실제 로봇 작업에 적..

End-to-End Object Detection with Transformers

Abstract기존 객체 탐지 모델 (Faster R-CNN/ YOLO)는 복잡한 전처리 및 후처리 단계들을 필요로 함Archor Box 생성Non-Maximum Supression (NMS) 적용많은 head-crafted heuristic rules이는 시스템을 복잡하게 하며, 사전 지식에 의존 DETR의 주요 기여예측된 객체와 실제 객체 간 일대일 매칭 강제, 중복 없는 예측 수행트랜스포머 Encoder, Decoder 구조, tranformer encoder로 입력 이미지에 추출된 feature를 처리하고, 고정된 개수의 object queries를 decoder에 입력하여, 각 query가 하나의 객체를 예측하도록 학습 이것을 통해 global context와 객체 간 관계를 동시에 고려할 수..

Numpy

Numerical Python의 약자고성능 과학 계산용 패키지로 강력한 N차원 배열 객체범용적 데이터 처리에 사용 가능한 다차원 컨테이너정교환 브로드캐스팅 기능파이썬의 자료형 list와 비슷하지만, 더 빠르고 메모리를 효율적 관리반복문 없이 데이터 배열 처리 지원 빠르고 편리데이터 과학 도구에 대한 생태계의 핵심 a2 = np.array([ [1,2,3], [4,5,6], [7,8,9]])print(a2)print(a2.shape)print(a2[0,0], a2[1,0], a2[2,1]) a3 = np.array([[ [1,2,3], [4,5,6], [7,8,9] ], [ [1,2,3], [4,5,6], [7,8,9] ], [ [1,2,3], [4,5,6..

Rich feature hierarchies for accurate object detection and semantic segmentation

AbstractPROB : 최고 성능을 보이는 SOTA들은 복잡한 앙상블 구조로 되어 있으며, Low level 이미지 특징과 High level 문맥 정보가 결합됨 SOL : R-CNN 제안 1) 이미지에서 bottom-up 방식으로 제안된 region proposals에 high-capacity CNN을 적용2) 학습 데이터가 부족할 경우, 보조 작업에 대한 사전 학습 후 도메인 특화 fine-tuning을 함 사전 학습된 cnn을 그대로 쓰는 것이 아닌, 객체 탐지 데이터셋에 맞게 fine-tuining 을 하면서 학습 데이터가 부족한 객체탐지 상황에서 사전 학습된 일반적 특징을 활용해서 성능을 끌어올림 Introduction 이 시점에서는 SIFT와 HOG를 기반으로 동작을 했음 2010~20..

카테고리 없음 2025.07.08

pytorch / dataset

파이토치는 torch.utils.data의 Dataset과 DataLoader 사용가능합니다. from torch.utils.data import Dataset, DataLoader#transforms : 전처리할 때 사용하는 메소드#transforms에서 제공하는 클래스 이외는 일반적으로 클래스를 따로 만들어 전처리 단계를 진행 import torchvision.transforms as transformsfrom torchvision import datasets#DataLoader의 인자로 들어갈 transform을 미리 정의할 수 있고, Compose를 통해 리스트 안에 순서대로 전처리 전행#ToTensor()를 하는 이유는 torchvision이 PIL Image 형태로만 입력을 받기 때문에 데이터..

Flamingo: a Visual Language Modelfor Few-Shot Learning

Abstract구조적 혁신 1) 강력한 사전학습된 비전 전용 모델과 언어 전용 모델을 효과적으로 연결2) 시각적 데이터와 텍스트 데이터가 임의의 섞여 있는 순서를 처리할 수 있는 능력3) 이미지 또는 비디오를 입력으로 자연스럽게 처리할 수 있는 구조 in-context few-shot learning 이 능력 갖추는 것이 핵심적 시각적 질의응답, 장면이나 사건 설명하느 이미지 캡셔닝, 여러 선택지 중 정답을 고르는 VQA 작 업 단 하나의 Flamingo 모델이 몇 개의 예제만을 제공받는 few-shot 학습 방식으로도 새로운 SOTA 성능 달성 가능 -> fine-tuning된 기존 모델들을 능가하는 성능 보여줌 Introduction짧은 지시문만으로 새로운 작업을 빠르게 학습하는 능력 현재 ..