IT 프로그래밍 427

DINO: DETR with Improved DeNoising AnchorBoxes for End-to-End Object Detection

Abstract기존의 객체 탐지 알고리즘(Faster R-CNN)들은 여러 수작업으로 설계된 구성 요소가 필요했습니다. 앵커박스, 비최대억제, ROL POOLING/ALIGN 등, 이러한 구성 요소들은 세심한 튜닝이 필요하고, 때로는 복잡하게 얽혀 있어 관리하기 어렵습니다. DETR은 수작업 구성 요소의 필요성을 대부분 없애며 파이프라인을 훨씬 단순화하여, 객체 감지 모델을 더 간결하고 효율적으로 마듬 고전적인 감지기 : 수많은 경계 상자 후보를 예측한 다음 NMS를 사용하여 이를 필터링DETR : 객체 감지를 '직접적인 집합 예측' 작업을 모델링, 중복 박스를 예측하는 대신, 고정된 크기의 고유한 경계 상자 집합과 해당 클래스 레이블을 직접 예측하는 방식, 고정된 크기보다 객체 수가 작다면, 나머지 예..

CLIP

Abstract 미리 결정된 객체 범주의 고정된 집합을 예측하도록 훈련 -> 이러한 지도 학습 방법은 일반성과 유용성 제한, 다른 시각적 개념 지정하기 위해 추가적인 레이블 데이터가 필요 이미지에 대한 Raw Text에서 직접 학습하는 것은 훨씬 더 광범위한 지도 학습 소스를 활용하는 대안 어떤 캡션이 어떤 이미지와 어울리는지 예측하는 간단한 사전 훈련 작업이 인터넷에서 수집된 4억 개(이미지, 텍스트) 쌍 데이터 세트에서 처음으로 SOTA 이미지 표현을 학습하는 효율적이고 확장 가능한 방법임을 입증 사전학습 후 자연어는 학습된 시각적 개념을 참조하거나 -> 모델의 다운스트림 작업으로의 제로샷 전이를 가능하게 함 OCR, 비디오의 액션 인식, 지리적 위치 파악 및 여러 유형의 세분화된 객체 분류 같은..

Segment Anything

Abstract메타에서 나온 논문으로 1,100만 개의 라이선스 및 개인 정보 보호 이미지를 기반으로 10억 개 이상의 마스크를 포함하는 현재 가장 큰 segmentation 데이터셋을 구축, 새로운 이미지 분포에 zero shot으로 전이될 수 있습니다. 데이터셋 공개 Introduction웹 규모 데이터셋 LLM은 강력한 zero-shot, few-shot으로 자연어 처리의 혁명 [LMs are Few-shot learners] 텍스트와 이미지를 정렬하는 것 CLIP과 ALIGN은 contrastive learning을 사용하여 두 modality를 정렬하는 텍스트 및 이미지 인코더를 훈련, 훈련이 완료되면 엔지니어링된 텍스트 prompt를 통해 새로운 시각적 개념 및 데이터 분포에 대한 zero-..

Do As I Can, Not As I Say:Grounding Language in Robotic Affordances

Abstract언어 모델의 중요한 약점은 현실세계의 경험이 부족하다는 것입니다. 그래서 주어진 것 이내에는 어떠한 결정을 하는 것이 어렵습니다. 현실 세계의 제약 조건이나 로봇의 능력을 고려하지 않음 Pretained Skills로봇이 수행할 수 있는 사전 훈련된 저수준 동작 기술들 이 기술들을 제약 조건으로 사용하여 언어 모델이 제안하는 행동들이 현실적으로 실행 가능하고 문맥에 맞는 형태가 되도록 유도 Language Model: 고수준 지식 및 절차 제공 (예: “액체를 닦아라”와 같은 추상적 지시)로봇: 언어 모델의 “눈과 손”이 되어 실제 환경에서 동작 수행Value Functions (가치 함수): 각 기술의 적합성과 효과를 평가하여 현실과 연결된 결정을 가능하게 함여러 실제 로봇 작업에 적..

End-to-End Object Detection with Transformers

Abstract기존 객체 탐지 모델 (Faster R-CNN/ YOLO)는 복잡한 전처리 및 후처리 단계들을 필요로 함Archor Box 생성Non-Maximum Supression (NMS) 적용많은 head-crafted heuristic rules이는 시스템을 복잡하게 하며, 사전 지식에 의존 DETR의 주요 기여예측된 객체와 실제 객체 간 일대일 매칭 강제, 중복 없는 예측 수행트랜스포머 Encoder, Decoder 구조, tranformer encoder로 입력 이미지에 추출된 feature를 처리하고, 고정된 개수의 object queries를 decoder에 입력하여, 각 query가 하나의 객체를 예측하도록 학습 이것을 통해 global context와 객체 간 관계를 동시에 고려할 수..

Numpy

Numerical Python의 약자고성능 과학 계산용 패키지로 강력한 N차원 배열 객체범용적 데이터 처리에 사용 가능한 다차원 컨테이너정교환 브로드캐스팅 기능파이썬의 자료형 list와 비슷하지만, 더 빠르고 메모리를 효율적 관리반복문 없이 데이터 배열 처리 지원 빠르고 편리데이터 과학 도구에 대한 생태계의 핵심 a2 = np.array([ [1,2,3], [4,5,6], [7,8,9]])print(a2)print(a2.shape)print(a2[0,0], a2[1,0], a2[2,1]) a3 = np.array([[ [1,2,3], [4,5,6], [7,8,9] ], [ [1,2,3], [4,5,6], [7,8,9] ], [ [1,2,3], [4,5,6..

pytorch / dataset

파이토치는 torch.utils.data의 Dataset과 DataLoader 사용가능합니다. from torch.utils.data import Dataset, DataLoader#transforms : 전처리할 때 사용하는 메소드#transforms에서 제공하는 클래스 이외는 일반적으로 클래스를 따로 만들어 전처리 단계를 진행 import torchvision.transforms as transformsfrom torchvision import datasets#DataLoader의 인자로 들어갈 transform을 미리 정의할 수 있고, Compose를 통해 리스트 안에 순서대로 전처리 전행#ToTensor()를 하는 이유는 torchvision이 PIL Image 형태로만 입력을 받기 때문에 데이터..

Flamingo: a Visual Language Modelfor Few-Shot Learning

Abstract구조적 혁신 1) 강력한 사전학습된 비전 전용 모델과 언어 전용 모델을 효과적으로 연결2) 시각적 데이터와 텍스트 데이터가 임의의 섞여 있는 순서를 처리할 수 있는 능력3) 이미지 또는 비디오를 입력으로 자연스럽게 처리할 수 있는 구조 in-context few-shot learning 이 능력 갖추는 것이 핵심적 시각적 질의응답, 장면이나 사건 설명하느 이미지 캡셔닝, 여러 선택지 중 정답을 고르는 VQA 작 업 단 하나의 Flamingo 모델이 몇 개의 예제만을 제공받는 few-shot 학습 방식으로도 새로운 SOTA 성능 달성 가능 -> fine-tuning된 기존 모델들을 능가하는 성능 보여줌 Introduction짧은 지시문만으로 새로운 작업을 빠르게 학습하는 능력 현재 ..

Pytorch

torch : 메인 네임스페이스, 텐서 등의 다양한 수학 함수가 포함torch.autograd : 자동 미분 기능을 제공하는 라이브러리torch.nn : 신경망 구축을 위한 데이터 구조나 레이어 등의 라이브러리torch.multiprocessing : 병렬 처리 기능을 제공하는 라이브러리torch.optim : SGD를 중심으로 파라미터 최적화 알고리즘 제공torch.utils : 데이터 조작 등 유틸리티 기능 제공 torch.onnx : ONNX, 서로 다른 프레임워크 간의 모델을 공유할 때 사용 텐서(Tensors)데이터 표현을 위한 기본 구조로 텐서를 사용텐서는 데이터를 담기위한 컨테이너로서 일반적으로 수치형 데이터를 저장넘파이(Numpy)의 ndarray와 유사GPU를 사용한 연산 가속 기능imp..

GAN - Generative Adversarial Networks

AbstractGAN은 생성 모델링 문제를 해결하기 위해 고안된 인공지능 알고리즘 중 하나입니다. 생성 모델의 목표인 학습용 예시 데이터 집합을 분석하여, 이를 생성해낸 확률 분포를 학습하는 것입니다. GAN은 이렇게 추정된 확률 분포로부터 새로운 예시들을 생성할 수 잇습니다. 딥러닝 기반 생성 모델은 여러 형태가 있지만, GAN은 특히 현실적힌 고해상도 이미지를 생성하는 능력 면에서 성공적인 생성 모델 중 하나입니다. GAN은 다양한 작업에 성공적으로 적용해왔으며 기존 생성모델과는 달리 Game Theory를 기반(다른 생성 모델은 optimization임) INTRODUCTION입력 - 출력 쌍으로 데이터셋 입력 받는 지도학습이 주류 입력을 출력과 연관시키는 법 학습하며, 입력 -> 출력의 매핑..