기술 블로그

CLIP

Abstract 미리 결정된 객체 범주의 고정된 집합을 예측하도록 훈련 -> 이러한 지도 학습 방법은 일반성과 유용성 제한, 다른 시각적 개념 지정하기 위해 추가적인 레이블 데이터가 필요 이미지에 대한 Raw Text에서 직접 학습하는 것은 훨씬 더 광범위한 지도 학습 소스를 활용하는 대안 어떤 캡션이 어떤 이미지와 어울리는지 예측하는 간단한 사전 훈련 작업이 인터넷에서 수집된 4억 개(이미지, 텍스트) 쌍 데이터 세트에서 처음으로 SOTA 이미지 표현을 학습하는 효율적이고 확장 가능한 방법임을 입증 사전학습 후 자연어는 학습된 시각적 개념을 참조하거나 -> 모델의 다운스트림 작업으로의 제로샷 전이를 가능하게 함 OCR, 비디오의 액션 인식, 지리적 위치 파악 및 여러 유형의 세분화된 객체 분류 같은..

IT 프로그래밍/논문 리뷰 2025.07.15

Segment Anything

Abstract메타에서 나온 논문으로 1,100만 개의 라이선스 및 개인 정보 보호 이미지를 기반으로 10억 개 이상의 마스크를 포함하는 현재 가장 큰 segmentation 데이터셋을 구축, 새로운 이미지 분포에 zero shot으로 전이될 수 있습니다. 데이터셋 공개 Introduction웹 규모 데이터셋 LLM은 강력한 zero-shot, few-shot으로 자연어 처리의 혁명 [LMs are Few-shot learners] 텍스트와 이미지를 정렬하는 것 CLIP과 ALIGN은 contrastive learning을 사용하여 두 modality를 정렬하는 텍스트 및 이미지 인코더를 훈련, 훈련이 완료되면 엔지니어링된 텍스트 prompt를 통해 새로운 시각적 개념 및 데이터 분포에 대한 zero-..

IT 프로그래밍/논문 리뷰 2025.07.14

Do As I Can, Not As I Say:Grounding Language in Robotic Affordances

Abstract언어 모델의 중요한 약점은 현실세계의 경험이 부족하다는 것입니다. 그래서 주어진 것 이내에는 어떠한 결정을 하는 것이 어렵습니다. 현실 세계의 제약 조건이나 로봇의 능력을 고려하지 않음 Pretained Skills로봇이 수행할 수 있는 사전 훈련된 저수준 동작 기술들 이 기술들을 제약 조건으로 사용하여 언어 모델이 제안하는 행동들이 현실적으로 실행 가능하고 문맥에 맞는 형태가 되도록 유도 Language Model: 고수준 지식 및 절차 제공 (예: “액체를 닦아라”와 같은 추상적 지시)로봇: 언어 모델의 “눈과 손”이 되어 실제 환경에서 동작 수행Value Functions (가치 함수): 각 기술의 적합성과 효과를 평가하여 현실과 연결된 결정을 가능하게 함여러 실제 로봇 작업에 적..

IT 프로그래밍/논문 리뷰 2025.07.11

End-to-End Object Detection with Transformers

Abstract기존 객체 탐지 모델 (Faster R-CNN/ YOLO)는 복잡한 전처리 및 후처리 단계들을 필요로 함Archor Box 생성Non-Maximum Supression (NMS) 적용많은 head-crafted heuristic rules이는 시스템을 복잡하게 하며, 사전 지식에 의존 DETR의 주요 기여예측된 객체와 실제 객체 간 일대일 매칭 강제, 중복 없는 예측 수행트랜스포머 Encoder, Decoder 구조, tranformer encoder로 입력 이미지에 추출된 feature를 처리하고, 고정된 개수의 object queries를 decoder에 입력하여, 각 query가 하나의 객체를 예측하도록 학습 이것을 통해 global context와 객체 간 관계를 동시에 고려할 수..

IT 프로그래밍/논문 리뷰 2025.07.09

Numpy

Numerical Python의 약자고성능 과학 계산용 패키지로 강력한 N차원 배열 객체범용적 데이터 처리에 사용 가능한 다차원 컨테이너정교환 브로드캐스팅 기능파이썬의 자료형 list와 비슷하지만, 더 빠르고 메모리를 효율적 관리반복문 없이 데이터 배열 처리 지원 빠르고 편리데이터 과학 도구에 대한 생태계의 핵심 a2 = np.array([ [1,2,3], [4,5,6], [7,8,9]])print(a2)print(a2.shape)print(a2[0,0], a2[1,0], a2[2,1]) a3 = np.array([[ [1,2,3], [4,5,6], [7,8,9] ], [ [1,2,3], [4,5,6], [7,8,9] ], [ [1,2,3], [4,5,6..

IT 프로그래밍/AI 2025.07.08

Rich feature hierarchies for accurate object detection and semantic segmentation

AbstractPROB : 최고 성능을 보이는 SOTA들은 복잡한 앙상블 구조로 되어 있으며, Low level 이미지 특징과 High level 문맥 정보가 결합됨 SOL : R-CNN 제안 1) 이미지에서 bottom-up 방식으로 제안된 region proposals에 high-capacity CNN을 적용2) 학습 데이터가 부족할 경우, 보조 작업에 대한 사전 학습 후 도메인 특화 fine-tuning을 함 사전 학습된 cnn을 그대로 쓰는 것이 아닌, 객체 탐지 데이터셋에 맞게 fine-tuining 을 하면서 학습 데이터가 부족한 객체탐지 상황에서 사전 학습된 일반적 특징을 활용해서 성능을 끌어올림 Introduction 이 시점에서는 SIFT와 HOG를 기반으로 동작을 했음 2010~20..

카테고리 없음 2025.07.08

pytorch / dataset

파이토치는 torch.utils.data의 Dataset과 DataLoader 사용가능합니다. from torch.utils.data import Dataset, DataLoader#transforms : 전처리할 때 사용하는 메소드#transforms에서 제공하는 클래스 이외는 일반적으로 클래스를 따로 만들어 전처리 단계를 진행 import torchvision.transforms as transformsfrom torchvision import datasets#DataLoader의 인자로 들어갈 transform을 미리 정의할 수 있고, Compose를 통해 리스트 안에 순서대로 전처리 전행#ToTensor()를 하는 이유는 torchvision이 PIL Image 형태로만 입력을 받기 때문에 데이터..

IT 프로그래밍/AI 2025.07.07

Flamingo: a Visual Language Modelfor Few-Shot Learning

Abstract구조적 혁신 1) 강력한 사전학습된 비전 전용 모델과 언어 전용 모델을 효과적으로 연결2) 시각적 데이터와 텍스트 데이터가 임의의 섞여 있는 순서를 처리할 수 있는 능력3) 이미지 또는 비디오를 입력으로 자연스럽게 처리할 수 있는 구조 in-context few-shot learning 이 능력 갖추는 것이 핵심적 시각적 질의응답, 장면이나 사건 설명하느 이미지 캡셔닝, 여러 선택지 중 정답을 고르는 VQA 작 업 단 하나의 Flamingo 모델이 몇 개의 예제만을 제공받는 few-shot 학습 방식으로도 새로운 SOTA 성능 달성 가능 -> fine-tuning된 기존 모델들을 능가하는 성능 보여줌 Introduction짧은 지시문만으로 새로운 작업을 빠르게 학습하는 능력 현재 ..

IT 프로그래밍/논문 리뷰 2025.07.07

Pytorch

torch : 메인 네임스페이스, 텐서 등의 다양한 수학 함수가 포함torch.autograd : 자동 미분 기능을 제공하는 라이브러리torch.nn : 신경망 구축을 위한 데이터 구조나 레이어 등의 라이브러리torch.multiprocessing : 병렬 처리 기능을 제공하는 라이브러리torch.optim : SGD를 중심으로 파라미터 최적화 알고리즘 제공torch.utils : 데이터 조작 등 유틸리티 기능 제공 torch.onnx : ONNX, 서로 다른 프레임워크 간의 모델을 공유할 때 사용 텐서(Tensors)데이터 표현을 위한 기본 구조로 텐서를 사용텐서는 데이터를 담기위한 컨테이너로서 일반적으로 수치형 데이터를 저장넘파이(Numpy)의 ndarray와 유사GPU를 사용한 연산 가속 기능imp..

IT 프로그래밍/AI 2025.07.07

Hypothesis Function

x_train = torch.FloatTensor([[1], [2], [3]])y_train = torch.FloatTensor([[1], [2], [3]]) H(x) = x가 정확한 모델입니다. W= 1 이 가장 좋은 숫자입니다. 모델의 좋고 나쁨을 평가할 때는 Cost function을 봅니다. 잘 학습된 모델일수록 낮은 cost를 가집니다. W = 1 일 때, COST = 0 1에서 멀어질수록 높아집니다. MSE예측값과 실제값의 차이를 제곱한 평균으로 구해집니다. cost = torch.mean((hypothesis - y_train) ** 2) Gradient Descent : Intution 곡선을 내려가자기울기가 클수록 더 멀리Gradient를 계산하자Gradient에 따라서 cost를 ..

카테고리 없음 2025.07.07

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

기술 블로그

전체 글 488

티스토리툴바