목록전체 글 (59)
:)
AbstractBLIP-2는 “Frozen Vision Encoder + Frozen LLM + Lightweight Q-Former” 구조를 통해 기존 대비 50배 이상 효율적인 학습으로도 시각–언어 생성 성능을 달성한 모듈형 멀티모달 사전학습 모델.Frozen + Lightweight 구조LLM을 학습시키지 않고 이미 학습된 모델들을 그대로 사용 → Q-Former만 학습Q-Former: 이미지→언어의 ‘의미 변환기’이미지 특징을 쿼리로 요약Stage-wise 학습한 번에 학습하지 X → 두 단계로 나눠서 정렬1. Introduction문제의식기존의 Vision–Language Pre-training (VLP) 모델(Flamingo, SimVLM, PaLI)은 이미지와 언어를 동시에 학습하지만 End..
LLM Fine-tuning 기본 개념목적: 사전 학습된 LLM을 특정 도메인/태스크에 맞게 조정방식SFT (Supervised Fine-Tuning): (입력, 정답) 쌍 학습 → 기본 성능 확보LoRA / QLoRA: 전체 파라미터 대신 소수의 랭크 행렬만 학습 → 메모리&시간 절약⇒ QLoRA: 4bit 양자화 + LoRA → 5~15GB VRAM으로도 대형 모델 튜닝 가능강화학습(RL) 기반 Fine-tuning 필요성단순 SFT는 “좋은 답 vs 덜 좋은 답” 구분이 어려움RLHF 계열은 reward 기반으로 모델을 더 정밀하게 조정전통 PPO 기반 RLHF는 보상 모델, 가치 모델이 따로 필요해 복잡&비용 큼RL 기반 Fine-tuning 접근 방식RL 기본 개념RL의 목적: 좋은 결과를 더 ..

Stable DiffusionStable Diffusion은 Latent Diffusion Model(LDM) 기반의 Text-to-Image 생성 모델.일반적인 Diffusion 모델은 고해상도 이미지 픽셀 공간에서 노이즈를 주고 제거하는 과정을 학습함. 하지만 이 방식은 메모리와 연산량이 매우 크다는 단점이 존재함.이를 해결하기 위해 Stable Diffusion은 이미지를 latent space로 압축 → 더 작은 차원에서 노이즈 제거 학습. 다시 디코딩해 고해상도 이미지 복원. 픽셀 공간이 아닌 latent space에서 diffusion을 수행하기 때문에 더 효율적.모델 구조 Text Encoder (CLIP / OpenCLIP)사용자의 텍스트 프롬프트를 임베딩 벡터로 변환이미지 생성 시 의미적..

Introduction to Model Context Protocol (MCP)문제점기존 LLM은 학습 데이터에 의존해 최신 정보를 반영하지 못함. 날씨, 환율처럼 실시간 변화에는 제대로 대응하지 못하는 문제.해결책: MCPModel Context Protocol은 LLM이 외부 도구나 실시간 데이터에 접근할 수 있도록 연결 인터페이스 역할 → 결과적으로 LLM의 실용성, 정확성 향상Key Concepts and Terminology기존 방식(M×N): 각 모델, 툴마다 전부 따로 연결해야 함 → 연결 개수가 너무 많아짐MCP 방식(M+N): 모델은 MCP 한 번만 연결하고, 툴도 MCP만 연결 → 모든 연결이 하나의 표준으로 통합됨단일 모델과 tool 간의 개별 연결 ⇒ 모델이 Database, Fil..
기존 디퓨전 모델과 그 한계Diffusion 모델 : 역방향 SDE (Stochastic Differential Equation) 기반으로 노이즈에서 이미지를 복원하는 과정을 통해 새로운 이미지를 생성함. (먼저 이미지에 노이즈를 점점 추가해서 완전히 망가뜨림 → 그 다음 이 망가진 걸 거꾸로 되돌리는 방법을 학습함)이때 reverse 과정은 노이즈에서 점진적으로 denoise해야 하므로 수많은 time step이 필요함.이 경로는 곡선처럼 휘어 있어서 역으로 학습할 때 누적 오차가 큼.논문의 핵심 목표더 빠르고 효율적인 이미지 생성 모델.고해상도 이미지도 잘 만들 수 있도록.기존 diffusion 모델보다 더 단순한 구조로 높은 성능.Rectified Flow일반적인 Diffusion 모델은 ‘노이즈 ..