목록multimodal (1)
:)
[Multimodal/MLLM] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
AbstractBLIP-2는 “Frozen Vision Encoder + Frozen LLM + Lightweight Q-Former” 구조를 통해 기존 대비 50배 이상 효율적인 학습으로도 시각–언어 생성 성능을 달성한 모듈형 멀티모달 사전학습 모델.Frozen + Lightweight 구조LLM을 학습시키지 않고 이미 학습된 모델들을 그대로 사용 → Q-Former만 학습Q-Former: 이미지→언어의 ‘의미 변환기’이미지 특징을 쿼리로 요약Stage-wise 학습한 번에 학습하지 X → 두 단계로 나눠서 정렬1. Introduction문제의식기존의 Vision–Language Pre-training (VLP) 모델(Flamingo, SimVLM, PaLI)은 이미지와 언어를 동시에 학습하지만 End..
Paper Review
2025. 10. 7. 17:33