:)
[Multimodal/MLLM] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 본문
Paper Review
[Multimodal/MLLM] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
andre99 2025. 10. 7. 17:33Abstract
BLIP-2는 “Frozen Vision Encoder + Frozen LLM + Lightweight Q-Former” 구조를 통해 기존 대비 50배 이상 효율적인 학습으로도 시각–언어 생성 성능을 달성한 모듈형 멀티모달 사전학습 모델.
- Frozen + Lightweight 구조
- LLM을 학습시키지 않고 이미 학습된 모델들을 그대로 사용 → Q-Former만 학습
- Q-Former: 이미지→언어의 ‘의미 변환기’
- 이미지 특징을 쿼리로 요약
- Stage-wise 학습
- 한 번에 학습하지 X → 두 단계로 나눠서 정렬
1. Introduction
문제의식
- 기존의 Vision–Language Pre-training (VLP) 모델(Flamingo, SimVLM, PaLI)은 이미지와 언어를 동시에 학습하지만 End-to-End 학습 필요 → 수천만~수억 개 파라미터 업데이트 → GPU 메모리 및 시간 소모가 막대함.
- 특히, LLM을 결합하면 학습 안정성도 떨어지고 재학습 불가.
- Flamingo(80B)는 전체 학습에만 수백 GPU 필요.
핵심 아이디어
‘잘 학습된 비전 인코더와 언어모델을 그대로 두고 그 사이에 가볍고 훈련 가능한 모듈만 삽입하자.’
이렇게 하면
- 연산량 대폭 감소 (수십억 → 수천만 수준)
- modularity 확보 → 더 나은 비전·언어 모델이 나오면 손쉽게 교체 가능
- 범용적 zero-shot 성능 향상
핵심 구성요소
- Frozen Vision Encoder (CLIP, ViT)
- Querying Transformer (Q-Former)
- Frozen LLM (OPT, Flan-T5)
2. Related Work
2.1. End-to-end Vision-Language Pre-training
- 대표 모델: CLIP, ALIGN, SimVLM, Flamingo, PaLI
- 특징
- 이미지와 텍스트 인코더를 함께 학습 (cross-modal encoder)
- 대규모 데이터셋 (수억 쌍의 이미지–텍스트)
- 문제점
- 모든 모듈을 다시 학습해야 함 → 효율성 저하
- 학습 불안정, 학습률 조정 어려움
- 새로운 비전/언어 모델 등장 시 다시 학습 필요
2.2. Modular Vision-Language Pre-training
- 최근 경향: 사전학습된 구성요소를 freeze하고 연결부만 학습.
- 예시
- Frozen LM + Adapters (Prefix-tuning, LoRA)
- Frozen Vision Encoder + CLIP-style alignment
⇒ BLIP-2는 이 접근을 확장: Q-Former를 통해 이미지-LLM 연결 자동화.
3. Method
3.1. Model Architecture
전체 구조
Image → Frozen Vision Encoder → Q-Former → Frozen LLM
각 구성요소
- Frozen Vision Encoder
- CLIP ViT-L/14 등 강력한 이미지 인코더 사용.
- 입력 이미지 → Patch embeddings → Feature map (visual tokens)
- Q-Former
- N개의 learnable query token을 Transformer에 입력.
- 각 query는 시각적 feature map을 질문하듯 attention을 수행.
- Output: query embedding 벡터들 → 시각 요약.
- Frozen LLM
- OPT-2.7B, Flan-T5 등 사용.
- Q-Former 출력(query embeddings)을 언어 입력 prompt로 사용.
- Linear Projection
- Q-Former 출력의 차원을 LLM 입력 차원에 맞게 선형 변환.
3.2. Bootstrap Vision-Language Representation Learning from a Frozen Image Encoder
(Stage 1 Pre-training)
목적: Q-Former이 시각 표현(이미지 특징)을 언어 의미 공간으로 정렬하도록 학습.
손실 구성
- Image–Text Contrastive (ITC) Loss
- 쿼리 임베딩과 텍스트 임베딩 사이 코사인 유사도 기반 대조학습.
- 같은 이미지–텍스트 쌍은 유사도를 높이고 다른 쌍은 낮춘다.

- Image–Text Matching (ITM) Loss
- 쌍의 일치 여부를 binary classification으로 판별.
- Cross-entropy loss 사용.
- Image-grounded Text Generation (ITG) Loss
- 이미지가 주어진 상태에서 문장 생성하도록 학습.
- 텍스트 디코더로 Q-Former 출력 사용.
결과: Q-Former은 시각 특징을 요약하고 언어 표현과 의미적으로 일치하는 벡터 공간을 학습한다.
3.3. Bootstrap Vision-to-Language Generative Learning from a Frozen LLM
(Stage 2 Pre-training)
목적: LLM이 이미지를 보고 문장을 생성할 수 있게 Q-Former을 조정.
과정
- Q-Former 출력(query embeddings)을 LLM 입력 앞에 붙임.
Input=[Q-Embeddings;Text Prompt Tokens] - LLM은 다음 토큰을 예측(next-token prediction loss).
- Q-Former만 학습; LLM은 frozen.
효과
- 시각 정보가 언어모델에 자연스럽게 연결되어 텍스트 생성, 캡셔닝, QA 가능.
- Q-Former은 일종의 시각적 prefix tuning 역할 수행.
3.4. Model Pre-training
데이터
- 총 129M 이미지–텍스트 쌍:
- LAION-400M, CC12M, SBU Captions 등.
- 데이터 품질 필터링을 수행해 노이즈 완화.
학습 과정
- Stage 1: (ITC + ITM + ITG) 멀티태스크 학습
- Stage 2: Vision-to-Language 생성 학습
- 모든 학습은 LLM, Vision Encoder 고정 상태에서 Q-Former만 업데이트.
실험된 조합
Vision Encoder LLM 결과
| CLIP ViT-L/14 | OPT-2.7B | Strong zero-shot |
| EVA CLIP | Flan-T5-XXL | SOTA captioning |
| BEiT-3 | OPT-6.7B | Improved VQA |
4. Experiment
4.1. InstructedZero-shotImage-to-TextGeneration
- “이미지를 설명해줘”, “이 장면에서 일어나는 일을 요약해줘” 등
- instruction-based zero-shot generation 테스트.
- Flamingo-80B (비교 모델) 대비 비교하면
- 파라미터 수: 54배 적음
- 성능: +8.7% 개선 (VQA/Captioning 기준)
⇒ LLM의 instruction-following 능력과 Q-Former의 시각 요약 능력이 결합된 결과.
4.2. ImageCaptioning
- 데이터셋: COCO Caption, NoCaps.
- 지표: BLEU-4, CIDEr, SPICE.
- 결과:
- Fine-tuning 없이도 SOTA 달성.
- Flan-T5 기반 모델이 특히 강력한 성능.
⇒ BLIP-2는 pretrained LLM을 활용하여 더 다양하고 자연스러운 문장 생성 가능.
4.3. VisualQuestionAnswering
- 데이터셋: VQAv2, OK-VQA, ScienceQA.
- 결과:
- BLIP-2 OPT-2.7B → Flamingo-80B보다 높은 accuracy.
- BLIP-2 Flan-T5 → Instruction 데이터가 추가되면 더욱 강력.
⇒ LLM의 지식과 Q-Former의 시각 이해 결합 → “commonsense visual reasoning” 가능.
4.4. Image-Text Retrieval
- 데이터셋: MS-COCO, Flickr30k.
- 지표: Recall@1, Recall@5, Recall@10.
- 결과:
- Text→Image, Image→Text retrieval 모두에서 CLIP 대비 향상.
- Q-Former가 이미지 표현을 언어 의미 공간에 잘 매핑함을 증명.
5. Limitation
한계 영역 설명
| 세밀한 공간 이해 부족 | Q-Former는 global feature 요약 중심이라 object-level localization 어려움 |
| cross-modal gap | Vision encoder와 LLM 모두 frozen이기 때문에 representation misalignment 가능 |
| 데이터 의존성 | noisy caption 데이터 사용 시 표현 불안정 |
| 추론 속도 | query 수가 많으면 inference latency 증가 |
| 복잡한 reasoning 부족 | spatial, temporal reasoning은 제한적 |
6. Conclusion
- BLIP-2는 비전–언어 학습의 새로운 패러다임 제시
- Frozen 구성요소 활용 → 저비용 학습
- Q-Former → 효율적 cross-modal bridge
- Zero/Few-shot 능력 강화
- 이후 연구 방향
- Vision–LLM alignment 고도화
- 세밀한 spatial grounding
- Instruction-tuned 멀티모달 챗봇 (→ InstructBLIP, LLaVA 계열로 발전)