[Multimodal/MLLM] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

Tags more

Today

Total

관리 메뉴

:)

[Multimodal/MLLM] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 본문

Paper Review

[Multimodal/MLLM] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

andre99 2025. 10. 7. 17:33

Abstract

BLIP-2는 “Frozen Vision Encoder + Frozen LLM + Lightweight Q-Former” 구조를 통해 기존 대비 50배 이상 효율적인 학습으로도 시각–언어 생성 성능을 달성한 모듈형 멀티모달 사전학습 모델.

Frozen + Lightweight 구조
- LLM을 학습시키지 않고 이미 학습된 모델들을 그대로 사용 → Q-Former만 학습
Q-Former: 이미지→언어의 ‘의미 변환기’
- 이미지 특징을 쿼리로 요약
Stage-wise 학습
- 한 번에 학습하지 X → 두 단계로 나눠서 정렬

1. Introduction

문제의식

기존의 Vision–Language Pre-training (VLP) 모델(Flamingo, SimVLM, PaLI)은 이미지와 언어를 동시에 학습하지만 End-to-End 학습 필요 → 수천만~수억 개 파라미터 업데이트 → GPU 메모리 및 시간 소모가 막대함.
특히, LLM을 결합하면 학습 안정성도 떨어지고 재학습 불가.
- Flamingo(80B)는 전체 학습에만 수백 GPU 필요.

핵심 아이디어

‘잘 학습된 비전 인코더와 언어모델을 그대로 두고 그 사이에 가볍고 훈련 가능한 모듈만 삽입하자.’

이렇게 하면

연산량 대폭 감소 (수십억 → 수천만 수준)
modularity 확보 → 더 나은 비전·언어 모델이 나오면 손쉽게 교체 가능
범용적 zero-shot 성능 향상

핵심 구성요소

Frozen Vision Encoder (CLIP, ViT)
Querying Transformer (Q-Former)
Frozen LLM (OPT, Flan-T5)

2. Related Work

2.1. End-to-end Vision-Language Pre-training

대표 모델: CLIP, ALIGN, SimVLM, Flamingo, PaLI
특징
- 이미지와 텍스트 인코더를 함께 학습 (cross-modal encoder)
- 대규모 데이터셋 (수억 쌍의 이미지–텍스트)
문제점
- 모든 모듈을 다시 학습해야 함 → 효율성 저하
- 학습 불안정, 학습률 조정 어려움
- 새로운 비전/언어 모델 등장 시 다시 학습 필요

2.2. Modular Vision-Language Pre-training

최근 경향: 사전학습된 구성요소를 freeze하고 연결부만 학습.
예시
- Frozen LM + Adapters (Prefix-tuning, LoRA)
- Frozen Vision Encoder + CLIP-style alignment

⇒ BLIP-2는 이 접근을 확장: Q-Former를 통해 이미지-LLM 연결 자동화.

3. Method

3.1. Model Architecture

전체 구조

Image → Frozen Vision Encoder → Q-Former → Frozen LLM

각 구성요소

Frozen Vision Encoder
- CLIP ViT-L/14 등 강력한 이미지 인코더 사용.
- 입력 이미지 → Patch embeddings → Feature map (visual tokens)
Q-Former
- N개의 learnable query token을 Transformer에 입력.
- 각 query는 시각적 feature map을 질문하듯 attention을 수행.
- Output: query embedding 벡터들 → 시각 요약.
Frozen LLM
- OPT-2.7B, Flan-T5 등 사용.
- Q-Former 출력(query embeddings)을 언어 입력 prompt로 사용.
Linear Projection
- Q-Former 출력의 차원을 LLM 입력 차원에 맞게 선형 변환.

3.2. Bootstrap Vision-Language Representation Learning from a Frozen Image Encoder

(Stage 1 Pre-training)

목적: Q-Former이 시각 표현(이미지 특징)을 언어 의미 공간으로 정렬하도록 학습.

손실 구성

Image–Text Contrastive (ITC) Loss
- 쿼리 임베딩과 텍스트 임베딩 사이 코사인 유사도 기반 대조학습.
- 같은 이미지–텍스트 쌍은 유사도를 높이고 다른 쌍은 낮춘다.
Image–Text Matching (ITM) Loss
- 쌍의 일치 여부를 binary classification으로 판별.
- Cross-entropy loss 사용.
Image-grounded Text Generation (ITG) Loss
- 이미지가 주어진 상태에서 문장 생성하도록 학습.
- 텍스트 디코더로 Q-Former 출력 사용.

결과: Q-Former은 시각 특징을 요약하고 언어 표현과 의미적으로 일치하는 벡터 공간을 학습한다.

3.3. Bootstrap Vision-to-Language Generative Learning from a Frozen LLM

(Stage 2 Pre-training)

목적: LLM이 이미지를 보고 문장을 생성할 수 있게 Q-Former을 조정.

과정

Q-Former 출력(query embeddings)을 LLM 입력 앞에 붙임.
Input=[Q-Embeddings;Text Prompt Tokens]
LLM은 다음 토큰을 예측(next-token prediction loss).
Q-Former만 학습; LLM은 frozen.

효과

시각 정보가 언어모델에 자연스럽게 연결되어 텍스트 생성, 캡셔닝, QA 가능.
Q-Former은 일종의 시각적 prefix tuning 역할 수행.

3.4. Model Pre-training

데이터

총 129M 이미지–텍스트 쌍:
- LAION-400M, CC12M, SBU Captions 등.
데이터 품질 필터링을 수행해 노이즈 완화.

학습 과정

Stage 1: (ITC + ITM + ITG) 멀티태스크 학습
Stage 2: Vision-to-Language 생성 학습
모든 학습은 LLM, Vision Encoder 고정 상태에서 Q-Former만 업데이트.

실험된 조합

Vision Encoder LLM 결과

CLIP ViT-L/14	OPT-2.7B	Strong zero-shot
EVA CLIP	Flan-T5-XXL	SOTA captioning
BEiT-3	OPT-6.7B	Improved VQA

4. Experiment

4.1. InstructedZero-shotImage-to-TextGeneration

“이미지를 설명해줘”, “이 장면에서 일어나는 일을 요약해줘” 등
instruction-based zero-shot generation 테스트.
Flamingo-80B (비교 모델) 대비 비교하면
- 파라미터 수: 54배 적음
- 성능: +8.7% 개선 (VQA/Captioning 기준)

⇒ LLM의 instruction-following 능력과 Q-Former의 시각 요약 능력이 결합된 결과.

4.2. ImageCaptioning

데이터셋: COCO Caption, NoCaps.
지표: BLEU-4, CIDEr, SPICE.
결과:
- Fine-tuning 없이도 SOTA 달성.
- Flan-T5 기반 모델이 특히 강력한 성능.

⇒ BLIP-2는 pretrained LLM을 활용하여 더 다양하고 자연스러운 문장 생성 가능.

4.3. VisualQuestionAnswering

데이터셋: VQAv2, OK-VQA, ScienceQA.
결과:
- BLIP-2 OPT-2.7B → Flamingo-80B보다 높은 accuracy.
- BLIP-2 Flan-T5 → Instruction 데이터가 추가되면 더욱 강력.

⇒ LLM의 지식과 Q-Former의 시각 이해 결합 → “commonsense visual reasoning” 가능.

4.4. Image-Text Retrieval

데이터셋: MS-COCO, Flickr30k.
지표: Recall@1, Recall@5, Recall@10.
결과:
- Text→Image, Image→Text retrieval 모두에서 CLIP 대비 향상.
- Q-Former가 이미지 표현을 언어 의미 공간에 잘 매핑함을 증명.

5. Limitation

한계 영역 설명

세밀한 공간 이해 부족	Q-Former는 global feature 요약 중심이라 object-level localization 어려움
cross-modal gap	Vision encoder와 LLM 모두 frozen이기 때문에 representation misalignment 가능
데이터 의존성	noisy caption 데이터 사용 시 표현 불안정
추론 속도	query 수가 많으면 inference latency 증가
복잡한 reasoning 부족	spatial, temporal reasoning은 제한적

6. Conclusion

BLIP-2는 비전–언어 학습의 새로운 패러다임 제시
- Frozen 구성요소 활용 → 저비용 학습
- Q-Former → 효율적 cross-modal bridge
- Zero/Few-shot 능력 강화
이후 연구 방향
1. Vision–LLM alignment 고도화
2. 세밀한 spatial grounding
3. Instruction-tuned 멀티모달 챗봇 (→ InstructBLIP, LLaVA 계열로 발전)

'Paper Review' 카테고리의 다른 글

[Gen AI/Flow] Scaling Rectified Flow Transformers for High-Resolution Image Synthesis (0)	2025.05.21
[Gen AI/Disentangled] FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers (0)	2025.04.14
[RAG/Graph] From Local to Global: A Graph RAG Approach to Query-Focused Summarization (0)	2025.04.13
[LLM/Domain] DeepSeekMath (0)	2025.04.02
[RL/SkillDiscovery] Unsupervised Skill Discovery for Learning Shared Structures across Changing Environments (0)	2025.03.25

'Paper Review' Related Articles

:)

[Multimodal/MLLM] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 본문

[Multimodal/MLLM] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

Abstract

1. Introduction

2. Related Work

2.1. End-to-end Vision-Language Pre-training

2.2. Modular Vision-Language Pre-training

3. Method

3.1. Model Architecture

3.2. Bootstrap Vision-Language Representation Learning from a Frozen Image Encoder

3.3. Bootstrap Vision-to-Language Generative Learning from a Frozen LLM

3.4. Model Pre-training

4. Experiment

4.1. InstructedZero-shotImage-to-TextGeneration

4.2. ImageCaptioning

4.3. VisualQuestionAnswering

4.4. Image-Text Retrieval

5. Limitation

6. Conclusion

'Paper Review' 카테고리의 다른 글

티스토리툴바