:)

[Multimodal/MLLM] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 본문

Paper Review

[Multimodal/MLLM] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

andre99 2025. 10. 7. 17:33

Abstract

BLIP-2는 “Frozen Vision Encoder + Frozen LLM + Lightweight Q-Former” 구조를 통해 기존 대비 50배 이상 효율적인 학습으로도 시각–언어 생성 성능을 달성한 모듈형 멀티모달 사전학습 모델.

  • Frozen + Lightweight 구조
    • LLM을 학습시키지 않고 이미 학습된 모델들을 그대로 사용 → Q-Former만 학습
  • Q-Former: 이미지→언어의 ‘의미 변환기’
    • 이미지 특징을 쿼리로 요약
  • Stage-wise 학습
    • 한 번에 학습하지 X → 두 단계로 나눠서 정렬

1. Introduction

문제의식

  • 기존의 Vision–Language Pre-training (VLP) 모델(Flamingo, SimVLM, PaLI)은 이미지와 언어를 동시에 학습하지만 End-to-End 학습 필요 → 수천만~수억 개 파라미터 업데이트 → GPU 메모리 및 시간 소모가 막대함.
  • 특히, LLM을 결합하면 학습 안정성도 떨어지고 재학습 불가.
    • Flamingo(80B)는 전체 학습에만 수백 GPU 필요.

핵심 아이디어

‘잘 학습된 비전 인코더와 언어모델을 그대로 두고 그 사이에 가볍고 훈련 가능한 모듈만 삽입하자.’

이렇게 하면

  • 연산량 대폭 감소 (수십억 → 수천만 수준)
  • modularity 확보 → 더 나은 비전·언어 모델이 나오면 손쉽게 교체 가능
  • 범용적 zero-shot 성능 향상

핵심 구성요소

  1. Frozen Vision Encoder (CLIP, ViT)
  2. Querying Transformer (Q-Former)
  3. Frozen LLM (OPT, Flan-T5)

2. Related Work

2.1. End-to-end Vision-Language Pre-training

  • 대표 모델: CLIP, ALIGN, SimVLM, Flamingo, PaLI
  • 특징
    • 이미지와 텍스트 인코더를 함께 학습 (cross-modal encoder)
    • 대규모 데이터셋 (수억 쌍의 이미지–텍스트)
  • 문제점
    • 모든 모듈을 다시 학습해야 함 → 효율성 저하
    • 학습 불안정, 학습률 조정 어려움
    • 새로운 비전/언어 모델 등장 시 다시 학습 필요

2.2. Modular Vision-Language Pre-training

  • 최근 경향: 사전학습된 구성요소를 freeze하고 연결부만 학습.
  • 예시
    • Frozen LM + Adapters (Prefix-tuning, LoRA)
    • Frozen Vision Encoder + CLIP-style alignment

⇒ BLIP-2는 이 접근을 확장: Q-Former를 통해 이미지-LLM 연결 자동화.


3. Method

3.1. Model Architecture

전체 구조

Image → Frozen Vision Encoder → Q-Former → Frozen LLM

 

각 구성요소

  1. Frozen Vision Encoder
    • CLIP ViT-L/14 등 강력한 이미지 인코더 사용.
    • 입력 이미지 → Patch embeddings → Feature map (visual tokens)
  2. Q-Former
    • N개의 learnable query token을 Transformer에 입력.
    • 각 query는 시각적 feature map을 질문하듯 attention을 수행.
    • Output: query embedding 벡터들 → 시각 요약.
  3. Frozen LLM
    • OPT-2.7B, Flan-T5 등 사용.
    • Q-Former 출력(query embeddings)을 언어 입력 prompt로 사용.
  4. Linear Projection
    • Q-Former 출력의 차원을 LLM 입력 차원에 맞게 선형 변환.

3.2. Bootstrap Vision-Language Representation Learning from a Frozen Image Encoder

(Stage 1 Pre-training)

목적: Q-Former이 시각 표현(이미지 특징)을 언어 의미 공간으로 정렬하도록 학습.

손실 구성

  1. Image–Text Contrastive (ITC) Loss
    • 쿼리 임베딩과 텍스트 임베딩 사이 코사인 유사도 기반 대조학습.
    • 같은 이미지–텍스트 쌍은 유사도를 높이고 다른 쌍은 낮춘다. 
  2. Image–Text Matching (ITM) Loss
    • 쌍의 일치 여부를 binary classification으로 판별.
    • Cross-entropy loss 사용.
  3. Image-grounded Text Generation (ITG) Loss
    • 이미지가 주어진 상태에서 문장 생성하도록 학습.
    • 텍스트 디코더로 Q-Former 출력 사용.

결과: Q-Former은 시각 특징을 요약하고 언어 표현과 의미적으로 일치하는 벡터 공간을 학습한다.

3.3. Bootstrap Vision-to-Language Generative Learning from a Frozen LLM

(Stage 2 Pre-training)

목적: LLM이 이미지를 보고 문장을 생성할 수 있게 Q-Former을 조정.

과정

  1. Q-Former 출력(query embeddings)을 LLM 입력 앞에 붙임.
    Input=[Q-Embeddings;Text Prompt Tokens]
  2. LLM은 다음 토큰을 예측(next-token prediction loss).
  3. Q-Former만 학습; LLM은 frozen.

효과

  • 시각 정보가 언어모델에 자연스럽게 연결되어 텍스트 생성, 캡셔닝, QA 가능.
  • Q-Former은 일종의 시각적 prefix tuning 역할 수행.

3.4. Model Pre-training

데이터

  • 총 129M 이미지–텍스트 쌍:
    • LAION-400M, CC12M, SBU Captions 등.
  • 데이터 품질 필터링을 수행해 노이즈 완화.

학습 과정

  1. Stage 1: (ITC + ITM + ITG) 멀티태스크 학습
  2. Stage 2: Vision-to-Language 생성 학습
  3. 모든 학습은 LLM, Vision Encoder 고정 상태에서 Q-Former만 업데이트.

실험된 조합

Vision Encoder LLM 결과

CLIP ViT-L/14 OPT-2.7B Strong zero-shot
EVA CLIP Flan-T5-XXL SOTA captioning
BEiT-3 OPT-6.7B Improved VQA

4. Experiment

4.1. InstructedZero-shotImage-to-TextGeneration

  • “이미지를 설명해줘”, “이 장면에서 일어나는 일을 요약해줘” 등
  • instruction-based zero-shot generation 테스트.
  • Flamingo-80B (비교 모델) 대비 비교하면
    • 파라미터 수: 54배 적음
    • 성능: +8.7% 개선 (VQA/Captioning 기준)

⇒ LLM의 instruction-following 능력과 Q-Former의 시각 요약 능력이 결합된 결과.

4.2. ImageCaptioning

  • 데이터셋: COCO Caption, NoCaps.
  • 지표: BLEU-4, CIDEr, SPICE.
  • 결과:
    • Fine-tuning 없이도 SOTA 달성.
    • Flan-T5 기반 모델이 특히 강력한 성능.

⇒ BLIP-2는 pretrained LLM을 활용하여 더 다양하고 자연스러운 문장 생성 가능.

4.3. VisualQuestionAnswering

  • 데이터셋: VQAv2, OK-VQA, ScienceQA.
  • 결과:
    • BLIP-2 OPT-2.7B → Flamingo-80B보다 높은 accuracy.
    • BLIP-2 Flan-T5 → Instruction 데이터가 추가되면 더욱 강력.

⇒ LLM의 지식과 Q-Former의 시각 이해 결합 → “commonsense visual reasoning” 가능.

4.4. Image-Text Retrieval

  • 데이터셋: MS-COCO, Flickr30k.
  • 지표: Recall@1, Recall@5, Recall@10.
  • 결과:
    • Text→Image, Image→Text retrieval 모두에서 CLIP 대비 향상.
    • Q-Former가 이미지 표현을 언어 의미 공간에 잘 매핑함을 증명.

5. Limitation

한계 영역 설명

세밀한 공간 이해 부족 Q-Former는 global feature 요약 중심이라 object-level localization 어려움
cross-modal gap Vision encoder와 LLM 모두 frozen이기 때문에 representation misalignment 가능
데이터 의존성 noisy caption 데이터 사용 시 표현 불안정
추론 속도 query 수가 많으면 inference latency 증가
복잡한 reasoning 부족 spatial, temporal reasoning은 제한적

6. Conclusion

  • BLIP-2는 비전–언어 학습의 새로운 패러다임 제시
    • Frozen 구성요소 활용 → 저비용 학습
    • Q-Former → 효율적 cross-modal bridge
    • Zero/Few-shot 능력 강화
  • 이후 연구 방향
    1. Vision–LLM alignment 고도화
    2. 세밀한 spatial grounding
    3. Instruction-tuned 멀티모달 챗봇 (→ InstructBLIP, LLaVA 계열로 발전)