본문 바로가기

:)

검색하기
:)
프로필사진 andre99

  • 분류 전체보기 (59)
    • AI (21)
    • Algorithm (5)
    • Data Structure (7)
    • Data Visualization (10)
    • Paper Review (16)
Guestbook
Tags
  • 코세라
  • elastic search
  • gemmasprint
  • deepseekmath
  • 자료구조
  • LLM
  • tableau
  • Unsloth
  • 거대언어모델
  • animatediff
  • NLP
  • 자연어처리
  • 딥러닝
  • 태블로
  • model context protocol
  • paper review
  • Rag
  • Data Structure
  • Diffusion Models
  • coursera
  • SDGs
  • deep learning
  • 알고리즘
  • multimodal
  • Gen AI
  • Firebase
  • 강화학습
  • 논문 리뷰
  • stable diffusion
  • Algorithm
more
Today
Total
관리 메뉴
  • 글쓰기
  • 방명록
  • RSS
  • 관리

목록multimodal (1)

:)

[Multimodal/MLLM] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

AbstractBLIP-2는 “Frozen Vision Encoder + Frozen LLM + Lightweight Q-Former” 구조를 통해 기존 대비 50배 이상 효율적인 학습으로도 시각–언어 생성 성능을 달성한 모듈형 멀티모달 사전학습 모델.Frozen + Lightweight 구조LLM을 학습시키지 않고 이미 학습된 모델들을 그대로 사용 → Q-Former만 학습Q-Former: 이미지→언어의 ‘의미 변환기’이미지 특징을 쿼리로 요약Stage-wise 학습한 번에 학습하지 X → 두 단계로 나눠서 정렬1. Introduction문제의식기존의 Vision–Language Pre-training (VLP) 모델(Flamingo, SimVLM, PaLI)은 이미지와 언어를 동시에 학습하지만 End..

Paper Review 2025. 10. 7. 17:33
이전 Prev 1 Next 다음

Blog is powered by kakao / Designed by Tistory

티스토리툴바