:)

[RAG] Retrieving Multimodal Information for Augmented Generation: A Survey 본문

Paper Review

[RAG] Retrieving Multimodal Information for Augmented Generation: A Survey

andre99 2025. 1. 10. 23:32

1. Introduction

생성형 인공지능 & 멀티모달 RAG에 대한 연구 동향

 

1. 생성형 인공지능의 발전과 한계

생성형 인공지능은 다음과 같은 작업에서 놀라운 성과를 보여주고 있음

  • 텍스트 생성 (Ouyang et al., 2022; Brown et al., 2020)
  • 텍스트-이미지 생성 (Ramesh et al., 2021a; Poole et al., 2022)

최근에는 멀티모달 대형 언어 모델(MLLM)의 발전으로 다양한 형식의 데이터를 처리할 수 있는 범용 학습자(general-purpose learners)로서의 가능성이 열리고 있음.

 

한계

GAI의 주요 한계:

  • 환각(hallucination) 생성 경향 
  • 산술 계산의 어려움 
  • 해석 가능성 부족

해결 방안

이러한 한계를 극복하기 위해:

  • GAI가 외부 세계와 상호작용하며 다양한 형식과 모달리티의 지식을 습득하도록 해야 함.
  • 특히 검색증강 생성(RAG)이 사실성과 합리성을 개선하는 중요한 접근법으로 주목받고 있음.

하지만 기존 연구는 대부분 텍스트 데이터 검색에 초점을 맞췄으며 이미지, 비디오 등 다양한 모달리티의 지식은 활용되지 못함.

 

2. Multimodal RAG의 중요성

  • 멀티모달 지식 검색은 사실성, 추론 능력, 해석 가능성, 강건성 개선의 잠재력이 있음.
  • 그러나 이 분야는 아직 초기 단계로, 관련 방법론을 체계적으로 이해하고 연구를 정리한 사례가 부족한 상황.

3. 연구 조사 방법

  • 멀티모달 RAG와 관련된 최신 연구를 조사하며, 모달리티별로 논문을 그룹화함.
  • 주요 모달리티:
    • 이미지, 코드, 구조화된 지식, 오디오, 비디오

논문 선정 과정

  • ACL Anthology와 Google Scholar에서 키워드 검색 및 수동 필터링을 통해 선정.
  • 146편의 논문 분석.
  • 부록 A.1:
    • 검색 과정 및 통계 포함.
    • 연구 동향 분석 그래프 제시: 대규모 범용 모델 등장 이후 멀티모달 RAG 연구가 빠르게 발전 중임을 보여줌.

4. 주요 기여 내용

  1. 멀티모달 RAG를 대형 언어 모델(LLM) 발전과 함께 등장한 중요한 방법론 그룹으로 정의.
  2. 공통 모달리티에 대해 관련 논문을 분석하고, 이들의 내재적 연결성과 공통 과제를 맥락화하여 정리.
  3. 현재의 한계를 해결할 수 있는 유망한 미래 연구 방향 제시.

5. 결론

  • 멀티모달 검색증강 생성(RAG)은 생성형 인공지능의 성능을 향상시킬 수 있는 중요한 연구 분야로 부각.
  • 다양한 형식의 지식을 활용해 대형 언어 모델(LLM)의 성능을 더욱 발전시키는 연구자들을 위한 방향성을 제공.

 

2. Definitions and Background

2.1 Multimodal Learning

멀티모달 학습 및 생성 모델 개요

1) Multimodal Learning

  • 정의: 서로 다른 모달리티의 데이터를 통합하여 하나의 표현을 학습하는 과정.
  • 목표: 상호 보완적인 정보를 추출하여 조합적(compositional) 작업을 지원.
  • 포함 모달리티: 자연어와 형식이 다른 모든 모달리티를 포함.
    • 이미지, 코드, 테이블 & 지식 그래프와 같은 구조화된 지식, 오디오, 비디오

2) 멀티모달 생성 모델의 활용 사례

  • 주요 응용 분야
    • 텍스트-이미지 생성
    • 창작 글쓰기 생성
    • 다국어 번역
  • 사례
    • 이미지 인식: 텍스트 설명과 함께 이미지 및 비디오를 분석함으로써 성능 향상.
    • 언어 이해 및 생성: 시각 정보를 언어 모델에 통합함으로써 이해와 생성 능력 개선.
  • 기타 응용
    • 다양한 도메인에서 멀티소스 정보 통합을 통해 기계 학습 시스템의 성능 향상 가능성

3) 멀티모달 생성 모델의 발전과 과제

  • 발전: 다중 모달리티 데이터 출력을 생성하는 모델에 대한 관심 증가
  • 주요 과제
    1. 대규모 멀티모달 데이터 확보의 어려움.
    2. 의미적으로 유의미한 출력을 생성할 수 있는 네트워크 설계 필요.

 

2.2 RAG

RAG의 개요와 활용

1) RAG의 구성과 특징

  • 구성 단계
    1. 정보 검색: 문맥적으로 관련된 정보를 검색.
    2. 생성 과정 안내: 검색된 지식을 기반으로 생성 과정을 보조.
  • 특징
    • LLM의 발전과 함께 NLP 분야에서 RAG의 인기가 높아지고 있음.
    • RAG는 LLM이 외부 세계와 효과적으로 상호작용할 수 있는 솔루션 제공.

2) RAG의 주요 과제

  1. 환각(Hallucination) 문제
    • 생성 모델이 내부 지식(모델 가중치)에 의존하기 때문에 많은 양의 환각이 발생.
  2. 모델 업데이트의 비효율성
    • 대규모 파라미터 크기와 높은 비용으로 인해 기존 사전 학습(pretraining) 및 미세 조정(fine-tuning) 방식이 비현실적임.

3) RAG의 응용 분야

RAG는 다음과 같은 다양한 NLP 작업에 활용됨

  • 기계 번역 
  • 대화 생성
  • 추상적 요약 
  • 지식 집약적 생성 

4) RAG와 텍스트 정보 검색

  • 대부분의 RAG 방법은 텍스트 정보 검색에 중점을 둠. 검색 시스템을 인코더 또는 시퀀스-투-시퀀스 언어 모델과 함께 훈련하여 더 적은 파라미터로도 대형 모델과 유사한 성능을 달성한 경우도 O.

5) RAG와 논리적 추론

  • 최근 연구에서는 검색기를 Chain-of-Thought(CoT) 프롬프트와 결합하여 논리적 추론을 강화하는 방식을 제안:

 

3. Multimodal Retrieval-Augmented Generation

3.1 Image

  • Visual question answering (VQA)
    • VQA와 RA-VQA
      • RA-VQA: 오픈 도메인 VQA를 해결하기 위한 접근법.
        • 학습 방식: 문서 검색기와 답변 생성 모듈을 함께 훈련하며, 검색된 문서를 기반으로 예측을 수행.
        • 단계
          • 텍스트 변환: 객체 탐지, 이미지 캡션 생성, 광학 문자 인식(OCR) 도구를 활용해 대상 이미지를 텍스트 데이터로 변환.
          • 문서 검색: Dense Passage Retrieval을 사용해 데이터베이스에서 대상 이미지와 관련된 텍스트 문서 검색.
          • 답변 생성: 검색된 문서를 초기 질문과 연결하여 최종 답변을 생성 (RAG 방식과 유사).
  • 외부 문서와 LLM 활용
    • LLM 활용
      • PICa 및 KAT: GPT-3을 암묵적 지식 베이스로 활용하여 관련 정보를 추출.
  • 이미지 패치와 캡션 생성
    • Plug-and-Play:
      • GradCAM을 사용해 질문과 관련된 이미지 패치를 로컬라이즈.
      • 캡션 생성: 로컬라이즈된 이미지 패치에서 캡션을 생성하여 추가적인 컨텍스트 확보.
  • 텍스트와 이미지 데이터를 모두 활용하는 접근법
    • MuRAG:
      • 텍스트와 이미지 데이터를 모두 검색. 이미지를 시각적 토큰으로 통합하여 처리.
    • RAMM:
      • 유사한 생물의학 이미지를 검색하고 해당 캡션을 함께 검색. 서로 다른 네트워크를 통해 데이터를 인코딩하여 활용.
  • Image captioning
    • 멀티스타일 캡션 생성
      • Zhou and Long (2023): 스타일 인식 비주얼 인코더를 활용하여 이미지를 분석하고 멀티스타일 캡션을 생성
    • 이미지-텍스트 유사도를 활용한 세분화 모델
      • Cho et al. (2022): 이미지-텍스트 쌍의 다중모달 유사도를 보상 함수로 활용. 이를 통해 보다 세밀한 캡션 생성 모델을 훈련.
  • 관련 캡션 검색 활용
    • 연구들: Sarto et al. (2022), Shi et al. (2021), Ramos et al. (2023), Yang et al. (2023b): 입력과 관련된 캡션 검색을 통해 더 정교한 캡션 생성.
  • 뉴스 이미지 캡션 생성: 뉴스 기사에서 시각적으로 연관된 엔터티를 검색하여 뉴스 이미지 캡션 생성.
  • Visually grounded dialogue
  • 시각적 정보 활용: 대화 응답을 생성하기 위해 시각적 정보를 검색하고 활용하는 작업.

  • 주요 연구 방법
  1. KNN 기반 정보 검색(KIF): 생성 모델에 KNN 기반 정보 검색(KIF) 모듈을 추가. 이미지와 위키 지식을 검색하여 대화 응답에 활용.
  2. 관련 이미지 검색: 이미지 인덱스에서 대화와 관련된 이미지를 검색하여 응답 생성기와 연결.
  3. 단어-이미지 매핑 모델: 단어와 이미지 간의 매핑을 학습하는 모델을 훈련. 검색된 시각적 정보를 텍스트와 함께 사용하여 대화 응답 생성.
  • Text generation: 이미지 검색을 통한 텍스트 모델 보완
  • Yang et al. (2022a): 이미지 검색 및 생성을 통해 텍스트 모델의 상상력 강화. 이를 통해 언어 모델의 성능을 다양한 자연어 처리 작업에서 개선.
  • Zhu et al. (2023): 검색된 이미지기계 생성 이미지를 비교. 문맥을 더 잘 고려한 기계 생성 이미지가 더 나은 가이드를 제공할 수 있다고 주장.
  • 이미지 활용이 유익한 사례
    • 기계 번역: 텍스트 문맥이 제한적일 경우 구문 수준의 시각적 정보 검색이 기계 번역 성능을 크게 향상.
    • 저자원 작업: 의료 보고서 생성, 건축물 설명 생성 
  • 텍스트 생성 이전의 이미지-텍스트 쌍 검색
  • Re-Imagen: 멀티모달 지식 베이스를 활용해 이미지-텍스트 쌍을 검색. 이를 통해 텍스트 생성뿐 아니라 이미지 생성에도 기여.
  • RA-CM3: 이미지와 텍스트 혼합물을 생성 가능. 검색증강 이미지 생성이 지식 집약적 생성 작업에서 뛰어난 성능, 멀티모달 컨텍스트 학습.