:)
[RAG] Retrieving Multimodal Information for Augmented Generation: A Survey 본문
Paper Review
[RAG] Retrieving Multimodal Information for Augmented Generation: A Survey
andre99 2025. 1. 10. 23:321. Introduction
생성형 인공지능 & 멀티모달 RAG에 대한 연구 동향
1. 생성형 인공지능의 발전과 한계
생성형 인공지능은 다음과 같은 작업에서 놀라운 성과를 보여주고 있음
- 텍스트 생성 (Ouyang et al., 2022; Brown et al., 2020)
- 텍스트-이미지 생성 (Ramesh et al., 2021a; Poole et al., 2022)
최근에는 멀티모달 대형 언어 모델(MLLM)의 발전으로 다양한 형식의 데이터를 처리할 수 있는 범용 학습자(general-purpose learners)로서의 가능성이 열리고 있음.
한계
GAI의 주요 한계:
- 환각(hallucination) 생성 경향
- 산술 계산의 어려움
- 해석 가능성 부족
해결 방안
이러한 한계를 극복하기 위해:
- GAI가 외부 세계와 상호작용하며 다양한 형식과 모달리티의 지식을 습득하도록 해야 함.
- 특히 검색증강 생성(RAG)이 사실성과 합리성을 개선하는 중요한 접근법으로 주목받고 있음.
하지만 기존 연구는 대부분 텍스트 데이터 검색에 초점을 맞췄으며 이미지, 비디오 등 다양한 모달리티의 지식은 활용되지 못함.
2. Multimodal RAG의 중요성
- 멀티모달 지식 검색은 사실성, 추론 능력, 해석 가능성, 강건성 개선의 잠재력이 있음.
- 그러나 이 분야는 아직 초기 단계로, 관련 방법론을 체계적으로 이해하고 연구를 정리한 사례가 부족한 상황.
3. 연구 조사 방법
- 멀티모달 RAG와 관련된 최신 연구를 조사하며, 모달리티별로 논문을 그룹화함.
- 주요 모달리티:
- 이미지, 코드, 구조화된 지식, 오디오, 비디오
논문 선정 과정
- ACL Anthology와 Google Scholar에서 키워드 검색 및 수동 필터링을 통해 선정.
- 총 146편의 논문 분석.
- 부록 A.1:
- 검색 과정 및 통계 포함.
- 연구 동향 분석 그래프 제시: 대규모 범용 모델 등장 이후 멀티모달 RAG 연구가 빠르게 발전 중임을 보여줌.
4. 주요 기여 내용
- 멀티모달 RAG를 대형 언어 모델(LLM) 발전과 함께 등장한 중요한 방법론 그룹으로 정의.
- 공통 모달리티에 대해 관련 논문을 분석하고, 이들의 내재적 연결성과 공통 과제를 맥락화하여 정리.
- 현재의 한계를 해결할 수 있는 유망한 미래 연구 방향 제시.
5. 결론
- 멀티모달 검색증강 생성(RAG)은 생성형 인공지능의 성능을 향상시킬 수 있는 중요한 연구 분야로 부각.
- 다양한 형식의 지식을 활용해 대형 언어 모델(LLM)의 성능을 더욱 발전시키는 연구자들을 위한 방향성을 제공.
2. Definitions and Background
2.1 Multimodal Learning
멀티모달 학습 및 생성 모델 개요
1) Multimodal Learning
- 정의: 서로 다른 모달리티의 데이터를 통합하여 하나의 표현을 학습하는 과정.
- 목표: 상호 보완적인 정보를 추출하여 조합적(compositional) 작업을 지원.
- 포함 모달리티: 자연어와 형식이 다른 모든 모달리티를 포함.
- 이미지, 코드, 테이블 & 지식 그래프와 같은 구조화된 지식, 오디오, 비디오
2) 멀티모달 생성 모델의 활용 사례
- 주요 응용 분야
- 텍스트-이미지 생성
- 창작 글쓰기 생성
- 다국어 번역
- 사례
- 이미지 인식: 텍스트 설명과 함께 이미지 및 비디오를 분석함으로써 성능 향상.
- 언어 이해 및 생성: 시각 정보를 언어 모델에 통합함으로써 이해와 생성 능력 개선.
- 기타 응용
- 다양한 도메인에서 멀티소스 정보 통합을 통해 기계 학습 시스템의 성능 향상 가능성
3) 멀티모달 생성 모델의 발전과 과제
- 발전: 다중 모달리티 데이터 출력을 생성하는 모델에 대한 관심 증가
- 주요 과제
- 대규모 멀티모달 데이터 확보의 어려움.
- 의미적으로 유의미한 출력을 생성할 수 있는 네트워크 설계 필요.
2.2 RAG
RAG의 개요와 활용
1) RAG의 구성과 특징
- 구성 단계
- 정보 검색: 문맥적으로 관련된 정보를 검색.
- 생성 과정 안내: 검색된 지식을 기반으로 생성 과정을 보조.
- 특징
- LLM의 발전과 함께 NLP 분야에서 RAG의 인기가 높아지고 있음.
- RAG는 LLM이 외부 세계와 효과적으로 상호작용할 수 있는 솔루션 제공.
2) RAG의 주요 과제
- 환각(Hallucination) 문제
- 생성 모델이 내부 지식(모델 가중치)에 의존하기 때문에 많은 양의 환각이 발생.
- 모델 업데이트의 비효율성
- 대규모 파라미터 크기와 높은 비용으로 인해 기존 사전 학습(pretraining) 및 미세 조정(fine-tuning) 방식이 비현실적임.
3) RAG의 응용 분야
RAG는 다음과 같은 다양한 NLP 작업에 활용됨
- 기계 번역
- 대화 생성
- 추상적 요약
- 지식 집약적 생성
4) RAG와 텍스트 정보 검색
- 대부분의 RAG 방법은 텍스트 정보 검색에 중점을 둠. 검색 시스템을 인코더 또는 시퀀스-투-시퀀스 언어 모델과 함께 훈련하여 더 적은 파라미터로도 대형 모델과 유사한 성능을 달성한 경우도 O.
5) RAG와 논리적 추론
- 최근 연구에서는 검색기를 Chain-of-Thought(CoT) 프롬프트와 결합하여 논리적 추론을 강화하는 방식을 제안:
3. Multimodal Retrieval-Augmented Generation
3.1 Image
- Visual question answering (VQA)
- VQA와 RA-VQA
- RA-VQA: 오픈 도메인 VQA를 해결하기 위한 접근법.
- 학습 방식: 문서 검색기와 답변 생성 모듈을 함께 훈련하며, 검색된 문서를 기반으로 예측을 수행.
- 단계
- 텍스트 변환: 객체 탐지, 이미지 캡션 생성, 광학 문자 인식(OCR) 도구를 활용해 대상 이미지를 텍스트 데이터로 변환.
- 문서 검색: Dense Passage Retrieval을 사용해 데이터베이스에서 대상 이미지와 관련된 텍스트 문서 검색.
- 답변 생성: 검색된 문서를 초기 질문과 연결하여 최종 답변을 생성 (RAG 방식과 유사).
- RA-VQA: 오픈 도메인 VQA를 해결하기 위한 접근법.
- VQA와 RA-VQA
- 외부 문서와 LLM 활용
- LLM 활용
- PICa 및 KAT: GPT-3을 암묵적 지식 베이스로 활용하여 관련 정보를 추출.
- LLM 활용
- 이미지 패치와 캡션 생성
- Plug-and-Play:
- GradCAM을 사용해 질문과 관련된 이미지 패치를 로컬라이즈.
- 캡션 생성: 로컬라이즈된 이미지 패치에서 캡션을 생성하여 추가적인 컨텍스트 확보.
- Plug-and-Play:
- 텍스트와 이미지 데이터를 모두 활용하는 접근법
- MuRAG:
- 텍스트와 이미지 데이터를 모두 검색. 이미지를 시각적 토큰으로 통합하여 처리.
- RAMM:
- 유사한 생물의학 이미지를 검색하고 해당 캡션을 함께 검색. 서로 다른 네트워크를 통해 데이터를 인코딩하여 활용.
- MuRAG:
- Image captioning
- 멀티스타일 캡션 생성
- Zhou and Long (2023): 스타일 인식 비주얼 인코더를 활용하여 이미지를 분석하고 멀티스타일 캡션을 생성
- 이미지-텍스트 유사도를 활용한 세분화 모델
- Cho et al. (2022): 이미지-텍스트 쌍의 다중모달 유사도를 보상 함수로 활용. 이를 통해 보다 세밀한 캡션 생성 모델을 훈련.
- 멀티스타일 캡션 생성
- 관련 캡션 검색 활용
- 연구들: Sarto et al. (2022), Shi et al. (2021), Ramos et al. (2023), Yang et al. (2023b): 입력과 관련된 캡션 검색을 통해 더 정교한 캡션 생성.
- 뉴스 이미지 캡션 생성: 뉴스 기사에서 시각적으로 연관된 엔터티를 검색하여 뉴스 이미지 캡션 생성.
- Visually grounded dialogue
- 시각적 정보 활용: 대화 응답을 생성하기 위해 시각적 정보를 검색하고 활용하는 작업.
- 주요 연구 방법
- KNN 기반 정보 검색(KIF): 생성 모델에 KNN 기반 정보 검색(KIF) 모듈을 추가. 이미지와 위키 지식을 검색하여 대화 응답에 활용.
- 관련 이미지 검색: 이미지 인덱스에서 대화와 관련된 이미지를 검색하여 응답 생성기와 연결.
- 단어-이미지 매핑 모델: 단어와 이미지 간의 매핑을 학습하는 모델을 훈련. 검색된 시각적 정보를 텍스트와 함께 사용하여 대화 응답 생성.
- Text generation: 이미지 검색을 통한 텍스트 모델 보완
- Yang et al. (2022a): 이미지 검색 및 생성을 통해 텍스트 모델의 상상력 강화. 이를 통해 언어 모델의 성능을 다양한 자연어 처리 작업에서 개선.
- Zhu et al. (2023): 검색된 이미지와 기계 생성 이미지를 비교. 문맥을 더 잘 고려한 기계 생성 이미지가 더 나은 가이드를 제공할 수 있다고 주장.
- 이미지 활용이 유익한 사례
- 기계 번역: 텍스트 문맥이 제한적일 경우 구문 수준의 시각적 정보 검색이 기계 번역 성능을 크게 향상.
- 저자원 작업: 의료 보고서 생성, 건축물 설명 생성
- 텍스트 생성 이전의 이미지-텍스트 쌍 검색
- Re-Imagen: 멀티모달 지식 베이스를 활용해 이미지-텍스트 쌍을 검색. 이를 통해 텍스트 생성뿐 아니라 이미지 생성에도 기여.
- RA-CM3: 이미지와 텍스트 혼합물을 생성 가능. 검색증강 이미지 생성이 지식 집약적 생성 작업에서 뛰어난 성능, 멀티모달 컨텍스트 학습.
'Paper Review' 카테고리의 다른 글
[NLP] Improving Language Understanding by Generative Pre-Training (0) | 2025.02.07 |
---|---|
[NLP] Attention Is All You Need (0) | 2025.02.01 |
[NLP] Sequence to Sequence Learningwith Neural Networks (0) | 2025.02.01 |
[RAG] RAG : Retrieval-Augmented Generation for Knowledge-Intensive NLP Task (0) | 2024.12.28 |
[RAG] Retrieval-Augmented Generation for Large Language Models: A Survey (1) | 2024.11.22 |