:)

[Robotics] E2Map: Experience-and-Emotion Map for Self-Reflective Robot Navigation with Language Models 본문

Paper Review

[Robotics] E2Map: Experience-and-Emotion Map for Self-Reflective Robot Navigation with Language Models

andre99 2025. 3. 4. 19:26

Abstract

  • 기존의 LLM 기반 로봇 내비게이션 방식
    • 주로 정적인 환경을 대상으로 함. 로봇의 실제 경험을 활용하지 X → 현실 세계처럼 예측 불가능한 환경에서는 실패할 가능성이 높음.
  • E2Map의 필요성
    • 로봇이 직접 경험한 데이터를 반영해 경로를 조정.
    • 인간이 과거 경험과 감정적 반응을 통해 행동을 조정하는 것에서 영감을 받음.
    • 경험을 바탕으로 E2Map을 업데이트 → one-shot으로 행동 조정할 수 있도록 지원.

⇒ 기존 LLM 기반 방법보다 성능이 향상됨.

Introduction

기존 LLM 기반 로봇 시스템은 정적인 환경에서만 효과적 & 실제 환경에서 발생하는 예상치 못한 변수에 대한 적응력은 부족함.

이를 해결하기 위해 로봇의 감정적 반응을 공간 정보와 결합하는 E2Map을 제안 → 로봇이 경험을 바탕으로 행동을 one-shot adjustment할 수 있도록 함.

⇒ 기존 방법보다 더 나은 성능을 보였음.

 

1. 배경 및 문제

  • 기존 LLM 기반 로봇 시스템의 한계: 진행되는 대부분의 LLM 연구가 정적인 환경을 가정하고 진행. 로봇이 직접 경험한 정보를 반영하는 방식이 부족함.
  • 기존 LLM 기반 시스템은 변수를 예측하지 못하고 단순히 언어 지시에 따라 이동함.
  • 하지만 로봇이 과거 충돌 경험을 학습했다면 다음번에는 문 근처에서 속도를 줄이거나 회피하는 행동을 할 수 있어야 함. ⇒ 로봇이 경험을 반영하여 행동을 조정할 수 있는 시스템이 필요함을 의미.

2. 해결방안

  • 인간은 과거 경험에서 감정적 반응을 학습하여 위험을 피하고 생존 확률을 높이는 방식으로 행동을 조정함.
    • 최근 연구에 따르면 인간은 감정적 경험을 공간 정보와 통합하여 내비게이션에 활용한다고 보고됨.
  • 이를 바탕으로 로봇이 경험한 감정적 반응을 공간 정보와 결합하여 행동을 조정하도록 하는 'E2Map'을 제안.

3. E2Map

  • E2Map: LLM의 일반적인 지식과 로봇의 감정적 반응을 통합한 공간 맵으로 작동함.
    • 로봇이 특정 장소나 사물과 상호작용할 때 감정적 반응을 정량화해 E2Map에 기록.
    • 이후 로봇의 행동 계획 및 제어 모듈이 E2Map을 비용 함수로 활용하여 행동을 조정.
    • 로봇이 과거 경험을 반영하여 행동을 즉각 조정할 수 있도록 지원.

4. Contributions

  1. E2Map 제안
    • 인간의 감정적 반응을 모방해 LLM의 일반 지식과 로봇의 감정적 경험을 통합한 공간 표현 방식 개발.
  2. 자율적 로봇 시스템 설계
    • E2Map을 활용하여 로봇이 경험을 반영해 행동을 즉시 조정할 수 있도록 LLM 기반 코드 생성, 이벤트 기술, 감정 평가 기능을 결합.
  3. 성능 검증
    • 변동성이 큰 환경에서도 기존 LLM 기반 방법보다 우수한 내비게이션 성능을 보였음.

Related Works

-LLM-based Robotics

  • 정적인 환경을 대상으로 함.
  • 일부 연구에서 사람의 추가적인 언어 지시로 행동을 수정하는 방법을 제안 → 로봇의 자체 경험을 활용한 것이 X

-Visual-Language Navigation

  • VLN: 카메라 입력의 시각 정보와 언어 명령을 결합.
  • 최근 연구에서 언어-시각 정보를 사전 맵에 저장하여 활용하는 방법을 제안 → 실시간 경험 반영은 불가능.

-Learning from Experience

  • 기존 연구에서의 경험을 활용한 학습: 강화학습 & 모방학습
    • 강화학습: 환경과의 많은 상호작용이 필요 즉각적인 행동 수정이 어려움.
    • 모방학습: 새로운 데이터를 추가로 학습해야 하므로 실시간 수정이 불가능.

Method

-Building and Initializing E2Map

감정 표현 방법: 가우시안 분포의 가중치 합

가중치 초기화

-Reflecting Emotion and Updating E2Map

  • Event Descriptor

: Large Multimodal Model이 이미지 시퀀스를 분석해 이벤트를 설명하는 텍스트를 생성.

  • Emotion Evaluator

: LLM이 이벤트 설명을 바탕으로 감정 평가함.

-Navigating with E2Map

  • 로봇이 감정 값을 비용으로 반영한 최적의 경로를 탐색하고 이동 중 예상치 못한 이벤트를 경험하면 E2Map을 업데이트하고 즉시 행동을 조정함.
  • 기존 포텐셜 필드 방식과 유사하지만 지역 최소 문제를 해결하기 위해 D* 알고리즘을 적용.

Experiments

-Experimental Setup

  • 세 가지 시나리오를 설정해서 비교: 위험 표지판, Human-wall, Dynamic door
  • 기존 방법과 비교: LM-NavVLMaps

-Experiments in Simulated Environment

  • 테스트 방식
    • 로봇이 10개의 언어 지시를 받고 목표 지점으로 이동.
    • 충돌 없이 목표를 도달하면 성공, 충돌하면 실패.
    • 목표 지점까지의 거리가 일정 범위 내에 들어오면 도착한 것으로 간주.
  • 정적 환경)
    • VLMapsE2Map은 100% 성공.
    • LM-Nav는 50%만 성공 → 다중 목표 내비게이션에서 어려움이 있음.
  • 위험 표지판)
    • LM-Nav와 VLMaps는 장애물에 반복적으로 충돌.
    • E2Map은 처음에는 충돌했지만 이후 경험을 반영하여 충돌을 피함.
  • Human-wall & Dynamic door)
    • 기존 방법들은 반복적으로 사람 및 문과 충돌.
    • E2Map은 첫 충돌 이후 감정 맵을 업데이트하여 이후부터는 회피.

-Experiments in Real World

E2Map의 성능이 시뮬레이션 환경과 거의 동일.

Conclusion

  • E2Map 특징
    • 로봇이 경험한 감정적 반응을 활용해 즉시 행동을 조정 → 기존보다 내비게이션 성능 향상됨.
  • 향후 연구 방향
    • 이벤트 감지 자동화: 현재는 시뮬레이터나 센서 정보를 기반으로 업데이트하지만 이상 감지 알고리즘을 활용해 로봇이 스스로 중요한 사건을 감지하고 E2Map을 업데이트할 수 있도록 할 필요 있음.
    • 긍정적 감정 반영: 주로 부정적 감정을 다뤘지만 긍정적 감정도 반영할 필요 O