:)

[RL] Unsupervised Skill Discovery for Learning Shared Structures across Changing Environments 본문

Paper Review

[RL] Unsupervised Skill Discovery for Learning Shared Structures across Changing Environments

andre99 2025. 3. 25. 16:15

Abstract

문제점

  • 기존 unsupervised skill discovery 방법들: 정적인 환경에만 초점. 에피소드 내 고정된 스킬만 사용. → 변화하는 환경 속 공통 구조를 제대로 학습 X.

제안 기법

  • incremental skills: 이전에 학습한 스킬들의 조합으로 구성된 state coverage를 확장하도록 새로운 스킬 학습.
  • 스킬 평가 프로세스: 중복 스킬 방지를 위해 새 스킬이 기존 스킬과 얼마나 다른지 & state coverage 확장 기여도 평가.

실험 결과

  • Maze navigation과 locomotion 환경에서 제안 알고리즘이 공통 구조를 잘 표현하는 스킬을 학습함.
  • Downstream task에서도 기존 방법들보다 더 유용함.

1.Introduction

문제의식

  • 기존의 강화학습 에이전트는 매번 새롭게 학습해야 하며 데이터가 많이 필요함.
  • 이전 환경의 지식을 단순히 저장하거나 환경별 모델을 따로 유지하는 방식은 지식 전이에 부적합함.

Shared Structures & Skills

  • Shared structure를 학습하고 활용하면 다양한 환경에서 지식을 전이할 수 있음. 이를 위해 스킬 개념이 유용한데 이는 일정 시간 동안의 행동 시퀀스를 의미. 복잡한 문제를 하위 문제로 나누고 그 해결책을 조합하는 인간의 문제 해결 방식에서 착안한 것.

기존 방법의 한계

고정된 환경 또는 에피소드 내에서 하나의 스킬만 사용하는 방식에 한정되어 있음. → 다양한 환경에 걸친 공통 구조 학습에는 부족함.

2.Related Work

Continual Reinforcement Learning (CRL)

에이전트가 여러 작업을 연속적으로 학습하면서 이전 지식을 효율적으로 활용하는 강화학습 패러다임.

CRL 방법의 분류:

Explicit Knowledge Retention

  • 각 작업마다 별도 모델 / 데이터셋을 저장.
  • 장점: catastrophic forgetting 문제 방지.
  • 단점: 비효율적인 저장공간, 지식 전이 불가능.

Learning to Learn (Meta-learning)

  • 학습 과정을 최적화하도록 메타 학습 적용.

Leveraging Shared Structure

  • 여러 작업에서의 shared structure를 학습해 새로운 작업에 빠르게 적응.

: 보상 없이 학습된 스킬을 통해 공통 구조를 표현함.

 

Unsupervised Skill Discovery

보상 없이 스킬을 학습하는 접근법은 강화학습에서 활발한 연구 분야임.

주요 알고리즘들:

  • VIC
    • 스킬과 도달 상태의 상호정보량을 최대화하여 제어력 높은 스킬 발견.
  • DIAYN
    • 스킬과 각 상태 간의 상호정보량을 극대화 → 다양하고 일관된 행동 패턴 학습.
  • EDL
    • 기존 기법들이 탐색 부족으로 인해 state space coverage가 낮다고 지적.
  • APT / APS
    • 입자 기반 엔트로피 최대화를 통해 탐색 문제 해결.

차별점

  • non-stationary environments에서도 작동 가능한 스킬 학습 목표.
  • 가장 유사한 연구: DISk
    • DISk도 변화하는 환경에서 점진적 스킬 학습 가능.
    • 하지만 DISk는 모든 스킬을 저장하는 반면 본 논문은 중복 스킬 제거를 위한 평가 메커니즘을 통해 shared structure에 최적화된 스킬만 유지함.

3.Preliminaries

3.1. Markov Decision Process (MDP)

: sequential decision making을 위한 수학적 프레임워크.

누적 보상의 기댓값을 최대화하는 최적 정책 π를 찾는 것

 

3.2. Successor Features (SFs)

: 스킬 간 유사도(similarity)를 측정하기 위해 SF를 사용. → 새로운 스킬이 기존 스킬들과 얼마나 다른 행동을 유도하는지 정량화.

4.Proposed Method

4.1. Discovering Skills for Learning Shared Structures across Changing Environments

:변화하는 환경들 간의 공유 구조를 skill compositions으로 표현. 1) 스킬 학습: 보상 없이 자유롭게 여러 환경과 상호작용하며 스킬 학습 2) 전이 평가: 이전에 학습한 스킬들이 downstream task에 얼마나 도움이 되는지 평가

 

4.2. Saving Discovered Skills with Evaluation Process

: 새로운 스킬은 상태 공간 커버리지를 확장하고 기존 스킬들과 충분히 다른 행동 패턴을 보여줄 때만 저장됨.

5. Experiments

실험 환경

Maze2d-umaze-continual-v3 (확장된 D4RL 환경)

  • 상자 위치가 바뀌는 미로에서 에이전트가 학습.
  • 각 환경 구성마다 3개의 스킬 학습.
  • 공유 구조: 위/아래/왼쪽/오른쪽으로 연결되는 통로 구조.

HalfCheetah-continual-v3 (OpenAI Gym 기반)

  • 장애물(터널, 허들)이 시간에 따라 변화.
  • 각 환경 구성마다 3개의 스킬 학습.
  • 공유 구조: run, hurdle, tunnel 구간 간 연결.

5.1. Can Our Skills Represent Shared Structures across Changing Environments?

스킬 조합으로 터널+허들 모두 통과 가능 → state coverage 확장 + 공유 구조 표현 성공.

5.2. Can Our Skill Evaluation Process Prevent Our Skills from Containing Degenerate Skills?

정적 환경에서도 적은 수의 스킬로도 다양한 행동 표현 가능.

5.3. Can Our Skills Accelerate Learning on Downstream Tasks?

SOTA 방법들보다 뛰어난 성능. 더 효율적이고 일반화에 강함.

6. Conclusion

핵심 기여

  • 새로운 unsupervised skill discovery 알고리즘 제안.
  • 변화하는 환경들에서 shared structures를 표현할 수 있는 스킬 집합을 학습함.
  • 방법 특징:
    • 스킬을 점진적으로 학습.
    • 기존 스킬 조합으로 커버할 수 없는 상태를 새 스킬로 state coverage 확장.
    • 중복되거나 퇴화된 스킬을 걸러내는 skill evaluation 도입.

한계점 및 향후 연구 방향

  1. 사전 정의된 맵핑 함수 사용
    현재는 상태 표현을 위해 수작업으로 정의한 맵핑 함수 사용. → 표현 학습(representation learning) 기법과 결합해 자동화할 수 있음.
  2. 스킬의 시작/종료 조건 미포함
    지금은 스킬의 시작점/종료점 고려 없이 학습됨. → demonstration이나 오프라인 데이터로 스킬 경계 학습 가능성 제시.
  3. 수동적 환경 전이 설정
    에이전트가 환경 순서를 통제하지 못하는 non-stationarity을 가정. → active non-stationarity에서는 스킬 제거/압축 같은 새로운 문제 탐색 가능성 있음.