:)

[Gen AI/Motion] AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning 본문

Paper Review

[Gen AI/Motion] AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

andre99 2025. 2. 9. 23:41

0. Abstract

AnimateDiff 개요

  • 개인화된 T2I 모델에 동적인 움직임을 추가하는 방법
  • 모션 모듈은 별도의 모델 재학습 없이 적용 가능 & MotionLoRA를 활용해 특정 모션 패턴에 적응 가능.

핵심 기술

  • 모션 모듈 → 비디오 데이터에서 학습한 모션 패턴을 T2I 모델에 적용
  • MotionLoRA → 경령화된 fine-tuning 기법으로 새로운 모션 패턴에 적응 가능

1. Introduction

배경

  • 기존의 Stable Diffusion, DreamBooth, LoRA 등의 기법 덕분에 사용자들은 자신만의 T2I 모델을 쉽게 커스터마이징 가능.
  • 소규모 데이터셋으로도 고품질 이미지 생성 가능.
  • 문제점: 기존 T2I 모델은 정적 이미지만 생성 가능 → 애니메이션화하는 어려움
    • 모델별 개별 튜닝이 필요 → 연산 비용 큼 & 데이터 수집 어려움

AnimateDiff의 3단계 훈련 과정

  1. 도메인 어댑터 학습비디오 데이터와 T2I 모델 간의 시각적 차이 보정.
  2. 모션 모듈 학습 → 비디오 데이터셋에서 모션 패턴을 학습하여 다른 T2I 모델에서도 자연스러운 애니메이션 생성 가능.
  3. MotionLoRA 적용
    • 적은 수의 참조 비디오 & 적은 저장 공간 만으로도 새로운 모션 패턴에 적응 가능.

실험 및 결과

  • Transformer 아키텍처가 모션 학습에 적절함을 검증. → Temporal Transformer 구조가 기존의 CNN 기반 방법보다 더 자연스러운 모션을 학습하는 데 적합함
  • ControlNet 같은 기존 컨트롤 기법과 호환 가능 → 추가 훈련 없이 조정 가능한 애니메이션 생성 가능.

2. Related Work

AnimateDiff의 차별점

  • 기존 연구들은 모든 파라미터를 업데이트하거나 원래 모델의 구조를 변경해야 하는 문제가 있었음.
  • AnimateDiff는 Plug-and-Play 방식으로 기존 개인화된 모델을 그대로 유지하면서도 애니메이션 생성 가능.

Text-to-Image Diffusion Models

  • GLIDE → 텍스트 조건 적용 & Classifier Guidance로 품질 향상
  • DALL-E2 → CLIP을 활용해 텍스트-이미지 정합성(Text-Image Alignment) 개선
  • Imagen → 대형 언어 모델과 Cascade 아키텍처로 사진 수준의 이미지 생성
  • Stable Diffusion → 오토 인코더 기반 효율적인 생성 과정 적용
  • eDiff-I → 서로 다른 생성 단계에 최적화된 Ensemble Diffusion Models 사용

Personalizing T2I Models

  • DreamBooth → 적은 이미지로 전체 네트워크 미세 조정 (Preservation Loss 적용)
  • Textual Inversion → 새로운 개념을 위한 토큰 임베딩 최적화
  • LoRA → 경량 fine-tuning을 통해 기존 T2I 모델의 원래 특성 유지
  • 기존 방식 문제점 → 모델 전체 튜닝 시 기억상실 발생 가능

Animating Personalized T2Is

  • 기존 연구 부족 → 개인화된 T2I 모델을 애니메이션화하는 연구가 거의 없음
  • Text2Cinemagraph → 플로우 예측 기반 시네마그래프 생성
  • 일반적인 비디오 생성 접근법
    • 대부분 T2I 모델 전체를 튜닝해야 함 → 개인화된 모델과 호환되지 않음
    • EX) Tune-a-Video (단일 비디오에 대해 소수 파라미터 미세 조정)
    • EX) Text2Video-Zero (학습 없이 선형 변환을 활용한 애니메이션 생성)

3. Preliminary

AnimateDiffStable Diffusion의 성능을 활용하면서 LoRA를 적용해 저비용으로 모션을 학습할 수 있는 구조.

Stable Diffusion

  • latent space에서 diffusion process를 수행해 효율성 향상.
  • UNet 기반 구조 + Self-Attention 적용 → 텍스트 조건 적용 가능.

LoRA (Low-Rank Adaptation)

  • 모델 전체가 아닌 어텐션 레이어와 같은 특정 부분만 미세 조정하여 학습 비용 절감.
  • 저차원 행렬 추가 → 기존 모델을 유지하면서도 튜닝 가능. ⇒ 메모리 사용량 절감 & 기존 지식 손실 방지

4. AnimateDiff

Inference Pipeline

◇  모션 모듈 삽입

  • 훈련된 모션 모듈(파란색)과 MotionLoRA(초록색)가 기존 T2I 모델의 이미지 레이어(주황색)에 추가됨.
  • 기존 T2I 모델을 변경하지 않고도 애니메이션을 생성할 수 있도록 하는 Plug-and-Play 방식 적용.
  • 모션 모듈은 프레임 간 연속성을 유지하도록 설계됨.

  노이즈 제거

  • 입력(zt, 왼쪽): 노이즈가 포함된 초기 프레임.
  • 출력(zt-1, 오른쪽): 점진적으로 노이즈가 제거되면서 부드러운 애니메이션 프레임 생성.
  • AnimateDiff: 기존 Stable Diffusion의 노이즈 제거 과정과 동일한 방식을 따르지만 모션 모듈을 추가해 시간적 일관성을 유지함 ⇒ 이를 반복하면서 연속적인 애니메이션 생성.

 

  1. 도메인 어댑터 → 데이터 품질 차이 해결
  2. 모션 모듈 → 애니메이션 생성의 핵심 구조
  3. MotionLoRA → 추가적인 모션 패턴 적용 가능
  4. AnimateDiff의 전체 추론 과정 정리

4.1. Alleviate Negative Effects from Training Data with Domain Adapter

문제점: 영상 데이터셋과 이미지 데이터셋 간 품질 차이

  • 영상 데이터는 모션 블러, 워터마크 등 품질 저하 요소가 많음.
  • 기본 T2I 모델이 학습된 이미지 데이터와 품질 격차 발생 → 애니메이션 생성 품질 저하 가능성.

해결방안: 도메인 어댑터 도입

  • 기본적으로 T2I 모델의 기존 이미지 레이어(ResNet Block)는 Pretrained Image Layers.
  • 도메인 어댑터를 Self-/Cross-Attention 레이어에 추가하여 비디오 데이터의 시각적 특성을 조정.

  • LoRA 기반 네트워크를 추가하여 도메인 차이를 보정.
  • 훈련 시에는 사용되지만 추론 시에는 제거(Adapter(z) = 0)해 원본 T2I 모델 품질 유지.

→ 기본 T2I 모델의 품질을 보존하면서 영상 데이터에서 모션 학습 가능.

 

4.2. Learn Motion Priors with Motion Module

목표

  • 기존 T2I모델을 3D 비디오 데이터 처리 가능하도록 확장하여 모션 패턴 학습

방법

1. 네트워크 확장

  • 기존 T2I 모델의 프레임별 독립적 처리를 유지하면서 추가적인 모션 모듈을 통해 시간 축에서의 관계를 학습
  • 모션 모듈은 주로 시간 축의 변화를 학습하지만 일부 공간 정보를 보존할 수 있음
  • 학습 과정:
    • Proj. In (입력 프로젝션): 5D 비디오 텐서를 입력받아 변환
    • Self-Attention: 시간 축에서 프레임 간 관계를 학습
    • Position Encoding: 프레임 순서를 인식할 수 있도록 위치 정보 부여
    • Proj. Out (출력 프로젝션): 출력 시 Zero Initialize 적용 (훈련 초기에는 원본 프레임과 동일하도록 설정)

2. 모션 모듈 설계

  • Temporal Transformer 구조프레임 간 정보 교환을 위한 시간 축(Self-Attention) 적용
  • 프레임 순서를 학습하기 위해 사인파 위치 인코딩(Sinusoidal Position Encoding) 추가
  • Residual Connection 및 Zero Initialization 사용 → 추가된 모듈이 기존 모델에 미치는 영향 최소화

→ AnimateDiff의 모션 모듈은 프레임 간 변화를 학습해 개별 프레임이 아닌 부드러운 애니메이션을 생성

4.3. Adapt to New Motion Patterns with MotionLoRA

목표

  • 사전 훈련 없이 적은 수의 참조 비디오만으로 새로운 모션 패턴에 적응 가능하도록 튜닝

방법

  • 기존 모션 모듈에 LoRA 레이어 추가 후 새로운 모션 패턴을 학습
  • 2,000회 반복 학습 & 30MB의 추가 저장 공간만 필요 → 경량화된 튜닝 가능
  • 모션 조합: 개별적으로 학습된 MotionLoRA 모델을 결합하여 여러 모션 패턴을 동시에 적용 가능

→ 저비용으로 사용자가 원하는 특정 모션 패턴을 적용할 수 있도록 지원 → 개인화된 애니메이션 생성 최적화

4.4. AnimateDiff in Practice

훈련 과정 (Training)

  • AnimateDiff는 도메인 어댑터, 모션 모듈, MotionLoRA의 3가지 요소를 개별적으로 훈련.
  • 도메인 어댑터 → 기존 손실 함수 사용.
  • 모션 모듈 & MotionLoRA → 비디오 데이터를 latent space에서 처리하도록 손실 함수 조정.
  • 훈련 시, T2I 모델의 나머지 파라미터는 동결된 상태로 유지.

추론 과정 (Inference)

  1. T2I 모델을 3D 비디오 처리 가능하도록 확장
  2. 모션 모듈 삽입 → 기본 애니메이션 생성 가능
  3. MotionLoRA 삽입 → 새로운 모션 패턴 적용 가능
  4. 도메인 어댑터는 기본적으로 제거하지만 α 값을 조정하여 영향도를 조절할 수도 있음
  5. reverse diffusion 과정을 통해 최종 애니메이션 프레임 생성

→ AnimateDiff는 훈련 과정에서 기존 T2I 모델을 손상시키지 않고 추론 시 모션 모듈과 MotionLoRA를 선택적으로 삽입해 원하는 애니메이션을 생성할 수 있음

5. Experiments

Stable Diffusion V1.5를 기반으로 WebVid10M 데이터셋을 사용해 모션 모듈을 훈련.

  • AnimateDiff는 기존 방법보다 더 부드럽고 자연스러운 애니메이션 생성.
  • MotionLoRA는 적은 데이터만으로도 효과적인 모션 학습 가능.
  • Temporal Transformer가 1D Convolution보다 뛰어난 모션 표현.
  • ControlNet과 결합하여 추가 학습 없이도 애니메이션 제어 가능. 

5.1. Qualitative Results

  • 기존 방법과 비교
    • AnimateDiff는 T2I 모델을 애니메이션화하는 기존 방법이 없으므로 최신 비디오 생성 기법과 비교:
      • Text2Video-Zero
      • Tune-a-Video
    • 2가지 상업용 도구와도 비교:
      • Gen-2 → 텍스트-비디오 생성 모델
      • Pika Labs → 이미지 애니메이션 도구

→ 결론: AnimateDiff + MotionLoRA 조합 ⇒ 샷 컨트롤 기능과 모션 조합 능력 뛰어남.

5.2. Quantitative Comparison

  • 평가 기준
    • User Study와 CLIP Metrics를 통해 평가.
    • 비교 지표 3가지:
      • 텍스트 정합성 (Text Alignment)
      • 도메인 일치도 (Domain Similarity)
      • 모션 부드러움 (Motion Smoothness)
  • User Study
    • 동일한 개인화된 T2I 모델을 기반으로 3가지 방법(AnimateDiff, Text2Video-Zero, Tune-a-Video)으로 애니메이션 생성.
    • 참여자들이 위 3가지 기준을 바탕으로 결과를 개별적으로 평가.
    • AUR (Average User Ranking) 사용 → 높을수록 성능이 우수함.
  • CLIP Metric 기반 평가
    • 애니메이션 프레임과 개인화된 T2I 모델이 생성한 참조 이미지 간 유사도 분석.
    • 텍스트 정합성 및 도메인 일치도를 정량적으로 평가하는 방식.
    • 기존 연구 방법론을 참고하여 동일한 방식으로 실험 진행.

→ 결론

  • AnimateDiff가 전반적으로 가장 높은 점수 기록 → 특히 Smoothness에서 우수한 성능을 보임.
  • Domain Similarity에서도 가장 높은 점수 기록.
  • 텍스트 정합성에서는 Tune-a-Video가 약간 더 높은 점수를 기록하지만 AnimateDiff가 전체적으로 균형 잡힌 성능을 보임.

5.3. Ablative Study

1. 도메인 어댑터 영향 분석

  • 도메인 어댑터의 효과를 확인하기 위해 추론 시 스케일러 값(α)을 1에서 0 사이로 조정.
  • 스케일러 값을 낮출수록 전반적인 시각적 품질이 향상됨. 하지만 비디오 데이터에서 학습된 시각적 특징이 점점 사라짐.

→ 도메인 어댑터는 모션 모듈이 시각적 품질 저하 없이 모션만 학습할 수 있도록 도와주는 역할을 성공적으로 수행함.

 

2. 모션 모듈 디자인 비교

  • AnimateDiff의 Temporal Transformer 구조 vs. 1D Temporal Convolution 구조 비교 실험.
  • 결론
    • Temporal Transformer: 프레임 간 일관된 모션을 생성.
    • 1D Temporal Convolution: 모든 프레임을 동일하게 정렬하는 경향이 있어 모션을 제대로 반영하지 못함.

→ AnimateDiff의 Temporal Transformer 방식이 더 효과적인 모션 학습을 제공.

 

3. MotionLoRA의 효율성 분석

  • MotionLoRA의 성능을 파라미터 크기 및 참조 비디오 개수(N)에 따라 비교.
  • 파라미터 효율성:
    • 적은 파라미터로도 새로운 카메라 모션(줌인 등)을 효과적으로 학습 가능.
    • 하지만 파라미터 크기를 늘리면 더 정교한 모션 표현 가능.
  • 데이터 효율성:
    • 50개의 참조 비디오만으로도 원하는 모션 패턴을 성공적으로 학습 가능.
    • 참조 비디오가 5개 이하로 적으면 품질이 크게 저하됨. 모션보다는 텍스처를 학습하는 경향.

→ 결론

  • MotionLoRA: 소규모 데이터와 적은 파라미터로도 효과적인 모션 학습 가능.
  • 한계: 참조 비디오가 너무 적으면 일반적인 모션 패턴을 학습하는 데 어려움**.**

5.4. Controllable generation

  • AnimateDiff + ControlNet 결합 실험
    • AnimateDiff: Visual Content와 Motion Priors을 분리하여 학습 → 기존 컨트롤 기법과 쉽게 결합 가능.
    • ControlNet을 적용해 Depth Map 기반 컨트롤 실험 수행.
    • 최근 비디오 편집 기법과 비교:
      • 기존 방식: 기존 프레임을 활용한 비디오 변환 방식.
      • AnimateDiff: 무작위 노이즈 샘플에서 애니메이션을 생성 가능 → 더 유연한 생성 방식.

→ 결과

  • 머리카락, 표정 같은 세부적인 모션이 유지되면서도 높은 시각적 품질을 보임.
  • Figure 8에서 애니메이션 품질을 시각적으로 비교 가능.

6. Conclusion

AnimateDiff: T2I 모델을 애니메이션화하는 실용적 프레임워크

  • 품질 저하 없이 애니메이션 생성 가능
  • 기존 모델의 사전 학습된 도메인 지식을 보존