[Gen AI/Motion] AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

Tags more

Today

Total

관리 메뉴

:)

[Gen AI/Motion] AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning 본문

Paper Review

[Gen AI/Motion] AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

andre99 2025. 2. 9. 23:41

0. Abstract

AnimateDiff 개요

개인화된 T2I 모델에 동적인 움직임을 추가하는 방법
모션 모듈은 별도의 모델 재학습 없이 적용 가능 & MotionLoRA를 활용해 특정 모션 패턴에 적응 가능.

핵심 기술

모션 모듈 → 비디오 데이터에서 학습한 모션 패턴을 T2I 모델에 적용
MotionLoRA → 경령화된 fine-tuning 기법으로 새로운 모션 패턴에 적응 가능

1. Introduction

배경

기존의 Stable Diffusion, DreamBooth, LoRA 등의 기법 덕분에 사용자들은 자신만의 T2I 모델을 쉽게 커스터마이징 가능.
소규모 데이터셋으로도 고품질 이미지 생성 가능.
문제점: 기존 T2I 모델은 정적 이미지만 생성 가능 → 애니메이션화하는 어려움
- 모델별 개별 튜닝이 필요 → 연산 비용 큼 & 데이터 수집 어려움

AnimateDiff의 3단계 훈련 과정

도메인 어댑터 학습 → 비디오 데이터와 T2I 모델 간의 시각적 차이 보정.
모션 모듈 학습 → 비디오 데이터셋에서 모션 패턴을 학습하여 다른 T2I 모델에서도 자연스러운 애니메이션 생성 가능.
MotionLoRA 적용
- 적은 수의 참조 비디오 & 적은 저장 공간 만으로도 새로운 모션 패턴에 적응 가능.

실험 및 결과

Transformer 아키텍처가 모션 학습에 적절함을 검증. → Temporal Transformer 구조가 기존의 CNN 기반 방법보다 더 자연스러운 모션을 학습하는 데 적합함
ControlNet 같은 기존 컨트롤 기법과 호환 가능 → 추가 훈련 없이 조정 가능한 애니메이션 생성 가능.

2. Related Work

AnimateDiff의 차별점

기존 연구들은 모든 파라미터를 업데이트하거나 원래 모델의 구조를 변경해야 하는 문제가 있었음.
AnimateDiff는 Plug-and-Play 방식으로 기존 개인화된 모델을 그대로 유지하면서도 애니메이션 생성 가능.

Text-to-Image Diffusion Models

GLIDE → 텍스트 조건 적용 & Classifier Guidance로 품질 향상
DALL-E2 → CLIP을 활용해 텍스트-이미지 정합성(Text-Image Alignment) 개선
Imagen → 대형 언어 모델과 Cascade 아키텍처로 사진 수준의 이미지 생성
Stable Diffusion → 오토 인코더 기반 효율적인 생성 과정 적용
eDiff-I → 서로 다른 생성 단계에 최적화된 Ensemble Diffusion Models 사용

Personalizing T2I Models

DreamBooth → 적은 이미지로 전체 네트워크 미세 조정 (Preservation Loss 적용)
Textual Inversion → 새로운 개념을 위한 토큰 임베딩 최적화
LoRA → 경량 fine-tuning을 통해 기존 T2I 모델의 원래 특성 유지
기존 방식 문제점 → 모델 전체 튜닝 시 기억상실 발생 가능

Animating Personalized T2Is

기존 연구 부족 → 개인화된 T2I 모델을 애니메이션화하는 연구가 거의 없음
Text2Cinemagraph → 플로우 예측 기반 시네마그래프 생성
일반적인 비디오 생성 접근법
- 대부분 T2I 모델 전체를 튜닝해야 함 → 개인화된 모델과 호환되지 않음
- EX) Tune-a-Video (단일 비디오에 대해 소수 파라미터 미세 조정)
- EX) Text2Video-Zero (학습 없이 선형 변환을 활용한 애니메이션 생성)

3. Preliminary

AnimateDiff는 Stable Diffusion의 성능을 활용하면서 LoRA를 적용해 저비용으로 모션을 학습할 수 있는 구조.

Stable Diffusion

latent space에서 diffusion process를 수행해 효율성 향상.
UNet 기반 구조 + Self-Attention 적용 → 텍스트 조건 적용 가능.

LoRA (Low-Rank Adaptation)

모델 전체가 아닌 어텐션 레이어와 같은 특정 부분만 미세 조정하여 학습 비용 절감.
저차원 행렬 추가 → 기존 모델을 유지하면서도 튜닝 가능. ⇒ 메모리 사용량 절감 & 기존 지식 손실 방지

4. AnimateDiff

Inference Pipeline

◇ 모션 모듈 삽입

훈련된 모션 모듈(파란색)과 MotionLoRA(초록색)가 기존 T2I 모델의 이미지 레이어(주황색)에 추가됨.
기존 T2I 모델을 변경하지 않고도 애니메이션을 생성할 수 있도록 하는 Plug-and-Play 방식 적용.
모션 모듈은 프레임 간 연속성을 유지하도록 설계됨.

◇ 노이즈 제거

입력(zt, 왼쪽): 노이즈가 포함된 초기 프레임.
출력(zt-1, 오른쪽): 점진적으로 노이즈가 제거되면서 부드러운 애니메이션 프레임 생성.
AnimateDiff: 기존 Stable Diffusion의 노이즈 제거 과정과 동일한 방식을 따르지만 모션 모듈을 추가해 시간적 일관성을 유지함 ⇒ 이를 반복하면서 연속적인 애니메이션 생성.

도메인 어댑터 → 데이터 품질 차이 해결
모션 모듈 → 애니메이션 생성의 핵심 구조
MotionLoRA → 추가적인 모션 패턴 적용 가능
AnimateDiff의 전체 추론 과정 정리

4.1. Alleviate Negative Effects from Training Data with Domain Adapter

문제점: 영상 데이터셋과 이미지 데이터셋 간 품질 차이

영상 데이터는 모션 블러, 워터마크 등 품질 저하 요소가 많음.
기본 T2I 모델이 학습된 이미지 데이터와 품질 격차 발생 → 애니메이션 생성 품질 저하 가능성.

해결방안: 도메인 어댑터 도입

기본적으로 T2I 모델의 기존 이미지 레이어(ResNet Block)는 Pretrained Image Layers.
도메인 어댑터를 Self-/Cross-Attention 레이어에 추가하여 비디오 데이터의 시각적 특성을 조정.

LoRA 기반 네트워크를 추가하여 도메인 차이를 보정.
훈련 시에는 사용되지만 추론 시에는 제거(Adapter(z) = 0)해 원본 T2I 모델 품질 유지.

→ 기본 T2I 모델의 품질을 보존하면서 영상 데이터에서 모션 학습 가능.

4.2. Learn Motion Priors with Motion Module

목표

기존 T2I모델을 3D 비디오 데이터 처리 가능하도록 확장하여 모션 패턴 학습

방법

1. 네트워크 확장

기존 T2I 모델의 프레임별 독립적 처리를 유지하면서 추가적인 모션 모듈을 통해 시간 축에서의 관계를 학습
모션 모듈은 주로 시간 축의 변화를 학습하지만 일부 공간 정보를 보존할 수 있음
학습 과정:
- Proj. In (입력 프로젝션): 5D 비디오 텐서를 입력받아 변환
- Self-Attention: 시간 축에서 프레임 간 관계를 학습
- Position Encoding: 프레임 순서를 인식할 수 있도록 위치 정보 부여
- Proj. Out (출력 프로젝션): 출력 시 Zero Initialize 적용 (훈련 초기에는 원본 프레임과 동일하도록 설정)

2. 모션 모듈 설계

Temporal Transformer 구조 → 프레임 간 정보 교환을 위한 시간 축(Self-Attention) 적용
프레임 순서를 학습하기 위해 사인파 위치 인코딩(Sinusoidal Position Encoding) 추가
Residual Connection 및 Zero Initialization 사용 → 추가된 모듈이 기존 모델에 미치는 영향 최소화

→ AnimateDiff의 모션 모듈은 프레임 간 변화를 학습해 개별 프레임이 아닌 부드러운 애니메이션을 생성

4.3. Adapt to New Motion Patterns with MotionLoRA

목표

사전 훈련 없이 적은 수의 참조 비디오만으로 새로운 모션 패턴에 적응 가능하도록 튜닝

방법

기존 모션 모듈에 LoRA 레이어 추가 후 새로운 모션 패턴을 학습
2,000회 반복 학습 & 30MB의 추가 저장 공간만 필요 → 경량화된 튜닝 가능
모션 조합: 개별적으로 학습된 MotionLoRA 모델을 결합하여 여러 모션 패턴을 동시에 적용 가능

→ 저비용으로 사용자가 원하는 특정 모션 패턴을 적용할 수 있도록 지원 → 개인화된 애니메이션 생성 최적화

4.4. AnimateDiff in Practice

훈련 과정 (Training)

AnimateDiff는 도메인 어댑터, 모션 모듈, MotionLoRA의 3가지 요소를 개별적으로 훈련.
도메인 어댑터 → 기존 손실 함수 사용.
모션 모듈 & MotionLoRA → 비디오 데이터를 latent space에서 처리하도록 손실 함수 조정.
훈련 시, T2I 모델의 나머지 파라미터는 동결된 상태로 유지.

추론 과정 (Inference)

T2I 모델을 3D 비디오 처리 가능하도록 확장
모션 모듈 삽입 → 기본 애니메이션 생성 가능
MotionLoRA 삽입 → 새로운 모션 패턴 적용 가능
도메인 어댑터는 기본적으로 제거하지만 α 값을 조정하여 영향도를 조절할 수도 있음
reverse diffusion 과정을 통해 최종 애니메이션 프레임 생성

→ AnimateDiff는 훈련 과정에서 기존 T2I 모델을 손상시키지 않고 추론 시 모션 모듈과 MotionLoRA를 선택적으로 삽입해 원하는 애니메이션을 생성할 수 있음

5. Experiments

Stable Diffusion V1.5를 기반으로 WebVid10M 데이터셋을 사용해 모션 모듈을 훈련.

AnimateDiff는 기존 방법보다 더 부드럽고 자연스러운 애니메이션 생성.
MotionLoRA는 적은 데이터만으로도 효과적인 모션 학습 가능.
Temporal Transformer가 1D Convolution보다 뛰어난 모션 표현.
ControlNet과 결합하여 추가 학습 없이도 애니메이션 제어 가능.

5.1. Qualitative Results

기존 방법과 비교
- AnimateDiff는 T2I 모델을 애니메이션화하는 기존 방법이 없으므로 최신 비디오 생성 기법과 비교:
  - Text2Video-Zero
  - Tune-a-Video
- 2가지 상업용 도구와도 비교:
  - Gen-2 → 텍스트-비디오 생성 모델
  - Pika Labs → 이미지 애니메이션 도구

→ 결론: AnimateDiff + MotionLoRA 조합 ⇒ 샷 컨트롤 기능과 모션 조합 능력 뛰어남.

5.2. Quantitative Comparison

평가 기준
- User Study와 CLIP Metrics를 통해 평가.
- 비교 지표 3가지:
  - 텍스트 정합성 (Text Alignment)
  - 도메인 일치도 (Domain Similarity)
  - 모션 부드러움 (Motion Smoothness)

User Study
- 동일한 개인화된 T2I 모델을 기반으로 3가지 방법(AnimateDiff, Text2Video-Zero, Tune-a-Video)으로 애니메이션 생성.
- 참여자들이 위 3가지 기준을 바탕으로 결과를 개별적으로 평가.
- AUR (Average User Ranking) 사용 → 높을수록 성능이 우수함.
CLIP Metric 기반 평가
- 애니메이션 프레임과 개인화된 T2I 모델이 생성한 참조 이미지 간 유사도 분석.
- 텍스트 정합성 및 도메인 일치도를 정량적으로 평가하는 방식.
- 기존 연구 방법론을 참고하여 동일한 방식으로 실험 진행.

→ 결론

AnimateDiff가 전반적으로 가장 높은 점수 기록 → 특히 Smoothness에서 우수한 성능을 보임.
Domain Similarity에서도 가장 높은 점수 기록.
텍스트 정합성에서는 Tune-a-Video가 약간 더 높은 점수를 기록하지만 AnimateDiff가 전체적으로 균형 잡힌 성능을 보임.

5.3. Ablative Study

1. 도메인 어댑터 영향 분석

도메인 어댑터의 효과를 확인하기 위해 추론 시 스케일러 값(α)을 1에서 0 사이로 조정.
스케일러 값을 낮출수록 전반적인 시각적 품질이 향상됨. 하지만 비디오 데이터에서 학습된 시각적 특징이 점점 사라짐.

→ 도메인 어댑터는 모션 모듈이 시각적 품질 저하 없이 모션만 학습할 수 있도록 도와주는 역할을 성공적으로 수행함.

2. 모션 모듈 디자인 비교

AnimateDiff의 Temporal Transformer 구조 vs. 1D Temporal Convolution 구조 비교 실험.
결론
- Temporal Transformer: 프레임 간 일관된 모션을 생성.
- 1D Temporal Convolution: 모든 프레임을 동일하게 정렬하는 경향이 있어 모션을 제대로 반영하지 못함.

→ AnimateDiff의 Temporal Transformer 방식이 더 효과적인 모션 학습을 제공.

3. MotionLoRA의 효율성 분석

MotionLoRA의 성능을 파라미터 크기 및 참조 비디오 개수(N)에 따라 비교.
파라미터 효율성:
- 적은 파라미터로도 새로운 카메라 모션(줌인 등)을 효과적으로 학습 가능.
- 하지만 파라미터 크기를 늘리면 더 정교한 모션 표현 가능.
데이터 효율성:
- 50개의 참조 비디오만으로도 원하는 모션 패턴을 성공적으로 학습 가능.
- 참조 비디오가 5개 이하로 적으면 품질이 크게 저하됨. 모션보다는 텍스처를 학습하는 경향.

→ 결론

MotionLoRA: 소규모 데이터와 적은 파라미터로도 효과적인 모션 학습 가능.
한계: 참조 비디오가 너무 적으면 일반적인 모션 패턴을 학습하는 데 어려움**.**

5.4. Controllable generation

AnimateDiff + ControlNet 결합 실험
- AnimateDiff: Visual Content와 Motion Priors을 분리하여 학습 → 기존 컨트롤 기법과 쉽게 결합 가능.
- ControlNet을 적용해 Depth Map 기반 컨트롤 실험 수행.
- 최근 비디오 편집 기법과 비교:
  - 기존 방식: 기존 프레임을 활용한 비디오 변환 방식.
  - AnimateDiff: 무작위 노이즈 샘플에서 애니메이션을 생성 가능 → 더 유연한 생성 방식.

→ 결과

머리카락, 표정 같은 세부적인 모션이 유지되면서도 높은 시각적 품질을 보임.
Figure 8에서 애니메이션 품질을 시각적으로 비교 가능.

6. Conclusion

AnimateDiff: T2I 모델을 애니메이션화하는 실용적 프레임워크

품질 저하 없이 애니메이션 생성 가능
기존 모델의 사전 학습된 도메인 지식을 보존

'Paper Review' 카테고리의 다른 글

[LLM/Fine-tuning] LoRA: Low-Rank Adaptation of Large Language Models (0)	2025.03.13
[Robotics/LLM] E2Map: Experience-and-Emotion Map for Self-Reflective Robot Navigation with Language Models (0)	2025.03.04
[NLP/Prompting] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (0)	2025.02.07
[NLP/Pre-training] Improving Language Understanding by Generative Pre-Training (0)	2025.02.07
[NLP/Transformer] Attention Is All You Need (0)	2025.02.01

'Paper Review' Related Articles

:)

[Gen AI/Motion] AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning 본문

[Gen AI/Motion] AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

0. Abstract

1. Introduction

2. Related Work

3. Preliminary

4. AnimateDiff

4.1. Alleviate Negative Effects from Training Data with Domain Adapter

4.2. Learn Motion Priors with Motion Module

4.3. Adapt to New Motion Patterns with MotionLoRA

4.4. AnimateDiff in Practice

5. Experiments

5.1. Qualitative Results

5.2. Quantitative Comparison

5.3. Ablative Study

5.4. Controllable generation

6. Conclusion

'Paper Review' 카테고리의 다른 글

티스토리툴바