:)

[Gen AI] FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers 본문

Paper Review

[Gen AI] FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers

andre99 2025. 4. 14. 20:24

1. Introduction

연구 배경

  • "Disentangled Editing" (속성 분리 편집) 기술
  • : 생성된 이미지에서 특정 속성만 선택적으로 편집할 수 있는 능력.

기존 모델들의 편집 특성

GANs

  • 고정 차원의 latent vector 사용.
  • 눈, 입, 머리색 등과 같은 각 벡터 차원이 의미 있는 개념을 선형적으로 표현.
  • → 편집이 직관적이고 분리되어 있음. (disentangled)

Diffusion 모델

  • 다단계 방식으로 노이즈 → 이미지로 점진적으로 생성.
  • 고정 latent vector 없음. → 각 단계의 노이즈가 복잡하게 얽혀 있어서 속성 조절이 어려움.

기존 시도들의 한계

접근 방식 한계점

UNet bottleneck 의미 분리가 완전하지 않음
Text embedding 조작 시각 정보와 잘 정렬되지 않아 오류 가능
Noise space 조작 특정 노이즈 ↔ 의미 연결이 어려움
Weight space (LoRA 등) 도메인별 학습 필요 → 시간 & 자원 소모

 

새로운 관점: Flux (Flow-Matching Transformer)

  • 이 논문은 Flux 내부의 Transformer block의 attention 출력값에 주목함.
  • 이 attention 출력은:
    • 점진적으로 이미지를 구성함.
    • 다른 block들과 residual connection이 없어 속성 분리 편집에 이상적.
    • 각 block이 독립적으로 의미 있는 정보를 제어할 수 있음.

제안 방법: FluxSpace

  • Attention layer의 출력을 linear editing하여 세밀한 편집, 전체 스타일 변화 모두 가능.

주요 Contributions

  • FluxSpace: Flow-matching transformer에서 동작하는 새로운 편집 프레임워크 제안.
  • Transformer block이 분리된 의미 표현을 효과적으로 학습하고 있음을 보임.
  • 세밀한 편집 + 스타일 변화 모두 지원 → 실제 이미지도 편집 가능.

2. Related Work

Latent Space Exploration of Diffusion Models

Diffusion 모델을 활용한 기존 접근 방식의 한계

  • 대부분 domain-specific diffusion model에 국한됨.
  • 대규모 diffusion 모델에 대한 일반화는 어려움.
  • flow-matching transformer 기반 모델에는 이러한 편집 방향 탐색 방식이 적용된 사례가 없음.

⇒ FluxSpace는 이 공백을 메우는 새로운 방법론을 제안함.

 

Image Editing with Diffusion Models

기본 전략

  • 텍스트 프롬프트 기반으로 원하는 편집 내용을 기술 → 이미지 생성

⇒ 원하지 않는 부분까지 함께 수정되는 문제점

한계점

  • 대부분 편집 하나하나에 대해 모델을 학습해야 함
  • 텍스트 조건 또는 paired image 필요 → 비효율적

FluxSpace는 추가 학습 없이 disentangled editing 가능 → 텍스트 기반도, paired image도 불필요

 

Rectified Flow-Based Models

최신 트렌드

  • Flux와 같은 flow-matching 기반 transformer가 최신 SOTA 모델로 부상
  • 기존 diffusion 모델보다 더 나은 이미지 품질과 효율성
  • 기존 diffusion 기반 편집 방식은 Flux 같은 모델에는 직접 적용 불가하다는 문제점

3. Preliminaries

3.1. Rectified-Flow Models

: 랜덤 노이즈에서 진짜 이미지로 자연스럽게 변형되는 경로를 학습하는 생성 모델. 처음엔 노이즈, 시간이 점점 지나면서 이미지로 변하는데 진짜 노이즈와 예측된 노이즈의 차이를 줄이도록 학습됨.

 

3.2. Multi-Modal Diffusion Transformers : 텍스트와 이미지를 동시에 처리하는 transformer 구조

사용되는 텍스트 임베딩

cpool : CLIP Text Encoder에서 나온 전체 텍스트 요약 임베딩 → attention 입력의 스케일과 쉬프트 조절에 사용

cctxt : T5 기반 토큰 단위 임베딩 → 프롬프트 의미와 정확하게 일치하도록 보정

4. Methodology

Flux는 이미지를 생성할 때 노이즈에서 점점 진짜 이미지로 바꿔감. (multi-step) attention layer 출력을 편집 가능한 표현 공간으로 간주 → FluxSpace라고 부름.

 

4.1. Fine-Grained Editing

Content Preservation with Attention Masking

  • 어떤 픽셀에 편집을 적용할지 선택적으로 적용
  • CLIP 기반 attention map을 활용해 편집에 민감한 영역만 골라서 조절함.

4.2. Editing Coarse Level Details

전체 스타일 변경 → CLIP 문장 임베딩(cpool)을 선형 보간

5. Experiments

정성적 편집 안경, 표정, 스타일 등 세밀한 편집 + 정체성 유지

실제 이미지 RF-Inversion 기반으로도 편집 가능
정량 평가 CLIP-I, DINO에서 가장 우수한 성능
사용자 평가 FluxSpace가 가장 높은 신뢰도 획득
Ablation 분석 각 하이퍼파라미터가 편집의 수준/스타일/일관성에 직접 영향

Limitation

윤리적 가이드라인의 필요성

  • 프라이버시 침해:얼굴, 특징 등을 허락 없이 조작하거나 유포할 수 있는 위험
  • 가짜 정보 생성 가능성: 너무 사실적인 편집이 가능하니까 가짜 뉴스, 유명인 사칭, 여론 조작 등에 악용될 수 있음
  • 현실 왜곡: 진짜와 구별 불가능한 편집 결과로 인해 디지털 콘텐츠의 진위 여부 판단이 어려워짐

Conclusion

FluxSpace: 속성이 분리된 상태에서다양한 스타일과 속성에 대해 정확하고 목표 지향적인 편집이 가능함.

실험 결과

  • 정성적(qualitative) & 정량적(quantitative) 실험에서 좋은 성능
  • 사용자 평가를 통해서도 높은 만족도 입증→ 의도한 의미 변화(semantic change)를 정확히 구현
  • → 편집된 이미지의 정체성을 잘 유지

편집 능력

  • 미세한 편집 & 스타일 변화
  • 다양한 도메인에서 잘 작동 → 높은 범용성과 확장성