:)
[Gen AI] FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers 본문
[Gen AI] FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers
andre99 2025. 4. 14. 20:241. Introduction
연구 배경
- "Disentangled Editing" (속성 분리 편집) 기술
- : 생성된 이미지에서 특정 속성만 선택적으로 편집할 수 있는 능력.
기존 모델들의 편집 특성
GANs
- 고정 차원의 latent vector 사용.
- 눈, 입, 머리색 등과 같은 각 벡터 차원이 의미 있는 개념을 선형적으로 표현.
- → 편집이 직관적이고 분리되어 있음. (disentangled)
Diffusion 모델
- 다단계 방식으로 노이즈 → 이미지로 점진적으로 생성.
- 고정 latent vector 없음. → 각 단계의 노이즈가 복잡하게 얽혀 있어서 속성 조절이 어려움.
기존 시도들의 한계
접근 방식 한계점
UNet bottleneck | 의미 분리가 완전하지 않음 |
Text embedding 조작 | 시각 정보와 잘 정렬되지 않아 오류 가능 |
Noise space 조작 | 특정 노이즈 ↔ 의미 연결이 어려움 |
Weight space (LoRA 등) | 도메인별 학습 필요 → 시간 & 자원 소모 |
새로운 관점: Flux (Flow-Matching Transformer)
- 이 논문은 Flux 내부의 Transformer block의 attention 출력값에 주목함.
- 이 attention 출력은:
- 점진적으로 이미지를 구성함.
- 다른 block들과 residual connection이 없어 속성 분리 편집에 이상적.
- 각 block이 독립적으로 의미 있는 정보를 제어할 수 있음.
제안 방법: FluxSpace
- Attention layer의 출력을 linear editing하여 세밀한 편집, 전체 스타일 변화 모두 가능.
주요 Contributions
- FluxSpace: Flow-matching transformer에서 동작하는 새로운 편집 프레임워크 제안.
- Transformer block이 분리된 의미 표현을 효과적으로 학습하고 있음을 보임.
- 세밀한 편집 + 스타일 변화 모두 지원 → 실제 이미지도 편집 가능.
2. Related Work
Latent Space Exploration of Diffusion Models
Diffusion 모델을 활용한 기존 접근 방식의 한계
- 대부분 domain-specific diffusion model에 국한됨.
- 대규모 diffusion 모델에 대한 일반화는 어려움.
- flow-matching transformer 기반 모델에는 이러한 편집 방향 탐색 방식이 적용된 사례가 없음.
⇒ FluxSpace는 이 공백을 메우는 새로운 방법론을 제안함.
Image Editing with Diffusion Models
기본 전략
- 텍스트 프롬프트 기반으로 원하는 편집 내용을 기술 → 이미지 생성
⇒ 원하지 않는 부분까지 함께 수정되는 문제점
한계점
- 대부분 편집 하나하나에 대해 모델을 학습해야 함
- 텍스트 조건 또는 paired image 필요 → 비효율적
FluxSpace는 추가 학습 없이 disentangled editing 가능 → 텍스트 기반도, paired image도 불필요
Rectified Flow-Based Models
최신 트렌드
- Flux와 같은 flow-matching 기반 transformer가 최신 SOTA 모델로 부상
- 기존 diffusion 모델보다 더 나은 이미지 품질과 효율성
- 기존 diffusion 기반 편집 방식은 Flux 같은 모델에는 직접 적용 불가하다는 문제점
3. Preliminaries
3.1. Rectified-Flow Models
: 랜덤 노이즈에서 진짜 이미지로 자연스럽게 변형되는 경로를 학습하는 생성 모델. 처음엔 노이즈, 시간이 점점 지나면서 이미지로 변하는데 진짜 노이즈와 예측된 노이즈의 차이를 줄이도록 학습됨.
3.2. Multi-Modal Diffusion Transformers : 텍스트와 이미지를 동시에 처리하는 transformer 구조
사용되는 텍스트 임베딩
cpool : CLIP Text Encoder에서 나온 전체 텍스트 요약 임베딩 → attention 입력의 스케일과 쉬프트 조절에 사용
cctxt : T5 기반 토큰 단위 임베딩 → 프롬프트 의미와 정확하게 일치하도록 보정
4. Methodology
Flux는 이미지를 생성할 때 노이즈에서 점점 진짜 이미지로 바꿔감. (multi-step) attention layer 출력을 편집 가능한 표현 공간으로 간주 → FluxSpace라고 부름.
4.1. Fine-Grained Editing
Content Preservation with Attention Masking
- 어떤 픽셀에 편집을 적용할지 선택적으로 적용
- CLIP 기반 attention map을 활용해 편집에 민감한 영역만 골라서 조절함.
4.2. Editing Coarse Level Details
전체 스타일 변경 → CLIP 문장 임베딩(cpool)을 선형 보간
5. Experiments
정성적 편집 안경, 표정, 스타일 등 세밀한 편집 + 정체성 유지
실제 이미지 | RF-Inversion 기반으로도 편집 가능 |
정량 평가 | CLIP-I, DINO에서 가장 우수한 성능 |
사용자 평가 | FluxSpace가 가장 높은 신뢰도 획득 |
Ablation 분석 | 각 하이퍼파라미터가 편집의 수준/스타일/일관성에 직접 영향 |
Limitation
윤리적 가이드라인의 필요성
- 프라이버시 침해:얼굴, 특징 등을 허락 없이 조작하거나 유포할 수 있는 위험
- 가짜 정보 생성 가능성: 너무 사실적인 편집이 가능하니까 가짜 뉴스, 유명인 사칭, 여론 조작 등에 악용될 수 있음
- 현실 왜곡: 진짜와 구별 불가능한 편집 결과로 인해 디지털 콘텐츠의 진위 여부 판단이 어려워짐
Conclusion
FluxSpace: 속성이 분리된 상태에서다양한 스타일과 속성에 대해 정확하고 목표 지향적인 편집이 가능함.
실험 결과
- 정성적(qualitative) & 정량적(quantitative) 실험에서 좋은 성능
- 사용자 평가를 통해서도 높은 만족도 입증→ 의도한 의미 변화(semantic change)를 정확히 구현
- → 편집된 이미지의 정체성을 잘 유지
편집 능력
- 미세한 편집 & 스타일 변화
- 다양한 도메인에서 잘 작동 → 높은 범용성과 확장성