[Gen AI] FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers

Tags more

Today

Total

관리 메뉴

:)

[Gen AI] FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers 본문

Paper Review

[Gen AI] FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers

andre99 2025. 4. 14. 20:24

1. Introduction

연구 배경

"Disentangled Editing" (속성 분리 편집) 기술
: 생성된 이미지에서 특정 속성만 선택적으로 편집할 수 있는 능력.

기존 모델들의 편집 특성

GANs

고정 차원의 latent vector 사용.
눈, 입, 머리색 등과 같은 각 벡터 차원이 의미 있는 개념을 선형적으로 표현.
→ 편집이 직관적이고 분리되어 있음. (disentangled)

Diffusion 모델

다단계 방식으로 노이즈 → 이미지로 점진적으로 생성.
고정 latent vector 없음. → 각 단계의 노이즈가 복잡하게 얽혀 있어서 속성 조절이 어려움.

기존 시도들의 한계

접근 방식 한계점

UNet bottleneck	의미 분리가 완전하지 않음
Text embedding 조작	시각 정보와 잘 정렬되지 않아 오류 가능
Noise space 조작	특정 노이즈 ↔ 의미 연결이 어려움
Weight space (LoRA 등)	도메인별 학습 필요 → 시간 & 자원 소모

새로운 관점: Flux (Flow-Matching Transformer)

이 논문은 Flux 내부의 Transformer block의 attention 출력값에 주목함.
이 attention 출력은:
- 점진적으로 이미지를 구성함.
- 다른 block들과 residual connection이 없어 속성 분리 편집에 이상적.
- 각 block이 독립적으로 의미 있는 정보를 제어할 수 있음.

제안 방법: FluxSpace

Attention layer의 출력을 linear editing하여 세밀한 편집, 전체 스타일 변화 모두 가능.

주요 Contributions

FluxSpace: Flow-matching transformer에서 동작하는 새로운 편집 프레임워크 제안.
Transformer block이 분리된 의미 표현을 효과적으로 학습하고 있음을 보임.
세밀한 편집 + 스타일 변화 모두 지원 → 실제 이미지도 편집 가능.

2. Related Work

Latent Space Exploration of Diffusion Models

Diffusion 모델을 활용한 기존 접근 방식의 한계

대부분 domain-specific diffusion model에 국한됨.
대규모 diffusion 모델에 대한 일반화는 어려움.
flow-matching transformer 기반 모델에는 이러한 편집 방향 탐색 방식이 적용된 사례가 없음.

⇒ FluxSpace는 이 공백을 메우는 새로운 방법론을 제안함.

Image Editing with Diffusion Models

기본 전략

텍스트 프롬프트 기반으로 원하는 편집 내용을 기술 → 이미지 생성

⇒ 원하지 않는 부분까지 함께 수정되는 문제점

한계점

대부분 편집 하나하나에 대해 모델을 학습해야 함
텍스트 조건 또는 paired image 필요 → 비효율적

FluxSpace는 추가 학습 없이 disentangled editing 가능 → 텍스트 기반도, paired image도 불필요

Rectified Flow-Based Models

최신 트렌드

Flux와 같은 flow-matching 기반 transformer가 최신 SOTA 모델로 부상
기존 diffusion 모델보다 더 나은 이미지 품질과 효율성
기존 diffusion 기반 편집 방식은 Flux 같은 모델에는 직접 적용 불가하다는 문제점

3. Preliminaries

3.1. Rectified-Flow Models

: 랜덤 노이즈에서 진짜 이미지로 자연스럽게 변형되는 경로를 학습하는 생성 모델. 처음엔 노이즈, 시간이 점점 지나면서 이미지로 변하는데 진짜 노이즈와 예측된 노이즈의 차이를 줄이도록 학습됨.

3.2. Multi-Modal Diffusion Transformers : 텍스트와 이미지를 동시에 처리하는 transformer 구조

사용되는 텍스트 임베딩

cpool : CLIP Text Encoder에서 나온 전체 텍스트 요약 임베딩 → attention 입력의 스케일과 쉬프트 조절에 사용

cctxt : T5 기반 토큰 단위 임베딩 → 프롬프트 의미와 정확하게 일치하도록 보정

4. Methodology

Flux는 이미지를 생성할 때 노이즈에서 점점 진짜 이미지로 바꿔감. (multi-step) attention layer 출력을 편집 가능한 표현 공간으로 간주 → FluxSpace라고 부름.

4.1. Fine-Grained Editing

Content Preservation with Attention Masking

어떤 픽셀에 편집을 적용할지 선택적으로 적용
CLIP 기반 attention map을 활용해 편집에 민감한 영역만 골라서 조절함.

4.2. Editing Coarse Level Details

전체 스타일 변경 → CLIP 문장 임베딩(cpool)을 선형 보간

5. Experiments

정성적 편집 안경, 표정, 스타일 등 세밀한 편집 + 정체성 유지

실제 이미지	RF-Inversion 기반으로도 편집 가능
정량 평가	CLIP-I, DINO에서 가장 우수한 성능
사용자 평가	FluxSpace가 가장 높은 신뢰도 획득
Ablation 분석	각 하이퍼파라미터가 편집의 수준/스타일/일관성에 직접 영향

Limitation

윤리적 가이드라인의 필요성

프라이버시 침해:얼굴, 특징 등을 허락 없이 조작하거나 유포할 수 있는 위험
가짜 정보 생성 가능성: 너무 사실적인 편집이 가능하니까 가짜 뉴스, 유명인 사칭, 여론 조작 등에 악용될 수 있음
현실 왜곡: 진짜와 구별 불가능한 편집 결과로 인해 디지털 콘텐츠의 진위 여부 판단이 어려워짐

Conclusion

FluxSpace: 속성이 분리된 상태에서다양한 스타일과 속성에 대해 정확하고 목표 지향적인 편집이 가능함.

실험 결과

정성적(qualitative) & 정량적(quantitative) 실험에서 좋은 성능
사용자 평가를 통해서도 높은 만족도 입증→ 의도한 의미 변화(semantic change)를 정확히 구현
→ 편집된 이미지의 정체성을 잘 유지

편집 능력

미세한 편집 & 스타일 변화
다양한 도메인에서 잘 작동 → 높은 범용성과 확장성

'Paper Review' 카테고리의 다른 글

[LLM] DeepSeekMath (0)	2025.04.02
[RL] Unsupervised Skill Discovery for Learning Shared Structures across Changing Environments (0)	2025.03.25
[LLM] LoRA: Low-Rank Adaptation of Large Language Models (0)	2025.03.13
[Robotics] E2Map: Experience-and-Emotion Map for Self-Reflective Robot Navigation with Language Models (0)	2025.03.04
[Gen AI] AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning (0)	2025.02.09

'Paper Review' Related Articles

:)

[Gen AI] FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers 본문

[Gen AI] FluxSpace: Disentangled Semantic Editing in Rectified Flow Transformers

1. Introduction

2. Related Work

3. Preliminaries

4. Methodology

5. Experiments

Limitation

Conclusion

'Paper Review' 카테고리의 다른 글

티스토리툴바