[논문리뷰 ICLR] AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

AI & Computer Science/Paper Review

[논문리뷰 ICLR] AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

쿠리유짱 2025. 10. 17. 12:03

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

ICLR 2024 Spotlight Poster

ICLR 2024. Yuwei Guo, Ceyuan Yang, Anyi Rao, Yaohui Wang, Yu Qiao, Dahua Lin, Bo Dai Shanghai AI Laboratory ❘ The Chinese University of Hong Kong ❘ Stanford University 10 Jul 2023

1. About AnimateDiff

기존의 다양한 Text-to-Image diffusion 모델을 fine-tuning 없이 애니메이션 생성기로 전환하기 위한 일종의 모듈이라고 보면 된다.
즉, 기존의 T2I 디퓨전 모델에 사전 학습된 motion module(AnimateDiff)을 plug-and-play 형태로 삽입해 애니메이션 생성 가능하다고 한다.

2. Background & Motivation

Limitation of Previous Approaches and Key Differentiation

Stable Diffusion Figure

최근 Text-to-Image diffusion 모델(예: Stable Diffusion)은 텍스트로부터 고품질의 정지된 이미지를 생성할 수 있다. 시간이 지나면서 이미지의 품질은 점점 더 정교하며 사실적으로 묘사되고 있다.
하지만 이는 정지된 이미지를 생성하는것이지, 움직이는 이미지(즉, 애니메이션)는 아니다. 모델의 Personalized된 특징을 유지하면서 동적 이미지 생성 모델로 확장하기 위해서는 대규모 파인튜닝 및 대규모 비디오 데이터셋이 필요하다는 단점이 있다.
AnimateDiff는 이를 해결하기 위해 기존의 정적 이미지를 생성하는 T2I 디퓨전 모델의 별도 재학습 없이, 기존 diffusion 모델에 직접적용 가능한 plug-and-play형태의 모듈을 통해 애니메이션을 생성한다.

3. Related Work

How previous T2I-to-Video approaches worked

Figure 2: Inference pipeline

기존 연구들은 Text-to-Image(T2I) 모델을 비디오 생성으로 확장하기 위해선 해당 모델을 전체 재학습하거나 파라미터 수정을 을 거쳐야하는 번거로움이 있다.
즉, 위와 같은 과정을 거치게 되면 연산 비용이 높아지게 되며, 커스텀 모델과 호환이 불가하다는 단점이 있다.
반면에, AnimateDiff는 모델의 전체 재학습 없이, 기존의 T2I모델에 삽입 가능한 형태의 모듈형 unit을 제안한다.
즉, 기존의 T2I 디퓨전 모델 자체를 바꾸는게 아니라, 기존 T2I 모델은 그대로 냅두고 동적 이미지 생성을 위한 모듈을 붙인다는것.

4. AnimateDiff Architecture Overview

Three trainable components for plug-and-play animation generation

(왼쪽) Domain Adapter, (중간) Motion Module, (오른쪽) MotionLoRA

AnimateDiff는 Domain Adapter, Motion Module, MotionLoRA라는 3개의 모듈로 구성된다.
3개의 모듈은 개별저긍로 학습되고, 추론 단계에서 결합되어 애니메이션을 생성하는 데 사용된다고 한다.
즉, 이 3개의 모듈을 기존의 T2I 디퓨전 모델에 결합해 기존 모델의 재학습 없이 T2I 디퓨전 모델을 애니메이션 생성기로 사용가능하다는 장점이 있다.

4.1. Domain Adapter Module

Domain Adapter: Alleviate visual quality degradation in video training

Domain Adapter Module의 수식

WebVid와 같은 공개 비디오 데이터셋은, 이미지 데이터셋과 달리 블러, 압축 노이즈, 워터마크 등 모델 학습에 방해되는 저품질 요소를 포함하고 있다.
이러한 저품질 요소가 담긴 비디오 데이터셋을 그대로 학습하면 기존의 Diffusion 모델의 시각적 표현에 부정적인 영향을 미친다고 한다.
따라서 Domain Adapter는 Self/Cross-Attention 층에 LoRA 기반 레이어 형태의 Domain Adapter를 삽입하여 이 도메인 차이를 분리한다.
이렇게 Domain Adapter은 비디오 프레임 샘플에 대해 학습되고, 비디오 학습 데이터의 저품질 요소로 인한 품질 저하를 완화한다고 한다

Domain Adapter 블록만 잘라낸 사진

4.2 Motion Module

Motion Module: Learn Motion Priors with Motion Module

Motion Module의 수식

Motion Module은 Temporal Transformer 구조를 그대로 사용해 시간축의 움직임 패턴을 학습하는 데 목적이 있다.
기존 이미지 레이어는 동결(frozen) 한 채, 잠재 공간에서 프레임 간 변화를 학습한다.
출력층은 제로 초기화되며, 잔차연결을 추가해 안정적이고 일관된 모션 학습을 보장한다.

Motion Module 블록만 잘라낸 사진

4.3 MotionLoRA

Lightweight adaptation for new motion patterns

MotionLoRA 블록만 잘라낸 사진

MotionLoRA는 카메라 움직임을 학습하기 위한 모듈이다. 따라서 선택적으로 사용되는 것으로 보인다.
사전학습된 모션 모듈에 LoRA 레이어를 추가해 새로운 움직임(줌, 패닝, 롤링 등등..)을 학습하는 데 목적이 있다.
LoRA의 이점(전체 파라미터 학습이 아닌 저랭크 행렬만 업데이트)으로 효율적인 미세조정이 가능하다.
이렇게 학습된 여러 MotionLoRA를 조합해 복합적인 모션 효과를 구현할 수 있다.

정리하자면,

(왼쪽) Domain Adapter, (중간) Motion Module, (오른쪽) MotionLoRA

AnimateDiff는 도메인 어뎁터, 모션 모듈, 모션 로라를 단계적으로 학습한 뒤 기존의 T2I 디퓨전 모델에 결합한다.
즉, 추론 시 학습된 모듈을 기존 T2I 모델에 삽입(plug-in) 하여 애니메이션을 생성한다.
추론 과정에서는 도메인 어댑터를 비활성화하거나 가중치를 조절해 시각적 품질을 최적화 한다고 한다.

현재글[논문리뷰 ICLR] AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

meteor_yeon

이진 탐색, 우분투, 두 배열의 원소 교체, 오답노트, 문제분류, 그리디, 풀이, dfs, BFS, 구현, 알고리즘, key 정렬, 코딩테스트, 자료구조, sorted, 나동빈, 정렬, 이것이코딩테스트다, 이코테, 해설,

Today :
Yesterday :

티스토리툴바