🎉 Awesome-Human-Motion-Video-Generation 🔥

You can click on Watch and Star to get the latest updates at any time.

Watch Me ! Watch Me ! Watch Me !
Star Me ! Star Me ! Star Me !

🎁 >>>>>>>> [English Introduction] <<<<<<<<<<

This project provides a thorough summary of the latest advancements in the field of 2D digital human motion video generation, covering papers, datasets, and code repositories.

The repository is organized into three main conditions: Vision-driven, Text-driven, and Audio-driven, while also considering LLM Planning Papers.

Unlike previous summaries, this project clearly outlines the five key stages in the field of digital human video generation:

🌑 Stage 1: Input Phase. Clarifying the driving source (Vision, Text, Audio) and driving region (Part, Holistic), where "Part" mainly refers to the face;

🌒 Stage 2: Motion planning Phase. Most work involves feature mapping to learn motion mappings, while a few works use large language models (LLMs) for motion planning;

🌓 Stage 3: Motion Video Generation Phase;

🌔 Stage 4: Video Refinement Phase, focusing on optimizing specific parts such as the face, lips, teeth, and hands;

🌕 Stage 5: Acceleration Phase, aiming to speed up training and deployment inference as much as possible, with the goal of achieving real-time output.

🎉 We welcome everyone to contribute your research and submit PRs to collectively advance the technology of human motion video generation.

If you have any questions, feel free to contact us at ([email protected]), and we will respond as soon as possible. Additionally, we warmly welcome new members from related fields to join us, learn together, and make endless progress!

🏆 >>>>>>>> [🧡中文简要介绍💜] <<<<<<<<<<

本项目认真总结了👍2D数字人动作视频生成👏相关领域的最新进展，包括论文、数据集和代码库。

Repo以 Vision-driven、Text-driven、Audio-driven 三大方向作以总结，同时考虑 LLM Planning 前沿论文。

分类时，我们定义Audio>Text>Vision优先级，当出现文本不出现音频时，归纳为Text-Driven方法，当文本音频同时出现时，归纳为Audio-Driven方法，以此类推。

区别于以往的总结，项目明确总结了数字人视频生成领域的五大阶段：

🌑 第1阶段明确驱动源（Vision、Text、Audio）与驱动区域（Part、Holistic），其中Part主要以脸部为主；

🌒 第2阶段动作规划阶段，大多数工作以特征Mapping学习动作映射，少部分工作以大语言模型LLMs进行动作规划；

🌓 第3阶段人体视频生成，大部分工作以Diffusion Models为基础，少部分工作以Transformer为基础；

🌔 第4阶段视频优化阶段，针对脸部、嘴唇、牙齿、手部单独做Refinement优化；

🌕 第5阶段加速输出阶段，尽可能地加速训练与部署推理，目标Real-Time实时输出。

🔑本项目由六位核心成员全力推进：

- 薛海威（清华大学，负责人）
- 罗向阳（清华大学）
- 胡璋昊（爱丁堡大学）
- 张鑫（西安交通大学）
- 向迅之（中国科学院大学）
- 戴语琴（南京理工大学）

💖核心综述由以下老师全力支持并悉心指导：

- 刘健庄老师（中国科学院深圳先进技术研究院）
- 张镇嵩博士（华为诺亚2012实验室）
- 李明磊博士（零一万物）
- 马飞博士（光明实验室）
- 吴志勇老师（清华大学/香港中文大学）

另外，非常感谢常恒师兄 ( https://github.com/SwiftieH )、余伟江师兄的支持！

🎉 欢迎大家贡献自己的研究成果并PR，共同推动人体运动视频生成技术的发展。

如有任何问题，可以随时联系邮件（[email protected]），我们会尽快回复。

另外，我们非常欢迎有新的相关领域的同学一同加入我们，一起学习，无限进步！

🍦 Exploring the latest papers in human motion video generation. 🍦

Introduction

This work delves into Human Motion Video Generation, covering areas such as Portrait Animation, Dance Video Generation, Text2Face, Text2MotionVideo, and Talking Head. We believe this will be the most comprehensive survey to date on human motion video generation technologies. Please stay tuned! 😘😁😀

It's important to note that for the sake of clarity, we have excluded 3DGS and NeRF technologies (2D-3D-2D) from the scope of this paper.

✨You are welcome to provide us your work with a topic related to human motion video generation.✨

If you discover any missing work or have any suggestions,

please feel free to submit a pull request or contact us ( [email protected] ).

We will promptly add the missing papers to this repository.

🍔 Highlight

[1] We decompose human motion video generation into five key phases, covering all subtasks across various driving sources and body regions. To the best of our knowledge, this is the first survey to offer such a comprehensive framework for human motion video generation.

[2] We provide an in-depth analysis of human motion video generation from both motion planning and motion generation perspectives, a dimension that has been underexplored in existing reviews.

[3] We clearly delineate established baselines and evaluation metrics, offering detailed insights into the key challenges shaping this field.

[4] We present a set of potential future research directions, aimed at inspiring and guiding researchers in the field of human motion video generation.

🕑 Timeline

💙 News

[2025/01/22] V5.9 Vision: Update Methods. Happy New Year🎀

CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation (Visual, Try-On Video Generation)

EMO2: End-Effector Guided Audio-Driven Avatar Video Generation (Audio, Audio-Driven Holistic Body Driving)

[2025/01/20] V5.8 Vision: Update Methods. Happy New Year🎀

X-Dyna: Expressive Dynamic Human Image Animation (Visual, Pose-Guided Dance Video Generation)

Textoon: Generating Vivid 2D Cartoon Characters from Text Descriptions (Text, Text2Motion)

[2025/01/18] V5.7 Vision: Update Methods. Happy New Year🎀

RealVVT: Towards Photorealistic Video Virtual Try-on via Spatio-Temporal Consistency (Visual, Try-On Video Generation)

DynamicFace: High-Quality and Consistent Video Face Swapping using Composable 3D Facial Priors (Visual, Portrait Animation)

[2025/01/16] V5.6 Vision: Update Methods. Happy New Year🎀

Qffusion: Controllable Portrait Video Editing via Quadrant-Grid Attention Learning (Visual, Portrait Animation)

[2025/01/14] V5.5 Vision: Update Methods. Happy New Year🎀

Identity-Preserving Video Dubbing Using Motion Warping (Audio, Lip Synchronization)

[2025/01/13] V5.4 Vision: Update Methods. Happy New Year🎀

Ingredients: Blending Custom Photos with Video Diffusion Transformers (Text, Text2MotionVideo)

Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers (Text, Text2MotionVideo)

[2025/01/12] V5.3 Vision: Update Methods. Happy New Year🎀

MoEE: Mixture of Emotion Experts for Audio-Driven Portrait Animation (Audio, Head Pose Driving)

[2025/01/11] V5.2 Vision: Update Methods. Happy New Year🎀

UniAvatar: Taming Lifelike Audio-Driven Talking Head Generation with Comprehensive Motion and Lighting Control (Audio, Head Pose Driving)

[2025/01/10] V5.1 Vision: Update Methods. Happy New Year🎀

RAIN: Real-time Animation of Infinite Video Stream (Visual, Portrait Animation)

VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models (Text, Text2Face)

[2025/01/06] V5.0 Vision: Update Methods. Happy New Year🎀

Free-viewpoint Human Animation with Pose-correlated Reference Selection (Visual, Pose-Guided Dance Video Generation)

ManiVideo: Generating Hand-Object Manipulation Video with Dexterous and Generalizable Grasping (Visual, Pose2Video)

Follow-Your-MultiPose: Tuning-Free Multi-Character Text-to-Video Generation via Pose Guidance (Text, Text2MotionVideo)

[2025/01/04] V4.9 Vision: Update Methods. Happy New Year🎀

Consistent Human Image and Video Generation with Spatially Conditioned Diffusion (Visual, Pose-Guided Dance Video Generation)

[2024/12/17] V4.8 Vision: Update Methods.

VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping (Visual, Portrait Animation)

VQTalker: Towards Multilingual Talking Avatars through Facial Motion Tokenization (Audio, Fine-Grained Style and Emotion-Driven Animation)

Dynamic Try-On: Taming Video Virtual Try-on with Dynamic Attention Mechanism (Visual, Try-On Video Generation)

SwiftTry: Fast and Consistent Video Virtual Try-On with Diffusion Models (Visual, Try-On Video Generation)

[2024/12/15] V4.7 Vision: Update Methods.

LatentSync: Audio Conditioned Latent Diffusion Models for Lip Sync (Audio, Lip Synchronization)

GoHD: Gaze-oriented and Highly Disentangled Portrait Animation with Rhythmic Poses and Realistic Expression (Audio, Head Pose Driving)

PortraitTalk: Towards Customizable One-Shot Audio-to-Talking Face Generation (Audio, Head Pose Driving)

IF-MDM: Implicit Face Motion Diffusion Model for High-Fidelity Realtime Talking Head Generation (Audio, Head Pose Driving)

INFP: Audio-Driven Interactive Head Generation in Dyadic Conversations (Audio, Head Pose Driving)

MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation (Audio, Head Pose Driving)

DisPose: Disentangling Pose Guidance for Controllable Human Image Animation (Visual, Pose-Guided Dance Video Generation)

[2024/12/11] V4.6 Vision: Update Methods.

PEMF-VVTO: Point-Enhanced Video Virtual Try-on via Mask-free Paradigm (Visual, Try-On Video Generation)

SINGER: Vivid Audio-driven Singing Video Generation with Multi-scale Spectral Diffusion Model (Audio, Head Pose Driving)

EmojiDiff: Advanced Facial Expression Control with High Identity Preservation in Portrait Generation (Visual, Portrait Animation)

Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Diffusion Transformer Networks (Visual, Portrait Animation)

FLOAT: Generative Motion Latent Flow Matching for Audio-driven Talking Portrait (Visual, Portrait Animation)

DreamDance: Animating Human Images by Enriching 3D Geometry Cues from 2D Poses (Visual, Pose-Guided Dance Video Generation)

[2024/12/02] V4.5 Vision: Update Methods.

LokiTalk: Learning Fine-Grained and Generalizable Correspondences to Enhance NeRF-based Talking Head Synthesis (Audio, Head Pose Driving)

Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis (Audio, Head Pose Driving)

Fleximo: Towards Flexible Text-to-Human Motion Video Generation (Text, Text2MotionVideo)

[2024/11/28] V4.4 Vision: Update Methods.

HiFiVFS: High Fidelity Video Face Swapping (Visual, Portrait Animation)

MotionCharacter: Identity-Preserving and Motion Controllable Human Video Generation (Text, Text2Face)

Identity-Preserving Text-to-Video Generation by Frequency Decomposition (Text, Text2Face)

AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation (Visual, Pose2Video)

PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation (Text, Text2Face)

LetsTalk: Latent Diffusion Transformer for Talking Video Synthesis (Audio, Fine-Grained Style and Emotion-Driven Animation)

EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion (Audio, Fine-Grained Style and Emotion-Driven Animation)

Sonic: Shifting Focus to Global Audio Perception in Portrait Animation (Audio, Fine-Grained Style and Emotion-Driven Animation)

StableAnimator: High-Quality Identity-Preserving Human Image Animation (Visual, Pose-Guided Dance Video Generation)

[2024/11/25] V4.3 Vision: Update Methods.

FloAt: Flow Warping of Self-Attention for Clothing Animation Generation (Visual, Try-On Video Generation)

[2024/11/18] V4.2 Vision: Update Methods.

EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation (Audio, Audio-Driven Holistic Body Driving)

[2024/11/15 !WoW! More Star 100 🌟🌟🌟] V4.1 Vision: Update Methods.

JoyVASA: Portrait and Animal Image Animation with Diffusion-Based Audio-Driven Facial Dynamics and Head Motion Generation (Audio, Fine-Grained Style and Emotion-Driven Animation)

LES-Talker: Fine-Grained Emotion Editing for Talking Head Generation in Linear Emotion Space (Audio, Fine-Grained Style and Emotion-Driven Animation)

[2024/11/14]V4.0 Vision: Update Methods.

MikuDance: Animating Character Art with Mixed Motion Dynamics (Visual, Pose-Guided Dance Video Generation)

[2024/11/04]V3.9 Vision: Update Methods.

Fashion-VDM (Visual, Try-On Video Generation)

Towards High-fidelity Head Blending with Chroma Keying for Industrial Applications (Visual, Portrait Animation)

[2024/11/01]V3.8 Vision: Update Methods.

Stereo-Talker (Audio, Audio-Driven Holistic Body Driving)

[2024/10/29]V3.7 Vision: Update Methods.

MovieCharacter (Visual, Pose2Video)

[2024/10/24 Happy Coding Day!]V3.6 Vision: Update Methods.

EmoGene (Audio, Fine-Grained Style and Emotion-Driven Animation)

Find the Chinese version notes of the survey, welcome to pay attention.

[2024/10/21]V3.5 Vision: Update Methods.

Takin-ADA: Emotion Controllable Audio-Driven Animation with Canonical and Landmark Loss Optimization (Audio, Fine-Grained Style and Emotion-Driven Animation)

[2024/10/18]V3.4 Vision: Update Methods.

DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation (Audio, Head Pose Driving)

[2024/10/15]V3.3 Vision: Update Methods.

Tex4D (Text, Text2MotionVideo)

TALK-Act: Enhance Textural-Awareness for 2D Speaking Avatar Reenactment with Diffusion Model (Audio, Audio-Driven Holistic Body Driving)

Animate-X: Universal Character Image Animation with Enhanced Motion Representation (Visual, Pose-Guided Dance Video Generation)

MuseTalk: Real-Time High Quality Lip Synchronization with Latent Space Inpainting (Audio, Lip Synchronization)

[2024/10/11]V3.2 Vision: Update Methods.

Hallo2: Long-Duration and High-Resolution Audio-Driven Portrait Image Animation (Audio, Fine-Grained Style and Emotion-Driven Animation)

[2024/10/10]V3.1 Vision: Update Methods.

MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes (Audio, Fine-Grained Style and Emotion-Driven Animation)

[2024/10/08]V3.0 Vision: Update Methods.

TANGO (Audio, Audio-Driven Holistic Body Driving)

[2024/10/04]🎉🎉🎉V2.9 Vision I'm glad that our article is publicly available on TechRxiv. We welcome your attention and citations. The version on arXiv is still on hold, and we will update it when it becomes available.

@article{xue2024human,
  title={Human Motion Video Generation: A survey},
  author={Xue, Haiwei and Luo, Xiangyang and Hu, Zhanghao and Zhang, Xin and Xiang, Xunzhi and Dai, Yuqin and Liu, Jianzhuang and Zhang, Zhensong and Li, Minglei and Yang, Jian and others},
  journal={Authorea Preprints},
  year={2024},
  publisher={Authorea}
  doi={10.36227/techrxiv.172793202.22697340/v1}
}

[2024/10/03]V2.8 Vision: Update Methods.

LaDTalk: Latent Denoising for Synthesizing Talking Head Videos with High Frequency Details (Audio, Head Pose Driving)

[2024/10/02]V2.7 Vision: Update Methods.

Replace Anyone in Videos (Visual, Video-Guided Dance Video Generation)

High Quality Human Image Animation using Regional Supervision and Motion Blur Condition (Visual, Pose-Guided Dance Video Generation)

[2024/09/27]V2.6 Vision: Update Methods.

SVP (Visual, Portrait Animation)

Self-Supervised Learning of Deviation in Latent Representation for Co-speech Gesture Video Generation (Audio, Audio-Driven Holistic Body Driving)

[2024/09/25]V2.5 Vision: Update Methods.

MIMO (Visual, Pose-Guided Dance Video Generation)

[2024/09/24]V2.4 Vision: Update Methods.

MIMAFace (Audio, Fine-Grained Style and Emotion-Driven Animation)

[2024/09/23]V2.3 Vision: Update Methods.

JoyHallo (Audio, Fine-Grained Style and Emotion-Driven Animation)

[2024/09/19] V2.2 Vision: Update Methods.

JEAN (Audio, Head Pose Driving)

[2024/09/17] V2.1 Vision: Update Methods.

LawDNet (Audio, Lip Synchronization)

StyleTalk++ (Audio, Fine-Grained Style and Emotion-Driven Animation)

[2024/09/13] V2.0 Vision: Update Methods.

DiffTED (Audio, Audio-Driven Holistic Body Driving)

[2024/09/12] V1.9 Vision: Update Methods.

EMOdiffhead (Audio, Fine-Grained Animation)

[2024/09/11] V1.8 Vision: Update Methods.

RealisDance (Visual, Pose-Guided Dance Video Generation)

[2024/09/10] V1.7 Vision: Update Methods.

Leveraging WaveNet for Dynamic Listening Head Modeling from Speech (Audio, Lip Synchronization)

KAN-Based Fusion of Dual-Domain for Audio-Driven Facial Landmarks Generation (Audio, Lip Synchronization)

PersonaTalk (Audio, Lip Synchronization)

[2024/09/06] V1.6 Vision: Update Methods.

SVP (Audio, Fine-Grained Animation)

SegTalker (Audio, Lip Synchronization)

[2024/09/05] V1.5 Vision: Update Methods.

Loopy (Audio, Fine-Grained Animation)

PoseTalk (Audio, Fine-Grained Animation)

[2024/09/04] V1.4 Vision: Update Methods.

CyberHost (Audio, Holistic Human Driving)

[2024/08/28] V1.3 Vision: Update Methods.

MegActor-Σ (Audio, Fine-Grained Animation)

Rafael Azevedo et al. (Text, Text2Face)

[2024/08/27] V1.2 Vision: Update Methods.

GenCA (Text, Text2Face)

[2024/08/26] V1.1 Vision: Update Methods.

G3FA (Vision, Portrait Animation)

[2024/08/21] V1.0 Vision: Initialize the repository. If you find it helpful to you, welcome to star and share our work.

Vision Guidance

Part (Face) || Portrait Animation

Date	Title	Motion Representation	Backbone	Venue
2024 06 04	Follow-Your-Emoji: Fine-Controllable and Expressive Freestyle Portrait Animation	KeyPoint	Diffusion Model	SIGGRAPH ASIA2024
2024 07 05	LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control	KeyPoint	Encoder-Decoder	arXiv
2024 07 09	MobilePortrait: Real-Time One-Shot Neural Head Avatars on Mobile Devices	KeyPoint	Diffusion Model	arXiv
2023 10 16	Expression Domain Translation Network for Cross-domain Head Reenactment	3D Parameterization	Encoder-Decoder	ICASSP 2024
2023 03 26	OTAvatar : One-shot Talking Face Avatar with Controllable Tri-plane Rendering	3D Parameterization	Encoder-Decoder	CVPR 2023
2023 03 27	OmniAvatar: Geometry-Guided Controllable 3D Head Synthesis	Latent	GAN	CVPR 2023
2023 12 04	Unsupervised High-Resolution Portrait Gaze Correction and Animation	Latent	GAN	IEEE Transactions on Image Processing 2022
2024 06 08	MegActor: Harness the Power of Raw Video for Vivid Portrait Animation	Latent	Diffusion Model	arXiv
2024 05 31	X-Portrait: Expressive Portrait Animation with Hierarchical Motion Attention	Latent	Diffusion Model	ACM SIGGRAPH 2024
2024 08 26	G3FA: Geometry-guided GAN for Face Animation	Latent	GAN	arXiv
2024 09 27	Stable Video Portraits	3D Parameterization	Diffusion Model	ECCV 2024
2024 11 04	Towards High-fidelity Head Blending with Chroma Keying for Industrial Applications	Region	Encoder-Decoder	WACV 2024
2024 11 28	HiFiVFS: High Fidelity Video Face Swapping	Latent	Encoder-Decoder	arXiv
2024 12 02	EmojiDiff: Advanced Facial Expression Control with High Identity Preservation in Portrait Generation	Latent	Diffusion Model	arXiv
2024 12 15	VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping	Latent	Diffusion Model	arXiv
2024 12 27	RAIN: Real-time Animation of Infinite Video Stream	Latent	Diffusion Model	arXiv
2025 01 11	Qffusion: Controllable Portrait Video Editing via Quadrant-Grid Attention Learning	Latent	Diffusion Model	arXiv
2025 01 15	DynamicFace: High-Quality and Consistent Video Face Swapping using Composable 3D Facial Priors	Latent	Diffusion Model	arXiv
2024 03 23	FaceOff: A Video-to-Video Face Swapping System	Latent	Encoder-Decoder	WACV 2023

Holistic Human || Video-Guided Dance Video Generation

Date	Title	Motion Representation	Backbone	Venue
2018 08 22	Everybody dance now	KeyPoint	GAN	ICCV 2019
2023 07 02	Bidirectional Temporal Diffusion Model for Temporally Consistent Human Animation	Region	Diffusion Model	arXiv
2023 02 22	Human MotionFormer: Transferring Human Motions with Vision Transformers	KeyPoint	Encoder-Decoder	arXiv
2024 10 02	Replace Anyone in Videos	KeyPoint	Diffusion Model	arXiv
2024 06 24	Do As I Do: Pose Guided Human Motion Copy	KeyPoint	GAN	IEEE Transactions on Dependable and Secure Computing

Holistic Human || Pose-Guided Dance Video Generation

Date	Title	Motion Representation	Backbone	Venue
2023 06 30	DisCo	KeyPoint	Diffusion Model	CVPR2024
2023 10 20	Dance Your Latents	KeyPoint	Diffusion Model	arxiv
2023 11 18	MagicPose	KeyPoint	Diffusion Model	ICML2024
2023 11 27	MagicAnimate	Region	Diffusion Model	CVPR2024
2023 11 28	Animate Anyone	KeyPoint	Diffusion Model	CVPR2024
2023 12 08	DreaMoving	KeyPoint	Diffusion Model	arxiv
2023 12 27	I2V-Adapter	KeyPoint	Diffusion Model	SIGGRAPH2024
2024 05 26	Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation	KeyPoint	Diffusion Model	arxiv
2024 05 28	VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation	KeyPoint	Diffusion Model	arxiv
2024 05 30	MotionFollower: Editing Video Motion via Lightweight Score-Guided Diffusion	KeyPoint	Diffusion Model	arxiv
2024 06 03	UniAnimate: Taming Unified Video Diffusion Models for Consistent Human Image animation	KeyPoint	Diffusion Model	arxiv
2024 06 05	Follow-Your-Pose v2: Multiple-Condition Guided Character Image Animation for Stable Pose Control	KeyPoint	Diffusion Model	arxiv
2024 05 27	Human4DiT: Free-view Human Video Generation with 4D Diffusion Transformer	3D Parameterization	Transformer	arxiv
2024 01 19	Synthesizing Moving People with 3D Control	3D Parameterization	Diffusion Model	arxiv
2024 03 21	Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance	3D Parameterization	Diffusion Model	ECCV 2024
2024 07 01	MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance	KeyPoint	Diffusion Model	arxiv
2024 07 15	TCAN: Animating Human Images with Temporally Consistent Pose Guidance using Diffusion Models	KeyPoint	Diffusion Model	arxiv
2024 09 11	RealisDance: Equip controllable character animation with realistic hands	KeyPoint	Diffusion Model	arxiv
2024 09 25	MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling	KeyPoint	Diffusion Model	arxiv
2024 10 02	High Quality Human Image Animation using Regional Supervision and Motion Blur Condition	KeyPoint	Diffusion Model	arxiv
2024 10 15	Animate-X: Universal Character Image Animation with Enhanced Motion Representation	KeyPoint	Diffusion Model	arxiv
2024 11 14	MikuDance: Animating Character Art with Mixed Motion Dynamics	KeyPoint	Diffusion Model	arxiv
2024 11 26	StableAnimator: High-Quality Identity-Preserving Human Image Animation	KeyPoint	Diffusion Model	arxiv
2024 11 30	DreamDance: Animating Human Images by Enriching 3D Geometry Cues from 2D Poses	KeyPoint	Diffusion Model	arxiv
2024 12 12	DisPose: Disentangling Pose Guidance for Controllable Human Image Animation	KeyPoint,Region	Diffusion Model	arxiv
2024 12 19	Consistent Human Image and Video Generation with Spatially Conditioned Diffusion	KeyPoint	Diffusion Model	arxiv
2024 12 23	Free-viewpoint Human Animation with Pose-correlated Reference Selection	KeyPoint	Diffusion Model	arxiv
2025 01 17	X-Dyna: Expressive Dynamic Human Image Animation	KeyPoint	Diffusion Model	arxiv
2024 07 16	IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation	Region	Diffusion Model	arxiv

Holistic Human || Try-On Video Generation

Date	Title	Motion Representation	Backbone	Venue
2024 04 26	Tunnel Try-on: Excavating Spatial-temporal Tunnels for High-quality Virtual Try-on in Videos	KeyPoint	Diffusion Model	arxiv
2024 05 20	ViViD: Video Virtual Try-on using Diffusion Models	Region	Diffusion Model	arxiv
2024 11 04	Fashion-VDM: Video Diffusion Model for Virtual Try-On	Latent	Diffusion Model	SIGGRAPH Asia 2025
2024 11 25	FloAt: Flow Warping of Self-Attention for Clothing Animation Generation	Latent	Diffusion Model	arxiv
2024 12 04	PEMF-VVTO: Point-Enhanced Video Virtual Try-on via Mask-free Paradigm	Latent	Diffusion Model	arxiv
2024 12 13	Dynamic Try-On: Taming Video Virtual Try-on with Dynamic Attention Mechanism	Latent	Diffusion Model	arxiv
2024 12 13	SwiftTry: Fast and Consistent Video Virtual Try-On with Diffusion Models	Latent	Diffusion Model	arxiv
2025 01 15	RealVVT: Towards Photorealistic Video Virtual Try-on via Spatio-Temporal Consistency	Latent	Diffusion Model	arxiv
2025 01 20	CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation	Latent	Diffusion Model	arxiv
2024 07 16	WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models	KeyPoint	Diffusion Model	arxiv

Holistic Human || Pose2Video

Date	Title	Motion Representation	Backbone	Venue
2023 04 12	DreamPose	Region	Diffusion Model	ICCV 2023
2024 03 25	Make-Your-Anchor: A Diffusion-based 2D Avatar Generation Framework	3D Parameterization	Diffusion Model	CVPR 2024
2024 04 21	PoseAnimate: Zero-shot high fidelity pose controllable character animation	KeyPoint	Diffusion Model	arxiv
2024 12 18	ManiVideo: Generating Hand-Object Manipulation Video with Dexterous and Generalizable Grasping	KeyPoint	Diffusion Model	arxiv
2024 11 26	AnchorCrafter: Animate CyberAnchors Saling Your Products via Human-Object Interacting Video Generation	KeyPoint	Diffusion Model	arxiv
2024 10 29	MovieCharacter: A Tuning-Free Framework for Controllable Character Video Synthesis	Region	Diffusion Model	arxiv

Text Guidance

Part (Face) || Text2Face

Date	Title	Motion Representation	Backbone	Venue
2021 05 07	Write-a-speaker: Text-based Emotional and Rhythmic Talking-head Generation	KeyPoint	GAN	AAAI 2021
2023 12 11	Neural Text to Articulate Talk: Deep Text to Audiovisual Speech Synthesis achieving both Auditory and Photo-realism	3D Parameterization	GAN	arXiv
2023 06 03	VideoComposer: Compositional Video Synthesis with Motion Controllability	Region	Diffusion Model	NeurIPS 2024
2024 04 23	ID-Animator: Zero-Shot Identity-Preserving Human Video Generation	Latent	Diffusion Model	arXiv
2023 12 09	FT2TF: First-Person Statement Text-To-Talking Face Generation	Latent	Encoder-Decoder	arXiv
2024 05 16	Faces that Speak: Jointly Synthesising Talking Face and Speech from Text	Latent	GAN	CVPR 2024
2024 08 27	GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars	3D Parameterization	Encoder-Decoder	arXiv
2024 08 28	Empowering Sign Language Communication: Integrating Sentiment and Semantics for Facial Expression Synthesis	KeyPoint	Diffusion Model	arXiv
2024 11 28	MotionCharacter: Identity-Preserving and Motion Controllable Human Video Generation	Region	Diffusion Model	arXiv
2024 11 26	Identity-Preserving Text-to-Video Generation by Frequency Decomposition	Region	Diffusion Model	arXiv
2024 11 26	PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation	Latent	Diffusion Model	arXiv
2024 12 27	VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models	Latent	Diffusion Model	arXiv
2020 03 01	Towards Automatic Face-to-Face Translation	Latent	Encoder-Decoder	ACM MM 2019

Holistic Human || Text2MotionVideo

Date	Title	Motion Representation	Backbone	Venue
2024 05 08	Edit-Your-Motion	KeyPoint	Diffusion Model	arXiv
2023 08 15	Dancing Avatar: Pose and Text-Guided Human Motion Videos Synthesis with Image Diffusion Model	KeyPoint	Diffusion Model	arXiv
2023 04 03	Follow Your Pose	KeyPoint	Diffusion Model	AAAI 2024
2024 12 21	Follow-Your-MultiPose: Tuning-Free Multi-Character Text-to-Video Generation via Pose Guidance	KeyPoint	Diffusion Model	arxiv
2023 08 28	MagicAvatar: Multimodal Avatar Generation and Animation	KeyPoint	Diffusion Model	arXiv
2024 02 14	Magic-Me: Identity-Specific Video Customized Diffusion	Latent	Diffusion Model	arXiv
2024 04 07	Towards a Simultaneous and Granular Identity-Expression Control in Personalized Face Generation	Latent	Diffusion Model	CVPR 2024
2023 04 17	Text2Performer: Text-Driven Human Video Generation	Latent	Encoder-Decoder	ICCV 2023
2024 04 14	LoopAnimate	Latent	Diffusion Model	arXiv
2023 07 10	AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning	Latent	Diffusion Model	arXiv
2023 12 06	AnimateZero: Video Diffusion Models are Zero-Shot Image Animators	Latent	Diffusion Model	arXiv
2023 10 30	VideoCrafter1: Open Diffusion Models for High-Quality Video Generation	Latent	Diffusion Model	arXiv
2023 07 19	TokenFlow: Consistent Diffusion Features for Consistent Video Editing	Latent	Diffusion Model	arXiv
2023 03 23	Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators	Latent	Diffusion Model	ICCV 2023
2023 02 02	Dreamix: Video Diffusion Models are General Video Editors	Latent	Diffusion Model	arXiv
2023 12 05	BIVDiff: A Training-Free Framework for General-Purpose Video Synthesis via Bridging Image and Video Diffusion Models	Latent	Diffusion Model	CVPR 2024
2024 11 29	Fleximo: Towards Flexible Text-to-Human Motion Video Generation	Latent	Diffusion Model	arXiv
2023 12 30	Dual-Stream Diffusion Net for Text-to-Video Generation	Latent	Diffusion Model	arXiv
2025 01 07	Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers	Latent	Diffusion Model	arXiv
2025 01 17	Textoon: Generating Vivid 2D Cartoon Characters from Text Descriptions	Latent	Diffusion Model	arXiv
2025 01 03	Ingredients: Blending Custom Photos with Video Diffusion Transformers	Latent	Diffusion Model	arXiv
2024 02 22	Customize-A-Video	Latent	Diffusion Model	arXiv
2023 12 12	LatentMan: Generating Consistent Animated Characters using Image Diffusion Models	3D Parameterization	Diffusion Model	arXiv
2024 08 15	DeCo: Decoupled Human-Centered Diffusion Video Editing with Motion Consistency	3D Parameterization	Diffusion Model	arXiv
2024 10 15	Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models	Latent	Diffusion Model	arXiv
2024 01 17	VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models	Latent	Diffusion Model	CVPR 2024

Audio Guidance

Part (Face) || Lip Synchronization

Date	Title	Motion Representation	Backbone	Venue
2020 09 17	Photorealistic Audio-driven Video Portraits	Region	Encoder-Decoder	TVCG2020
2019 05 09	Hierarchical cross-modal talking face generation with dynamic pixel-wise loss	KeyPoint	Autoregressive	CVPR2019
2019 05 08	Capture, Learning, and Synthesis of 3D Speaking Styles	Latent	Encoder-Decoder	CVPR2019
2024 08 13	Style-Preserving Lip Sync via Audio-Aware Style Reference	Latent	Diffusion Model	arxiv
2024 09 06	SegTalker: Segmentation-based Talking Face Generation with Mask-guided Local Editing	Latent	GAN	arxiv
2024 09 10	Leveraging WaveNet for Dynamic Listening Head Modeling from Speech	Latent	Autoregressive	arxiv
2024 09 10	KAN-Based Fusion of Dual-Domain for Audio-Driven Facial Landmarks Generation	KeyPoint	Encoder-Decoder	arxiv
2024 09 10	PersonaTalk: Bring Attention to Your Persona in Visual Dubbing	3D Parameterization	Encoder-Decoder	arxiv
2024 09 17	LawDNet: Enhanced Audio-Driven Lip Synthesis via Local Affine Warping Deformation	Latent	Encoder-Decoder	arxiv
2024 10 15	MuseTalk: Real-Time High Quality Lip Synchronization with Latent Space Inpainting	Latent	Diffusion Model	arxiv
2024 12 12	LatentSync: Audio Conditioned Latent Diffusion Models for Lip Sync	Latent	Diffusion Model	arxiv
2025 01 08	Identity-Preserving Video Dubbing Using Motion Warping	Latent	Encoder-Decoder	arxiv
2023 01 10	Speech driven video editing via an audio-conditioned diffusion model	Latent	Diffusion Model	IVC2024

Part (Face) || Head Pose Driving

Date	Title	Motion Representation	Backbone	Venue
2017 08 20	Predicting head pose from speech with a conditional variational autoencoder	Latent	Autoregressive	ISCA2017
2020 04 27	MakeItTalk: Speaker-Aware Talking-Head Animation	KeyPoint	Autoregressive	TOG2020
2021 09 22	Live Speech Portraits: Real-Time Photorealistic Talking-Head Animation	KeyPoint	Autoregressive	TOG2021
2022 01 03	DFA-NeRF: Personalized Talking Head Generation via Disentangled Face Attributes Neural Rendering	KeyPoint	Encoder-Decoder	arxiv
2023 01 10	DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven Portraits Animation	KeyPoint	Diffusion Model	CVPR2023
2023 05 15	Identity-Preserving Talking Face Generation with Landmark and Appearance Priors	Muliti-Conditions	Transformer	CVPR2023
2023 05 01	GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking Face Generation	KeyPoint	Encoder-Decoder	arxiv
2022 03 16	StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via Pre-trained StyleGAN	Region	GAN	ECCV2022
2023 02 20	SD-NeRF: Towards Lifelike Talking Head Animation via Spatially-Adaptive Dual-Driven NeRFs	3D Parameterization	Encoder-Decoder	TMM2023
2024 03 26	AniPortrait	KeyPoint,3D Parameterization	Diffusion Model	arxiv
2024 06 17	Make Your Actor Talk	KeyPoint	Diffusion Model	arxiv
2024 06 12	Emotional Conversation: Empowering Talking Faces with Cohesive Expression, Gaze and Pose Generation	KeyPoint,3D Parameterization	Diffusion Model	arxiv
2024 06 27	RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network	3D Parameterization	Transformer	arxiv
2021 03 20	AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis	Latent	Encoder-Decoder	ICCV2021
2022 01 19	Semantic-Aware Implicit Neural Audio-Driven Video Portrait Generation	Latent	Encoder-Decoder	ECCV2022
2021 04 22	Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation	Latent	GAN	CVPR2021
2023 01 06	Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation	Latent	Diffusion Model	CVPR24
2023 03 30	DAE-Talker: High Fidelity Speech-Driven Talking Face Generation with Diffusion Autoencoder	Latent	Diffusion Model	ACM MM23
2023 11 26	GAIA: Zero-shot Talking Avatar Generation	Latent	Diffusion Model	ICLR 2024
2023 12 09	R2-Talker: Realistic Real-Time Talking Head Synthesis with Hash Grid Landmarks Encoding and Progressive Multilayer Conditioning	KeyPoint	Encoder-Decoder	arxiv
2024 05 06	AniTalker	Latent	Encoder-Decoder	arxiv
2024 07 12	EchoMimic: Lifelike Audio-Driven Portrait Animations through Editable Landmark Conditions	KeyPoint	Diffusion Model	arxiv
2024 07 29	LinguaLinker: Audio-Driven Portraits Animation with Implicit Facial Control Enhancement	Latent	Diffusion Model	arxiv
2024 08 03	Landmark-guided Diffusion Model for High-fidelity and Temporally Coherent Talking Head Generation	KeyPoint	Diffusion Model	arxiv
2024 08 13	High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model	KeyPoint	Diffusion Model	arxiv
2022 11 22	Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial Decomposition	Latent	Encoder-Decoder	arxiv
2023 05 04	High-fidelity Generalized Emotional Talking Face Generation with Multi-modal Emotion Space Learning	Latent	Transformer	CVPR2023
2024 04 02	EDTalk: Efficient Disentanglement for Emotional Talking Head Synthesis	Latent	GAN	ECCV2024
2023 11 29	SyncTalk	3D Parameterization	Encoder-Decoder	CVPR24
2024 04 23	TalkingGaussian	3D Parameterization	Encoder-Decoder	ECCV2024
2024 09 19	JEAN: Joint Expression and Audio-guided NeRF-based Talking Face Generation	Latent	Encoder-Decoder	arxiv
2024 10 03	LaDTalk: Latent Denoising for Synthesizing Talking Head Videos with High Frequency Details	Latent	Encoder-Decoder	arxiv
2024 10 18	DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation	Latent	Diffusion Model	arxiv
2024 11 29	LokiTalk: Learning Fine-Grained and Generalizable Correspondences to Enhance NeRF-based Talking Head Synthesis	Latent	Encoder-Decoder	arxiv
2024 11 29	Ditto: Motion-Space Diffusion for Controllable Realtime Talking Head Synthesis	Latent	Diffusion Model	arxiv
2024 12 15	GoHD: Gaze-oriented and Highly Disentangled Portrait Animation with Rhythmic Poses and Realistic Expression	Latent	Diffusion Model	arxiv
2024 12 10	PortraitTalk: Towards Customizable One-Shot Audio-to-Talking Face Generation	Latent	Diffusion Model	arxiv
2024 12 05	IF-MDM: Implicit Face Motion Diffusion Model for High-Fidelity Realtime Talking Head Generation	Latent	Encoder-Decoder	arxiv
2024 12 05	INFP: Audio-Driven Interactive Head Generation in Dyadic Conversations	Latent	Encoder-Decoder	arxiv
2024 12 05	MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation	Latent	Encoder-Decoder	arxiv
2024 12 26	UniAvatar: Taming Lifelike Audio-Driven Talking Head Generation with Comprehensive Motion and Lighting Control	Latent	Diffusion Model	arxiv
2024 04 28	GaussianTalker	3D Parameterization	Encoder-Decoder	ACM MM2024
2021 12 10	FaceFormer: Speech-Driven 3D Facial Animation with Transformers	Latent	Transformer	CVPR22
2023 09 15	Towards the generation of synchronized and believable non-verbal facial behaviors of a talking virtual agent	Latent	GAN	ICMI 2023
2023 10 17	CorrTalk: Correlation Between Hierarchical Speech and Facial Activity Variances for 3D Animation	Latent	Encoder-Decoder	IEEE Transactions on Circuits and Systems for Video Technology 2024

Holistic Human || Audio-Driven Holistic Body Driving

Date	Title	Motion Representation	Backbone	Venue
2024 03 13	VLOGGER	3D Parameterization	Diffusion Model	arXiv
2022 12 05	Audio-Driven Co-Speech Gesture Video Generation	Latent	Encoder-Decoder	NeurIPS 2022
2024 09 04	CyberHost: Taming Audio-driven Avatar Diffusion Model with Region Codebook Attention	Latent	Diffusion Model	arXiv
2024 09 13	DiffTED: One-shot Audio-driven TED Talk Video Generation with Diffusion-based Co-speech Gestures	KeyPoint	Diffusion Model	arXiv
2024 09 27	Self-Supervised Learning of Deviation in Latent Representation for Co-speech Gesture Video Generation	Region	Diffusion Model	arXiv
2024 10 08	TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio Motion Embedding and Diffusion Interpolation	Latent	Encoder-Decoder	arXiv
2024 10 15	TALK-Act: Enhance Textural-Awareness for 2D Speaking Avatar Reenactment with Diffusion Model	Latent	Diffusion Model	arXiv
2024 11 01	Stereo-Talker: Audio-driven 3D Human Synthesis with Prior-Guided Mixture-of-Experts	Latent	Encoder-Decoder	arXiv
2024 11 18	EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation	Latent	Diffusion Model	arXiv
2025 01 18	EMO2: End-Effector Guided Audio-Driven Avatar Video Generation	Latent	Diffusion Model	arXiv
2024 05 15	Dance Any Beat: Blending Beats with Visuals in Dance Video Generation	Region	Diffusion Model	arXiv

Part (Face) || Fine-Grained Style and Emotion-Driven Animation

Date	Title	Motion Representation	Backbone	Venue
2021 05 19	Audio-Driven Emotional Video Portraits	KeyPoint	Encoder-Decoder	CVPR 2021
2023 06 10	StyleTalk: One-shot Talking Head Generation with Controllable Speaking Styles	3D Parameterization	Encoder-Decoder	AAAI 2023
2024 01 16	Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis	3D Parameterization	Encoder-Decoder	ICLR 2024
2023 12 15	DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models	3D Parameterization	Diffusion Model	arXiv
2024 06 04	V-Express: Conditional Dropout for Progressive Training of Portrait Video Generation	KeyPoint	Diffusion Model	arXiv
2021 07 21	Speech Driven Talking Face Generation from a Single Image and an Emotion Condition	Latent	GAN	IEEE Transactions on Multimedia 2021
2022 11 22	SadTalker	Latent	Diffusion Model	CVPR 2023
2022 11 28	High-fidelity Facial Avatar Reconstruction from Monocular Video with Generative Priors	3D Parameterization	GAN	CVPR 2023
2023 05 09	StyleSync: High-Fidelity Generalized and Personalized Lip Sync in Style-based Generator	Latent	GAN	CVPR 2023
2024 02 27	EMO	Latent	Diffusion Model	arXiv
2024 03 04	FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio	Latent	Diffusion Model	CVPR 2024
2024 04 29	EMOPortraits	Latent	GAN	CVPR 2024
2024 05 12	Listen, Disentangle, and Control: Controllable Speech-Driven Talking Head Generation	Latent	GAN	arXiv
2024 06 16	Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation	Latent	Diffusion Model	arXiv
2024 10 11	Hallo2: Long-Duration and High-Resolution Audio-Driven Portrait Image Animation	Latent	Diffusion Model	arXiv
2024 04 16	VASA-1	Latent	Diffusion Model By Transformer	arXiv
2024 08 20	S^3D-NeRF: Single-Shot Speech-Driven Neural Radiance Field for High Fidelity Talking Head Synthesis	Latent	Encoder-Decoder	arXiv
2024 08 20	FD2Talk: Towards Generalized Talking Head Generation with Facial Decoupled Diffusion Model	3D Parameterization	Diffusion Model	ACMMM 2024
2024 08 28	MegActor-Σ: Unlocking Flexible Mixed-Modal Control in Portrait Animation with Diffusion Transformer	Latent	Diffusion Model By Transformer	arXiv
2024 09 05	Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency	Latent	Diffusion Model	arXiv
2024 09 05	PoseTalk: Text-and-Audio-based Pose Control and Motion Refinement for One-Shot Talking Head Generation	Latent	Diffusion Model	arXiv
2024 09 06	SVP: Style-Enhanced Vivid Portrait Talking Head Diffusion Model	Latent	Diffusion Model	arXiv
2024 09 12	EMOdiffhead: Continuously Emotional Control in Talking Head Generation via Diffusion	3D Parameterization	Diffusion Model	arXiv
2024 09 17	StyleTalk++: A Unified Framework for Controlling the Speaking Styles of Talking Heads	3D Parameterization	Encoder-Decoder	arXiv
2024 09 23	JoyHallo: Digital human model for Mandarin	Latent	Diffusion Model	arXiv
2024 09 24	MIMAFace: Face Animation via Motion-Identity Modulated Appearance Feature Learning	Latent	Diffusion Model	arXiv
2024 10 10	MimicTalk: Mimicking a personalized and expressive 3D talking face in minutes	3D Parameterization	Encoder-Decoder	Nips 2024
2024 10 21	Takin-ADA: Emotion Controllable Audio-Driven Animation with Canonical and Landmark Loss Optimization	Latent	Encoder-Decoder	arXiv
2024 10 24	Audio-Driven Emotional 3D Talking-Head Generation	Latent	Encoder-Decoder	arXiv
2024 11 15	JoyVASA: Portrait and Animal Image Animation with Diffusion-Based Audio-Driven Facial Dynamics and Head Motion Generation	Latent	Diffusion Model	arXiv
2024 11 15	LES-Talker: Fine-Grained Emotion Editing for Talking Head Generation in Linear Emotion Space	Latent	Encoder-Decoder	arXiv
2024 11 28	LetsTalk: Latent Diffusion Transformer for Talking Video Synthesis	Latent	Encoder-Decoder	arXiv
2024 11 23	EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion	Region	Diffusion Model	arXiv
2024 11 25	Sonic: Shifting Focus to Global Audio Perception in Portrait Animation	Latent	Diffusion Model	arXiv
2024 12 04	SINGER: Vivid Audio-driven Singing Video Generation with Multi-scale Spectral Diffusion Model	Latent	Diffusion Model	arXiv
2024 12 01	Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Diffusion Transformer Networks	Latent	Diffusion Model	arXiv
2024 12 02	FLOAT: Generative Motion Latent Flow Matching for Audio-driven Talking Portrait	Latent	Diffusion Model	arXiv
2024 12 13	VQTalker: Towards Multilingual Talking Avatars through Facial Motion Tokenization	Latent	Diffusion Model	arXiv
2024 12 18	Real-time One-Step Diffusion-based Expressive Portrait Videos Generation	Latent	Diffusion Model	arXiv
2025 01 03	MoEE: Mixture of Emotion Experts for Audio-Driven Portrait Animation	Latent	Diffusion Model	arXiv
2024 08 07	ReSyncer: Rewiring Style-based Generator for Unified Audio-Visually Synced Facial Performer	Latent	Encoder-Decoder	ECCV 2024
2023 01 05	Expressive Speech-driven Facial Animation with controllable emotions	Latent	Encoder-Decoder	ICMEW 2023
2024 01 28	Media2Face: Co-speech Facial Animation Generation With Multi-Modality Guidance	Latent	Diffusion Model	arXiv

LLM for Motion Planning

LLM for 2D

Date	Title	Motion Representation	Backbone	Tasks	Venue
2023 01 26	Affective Faces for Goal-Driven Dyadic Communication	3D Parameterization	Diffusion Model	Text2Face	arxiv
2023 11 29	Disentangling Planning, Driving and Rendering for Photorealistic Avatar Agents	Latent	Encoder-Decoder	Taking Head	arxiv
2024 05 24	InstructAvatar: Text-Guided Emotion and Motion Control for Avatar Generation	Latent	Diffusion Model	Taking Head	arxiv

LLM for 3D

Date	Title	Motion Representation	Backbone	Tasks	Venue
2023 08 21	Can Language Models Learn to Listen?	Latent	Autoregressive	Listener Generation	ICCV 2023
2023 06 19	MotionGPT: Finetuned LLMs Are General-Purpose Motion Generators	Latent	Autoregressive	Text2Motion3D	AAAI 2024
2023 11 27	InterControl: Generate Human Motion Interactions by Controlling Every Joint	Latent	Diffusion Model	Text2Motion3D	arXiv
2023 11 28	AvatarGPT: All-in-One Framework for Motion Understanding, Planning, Generation and Beyond	Latent	Autoregressive	Text2Motion3D	CVPR 2024
2023 12 07	Digital Life Project: Autonomous 3D Characters with Social Intelligence	Latent	Diffusion Model	Text2Motion3D	CVPR 2024
2023 12 19	MotionScript: Natural Language Descriptions for Expressive 3D Human Motions	Latent	Diffusion Model	Text2Motion3D	arXiv
2023 12 22	Plan, Posture and Go: Towards Open-World Text-to-Motion Generation	Latent	Autoregressive	Text2Motion3D	arXiv
2024 08 20	Combo: Co-speech holistic 3D human motion generation and efficient customizable adaptation in harmony	Latent	Encoder-Decoder	Text2Motion3D	arXiv
2023 12 22	FineMoGen: Fine-Grained Spatio-Temporal Motion Generation and Editing	Latent	Autoregressive	Text2Motion3D	NeurIPS 2024

Cite The Survey

If you find our survey and repository useful for your research project, please consider citing our paper:

@article{xue2024human,
  title={Human Motion Video Generation: A survey},
  author={Xue, Haiwei and Luo, Xiangyang and Hu, Zhanghao and Zhang, Xin and Xiang, Xunzhi and Dai, Yuqin and Liu, Jianzhuang and Zhang, Zhensong and Li, Minglei and Yang, Jian and others},
  journal={Authorea Preprints},
  year={2024},
  publisher={Authorea}
  doi={10.36227/techrxiv.172793202.22697340/v1}
}

Contributing

Contributions are welcome! Please feel free to create an issue or open a pull request with your contributions.

_{Haiwei Xue} 💻 🎨 🤔	_{Xiangyang Luo} 🐛	_{Zhanghao Hu} 🥙 💻
_{Xin Zhang} 😘🎪 😍	_{Xunzhi Xiang} 🚄 😍	_{Yuqin Dai} 😘 👸

License

This project is licensed under the MIT License - see the LICENSE file for details.

Acknowledgements

We would like to acknowledge the contributions of all researchers and developers in the field of human motion video generation. Their work has been instrumental in the advancement of this technology.

Name		Name	Last commit message	Last commit date
Latest commit History 53 Commits
assets		assets
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🎉 Awesome-Human-Motion-Video-Generation 🔥

Introduction

✨You are welcome to provide us your work with a topic related to human motion video generation.✨

🍔 Highlight

🕑 Timeline

💙 News

Vision Guidance

Text Guidance

Audio Guidance

LLM for Motion Planning

Cite The Survey

Contributing

License

Acknowledgements

About

License

Winn1y/Awesome-Human-Motion-Video-Generation

Folders and files

Latest commit

History

Repository files navigation

🎉 Awesome-Human-Motion-Video-Generation 🔥

Introduction

✨You are welcome to provide us your work with a topic related to human motion video generation.✨

🍔 Highlight

🕑 Timeline

💙 News

Vision Guidance

Text Guidance

Audio Guidance

LLM for Motion Planning

Cite The Survey

Contributing

License

Acknowledgements

About

Resources

License

Stars

Watchers

Forks