videogan资料 #4

zdx3578 · 2017-10-17T09:04:11Z

gan video 两周
第一周，熟悉已有论文，选用一个算法复现。使用自己的数据集，调参。
第二周，分析隐变量的语义相关信息，自动驾驶的转向角度和z的关系。

zdx3578 · 2017-10-18T02:04:48Z

ref：
VAE:
Adversarial Variational Bayes: Unifying VAE and GAN
beta vae

GAN:

3.Video Generation From Text https://arxiv.org/abs/1710.00421
4.Learning to Generate Time-Lapse Videos Using Multi-Stage Dynamic Generative Adversarial Networks https://arxiv.org/abs/1709.07592
5.MoCoGAN: Decomposing Motion and Content for Video Generation https://arxiv.org/abs/1707.04993 https://github.com/sergeytulyakov/mocogan

waxz · 2017-10-18T06:04:09Z

note
1.Temporal Generative Adversarial Nets with Singular Value Clipping

2.Generating Videos with Scene Dynamics

3.Learning to Generate Time-Lapse Videos Using Multi-Stage Dynamic Generative Adversarial Networks

给定一张静态图像，生成视频序列
两个Gan叠加，第一个Base Gan生成粗糙/模糊的图像，第二个REfine Gan在第一个的基础上进行精细化
Base Gan，输入的是初始图像复制叠加形成的图像序列X，输出图像序列Y1。生成器采用Unet结构，损失函数是判别器的loss和L1 loss
Refine net输入Base Gan输出的图像序列Y1，输出图像序列Y2。损失函数为判别器的loss和L1 loss，加上Gram matrix loss ，根据Y，Y1，Y2在判别器某一层输出计算的Gram matrix。采用Gram matrix loss的目的是避免Y2只是简单的逼近Y1，因为Y1已经足够真实。

引入动作和内容先验知识，将噪声Z分为Zc内容噪声和Zm动作噪声
利用RNN从动作空间获得Zm分布Rm，随机变量e --> RNN --> Zm
通过锁定Zm或Zc改变动作或环境
整体模型含4个网络，分别为：
- 获取动作分布 - GRU
- 生成器Gi 、判别器Di - DCGAN - 控制图像生成质量
- 判别器Dv - spatio-temporal CNN 控制视频&动作生成质
Conditional MoCoGAN, 将label与E一同输入RNN

fzd9752 · 2017-10-18T06:26:36Z

各种GAN和VAE的代码：

waxz added this to the 10月计划 milestone Oct 17, 2017

Provide feedback