minor refactoring

andabi · Dec 2, 2017 · b29f32a · b29f32a
1 parent d67b308
commit b29f32a
Show file tree

Hide file tree

Showing 19 changed files with 27 additions and 536 deletions.
diff --git a/tools/audio_utils.py → audio.py b/tools/audio_utils.py → audio.py
@@ -1,9 +1,5 @@
 # -*- coding: utf-8 -*-
 #!/usr/bin/env python
-'''
-By Dabi Ahn. [email protected].
-https://www.github.com/andabi
-'''
 
 from pydub import AudioSegment
 import os
@@ -34,29 +30,7 @@ def rewrite_mp3_to_wav(source_path, target_path):
     AudioSegment.from_mp3(source_path).export(target_path, format='wav')
 
 
-def split_path(path):
-    '''
-    'a/b/c.wav' => ('a/b', 'c', 'wav')
-    :param path: filepath = 'a/b/c.wav'
-    :return: basename, filename, and extension = ('a/b', 'c', 'wav')
-    '''
-    basepath, filename = os.path.split(path)
-    filename, extension = os.path.splitext(filename)
-    return basepath, filename, extension
-
-
 def spectrogram2wav(mag, n_fft, win_length, hop_length, num_iters, phase_angle=None, length=None):
-    '''
-
-    :param mag: [f, t]
-    :param n_fft: n_fft
-    :param win_length: window length
-    :param hop_length: hop length
-    :param num_iters: num of iteration when griffin-lim reconstruction
-    :param phase_angle: phase angle
-    :param length: length of wav
-    :return: 
-    '''
     assert (num_iters > 0)
     if phase_angle is None:
         phase_angle = np.pi * np.random.rand(*mag.shape)
@@ -77,3 +51,9 @@ def preemphasis(x, coeff=0.97):
 
 def inv_preemphasis(x, coeff=0.97):
     return signal.lfilter([1], [1, -coeff], x)
+
+
+def split(wav, top_db):
+    intervals = librosa.effects.split(wav, top_db=top_db)
+    wavs = map(lambda i: wav[i[0]: i[1]], intervals)
+    return wavs
diff --git a/convert.py b/convert.py
@@ -9,7 +9,7 @@
 from data_load import get_wav_batch, get_batch
 from models import Model
 import numpy as np
-from utils import spectrogram2wav, inv_preemphasis
+from audio import spectrogram2wav, inv_preemphasis
 from hparam import logdir_path
 import datetime
 import tensorflow as tf

diff --git a/data_load.py b/data_load.py
@@ -11,12 +11,26 @@
 from tensorflow.python.platform import tf_logging as logging
 
 from hparam import Hparam
-from utils import preemphasis, wav_random_crop
+from audio import preemphasis
 import numpy as np
 import librosa
 from hparam import data_path_base
 
 
+def wav_random_crop(wav, sr, duration):
+    assert (wav.ndim <= 2)
+
+    target_len = sr * duration
+    wav_len = wav.shape[-1]
+    start = np.random.choice(range(np.maximum(1, wav_len - target_len)), 1)[0]
+    end = start + target_len
+    if wav.ndim == 1:
+        wav = wav[start:end]
+    else:
+        wav = wav[:, start:end]
+    return wav
+
+
 def get_mfccs_and_phones(wav_file, sr, length, trim=False, random_crop=True):
     hp = Hparam.get_global_hparam()
 

diff --git a/hparam.py b/hparam.py
@@ -7,11 +7,11 @@
 # path
 ## local
 data_path_base = './datasets'
-logdir_path = './logdir'
+# logdir_path = './logdir'
 
 ## remote
 # data_path_base = '/data/private/vc/datasets'
-# logdir_path = '/data/private/vc/logdir'
+logdir_path = '/data/private/vc/logdir'
 
 
 
@@ -73,6 +73,7 @@ def __call__(self):
 
     def set_as_global_hparam(self):
         Hparam.global_hparam = self.hparam
+        return Hparam.global_hparam
 
     @staticmethod
     def get_global_hparam():

diff --git a/hparams/hparams.yaml b/hparams/hparams.yaml
diff --git a/models.py b/models.py
@@ -108,6 +108,7 @@ def _net2(self):
             # CBHG1: mel-scale
             pred_mel = cbhg(prenet_out, self.hp.train2.num_banks, self.hp.train2.hidden_units // 2, self.hp.train2.num_highway_blocks, self.hp.train2.norm_type, self.is_training, scope="cbhg1")
             pred_mel = tf.layers.dense(pred_mel, self.y_mel.shape[-1])  # log magnitude: (N, T, n_mels)
+            # pred_mel = prenet_out
 
             # CBHG2: linear-scale
             pred_spec = tf.layers.dense(pred_mel, self.hp.train2.hidden_units // 2)  # log magnitude: (N, T, n_mels)
@@ -119,6 +120,7 @@ def _net2(self):
     def loss_net2(self):
         loss_spec = tf.reduce_mean(tf.squared_difference(self.pred_spec, self.y_spec))
         loss_mel = tf.reduce_mean(tf.squared_difference(self.pred_mel, self.y_mel))
+        # loss_mel = 0
         loss = loss_spec + loss_mel
         return loss
 

diff --git a/scripts/tensorboard_start.sh → scripts/tensorboard.sh b/scripts/tensorboard_start.sh → scripts/tensorboard.sh
diff --git a/tools/comparison_wavs.py b/tools/comparison_wavs.py
diff --git a/tools/convert_amp.py b/tools/convert_amp.py
diff --git a/tools/griffin_lim_recon_test.py b/tools/griffin_lim_recon_test.py
diff --git a/tools/librosa_load_test.py b/tools/librosa_load_test.py
diff --git a/tools/librosa_split_test.py b/tools/librosa_split_test.py
diff --git a/tools/mfcc_amp_normalization_test.py b/tools/mfcc_amp_normalization_test.py
diff --git a/tools/mp3_to_wav.py b/tools/mp3_to_wav.py