Fix mel-spectrogram computation

r9y9 · r9y9 · commit 6e877009770c · 2018-01-22T22:27:59.000+09:00
diff --git a/audio.py b/audio.py
@@ -45,7 +45,9 @@ def inv_spectrogram(spectrogram):
 
 def melspectrogram(y):
     D = _lws_processor().stft(preemphasis(y)).T
-    S = _amp_to_db(_linear_to_mel(np.abs(D)))
+    S = _amp_to_db(_linear_to_mel(np.abs(D))) - hparams.ref_level_db
+    if not hparams.allow_clipping_in_normalization:
+        assert S.max() <= 0 and S.min() - hparams.min_level_db >= 0
     return _normalize(S)
 
 
diff --git a/hparams.py b/hparams.py
@@ -116,6 +116,10 @@
     preemphasis=0.97,
     min_level_db=-100,
     ref_level_db=20,
+    # mel-spectrogram is normalized to [0, 1] for each utterance and clipping may
+    # happen depends on min_level_db and ref_level_db, causing clipping noise.
+    # If False, assertion is added to ensure no clipping happens.
+    allow_clipping_in_normalization=False,
 
     # Model:
     downsample_step=4,  # must be 4 when builder="nyanko"