allow cripping by default + formatting fixes

r9y9 · r9y9 · commit 1ed1b5d0cb94 · 2018-02-25T19:58:35.000+09:00
diff --git a/hparams.py b/hparams.py
@@ -106,59 +106,59 @@
             "clip_thresh": 0.1,
             "initial_learning_rate": 5e-4,
         },
-         "deepvoice3_niklm": {
-             "n_speakers": 118,
-             "speaker_embed_dim": 16,
-             "downsample_step": 4,
-             "outputs_per_step": 1,
-             "embedding_weight_std": 0.1,
-             "speaker_embedding_weight_std": 0.05,
-             "dropout": 1 - 0.95,
-             "kernel_size": 3,
-             "text_embed_dim": 256,
-             "encoder_channels": 512,
-             "decoder_channels": 256,
-             "converter_channels": 256,
-             "use_guided_attention": True,
-             "guided_attention_sigma": 0.4,
-             "binary_divergence_weight": 0.1,
-             "use_decoder_state_for_postnet_input": True,
-             "max_positions": 1200,
-             "query_position_rate": 2.0,
-             "key_position_rate": 7.6,
-             "key_projection": True,
-             "value_projection": True,
-             "clip_thresh": 0.1,
-             "initial_learning_rate": 5e-4,
-             "batch_size": 8,
-             "text_embed_dim":256,
+        "deepvoice3_niklm": {
+            "n_speakers": 118,
+            "speaker_embed_dim": 16,
+            "downsample_step": 4,
+            "outputs_per_step": 1,
+            "embedding_weight_std": 0.1,
+            "speaker_embedding_weight_std": 0.05,
+            "dropout": 1 - 0.95,
+            "kernel_size": 3,
+            "text_embed_dim": 256,
+            "encoder_channels": 512,
+            "decoder_channels": 256,
+            "converter_channels": 256,
+            "use_guided_attention": True,
+            "guided_attention_sigma": 0.4,
+            "binary_divergence_weight": 0.1,
+            "use_decoder_state_for_postnet_input": True,
+            "max_positions": 1200,
+            "query_position_rate": 2.0,
+            "key_position_rate": 7.6,
+            "key_projection": True,
+            "value_projection": True,
+            "clip_thresh": 0.1,
+            "initial_learning_rate": 5e-4,
+            "batch_size": 8,
+            "text_embed_dim": 256,
         },
-         "deepvoice3_nikls": {
-             "n_speakers": 1,
-             "speaker_embed_dim": 16,
-             "downsample_step": 4,
-             "outputs_per_step": 1,
-             "embedding_weight_std": 0.1,
-             "speaker_embedding_weight_std": 0.05,
-             "dropout": 1 - 0.95,
-             "kernel_size": 3,
-             "text_embed_dim": 256,
-             "encoder_channels": 512,
-             "decoder_channels": 256,
-             "converter_channels": 256,
-             "use_guided_attention": True,
-             "guided_attention_sigma": 0.4,
-             "binary_divergence_weight": 0.1,
-             "use_decoder_state_for_postnet_input": True,
-             "max_positions": 512,
-             "query_position_rate": 2.0,
-             "key_position_rate": 7.6,
-             "key_projection": True,
-             "value_projection": True,
-             "clip_thresh": 0.1,
-             "initial_learning_rate": 5e-4,
-             "batch_size": 8,
-             "text_embed_dim":256,
+        "deepvoice3_nikls": {
+            "n_speakers": 1,
+            "speaker_embed_dim": 16,
+            "downsample_step": 4,
+            "outputs_per_step": 1,
+            "embedding_weight_std": 0.1,
+            "speaker_embedding_weight_std": 0.05,
+            "dropout": 1 - 0.95,
+            "kernel_size": 3,
+            "text_embed_dim": 256,
+            "encoder_channels": 512,
+            "decoder_channels": 256,
+            "converter_channels": 256,
+            "use_guided_attention": True,
+            "guided_attention_sigma": 0.4,
+            "binary_divergence_weight": 0.1,
+            "use_decoder_state_for_postnet_input": True,
+            "max_positions": 512,
+            "query_position_rate": 2.0,
+            "key_position_rate": 7.6,
+            "key_projection": True,
+            "value_projection": True,
+            "clip_thresh": 0.1,
+            "initial_learning_rate": 5e-4,
+            "batch_size": 8,
+            "text_embed_dim": 256,
         },
     },
 
@@ -180,7 +180,7 @@
     # mel-spectrogram is normalized to [0, 1] for each utterance and clipping may
     # happen depends on min_level_db and ref_level_db, causing clipping noise.
     # If False, assertion is added to ensure no clipping happens.
-    allow_clipping_in_normalization=False,
+    allow_clipping_in_normalization=True,
 
     # Model:
     downsample_step=4,  # must be 4 when builder="nyanko"