Merge pull request #3431 from akorobeinikov/ak/tts-fix

Wovchena · web-flow · commit 8583688a652d · 2022-03-31T19:34:12.000+03:00
Fix text_to_speech demo
diff --git a/demos/text_to_speech_demo/python/models/forward_tacotron_ie.py b/demos/text_to_speech_demo/python/models/forward_tacotron_ie.py
@@ -126,7 +126,7 @@ def infer_duration(self, sequence, speaker_embedding=None, alpha=1.0, non_empty_
                       "input_mask": input_mask,
                       "pos_mask": pos_mask}
             if speaker_embedding is not None:
-                inputs["speaker_embedding"] = np.array([speaker_embedding])
+                inputs["speaker_embedding"] = np.array(speaker_embedding)
             self.duration_predictor_request.infer(inputs)
         else:
             self.duration_predictor_request.infer(inputs={"input_seq": sequence})
@@ -154,7 +154,7 @@ def infer_mel(self, aligned_emb, non_empty_symbols, speaker_embedding=None):
                       "data_mask": data_mask,
                       "pos_mask": pos_mask}
             if speaker_embedding is not None:
-                inputs["speaker_embedding"] = np.array([speaker_embedding])
+                inputs["speaker_embedding"] = np.array(speaker_embedding)
             self.forward_request.infer(inputs)
         else:
             self.forward_request.infer(inputs={"data": aligned_emb})
@@ -215,7 +215,7 @@ def forward(self, text, alpha=1.0, speaker_id=19, speaker_emb=None):
             if speaker_emb is not None:
                 speaker_embedding = speaker_emb
             else:
-                speaker_embedding = self.speaker_embeddings[speaker_id, :]
+                speaker_embedding = [self.speaker_embeddings[speaker_id, :]]
 
         aligned_emb = self.forward_duration_prediction_by_delimiters(text, speaker_embedding, alpha)
 
diff --git a/demos/text_to_speech_demo/python/text_to_speech_demo.py b/demos/text_to_speech_demo/python/text_to_speech_demo.py
@@ -154,7 +154,7 @@ def main():
             speaker_emb = forward_tacotron.get_pca_speaker_embedding(interactive_parameter["gender"],
                                                                      interactive_parameter["style"])
         else:
-            speaker_emb = forward_tacotron.get_speaker_embeddings()[args.speaker_id, :]
+            speaker_emb = [forward_tacotron.get_speaker_embeddings()[args.speaker_id, :]]
 
     len_th = 80