fx get_speech ts start of an audio chunk pad

2026-02-05 01:49:22 +08:00 · 2022-06-02 10:32:32 +00:00
parent ea7af70fe9
commit bf0127e016
1 changed files with 1 additions and 0 deletions
--- a/utils_vad.py
+++ b/utils_vad.py
@@ -253,6 +253,7 @@ def get_speech_timestamps(audio: torch.Tensor,
                speeches[i+1]['start'] = int(max(0, speeches[i+1]['start'] - silence_duration // 2))
            else:
                speech['end'] += int(speech_pad_samples)
+                speeches[i+1]['start'] -= int(speech_pad_samples)
        else:
            speech['end'] = int(min(audio_length_samples, speech['end'] + speech_pad_samples))