keep only embedding mean as spk embedding

2026-02-05 18:09:24 +08:00 · 2024-07-10 00:21:56 +08:00
parent ee9e87b4d3
commit 6a3e44242a
2 changed files with 3 additions and 1 deletions
--- a/cosyvoice/dataset/processor.py
+++ b/cosyvoice/dataset/processor.py
@@ -167,7 +167,7 @@ def parse_embedding(data, normalize, mode='train'):
    """
    for sample in data:
        sample['utt_embedding'] = torch.tensor(sample['utt_embedding'], dtype=torch.float32)
-        sample['spk_embedding'] = torch.stack([torch.tensor(i, dtype=torch.float32) for i in sample['spk_embedding']], dim=0).mean(dim=0)
+        sample['spk_embedding'] = torch.tensor(sample['spk_embedding'], dtype=torch.float32)
        if normalize:
            sample['utt_embedding'] = F.normalize(sample['utt_embedding'], dim=0)
            sample['spk_embedding'] = F.normalize(sample['spk_embedding'], dim=0)
--- a/tools/extract_embedding.py
+++ b/tools/extract_embedding.py
@@ -53,6 +53,8 @@ def main(args):
        if spk not in spk2embedding:
            spk2embedding[spk] = []
        spk2embedding[spk].append(embedding)
    for k, v in spk2embedding.items():
        spk2embedding[k] = torch.tensor(v).mean(dim=0, keepdim=True).tolist()
    torch.save(utt2embedding, '{}/utt2embedding.pt'.format(args.dir))
    torch.save(spk2embedding, '{}/spk2embedding.pt'.format(args.dir))