Files
silero-vad/datasets/README.md
Alexander Veysov 9dc344df7f Update README.md
2024-03-26 21:19:40 +03:00

6.3 KiB
Raw Blame History

Датасет Silero-VAD

По ссылкам ниже представлены .feather файлы, содержащие размеченные с помощью Silero VAD открытые наборы аудиоданных, а также короткое описание каждого набора данных с примерами загрузки. .feather файлы можно открыть с помощью библиотеки pandas:

import pandas as pd
dataframe = pd.read_feather(PATH_TO_FEATHER_FILE)

Каждый .feather файл с разметкой содержит следующие колонки:

  • speech_timings - разметка данного аудио. Это список, содержащий словари вида {'start': START_SECOND, 'end': END_SECOND}, где START_SECOND и END_SECOND - время начала и конца речи в секундах. Количество данных словарей равно количеству речевых аудио отрывков, найденных в данном аудио;
  • language - ISO код языка данного аудио.

Колонки, содержащие информацию о загрузке аудио файла различаются и описаны для каждого набора данных ниже.

Все данные размечены при временной дискретизации в ~30 миллисекунд (num_samples - 512)

Название Число часов Число язков Ссылка Лицензия
Bible.is 53138 1596 URL Уникальная
globalrecordings.net 9743 6171* URL CC BY-NC-SA 4.0
VoxLingua107 6628 107 URL CC BY 4.0
Common Voice 30329 120 URL CC0
MLS 50709 8 URL CC BY 4.0

Bible.is

Ссылка на .feather файл с разметкой

  • Колонка audio_link содержит ссылки на конкретные аудио файлы.

globalrecordings.net

Ссылка на .feather файл с разметкой

  • Колонка folder_link содержит ссылки на скачивание .zip архива для конкретного языка. Внимание! Эти ссылки дублируются, они уникальны для каждого языка, а не каждого аудио.
  • Колонка audio_path содержит пути до конкретного аудио после распаковки соответствующего архива из колонки folder_link

Количество уникальных ISO кодов данного датасета не совпадает с фактическим количеством представленных языков, т.к некоторые близкие языки могут кодироваться одним и тем же ISO кодом.

VoxLingua107

Ссылка на .feather файл с разметкой

  • Колонка folder_link содержит ссылки на скачивание .zip архива для конкретного языка. Внимание! Эти ссылки дублируются, они уникальны для каждого языка, а не каждого аудио.
  • Колонка audio_path содержит пути до конкретного аудио после распаковки соответствующего архива из колонки folder_link

Common Voice

Ссылка на .feather файл с разметкой

Этот датасет невозможно скачать по статичным ссылкам. Для загрузки необходимо перейти по ссылке и, получив доступ в соответствующей форме, скачать архивы для каждого доступного языка. Внимание! Представленная разметка актуальна для версии исходного датасета Common Voice Corpus 16.1.

  • Колонка audio_path содержит уникальные названия .mp3 файлов, полученных после скачивания соответствующего датасета.

MLS

Ссылка на .feather файл с разметкой

  • Колонка folder_link содержит ссылки на скачивание .zip архива для конкретного языка. Внимание! Эти ссылки дублируются, они уникальны для каждого языка, а не каждого аудио.
  • Колонка audio_path содержит пути до конкретного аудио после распаковки соответствующего архива из колонки folder_link

Лицензия

Данный датасет распространяется под лицензией CC BY-NC-SA 4.0.

Цитирование

@misc{Silero VAD Dataset,
  author = {Silero Team},
  title = {Silero-VAD Dataset: a large public internet scale voice activity detection dataset for 6000+ languages},
  year = {2024},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/snakers4/silero-vad/datasets/README.md}},
  email = {hello@silero.ai}
}