6.2 KiB
Готовая разметка внешних открытых наборов данных
По ссылкам ниже представлены .feather файлы, содержащие размеченные с помощью Silero VAD открытые наборы аудиоданных, а также короткое описание каждого набора данных с примерами загрузки. .feather файлы можно открыть с помощью библиотеки pandas:
import pandas as pd
dataframe = pd.read_feather(PATH_TO_FEATHER_FILE)
Каждый .feather файл с разметкой содержит следующие колонки:
speech_timings- разметка данного аудио. Это список, содержащий словари вида{'start': START_SECOND, 'end': END_SECOND}, гдеSTART_SECONDиEND_SECOND- время начала и конца речи в секундах. Количество данных словарей равно количеству речевых аудио отрывков, найденных в данном аудио;language- ISO код языка данного аудио.
Колонки, содержащие информацию о загрузке аудио файла различаются и описаны для каждого набора данных ниже.
Все данные размечены при временной дискретизации в ~30 миллисекунд (num_samples - 512)
| Название | Число часов | Число языков | Ссылка | Лицензия |
|---|---|---|---|---|
| Bible.is | 53138 | 1596 | URL | Уникальная |
| globalrecordings.net | 9743 | 61711 | URL | CC BY-NC-SA 4.0 |
| VoxLingua107 | 6628 | 107 | URL | CC BY 4.0 |
| Common Voice | 30329 | 120 | URL | CC0 |
| MLS | 50709 | 8 | URL | CC BY 4.0 |
| Итого | 150547 | 6171+ |
Bible.is
Ссылка на .feather файл с разметкой
- Колонка
audio_linkсодержит ссылки на конкретные аудио файлы.
globalrecordings.net
Ссылка на .feather файл с разметкой
- Колонка
folder_linkсодержит ссылки на скачивание.zipархива для конкретного языка. Внимание! Ссылки на архивы дублируются, т.к каждый архив может содержать множество аудио; - Колонка
audio_pathсодержит пути до конкретного аудио после распаковки соответствующего архива из колонкиfolder_link.
Количество уникальных ISO кодов данного датасета не совпадает с фактическим количеством представленных языков, т.к некоторые близкие языки могут кодироваться одним и тем же ISO кодом.
VoxLingua107
Ссылка на .feather файл с разметкой
- Колонка
folder_linkсодержит ссылки на скачивание.zipархива для конкретного языка. Внимание! Ссылки на архивы дублируются, т.к каждый архив может содержать множество аудио; - Колонка
audio_pathсодержит пути до конкретного аудио после распаковки соответствующего архива из колонкиfolder_link.
Common Voice
Ссылка на .feather файл с разметкой
Этот датасет невозможно скачать по статичным ссылкам. Для загрузки необходимо перейти по ссылке и, получив доступ в соответствующей форме, скачать архивы для каждого доступного языка. Внимание! Представленная разметка актуальна для версии исходного датасета Common Voice Corpus 16.1.
- Колонка
audio_pathсодержит уникальные названия.mp3файлов, полученных после скачивания соответствующего датасета.
MLS
Ссылка на .feather файл с разметкой
- Колонка
folder_linkсодержит ссылки на скачивание.zipархива для конкретного языка. Внимание! Ссылки на архивы дублируются, т.к каждый архив может содержать множество аудио; - Колонка
audio_pathсодержит пути до конкретного аудио после распаковки соответствующего архива из колонкиfolder_link.
-
Количество уникальных ISO кодов данного датасета не совпадает с фактическим количеством представленных языков, т.к некоторые близкие языки могут кодироваться одним и тем же ISO кодом. ↩︎