From f56f56ffaa87f933af2d616c370d4c8235ac18d3 Mon Sep 17 00:00:00 2001 From: adamnsandle Date: Tue, 26 Mar 2024 18:06:11 +0000 Subject: [PATCH] add open datasets' annotation --- datasets/README.md | 60 ++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 60 insertions(+) create mode 100644 datasets/README.md diff --git a/datasets/README.md b/datasets/README.md new file mode 100644 index 0000000..2011c0b --- /dev/null +++ b/datasets/README.md @@ -0,0 +1,60 @@ +# Готовая разметка внешних открытых наборов данных + +По ссылкам ниже представлены `.feather` файлы, содержащие размеченные с помощью Silero VAD открытые наборы аудиоданных, а также короткое описание каждого набора данных с примерами загрузки. `.feather` файлы можно открыть с помощью библиотеки `pandas`: +```python3 +import pandas as pd +dataframe = pd.read_feather(PATH_TO_FEATHER_FILE) +``` + +Каждый `.feather` файл с разметкой содержит следующие колонки: +- `speech_timings` - разметка данного аудио. Это список, содержащий словари вида `{'start': START_SECOND, 'end': END_SECOND}`, где `START_SECOND` и `END_SECOND` - время начала и конца речи в секундах. Количество данных словарей равно количеству речевых аудио отрывков, найденных в данном аудио; +- `language` - ISO код языка данного аудио. + +Колонки, содержащие информацию о загрузке аудио файла различаются и описаны для каждого набора данных ниже. + +**Все данные размечены при временной дискретизации в ~30 миллисекунд (`num_samples` - 512)** + +| Название | Число часов | Число язков | Ссылка | Лицензия | +|----------------------|-------------|-------------|--------|----------| +| **Bible.is** | 53138 | 1596 | [URL](https://live.bible.is/) | [Уникальная](https://live.bible.is/terms) | +| **globalrecordings.net** | 9743 | 6171* | [URL](https://globalrecordings.net/en) | CC BY-NC-SA 4.0 | +| **VoxLingua107** | 6628 | 107 | [URL](https://bark.phon.ioc.ee/voxlingua107/) | CC BY 4.0 | +| **Common Voice** | 30329 | 120 | [URL](https://commonvoice.mozilla.org/en/datasets) | CC0 | +| **MLS** | 50709 | 8 | [URL](https://www.openslr.org/94/) | CC BY 4.0 | + +## Bible.is + +[Ссылка на `.feather` файл с разметкой](https://models.silero.ai/vad_datasets/BibleIs.feather) + +- Колонка `audio_link` содержит ссылки на конкретные аудио файлы. + +## globalrecordings.net + +[Ссылка на `.feather` файл с разметкой](https://models.silero.ai/vad_datasets/globalrecordings.feather) + +- Колонка `folder_link` содержит ссылки на скачивание `.zip` архива для конкретного языка. Внимание! Эти ссылки дублируются, они уникальны для каждого языка, а не каждого аудио. +- Колонка `audio_path` содержит пути до конкретного аудио после распаковки соответствующего архива из колонки `folder_link` + +``Количество уникальных ISO кодов данного датасета не совпадает с фактическим количеством представленных языков, т.к некоторые близкие языки могут кодироваться одним и тем же ISO кодом.`` + +## VoxLingua107 + +[Ссылка на `.feather` файл с разметкой](https://models.silero.ai/vad_datasets/VoxLingua107.feather) + +- Колонка `folder_link` содержит ссылки на скачивание `.zip` архива для конкретного языка. Внимание! Эти ссылки дублируются, они уникальны для каждого языка, а не каждого аудио. +- Колонка `audio_path` содержит пути до конкретного аудио после распаковки соответствующего архива из колонки `folder_link` + +## Common Voice + +[Ссылка на `.feather` файл с разметкой](https://models.silero.ai/vad_datasets/common_voice.feather) + +Этот датасет невозможно скачать по статичным ссылкам. Для загрузки необходимо перейти по [ссылке](https://commonvoice.mozilla.org/en/datasets) и, получив доступ в соответствующей форме, скачать архивы для каждого доступного языка. Внимание! Представленная разметка актуальна для версии исходного датасета `Common Voice Corpus 16.1`. + +- Колонка `audio_path` содержит уникальные названия `.mp3` файлов, полученных после скачивания соответствующего датасета. + +## MLS + +[Ссылка на `.feather` файл с разметкой](https://models.silero.ai/vad_datasets/MLS.feather) + +- Колонка `folder_link` содержит ссылки на скачивание `.zip` архива для конкретного языка. Внимание! Эти ссылки дублируются, они уникальны для каждого языка, а не каждого аудио. +- Колонка `audio_path` содержит пути до конкретного аудио после распаковки соответствующего архива из колонки `folder_link`