mirror of
https://github.com/snakers4/silero-vad.git
synced 2026-02-05 01:49:22 +08:00
79 lines
6.3 KiB
Markdown
79 lines
6.3 KiB
Markdown
# Датасет Silero-VAD
|
||
|
||
По ссылкам ниже представлены `.feather` файлы, содержащие размеченные с помощью Silero VAD открытые наборы аудиоданных, а также короткое описание каждого набора данных с примерами загрузки. `.feather` файлы можно открыть с помощью библиотеки `pandas`:
|
||
```python3
|
||
import pandas as pd
|
||
dataframe = pd.read_feather(PATH_TO_FEATHER_FILE)
|
||
```
|
||
|
||
Каждый `.feather` файл с разметкой содержит следующие колонки:
|
||
- `speech_timings` - разметка данного аудио. Это список, содержащий словари вида `{'start': START_SECOND, 'end': END_SECOND}`, где `START_SECOND` и `END_SECOND` - время начала и конца речи в секундах. Количество данных словарей равно количеству речевых аудио отрывков, найденных в данном аудио;
|
||
- `language` - ISO код языка данного аудио.
|
||
|
||
Колонки, содержащие информацию о загрузке аудио файла различаются и описаны для каждого набора данных ниже.
|
||
|
||
**Все данные размечены при временной дискретизации в ~30 миллисекунд (`num_samples` - 512)**
|
||
|
||
| Название | Число часов | Число язков | Ссылка | Лицензия |
|
||
|----------------------|-------------|-------------|--------|----------|
|
||
| **Bible.is** | 53,138 | 1,596 | [URL](https://live.bible.is/) | [Уникальная](https://live.bible.is/terms) |
|
||
| **globalrecordings.net** | 9,743 | 6,171* | [URL](https://globalrecordings.net/en) | CC BY-NC-SA 4.0 |
|
||
| **VoxLingua107** | 6,628 | 107 | [URL](https://bark.phon.ioc.ee/voxlingua107/) | CC BY 4.0 |
|
||
| **Common Voice** | 30,329 | 120 | [URL](https://commonvoice.mozilla.org/en/datasets) | CC0 |
|
||
| **MLS** | 50,709 | 8 | [URL](https://www.openslr.org/94/) | CC BY 4.0 |
|
||
|
||
## Bible.is
|
||
|
||
[Ссылка на `.feather` файл с разметкой](https://models.silero.ai/vad_datasets/BibleIs.feather)
|
||
|
||
- Колонка `audio_link` содержит ссылки на конкретные аудио файлы.
|
||
|
||
## globalrecordings.net
|
||
|
||
[Ссылка на `.feather` файл с разметкой](https://models.silero.ai/vad_datasets/globalrecordings.feather)
|
||
|
||
- Колонка `folder_link` содержит ссылки на скачивание `.zip` архива для конкретного языка. Внимание! Эти ссылки дублируются, они уникальны для каждого языка, а не каждого аудио.
|
||
- Колонка `audio_path` содержит пути до конкретного аудио после распаковки соответствующего архива из колонки `folder_link`
|
||
|
||
``Количество уникальных ISO кодов данного датасета не совпадает с фактическим количеством представленных языков, т.к некоторые близкие языки могут кодироваться одним и тем же ISO кодом.``
|
||
|
||
## VoxLingua107
|
||
|
||
[Ссылка на `.feather` файл с разметкой](https://models.silero.ai/vad_datasets/VoxLingua107.feather)
|
||
|
||
- Колонка `folder_link` содержит ссылки на скачивание `.zip` архива для конкретного языка. Внимание! Эти ссылки дублируются, они уникальны для каждого языка, а не каждого аудио.
|
||
- Колонка `audio_path` содержит пути до конкретного аудио после распаковки соответствующего архива из колонки `folder_link`
|
||
|
||
## Common Voice
|
||
|
||
[Ссылка на `.feather` файл с разметкой](https://models.silero.ai/vad_datasets/common_voice.feather)
|
||
|
||
Этот датасет невозможно скачать по статичным ссылкам. Для загрузки необходимо перейти по [ссылке](https://commonvoice.mozilla.org/en/datasets) и, получив доступ в соответствующей форме, скачать архивы для каждого доступного языка. Внимание! Представленная разметка актуальна для версии исходного датасета `Common Voice Corpus 16.1`.
|
||
|
||
- Колонка `audio_path` содержит уникальные названия `.mp3` файлов, полученных после скачивания соответствующего датасета.
|
||
|
||
## MLS
|
||
|
||
[Ссылка на `.feather` файл с разметкой](https://models.silero.ai/vad_datasets/MLS.feather)
|
||
|
||
- Колонка `folder_link` содержит ссылки на скачивание `.zip` архива для конкретного языка. Внимание! Эти ссылки дублируются, они уникальны для каждого языка, а не каждого аудио.
|
||
- Колонка `audio_path` содержит пути до конкретного аудио после распаковки соответствующего архива из колонки `folder_link`
|
||
|
||
## Лицензия
|
||
|
||
Данный датасет распространяется под [лицензией](https://creativecommons.org/licenses/by-nc-sa/4.0/deed.en) `CC BY-NC-SA 4.0`.
|
||
|
||
## Цитирование
|
||
|
||
```
|
||
@misc{Silero VAD Dataset,
|
||
author = {Silero Team},
|
||
title = {Silero-VAD Dataset: a large public internet scale voice activity detection dataset for 6000+ languages},
|
||
year = {2024},
|
||
publisher = {GitHub},
|
||
journal = {GitHub repository},
|
||
howpublished = {\url{https://github.com/snakers4/silero-vad/datasets/README.md}},
|
||
email = {hello@silero.ai}
|
||
}
|
||
```
|