Update README.md

This commit is contained in:
Dimitrii Voronin
2024-03-26 21:17:35 +03:00
committed by GitHub
parent f56f56ffaa
commit 41c5172dd9

View File

@@ -21,6 +21,7 @@ dataframe = pd.read_feather(PATH_TO_FEATHER_FILE)
| **VoxLingua107** | 6628 | 107 | [URL](https://bark.phon.ioc.ee/voxlingua107/) | CC BY 4.0 |
| **Common Voice** | 30329 | 120 | [URL](https://commonvoice.mozilla.org/en/datasets) | CC0 |
| **MLS** | 50709 | 8 | [URL](https://www.openslr.org/94/) | CC BY 4.0 |
| **Итого** | **150547** | **6171+** | | | |
## Bible.is
@@ -32,8 +33,8 @@ dataframe = pd.read_feather(PATH_TO_FEATHER_FILE)
[Ссылка на `.feather` файл с разметкой](https://models.silero.ai/vad_datasets/globalrecordings.feather)
- Колонка `folder_link` содержит ссылки на скачивание `.zip` архива для конкретного языка. Внимание! Эти ссылки дублируются, они уникальны для каждого языка, а не каждого аудио.
- Колонка `audio_path` содержит пути до конкретного аудио после распаковки соответствующего архива из колонки `folder_link`
- Колонка `folder_link` содержит ссылки на скачивание `.zip` архива для конкретного языка. Внимание! Ссылки на архивы дублируются, т.к каждый архив может содержать множество аудио;
- Колонка `audio_path` содержит пути до конкретного аудио после распаковки соответствующего архива из колонки `folder_link`.
``Количество уникальных ISO кодов данного датасета не совпадает с фактическим количеством представленных языков, т.к некоторые близкие языки могут кодироваться одним и тем же ISO кодом.``
@@ -41,8 +42,8 @@ dataframe = pd.read_feather(PATH_TO_FEATHER_FILE)
[Ссылка на `.feather` файл с разметкой](https://models.silero.ai/vad_datasets/VoxLingua107.feather)
- Колонка `folder_link` содержит ссылки на скачивание `.zip` архива для конкретного языка. Внимание! Эти ссылки дублируются, они уникальны для каждого языка, а не каждого аудио.
- Колонка `audio_path` содержит пути до конкретного аудио после распаковки соответствующего архива из колонки `folder_link`
- Колонка `folder_link` содержит ссылки на скачивание `.zip` архива для конкретного языка. Внимание! Ссылки на архивы дублируются, т.к каждый архив может содержать множество аудио;
- Колонка `audio_path` содержит пути до конкретного аудио после распаковки соответствующего архива из колонки `folder_link`.
## Common Voice
@@ -56,5 +57,5 @@ dataframe = pd.read_feather(PATH_TO_FEATHER_FILE)
[Ссылка на `.feather` файл с разметкой](https://models.silero.ai/vad_datasets/MLS.feather)
- Колонка `folder_link` содержит ссылки на скачивание `.zip` архива для конкретного языка. Внимание! Эти ссылки дублируются, они уникальны для каждого языка, а не каждого аудио.
- Колонка `audio_path` содержит пути до конкретного аудио после распаковки соответствующего архива из колонки `folder_link`
- Колонка `folder_link` содержит ссылки на скачивание `.zip` архива для конкретного языка. Внимание! Ссылки на архивы дублируются, т.к каждый архив может содержать множество аудио;
- Колонка `audio_path` содержит пути до конкретного аудио после распаковки соответствующего архива из колонки `folder_link`.