Skip to content

Latest commit

 

History

History
64 lines (40 loc) · 6.22 KB

README.md

File metadata and controls

64 lines (40 loc) · 6.22 KB

Готовая разметка внешних открытых наборов данных

По ссылкам ниже представлены .feather файлы, содержащие размеченные с помощью Silero VAD открытые наборы аудиоданных, а также короткое описание каждого набора данных с примерами загрузки. .feather файлы можно открыть с помощью библиотеки pandas:

import pandas as pd
dataframe = pd.read_feather(PATH_TO_FEATHER_FILE)

Каждый .feather файл с разметкой содержит следующие колонки:

  • speech_timings - разметка данного аудио. Это список, содержащий словари вида {'start': START_SECOND, 'end': END_SECOND}, где START_SECOND и END_SECOND - время начала и конца речи в секундах. Количество данных словарей равно количеству речевых аудио отрывков, найденных в данном аудио;
  • language - ISO код языка данного аудио.

Колонки, содержащие информацию о загрузке аудио файла различаются и описаны для каждого набора данных ниже.

Все данные размечены при временной дискретизации в ~30 миллисекунд (num_samples - 512)

Название Число часов Число языков Ссылка Лицензия
Bible.is 53138 1596 URL Уникальная
globalrecordings.net 9743 61711 URL CC BY-NC-SA 4.0
VoxLingua107 6628 107 URL CC BY 4.0
Common Voice 30329 120 URL CC0
MLS 50709 8 URL CC BY 4.0
Итого 150547 6171+

Bible.is

Ссылка на .feather файл с разметкой

  • Колонка audio_link содержит ссылки на конкретные аудио файлы.

globalrecordings.net

Ссылка на .feather файл с разметкой

  • Колонка folder_link содержит ссылки на скачивание .zip архива для конкретного языка. Внимание! Ссылки на архивы дублируются, т.к каждый архив может содержать множество аудио;
  • Колонка audio_path содержит пути до конкретного аудио после распаковки соответствующего архива из колонки folder_link.

Количество уникальных ISO кодов данного датасета не совпадает с фактическим количеством представленных языков, т.к некоторые близкие языки могут кодироваться одним и тем же ISO кодом.

VoxLingua107

Ссылка на .feather файл с разметкой

  • Колонка folder_link содержит ссылки на скачивание .zip архива для конкретного языка. Внимание! Ссылки на архивы дублируются, т.к каждый архив может содержать множество аудио;
  • Колонка audio_path содержит пути до конкретного аудио после распаковки соответствующего архива из колонки folder_link.

Common Voice

Ссылка на .feather файл с разметкой

Этот датасет невозможно скачать по статичным ссылкам. Для загрузки необходимо перейти по ссылке и, получив доступ в соответствующей форме, скачать архивы для каждого доступного языка. Внимание! Представленная разметка актуальна для версии исходного датасета Common Voice Corpus 16.1.

  • Колонка audio_path содержит уникальные названия .mp3 файлов, полученных после скачивания соответствующего датасета.

MLS

Ссылка на .feather файл с разметкой

  • Колонка folder_link содержит ссылки на скачивание .zip архива для конкретного языка. Внимание! Ссылки на архивы дублируются, т.к каждый архив может содержать множество аудио;
  • Колонка audio_path содержит пути до конкретного аудио после распаковки соответствующего архива из колонки folder_link.

Footnotes

  1. Количество уникальных ISO кодов данного датасета не совпадает с фактическим количеством представленных языков, т.к некоторые близкие языки могут кодироваться одним и тем же ISO кодом.