通用语音数据集

这里整理了常用语音数据集，持续更新中，欢迎各位小伙伴贡献数据集～

语音识别
语音合成
声音分类
声纹识别
语音唤醒

语音识别

WenetSpeech

数据来源：https://wenet.org.cn/WenetSpeech/

数据简介：

从 YouTube 和 Podcast 收集的 10000 多个小时的多域转录普通话语料库。采用光学字符识别 (OCR) 和自动语音识别 (ASR) 技术分别标记每个 YouTube 和 Podcast 录音。为了提高语料库的质量，我们使用一种新颖的端到端标签错误检测方法来进一步验证和过滤数据。10,000 +小时高标签数据,置信度 >= 95%，用于监督训练;2400 +小时弱标签数据0.6 < 置信度 < 0.95，用于半监督或噪声训练等;22400 +总共小时音频,由标记和未标记的数据组成，用于无监督训练或预训练等。下载地址：https://wenet.org.cn/WenetSpeech/#download

语音合成

CSMSC 数据来源：https://www.data-baker.com/open_source.html 数据简介：

中文标准女声音库】采集对象的音色风格知性阳光、亲切自然，专业标准普通话女声，听感乐观积极。录制环境为专业录音室和录音软件，录音环境和设备自始至终保持不变，录音环境的信噪比不低于35dB;单声道录音，用48KHz 16比特采样频率、PCM WAV格式。录音语料涵盖各类新闻、小说、科技、娱乐、对话等领域，语料设计综合语料样本量，力求在有限的语料数据量内，对音节音子、类型、音调、音连以及韵律等尽可能全面的覆盖。根据合成语音标注标准对音库进行文本音字校对、韵律层级标注、语音文件边界切分标注。

下载地址：https://www.data-baker.com/open_source.html

声音分类

esc50

数据来源：https://github.com/karolpiczak/ESC-50

数据简介：

ESC-50: Dataset for Environmental Sound Classification 是一个包含有 2000 个带标签的时长为 5 秒的环境声音样本，音频样本采样率为 44,100Hz 的单通道音频文件，所有样本根据标签被划分为 50 个类别，每个类别有 40 个样本。

声纹识别

voxceleb

数据来源：https://www.robots.ox.ac.uk/~vgg/data/voxceleb/index.html#about

数据简介：

VoxCeleb 是一个视听数据集，由从上传到 YouTube 的采访视频中提取的人类语音短片组成,7,000 +

扬声器VoxCeleb 包含来自不同种族、口音、职业和年龄的演讲者的演讲;话语长度100万+话语所有说话的面部轨迹都是“在野外”捕获的，包括背景聊天、笑声、重叠的语音、姿势变化和不同的照明条件;2,000 +小时 VoxCeleb 由音频和视频组成。每个片段至少 3 秒长。

语音唤醒

hey_snips

数据来源：https://github.com/sonos/keyword-spotting-research-datasets

数据简介：

唤醒词是“Hey Snips”，两个词之间没有停顿。两个数据集都包含大量的英语口音和录音环境。请注意，负样本是在与唤醒词话语相同的条件下记录的，因此来自相同的域（说话者、硬件、环境等）。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Speech.md

Speech.md

通用语音数据集

语音识别

语音合成

声音分类

声纹识别

语音唤醒

Files

Speech.md

Latest commit

History

Speech.md

File metadata and controls

通用语音数据集

语音识别

语音合成

声音分类

声纹识别

语音唤醒