注册
闽南网 > 新闻中心 > 数码科技 > 正文

Mozilla更新公共语音数据集 现有18种语言1400小时语音

来源:cnbeta 2019-03-01 09:41 http://www.mnw.cn/

­  Mozilla希望让初创公司,研究人员和业余爱好者更容易构建支持语音的应用,服务和设备。为此,它今天发布了最新版本的Common Voice,这是一个开源的语音数据集,现在包括来自42000名贡献者超过1400小时的语音样本,涵盖18种语言,包括包括英语、法语、德语、荷兰语、Hakha Chin语、世界语、波斯语、巴斯克语、西班牙语、中文、威尔士语和卡布语。

­  Mozilla声称,它是同类语言中最大的多语言数据集之一,比8个月前公开的普通语音语料库要大得多,其中包含了2万名英语志愿者500小时,40万份录音,而且语料库很快就会扩大。该组织表示,70种语言的数据收集工作正在通过通用语音网站和移动应用程序积极开展。

­  通用语音可以集成到Deepspeech中,这是一套由Mozilla的机器学习小组维护的开源的语音到文本、文本到语音引擎和经过培训的模型,它不仅包含语音片段,还包含一些自愿者提供的元数据,这些元数据可用于培训语音引擎,如演讲者的年龄、性别等等。

­  为了简化流程,Mozilla本周推出了一款改进的Common Voice网络工具,可以根据不同的提示进行剪辑,还提供了用于查看、重新录制和跳过剪辑的新控件。此外,它还推出了新的配置文件功能,允许用户跨语言跟踪进度和指标,并添加人口统计信息。Mozilla表示,在接下来的几个月里,它将尝试不同的方法来通过社区努力和新的合作伙伴关系,增加数据的数量和质量。最终目标旨在为那些寻求构建和使用语音技术的人提供更多更好的语音数据。

原标题:Mozilla更新公共语音数据集 现在包括18种语言1400小时语音
责任编辑:李晓灵
相关阅读:
新闻 娱乐 福建 泉州 漳州 厦门
猜你喜欢:
热门评论:
频道推荐
  • 德国报告:欧洲北海春季水温创历史新高
  • 以军袭击伊朗核计划相关设施 伊朗防空处于
  • 5G-A商用加速,“新速度”会带来哪些新变化
  • 新闻推荐
    @所有人 多项民生礼包加速落地快来查收 三峡大坝变形?专家:又有人在恶意炒作 北京新一波疫情为什么没出现死亡病例? 戴口罩、一米线 疫情改变了哪些习惯? 呼伦贝尔现幻日奇观 彩虹光带环绕太阳
    视觉焦点
    石狮:秋风起,紫菜香 石狮:秋风起,紫菜香
    石狮环湾生态公园内粉黛乱子草盛放 石狮环湾生态公园内粉黛乱子草盛放
    精彩视频
    【视频】现场直击!高考首日泉州学子奔赴考场
    【视频】现场直击!高考首日泉州学子奔赴考场
    泉州晋江:特色民俗迎端午 水上掠鸭趣味多(视频)
    泉州晋江:特色民俗迎端午 水上掠鸭趣味多(视频)
    专题推荐
    关注泉城养老服务 打造幸福老年生活
    关注泉城养老服务 打造幸福老年生活

    闽南网推出专题报道,以图、文、视频等形式,展现泉州在补齐养老事业短板,提升养老服

    新征程,再出发——聚焦2021年全国两会
    2020福建高考招录
     
    48小时点击排行榜
    下沉一线查摆问题 “刀刃向内”全面“体 韩正会见西班牙国王费利佩六世 省委理论学习中心组学习会举行 台风路径实时发布系统卫星云图 台风“蝴 以下哪种纸有“汉皮纸”的古称?蚂蚁新村 南昌领导干部任前公示 民生银行泉州洛江支行:暖心上门服务 跨 民生银行泉州晋江支行:暖心服务 解决客