百度发布Deep Speaker:大规模声纹识别的端对端系统
雷锋网按:此前雷锋网曾经报道过百度在语音技术上的百度进展。日前,发布百度美研院宣布了其在声纹识别上所取得的大的端对端突破性成果。研究表明:利用深度学习的规模方法比传统的i-vector方法在识别准确率上获得了显著的提高。
声纹识别算法寻求从音频中识别说话者的声纹识别身份。两个常见的系统识别任务是确认(说话者是不是他宣称的那个人)和说话者身份识别(在一群未知的说话者中确认声音的来源)。
该项技术已经有了各种应用。百度例如,发布声纹可以用来登录设备。大的端对端说话者确认也可以作为金融交易的规模额外安全措施。此外,声纹识别类似于智能家居助手之类的系统共享设备也可以利用这项技术来提供个性化的服务。
最近使用神经网络来进行声纹识别的百度论文已经改进了传统的i-vector方法(参考Interspeech教程的原始论文或者幻灯片)。i-vector方法认为说话内容可以被分为两个部分,发布一个部分依赖于说话者和信道可变性,大的端对端另一个部分依赖于其它的相关因素。i-vector声纹识别是一个多步过程,其涉及到使用不同说话者的数据来估计一个通用的背景模型(通常是高斯混合模型),收集充分的统计数据,提取i-vector,最后使用一个分类器来进行识别任务。
一些论文用神经网络代替了i-vector流水线的方法。其它研究者要么训练了一个文本相关(使用者必须说同样的话)的端对端语者识别系统,要么训练了文本独立(这个模型与说话内容不相关)的端对端语者识别系统。我们介绍Deep Speaker:一个端对端的神经声纹识别系统,它在文本相关和文本独立的场景下都取得了良好的效果。这意味这个系统可以被训练来识别谁在说话,无论是当你对你的家庭助手说“wake”或者你在会议中发言。
Deep Speaker由深度神经网络层组成,从音频中提取特征,基于余弦相似性的时间池和三元组损失(triplet loss)。百度美研院探究了ResNet激活的卷积模型和现有模型在提取声学特征上的效果。
说明:在这里百度美研院使用了人脸识别中采用的三元组损失。在训练过程中,他们选择了一个说话者的话语,然后计算一个嵌入(标记为“Anchor”)。再产生两个嵌入,一个来自相同的演讲者(标记为“Positive”),一个来自于不同的演讲者(标记为“Negative”)。在训练过程中,其目标是让Anchor与positive嵌入之间的余弦相似度高于Anchor与negative嵌入之间的余弦相似度。
百度美研院展示了Deep Speaker在三个不同数据集上的有效性,包括文本相关和文本独立的任务。其中之一的UIDs数据集包括大约250000名说话者,是知识文献中最大的数据集。实验结果表明:Deep Speaker要明显优于基于DNN 的i-vector方法。例如,在一个文本独立的数据集中随机挑选出100个演讲者,Deep Speaker在说话者身份确认任务上的错误率是1.83%,正确率是92.58%。相比于基于DNN 的i-vector方法,它降低了50%的错误率,提高了60%的正确率。
说明:在实验中百度美研院所使用的数据集是 UIDs,XiaoDu,和Mandarin。UIDs和XiaoDu是普通话数据集,Mturk是英语数据集。UIDs和Mturk是文本独立的数据集,XiaoDu是文本相关的数据集,其基于百度的唤醒字(wake word)。为了在不同大小的训练集上做实验,他们用了全部的UIDs数据集(250,000)和它的一个子集(50,000)。在评估阶段,他们选择了一个Anchor,然后再从测试部分随机地选择1个Anchor positive样本和99个Anchor negatives样本。
团队还发现Deep Speaker学习到了与语言无关的特征。当在普通话语境下训练时,Deep Speaker却能在英文确认和识别的任务上达到5.57%的错误率和88%的正确率。此外,先用普通话再用英文训练可相比于只用英文训练,提高了英文识别的准确率。这些结果都显示出尽管不同的语言听起来非常不同,深度语者却学习到了跨语言的声音特征。这些结果与Deep Speech 2的结果类似,同样的架构都可以用来辨认不同语言的声纹识别。
关于Deep Speaker模型的更多细节,训练技巧和实验结果都可以在论文中找到。
论文地址:https://arxiv.org/abs/1705.02304
via research.baidu,雷锋网翻译
友链
外链
互链
Copyright © 2023 Powered by
六合彩图库源码【购买联系电报bc3979】AC彩票网站源码|六合彩源码|彩票搭建|新中原六合彩源码|【网站bc9797.com】六合彩论坛源码【联系飞机bc3979】
sitemap
-
文章
89854
-
浏览
4
-
获赞
2
热门推荐
-
adidas 经典复古 ZX 鞋款全新 30 周年系列即将发售,经典回归
潮牌汇 / 潮流资讯 / adidas 经典复古 ZX 鞋款全新 30 周年系列即将发售,经典回归2019年08月07日浏览:3176 今年,阿迪达斯旗下的复古经典跑鞋鍛ㄧ煡锛丟22闈掑叞楂橀€熺帇鍙板崡鏀惰垂绔欏皝闂嚦12鏈?1鏃涓浗灞变笢缃慱闈掑矝
銆€銆€鍥犲浗閬?04鏀归€犲伐绋嬶紙娲嬫渤宕栨ˉ——濮滃娲煎瓙锛夋柦宸ワ紝G22闈掑叞楂橀€熺帇鍙板崡鏀惰垂绔欎簬2020骞?鏈?0鏃ヨ嚦2020骞?2鏈?1鏃ュ皝闂€侟2024赛季中甲首轮对阵:青岛红狮和大连英博实力对比
2024赛季中甲首轮对阵:青岛红狮和大连英博实力对比2024-03-09 11:18:16中甲联赛正在如火如荼地进行着,其中青岛红狮队和大连英博队将在本周日3月10日下午15:30分展开一场对激烈的较国内成品油调价或将搁浅
2月19日24时,成品油调价窗口将再度开启。受近期国际油价连续上涨影响,新一轮国内汽柴油调价预计将迎来2024年的首次搁浅。春节假期期间,国际原油价格表现强势,布伦特原油、WTI原油涨幅均超4%。截至明确盲盒、直播等新业态经营者义务 新修订《上海市消费者权益保护条例》8月1日正式实施
中国消费者报报道记者刘浩)8月1日,新修订的《上海市消费者权益保护条例》以下简称《条例》)正式实施。记者了解到,这是上海时隔8年再次对《条例》进行修订,既回应了当前社会普遍关注的热点难点,对直播带货、推荐十本必看好书小说 有哪些经典书籍
推荐十本必看好书小说 有哪些经典书籍张婧轩2023-10-26 17:18:17愿亲爱的朋友都能得闲,多读书中佳作。也愿书籍能重新指引您找到方向,指引您开始新的航行。下文为大家推荐十本必看好书小说,快安惠公司开展“3.8”艺术体验活动
感受扎染魅力,邂逅点翠之美。为庆祝“三八”国际劳动妇女节,3月8日下午,安惠公司联合工会组织女职工奔赴南通市富美帽饰博物馆,开展扎染盆帽和点翠发夹体验活动,近距离体验中国非遗文化。安惠公司副董事长陆汉化工博物馆13件馆藏被定级为国家一级文物
近日,经国家文物局和北京市文物局审批备案,化工博物馆馆藏81件/套珍贵文物被鉴定定级,其中一级文物13件/套,二级文物36件/套,三级文物32件/套。此次文物定级工作不仅实现了化工博物馆馆藏国家级文物利物浦2大核心或离队!克洛普遭3重打击,萨拉赫若离队彻底崩盘
这个夏天对于利物浦来说,本来应该成为球队重建过程当中非常重要的一个赛季,但是由于在引援方面的失误,最终导致他们目前的阵容并没有达到理想状态。而且,在亨德森和法比尼奥已经加盟沙特联赛的情况下,利物浦的前西藏江达:村集体经济光伏项目分红162万元
江达县青泥洞乡索日村驻村工作队充分发挥当地清洁能源资源优势,积极争取光伏电站项目落成,成为群众增收致富的重要渠道。近日,江达县青泥洞乡索日村举行2023年度村集体经济光伏项目分红仪式,共有125户参加上海ART021宣布免除2020年所有画廊参展申请费用 收藏资讯
来源:ART021定于今年11月12日至15日举办的第八届ART021上海廿一当代艺术博览会为了缓解当前的健康和经济危机给画廊带来的巨大压力,于近日宣布将申请截止日延长至5月30日,并免除全球所有画廊有什么值得看的书籍推荐 哪些书比较好看
有什么值得看的书籍推荐 哪些书比较好看张婧轩2023-10-25 17:40:29阅读对个人的成长和发展有着重要的影响。它不仅可以帮助我们获取知识,提升思维能力,还可以培养想象力、语言表达能力,放松心全球市场聚焦:黄金避险魅力再度回归,原油走势藏着什么玄机?
汇通财经APP讯——周四(11月28日),在美国感恩节假期的清淡交投中,市场走势趋于稳定,各资产类别展现出各自的独特节奏。从原油到贵金属,再到主要货币和债市,投资者在经济数据和地缘政治消息的夹缝中寻找IEA:预计2024年全球石油需求增速将降至122万桶/日
据外电2月15日消息,国际能源署(IEA)周四发布的月报显示,2024年全球石油需求增长预估为122万桶/日,低于此前预期的124万桶/日。受非OPEC供应推动,IEA上修2024年全球石油供应增长预2024石油化工行业分析测试与仪器仪表技术交流会(广东站)第二轮通知
“2024石油化工行业分析测试与仪器仪表技术交流会广东站)”第二轮通知各有关单位:石油化工行业是国民经济支柱产业,产品种类多,关联覆盖广,为全面贯彻实施党的二十大报告中提出的&