您的位置:首页>>业界动态

百度AI开放远场语音技术解决方案“度小云”

发布时间:2018-07-05 14:28:11  来源:ITBEAR   编辑:陈芳  背景:

  7月4日,百度AI开发者大会(Baidu Create 2018)盛大召开,在下午的百度大脑论坛上,百度语音技术部总监高亮公布了百度基于远场的语音语义一体化技术的三项重大突破,包括基于远场的语音语义一体化、多语种混合声学建模、以及融合拼接与WaveNet技术的全新语音合成技术等。此外,远场语音技术低成本解决方案“度小云”正式发布,将百度顶尖的合成、识别、交互、远程、唤醒等各项技术,全面开放给开发者。

  在上午的百度AI开发者大会主论坛上,百度大脑3.0正式发布,核心是“多模态深度语义理解”。“多模态深度语义理解”是指对文字、声音、图片、视频等多模态的数据和信息进行深层次多维度的语义理解,不仅能让机器听清、看清,更能深入理解它背后的含义,深度地理解真实世界,进而更好地支撑各种应用。此次语音技术上的三项升级正是百度大脑3.0深度理解世界的具体体现。

  语音识别的准确率是语音技术的基础,此次百度升级的基于远场的语音语义一体化技术,能提高远场交互中高频Query的识别率,让机器更好地听懂世界。

  据高亮介绍,在智能设备的语音交互中,用户交互的内容高度集中,用户1%的Query覆盖了40%的PV,10%的Query带来了70%的PV,因此百度为提高分辨高频Query的准确率进行了技术优化和创新。

  传统的语音识别框架是通过声学模型、语音模型,解码输出语义结果,百度对语义识别的技术和框架进行了重新设计,专门为高频Query建构解码空间,且对高频Query和普通Query两套架构并行解码。在动态解码阶段,百度引入了声学置信度、语义特征、用户特征等更多的语义特征,对这些特征进行Ranking综合排序,以保证高频Query的高权重。

  百度基于高频Query的识别架构,目前能够将高频Query的准确性提升10个点,并能保证普通Query的识别率不降。

  多语种混合Query的识别是语音技术中攻克的难点,百度发布的基于Deep Peak2采用的多语种音素组合建模,突破了以音素为基本建模单元的传统,对中英文统一建模,大大提高了中英文混合Query的识别准确率。

  传统的建模以音素作为基本的建模单元,建模时要考虑音素的前后音连和上下文,建模单元要上万个之多。百度基于深度尖峰第二代技术,将音素建模改成了上下文无关的音素组合建模,不再需要上下文和音连,可以将元音、单辅音、双辅音等音素有机组合,也能将中英文发音单元统一建模。这项突破,不仅能将建模单元减少至一千多、将解码速度加快、解码效率增高,且因为模型对训练数据极高的多样性和包容性,模型能积累更多的训练数据,进而大大提高对中英文混合Query的识别准确率。

  现场高亮也为开发者们展示了几个案例,当一个孩童对机器说“o-f-c-o-u-r-s-e I can的中文”这段英文字母拼音+英文单词+中文的Query时,机器准确识别了对话的意义;对于对话中出现的“就是build一个非常strong、healthy的朋友圈”的中英文混杂问题,机器也能准确识别。

  目前,基于中文Deep Peak2的多语种音素组合模型已在百度多个产品上线,相对错误率比业界最好竞品降低了20%。

  技术质量与成本最优化是技术追求的目标,百度创新的WaveNet+拼接技术不仅能大幅提升流畅度和自然度,而且成本更低,能让技术得到更大规模的落地和运用。

  传统的拼接技术,需要找一个非常好的发言人,录制海量数据组成一个音库,然后将人工录制的音库进行切分与组合,拼接技术因为将声音整段切分成很多快,所以能保留人说话时的抑扬顿挫和情感特征,但同时它需要录制大量的音库,且音库合成的质量不易控制。业界最近常用的WaveNet技术,则是一个基于端到端的神经网络深度学习技术,它合成的声音较平稳,且对数据的需求比较小,但需要耗费大量的计算资源,功耗和使用成本非常高。

  百度将传统的拼接技术和最新的WaveNet技术有机结合在一起,使两项技术的优势都能得到发挥。既保证了合成声音的情感,保证了输出声音的稳定性,同时降低了需要使用的数据和成本,全新的语音合成技术的经济适用性,覆盖了更多的聊天场景,也让该技术能得到大规模的工业应用。

  结合以上三项技术,百度专门打造了EtoE DuerOS整体语音解决方案,它结合了百度最新的语音技术,包括麦克风阵列技术、声源定位技术、超低功耗DSP解决方案等。

  除了公布创新技术,百度还现场发布了远场语音技术低成本的解决方案“度小云”,它集成了百度在合成、识别、交互、远程、唤醒等各方面的技术,包括语音语义一体化技术、多语种混合声学建模、全新的语音合成技术,还包括深度学习语音切分技术、业界领先的五级唤醒技术、远场优化的音频通讯技术等,是远场语音技术的集大成者,这些技术都已开放在百度AI开放平台,供开发者们免费使用。

  百度的语音技术发展至今,已经在各个领域得到广泛运用,不仅在百度系产品中接入了入口,也为基于DuerOS的合作伙伴、为所有使用百度AI开放平台的开发者们提供了一个平等获取AI的机会。




关注IT讯息网公众号(itbear365 ),每天推送你感兴趣的科技内容。

  声明:本文仅为传递更多网络信息,不代表ITBear观点和意见,仅供参考了解,更不能作为投资使用依据。


返回网站首页 本文来源:ITBEAR

第八家云系统平台“沃天宇”正式发布,开启无人机云网互联时代
由天宇经纬(北京)科技有限公司、中国联通云南分公司、中国联通研究院三方共同研发的“沃天宇&r...
日期:07-05
百度AI开放远场语音技术解决方案“度小云”
7月4日,百度AI开发者大会(Baidu Create 2018)盛大召开,在下午的百度大脑论坛上,百度语音技术部总...
日期:07-05
腾讯灵鲲大数据金融安全平台重磅亮相2018软博会 斩获优秀产品奖
6月29日-7月2日,由工业和信息化部、北京市人民政府主办的第二十二届中国国际软件博览会在北京展览...
日期:07-05
腾讯安全启动“清理+”公益活动 为行善者守护善行
20年义务抚养无依无靠的五保老人的罗日祥、26年帮3000名无名逝者“回家”的张大勇、步行4...
日期:07-05
小米公交江苏交通一卡通正式上线
7月5日消息 经过一段时间的内测后,小米公交已经正式上线江苏交通一卡通·苏州公交卡,江苏一...
日期:07-05
中国新造车的通病:目标特斯拉,却成不了马斯克
图片来源:视觉中国
  特斯拉周产5000辆Model 3目标达成,蔚来上半年批量交付承诺兑现&hell...
日期:07-05
百度AI开发者大会百度大脑论坛:详解“多模态深度语义理解”
7月4日召开的百度AI开发者大会(Baidu Create 2018)上,百度高级副总裁、AI技术平台体系(AIG)总负责...
日期:07-05
用友秉钧荣获“2018年度中国IT互联网最受用户欢迎产品”
2018年6月30日,由IT高管会、中科院计算所同学会主办的“2018年中国IT互联网产品创新大会&rdqu...
日期:07-05
任正非:华为要拿出总研发费用的20%-30%用于基础研究
华为心声社区今日发布了任正非在Fellow及部分欧研所座谈会上的讲话内容。
日期:07-05
共享单车在意大利遭不文明对待:沦为“城市垃圾”
近日,意大利罗马两名年轻人将一辆共享单车扔进河里,引发意大利媒体和罗马市长的批评。然而该事件...
日期:07-05
哈罗单车COO:用户口碑和订单规模已居行业首位
近日,哈罗单车COO韩美在接受梨视频采访时称,现在无论是用户口碑还是订单规模,哈罗都已居行业首位...
日期:07-05
海能达与摩托专利官司初裁:前者部分产品面临禁售风险
海能达7月4日下午公告称,美国国际贸易委员会(ITC)针对公司与摩托罗拉解决方案公司(简称“摩托...
日期:07-05
支付宝越南遭禁一事背后:移动支付全球化门坎?
现如今的中国,已经是移动支付时代,出门只要一部手机,不论是逛街买菜还是出门打车,扫一扫二维码...
日期:07-05
抖音小程序上线不足24小时遭封杀 微信誓死保卫社交领域
7月3日,抖音短视频在微信上线了一款名叫“抖音好友”的小程序,这款小程序能够查看微信...
日期:07-05
极光大数据:成人英语学习用户调研报告
极光大数据《2018年6月成人英语学习用户研究报告》新鲜出炉。从行业背景、总体情况勾勒成人英语教育...
日期:07-05
爱奇艺刘文峰参与TechCrunch 国际创新峰会 AI娱乐深度融合引发行业趋势探讨
7月2日,TechCrunch 国际创新峰会在杭州举办,阿里巴巴集团技术委员会主席& 阿里云创始人王坚,...
日期:07-05
百度无人车实现量产,碧桂园潼湖科技小镇率先引进
北京2018年7月4日电-- “是的,我们去年吹的牛实现了!”2018百度AI开发者大会今日于北京...
日期:07-05
人工智能创业热点在哪?“AI中国芯”井喷式发展
2018年,狂飙突进了三四年之久的人工智能行业开始面临商业化落地等现实问题。在行业细分领域,AI结...
日期:07-05
美图的双重困局:“弱关系链”与“小而不美”
声称自己是互联网公司的硬件公司,除了小米,还有一家就是美图。
日期:07-05
超级科技公司崛起,发达国家工人收入增长却疲软
7月5日消息,据路透社报道,经济合作与发展组织(OECD)周三表示,在许多国家,快速成长的“超级...
日期:07-05