您的位置:首页>>业界动态
搜索: 标题  

科技巨头们为什么如此渴求语音数据?

发布时间:2016-12-14 11:44:31  来源: 新浪科技    编辑:贺飞  背景:
 
  亚马逊Echo让人工智能家庭助理走进现实。使用过Echo内置的Alexa语音助理的用户都会被她的魅力所折服:“她”不仅能打专车,还能叫外卖,甚至可以完成高一的数学家庭作业。亚马逊甚至声称,每天有超过5000人对Alexa示爱。

  但与此同时,Alexa的用户也都知道:除非你用缓慢的语速清晰地说出自己的指令,否则她很有可能对你说:“抱歉,我无法回答这个问题。”有一位用户在亚马逊网站上写道:“我实在是对她又爱又恨。” 但这位用户仍然给了Alexa五星好评。“你很快就会学会通过她能理解的方式与之沟通,就像跟刚会走路的孩子说话一样。”

  语音识别在过去几年实现了巨大进步,但仍不足以让这项技术融入日常生活,开启人机互动的新时代,让我们与汽车、洗衣机、电视机等所有电子产品展开语音沟通。尽管语音识别已经取得了长足进步,但多数人仍会沿用手势操作和触摸界面。在可预见的未来,这种趋势恐怕难以改变。

  障碍究竟何在?一定程度上源于这种技术背后的人工智能仍有改进空间。数据缺乏也同样也是一大问题——不同语言、不同口音、不同方言的语音数据尤其匮乏。倘若是在嘈杂的环境中,使用效果更是大打折扣。

谷歌智能家居中心Google Home

  谷歌智能家居中心Google Home

  所以,亚马逊、苹果、微软和中国的百度都在世界范围内广泛收集海量的人类语音数据。微软已经在多地建设了专门的部门,录制志愿者在家居环境中的对话内容。亚马逊每个小时都会将Alexa收到的海量语音请求上传到庞大的数据库。百度也在中国各地收集方言数据。在此之后,他们都会利用这些数据教给电脑如何分析、理解、响应不同的语音指令和语音请求。

  真正的挑战在于寻找一种方式来捕捉自然状态下的真实对话。百度加州桑尼韦尔人工实验室负责人亚当·科茨(Adam Coates)表示,就算是95%的准确率也不足以满足人们的需求。“我们的目标是将错误率降低到1%。”他说,“只有达到这种水平,我们才能相信机器能够理解我们的话。这将是革命性的。”

  不久以前,语音识别还非常粗糙。在2006年的一次演示中,微软早期在Windows中配备的一项技术甚至把“mom”听成了“aunt”。当苹果五年前推出Siri时,这款个人助理同样因为无法返回正确答案或听不清问题而备受嘲笑。在被问及吉莉安·安德森(Gillian Anderson)是不是英国人时,Siri竟然给出了一份英国餐馆的列表。

  微软现在表示,该公司的语音引擎错误率甚至可以媲美专业速录员。Siri也勉强获得了人们的尊重,Alexa更是让我们窥见了未来。

  这种进步很大程度上归功于神经网络技术的发展,这是一种模拟人脑结构的人工智能技术. 神经网络无需明确的指令便可自学各种内容,但通常需要辅以庞大而多样的数据。语音识别引擎获得的数据越多,就越能理解不同的声音,也就更加接近在众多语言环境中实现自然对话的目标。

  正因如此,科技巨头才争相在世界各地收集不同的语音数据。“我们的系统获得的数据越多,表现就越好。”百度首席科学家吴恩达说,“正因如此,语音识别才是一项资本密集型业务。没有多少组织拥有如此庞大的数据。”

  高科技行业20世纪90年代开始重视语音识别技术时,微软等公司依靠的都是来自Linguistics Data Consortium等研究机构提供的公共数据——这个创立于1992年的语音和文本数据库获得了美国政府的支持,总部位于美国宾夕法尼亚大学。

  后来,科技公司开始收集自己的语音数据,其中一些来自志愿者朗读的各种内容。现在,随着语音控制软件逐步受到人们欢迎,他们也通过自己的产品和服务收集了很多数据。

  当你让自己的手机搜索信息、播放歌曲或导航路径时,这些内容很可能会被某家公司录制下来。当你向Alexa询问天气和最近的橄榄球赛比分时,她便会利用这些内容改进其自然语言理解能力(尽管在你叫她的名字之前,Alexa不会倾听你的对话。)“根据产品设计,你使用得越多,Alexa就越聪明。”Alexa资深首席科学家尼克·斯特罗姆(Nikko Strom)说。

亚马逊Echo智能音箱

  亚马逊Echo智能音箱

  其中的关键挑战是让这项技术熟悉不同的语言、口音和方言。这一点在中国体现得尤为明显。为了收集中国各地的方言数据,百度在今年春节期间启动的一项营销计划,推出了方言对话项目。该公司向用户承诺,如果他们为该项目作出贡献,今后便可使用自己的方言与百度展开互动。短短两周内,该公司就录制了超过1000小时的方言数据。很多人完全免费提供这些数据,因为他们都对自己的方言感到自豪。一位四川的高中教师对该项目十分热衷,他甚至让全班同学用四川话录制了1000多首古诗。

  另外一大挑战是让语音识别技术在嘈杂的环境中识别语音指令——包括酒吧和体育场等人声鼎沸的环境。微软也在Xbox上部署了一款名为Voice Studio的应用,专门收集人们在玩游戏或看电影时的对话信息。为了吸引用户贡献自己在玩游戏过程中的对话内容,该公司为参与其中的用户提供了各种各样的奖励,包括点卡和游戏道具。该项目在巴西展开了大力推广,当地团队还在Xbox主页上着重推广这款应用。他们随后利用这些数据开发了巴西葡萄牙语版的Cortana语音助理,并于今年早些时候发布。

  各路企业还在为特定的环境设计语音识别系统。微软一直在测试一项技术,以便在不受机场广播信息干扰的情况下回答旅行者的问题。该公司的技术还被用于麦当劳汽车穿梭餐厅的自动点餐系统。这套系统可以忽略嘈杂的汽车音响、孩子们的叫声和各种各样的口头语,从中提取出复杂的指令,甚至连调味品也不会错过。亚马逊也在汽车上展开测试,希望Alexa能够适应道路上的各种噪音。

  在各大企业争相收集数据的过程中,他们也在努力改进技术,希望利用更少的数据实现更好的语音识别效果。微软首席语音科学家黄雪冬已经在该公司从事了20多年的语音识别技术开发工作,他表示,麦当劳正在测试的技术比其他系统更加精确,但使用的数据却更少。“即便数据量不是最大的,仍然可以实现技术突破。”

  谷歌向来信仰“少即是多”的理念,因此该公司开发了一种技术,希望利用不知所云的声音来构建文字和短语。借助该公司的语音识别系统,他们希望通过一项改变来解决各种不同的问题。谷歌拼接了数万段时长仅有2至5秒的语音片段。该公司研究员弗朗索瓦兹·比伦法斯(Francoise Beaufays)表示,这一过程所需的计算资源更少,但却更容易测试和修改。

  百度也在开发更加高效的算法,只需学习一种语言便可简化另外12种语言的学习难度。在学习只有数万人掌握的语种时,这种技术显得至关重要——因为很难针对这样的语言收集庞大的数据。

  在被问及何时才能通过自然语言与数字助理交流,并得到满意的答案时,就连吴恩达这样的顶尖科学家也无法给出确切答案。即便是对最高水平的神经网络学家而言,这项技术仍然有很多谜团有待解开。有很多工作只能通过不断试错来改进,没有人敢保证某项技术调整可能产生什么样的后果。根据现有的技术和方法,这一过程大约要耗费数年时间。

  但吴恩达、黄雪冬和比伦法斯等科学家都表示,我们永远无法知道何时能够实现突破,何时能让Alexa和Siri与人类展开真正的对话。

  声明:本文仅为传递更多网络信息,不代表ITBear观点和意见,仅供参考了解,更不能作为投资使用依据。


返回网站首页 本文来源: 新浪科技

本文评论
这里有几份开车必备歌单送给你……
  根据某知乎网友查询的资料显示:
  自从1970年代,汽车普遍配备收音机以后,
  美国...
日期:07-14
每天都觉得可能用了个假导航,问题到底出在哪?
一直不是很理解“自带的车载导航系统”这种东西存在的意义。界面完全不友好,操作起来很...
日期:07-14
腾讯安全多部门合力 协同广东警方整治色情App诈骗
7月12日,广东省公安厅召开“广东省公安机关‘安网’行动上半年工作暨‘安网6号’专案收网行动”新闻发布会。
日期:07-14
再次启程!2017小蛮腰科技大会带你“预·见未来”
随着经济全球化、社会信息化的深入发展,各类创新要素实现了充分流动和优化配置,科技创新合作更加...
日期:07-14
Apple Pay五折大促讨好中国市场,骄傲如斯为何肯低头?
近日苹果中国推出了ApplePay大促销活动,在指定的店铺使用苹果支付可以享受到5折的优惠,还能得到50...
日期:07-14
艾媒数据产品总监麦伟杰—自媒体时代如何品牌危机处置
2017年7月14日,由广州市广告行业协会联合全球领先的新经济行业数据挖掘和分析机构“艾媒咨询...
日期:07-14
商业周刊专访腾讯“关键先生”刘炽平:我们要成为全球性的消费类科技巨头
每到年末,中国互联网巨头腾讯公司通常都会召集14位高管成员,精选日本的某个舒适的度假村或者硅谷某家酒店举行公司总办(最高管理层)会议。
日期:07-14
嘀嗒拼车仅次滴滴位全行业第二,社交出行显峥嵘
据QuestMobile最新公布的2017年6月份数据显示,从整个出行行业来看,嘀嗒拼车仅次滴滴,成为出行行业第二巨头。再将出行行业细分,嘀嗒拼车已成为顺路拼车行业的领头羊。
日期:07-14
摩拜单车7月15日正式登陆CCTV-1《大国品牌》
在共享经济高度发达的今天,各种名目的共享形式层出不穷,但倘若让你举出一两个例子来,我敢肯定,大多数人首先想到的一定是“摩拜单车”。在城市交通中,现在真的是没你不“橙”。
日期:07-14
高通专利靠研发积累 专利授权保护知识产权
对于企业来说,发明专利的优势就是其核心竞争力。这一点在移动通信领域更是如此。专利的积累靠企业...
日期:07-14
苹果后来者居上 在增强现实领域超越谷歌获得领先地位
7月14日消息,据国外媒体报道,今年晚些时候,苹果将在多达10亿部移动设备上安装增强现实软件,这将...
日期:07-14
颜值爆棚:大朋VR E3基础版真实体验评测
收到的大朋VR头盔E3包装盒看上去不小,但是拿到手中时却发现分量比看上去小多了。包装比较简单,整体是黑色和白的搭配,正面印有VR头盔的侧面。
日期:07-14
2017中国互联网大会:腾讯安全反诈骗实验室破局互联网欺诈困境
7月11日-13日,由中国互联网协会举办的2017中国互联网大会(CIC)在北京国家会议中心召开,本届大会深...
日期:07-14
共享充电宝到底能否比肩共享单车
2015年共享单车以“解决居民最后一公里出行问题”的宣传语正式进入消费者的视野。一开始...
日期:07-14
“北京文投会杯”第二届北京市文化创意创新创业大赛落幕
7月13日,以“创赢未来新无止境”为主题的“北京文投会杯”第二届北京市文化创意创新创业大赛总决赛暨颁奖仪式在北京亦创会展中心举行。
日期:07-14
“奥克斯现象”引爆京东品牌日 空调业正悄然变脸
电商“618”狂欢节之后,空调“买买买”的节拍非但没有停息,反而因高温蔓延而空前高涨。
日期:07-14
江波龙率先发布世界上最小尺寸SSD
7月14日,国内存储行业的领跑者深圳市江波龙电子有限公司(Longsys)率先发布目前世界上最小尺寸的NVM...
日期:07-14
智能技术:机器与人的战争,还是人与人的战争?
人工智能的风险讨论已经不再是新话题。在过去几年中,很多研究者提及了人工智能(以及与之紧密相关的...
日期:07-14
奥克斯空调霸气逆袭:单品类拿下京东超级品牌日
空调新冷年还未开盘引爆,奥克斯就提前出手抢夺头筹——拿下京东超级品牌日的资格。
日期:07-14