财新传媒
位置:博客 > 刘兴亮 > 厉害了,智能语音时代!

厉害了,智能语音时代!

作为一个极客,我家里早早安上了能够用APP控制的智能灯、智能窗帘等。刚安上的时候,觉得自己很拽很屌,但没过了多久,就觉得自己挺傻叉的。

早上醒来我要开灯,得经过这么几步:1、迷迷糊糊从床头柜上摸到手机;2、把手机用指纹解锁;3、找到APP;4、点击开灯按钮。

于是,得到了太太的嘲笑。她说还不如直接按床头安的那个物理开关方便。被她嘲笑的同时,我也深深认可她的观点。于是,那个物理开关的使用频次又恢复了。

还有一次,我正在厨房展现刀削面功夫的时候,看着被削下去的一根根面条,就想起了远在山西老家的老母亲。那个时刻,突然想听四兄弟的《离家五百里》,虽然我家里有全套的智能音响,但看看自己沾满面的双手,不忍玷污手机,只好请太太帮忙播放,而且只在厨房的音响播放。

这两个生活中的场景,因为缺少语音交互,所以显得不那么“智能”。理想的状态应该是:早晨醒来时,我只需要说一声“醒来了”,然后灯自动亮起,窗帘自动打开,音乐自动响起……削面时,我只需要说一声“只在厨房播放500Miles”,厨房的音响就会循环播放这首歌……

刘兴亮|厉害了,智能语音时代!

我根据人机交互这个维度,来划分了几个时代:

第一个时代:Click时代(点击时代)。早年间,网虫的另类定义就是“看到下划线就忍不住想去点击的人”。网虫的这个定义可谓是Click时代的最好注脚。

第二个时代:Touch时代(触摸时代)。Touch时代开始的标志,就是2007年乔老爷发布的iPhone。触摸屏幕的出现极大的提高了用户交互的体验,容易上手。

Click时代和Touch时代共同构成了互联网的过去和现在。从另外一个角度说,也可以把Click时代对应于PC互联网时代,把Touch时代对应于移动互联网时代。正是因为用户从Click变成了Touch,从PC转移到了移动终端,互联网行业才发生了那么多的变化。

这是过去和现在,那未来,交互方式又会如何改变,又将进入什么时代呢?

第三个时代:Voice时代(语音时代)。“未来,每一部手机都将能听会说;未来,每一台家电都将能听会说;未来,每一辆汽车都将能听会说;未来,每一个玩具都将能听会说。”这是一个美好的畅想。

语音时代,简单来说,用户只需要用说话的方式给服务终端发布命令,就能得到相应的服务。这一产业从上世纪六十年代就已出现,但并不为普通消费者所熟知,消费者对其认知度也比较低。近年来,随着苹果、亚马逊、谷歌、微软等公司先后推出Siri、Echo等智能语音服务,这一服务以及相关产业也开始被普通消费者和投资界所关注。在中国已发展了20多年的语音技术,也真正进入到普通人的生活,开始了一个前所未有的快速发展阶段。不少中国本土的语音公司迅速崛起,改变了国外公司垄断中国语音技术市场的局面。

目前,在一些特定的情境里,语音交互已经成为主要的方式了,比如汽车里,比如家里。

简单地说,世界是由懒人创造的,人机交互的演进也可以认为是人们越来越懒的演进过程。俗话说得好,“能动口的绝不动手”,就是这个道理。语音最大的优势是,它是人类最自然的交互方式。

我们进一步预测,Voice时代之后,又是什么时代呢?

第四个时代:Motion时代(体感时代)。体感技术,在于人们可以很直接地使用肢体动作,与周边的装置或环境互动,而无需使用任何复杂的控制设备,便可让人们身历其境地与内容做互动。简单说,就是一个手势、一个眼神的事儿。

这种技术目前在游戏领域已经有一定的应用,可让人们得到身临其境的游戏体验。体感游戏将会成为游戏用户的新“宠儿”,它可以不用任何控制器,用肢体动作就可以控制游戏里的玩家,可以让用户更真实的遨游在游戏的海洋中。

总体来说,Click时代和Touch时代共同构成了互联网时代,Voice时代和Motion时代将一起构成互联网时代的下一个时代——智能时代。本文将重点说说Voice时代。

刘兴亮|厉害了,智能语音时代!

说到Voice时代,就必须要提到亚马逊的Echo智能音箱。Echo已经成为Voice时代的一个重大创新,成为智能家庭的一个现象级应用。三星电子、苹果、谷歌等公司都在模仿亚马逊推出类似的产品,日前,英特尔也加入了这一潮流,宣布将开发基于亚马逊语音助手的智能音箱。连英特尔都来凑热闹了,这个领域的火爆可见一斑。

由于Echo尚没有中文版,所以我们没有体会到它的热度,然而在美国,已经成为“一款现象级的革命性产品”。从 2014 年 11 月正式发布到现在,亚马逊的 Echo 智能音箱超过两岁了。在这两年时间里,它从一开始随时可能夭折的“新生儿”,发展成如今市场上最为火热的智能家居产品之一。

根据消费者智能研究机构 CIRP(Consumer Intelligence ResearchPartners)发布的最新报告,截止 2016 年 11 月 21 日,Echo 系列在美国的销量已经达到了 510 万台。其中,从2016 年 4月份以后,Echo 的销量增加了 200 多万台。

在 2016 年 5 月举行的Google I/O 大会上,Google 发布了一款名为Google Home 的设备,从产品的功能和用途来看,Google Home 可以说是 Amazon Echo 的直接竞争对手。前不久,智能音响的鼻祖Sonos也宣布接入了亚马逊的Alexa系统。在中国,京东联合科大讯飞推出了一款与 Echo颇为类似的产品。再加上刚刚公布英特尔,这些都可以看作是对亚马逊 Echo 的致敬和挑战。

虽然被称为“智能音箱”,但是亚马逊的Echo以及市面上一系列模仿产品,其功能远远超出了一个音箱,它可以成为家庭消费者用语音进行上网的一个工具,比如点播歌曲、给电视机点播一个网络视频,或是了解天气预报,它也可以对智能家居设备进行控制,比如打开窗帘、设置冰箱温度、提前让热水器升温等。

这一类的产品,从技术角度看,都是语义理解 大数据分析 主动结果反馈的产品。与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。

语音识别是一门交叉学科,语音识别技术与语音合成技术结合使人们能够甩掉键盘和屏幕,通过语音命令进行操作,语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

语音时代的最大意义在于,真正做到了解放双手。尤其在汽车里、家里这样的场景,意义非凡。解放了双手之后,人类与世界的交互,才第一次实现了随时随地,随心所欲。

当然,语音交互目前还存在很多问题。比如由于空间距离、背景噪音、其他人声干扰、回声、混响等多重复杂因素,进而导致的识别距离近、识别率低等明显痛点。再比如单是中国语系、方言和口音就相当多,加上中文的多语义性,所以不同地区的人使用语音控制识别率差异较大。同时,在语义识别上,也存在上下文的关联带来识别的学习难、定位难和建立模型难等问题。

但是,我一直在强调,技术的障碍永远不是障碍。所以,那么多的巨头前仆后继。

科技让生活更智能,语音让交互更便捷。厉害了,Voice时代,智能语音时代!



推荐 17