首页 >> 女生网

在从事语音技术研发的第12个年头

上一章← 章节目录 →下一章2020.04.04

在从事语音技术研发的第12个年头,周正友又一次感受到理想的磁石吸引。

关于智能时代可能的情景,孔雀开屏似得在眼前展现,在 6岁的工程师心中激起了火花。生活幸福而安定,但是关于语音技术,我们能做的只有这么多吗?在不确定的未来,虽然看不清全貌,但智能两个字已经泛出光亮,对企业来说,放弃语音智能就失去了未来,而向前一步,可能就握住了开启时代的钥匙。

时势造英雄。2015年,当科大讯飞 4人的骨干团队拎着行李箱,吹着北京早春清凉的微风集结在亦庄万源街地铁站A出口,一齐走向京东智能团队所在的朝林大厦时,周围晨练的人纷纷投来好奇的目光。他们可能不会想到,这一刻基本上决定了中国智能音箱市场和生态的发展轨迹。

作为“全球50大最聪明的公司”,科大讯飞智能语音核心技术代表了世界的最高水平;而作为中国线上线下最大的零售企业,京东早已成为中国数码和智能产品最重要的渠道,并率先建立了完整的智能硬件战略。科大讯飞与京东合作,很快推出了“叮咚”智能音箱。目前,叮咚在国内智能音箱市场占比约80%。

走在智能领域的探索之路上,他们很乐于看到同行者。从用户接受鼠标键盘到习惯触摸屏,经历了三十年。同样,由智能音箱掀起的语音交互革命,也需要时间的打磨。

这两年,让他们最有成就感的是,叮咚与用户的关系越来越近,越来越了解他们的需要、喜好和期待。他们提出的问题,希望使用的功能,每天与叮咚的互动,为产品优化提供了根据和方向。用户看到自己想要的功能不断实现,除了感受智能音箱带来的简单和新奇,还体会到了作为设计者的参与感。

近期,关于产品性能、市场与未来,有人叫好也有人非议。作为灵隆研发中心负责人,周正友说,未来还有无限可能,我们就在这条路上踏实地走,还要走得更远。

“你是谁?”—— 南来北往、留鼻血的工程师,掀起语音交互革命

2015年4月24日,由京东与科大讯飞共同出资,北京灵隆科技有限公司成立。

同年6月,第一款叮咚智能音箱发布,实现人机语音交互,及对智能家居的语音控制。

用户小林在自家客厅使用“叮咚”智能音箱

两年后,当新品叮咚TOP在618首发即卖断货,整个团队沉浸在愉快的气氛中时,对周正友这批工程师来说,第一款音箱研发时的情景仿佛就在眼前。

讯飞的队伍刚到北京就和京东智能对接,开始了紧张的工作。来北京不到1周,干燥的北京春天让团队所有人都流鼻血了。当时一个司空见惯的场景是,一个工程师从塞鼻子的纸团中撕下一截,递给眼前鼻血流下来的另一位工程师先塞住,好继续讨论方案。

到产品真正上线时,他们对领导的肯定不“感冒”,而是兴奋地挤到一起看用户交互数据。

从后台数据来看,人机语音互动给用户的生活带来了很多乐趣。比如,开机后很多用户会调侃叮咚,问它 “你是谁?” 此时,叮咚会回答,“我是叮咚智能音箱”。自从增加了自定义问答功能,我们能看到用户编辑的答案五花八门,有的很质朴,比如“我是张狗蛋”、“我是何鲜花”;有的很可爱,比如“我是人见人爱、花见花开的宇宙第一美男子”;有的很有趣:“我是你最好的朋友叮咚,每天监督你完成作业”……

灵隆科技首席科学家汤博记得,在产品设计之初,他们曾为叮咚的角色性格展开激烈讨论,最后通过投票表决,将叮咚定义为“20多岁知性女性”。在用户的生活中,“她”应该是一个知识丰富、文雅得体,温柔又不失严谨的家庭助手,可以帮助用户解决各种问题。

“我们不是一家音箱硬件公司,而是致力于语音智能,将音箱作为智能家居中枢或入口”,汤博表示,叮咚是作为入口级产品,引导用户适应语音的交互方式。

实际上,当我们回顾移动互联网和移动智能设备的发展,最核心的趋势是用户交互方式的演进。80年代中期以后,从传统桌面电脑的鼠标键盘成为用户体验的基准,到 iPhone 为智能手机确立的触摸使用交互准则,其间经历了大约三十多年的漫长进化。

同样,由智能音箱掀起的语音交互革命,也需要时间的打磨。

从技术上讲,早在2002年,谷歌就推出了语音搜索,着手进行语音输入、语义识别和语音文本转换等研究,经过十多年的演进,语音交互已经到达了能够为用户提供准确、易操作、相对成熟的使用交互体验的程度。

数据显示,今年使用语音助手的美国用户超过6050万,其中,千禧一代(目前在25到 4岁)用户超过2990万人,这意味着超过1/ 的该世代人群都在使用语音助手,而到2019年,这一比例将超过44%达到 9 0万。

语音交互实际上把用户从“低头族”中解放了出来。智能家居的理想状态是,通过互联和语音技术,家庭中处处是“入口”,于是在用户的意识中“入口”反而消失了。当你在做瑜伽时有人敲门,你可以不用停下来,直接发出语音指令:“叮咚叮咚,把门打开”;当你忙于工作时感到饥渴,可以直接请叮咚帮忙,“叮咚叮咚,帮我订一份卤肉饭外卖”;语音指令可以应用在生活中任何场景,伴随用户生活中的活动自然而然地发生,而你使用得越频繁,“她”了解你越多,人机交互就越顺畅。

在语音技术领域,科大讯飞是基础研究时间最长、历届评测成绩最好、市场占有率最高的公司,其智能语音核心技术代表了世界的最高水平。2017年6月,入选《麻省理工科技评论》2017 年度“全球 50大最聪明公司”榜单。

然而,做任何领域的探索者,都面临着很多不易。

在第一代叮咚音箱上市前,研发团队曾升级过一个语义识别模型。当时实现技术突破以后,整个团队非常兴奋,按照理论新模型上线后会进一步提高语义识别的准确度。没想到结果竟然是相反的,经过反复检查,发现某行代码的传值出现了问题。从想到方案时的兴致勃勃,到测试效果不好带来的沮丧,到解决问题后又高兴起来。周正友笑言,都说“程序员”枯燥木讷,其实我们心情起伏的状态还是很多的。

   

本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。儿童止咳药用药安全

长春牛皮癣医院哪家好

儿童咳嗽有痰吃什么专用药

宁夏治疗输卵管堵塞方法
引起腹泻的原因
月经后期怎么调理
上一章← 章节目录 →下一章
友情链接