灵云远场语音识别服务智能家居、车载
- 发布时间:2015-12-16 12:10:09 来源:光明网 责任编辑:书海
最近一段时间,捷通华声旋风般相继推出灵云远场语音识别、语音唤醒、声源定向等关键技术,在引起产业界广泛关注的同时,16日正式宣布推出面向智能终端的完整灵云远场语音交互解决方案,该套方案完美整合了国内最新远场语音识别、语音唤醒、声源定向、降噪、回声消除、端点检测等更多项技术,为智能车载、智能家居、家电、机器人全面应用语音识别、语音合成等智能语音交互技术开辟了全新的方向。
灵云远场语音识别解决方案的推出,彻底打破了各种设备应用自然语音交互技术的产业瓶颈,让每个人都能实现通过自然语音轻松控制车载、家居、家电等各种设备的科幻梦想,为全面提升我国车载、家居、家电、机器人等设备智能化水平,让中国亿万大众率先进入智能化生活时代奠定了坚实的基础。
灵云远场语音交互只用语音就够了
很长一段时间以来,科大讯飞、NUANCE等语音技术公司都在努力开拓智能硬件市场,但智能硬件产品在很多场景下因语音交互体验不如人意而不能满足市场的需求,究其原因主要是受限于背景噪音、回声、混响等多重复杂因素,进而造成必须要近距离识别而且识别率低等明显痛点,成为语音识别技术在各种终端设备应用中一直无法突破的瓶颈。
捷通华声顺应产业强烈需求,凭借多年潜心研究所积累,与车载、家电、机器人等厂商持续合作,在清华大学的支持下,终于推出了完美整合语音唤醒、声源定向、降噪、回声消除、端点检测、智能语音交互等先进技术在内的灵云远场语音交互解决方案,该套解决方案为国内最全、最完整的智能语音交互解决方案,必将极大促进智能语音交互技术在真实生活场景中的应用。
家电等智能终端首先需要由语音唤醒来“叫醒”,才能进一步交互,没有被“叫醒”功能的终端将无法继续使用语音交互来控制。当设备被叫醒后,通过声源定向技术,在目标说话人方向形成拾音波束,让麦克风始终指向目标说话人,减少外界噪音的录入。接下来对获取到的声音进行降噪及回声消除处理,使获取到的声音更纯净,当说话人停止说话时,通过端点检测技术,监测到语音尾部,后续灵云远场语音识别能力将显示它巨大的威力,可以想象,基于灵云远场语音识别的远距离、高识别率支撑,现在用户在以家庭为单位的活动范围内,几乎可以通过语音轻松操控家里的一切智能硬件设备,推而广之,搭载远场识别的智能硬件产品将无限扩大适用范围和应用场景。同时,灵云远场语音交互解决方案得到灵云内容平台的全面支持,为智能终端增添了天气咨询、日历查询、列车查询、航班查询、餐馆位置查询、电话拨打、电话号码寻找、短信收发、音乐及视频播放控制、导航、车载指令等30余种内容的支持,更进一步改变了智能终端语音交互仅能“发号施令”的弊端。
例如,在智能家居中,利用灵云语音唤醒能力可以唤醒电视、冰箱、洗衣机、空调等智能家居设备,再实现语音交互功能。当电视处于待机状态时,讲一声“小灵,启动电视”,电视将立即启动并播放节目,此时,电视的声音会导致有回声出现,而有了灵云回声消除技术,将会把电视声音过滤,仅保留目标说话人声音,只要再讲一声“我想看中央一台”,电视将自动切换到中央一台。
在智能车载领域,灵云远场语音交互技术可以为车载终端控制、车辆控制等服务。在路上行驶时,无论是汽车行驶过程中产生的胎噪还是外界噪音都非常大的,而灵云降噪技术通过对车辆信息的深度了解,及外界环境噪音的处理,能够准确的识别司机或乘客的语音命令。由于新手司机上路越来越多,雨天及夜晚等特殊情况开车时,会因为大灯、雨刮器等功能性设备打开与关闭导致手忙脚乱,甚至会导致错把油门当刹车、刹车当油门的事件发生。而灵云远场语音交互技术的运用,不但可以控制车载,还可以控制车上各种设备。在夜间开车时,可以直接说“小灵,打开/关闭远光”来控制车灯,也可以说“小灵,播放音乐”来缓解驾驶疲劳,让语音技术随时服务于行车的整个过程。
在机器人领域,人们会站在各个角度与机器人对话,此时灵云声源定向将引导机器人转向说话人所在位置,再通过灵云人脸寻找技术来确定说话人,当说话人一句话说完后,灵云端点检测技术将确定一段语音结束,并将语音传给灵云远场语音识别确定命令或进行交互。
随着智能硬件的普及,灵云远场语音交互解决方案更是大放异彩。智能硬件使用场景一般都是环境嘈杂,距离忽远忽近,而且大部分时间智能硬件将以低功耗的状态运行,等待语音唤醒。在种情况下,语音唤醒、降噪、远场识别等技术的应用,能有效的让智能硬件“听清”语音,从而执行指令或回答问话。
2014年,为让国内智能车载、智能家居等智能终端厂商与集成商、开发商更方便地使用灵云平台(hcicloud.com)全方位人工智能能力,捷通华声特别推出了企业级开发者专用的智能终端交互方案:灵云种子。灵云种子强化了灵云全方位人工智能平台各项人工智能技术的融合,包括灵云语音识别、语音合成、语义理解、声纹识别、人脸识别、指纹识别等全方位人工智能交互能力,并提供简单易用的开发接口,供智能家居、车载等各类智能终端进行集成调用,实现人与终端设备多种方式的自由沟通和控制。企业级开发商通过应用灵云种子,可以轻松实现智能语音交互、智能语音导航、智能语音控制、声纹解锁、手写输入、智能图像识别、安全身份认证等多种人机交互功能,满足智能家居、智能车载、智能家电、机器人及可穿戴式设备等各个行业对人工智能技术应用大量且多方位的需求。
据悉,灵云远场语音交互已经应用在灵云种子中,灵云平台还将陆续推出更多能力,为各行各业智能终端不断提供新的技术,推动中国智能终端产业将进入一个全新的、真智能的时代!
灵云平台服务智能终端合作共赢
灵云平台(hcicloud.com)是捷通华声于2011年推出的首个全方位人工智能开放平台。为推动人工智能产业的广泛应用,灵云平台自推出以来一直面向产业全面开放,包括个人开发者在内的合作伙伴,都可以通过灵云平台获取智能语音、智能图像、智能语义、生物特征等技术能力。
捷通华声为更好服务智能终端各领域合作伙伴,在全国各地建立分公司与办事处,尤其在中国华南的广州、深圳地区经济发达、创新力强,在智能车载、智能家居、机器人、穿戴式设备研发与创新上拥有独特优势。为了向华南地区广大合作伙伴提供更加直接的支持与帮助,捷通华声2015年在深圳、厦门等地成立了分公司,旨在依托灵云平台,利用灵云平台智能语音、智能图像、语义理解等全方位人工智能技术能力和丰富完善的智能终端交互解决方案,与华南地区智能车载、智能家居等智能终端厂商加强合作关系,发挥华南地区智能终端设备研发和生产的优势,期望通过与各领域合作伙伴的精诚合作,互惠共赢,共同推动中国智能终端产业的发展进步!
未来发展,捷通华声将继续以清华大学人工智能研究力量为依托,更加专注智能语音等人工智能技术研究与产业化的推广与应用,与合作伙伴精诚合作,共同创建良好的人工智能产业生态,共同推动中国人工智能产业的发展进步,为中国人工智能产业的发展做出应有的贡献!