搜狗推出唇语识别技术,不过落地还需时间业界
从键盘打字到触控屏,再到现在的语音交互和手势交互,人工智能技术的发展,正在促使人机交互方式向更加多元化方向变革。
当前市场上渐渐出现一种新的人机交互新技术——唇语识别。与语音识别不同,唇语识别是基于机器视觉与自然语言处理于一体的技术,不用听声音,仅靠机器视觉识别说话人唇部动作,就能解读说话者所说的内容,因此在研发难度上也比语音识别大得多。
就在刚刚过去的第四届乌镇互联网大会上,一直专注搜索的搜狗竟然也亮相了唇语识别这一黑金沙手机网投老品牌值得信赖 。12月14日,搜狗在北京举行了媒体沟通会,公开演示了唇语识别这项新技术,包括背后的技术原理、研发动因以及未来的场景应用。
搜狗语音交互中心技术总监陈伟向钛媒体介绍,得益于搜狗自然语言处理方面的强大优势,搜狗首创了复杂端到端深度神经网络技术进行中文唇语序列建模,通过数千小时的真实唇语数据训练,建立了10万词以上的词汇表,取得不错的识别效果。
具体而言,搜狗通过摄像头从图像中连续识别出人的唇形,提取说话人连续的口型变化特征,然后将这些唇语特征放入唇语识别模型进行解码,从唇语文本数据到唇语语言模型进一步获取发音单元,最终输出文字。
目前,搜狗在非特定人开放口语测试集上,即搜狗唇语识别系统的通用识别的准确率在60%以上,超过google发布的英文唇语系统50%以上的准确率;而在垂直场景下,如车载、智能家居等场景下已经达到90%的准确率。
其实唇语识别并不神秘。早在2003年,英特尔公司就曾推出一款名叫视听说识别系统的软件,电脑开发者可以在此基础上研制读懂“唇语”的计算机;而国外技术最纯熟的谷歌,其DeepMind团队在2016年使用BBC新闻视频,对AI系统进行训练,视频总长超过5000小时,然后以当年3月到9月的视频节目进行测试,唇语识别正确率达到了46.8%。
这个正确率虽然不算高,但实际上正常人的唇语识别能力也只在10%左右,一些受过训练的唇语专家则可以达到40%左右。可以想见,唇语识别技术的壁垒之高。
在国内,BAT这些互联网巨头虽未涉足这一领域,但也有一些创新公司在唇语识别技术方面取得了突破。
今年3月,国内专注于大数据可视化的海云数据也试水唇语识别,发布了其与重庆市公安科研所共同研发的唇语识别技术成果。在研发阶段,海云训练了1万小时新闻类节目,来判断嘴型的准确度和语言的准确性。有报道称,海云数据的唇语识别技术在中文识别率已高达71%,英文识别率达到80%。
但陈伟也强调,唇语识别最大的难点在于泛化性。之所以这一技术尚未得到普及,很大程度上是识别率不能做到像语音识别那样高,做不到普适性,应用的意义也就不大。
从谷歌唇语识别系统训练来看,测试集与训练集其实是同源的,都来自广播电视新闻,而众所周知这些播音主持人在发音、吐字、唇形变化等方面都比普通人要标准,如果将测试选择在普通人时,识别率应该会更低。
搜狗为了突破唇语识别的泛化性,一方面通过各类新闻、电视节目的数据进行训练,另一方面通过搜集大量普通人的唇语数据进行训练,提升了唇语识别的泛化效果。另外,具体到车载、智能家居场景时,搜狗团队又通过限定场景、限定语句等形式,对唇语识别准确性做了进一步优化。
因此,在未来场景落地上,搜狗唇语团队将关注两方面,一方面可以和语音识别技术相结合解决远场环境下的语音问题,另一方面唇语识别作为人机交互的形式之一,辅助语音交互及图像识别,在日常生活、安防、公益等各个领域实现广泛应用。
车载场景下,周围噪音过大时会对语音指令产生干扰,通过唇语识别技术则可以规避干扰,保证人车交互的准确性和稳定性,日常不便发声的公共场所也可以保证说话内容的私密性。
在安防领域,由于目前多数监控只有摄像头没有麦克风,往往只能看清嘴型却不知道在说什么,给案情分析带来很多难题,而唇语识别技术可以帮助公安人员获取重要的讲话信息,为公共安全提供有效支持。
在公益事业领域,唇语识别技术还能发挥巨大价值,帮助先天性听障人群或老年人,让他们更好地理解和表达自己。
时至今日,人工智能的发展速度已经完全超出了我们的想象,那些电影里的炫酷黑金沙手机网投老品牌值得信赖 正在一步步成为现实出现在我们的生活中。随着AI技术的发展,相信在不远的将来,唇语识别也能像语音识别、图像识别一样成为我们生活中随处可见的一部分。
(来源:钛媒体 作者:张叶)
1.金沙手机网投app 遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.金沙手机网投app 的原创文章,请转载时务必注明文章作者和"来源:金沙手机网投app ",不尊重原创的行为金沙手机网投app 或将追究责任;3.作者投稿可能会经金沙手机网投app 编辑修改或补充。