专业性
责任心
高效率
科学性
全面性
过去几年有不少人工智能领域独角兽企业崛起,比如视觉识别领域的商汤科技和旷视科技,语音识别领域的云知声等。但在声纹识别领域,还没有明显一些公司可以算是一马当先。
这背后的原因在于,视觉识别和语音识别所解决的往往是一种有关共性的问题,以语音识别为例,它所要做的只是将说话人的语音内容识别出来。然而声纹识别除了要识别文本内容之外,可能还要涉及到识别说话人的身份等方面,多种因素的叠加使得这项技术的落地有更多的难度。
不过,随着技术的逐步完善,已经有一些初创企业开始推出了相应的技术解决方案,并且开始在各个细分行业中落地。
成立于2016年的声扬科技是声纹识别这个赛道中的一家初创企业。公司创始人兼CEO李亚桐认为,从最近整个行业展现出的状况来看,声纹识别的发展程度已经类似2014年前后的视觉识别,正处于一个早期阶段,并且等待着爆发期的来临。
“目前市面上,以语音识别、转写为主打方向的SaaS服务提供商已经有很多;鉴于声纹识别的技术难度要更为复杂,这个领域应该还在刚起步阶段,但随着应用场景的越来越多,它很快会迎来爆发。”李亚桐对界面新闻媒体分析称。
他认为,相比于人脸识别和指纹识别,声纹的采集只需要麦克风模块,成本相比于摄像头或者指纹识别模块而言要低,采集的方便性和安全性则要高,因此这项技术有着比较明确的市场前景。
在国内,有助于声纹识别落地的行业政策已经出台。2018年11月,中国人民银行正式对外发布《移动金融基于声纹识别的安全应用技术规范》金融行业标准,这意味着声纹识别技术得到金融监管部门的认可,也为声纹识别技术进入移动金融领域解决了标准难题。
此前,声扬科技也已经在海外的金融相关业务落地。2018年,它们在印尼为当地的养老基金项目打造了一套声纹识别系统,让当地居民通过阅读特定文本的方式来通过验证,申领养老金。
以往,当地居民申领养老金需要在线下的银行机构等排队等候,这一方式的不便之处在于,既占用了居民的生活时间,也导致机构需要投入额外的人力来进行信息验证。目前,声扬科技的方案已经覆盖了当地250万名居民。
在打造技术方案的过程中,声扬科技的技术团队不可避免地会遇到语音方面的一些复杂问题。比如说,作为一个多民族国家,印尼国内居民口音的多样性,以及文化水平的差异性,都会使得用户在读出同一段文字时有不同的效果。另外,当地居民在采集声纹时使用的不同设备,如智能机和功能机,也都会影响到声音的真实性。
为了解决这个问题,声扬科技在复杂的场景下,基于自身的神经网络技术做了很多用户测试;除此之外,养老基金的识别系统除了声纹识别外,还有指纹识别和人脸识别模块,三种方式之中的两种通过了,验证才算正式完成。
目前,声扬科技的方案已经服务了印尼当地250万名居民,并做到了99.5%以上的准确率。如今在国内,声扬科技也已经和一些金融机构达成了合作。
“人行的规范出来之后,需求也相应起来了。”李亚桐表示,除了金融领域之外,机器人、车载、安放等领域,之后也都是声纹识别首要的几个的落地场景。
除了声纹识别的技术方案之外,声扬科技也在发展自己的语音识别方案,比如语音转文字等。公司首席科学家张伟彬对界面新闻媒体表示,单一的技术储备很容易带来技术方案的不完整性,有的场景可能需要几种技术一起结合;因此在语音识别方面进行布局,也是构建技术壁垒的必要举措。
就在最近,声扬科技也完成了香港X科技基金领投的Pre-A轮融资。在AI企业逐渐成为投资风口的大背景下,李亚桐认为,资本的活跃能够加速技术的落地,并且为AI应用带来更多的新变革。
“现在还只是一个弱人工智能时代,长远来看,AI需要和行业以及场景结合,提升效率;可以说,有多少行业就需要多少个方向的AI,这个领域无疑需要更多资本的进入。”张伟彬说。相比于行业格局已经趋向稳定的语音识别和视觉识别而言,声纹识别确实是一个潜力有待挖掘的赛道。