中国安防论坛

 找回密码
 注册
查看: 7168|回复: 0

左手技术,右手需求,但声纹识别依旧当不了“独行侠”

[复制链接]
发表于 2018-11-2 10:15:02 | 显示全部楼层 |阅读模式
  前段时间,OPPO意外上了热搜。5 a! ?2 _4 r% x1 u* O! R$ b. R. w
  因为智能AI语音助手“小欧”的语音唤醒、解锁功能,用户花了5000元买了一部OPPO的手机。这事没让用户感到兴奋,反而有点恐慌。; U! {( w' `2 B/ t( `
  根据指示,在录入声音后,应该只有声音的主人能够语音唤醒、解锁,而现在,在用户已经提前录入声音的前提下,他的朋友竟然也通过语音成功唤醒小欧,并解锁手机。
5 A( q& ]* v8 S) v3 n. s  这其中究竟是哪一步出了问题?- I4 F2 q; ?9 x: ]* I3 {
  答案是,语音识别。, s, {. L: q! K
  说得更准确一点,是手机系统的声纹识别不够准确。! d7 @7 ^) z, M6 T4 F, J$ G
  声纹识别很“低调”,但掩盖不住市场利好
8 ?) O  z, l( _* `  就像这个世界上没有任何两片树叶的纹理是一样的,即使是双胞胎,他们的舌、牙齿、喉头、肺、鼻腔在尺寸和形态等方面多多少少都会有些差异,即便是声音听起来相似,但声纹图谱总归是不同的。& I4 D" q6 e! ^+ g6 F$ G- A' K
  具体说来,声纹识别是生物识别手段的其中一种,跟它属于同一家族的还有指纹识别、人脸识别、虹膜识别等等。在现实生活中,识别技术通常都被用来作为交互或是安全认证的一种手段,声纹识别亦不能免俗。
; e3 O# W% q* C, m  目前,声纹识别技术最大的市场在于安防和金融。其中,最为经典、刺激的当属刑侦。最佳例子来自2017年的热播剧《人民的名义》,针对陈海发生车祸一事,反贪局局长侯亮平与京州公安局局长赵东来在全场进行探讨分析,提到陈海在车祸前共接到两个举报电话,京州公安局将两个电话交由不同技术部门进行了两次鉴定,最终得出结论,两通电话举报人的声音并非蔡成功一人。! y7 P, t- M6 D- X* b& M: \! ]* @
  如何知道声音不是同一个人的?这其中所使用的技术就是声纹识别。更进一步讲,这是1对1的声纹识别技术,通过将电话中的声纹与数据库中蔡成功的声纹特征进行1对1比对。
# S. F! X0 B( ]5 e/ ~; p  而在金融领域,声纹识别技术也被用于用户身份确认等方面,譬如银行系统会要求用户登录时先行说出一段指定文字,从而进行声纹数据的比对,以确认用户是否为本人。可以说,在安防/金融等领域,声纹识别有着先天的落地场景和利好前景。; |6 ~; f! p! o/ Y* X1 }
  安防/金融等应用场景之外,声纹识别也逐步地在智能硬件、智能家居等产品或场景内实现落地。
; q" A  d" C9 z: @  以智能家居场景内的智能音箱为例。最初智能音箱并不具备声纹识别的功能,这也就意味着任何人都可以唤醒它并对其下指令。而当有多人同时发声时,智能音箱就会发生“指令混乱”的问题。如果任何人都可以通过智能音箱进行全场景控制,那么无疑为不法分子提供了作案便利。因此,出于安全性、指令接收准确性、个性化等因素,声纹识别技术也渐渐在智能家居、智能硬件等场景中实现渗透。8 V& k: h$ H& _* X
  目前,在声纹识别技术的应用方面,除了接入安防、金融等行业,诸如长虹等硬件厂商也研发并推出了具备声纹识别功能的智能电视、智能手机等等。2 i5 `+ L# K+ Z$ \. q: L: G
  从近几年的情形可以看出,相比于指纹识别、人脸识别等生物识别技术,声纹识别是“低调”的,但市场需求是的确存在的,且市场热度也有上升趋势。7 i6 O* R  T7 C  c1 O
  相比其他家族成员,声纹识别的成长过程有着许多“拦路虎”
, i3 i# Q2 I% R5 }, J; ^+ j6 C7 I  此前,智研咨询发布《2018-2024年中国声纹识别技术行业市场运营态势及发展前景预测报告》,内容中指出,2017年声纹识别技术的全球收入为1.32亿美元,而这一数值在几年将增至1.59,增速达到20.5%,预计到2021年,声纹识别技术的全球收入将达到2.64亿美元。仅从这一数值来看,声纹识别的市场预期还是不小的。
9 |8 C$ M/ Y- i& W! k- ?5 P& G9 j$ ?) O  但另一方面,这一市场预期又着实有点不够看头。国际权威调研机构Gen Market Insights发布了《全球人脸识别设备市场研究报告2018》,报告称,2017年全球人脸识别设备市场价值为10.7亿美元,到2025年底将达到71.7亿美元,在2018年至2025年期间将以26.8%的速度增长。  ~* C% K9 H: z& H. p1 Q9 m: v
  一边是个位数,一边是十位数,这中间的差距之大十分明显。5 U4 |2 A0 p0 ~# G5 m
  此外,我们再看另外一组对比:! U" }1 c# j5 r
  从易用性、准确率、成本、用户接受度等角度出发,对各项生物识别技术做对比。我们可以直观看到,综合评判上,相比于指纹识别、掌型识别、人脸识别、虹膜识别等生物识别技术,声纹识别在各方面都占据优势。  N# G/ ~+ V6 {. M! p
  那么,我们就疑惑了:市场存在需求,易用性、准确率、成本、用户接受度等方面又比其他生物识别技术更有优势,缘何声纹识别技术的市场占有率远远落后于人脸识别等技术?) z$ o1 @* {8 M# h$ y, V. ~" J2 k
  问题就出在数据的采集和覆盖范围上。, k/ `9 [9 Q' X3 v( v. v
  在本文开始,我们就提到纵然是双胞胎,他们的声纹特征也是有所差异的,不过更为准确地讲,声纹是一种“相对唯一”的生物特征。  X- A) X- Z& Y5 {( _- J7 q
  在实际应用中,声纹识别受影响的因素比较多,首先注册模型上,受限于环境、身体状态等因素,一个人的声音会发生不用的变化;其次在应用中,也会受注册环境跟验证环境不一致造成的失配问题,致使声纹不能匹配;最后,声纹也会随着年龄的变化而变化。另外,虽然声纹可以实现非接触的,但是在入侵方面也增加了更多的风险,比如录音、合成器合成等。: F' S1 U$ ~8 U+ ?6 l) x9 o
  其中针对某些问题,人工智能技术能够给予一定的帮助,比如环境对声纹收集和比对的影响。一般情况下,在语料覆盖率足够完整的前提下,将之用于模型的搭建和训练,在最终实际应用场景中,即使面对嘈杂的环境,系统在提取声纹特征时便会将这些因素“去掉”,从而确保声纹特征的精准。
" F) \% y  w9 c5 M  什么是语料?是指一个人的声纹数据。
3 U( H3 g( [9 R! Q  不过,用极限元创始人兼CEO温正棋的话来说,面对环境失配问题,现在更多的是通过语料的覆盖率来解决。在其看来,技术的成熟度极大程度上也是依赖语料的积累度。
+ m8 u- a5 a: Y1 X( E& z/ A) {  语料积累的全面与完整,这涉及到背后的声纹数据库是否全面覆盖了不用环境、不同状态等场景下的声纹特征。对于一般企业而言,这是一个极具难度的工作。
9 q$ F3 y5 S6 h1 X  语料的完整与否影响了模型训练的精确度,也影响了声纹识别技术在实验室之外的商业化落地,尤其是面对1对N的“说话人辨认”的情况,相对于1对1的“说话人确认”,“说话人辨认”会要求系统通过声纹识别技术在多个人中找出一个人,这对系统的语料完整度、声纹特征提取的准确度等多个方面提出了要求。
% Z; o' @# b0 J$ S* F  未来,声纹识别当不了“独行侠”
, |0 |) I* t" J. X  现如今,以智能手机为例,各大手机生产商、应用开发商更乐意采用人脸识别技术来用于认证解锁、认证支付。而在机场、高铁等场地,人脸识别检票等设备也应较为常见。6 V) g# I5 g& E7 l" V
  在这些场景中,人脸识别技术被作为安全认证技术独立使用。那么,同样是安全认证技术,声纹识别有没有机会来当一回“独行侠”?4 D* a5 ~- D+ N2 v9 s4 B$ |
  严格说来,声纹识别当“独行侠”的机会很少,微乎其微。只有在相对局限的场景中,譬如相对外来因素影响较小的家居环境等等,用户只需要提前录入自己多种状态的声纹并实时更新,系统将能够独立提供服务。
+ e2 N$ W3 g: n" b9 B  至于其他较为复杂的环境,现在的声纹识别很多都是与语音识别和人脸识别等结合,譬如用户读出一段指定文字,以登录银行账户等,安全指数更高。也因此,从大趋势来讲,声纹识别当不了“独行侠”。
) Y1 x9 @6 j. `0 C4 R6 \. p
8 Q# L0 U4 z) O" n! J6 n
您需要登录后才可以回帖 登录 | 注册

本版积分规则

安豆网|Archiver|手机版|中国安防论坛 ( 粤ICP备09063021号 )

GMT+8, 2025-8-16 01:03 , Processed in 0.147597 second(s), 19 queries .

Powered by Discuz! X3.4 Licensed

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表