
早在1000多年前成书的《一千零一夜》中,“阿里巴巴的故事所描述的用”芝麻开门“的喊声,使山洞洞门打开的情节,便透露出人类想利用声音识别来实现自己要求的理想。固然在科学技术水平低下的当时,这只能是梦想,但今天由于声纹识别技术的成熟,它已梦想成真。
声纹识别的兴起
随着社会的发展,人际间交往日益扩大、日益复杂,往往要同素不相识的人打交道,甚至相隔千里在看不见对方的情况下打交道。而这些打交道的内容又往往涉及巨额钱财的转移。因此在打交道中,确认对方的身份,是保证这些交往安全的前提。
确认身份的最原始也是使用最为普遍的方法便是使用身份证。然而身份证不仅容易被伪造,而且证件上的照片因人的面貌会随岁月流逝而变得无法作为辨别本人的确切依据。更何况,使用身份证明必须本人到场,在通信发达的今天,人们往往在互不见面的情况下打交道,这时身份证便显得无能为力。特别在因特网迅速发展的今天,我们的工作、生活将越来越多地在因特网上进行。这时将更难确认打交道对方的身份。
因此,为了利用因特网开发各种重要用途,互相确认对方身份确保交往安全,是必不可少的前提。为此,人们进行了大量工作,如建立完善的安全认证系统、开展各种加密算法等等。这些都已取得重大成就,并已在许多地方得到应用。
但这些都耗资巨大,使用起来比较复杂,而且无法保证绝对不被盗窃、假冒。因此人们寻找一种更可靠、更方便的辨认的方法。于是,便开发了各种利用身体上固有特征来确定身份的方法。
声纹识别的优点
人体有许多固有特征,如指纹、虹膜、声纹等均是。不过使用指纹进行身份识别,需要亲自到场,把指纹按下;而使用虹膜进行身份识别,则需要进行更为复杂的眼底检查。使用指纹进行识别,还会使人在精神上觉得反感;而进行眼底检查,不仅费时而且也使人觉得不舒服。更重要的是,无论是指纹识别还是虹膜识别,都必须要识别的人亲自到场。这在网络交往以及前面列举的搜集情报等许多情况下,是无法做到的。
因此,在网络上进行身份识别,只能利用声纹识别。声纹识别时,首先要把各个人的声音模型化,抽出其特征。然后再把所获得的声音模型化并抽出特征。将其同原先建立起来的模型、特征进行比较,以判定是否是某人的声音。
在网络交往中使用声纹识别时,只要在服务器上安上声纹识别软件、客户机上装上拾音器话筒便可。声音传递靠一般电话线就能进行。要识别的人只要像平常说话那样,对着拾音器说话就可以。所以对设备要求不高,识别过程简便,更重要的是不需本人到场。由于它正确率高、优点突出,适于网络上远地交往,正在被广泛采用。
声纹识别的种类
根据公开的资料,声纹识别系统分两类:“语音关卡”1996年便已开发,是最早使用的声音识别系统。它通过软件把电话传来的声音同预先登录的声纹进行对照,根据其是否一致可判断出是否本人。例如在银行开设账户时,用声音作为密码并登录留底,而且只要用名字这样短的词条作为密码通过话筒输入便可完成登录。
这种用声音登录作为密码的方法已在网上银行、电话银行中应用。客户要银行办理业务时,通过网络或电话,把作为密码的声音传给银行。银行使用“语音关卡”技术,1秒钟便可识别输入的声音是否同登录的声纹一致,从而确认是否是客户本人。
“语音观察”1998年投入市场。它同“语音关卡”不一样,不是使用名字这样短的词条作为密码来进行识别,而是通过对自由对话进行比较来确定是否是本人。它不用预先留下密码进行判断,但要录下要识别人的讲话预先存入声音数据库中作为比较的依据。当进行身份识别时,把要识别的人在自由对话中的讲话,抽出其特征同声音数据库中各个人讲话的声音特征(不一定讲的是同样的话)进行比较,便可判断其是否本人。
当然,仅仅为了电子商务,利用更为简单的“语音关卡”便已足够。但“语音观察”更显得自然,而且有更广泛用途。例如,要弄清谁在打匿名电话,或在网络上假冒者是谁,便需用“语音观察”。
“语音观察”所用的讲话样本的讲话时间越长正确率越高。对1分钟的谈话进行判断,正确率高达99%以上。而且它不因谈话者具体情况不同而受影响,也不限制谈话者所用的语言种类。
它不用重复地说固定的“密码”,而是在自然交谈中便完成了身份确认。即使有人用假嗓子,也只是模仿别人声带的动作,通过节奏和语调引起耳朵的错觉。用耳听时也许能以假乱真,但声纹识别是利用本人固有的特征进行判别,因而很难蒙混过关。
甚至双卵双胞胎也能分辨出来。至于单卵双胞胎,其生理特征几乎一样,如果生活在同样的环境下形成同样的习惯,这时用同样的声带说话,其声纹将极其相似,因此很可能区别不出来。但这种情况极少,因为当他们成年时,通常不会过着完全相同的生活。因此即使是单卵双胞胎,通常也能够将其分辨出来。
声纹识别的应用
声纹识别已首先在美国获得应用。用得最多的当然在电子商务领域,主要用于电话银行。这时通常使用“语音关卡”方式,而且通常结合使用ID身份识别号。把它用于电话银行时,在开户时先输入ID号登录在数据库中,再说若干次用作密码的词条,这一词条作为声纹模型也登录在数据库中二者进行对照以判定是否是本人。因此用于认证本人的数据是“ID号+声纹模型”。
完成登录后便可用于电话银行开展业务。客户打开账号后,先输入ID号,ID号正确后便要说作为密码的词条,把它同登录在数据库中的该词条声纹进行对照。如声纹吻合,便认定为本人,便可往下进行业务交往。否则,便中断交易过程。
使用声纹进行认证,各种业务不必到存有客户印章档案的场所进行,非常有利于在网上开展业务。这对于增加网上服务项目,改善网上服务质量都是强有力的手段,所以人们对它抱以极大希望。
随着笔记本计算机普及,外出开展业务的人员往往随身携带便携式机经由网络同位于总部的服务器交换信息。这时网络的安全极为重要,如果密码被窃取,计算机系统便会被非法侵入。为此,人们寻找各种各样的防御对策。通常防范越严密,使用也越不方便。只有声纹识别,既不容易被假冒,操作起来又很容易,堪称是最适宜的网络卫士。
声纹识别同样可用于公司内部的局域网,如涉及财务、交易数据的存取、机密信息的访问以及防止别人使用自己的个人机等,都可以使用声纹识别进行本人身份识别以保证安全。
使用声纹识别技术,还有助于实现呼叫中心的自动化。美国便有这样的呼叫中心。它不仅使工作人员由600人减到30人,还可以缩短用于识别的通话时间。识别时间短了,既提高了服务质量又减少了通信费用,真是一举两得。
声纹认证还可用于进出楼房的管理。这使古老的“芝麻开门”的故事真正变成现实。允许进入的人,只要说出开门的密码,门便自动打开。不允许进入的人,没有登录他的声音密码,无论如何叫唤,门也不会打开。这样,可以大大减轻出入管理警卫人员的工作量。
美国警方还利用“语音观察”方式的声纹识别系统来侦破打匿名电话的人,如进行电话骚扰和用电话敲诈以及绑匪之类的罪犯。
美国监狱里的服刑者常在夜间利用监狱里的电话往外打骚扰电话。以前为了找出骚扰者,在供服刑者使用的电话机上加上指纹和虹膜的模式识别装置,以确定是谁在打电话。但这样装置很快就会被人破坏现在改用声纹识别系统便彻底解决了这一问题。目前,全美国已有800多所监狱使用了这种声纹识别系统。
核武器的动用,关系着战争和和平、千百万人的生死存亡问题,所以核钥匙都由各国最高领导人掌握。就像古代的王杖一样,核钥匙已成为最高权力的象征。为了确保别人无法动用核武器,除了使用一套严密的加密系统外,还使用声纹识别系统加大安全性。只有最高领导人本人亲自发出命令,经核对无误后,核武器才能被动用。