亞馬遜最近給它的Echo音箱帶來了功能升級,最多已經能識別10個人的聲音。這個新特性得以實現的背后技術,叫作聲紋識別。
跟指紋、虹膜等生物識別手段類似,聲紋是從一個人的語音片段中提取出獨特且有規律的特征數據,將來再聽到這個人說話時能快速識別出來。聲紋識別最常見的應用是個人隱私防護,比如微信就內置了“聲音鎖”功能,用來保護用戶賬戶不被竊取。而在智能音箱這種多人使用的家庭產品上,聲紋識別的用途更多。
如果一款智能音箱能分辨出家庭成員所下達的語音指令,就能提供更有針對性的回應和服務。最直接的潛在使用場景是推薦音樂。亞馬遜Alexa支持聲紋識別之后,Echo音箱應該很快就能基于“用戶是誰”推薦符合其偏好的歌曲。
這樣一來,也避免了多個人共用一個收藏夾,或者手動建多個收藏夾的麻煩。除了推薦音樂,基于聲紋識別的個人日程管理、在線購物/支付等功能也可以進一步提升使用體驗。而在國內,最早號稱做出了聲紋識別功能的是阿里的天貓精靈。通過語音購物或者充話費時,天貓精靈會對說話者進行身份驗證。驗證方式是讓使用者說出“天貓精靈”+四個隨機數字。這種方案在技術實現上比較簡單。因為在同一語種下,0-9十個數字的聲學特征很容易找到規律。
再加上固定的喚醒詞,天貓精靈的聲紋識別理論上可以做到比較理想的識別準確率。然而,這種方案也嚴重影響了使用體驗。最高明的聲紋識別,是不需要專門設置環節來驗證身份的。國內的其它智能音箱產品,比如叮咚音箱、若琪Rokid、問問音箱等也都在攻克聲紋識別的技術難關。但從整體來看,想讓智能音箱被更多人接受,缺少的可能不只是聲紋識別這一個功能特性。
|