TWI706268B

TWI706268B - 身份認證方法和裝置

Info

Publication number: TWI706268B
Application number: TW106108380A
Authority: TW
Inventors: 李鵬; 孫逸鵬; 謝永祥; 李亮
Original assignee: 香港商阿里巴巴集團服務有限公司
Priority date: 2016-05-19
Filing date: 2017-03-14
Publication date: 2020-10-01
Also published as: EP3460697A1; TW201741921A; AU2017266971B2; RU2018144787A; CA3024565A1; WO2017198014A1; AU2017266971A1; SG11201810131VA; JP2021182420A; RU2018144787A3; ZA201807860B; BR112018073635A2; US10789343B2; JP7109634B2; CA3024565C; RU2738325C2; JP2019522840A; US20190102531A1; CN107404381A; EP3460697A4

Abstract

本發明提供一種身份認證方法和裝置，其中，該方法包括：獲取採集到之從待認證的目標物件所產生的音視頻流，判斷音視頻流中的唇語和語音是否滿足一致性，若滿足一致性，則將對音視頻流中的音頻流進行語音識別得到的語音內容，用作為目標物件的物件標識；若預儲存的物件註冊資訊中包括物件標識，在物件註冊資訊中獲取物件標識對應的模板生理特徵；對音視頻流進行生理識別，得到目標物件的生理特徵；將目標物件的生理特徵與模板生理特徵比對，得到比對結果，若比對結果滿足認證條件，則確認目標物件通過認證。本發明提高了身份認證的效率和可靠性。

Description

身份認證方法和裝置

本發明係有關網路技術，特別有關一種身份認證方法和裝置。

互聯網技術的發展使得人們對網路的使用越發廣泛，例如，可以透過郵箱來收發郵件，網路購物，甚至網上辦公等，部分應用要求較高的安全性，需要對用戶的身份進行驗證，比如，在網路購物時用戶需要驗證身份才能付款，或者在登錄某個安全性要求較高的應用時，當用戶通過身份驗證後才允許登錄。相關技術中，用於互聯網的身份認證方式也有多種，例如，人臉識別、聲紋識別等，但是通常使用的認證方式的操作比較繁瑣，比如，用戶需要輸入自己的標識ID再驗證聲紋；並且，現有的認證方式的可靠性較低，比如，攻擊者可以透過類比的視頻或錄影通過人臉識別，即使結合人臉和聲紋等至少一者認證方式來進行驗證，各個認證方式之間比較獨立，攻擊者可以各個攻破。身份認證方式的上述缺陷對應用的安全性造成了風險。

有鑒於此，本發明提供一種身份認證方法和裝置，以提高身份認證的效率和可靠性。

具體地，本發明是透過如下技術方案來實現的：

第一態樣，提供一種身份認證方法，所述方法包括：獲取採集到的音視頻流，所述音視頻流從待認證的目標物件所產生；判斷所述音視頻流中的唇語和語音是否滿足一致性，若滿足一致性，則將對所述音視頻流中的音頻流進行語音識別得到的語音內容，用作為所述目標物件的物件標識；若預儲存的物件註冊資訊中包括所述物件標識，在所述物件註冊資訊中獲取所述物件標識對應的模板生理特徵；對所述音視頻流進行生理識別，得到所述目標物件的生理特徵；將所述目標物件的生理特徵與模板生理特徵比對，得到比對結果，若所述比對結果滿足認證條件，則確認所述目標物件通過認證。

第二態樣，提供一種身份認證裝置，所述裝置包括：資訊獲取模組，用以獲取採集到的音視頻流，所述音視頻流從待認證的目標物件所產生；標識確定模組，用以判斷所述音視頻流中的唇語和語音是否滿足一致性，若滿足一致性，則將對所述音視頻流中的音頻流進行語音識別得到的語音內容，用作為所述目標物件的物件標識；資訊管理模組，用於若預儲存的物件註冊資訊中包括所述物件標識，在所述物件註冊資訊中獲取所述物件標識對應的模板生理特徵；特徵識別模組，用以對所述音視頻流進行生理識別，得到所述目標物件的生理特徵；認證處理模組，用以將所述目標物件的生理特徵與模板生理特徵比對，得到比對結果，若所述比對結果滿足認證條件，則確認目標物件通過認證。

本發明提供的身份認證方法和裝置，透過根據用戶在認證時的音視頻流識別得到用戶標識，並且還可以透過該同一個音視頻流來校驗人臉特徵和聲紋特徵，這種方式簡化了用戶操作，提高了認證效率，並且也保持了1：1的認證方式，確保了識別的精度；此外，該方法還透過唇語和語音的一致性判斷確保了目標物件是活體，防止了攻擊者偽造的視頻錄影，提高了認證的安全性和可靠性。

61:資訊獲取模組

62:標識確定模組

63:資訊管理模組

64:特徵識別模組

65:認證處理模組

621:字元識別子模組

622:一致判斷子模組

641:聲紋識別子模組

642:人臉識別子模組

圖1是本發明一示例性實施例示出的一種身份註冊流程；圖2是本發明一示例性實施例示出的一種唇語和語音一致性判斷流程；圖3是本發明一示例性實施例示出的一種人臉特徵識別的流程；圖4是本發明一示例性實施例示出的一種聲紋特徵識別的流程；圖5是本發明一示例性實施例示出的一種身份認證流程；圖6是本發明一示例性實施例示出的一種身份認證裝置的結構圖；圖7是本發明一示例性實施例示出的一種身份認證裝置的結構圖。

這裏將詳細地對示例性實施例進行說明，其示例係表示在附圖中。下面的描述有關附圖時，除非另有表示，不同附圖中的相同數字表示相同或相似的元件。以下示例性實施例中所描述的實施模式並不代表與本發明相一致的所有實施模式。相反地，它們僅是與如所附申請專利範圍中所詳述的、本發明的一些態樣相一致的裝置和方法的例子。

本發明實施例提供的身份認證方法，可以應用於互聯網身份認證，例如，在登錄一個網路應用時，經過該方法的身份認證才允許登錄，以此確保應用使用的安全性。

如下以登錄一個具有較高安全性要求的應用為例，假設該應用可以運行在用戶的智慧設備，例如，智慧手機、智慧平板等設備。當用戶要在自己的智慧設備上登錄該應用時，可以透過該智慧設備上的相機和麥克風採集音視頻流，比如，用戶可以對著自己手機的相機和麥克風讀出自己的應用ID，該應用ID可以是用戶在該應用註冊的帳號“123456”，當用戶朗讀完畢，手機可以採集到用戶的音視頻流，包括用戶的視頻影像和朗讀的語音。

本發明實施例的身份認證方法，可以基於該採集到的音視頻流來進行處理，在進行認證之前，用戶還需要進行身份註冊流程，後續根據註冊的資訊來進行身份認證，註冊流程也是基於如上述的採集音視頻流。如下將分別描述身份註冊流程和身份認證流程，此外，該身份註冊或認證的處理，本實施例不限制實際應用時的執行設備，比如，智慧手機採集到用戶的音視頻流後，可以將音視頻流傳輸至應用後端的伺服器處理，或者一部分處理在智慧手機的用戶端側，另一部分處理在伺服器側，或者還可以採用其他方式。

身份註冊

本實施例的方法中，用戶在進行身份註冊時，可以包括兩類資訊，其中，一類資訊是：物件標識，例如，以用戶登錄某應用的例子，該用戶可以稱為目標物件，當用戶在該應用註冊時，該用戶在應用中用於與其他用戶區分的資訊即為物件標識，比如可以是用戶在應用的帳號123456，該帳號123456即為目標物件的物件標識。另一類資訊是能夠唯一標識用戶的生理性資訊，比如，用戶的聲紋特徵，或者用戶的人臉特徵等，通常不同人的聲紋和人臉是不同的，可以將標識各個用戶的生理性資訊稱為模板生理特徵。

將上述的物件標識和模板生理特徵這兩類資訊建立對應關係，並進行儲存，可以將對應儲存的目標物件的物件標識和模板生理特徵，稱為“物件註冊資訊”。例如，用戶小張可以儲存其物件註冊資訊為“123456──模板生理特徵A”，其中，為了更準確地標識用戶，本例子採用的模板生理特徵中包括的生理性資訊的類型可以為至少兩種，比如，人臉和聲紋。

圖1示例了一個例子中的身份註冊流程，包括如下處理：

在步驟101中，獲取目標物件的待註冊音視頻流。

例如，以一個用戶註冊某應用為例，用戶可以對著自己的智慧設備如手機讀出自己在應用的帳號“123456”。本例子中，可以將正在註冊的用戶稱為目標物件，智慧設備的相機和麥克風可以採集到該用戶朗讀時的音視頻流，可以將註冊時採集的該音視頻流稱為待註冊音視頻流，其包括音頻流和視頻流，音頻流即為用戶朗讀的語音，視頻流即為用戶朗讀時的視頻影像。

在獲取到本步驟的音視頻流後，如果要完成用戶的註冊，可以執行三個態樣的處理，請繼續參見圖1：一個態樣的處理是，在步驟102中，判斷待註冊音視頻流中的唇語和語音是否滿足一致性。

這裏的一致性指的是，唇部的運動和語音所表示的運動能否對應，比如，假設一個語音是“今天的天氣晴朗”，該語音是緩緩慢速的朗讀，語速較慢，而一個唇部運動是快速朗讀“今天的天氣晴朗”所使用的運動，顯然這兩個是對不上的，當唇部運動已經停止(內容已經讀完)時，語音卻還在繼續(....天氣晴朗)。這種情況可能出現在，比如，當攻擊者要設法通過用戶ID和人臉檢測時，可以透過一個該用戶(被攻擊的用戶)以前的視頻錄影來攻擊人臉檢測，並且攻擊者自己讀用戶ID來攻擊對語音內容ID的識別，如果這樣分別攻擊，有可能通過認證，但是通常在這種攻擊方式中，唇語和語音是不一致的，可以透過一致性判斷而識別出並不是本人在朗讀。

如步驟102所示，如果判斷結果為待註冊音視頻流中的唇語和語音不滿足一致性，可以提示用戶註冊失敗，或者如圖1所示，轉至步驟101重新採集音視頻流，以防處理失誤。

否則，如果判斷結果為兩者滿足一致性，則可以執行步驟103，將根據採集的音視頻流中的音頻流進行語音識別得到的語音內容，用作為目標物件的物件標識。語音識別即使用電腦技術來自動識別人所說語音的內容，亦即由語音到內容的識別過程。比如，對於待註冊用戶朗讀“123456”的音頻進行語音識別後，得到該音頻流中的語音內容即為“123456”，可以將識別得到的內容用作為用戶的標識，亦即用戶ID。

上述的對音頻流進行語音識別，可以是在確定唇語和語音滿足一致性後，對語音的音頻流識別得到物件標識；或者，還可以是在判斷唇語和語音是否滿足一致性的過程中，對音頻流識別得到物件標識。

另一個態樣的處理是，對待註冊音視頻流進行生理識別，得到所述待註冊音視頻流的模板生理特徵。在本例中，生理特徵係以人臉特徵和聲紋特徵為例，但不局限於這兩種特徵，只要是能夠唯一標識用戶、能夠區分不同用戶的生理性特徵都可以。在本態樣中，參見步驟104所示，可以對待註冊音視頻流中的音頻流進行聲紋識別，得到目標物件的聲紋特徵。

再一個態樣的處理是，對待註冊音視頻流中的視頻流進行人臉檢測，得到目標物件的人臉特徵。

在該註冊流程中，可以將上述檢測得到的人臉特徵稱為模板人臉特徵，用作為後續認證過程中的標準，同樣地，將檢測得到的聲紋特徵稱為模板聲紋特徵，而模板聲紋特徵和模板人臉特徵可以統稱為模板生理特徵。

本實施例還將模板生理特徵和目標物件的物件標識，稱為物件註冊資訊，在確定物件註冊資訊中的資料完整後，在步驟106中，將目標物件的物件標識及對應的模板生理特徵，用作為物件註冊資訊儲存入資料庫中。

此外，在圖1所示的三個態樣的處理中，這三個態樣的執行順序不做限制，比如，在步驟101獲取到待註冊音視頻流後，可以並列執行上述三態樣處理，如果唇語和語音不一致，可以將識別的聲紋特徵和人臉特徵不儲存；或者，也可以先執行唇語和語音一致性的判斷，在通過一致性確定後，再執行聲紋特徵和人臉特徵的檢測識別。

圖2示例了圖1中的唇語和語音一致性判斷的流程，可以包括：

在步驟201中，根據待註冊音視頻流中的音頻流，進行端點檢測。本步驟可以從連續的音頻流中檢測出這段音頻流的起始時間和終止時間。

在步驟202中，根據音頻流進行連續語音特徵提取，所述特徵包括但不限於MFCC特徵、LPCC特徵。本步驟提取的特徵可以用於語音識別。

在步驟203中，識別音頻流中的語音單字元及對應時間點。本步驟中，可以根據步驟202中提取的語音特徵而識別出音頻流中的各個單字元，並且確定其對應的出現和消失的時間點。所述語音識別的方法，包括但不限於隱馬爾可夫模型(Hidden Markov Mode,HMM)、深度神經網路(Deep Neural Networ,DNN)和長短時記憶模型(Long Short Time Model,LSTM)等方法。

在步驟204中，根據待註冊音視頻流中的視頻流而檢測唇部所在的位置。本步驟可以從視頻影像中檢測出唇部所在位置。

在步驟205中，對檢測出的唇部影像的品質進行判斷，例如，可以判斷唇部位置的清晰度和曝光度等參數，若清晰度不夠或者曝光度過高，則判斷為品質不合格，可以返回重新採集待註冊音視頻流。若品質合格則繼續執行步驟206，繼續進行唇語識別。

在步驟206中，進行唇部連續特徵提取，本步驟可以從連續的唇部影像中提取特徵，所述特徵包括但不限於裸像素、或者LBP、Gabor、SIFT、Surf等局部影像描述子。

在步驟207中，識別視頻流中的唇語單字元及對應時間點。本步驟的唇語字元識別可以使用隱馬爾可夫(HMM)或者長短時記憶模型等方法，單個唇語字元在視頻時間序列中對應的時間點也由該模型在進行唇語識別時確定。

在步驟208中，判斷唇語和語音的單字元及對應時間點是否滿足一致性。例如，本步驟可以將語音單字元的時間點資訊與唇語單字元的時間點資訊進行比對，如果比對結果一致，則認為該音頻流是真人所說，繼續執行步驟209；若不一致，則懷疑為攻擊行為，則返回重新開始註冊流程。本實施例的對唇語和語音的字元和對應時間點的一致性檢測方式，這種方式更加細化，可以對真人語音的判斷有更高的準確性。

在步驟209中，可以根據步驟202中提取的語音特徵而進行語音識別，得到用戶ID即為物件標識。所述語音識別的方法，包括但不限於隱馬爾可夫模型(Hidden Markov Mode,HMM)、深度神經網路(Deep Neural Networ,DNN)和長短時記憶模型(Long Short Time Model,LSTM)等方法。

此外，在上述圖2所示的例子中，對音頻流的語音識別可以在確定唇語和語音滿足一致性之後的步驟209中執行；或者，還可以是在步驟203中識別音頻流中的單字元時間點時，同時根據語音特徵進行語音識別得到用戶ID，那麼在這種情況下，當在步驟208確定唇語和語音滿足一致性之後，就可以直接將前面識別到的用戶ID用作為物件標識。

圖3示例了圖1中的人臉特徵識別的流程，可以包括：

在步驟301中，根據待註冊音視頻流中的視頻流而檢測人臉影像。本步驟可以從音視頻流中的視頻流中提取視頻框影像，並檢測其中是否出現人臉，如果出現則繼續執行302，否則返回繼續判斷。

在步驟302中，檢測人臉影像的品質。本步驟可以對步驟301中檢測到的人臉進行人臉特徵點檢測，根據特徵點檢測的結果判斷人臉在水平方向和垂直方向的角度，若都在一定的傾角範圍內，則滿足品質要求，否則，不滿足品質要求；同時判斷人臉區域的清晰度和曝光度等參數，也需要在一定的閾值範圍內滿足要求。如果人臉影像的品質較好，可以更佳地識別到人臉特徵。

在步驟303中，對於滿足品質要求的人臉影像，可以從人臉影像中提取特徵向量，所述特徵向量包括但不限於：局部二值模式特徵(Local Binary Pattern,LBP)、Gabor特徵、卷積神經網路特徵(Convolutional Neural Network,CNN)等。

在步驟304中，將在步驟303中提取的多個人臉特徵向量進行融合或者組合，構成用戶的唯一人臉特徵，亦即模板人臉特徵。

圖4示例了圖1中的聲紋特徵識別的流程，可以包括：

在步驟401中，獲取待註冊音視頻流中的音頻流。

本例子的聲紋特徵識別可以根據待註冊音視頻流中的音頻流來執行。

在步驟402中，確定音頻流的音頻品質滿足品質標準條件。

本步驟中，可以對音頻品質進行判斷，採集的音頻流的品質較好時，對音頻進行聲紋識別的效果就更好，因此，可以在進行後續的聲紋識別之前，先對音頻流的品質進行判定。比如，可以計算音頻流中的人聲信號強度、信噪比等資訊，以判斷這段語音是否符合品質標準條件，比如，該品質標準條件可以是設定信噪比在一定的範圍內，人聲信號強度高於一定的強度閾值等。如果品質通過，可以繼續執行步驟403；否則可以重新採集待註冊音視頻流。

在步驟403中，從音頻流中提取聲紋特徵向量。

在本例中，待註冊音視頻流的數量可以有多條，比如，用戶可以讀兩次自己的用戶ID，對應採集到兩條音視頻流。在本步驟中，可以提取其中的每一條音視頻流中的音頻流的聲紋特徵向量，該特徵向量的提取可以採用多種習知方式，不再詳述，比如，可以從音頻流的語音信號中提取語音特徵參數MFCC(Mel Frequency Cepstrum Coefficient，梅爾頻率倒譜係數)特徵，然後使用i-vector(一種說話人識別演算法)和PLDA(Probabilistic Linear Discriminant Analysis，聲紋識別的通道補償演算法)等方法來計算特徵向量。

在步驟404中，判斷多條音頻流的聲紋特徵向量是否滿足一致性。

例如，當用戶在註冊時朗讀了至少兩次自己的用戶ID時，採集到的音頻流是對應的至少兩條。為了確保該多條音頻流之間的聲紋特徵的差別不會過大，所以可以進行多條音頻流之間的聲紋一致性判斷。比如，可以根據在步驟403中由每條音頻流提取的聲紋特徵向量，計算該多條音頻流之間的相似度分數。

若該相似度分數在一定的分數閾值範圍內，則表示音頻流之間滿足相似要求，可以繼續執行步驟405；否則，表明用戶輸入的這多次音頻差別太大，可以指示正在註冊的用戶重新朗讀其用戶ID，亦即重新採集音頻流。

在步驟405中，根據多條音頻流的聲紋特徵向量而產生模板聲紋特徵。

本步驟中，可以根據在前面步驟中分別對各條音頻流提取的聲紋特徵向量進行加權求和，以得到模板聲紋特徵。

在完成上述的註冊流程後，在資料庫中已經儲存了目標物件的物件註冊資訊，該物件註冊資訊可以包括物件標識和對應的模板生理特徵，該模板生理特徵可以包括模板聲紋特徵和模板人臉特徵，如下可以根據該物件註冊資訊來執行物件的身份認證處理。

身份認證

圖5示例了一個例子中的身份認證流程，在該流程中，認證所使用的生理特徵以綜合人臉特徵和聲紋特徵為例來說明，並且，可以在確定正在認證的目標物件是活體物件而非錄影視頻後，再進行生理特徵的比對。如圖5所示，該認證流程包括如下處理：

在步驟501中，獲取採集到的音視頻流，所述音視頻流從待認證的目標物件所產生。

例如，假設用戶要登錄某個安全性要求較高的應用，需要通過該應用的身份認證才能登錄。在本步驟中，用戶可以在自己的智慧設備例如智慧手機上打開應用的用戶端，並且用戶可以透過智慧手機的相機和麥克風來採集待認證的音視頻流，該音視頻流可以是用戶朗讀自己的應用ID。

在步驟502中，判斷音視頻流中的唇語和語音是否滿足一致性。

本例子中，可以先判斷音視頻流中的唇語和語音是否滿足一致性，具體判斷一致性的流程可以參見圖2，不再詳述。

如果滿足一致性，表明正在認證的目標物件是活體而非錄影視頻等，則繼續執行步驟503；否則，可以返回執行501重新採集。

在步驟503中，對音視頻流中的音頻流進行語音識別，得到音頻流的語音內容。例如，識別到的語音內容可以是用戶ID“123456”。

在步驟504中，將語音內容用作為目標物件的物件標識，判斷預儲存的物件註冊資訊中是否包括該物件標識。

例如，若預儲存的物件註冊資訊中包括所述物件標識，可以在物件註冊資訊中獲取所述物件標識對應的模板生理特徵，例如模板人臉特徵和模板聲紋特徵，並繼續對待認證的音視頻流進行生理識別，得到目標物件的生理特徵，以與模板生理特徵進行比對。如果預儲存的物件註冊資訊中未包括物件標識，可以提示用戶未註冊。

在步驟505中，對音視頻流進行聲紋識別，得到目標物件的聲紋特徵。本步驟的聲紋特徵的提取可以參見圖4。

在步驟506中，對音視頻流進行人臉識別，得到目標物件的人臉特徵。

然後可以將目標物件的生理特徵與模板生理特徵比對，得到比對結果，若所述比對結果滿足認證條件，則確認所述目標物件通過認證。例如包括如下的步驟507至步驟509。

在步驟507中，將目標物件的聲紋特徵與模板聲紋特徵比對，得到聲紋比對分數。

在步驟508中，將目標物件的人臉特徵與模板人臉特徵比對，得到人臉比對分數。

在步驟509中，判斷聲紋比對分數和人臉比對分數是否滿足認證條件。

例如，若所述聲紋比對分數和人臉比對分數滿足如下至少一種，則確認所述目標物件通過認證：所述聲紋比對分數大於聲紋分數閾值，且人臉比對分數大於人臉分數閾值；或者，所述聲紋比對分數和人臉比對分數的乘積大於對應的乘積閾值；或者，所述聲紋比對分數和人臉比對分數的加權和大於對應的加權閾值。

若在本步驟中確定聲紋比對分數和人臉比對分數滿足認證條件，則確認目標物件通過認證；否則，確定目標物件未通過認證。

此外，在本身份認證的例子中，與前面的身份註冊流程類似，對音頻流進行語音識別而得到用戶ID的處理，既可以在確定唇語和語音滿足一致性之後執行，也可以在識別音頻流中的單字元時間點時同時獲得用戶ID。在上面的例子中，是以在確定唇語和語音滿足一致性之後再識別用戶ID為例。

本發明實施例的身份認證方法，使得用戶在認證時，只需要產生一次音視頻流即可，比如用戶讀一次自己的用戶ID即可，該方法就可以根據該音頻音視頻流進行語音識別而得到用戶ID，並且還可以透過該同一個音視頻流來校驗人臉特徵和聲紋特徵，這種方式不僅簡化了用戶操作，提高了認證效率，並且也保持了1：1的認證方式，亦即識別到的生理特徵只與資料庫中的物件標識對應的特徵比較，確保了識別的精度；此外，還方法還透過唇語和語音的一致性判斷確保了目標物件是活體，防止了攻擊者偽造的視頻錄影，提高了認證的安全性和可靠性；該方法中的用戶ID、識別得到的生理特徵，都是基於同一個音視頻流而得到，能夠在一定程度上識別攻擊者的偽造音視頻流。

為了實現上述的身份認證方法，本發明實施例還提供了一種身份認證裝置，如圖6所示，該裝置可以包括：資訊獲取模組61、標識確定模組62、資訊管理模組63、特徵識別模組64和認證處理模組65。

資訊獲取模組61，用以獲取採集到的音視頻流，所述音視頻流從待認證的目標物件所產生；標識確定模組62，用以判斷所述音視頻流中的唇語和語音是否滿足一致性，若滿足一致性，則將對所述音視頻流中的音頻流進行語音識別得到的語音內容，用作為所述目標物件的物件標識；資訊管理模組63，用於若預儲存的物件註冊資訊中包括所述物件標識，在所述物件註冊資訊中獲取所述物件標識對應的模板生理特徵；特徵識別模組64，用以對所述音視頻流進行生理識別，得到所述目標物件的生理特徵；認證處理模組65，用以將所述目標物件的生理特徵與模板生理特徵比對，得到比對結果，若所述比對結果滿足認證條件，則確認目標物件通過認證。

參見圖7，在一個例子中，特徵識別模組64可以包括：聲紋識別子模組641和人臉識別子模組642。

所述聲紋識別子模組641，用以對所述音視頻流進行聲紋識別，得到所述目標物件的聲紋特徵；所述人臉識別子模組642，用以對所述音視頻流進行人臉識別，得到所述目標物件的人臉特徵；所述認證處理模組65，用以將所述目標物件的聲紋特徵與模板聲紋特徵比對，得到聲紋比對分數，並將所述目標物件的人臉特徵與模板人臉特徵比對，得到人臉比對分數，若所述聲紋比對分數和人臉比對分數滿足認證條件，則確認所述目標物件通過認證。

在一個例子中，若所述聲紋比對分數和人臉比對分數滿足如下至少一種，則確認所述目標物件通過認證：所述聲紋比對分數大於聲紋分數閾值，且人臉比對分數大於人臉分數閾值；或者，所述聲紋比對分數和人臉比對分數的乘積大於對應的乘積閾值；或者，所述聲紋比對分數和人臉比對分數的加權和大於對應的加權閾值。

在一個例子中，如圖7所示，標識確定模組62可以包括：字元識別子模組621，用以對音視頻流中的音頻流進行語音單字元及對應時間點識別，對音視頻流中的視頻流進行唇語單字元及對應時間點識別；一致判斷子模組622，用於若所述語音和唇語的單字元及對應時間點一致，則確定滿足一致性。

在一個例子中，所述資訊獲取模組61，還用以獲取所述目標物件的待註冊音視頻流；所述標識確定模組62，還用以在所述待註冊音視頻流中的唇語和語音滿足一致性時，將對所述音視頻流中的音頻流進行語音識別得到的語音內容，用作為所述目標物件的物件標識；所述特徵識別模組64，還用以對所述待註冊音視頻流進行生理識別，得到所述待註冊音視頻流的所述模板生理特徵；所述資訊管理模組63，還用以將所述目標物件的物件標識及對應的所述模板生理特徵，對應儲存在所述物件註冊資訊中。

以上所述僅為本發明的較佳實施例而已，並不用來限制本發明，凡在本發明的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本發明所保護的範圍之內。

Claims

一種身份認證方法，其特徵在於，該方法包括：透過手機的相機和麥克風獲取目標物件的待註冊音視頻流，該待註冊音視頻流包括音頻流和視頻流；判斷該待註冊音視頻流中的唇語和語音是否滿足一致性，在該待註冊音視頻流中的唇語和語音滿足一致性時，將對該音視頻流中的該音頻流使用電腦技術進行語音識別而自動識別得到的語音內容，用作為該目標物件的物件標識；對該待註冊音視頻流進行生理識別，得到該待註冊音視頻流的模板生理特徵，其中，該生理特徵包括人臉特徵和聲紋特徵，包括：對該待註冊音視頻流中的音頻流進行聲紋識別，得到該目標物件的聲紋特徵；對該待註冊音視頻流中的視頻流進行人臉識別，得到該目標物件的人臉特徵；將該目標物件的該物件標識及對應的該模板生理特徵用作為物件註冊資訊而儲存在資料庫中；透過該手機的該相機和該麥克風獲取待認證的音視頻流，該音視頻流從待認證的目標物件所產生；判斷該音視頻流中的唇語和語音是否滿足一致性，若滿足一致性，則對該音視頻流中的音頻流進行語音識別，得到該音頻流的語音內容；將該語音內容用作為該目標物件的物件標識，判斷預儲存的物件註冊資訊中是否包括該物件標識；若該預儲存的物件註冊資訊中包括該物件標識，則在該物件註冊資訊中獲取該物件標識對應的模板生理特徵，該模板生理特徵包括模板人臉特徵和模板聲紋特徵；對該音視頻流進行生理識別，得到該目標物件的生理特徵，該生理特徵包括聲紋特徵和人臉特徵，其中，該對該音視頻流進行生理識別而得到該目標物件的生理特徵，包括：對該音視頻流進行聲紋識別，得到該目標物件的聲紋特徵；對該音視頻流進行人臉識別，得到該目標物件的人臉特徵；以及將該目標物件的生理特徵與模板生理特徵進行比對，得到比對結果，若該比對結果滿足認證條件，則確認該目標物件通過認證，包括：將該目標物件的聲紋特徵與模板聲紋特徵比對，得到聲紋比對分數；將該目標物件的人臉特徵與模板人臉特徵比對，得到人臉比對分數；以及若該聲紋比對分數和人臉比對分數滿足認證條件，則確認該目標物件通過認證。
根據申請專利範圍第1項所述的方法，其中，若該聲紋比對分數和人臉比對分數滿足如下至少一者，則確認該目標物件通過認證：該聲紋比對分數大於聲紋分數閾值，且人臉比對分數大於人臉分數閾值；或者，該聲紋比對分數和人臉比對分數的乘積大於對應的乘積閾值；或者，該聲紋比對分數和人臉比對分數的加權和大於對應的加權閾值。
根據申請專利範圍第1項所述的方法，其中，該判斷該音視頻流中的唇語和語音是否滿足一致性，若滿足一致性，包括：對該音視頻流中的音頻流進行語音單字元及對應時間點識別；對該音視頻流中的視頻流進行唇語單字元及對應時間點識別；以及若該語音和唇語的單字元及對應時間點一致，則確定滿足一致性。
一種身份認證裝置，其特徵在於，該裝置包括：資訊獲取模組，用以透過手機的相機和麥克風獲取目標物件的待註冊音視頻流，該待註冊音視頻流包括音頻流和視頻流；標識確定模組，用以判斷該待註冊音視頻流中的唇語和語音是否滿足一致性，在該待註冊音視頻流中的唇語和語音滿足一致性時，將對該音視頻流中的音頻流使用電腦技術進行語音識別而自動識別得到的語音內容，用作為該目標物件的物件標識；特徵識別模組，用以對該待註冊音視頻流進行生理識別，得到該待註冊音視頻流的模板生理特徵，其中，該生理特徵包括人臉特徵和聲紋特徵，包括：對該待註冊音視頻流中的音頻流進行聲紋識別，得到該目標物件的聲紋特徵；對該待註冊音視頻流中的視頻流進行人臉識別，得到該目標物件的人臉特徵；資訊管理模組，用以將該目標物件的物件標識及對應的該模板生理特徵用作為物件註冊資訊而儲存在資料庫中；該資訊獲取模組，還用以透過該手機的該相機和該麥克風獲取待認證的音視頻流，該音視頻流從待認證的目標物件所產生；該標識確定模組，還用以判斷該音視頻流中的唇語和語音是否滿足一致性，若滿足一致性，則對該音視頻流中的音頻流進行語音識別，得到該音頻流的語音內容，將該語音內容用作為該目標物件的物件標識，判斷預儲存的物件註冊資訊中是否包括該物件標識；該資訊管理模組，用於若該預儲存的物件註冊資訊中包括該物件標識，則在該物件註冊資訊中獲取該物件標識對應的模板生理特徵；該特徵識別模組，用以對該音視頻流進行生理識別，得到該目標物件的生理特徵，該特徵識別模組包括聲紋識別子模組和人臉識別子模組，其中：該聲紋識別子模組，用以對該音視頻流進行聲紋識別，得到該目標物件的聲紋特徵；該人臉識別子模組，用以對該音視頻流進行人臉識別，得到該目標物件的人臉特徵；以及認證處理模組，用以將該目標物件的生理特徵與模板生理特徵進行比對，得到比對結果，若該比對結果滿足認證條件，則確認目標物件通過認證，其中：該認證處理模組，用以將該目標物件的聲紋特徵與模板聲紋特徵比對，得到聲紋比對分數，並將該目標物件的人臉特徵與模板人臉特徵比對，得到人臉比對分數，若該聲紋比對分數和人臉比對分數滿足認證條件，則確認該目標物件通過認證。
根據申請專利範圍第4項所述的裝置，其中，若該聲紋比對分數和人臉比對分數滿足如下至少一者，則確認該目標物件通過認證：該聲紋比對分數大於聲紋分數閾值，且人臉比對分數大於人臉分數閾值；或者，該聲紋比對分數和人臉比對分數的乘積大於對應的乘積閾值；或者，該聲紋比對分數和人臉比對分數的加權和大於對應的加權閾值。
根據申請專利範圍第4項所述的裝置，其中，該標識確定模組包括：字元識別子模組，用以對該音視頻流中的音頻流進行語音單字元及對應時間點識別，對音視頻流中的視頻流進行唇語單字元及對應時間點識別；以及一致判斷子模組，用於若該語音和唇語的單字元及對應時間點一致，則確定滿足一致性。