WO2023047893A1

WO2023047893A1 - 認証装置および認証方法

Info

Publication number: WO2023047893A1
Application number: PCT/JP2022/032468
Authority: WO
Inventors: 鉄平福田; 正成宮本; 直也田中
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2021-09-27
Filing date: 2022-08-29
Publication date: 2023-03-30
Also published as: CN118043886A

Abstract

認証装置は、話者の音声信号を取得する取得部と、話者が発話している第１の発話区間を検出する検出部と、第１の発話区間の音声信号と、データベースとの照合に基づいて、話者を認証する認証部と、を備え、検出部は、話者が認証不可であると判定された場合、第１の発話区間と異なる第２の発話区間を検出し、認証部は、第１の発話区間および第２の発話区間の音声信号と、データベースとの照合に基づいて、話者を認証する。

Description

認証装置および認証方法

　本開示は、認証装置および認証方法に関する。

　特許文献１には、電話網に接続された電話端末を利用して通話を行う話者の本人性確認を行うための認証装置であって、音声認識認証結果に基づき、話者の本人性の判定を行う認証装置が開示されている。認証装置は、所定の声紋情報、第１のキーワード、および第２のキーワードを格納し、受信手段により受信した音声から声紋情報を取得して、声紋情報と格納された所定の声紋情報とを照合することにより声紋認証を行う。認証装置は、第１のキーワードを話者に発話させることを促す音声メッセージを電話端末に送信し、その後、受信手段により受信した話者の音声の内容が、格納手段に格納された第１のキーワードに該当するかどうかを判定する。認証装置は、声紋情報を用いた認証結果と、第１のキーワードを用いた音声認識認証結果とが異なる場合に、第２のキーワードを話者に発話させることを促す音声メッセージを電話端末に送信し、その後に受信手段により受信した話者の音声の内容が、格納手段に格納された第２のキーワードに該当するかどうかを判定して、話者の本人性確認を行う。

日本国特開２０１０－１０９６１８号公報

　声紋認証は、音声データのデータ長が短い場合、認証精度が低下して本人性を否定する可能性がある。そこで、特許文献１では、声紋認証と音声認識認証とを実行して、話者の本人性確認を行う。したがって、認証装置は、話者の音声を音声認識した音声認識結果と格納手段に格納された第１のキーワードまたは第２のキーワードとを照合して本人性確認の補助を行うものであって、声紋情報を用いた声紋認証の認証精度を向上させることを目的するものではなかった。

　本開示は、上述した従来の状況に鑑みて案出され、発話音声を用いた話者の音声認証精度を向上させる認証装置および認証方法を提供することを目的とする。

　本開示は、話者の発話音声の音声信号を取得する取得部と、取得された前記音声信号から前記話者が発話している第１の発話区間を検出する検出部と、前記検出部より検出された前記第１の発話区間の音声信号と、データベースとの照合に基づいて、前記話者を認証する認証部と、を備え、前記検出部は、前記認証部により前記話者が認証不可であると判定された場合、前記第１の発話区間と異なる第２の発話区間を検出し、前記認証部は、前記第１の発話区間および前記第２の発話区間の音声信号と、前記データベースとの照合に基づいて、前記話者を認証する、認証装置を提供する。

　また、本開示は、１以上のコンピュータが行う認証方法であって、話者の発話音声の音声信号を取得し、取得された前記音声信号から前記話者が発話している第１の発話区間を検出し、検出された前記第１の発話区間の音声信号と、データベースとの照合に基づいて、前記話者を認証し、前記第１の発話区間の音声信号に基づいて、前記話者が認証不可であると判定した場合、前記第１の発話区間と異なる第２の発話区間を検出し、前記第１の発話区間および前記第２の発話区間の音声信号と、前記データベースとの照合に基づいて、前記話者を認証する、認証方法を提供する。

　本開示によれば、発話音声を用いた話者の音声認証精度を向上できる。

実施の形態１に係る音声認証システムのユースケースの一例を示す図実施の形態１における認識解析装置の内部構成例を示すブロック図実施の形態１における第１のユーザ認証処理例を説明する図実施の形態１における第２のユーザ認証処理例を説明する図実施の形態１における第３のユーザ認証処理例を説明する図実施の形態１における第４のユーザ認証処理例を説明する図実施の形態１における第５のユーザ認証処理例を説明する図実施の形態１における第６のユーザ認証処理例を説明する図実施の形態１における第６のユーザ認証処理例を説明する図実施の形態１における認識解析装置の動作手順例を示すフローチャート

　以下、適宜図面を参照しながら、本開示に係る認証装置および認証方法を具体的に開示した実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明および実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

　まず、図１を参照して、実施の形態１に係る音声認証システム１００のユースケースについて説明する。図１は、実施の形態１に係る音声認証システム１００のユースケースの一例を示す図である。音声認証システム１００は、音声認証対象である人物（図１に示す例では、ユーザＵＳ）の音声信号または音声データを取得し、取得された音声信号または音声データと、事前にストレージ（図１に示す例では、登録話者データベースＤＢ）に登録（格納）された複数の音声信号または音声データとを照合する。音声認証システム１００は、照合結果に基づいて、音声認証対象であるユーザとストレージに登録された音声信号または音声データとの類似度を評価し、評価された類似度に基づいて、ユーザＵＳを認証する。

　実施の形態１に係る音声認証システム１００は、収音装置の一例としてのオペレータ側通話端末ＯＰ１と、認証解析装置Ｐ１と、登録話者データベースＤＢと、出力装置の一例としての情報表示部ＤＰと、を少なくとも含んで構成される。なお、認証解析装置Ｐ１および登録話者データベースＤＢは、一体的に構成されてよい。同様に、認証解析装置Ｐ１および情報表示部ＤＰは、一体的に構成されてよい。

　なお、図１に示す音声認証システム１００は、一例としてコールセンターにおいて話者（ユーザＵＳ）の認証に用いられる例を示し、オペレータＯＰと通話するユーザＵＳの発話音声を収音した音声データを用いてユーザＵＳの認証を行う。図１に示す音声認証システム１００は、さらにユーザ側通話端末ＵＰ１と、ネットワークＮＷとを含んで構成される。なお、音声認証システム１００の全体構成は、図１に示す例に限定されないことは言うまでもない。

　ユーザ側通話端末ＵＰ１は、オペレータ側通話端末ＯＰ１との間で、ネットワークＮＷを介して無線通信可能に接続される。なお、ここでいう無線通信は、例えばＷｉ－Ｆｉ（登録商標）などの無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）を介した通信である。

　ユーザ側通話端末ＵＰ１は、例えば、ノートＰＣ，タブレット端末，スマートフォン，電話機等により実現される。ユーザ側通話端末ＵＰ１は、マイク（不図示）を備える収音装置であり、ユーザＵＳの発話音声を収音して、音声信号に変換し、ネットワークＮＷを介して変換された音声信号をオペレータ側通話端末ＯＰ１に送信する。また、ユーザ側通話端末ＵＰ１は、オペレータ側通話端末ＯＰ１から送信されたオペレータＯＰの発話音声の音声信号を取得して、スピーカ（不図示）から出力する。

　ネットワークＮＷは、ＩＰ網または電話網であって、ユーザ側通話端末ＵＰ１とオペレータ側通話端末ＯＰ１との間で、音声信号の送受信を可能に接続する。なお、データの送受信は、有線通信または無線通信により実行される。ここでいう無線通信は、例えばＷｉ－Ｆｉ（登録商標）などの無線ＬＡＮを介した通信である。

　オペレータ側通話端末ＯＰ１は、ユーザ側通話端末ＵＰ１および認証解析装置Ｐ１との間でそれぞれ有線通信または無線通信でデータ送受信可能に接続され、音声信号の送受信を行う。

　オペレータ側通話端末ＯＰ１は、例えば、ノートＰＣ，タブレット端末，スマートフォン，電話機等により実現される。オペレータ側通話端末ＯＰ１は、ネットワークＮＷを介してユーザ側通話端末ＵＰ１から送信されたユーザＵＳの発話音声に基づく音声信号を取得し、認証解析装置Ｐ１に送信する。なお、オペレータ側通話端末ＯＰ１は、取得されたユーザＵＳの発話音声とオペレータＯＰの発話音声とを含む音声信号を取得した場合には、オペレータ側通話端末ＯＰ１の音声信号の音圧レベル、周波数帯域等の音声パラメータに基づいて、ユーザＵＳの発話音声に基づく音声信号と、オペレータＯＰの発話音声に基づく音声信号とを分離してよい。オペレータ側通話端末ＯＰ１は、分離後にユーザＵＳの発話音声に基づく音声信号のみを抽出して認証解析装置Ｐ１に送信する。

　また、オペレータ側通話端末ＯＰ１は、複数のユーザ側通話端末のそれぞれとの間で通信可能に接続され、同時に複数のユーザ側通話端末のそれぞれから音声信号を取得してもよい。オペレータ側通話端末ＯＰ１は、取得された音声信号を認証解析装置Ｐ１に送信する。これにより、音声認証システム１００は、同時に複数のユーザのそれぞれの音声認証処理、音声解析処理を実行できる。

　また、オペレータ側通話端末ＯＰ１は、同時に複数のユーザのそれぞれの発話音声を含む音声信号を取得してもよい。オペレータ側通話端末ＯＰ１は、ネットワークＮＷを介して取得された複数のユーザの音声信号からユーザごとの音声信号を抽出し、ユーザごとの音声信号をそれぞれ認証解析装置Ｐ１に送信する。このような場合、オペレータ側通話端末ＯＰ１は、複数のユーザの音声信号を解析し、音圧レベル、周波数帯域等の音声パラメータに基づいて、音声信号をユーザごとに分離して抽出してもよい。音声信号がアレイマイク等により収音された場合には、オペレータ側通話端末ＯＰ１は、発話音声の到来方向に基づいて、音声信号をユーザごとに分離して抽出してもよい。これにより、音声認証システム１００は、例えば、Ｗｅｂ会議等の同時に複数のユーザが発話する環境で収音された音声信号であっても、複数のユーザのそれぞれの音声認証処理、音声解析処理を実行できる。

　認証装置およびコンピュータの一例としての認証解析装置Ｐ１は、オペレータ側通話端末ＯＰ１、登録話者データベースＤＢおよび情報表示部ＤＰとの間でそれぞれデータ送受信可能に接続される。なお、認証解析装置Ｐ１は、オペレータ側通話端末ＯＰ１、登録話者データベースＤＢおよび情報表示部ＤＰとの間でネットワーク（不図示）を介して、有線通信または無線通信可能に接続されていてもよい。

　認証解析装置Ｐ１は、オペレータ側通話端末ＯＰ１から送信されたユーザＵＳの音声信号を取得し、取得された音声信号を、例えば周波数ごとに音声解析して、ユーザＵＳ個人の発話特徴量を抽出する。認証解析装置Ｐ１は、登録話者データベースＤＢを参照して、登録話者データベースＤＢに事前に登録された複数のユーザのそれぞれの発話特徴量と、抽出された発話特徴量とを照合して、ユーザＵＳの音声認証を実行する。なお、認証解析装置Ｐ１は、登録話者データベースＤＢに事前に登録された複数のユーザのそれぞれの発話特徴量の代わりに、登録話者データベースＤＢに事前に登録された特定のユーザの発話特徴量と、抽出された発話特徴量とを照合して、ユーザＵＳの音声認証を実行してもよい。

　認証解析装置Ｐ１は、ユーザ認証結果を含む認証結果画面ＳＣを生成して、情報表示部ＤＰに送信して出力させる。なお、図１に示す認証結果画面ＳＣは、一例であってこれに限定されないことは言うまでもない。図１に示す認証結果画面ＳＣは、ユーザ認証結果であるメッセージ「××〇〇さんの声と一致しました。」を含む。

　また、認証解析装置Ｐ１は、登録話者データベースＤＢに事前に登録された複数のユーザのそれぞれの音声信号と、ユーザＵＳの音声信号とを照合して、ユーザＵＳの音声認証を実行してもよい。なお、認証解析装置Ｐ１は、登録話者データベースＤＢに事前に登録された複数のユーザのそれぞれの音声信号の代わりに、登録話者データベースＤＢに事前に登録された特定のユーザの音声信号と、ユーザＵＳの音声信号とを照合して、ユーザＵＳの音声認証を実行してもよい。

　データベースの一例としての登録話者データベースＤＢは、所謂ストレージであって、例えばフラッシュメモリ、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）あるいはＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の記憶媒体を用いて構成される。登録話者データベースＤＢは、複数のユーザのユーザ情報と、発話特徴量とを対応付けて格納（登録）する。ここでいうユーザ情報は、ユーザに関する情報であって、例えば、ユーザ名、ユーザＩＤ（Ｉｄｅｎｔｉｆｉｃａｔｉｏｎ）、ユーザごとに割り当てられた識別情報等である。なお、登録話者データベースＤＢは、認証解析装置Ｐ１と一体的に構成されてもよい。

　情報表示部ＤＰは、例えばＬＣＤ（Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）あるいは有機ＥＬ（Ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイを用いて構成され、認証解析装置Ｐ１から送信された認証結果画面ＳＣを表示する。

　図１に示す例において、ユーザ側通話端末ＵＰ１は、ユーザＵＳの発話音声ＣＯＭ１２「××〇〇です」と、発話音声ＣＯＭ１４「１２３２４５６７８です」とを収音し、音声信号に変換して、オペレータ側通話端末ＯＰ１に送信する。オペレータ側通話端末ＯＰ１は、ユーザ側通話端末ＵＰ１から送信されたユーザＵＳの発話音声ＣＯＭ１２，ＣＯＭ１４のそれぞれに基づく音声信号を認証解析装置Ｐ１に送信する。

　なお、オペレータ側通話端末ＯＰ１は、オペレータＯＰの発話音声ＣＯＭ１１「お名前を教えてください」と、発話音声ＣＯＭ１３「会員番号を教えてください」と、ユーザＵＳの発話音声ＣＯＭ１２，ＣＯＭ１４とを収音した音声信号を取得した場合には、オペレータＯＰの発話音声ＣＯＭ１１，ＣＯＭ１３のそれぞれに基づく音声信号を分離、除去し、ユーザＵＳの発話音声ＣＯＭ１２，ＣＯＭ１４のそれぞれに基づく音声信号のみを抽出して、認証解析装置Ｐ１に送信する。これにより、認証解析装置Ｐ１は、音声認証の対象である人物の音声信号のみを用いることで、ユーザ認証精度を向上できる。

　図２を参照して、認証解析装置Ｐ１の内部構成例について説明する。図２は、実施の形態１における認証解析装置Ｐ１の内部構成例を示すブロック図である。認証解析装置Ｐ１は、通信部２０と、プロセッサ２１と、メモリ２２と、を少なくとも含んで構成される。

　取得部の一例としての通信部２０は、オペレータ側通話端末ＯＰ１および登録話者データベースＤＢのそれぞれとの間でデータ通信可能に接続する。通信部２０は、オペレータ側通話端末ＯＰ１から送信された音声信号をプロセッサ２１に出力する。なお、取得部は通信部２０に限らず、例えば認証解析装置Ｐ１と一体に構成されたオペレータ側通話端末ＯＰ１のマイクであっても良い。

　プロセッサ２１は、例えばＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）、ＧＰＵ（Ｇｒａｐｈｉｃａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の電子デバイスのうち少なくとも１つが実装された半導体チップを用いて構成される。プロセッサ２１は、認証解析装置Ｐ１の全体的な動作を司るコントローラとして機能し、認証解析装置Ｐ１の各部の動作を統括するための制御処理、認証解析装置Ｐ１の各部との間のデータの入出力処理、データの演算処理およびデータの記憶処理を行う。

　プロセッサ２１は、メモリ２２のＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）２２Ａに記憶されたプログラムおよびデータを用いることで、発話区間検出部２１Ａ、発話連結部２１Ｂ、特徴量抽出部２１Ｃおよび類似度計算部２１Ｄのそれぞれの機能を実現する。プロセッサ２１は、動作中にメモリ２２のＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）２２Ｂを使用し、プロセッサ２１および各部が生成あるいは取得したデータもしくは情報をメモリ２２のＲＡＭ２２Ｂに一時的に保存する。

　検出部、認識部、変換部、およびノイズ検出部の一例としての発話区間検出部２１Ａは、取得された音声信号を解析し、ユーザＵＳが発話している発話区間を検出する。発話区間検出部２１Ａは、音声信号から検出された各発話区間に対応する音声信号（以降、「発話音声信号」と表記）を発話連結部２１Ｂまたは特徴量抽出部２１Ｃに出力する。また、発話区間検出部２１Ａは、各発話区間の発話音声信号をメモリ２２のＲＡＭ２２Ｂに一時的に保存してもよい。

　処理部の一例としての発話連結部２１Ｂは、発話区間検出部２１Ａにより音声信号から同一人物（ユーザＵＳ）の２以上の発話区間が検出された場合、これらの発話区間の発話音声信号同士を連結する。発話連結部２１Ｂは、連結後の発話音声信号（以降、「連結音声信号」と表記）を特徴量抽出部２１Ｃに出力する。なお、ユーザ認証方法については後述する。

　処理部の一例としての特徴量抽出部２１Ｃは、発話区間検出部２１Ａにより抽出された１以上の発話音声信号を用いて個人の音声の特徴を、例えば周波数ごとに解析して、発話特徴量を抽出する。なお、特徴量抽出部２１Ｃは、発話連結部２１Ｂから出力された連結音声信号の発話特徴量を抽出してもよい。特徴量抽出部２１Ｃは、抽出された発話特徴量と、この発話特徴量が抽出された発話音声信号または連結音声信号とを対応付けて類似度計算部２１Ｄに出力したり、メモリ２２のＲＡＭ２２Ｂに一時的に保存したりする。

　認証部の一例としての類似度計算部２１Ｄは、特徴量抽出部２１Ｃから出力された発話音声信号または連結音声信号の発話特徴量を取得する。類似度計算部２１Ｄは、登録話者データベースＤＢを参照して、登録話者データベースＤＢに登録された複数のユーザのそれぞれの発話特徴量と、取得された連結後の発話特徴量との類似度を算出する。類似度計算部２１Ｄは、算出された類似度に基づいて、発話音声信号または連結音声信号（つまり、ユーザ側通話端末ＵＰ１から送信された音声信号）に対応するユーザを特定してユーザ認証を実行する。

　類似度計算部２１Ｄは、ユーザ認証の結果、ユーザが特定されたと判定した場合、特定されたユーザに関する情報（つまり、認証結果）を含む認証結果画面ＳＣを生成して、表示Ｉ／Ｆ（Ｉｎｔｅｒ　Ｆａｃｅ）２３を介して、情報表示部ＤＰに出力する。

　なお、類似度計算部２１Ｄは、算出された類似度が所定値未満であると判定した場合、ユーザ認証不可であると判定し、発話連結部２１Ｂに発話音声信号の連結を要求する制御指令を生成して出力してもよい。また、類似度計算部２１Ｄは、同一人物（ユーザＵＳ）に対するユーザ認証において、ユーザ認証回数に上限回数が設定されており、ユーザ認証不可であると判定した回数が上限回数以上であると判定した場合には、ユーザ認証不可である旨を通知する認証結果画面（不図示）を生成して、情報表示部ＤＰに出力してもよい。

　メモリ２２は、例えばプロセッサ２１が行う各種の処理を規定したプログラムとそのプログラムの実行中に使用するデータとを格納するＲＯＭ２２Ａと、プロセッサ２１が行う各種の処理を実行する際に用いるワークメモリとしてのＲＡＭ２２Ｂと、を少なくとも有する。ＲＯＭ２２Ａには、プロセッサ２１が行う各種の処理を規定したプログラムとそのプログラムの実行中に使用するデータとが書き込まれている。ＲＡＭ２２Ｂには、プロセッサ２１により生成あるいは取得されたデータもしくは情報（例えば、連結前の発話音声信号、連結後の連結音声信号、連結前あるいは連結後の各発話区間に対応する発話特徴量等）が一時的に保存される。

　表示Ｉ／Ｆ２３は、プロセッサ２１と情報表示部ＤＰとの間をデータ通信可能に接続し、プロセッサ２１の類似度計算部２１Ｄにより生成された認証結果画面ＳＣを情報表示部ＤＰに出力する。

　次に、図３を参照して、認証解析装置Ｐ１により実行される第１のユーザ認証処理について説明する。図３は、実施の形態１における第１のユーザ認証処理例を説明する図である。なお、図３～図８では、一例としてオペレータＯＰと、ユーザ認証対象であるユーザＵＳとが会話している例を示す。

　ユーザ側通話端末ＵＰ１は、ユーザＵＳの発話音声Ｕｓ１１「こんにちは」、発話音声Ｕｓ１２「暗証番号が分かりません」、発話音声Ｕｓ１３「ＩＤは１２３４５６７８です」、および発話音声Ｕｓ１４「名前は××〇〇です」を収音し、音声信号に変換してオペレータ側通話端末ＯＰ１に送信する。

　オペレータ側通話端末ＯＰ１は、オペレータＯＰの発話音声Ｏｐ１１「いかがなさいましたか」、発話音声Ｏｐ１２「はい、それではＩＤを教えてください」、および発話音声Ｏｐ１３「お名前を教えてください」を収音し、音声信号に変換してユーザ側通話端末ＵＰ１に送信する。また、オペレータ側通話端末ＯＰ１は、ユーザ側通話端末ＵＰ１から送信された音声信号を取得して、認証解析装置Ｐ１に送信する。

　認証解析装置Ｐ１における発話区間検出部２１Ａは、オペレータ側通話端末ＯＰ１から送信された音声信号からユーザＵＳの各発話音声Ｕｓ１１～Ｕｓ１４のそれぞれの発話区間を検出する。発話区間検出部２１Ａは、検出された各発話区間に対応する発話音声信号を抽出する。なお、以降の説明および図３～図８では、発話音声Ｕｓ１１に対応する発話音声信号を「発話１」、発話音声Ｕｓ１２に対応する発話音声信号を「発話２」、発話音声Ｕｓ１３に対応する発話音声信号を「発話３」、発話音声Ｕｓ１４に対応する発話音声信号を「発話４」とそれぞれ表記する。

　なお、図３～図８に示すオペレータＯＰとユーザＵＳとの間の会話例、およびユーザ認証に用いられる音声信号は一例であってこれに限定されないことは言うまでもない。ユーザ認証に用いられる音声信号の取得は、音声信号に含まれる所定のワード（例えば、「開始」等）を音声認識したタイミング以降に収音された発話音声に対応する音声信号を、ユーザ認証用の音声信号として取得してもよい。また、発話音声は、例えば、「こんにちは。暗証番号がわかりません」等の複数の文章を含む音声であってよい。

　以下、第１のユーザ認証処理について説明する。第１のユーザ認証処理において、認証解析装置Ｐ１は、ユーザ認証不可であると判定した場合、検出された各発話区間に対応する発話音声信号を時系列順に連結して、ユーザ認証を再度実行する。

　特徴量抽出部２１Ｃは、抽出された各発話区間に対応する発話音声信号「発話１」の発話特徴量を抽出して、類似度計算部２１Ｄに出力する。類似度計算部２１Ｄは、特徴量抽出部２１Ｃから出力された発話音声信号「発話１」の発話特徴量と、登録話者データベースＤＢに登録された複数のユーザのそれぞれの発話特徴量とを比較して、ユーザ認証を実行する（ユーザ認証処理１回目）。

　類似度計算部２１Ｄは、算出された類似度に基づいて、ユーザ認証不可であると判定した場合、発話連結部２１Ｂに発話音声信号「発話１」と発話音声信号「発話２」とを連結させる。発話連結部２１Ｂは、連結後の連結音声信号「発話１」＋「発話２」を特徴量抽出部２１Ｃに出力する。特徴量抽出部２１Ｃは、連結後の連結音声信号「発話１」＋「発話２」の発話特徴量を抽出して、類似度計算部２１Ｄに出力する。類似度計算部２１Ｄは、特徴量抽出部２１Ｃから出力された連結音声信号「発話１」＋「発話２」の発話特徴量と、登録話者データベースＤＢに登録された複数のユーザのそれぞれの発話特徴量とを比較して、ユーザ認証を実行する（ユーザ認証処理２回目）。

　類似度計算部２１Ｄは、算出された類似度に基づいて、ユーザ認証不可であると判定した場合、発話連結部２１Ｂに発話音声信号「発話１」と発話音声信号「発話２」と発話音声信号「発話３」とを連結させる。発話連結部２１Ｂは、連結後の連結音声信号「発話１」＋「発話２」＋「発話３」を特徴量抽出部２１Ｃに出力する。特徴量抽出部２１Ｃは、連結後の連結音声信号「発話１」＋「発話２」＋「発話３」の発話特徴量を抽出して、類似度計算部２１Ｄに出力する。類似度計算部２１Ｄは、特徴量抽出部２１Ｃから出力された連結音声信号「発話１」＋「発話２」＋「発話３」の発話特徴量と、登録話者データベースＤＢに登録された複数のユーザのそれぞれの発話特徴量とを比較して、ユーザ認証を実行する（ユーザ認証処理３回目）。

　類似度計算部２１Ｄは、算出された類似度に基づいて、ユーザ認証不可であると判定した場合、発話連結部２１Ｂに発話音声信号「発話１」と発話音声信号「発話２」と発話音声信号「発話３」と発話音声信号「発話４」を連結させる。発話連結部２１Ｂは、連結後の連結音声信号「発話１」＋「発話２」＋「発話３」＋「発話４」を特徴量抽出部２１Ｃに出力する。特徴量抽出部２１Ｃは、連結後の連結音声信号「発話１」＋「発話２」＋「発話３」＋「発話４」の発話特徴量を抽出して、類似度計算部２１Ｄに出力する。類似度計算部２１Ｄは、特徴量抽出部２１Ｃから出力された連結音声信号「発話１」＋「発話２」＋「発話３」＋「発話４」の発話特徴量と、登録話者データベースＤＢに登録された複数のユーザのそれぞれの発話特徴量とを比較して、ユーザ認証を実行する（ユーザ認証処理４回目）。

　以上のように、認証解析装置Ｐ１は、各発話音声に対応する発話音声信号を用いてユーザ認証を実行してユーザ認証不可であると判定した場合には、時系列順に発話音声信号を順次連結し、ユーザ認証処理に用いられる連結音声信号の信号長（発話音声長）を長くすることでユーザＵＳ個人の発話特徴量の個人性がより強くあらわれる。

　これにより、実施の形態１に係る認証解析装置Ｐ１は、各発話音声信号に含まれるユーザＵＳの発話特徴量にばらつきがあっても、ユーザ認証に用いる発話特徴量の個人性がより強くあらわれるため、ユーザ認証精度を向上させることができる。

　また、これにより、実施の形態１に係る認証解析装置Ｐ１は、取得された音声信号から検出された各発話区間の発話音声信号を用いて、繰り返しユーザ認証を実行できる。よって、オペレータＯＰは、ユーザＵＳとオペレータＯＰとの通話（会話）途中にユーザＵＳが認証された場合には、ユーザＵＳとの通話（会話）をより早く切り上げることができる。

　なお、図３に示す例ではユーザ認証処理を４回実行する例について説明したが、認証解析装置Ｐ１は、ユーザ認証したと判定したタイミングで、ユーザ認証処理を終了してよい。また、認証解析装置Ｐ１は、ユーザ認証処理に上限回数が設定されていてよく、ユーザ認証処理回数が上限回数であると判定した場合、ユーザ認証不可である旨を通知する認証結果画面（不図示）を生成して、情報表示部ＤＰに出力してもよい。

　次に、図４を参照して、認証解析装置Ｐ１により実行される第２のユーザ認証処理について説明する。図４は、実施の形態１における第２のユーザ認証処理例を説明する図である。

　第２のユーザ認証処理において、認証解析装置Ｐ１は、ユーザ認証に用いられる発話音声信号の信号長が所定時間（例えば、５秒、１０秒等）以上になるように複数連結し、連結後の連結音声信号を用いてユーザ認証を実行する。なお、図４に示す例では一例として、所定時間＝１０秒である例について説明するが、所定時間はこれに限定されないことは言うまでもない。

　図４に示す例において、発話区間検出部２１Ａは、各発話区間に対応する発話音声信号「発話１」～「発話４」のそれぞれを検出し、発話連結部２１Ｂに出力する。なお、図４では、発話音声信号「発話１」の信号長が０．８秒であり、発話音声信号「発話２」の信号長が２．９秒であり、発話音声信号「発話３」の信号長が４．０秒であり、発話音声信号「発話４」の信号長が３．５秒である。

　発話連結部２１Ｂは、ユーザ認証に用いられる発話音声信号の信号長が所定時間以上となるように、発話音声信号「発話１」～「発話４」のそれぞれを組み合わせて連結する。なお、１つの発話音声信号の信号長が所定時間以上の長さである場合、発話連結部２１Ｂによる発話音声信号の連結処理を省略してよい。発話連結部２１Ｂは、連結後の連結音声信号を特徴量抽出部２１Ｃに出力する。

　特徴量抽出部２１Ｃは、発話区間検出部２１Ａまたは発話連結部２１Ｂから出力された所定時間以上の信号長を有する発話音声信号または連結音声信号を取得する。特徴量抽出部２１Ｃは、取得された発話音声信号または連結音声信号に含まれるユーザＵＳの発話特徴量を抽出する。特徴量抽出部２１Ｃは、抽出されたユーザＵＳの発話特徴量を類似度計算部２１Ｄに出力する。

　類似度計算部２１Ｄは、特徴量抽出部２１Ｃから出力された発話音声信号または連結音声信号の発話特徴量を取得する。類似度計算部２１Ｄは、登録話者データベースＤＢを参照して、登録話者データベースＤＢに登録された複数のユーザのそれぞれの発話特徴量と、取得された発話特徴量との類似度を算出する。類似度計算部２１Ｄは、算出された類似度に基づいて、取得された発話音声信号または連結音声信号に対応するユーザを特定してユーザ認証を実行する。

　例えば、図４に示す例において、発話音声信号「発話１」と発話音声信号「発話２」とが連結された連結音声信号「発話１」＋「発話２」の信号長は、３．７秒（つまり、所定時間（１０秒）未満）となる。第２のユーザ認証処理では、このように連結後の信号長が所定時間未満である発話音声信号を用いたユーザ認証処理を実行しない。

　また、発話音声信号「発話１」～「発話４」が連結された連結音声信号「発話１」＋「発話２」＋「発話３」＋「発話４」の信号長は、１１．２秒（つまり、所定時間（１０秒）以上）となる。同様に、発話音声信号「発話２」～「発話４」が連結された連結音声信号「発話３」＋「発話４」＋「発話２」の信号長は、１０．４秒（つまり、所定時間（１０秒）以上）となる。このような場合、認証解析装置Ｐ１は、連結音声信号「発話１」＋「発話２」＋「発話３」＋「発話４」、あるいは連結音声信号「発話３」＋「発話４」＋「発話２」を用いてユーザ認証処理を実行する。

　なお、認証解析装置Ｐ１は、ユーザ認証不可であると判定した場合、既にユーザ認証に用いられた発話音声信号の組み合わせと異なる発話音声信号の組み合わせで新たな連結音声信号を生成して、ユーザ認証を再度実行する。例えば、認証解析装置Ｐ１は、連結音声信号「発話３」＋「発話４」＋「発話２」を用いて１回目のユーザ認証処理を実行し、ユーザ認証不可であると判定した場合、連結音声信号「発話１」＋「発話２」＋「発話３」＋「発話４」を用いて２回目のユーザ認証処理を実行する。

　なお、第２のユーザ認証処理において、発話音声信号の連結順は、連結音声信号「発話１」＋「発話２」＋「発話３」＋「発話４」のように時系列順であってもよいし、連結音声信号「発話３」＋「発話４」＋「発話２」のように発話音声信号の信号長が長い順であってもよい。

　また、第２のユーザ認証処理において、発話連結部２１Ｂは、連結される発話音声信号を選定してもよい。連結される発話音声信号を選定する基準として下限時間（例えば、２秒等）が設定されている場合、発話連結部２１Ｂは、発話区間検出部２１Ａから出力された各発話区間に対応する発話音声信号の信号長が下限時間以上であるか否かを判定してよい。発話連結部２１Ｂは、信号長が下限時間以上であると判定された発話音声信号を用いて、発話音声信号の連結処理を実行する。

　これにより、認証解析装置Ｐ１は、例えば「はい」、「うん」等の短い発話であって、ユーザＵＳ個人の発話特徴量が小さい発話音声信号を、ユーザ認証に用いられる発話音声信号から除去することができる。したがって、認証解析装置Ｐ１は、個人性がより強くあらわれた発話特徴量を含む連結音声信号を用いてユーザ認証を実行できるため、ユーザ認証精度を向上させることができる。

　以上により、実施の形態１における認証解析装置Ｐ１は、所定時間以上の信号長を有し、ユーザ認証処理により適した発話特徴量を有する連結音声信号を用いることで、各発話音声信号に含まれるユーザの発話特徴量にばらつきがあっても、ユーザ認証精度を向上させることができる。

　次に、図５を参照して、認証解析装置Ｐ１により実行される第３のユーザ認証処理について説明する。図５は、実施の形態１における第３のユーザ認証処理例を説明する図である。

　第３のユーザ認証処理において、認証解析装置Ｐ１は、ユーザ認証に用いられる発話音声信号に含まれる文字数を認識し、認識された文字数が所定文字数（例えば、２０文字、２５文字等）以上になるように複数の発話音声信号を連結し、連結後の連結音声信号を用いてユーザ認証を実行する。なお、図５に示す例では一例として、所定文字数＝２５文字である例について説明するが、所定時間はこれに限定されないことは言うまでもない。なお、ここでいう文字数は、モーラ数、音節数、音素数等であってもよい。

　図５に示す例において、発話区間検出部２１Ａは、各発話区間に対応する発話音声信号「発話１」～「発話４」のそれぞれを検出し、各発話音声信号に含まれる文字数を認識し、認識結果と発話音声信号とを発話連結部２１Ｂに出力する。なお、図５では、発話音声信号「発話１」の文字数が５文字であり、発話音声信号「発話２」と発話音声信号「発話３」との文字数がそれぞれ１６文字であり、発話音声信号「発話４」の文字数が１２文字である。

　発話連結部２１Ｂは、ユーザ認証に用いられる発話音声信号の文字数が所定文字数以上となるように、発話音声信号「発話１」～「発話４」のそれぞれを組み合わせて連結する。なお、１つの発話音声信号の文字数が所定文字数以上である場合、発話連結部２１Ｂによる発話音声信号の連結処理を省略してよい。発話連結部２１Ｂは、連結後の連結音声信号を特徴量抽出部２１Ｃに出力する。

　特徴量抽出部２１Ｃは、発話区間検出部２１Ａまたは発話連結部２１Ｂから出力された所定文字数以上の文字数を含む発話音声信号または連結音声信号を取得する。特徴量抽出部２１Ｃは、取得された発話音声信号または連結音声信号に含まれるユーザＵＳの発話特徴量を抽出する。特徴量抽出部２１Ｃは、抽出されたユーザＵＳの発話特徴量を類似度計算部２１Ｄに出力する。

　類似度計算部２１Ｄは、特徴量抽出部２１Ｃから出力された発話音声信号または連結音声信号の発話特徴量を取得する。類似度計算部２１Ｄは、登録話者データベースＤＢを参照して、登録話者データベースＤＢに登録された複数のユーザのそれぞれの発話特徴量と、取得された連結後の発話特徴量との類似度を算出する。類似度計算部２１Ｄは、算出された類似度に基づいて、ユーザ認証を実行する。

　例えば、図５に示す例において、発話音声信号「発話１」と発話音声信号「発話２」とが連結された連結音声信号「発話１」＋「発話２」の文字数は、２１文字（つまり、所定文字数（２５文字）未満）となる。第３のユーザ認証処理では、このように連結後の文字数が所定文字数未満である連結音声信号を用いたユーザ認証処理を実行しない。

　また、発話音声信号「発話１」～「発話４」が連結された連結音声信号「発話１」＋「発話２」＋「発話３」＋「発話４」の文字数は、４９文字（つまり、所定文字数（２５文字）以上）となる。同様に、発話音声信号「発話２」～「発話４」が連結された連結音声信号「発話３」＋「発話４」＋「発話２」の文字数は、４４文字（つまり、所定文字数（２５文字）以上）となる。認証解析装置Ｐ１は、連結音声信号「発話１」＋「発話２」＋「発話３」＋「発話４」、あるいは連結音声信号「発話３」＋「発話４」＋「発話２」を用いてユーザ認証処理を実行する。

　なお、認証解析装置Ｐ１は、ユーザ認証不可であると判定した場合、既にユーザ認証に用いられた発話音声信号の組み合わせと異なる組み合わせで連結された新たな連結音声信号を用いてユーザ認証を再度実行する。例えば、認証解析装置Ｐ１は、連結音声信号「発話３」＋「発話４」＋「発話２」を用いて１回目のユーザ認証処理を実行し、ユーザ認証不可であると判定した場合、連結音声信号「発話１」＋「発話２」＋「発話３」＋「発話４」を用いて２回目のユーザ認証処理を実行する。

　なお、第３のユーザ認証処理において、発話音声信号の連結順は、連結音声信号「発話１」＋「発話２」＋「発話３」＋「発話４」のように時系列順であってもよいし、連結音声信号「発話３」＋「発話４」＋「発話２」のように発話音声信号の文字数が多い順であってもよい。

　また、第３のユーザ認証処理において、発話連結部２１Ｂは、連結対象となる発話音声信号を選定してもよい。連結対象となる発話音声信号を選定する基準として下限文字数（例えば、５文字等）が設定されている場合、発話連結部２１Ｂは、発話区間検出部２１Ａから出力された各発話区間に対応する発話音声信号の文字数が下限文字数以上であるか否かを判定してよい。発話連結部２１Ｂは、信号長が下限文字数以上であると判定された発話音声信号を用いて、発話音声信号の連結処理を実行する。

　これにより、認証解析装置Ｐ１は、例えば「はい」、「うん」等の文字数が少ない発話であって、ユーザＵＳ個人の発話特徴量が小さい発話音声信号をユーザ認証に用いられる発話音声信号から除去することができる。したがって、認証解析装置Ｐ１は、個人性がより強く表れた発話特徴量を含む発話音声信号または連結音声信号を用いてユーザ認証を実行できるため、ユーザ認証精度を向上させることができる。

　以上により、実施の形態１における認証解析装置Ｐ１は、所定文字数以上の文字数を含み、ユーザ認証処理により適した発話特徴量を有する発話音声信号または連結音声信号を用いて発話音声信号を用いてユーザ認証処理を実行できる。

　これにより、実施の形態１に係る認証解析装置Ｐ１は、各発話音声信号に含まれるユーザの発話特徴量にばらつきがあっても、ユーザ認証精度を向上させることができる。

　次に、図６を参照して、認証解析装置Ｐ１により実行される第４のユーザ認証処理について説明する。図６は、実施の形態１における第４のユーザ認証処理例を説明する図である。

　第４のユーザ認証処理において、認証解析装置Ｐ１は、発話音声信号の文字数に基づいて、各発話音声信号に重み付け処理を実行する。認証解析装置Ｐ１は、重み付け処理後の発話特徴量を用いてユーザ認証処理を実行する。

　図６に示す例において、発話区間検出部２１Ａは、各発話区間に対応する発話音声信号「発話１」～「発話４」のそれぞれを検出し、各発話音声信号に含まれる文字数を音声認識し、音声認識結果と発話音声信号とを発話連結部２１Ｂに出力する。なお、図６では、発話音声信号「発話１」の文字数が５文字であり、発話音声信号「発話２」と発話音声信号「発話３」との文字数がそれぞれ１６文字であり、発話音声信号「発話４」の文字数が１２文字である。

　発話連結部２１Ｂは、発話区間検出部２１Ａにより音声認識された発話音声信号と各発話音声信号の文字数とに基づいて、各発話音声信号に重み係数を決定する。発話連結部２１Ｂは、発話音声信号を連結して連結音声信号を生成して、特徴量抽出部２１Ｃに出力する。

　具体的に、発話連結部２１Ｂは、連結される２以上の発話音声信号の合計文字数を算出し、算出された合計文字数に対する各発話音声信号の文字数の割合を算出し、算出された割合に対応する重み係数を決定する。また、各発話区間に対応する重み係数は、ＲＡＭ２２Ｂに出力され、記憶されてよい。

　特徴量抽出部２１Ｃは、発話連結部２１Ｂから出力された連結音声信号に含まれる２以上の発話区間の発話音声信号のそれぞれと、各発話区間に対応する重み係数とに基づいて、各発話区間から抽出された発話特徴量に重み付け処理を実行する。なお、ユーザ認証処理が１回目であって、連結音声信号の生成が行われない場合、重み係数の算出および重み付け処理は、発話区間検出部２１Ａにより実行されてもよいし、処理そのものが省略されてもよい。

　以下、図６を参照して、第４のユーザ認証処理の具体例について説明する。

　発話連結部２１Ｂは、音声認識された発話音声信号「発話１」の文字数（５文字）と、１回目のユーザ認証処理に用いられる発話音声信号（つまり、発話音声信号「発話１」）の合計文字数とに基づいて、重み係数を１．０に決定する。発話連結部２１Ｂは、発話音声信号と、重み係数とを特徴量抽出部２１Ｃに出力する。

　特徴量抽出部２１Ｃは、発話連結部２１Ｂから出力された発話音声信号「発話１」の発話特徴量を抽出して、抽出された発話音声信号「発話１」の発話特徴量に重み係数を重み付けて、類似度計算部２１Ｄに出力する。類似度計算部２１Ｄは、特徴量抽出部２１Ｃから出力された発話音声信号「発話１」の発話特徴量と、登録話者データベースＤＢに登録された複数のユーザのそれぞれの発話特徴量とを比較して、ユーザ認証を実行する（ユーザ認証処理１回目）。

　類似度計算部２１Ｄは、算出された類似度に基づいて、ユーザ認証不可であると判定した場合、発話連結部２１Ｂに発話音声信号「発話１」と発話音声信号「発話２」とを連結させる。発話連結部２１Ｂは、発話音声信号「発話１」の文字数（５文字）と発話音声信号「発話２」の文字数（１６文字）とを、これらの発話音声信号の文字数の合計値（５＋１６）とに基づいて、発話音声信号「発話１」、「発話２」のそれぞれの重み係数を決定する。なお、図６に示す例において、発話連結部２１Ｂは、発話音声信号「発話１」の重み係数を０．２４、発話音声信号「発話２」の重み係数を０．７６にそれぞれ決定する。発話連結部２１Ｂは、連結音声信号と、各重み係数とを特徴量抽出部２１Ｃに出力する。

　特徴量抽出部２１Ｃは、発話連結部２１Ｂから出力された発話音声信号「発話１」および発話音声信号「発話２」のそれぞれの発話特徴量を抽出する。特徴量抽出部２１Ｃは、抽出された各発話音声信号「発話１」、「発話２」の発話特徴量のそれぞれに対応する重み係数を重み付けて、類似度計算部２１Ｄに出力する。類似度計算部２１Ｄは、特徴量抽出部２１Ｃから出力された連結音声信号「発話１」＋「発話２」の発話特徴量と、登録話者データベースＤＢに登録された複数のユーザのそれぞれの発話特徴量とを比較して、ユーザ認証を実行する（ユーザ認証処理２回目）。

　類似度計算部２１Ｄは、算出された類似度に基づいて、ユーザ認証不可であると判定した場合、発話連結部２１Ｂに発話音声信号「発話１」と発話音声信号「発話２」と発話音声信号「発話３」とを連結させる。発話連結部２１Ｂは、発話音声信号「発話１」の文字数（５文字）と発話音声信号「発話２」の文字数（１６文字）と発話音声信号「発話３」の文字数（１６文字）とを、これらの発話音声信号の文字数の合計値（５＋１６＋１６）とに基づいて、発話音声信号「発話１」、「発話２」、「発話３」のそれぞれの重み係数を決定する。なお、図６に示す例において、発話連結部２１Ｂは、発話音声信号「発話１」の重み係数を０．１４、発話音声信号「発話２」、「発話３」の重み係数を０．４３にそれぞれ決定する。発話連結部２１Ｂは、連結音声信号と、各重み係数とを特徴量抽出部２１Ｃに出力する。

　特徴量抽出部２１Ｃは、発話連結部２１Ｂから出力された発話音声信号「発話１」、発話音声信号「発話２」、および発話音声信号「発話３」の発話特徴量を抽出する。特徴量抽出部２１Ｃは、抽出された各発話音声信号「発話１」～「発話３」の発話特徴量のそれぞれに対応する重み係数を重み付けて、類似度計算部２１Ｄに出力する。類似度計算部２１Ｄは、特徴量抽出部２１Ｃから出力された連結音声信号「発話１」＋「発話２」＋「発話３」の発話特徴量と、登録話者データベースＤＢに登録された複数のユーザのそれぞれの発話特徴量とを比較して、ユーザ認証を実行する（ユーザ認証処理３回目）。

　類似度計算部２１Ｄは、算出された類似度に基づいて、ユーザ認証不可であると判定した場合、発話連結部２１Ｂに発話音声信号「発話１」と発話音声信号「発話２」と発話音声信号「発話３」と発話音声信号「発話４」とを連結させる。発話連結部２１Ｂは、発話音声信号「発話１」の文字数（５文字）と発話音声信号「発話２」の文字数（１６文字）と発話音声信号「発話３」の文字数（１６文字）と発話音声信号「発話４」の文字数（１２文字）とを、これらの発話音声信号の文字数の合計値（５＋１６＋１６＋１２）とに基づいて、発話音声信号「発話１」、「発話２」のそれぞれの重み係数を決定する。なお、図６に示す例において、発話連結部２１Ｂは、発話音声信号「発話１」の重み係数を０．１０、発話音声信号「発話２」、「発話３」の重み係数を０．３３、発話音声信号「発話４」の重み係数を０．２４にそれぞれ決定する。発話連結部２１Ｂは、連結音声信号と、各重み係数とを特徴量抽出部２１Ｃに出力する。

　特徴量抽出部２１Ｃは、発話連結部２１Ｂから出力された発話音声信号「発話１」、発話音声信号「発話２」、発話音声信号「発話３」、および発話音声信号「発話４」の発話特徴量を抽出する。特徴量抽出部２１Ｃは、抽出された各発話音声信号「発話１」～「発話４」の発話特徴量のそれぞれに対応する重み係数を重み付けて、類似度計算部２１Ｄに出力する。類似度計算部２１Ｄは、特徴量抽出部２１Ｃから出力された連結音声信号「発話１」＋「発話２」＋「発話３」＋「発話４」の発話特徴量と、登録話者データベースＤＢに登録された複数のユーザのそれぞれの発話特徴量とを比較して、ユーザ認証を実行する（ユーザ認証処理４回目）。

　なお、上述した第４のユーザ認証処理例では、文字数に基づいて重み付け係数を決定する例について説明したが、これに限定されなくてもよい。例えば、重み付け係数は、モーラ数、音節数、音素数に基づいて決定されてもよい。また、上述した重み付け係数の算出例は、一例であって、これに限定されなくてもよいことは言うまでもない。

　以上により、実施の形態１における認証解析装置Ｐ１は、発話音声信号の発話特徴量に重み付け処理をすることで、ユーザ認証処理により適した発話特徴量を有する発話音声信号を用いてユーザ認証処理を実行できる。

　次に、図７を参照して、認証解析装置Ｐ１により実行される第５のユーザ認証処理について説明する。図７は、実施の形態１における第５のユーザ認証処理例を説明する図である。

　第５のユーザ認証処理において、認証解析装置Ｐ１の発話区間検出部２１Ａは、発話音声信号を音声解析し、発話音声信号に含まれるノイズ（例えば、ユーザＵＳ以外の音声、雑音、環境音等）を含む区間（以降、「ノイズ区間」と表記）を検出する。発話区間検出部２１Ａは、発話音声信号から検出されたノイズ区間を削除したり、連結音声信号からノイズ区間を含む発話区間に対応する発話音声信号そのものを削除したりする。認証解析装置Ｐ１は、削除処理後の発話音声信号または連結音声信号を用いてユーザ認証処理を実行する。

　図７に示す発話音声Ｕｓ１２は、ユーザＵＳの環境音であるノイズＮｚ１１「ピンポーン」を含む。このような場合、発話区間検出部２１Ａは、各発話区間に対応する発話音声信号「発話１」～「発話４」のそれぞれを検出し、検出された発話音声信号「発話１」～「発話４」のそれぞれを連結した連結音声信号からノイズＮｚ１１を検出し、このノイズＮｚ１１が含まれるノイズ区間Ｎｚを検出する。

　発話区間検出部２１Ａは、発話音声信号「発話２」から検出されたノイズ区間Ｎｚを削除し、ノイズ区間Ｎｚを削除した後の発話音声信号「発話２」と、各発話区間に対応する発話音声信号「発話１」、「発話３」、「発話４」のそれぞれとを連結した連結音声信号を生成する。

　また、発話区間検出部２１Ａは、ノイズ区間Ｎｚを含む発話音声信号「発話２」を削除し、ノイズ区間Ｎｚを含まない発話音声信号「発話１」、「発話３」、「発話４」のそれぞれを連結した連結音声信号を生成する。

　なお、ここでは、発話区間検出部２１Ａが連結音声信号からノイズ区間Ｎｚを検出し、除去する例について説明するが、発話音声信号からノイズ区間Ｎｚを検出し、除去する場合も同様である。

　以上により、実施の形態１における認証解析装置Ｐ１は、発話音声信号に含まれるノイズを除去することで、ユーザ認証処理により適した発話特徴量を有する発話音声信号を用いてユーザ認証処理を実行できる。これにより、実施の形態１に係る認証解析装置Ｐ１は、ユーザ認証精度を向上させることができる。

　次に、図８および図９を参照して、認証解析装置Ｐ１により実行される第６のユーザ認証処理について説明する。図８は、実施の形態１における第６のユーザ認証方法例を説明する図である。図９は、実施の形態１における第６のユーザ認証方法例を説明する図である。

　第６のユーザ認証処理において、認証解析装置Ｐ１の発話区間検出部２１Ａは、発話音声信号を音声解析して文字数を認識し、この発話音声信号の話速（つまり、１秒あたりの文字数）を算出する。発話区間検出部２１Ａは、発話音声信号の話速を所定話速になるように発話音声信号を縮小あるいは伸長する処理（以降、「話速変換処理」と表記）を実行する。例えば、図９に示す例において発話音声信号Ｄｔ１は、話速変換処理により発話音声信号Ｄｔ２に変換される。認証解析装置Ｐ１は、話速変換処理後の発話音声信号、あるいは話速変換処理後の発話音声信号を連結した連結音声信号を用いてユーザ認証を実行する。

　登録話者データベースＤＢに登録（格納）された複数のユーザの発話特徴量の抽出元データ（つまり、発話音声信号）の話速が同一話速（例えば、図８に示す話速＝５．０文字／秒）である場合、発話区間検出部２１Ａは、この同一話速を所定話速として設定し、話速変換処理を実行する。これにより、認証解析装置Ｐ１は、ユーザ認証に用いる発話音声信号または連結音声信号の発話特徴量と、登録話者データベースＤＢに登録されたユーザごとの発話特徴量との類似度をより高精度に算出できるため、ユーザ認証精度をより向上させることができる。

　以下、図８を参照してユーザＵＳの発話音声信号「発話１」～「発話４」のそれぞれの話速変換処理例について具体的に説明する。

　例えば、ユーザＵＳの音声（発話特徴量）の登録時において、登録話者データベースＤＢへの登録（格納）に用いられるユーザＵＳの発話音声信号は、文字数＝１７文字、発話秒数（つまり発話区間）＝３．６秒、発話内容が「私の声を登録してください」、および話速＝４．７２文字／秒である。このような場合、ユーザＵＳの話速＝４．７２文字／秒の発話音声信号は、所定話速５．０文字／秒の発話音声信号に拡張する話速変換処理された状態で、登録話者データベースＤＢに登録（格納）される。なお、登録話者データベースＤＢへの登録（格納）時の話速変換処理は、認証解析装置Ｐ１により実行されてよい。

　ユーザ認証時において、ユーザＵＳの発話音声信号「発話１」は、文字数＝５文字、発話秒数＝０．８秒、発話内容が「こんにちは」、および話速＝６．２５文字／秒である。発話音声信号「発話２」は、文字数＝１６文字、発話秒数＝２．９秒、発話内容が「暗証番号が分かりません」、および話速＝５．５１文字／秒である。発話音声信号「発話３」は、文字数＝１６文字、発話秒数＝４．０秒、発話内容が「ＩＤは１２３４５６７８です」、および話速＝４．０文字／秒である。発話音声信号「発話４」は、文字数＝１２文字、発話秒数＝３．５秒、発話内容が「名前は××〇〇です」、および話速＝３．４２文字／秒である。

　発話音声信号「発話１」～「発話４」のそれぞれは、登録話者データベースＤＢへの登録（格納）時に所定話速＝５．０文字／秒に話速変換されて登録（格納）される。これにより、発話音声信号「発話１」は、発話秒数＝１．０秒の発話音声信号に変換される。同様に、発話音声信号「発話２」、「発話３」のそれぞれは、発話秒数＝３．２秒の発話音声信号に変換される。発話音声信号「発話４」は、発話秒数＝２．４秒の発話音声信号に変換される。

　なお、発話音声信号の話速は、発話音声信号の音声認識結果により取得された文字数と発話秒数とに基づいて算出されてもよいし、モーラ数、音節数、あるいは音素数と発話秒数とに基づいて推定されてもよい。その他、発話音声信号の話速は、音声信号の時間成分、周波数成分から直接演算処理により推定されてもよい。

　以上により、実施の形態１における認証解析装置Ｐ１は、ユーザＵＳの発話速度にばらつきが生じる場合であっても、所定話速に変換された発話音声信号を用いてユーザ認証処理を実行することで、ユーザ認証に用いる発話音声信号または連結音声信号の発話特徴量と、登録話者データベースＤＢに登録されたユーザごとの発話特徴量との類似度をより高精度に算出できるため、ユーザ認証精度をより向上させることができる。

　次に、図１０を参照して、認証解析装置Ｐ１の動作手順例について説明する、図１０は、実施の形態１における認証解析装置Ｐ１の動作手順例を示すフローチャートである。

　認証解析装置Ｐ１における通信部２０は、オペレータ側通話端末ＯＰ１から送信された音声信号（または音声データ）を取得する（Ｓｔ１１）。通信部２０は、取得された音声信号をプロセッサ２１に出力する。

　プロセッサ２１は、通信部２０から出力された音声信号を取得したタイミングで、取得された音声信号の音声認証対象であるユーザＵＳの認証を開始する（Ｓｔ１２）。

　プロセッサ２１における発話区間検出部２１Ａは、取得された音声信号から発話区間を検出する（Ｓｔ１３）。

　発話区間検出部２１Ａは、発話区間に対応する発話音声信号に含まれる文字数を音声認識する。発話区間検出部２１Ａは、音声認識された文字数と、発話音声信号の信号長（発話音声長、発話秒数等）とに基づいて、この発話音声信号の話速を算出する。発話区間検出部２１Ａは、発話音声信号に話速変換処理を実行し、この発話音声信号の話速を所定話速に変換する（Ｓｔ１４）。なお、ステップＳｔ１４の処理は、必須でなく省略されてもよい。

　発話区間検出部２１Ａは、検出された発話区間の情報（例えば、発話区間の開始時刻と終了時刻、文字数、信号長（発話音声長、発話秒数等）、話速変換前または話速変換後の話速等）の情報をメモリ２２に記憶する（Ｓｔ１５）。

　発話区間検出部２１Ａは、現在設定されているユーザ認証処理方法に基づいて、ユーザ認証に使用される１以上の発話音声信号を選択する（Ｓｔ１６）。なお、図１０では図示を省略しているが、認証解析装置Ｐ１は、現在設定されているユーザ認証処理方法に基づいて、ユーザ認証に使用される発話音声信号がないと判定した場合、ステップＳｔ１３の処理に戻って、新たな発話区間を検出してもよい。

　発話区間検出部２１Ａは、選択された１以上の発話音声信号のそれぞれを連結する音声連結処理を実行し、連結音声信号を生成する（Ｓｔ１７）。なお、ステップＳｔ１７の処理は、第１のユーザ認証処理方法が設定されている場合、かつ、１回目のユーザ認証の実行前である場合には、省略される。発話区間検出部２１Ａは、生成された連結音声信号を特徴量抽出部２１Ｃに出力する。

　特徴量抽出部２１Ｃは、発話区間検出部２１Ａから出力された連結音声信号からユーザＵＳ個人の発話特徴量を抽出する（Ｓｔ１８）。特徴量抽出部２１Ｃは、抽出されたユーザＵＳ個人の発話特徴量を類似度計算部２１Ｄに出力する。

　類似度計算部２１Ｄは、登録話者データベースＤＢに登録された複数のユーザのそれぞれの発話特徴量を参照し、特徴量抽出部２１Ｃから出力されたユーザＵＳ個人の発話特徴量と、登録話者データベースＤＢに登録された複数のユーザのそれぞれの発話特徴量との類似度を算出する（Ｓｔ１９）。

　類似度計算部２１Ｄは、登録話者データベースＤＢに登録された複数のユーザのうち算出された類似度が閾値以上であるユーザがいるか否かを判定する（Ｓｔ２０）。

　類似度計算部２１Ｄは、ステップＳｔ１９の処理において、登録話者データベースＤＢに登録された複数のユーザのうち算出された類似度が閾値以上であるユーザがいると判定した場合（Ｓｔ２０，ＹＥＳ）、このユーザが音声信号のユーザＵＳであると判定する（Ｓｔ２１）。なお、類似度計算部２１Ｄは、類似度が閾値以上であるユーザが複数いると判定した場合、類似度が最もユーザを音声信号のユーザＵＳであると判定してよい。

　類似度計算部２１Ｄは、ユーザが特定されたと判定した場合、特定されたユーザに関する情報（つまり、認証結果）を含む認証結果画面ＳＣを生成して、表示Ｉ／Ｆ２３を介して、情報表示部ＤＰに出力する（Ｓｔ２３）。

　一方、類似度計算部２１Ｄは、ステップＳｔ１９の処理において、登録話者データベースＤＢに登録された複数のユーザのうち算出された類似度が閾値以上であるユーザがいないと判定した場合（Ｓｔ２０，ＮＯ）、現在のユーザ認証処理回数が設定された上限回数以上であるか否かを判定する（Ｓｔ２２）。

　類似度計算部２１Ｄは、ステップＳｔ２２の処理において、現在のユーザ認証処理回数が設定された上限回数以上であると判定した場合（Ｓｔ２２，ＹＥＳ）、取得された音声信号に基づいて、ユーザ認証不可である（つまり、ユーザ認証失敗である）と判定する（Ｓｔ２４）。類似度計算部２１Ｄは、ユーザ認証不可である旨を通知する認証結果画面（不図示）を生成して、表示Ｉ／Ｆ２３を介して、情報表示部ＤＰに送信する。情報表示部ＤＰは、認証解析装置Ｐ１から送信された認証結果画面を出力（表示）する。

　類似度計算部２１Ｄは、ステップＳｔ２２の処理において、現在のユーザ認証処理回数が設定された上限回数以上でないと判定した場合（Ｓｔ２２，ＮＯ）、ステップＳｔ１３の処理に戻る。

　以上により、実施の形態１に係る認証解析装置Ｐ１は、所定のユーザ認証処理方法によって、ユーザ認証処理により適した発話音声信号を用いてユーザ認証処理を実行できる。これにより、実施の形態１に係る認証解析装置Ｐ１は、ユーザ認証精度を向上させることができる。

　以上により、実施の形態１に係る認証解析装置Ｐ１は、話者（例えば、ユーザＵＳ等）の発話音声の音声信号を取得する通信部２０（取得部の一例）と、取得された音声信号から話者が発話している第１の発話区間を検出する発話区間検出部２１Ａ（検出部の一例）と、発話区間検出部２１Ａより検出された第１の発話区間の発話音声信号（音声信号の一例）と、登録話者データベースＤＢ（データベースの一例）との照合に基づいて、話者を認証する（つまり、ユーザ認証する）類似度計算部２１Ｄ（認証部の一例）と、を備える。発話区間検出部２１Ａは、類似度計算部２１Ｄにより話者が認証不可であると判定された場合、第１の発話区間と異なる第２の発話区間を検出する。類似度計算部２１Ｄは、第１の発話区間および第２の発話区間の発話音声信号と、登録話者データベースＤＢとの照合に基づいて、話者を認証する。なお、１以上のコンピュータは、認証解析装置Ｐ１を少なくとも含んで構成される。

　これにより、実施の形態１に係る認証解析装置Ｐ１は、１つの発話区間（第１の発話区間）の発話音声信号を用いてユーザ認証できないと判定した場合、時系列順に発話音声信号を順次連結し、ユーザ認証処理に用いられる連結音声信号の信号長（発話音声長）を長くすることで個人性がより強くあらわれた発話特徴量を抽出できる。したがって、実施の形態１に係る認証解析装置Ｐ１は、各発話音声信号に含まれるユーザの発話特徴量にばらつきがあっても、ユーザ認証に用いる個人性がより強くあらわれた発話特徴量を抽出できるため、ユーザ認証精度を向上させることができる。

　また、実施の形態１に係る認証解析装置Ｐ１における発話区間検出部２１Ａは、取得された音声信号の時系列に沿って、第１の発話区間および第２の発話区間のそれぞれを検出する。これにより、実施の形態１に係る認証解析装置Ｐ１は、音声信号の時系列に沿って順次検出された複数の発話区間の発話音声信号を用いて、ユーザ認証処理を再度実行できる。

　また、実施の形態１において、第１の発話区間および第２の発話区間のそれぞれは、発話区間検出部２１Ａにより検出された連続する２つの発話区間である。これにより、１つの発話区間（つまり、第１の発話区間）の発話音声信号を用いてユーザ認証できないと判定した場合、時系列順に発話音声信号を順次連結し、ユーザ認証処理に用いられる連結音声信号の信号長（発話音声長）を長くすることで個人性がより強くあらわれた発話特徴量を抽出できる。これにより、実施の形態１に係る認証解析装置Ｐ１は、各発話音声信号に含まれるユーザの発話特徴量にばらつきがあっても、ユーザ認証に用いる個人性がより強くあらわれた発話特徴量を抽出できるため、ユーザ認証精度を向上させることができる。

　また、実施の形態１において、第１の発話区間と第２の発話区間との合計長さは、第１の所定時間（例えば、５秒以上等）以上である。これにより、実施の形態１に係る認証解析装置Ｐ１は、第１の所定時間以上の信号長を有する連結音声信号を用いることで、各発話音声信号に含まれるユーザの発話特徴量にばらつきがあっても、ユーザ認証精度を向上させることができる。

　また、実施の形態１に係る認証解析装置Ｐ１は、第１の発話区間および第２の発話区間のそれぞれの長さは、第２の所定時間（例えば、１０秒以上等）以上である。これにより、実施の形態１に係る認証解析装置Ｐ１は、例えば「はい」、「うん」等の短い発話であって、ユーザＵＳ個人の発話特徴量が小さい発話音声信号を、ユーザ認証に用いられる発話音声信号から除去することができる。したがって、認証解析装置Ｐ１は、個人性がより強くあらわれた発話特徴量を含む連結音声信号を用いたユーザ認証を実行できるため、ユーザ認証精度を向上させることができる。また、実施の形態１における認証解析装置Ｐ１は、所定時間以上の信号長を有し、ユーザ認証処理により適した発話特徴量を有する連結音声信号を用いることで、各発話音声信号に含まれるユーザの発話特徴量にばらつきがあっても、ユーザ認証精度を向上させることができる。

　また、実施の形態１に係る認証解析装置Ｐ１は、第１の発話区間に含まれる第１の文字数と、第２の発話区間に含まれる第２の文字数とを音声認識する発話区間検出部２１Ａ（認識部の一例）、をさらに備える。第１の発話区間と第２の発話区間とに含まれる合計文字数は、第１の所定文字数（例えば、２５文字等）以上である。これにより、実施の形態１に係る認証解析装置Ｐ１は、所定文字数以上の文字数を含み、ユーザ認証処理により適した発話特徴量を有する発話音声信号または連結音声信号を用いて発話音声信号を用いてユーザ認証処理を実行できる。したがって、認証解析装置Ｐ１は、個人性がより強くあらわれた発話特徴量を含む発話音声信号または連結音声信号を用いてユーザ認証を実行できるため、ユーザ認証精度を向上させることができる。

　また、実施の形態１に係る認証解析装置Ｐ１は、第１の発話区間および第２の発話区間に含まれる文字数は、それぞれ第２の所定文字数（例えば、５文字等）以上である。これにより、実施の形態１に係る認証解析装置Ｐ１は、例えば「はい」、「うん」等の文字数が少ない発話であって、ユーザＵＳ個人の発話特徴量が小さい発話音声信号をユーザ認証に用いられる発話音声信号から除去することができる。したがって、認証解析装置Ｐ１は、個人性がより強くあらわれた発話特徴量を含む発話音声信号または連結音声信号を用いてユーザ認証を実行できるため、ユーザ認証精度を向上させることができる。

　また、実施の形態１に係る認証解析装置Ｐ１は、第１の発話区間に含まれる第１の文字数と、第２の発話区間に含まれる第２の文字数とを音声認識する発話区間検出部２１Ａ、をさらに備える。類似度計算部２１Ｄは、第１の発話区間の発話音声信号に第１の文字数に基づく重み付けと、第２の発話区間の発話音声信号に第２の文字数に基づく重み付けとを実行し、重み付けされた第１の発話区間および第２の発話区間の発話音声信号と、登録話者データベースＤＢとの照合に基づいて、話者を認証する。これにより、実施の形態１に係る認証解析装置Ｐ１は、ユーザ認証処理に用いる連結音声信号の合計文字数のうち各発話音声信号に含まれる文字数が占める割合に基づいて、各発話音声信号に重み付け処理をすることで、ユーザ認証処理により適した発話特徴量を有する発話音声信号を用いてユーザ認証処理を実行できる。したがって、実施の形態１に係る認証解析装置Ｐ１は、各発話音声信号に含まれるユーザの発話特徴量にばらつきがあっても、ユーザ認証精度を向上させることができる。

　また、実施の形態１に係る認証解析装置Ｐ１は、発話区間検出部２１Ａにより音声認識された第１の文字数および第２の文字数に基づいて、第１の発話区間および第２の発話区間のそれぞれに重み付けする発話連結部２１Ｂおよび特徴量抽出部２１Ｃ（処理部の一例）、をさらに備える。発話連結部２１Ｂは、第１の文字数と第２の文字数とに基づいて、合計文字数を算出し、第１の発話区間に、合計文字数に対する第１の文字数の割合に基づく重み付けと、第２の発話区間に、合計文字数に対する第２の文字数の割合に基づく重み付けとを実行する。類似度計算部２１Ｄは、重み付け後の第１の発話区間および第２の発話区間の発話音声信号と、登録話者データベースＤＢとの照合に基づいて、話者を認証する。これにより、実施の形態１に係る認証解析装置Ｐ１は、ユーザＵＳの発話速度にばらつきが生じる場合であっても、所定話速に変換された発話音声信号を用いてユーザ認証処理を実行することで、ユーザ認証に用いる発話音声信号または連結音声信号の発話特徴量と、登録話者データベースＤＢに登録されたユーザごとの発話特徴量との類似度をより高精度に算出できるため、ユーザ認証精度をより向上させることができる。

　また、実施の形態１に係る認証解析装置Ｐ１は、第１の発話区間および第２の発話区間の発話音声信号に含まれるノイズ区間Ｎｚを検出する発話区間検出部２１Ａ（ノイズ検出部の一例）、をさらに備える。類似度計算部２１Ｄは、第１の発話区間および第２の発話区間から検出されたノイズ区間Ｎｚを削除し、ノイズ区間Ｎｚが削除された第１の発話区間および第２の発話区間の発話音声信号と、登録話者データベースＤＢとの照合に基づいて、話者を認証する。これにより、実施の形態１に係る認証解析装置Ｐ１は、発話音声信号に含まれるノイズを除去することで、ユーザ認証処理により適した発話特徴量を有する発話音声信号を用いてユーザ認証処理を実行でき、ユーザ認証精度を向上させることができる。

　また、実施の形態１における類似度計算部２１Ｄは、ノイズ区間Ｎｚを含む第１の発話区間あるいは第２の発話区間を削除する。発話区間検出部２１Ａは、第１の発話区間および第２の発話区間がともに削除された場合、第１の発話区間および第２の発話区間と異なる第３の発話区間を検出する。類似度計算部２１Ｄは、発話区間検出部２１Ａにより第３の発話区間の発話音声信号からノイズ区間Ｎｚが検出されない場合、第３の発話区間の発話音声信号と、登録話者データベースＤＢとの照合に基づいて、話者を認証する。これにより、実施の形態１に係る認証解析装置Ｐ１は、発話音声信号に含まれるノイズ区間Ｎｚを除去することにより、ユーザ認証処理により適した発話特徴量を有する発話音声信号を用いてユーザ認証処理を実行できるため、ユーザ認証精度を向上させることができる。

　また、実施の形態１における類似度計算部２１Ｄは、ノイズ区間Ｎｚを含む第１の発話区間あるいは第２の発話区間を削除する。発話区間検出部２１Ａは、第１の発話区間または第２の発話区間のいずれか一方が削除された場合、第１の発話区間および第２の発話区間と異なる第３の発話区間を検出する。類似度計算部２１Ｄは、ノイズ検出部により第３の発話区間の発話音声信号からノイズ区間が検出されない場合、ノイズ区間Ｎｚを含まない第１の発話区間または第２の発話区間のいずれか他方と第３の発話区間との発話音声信号と、登録話者データベースＤＢとの照合に基づいて、話者を認証する。これにより、実施の形態１に係る認証解析装置Ｐ１は、ノイズを含む発話区間を除去することにより、ユーザ認証処理により適した発話特徴量を有する発話音声信号を用いてユーザ認証処理を実行できるため、ユーザ認証精度を向上させることができる。

　また、実施の形態１における文字数は、モーラ数、音節数、または音素数である。これにより、実施の形態１に係る認証解析装置Ｐ１は、モーラ数、音節数、または音素数等に基づいて、ユーザ認証処理により適した発話特徴量を有する発話音声信号または連結音声信号を判定できる。したがって、認証解析装置Ｐ１は、各発話音声信号に含まれるユーザの発話特徴量にばらつきがあっても、ユーザ認証精度を向上させることができる。

　以上、図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。

　なお、本出願は、２０２１年９月２７日出願の日本特許出願（特願２０２１－１５７０４５）に基づくものであり、その内容は本出願の中に参照として援用される。

　本開示は、発話音声を用いた話者の音声認証精度を向上させる認証装置および認証方法として有用である。

２０　通信部
２１　プロセッサ
２１Ａ　発話区間検出部
２１Ｂ　発話連結部
２１Ｃ　特徴量抽出部
２１Ｄ　類似度計算部
２２　メモリ
２２Ａ　ＲＯＭ
２２Ｂ　ＲＡＭ
２３　表示Ｉ／Ｆ
１００　音声認証システム
ＤＢ　登録話者データベース
ＤＰ　情報表示部
Ｎｚ　ノイズ区間
ＯＰ１　オペレータ側通話端末
Ｐ１　認証解析装置
ＳＣ　認証結果画面
ＵＳ　ユーザ
ＵＰ１　ユーザ側通話端末

Claims

　話者の発話音声の音声信号を取得する取得部と、
　取得された前記音声信号から前記話者が発話している第１の発話区間を検出する検出部と、
　前記検出部より検出された前記第１の発話区間の音声信号と、データベースとの照合に基づいて、前記話者を認証する認証部と、を備え、
　前記検出部は、前記認証部により前記話者が認証不可であると判定された場合、前記第１の発話区間と異なる第２の発話区間を検出し、
　前記認証部は、前記第１の発話区間および前記第２の発話区間の音声信号と、前記データベースとの照合に基づいて、前記話者を認証する、
　認証装置。
　前記検出部は、取得された前記音声信号の時系列に沿って、前記第１の発話区間および前記第２の発話区間のそれぞれを検出する、
　請求項１に記載の認証装置。
　前記第１の発話区間および前記第２の発話区間のそれぞれは、前記検出部により検出された連続する２つの発話区間である、
　請求項１に記載の認証装置。
　前記第１の発話区間と前記第２の発話区間との合計長さは、第１の所定時間以上である、
　請求項１に記載の認証装置。
　前記第１の発話区間および前記第２の発話区間のそれぞれの長さは、第２の所定時間以上である、
　請求項１に記載の認証装置。
　前記第１の発話区間に含まれる第１の文字数と、前記第２の発話区間に含まれる第２の文字数とを音声認識する認識部、をさらに備え、
　前記第１の発話区間と前記第２の発話区間とに含まれる合計文字数は、第１の所定文字数以上である、
　請求項１に記載の認証装置。
　前記第１の発話区間および前記第２の発話区間に含まれる文字数は、それぞれ第２の所定文字数以上である、
　請求項６に記載の認証装置。
　前記認識部により音声認識された前記第１の文字数および前記第２の文字数に基づいて、前記第１の発話区間および前記第２の発話区間のそれぞれに重み付けする処理部、をさらに備え、
　前記処理部は、前記第１の文字数と前記第２の文字数とに基づいて、前記合計文字数を算出し、前記第１の発話区間に、前記合計文字数に対する前記第１の文字数の割合に基づく重み付けと、前記第２の発話区間に、前記合計文字数に対する前記第２の文字数の割合に基づく重み付けとを実行し、
　前記認証部は、重み付け後の第１の発話区間および第２の発話区間の音声信号と、前記データベースとの照合に基づいて、前記話者を認証する、
　請求項６に記載の認証装置。
　前記第１の発話区間の話速と前記第２の発話区間の話速とを所定話速に変換する変換部、をさらに備え、
　前記認証部は、前記所定話速に変換された第１の発話区間および第２の発話区間の音声信号と、前記データベースとの照合に基づいて、前記話者を認証する、
　請求項７に記載の認証装置。
　前記第１の発話区間および前記第２の発話区間の音声信号に含まれるノイズ区間を検出するノイズ検出部、をさらに備え、
　前記認証部は、前記第１の発話区間および前記第２の発話区間から検出された前記ノイズ区間を削除し、前記ノイズ区間が削除された第１の発話区間および第２の発話区間の音声信号と、前記データベースとの照合に基づいて、前記話者を認証する、
　請求項１に記載の認証装置。
　前記認証部は、前記ノイズ区間を含む前記第１の発話区間あるいは前記第２の発話区間を削除し、
　前記検出部は、前記第１の発話区間および前記第２の発話区間がともに削除された場合、前記第１の発話区間および前記第２の発話区間と異なる第３の発話区間を検出し、
　前記認証部は、前記ノイズ検出部により前記第３の発話区間の音声信号から前記ノイズ区間が検出されない場合、前記第３の発話区間の音声信号と、前記データベースとの照合に基づいて、前記話者を認証する、
　請求項１０に記載の認証装置。
　前記認証部は、前記ノイズ区間を含む前記第１の発話区間あるいは前記第２の発話区間を削除し、
　前記検出部は、前記第１の発話区間または前記第２の発話区間のいずれか一方が削除された場合、前記第１の発話区間および前記第２の発話区間と異なる第３の発話区間を検出し、
　前記認証部は、前記ノイズ検出部により前記第３の発話区間の音声信号から前記ノイズ区間が検出されない場合、前記ノイズ区間を含まない前記第１の発話区間または前記第２の発話区間のいずれか他方と前記第３の発話区間との音声信号と、前記データベースとの照合に基づいて、前記話者を認証する、
　請求項１０に記載の認証装置。
　前記文字数は、モーラ数、音節数、または音素数である、
　請求項６～８のいずれか１項に記載の認証装置。
　１以上のコンピュータが行う認証方法であって、
　話者の発話音声の音声信号を取得し、
　取得された前記音声信号から前記話者が発話している第１の発話区間を検出し、
　検出された前記第１の発話区間の音声信号と、データベースとの照合に基づいて、前記話者を認証し、
　前記第１の発話区間の音声信号に基づいて、前記話者が認証不可であると判定した場合、前記第１の発話区間と異なる第２の発話区間を検出し、
　前記第１の発話区間および前記第２の発話区間の音声信号と、前記データベースとの照合に基づいて、前記話者を認証する、
　認証方法。