WO2023101000A1

WO2023101000A1 - 音声登録装置および音声登録方法

Info

Publication number: WO2023101000A1
Application number: PCT/JP2022/044488
Authority: WO
Inventors: 慎太郎岡田; 鉄平福田; 正成宮本
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2021-12-03
Filing date: 2022-12-01
Publication date: 2023-06-08

Abstract

音声登録装置は、話者の発話音声の音声信号と、話者を識別可能な話者情報とを取得する取得部と、取得された音声信号と話者情報とを対応付けてデータベースに登録する登録部と、データベースに登録する音声信号の登録目標量に対して、データベースに登録される音声信号の登録進捗度を繰り返し判定する進捗度判定部と、判定された登録進捗度を通知する通知部と、を備える。

Description

音声登録装置および音声登録方法

　本開示は、音声登録装置および音声登録方法に関する。

　特許文献１には、電話帳にある電話番号と、取得された電話番号と同一の電話番号に対応する少なくとも１つ以上の声紋データの合算取得時間長が、声紋照合のために必要な時間よりも長いと判定した場合、取得した電話番号と声紋データとを対応付けて格納する通話装置が開示されている。通話装置は、受話音声を取得し、取得した受話音声から声紋データを抽出し、受話音声の取得時間を計測し、取得した電話番号が電話帳にある場合に、取得した電話番号と抽出した声紋データとを対応付けて格納する。

日本国特開２０１６－５３５９８号公報

　特許文献１には、電話帳にある電話番号と、取得された電話番号と同一の電話番号に対応する少なくとも１つ以上の声紋データの合算取得時間長が、声紋照合のために必要な時間よりも長いと判定した場合、取得した電話番号と声紋データとを対応付けて格納する通話装置が開示されている。しかし、上述した通話装置は、発話者自身の操作に基づいて、発話音声（声紋データ）の収音を行い、収音が終わったタイミングで、声紋データの合算取得時間長が声紋照合のために必要な時間よりも長いと判定した場合に発話者に声紋データを登録するか否かの選択を要求する。よって、通話装置は、声紋データの合算取得時間長が声紋照合のために必要な時間よりも短い場合、発話者が声紋データを登録しないと選択した場合には、新たな声紋データの格納を行うことができないという課題があった。

　また、声紋データの登録方法として、発話者とオペレータとの通話音声のうち発話者の音声のみを抽出し、抽出された発話者の音声を声紋データとして格納する方法がある。このような声紋データの登録方法において、オペレータは、現在取得され、格納されている発話者の声紋データの登録状況がリアルタイムで分からないため、通話中の顧客に対する応答が遅れてしまったり、通話中に十分な声紋データの取得および登録ができなかったりする可能性があった。

　本開示は、上述した従来の状況に鑑みて案出され、発話音声信号の現在の登録状況をリアルタイムで通知し、オペレータが行う発話音声信号の登録作業を支援する発話音声登録装置および発話音声登録方法を提供することを目的とする。

　本開示は、話者の発話音声の音声信号と、前記話者を識別可能な話者情報とを取得する取得部と、取得された前記音声信号と前記話者情報とを対応付けてデータベースに登録する登録部と、前記データベースに登録する音声信号の登録目標量に対して、前記データベースに登録される音声信号の登録進捗度を繰り返し判定する進捗度判定部と、判定された前記登録進捗度を通知する通知部と、を備える、音声登録装置を提供する。

　また、本開示は、１以上のコンピュータが行う音声登録方法であって、話者の発話音声の音声信号と、前記話者を識別可能な話者情報とを取得し、取得された前記音声信号と前記話者情報とを対応付けてデータベースに登録し、前記データベースに登録する音声信号の登録目標量に対して、前記データベースに登録される音声信号の登録進捗度を繰り返し判定し、判定された前記登録進捗度を通知する、音声登録方法を提供する。

　本開示によれば、発話音声信号の現在の登録状況をリアルタイムで通知し、オペレータが行う発話音声信号の登録作業を支援する。

実施の形態１に係る音声認証システムのユースケースの一例を示す図実施の形態１における認証解析装置の内部構成例を示すブロック図実施の形態１における感情識別処理例を説明する図発話音声信号の登録例を説明する図オペレータとユーザとの通話例を示す図話速変換処理例を説明する図実施の形態１における音声登録処理例を説明するフローチャート実施の形態１における音声登録処理例を説明するフローチャート新規ユーザの進捗通知画面の一例を説明する図登録済みユーザの進捗通知画面の一例を説明する図登録済みユーザの進捗通知画面の一例を説明する図実施の形態２における認証解析装置の内部構成例を示すブロック図話者の切替わり識別処理例を説明する図実施の形態２における感情識別処理例を説明する図実施の形態２における音声登録処理例を説明するフローチャート実施の形態２における音声登録処理例を説明するフローチャート実施の形態３における認証解析装置の内部構成例を示すブロック図実施の形態３における進捗度判定処理例を説明する図実施の形態３における認証解析装置の動作手順例を示すフローチャート質問例画面の一例を説明する図ユーザの進捗通知画面の一例を説明する図ユーザの進捗通知画面の一例を説明する図

（実施の形態１に至る経緯）
　特許文献１には、電話帳にある電話番号と、取得された電話番号と同一の電話番号に対応する少なくとも１つ以上の声紋データの合算取得時間長が、声紋照合のために必要な時間よりも長いと判定した場合、取得した電話番号と声紋データとを対応付けて格納する通話装置が開示されている。しかしながら、上述した通話装置は、声紋照合に用いられる１以上の声紋データを発話者ごとにまとめて格納するため、発話者の感情の昂り等がある場合の受話音声を用いて声紋照合を実行した場合には、感情により声紋データに含まれる発話者の個人性にばらつきが生じて発話者の声紋照合精度が低下する可能性があった。

　以下、適宜図面を参照しながら、本開示に係る音声登録装置および音声登録方法を具体的に開示した実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明および実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

（実施の形態１）
　まず、図１を参照して、実施の形態１に係る音声認証システム１００のユースケースについて説明する。図１は、実施の形態１に係る音声認証システム１００のユースケースの一例を示す図である。

　音声認証システム１００は、音声認証対象である人物（図１に示す例では、ユーザＵＳ）の音声信号または音声データを取得し、取得された音声信号または音声データを、ユーザＵＳごとにストレージ（図１に示す例では、登録話者データベースＤＢ）に登録（格納）する。

　また、音声認証システム１００は、音声認証対象である人物（図１に示す例では、ユーザＵＳ）の音声信号または音声データを取得し、取得された音声信号または音声データと、事前にストレージ（図１に示す例では、登録話者データベースＤＢ）に登録（格納）された複数の音声信号または音声データとを照合する。音声認証システム１００は、照合結果に基づいて、音声認証対象であるユーザとストレージに登録された音声信号または音声データとの類似度を評価し、評価された類似度に基づいて、ユーザＵＳを認証する。

　実施の形態１に係る音声認証システム１００は、オペレータ側通話端末ＯＰ１と、認証解析装置Ｐ１と、登録話者データベースＤＢと、情報表示部ＤＰと、を少なくとも含んで構成される。なお、認証解析装置Ｐ１および登録話者データベースＤＢは、一体的に構成されてよい。同様に、認証解析装置Ｐ１および情報表示部ＤＰは、一体的に構成されてよい。

　なお、図１に示す音声認証システム１００は、一例としてコールセンターにおいて話者（ユーザＵＳ）の認証に用いられる例を示し、オペレータＯＰと通話するユーザＵＳの発話音声を収音した音声データを用いてユーザＵＳの認証を行う。図１に示す音声認証システム１００は、さらにユーザ側通話端末ＵＰ１と、ネットワークＮＷとを含んで構成される。なお、音声認証システム１００の全体構成は、図１に示す例に限定されないことは言うまでもない。

　ユーザ側通話端末ＵＰ１は、オペレータ側通話端末ＯＰ１との間で、ネットワークＮＷを介して無線通信可能に接続される。なお、ここでいう無線通信は、例えばＷｉ－Ｆｉ（登録商標）などの無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）を介した通信である。

　ユーザ側通話端末ＵＰ１は、例えば、ノートＰＣ，タブレット端末，スマートフォン，電話機等により実現される。ユーザ側通話端末ＵＰ１は、マイク（不図示）を備える収音装置であり、ユーザＵＳの発話音声を収音して、音声信号に変換し、ネットワークＮＷを介して変換された音声信号をオペレータ側通話端末ＯＰ１に送信する。また、ユーザ側通話端末ＵＰ１は、オペレータ側通話端末ＯＰ１から送信されたオペレータＯＰの発話音声の音声信号を取得して、スピーカ（不図示）から出力する。

　ネットワークＮＷは、ＩＰ網または電話網であって、ユーザ側通話端末ＵＰ１とオペレータ側通話端末ＯＰ１との間で、音声信号の送受信を可能に接続する。なお、データの送受信は、有線通信または無線通信により実行される。ここでいう無線通信は、例えばＷｉ－Ｆｉ（登録商標）などの無線ＬＡＮを介した通信である。

　オペレータ側通話端末ＯＰ１は、ユーザ側通話端末ＵＰ１および認証解析装置Ｐ１との間でそれぞれ有線通信または無線通信でデータ送受信可能に接続され、音声信号の送受信を行う。

　オペレータ側通話端末ＯＰ１は、例えば、ノートＰＣ，タブレット端末，スマートフォン，電話機等により実現される。オペレータ側通話端末ＯＰ１は、ネットワークＮＷを介してユーザ側通話端末ＵＰ１から送信されたユーザＵＳの発話音声に基づく音声信号を取得し、認証解析装置Ｐ１に送信する。なお、オペレータ側通話端末ＯＰ１は、取得されたユーザＵＳの発話音声とオペレータＯＰの発話音声とを含む音声信号を取得した場合には、オペレータ側通話端末ＯＰ１の音声信号の音圧レベル、周波数帯域等の音声パラメータに基づいて、ユーザＵＳの発話音声に基づく音声信号と、オペレータＯＰの発話音声に基づく音声信号とを分離してよい。オペレータ側通話端末ＯＰ１は、分離後にユーザＵＳの発話音声に基づく音声信号のみを抽出して認証解析装置Ｐ１に送信する。

　また、オペレータ側通話端末ＯＰ１は、複数のユーザ側通話端末のそれぞれとの間で通信可能に接続され、同時に複数のユーザ側通話端末のそれぞれから音声信号を取得してもよい。オペレータ側通話端末ＯＰ１は、取得された音声信号を認証解析装置Ｐ１に送信する。これにより、音声認証システム１００は、同時に複数のユーザのそれぞれの音声認証処理、音声解析処理を実行できる。

　また、オペレータ側通話端末ＯＰ１は、同時に複数のユーザのそれぞれの発話音声を含む音声信号を取得してもよい。オペレータ側通話端末ＯＰ１は、ネットワークＮＷを介して取得された複数のユーザの音声信号からユーザごとの音声信号を抽出し、ユーザごとの音声信号をそれぞれ認証解析装置Ｐ１に送信する。このような場合、オペレータ側通話端末ＯＰ１は、複数のユーザの音声信号を解析し、音圧レベル、周波数帯域等の音声パラメータに基づいて、音声信号をユーザごとに分離して抽出してもよい。音声信号がアレイマイク等により収音された場合には、オペレータ側通話端末ＯＰ１は、発話音声の到来方向に基づいて、音声信号をユーザごとに分離して抽出してもよい。これにより、音声認証システム１００は、例えば、Ｗｅｂ会議等の同時に複数のユーザが発話する環境で収音された音声信号であっても、複数のユーザのそれぞれの音声認証処理、音声解析処理を実行できる。

　コンピュータの一例としての認証解析装置Ｐ１は、オペレータ側通話端末ＯＰ１、登録話者データベースＤＢおよび情報表示部ＤＰとの間でそれぞれデータ送受信可能に接続される。なお、認証解析装置Ｐ１は、オペレータ側通話端末ＯＰ１、登録話者データベースＤＢおよび情報表示部ＤＰとの間でネットワーク（不図示）を介して、有線通信または無線通信可能に接続されていてもよい。

　認証解析装置Ｐ１は、オペレータ側通話端末ＯＰ１から送信されたユーザＵＳの音声信号を取得し、取得された音声信号からユーザＵＳが発話している発話区間を検出する。認証解析装置Ｐ１は、検出された各発話区間の音声信号（以降、「発話音声信号」と表記）含まれるユーザＵＳの感情を識別し、識別された感情ごとに発話音声信号を抽出する。認証解析装置Ｐ１は、抽出された感情ごとの発話音声信号と、ユーザ側通話端末ＵＰ１の電話番号と対応付けて、登録話者データベースＤＢに登録（格納）する。

　認証解析装置Ｐ１は、ユーザ側通話端末ＵＰ１の電話番号が登録話者データベースＤＢに既に登録済みの電話番号であると判定した場合には、この電話番号が対応付けられた発話音声信号を、取得された新たな発話音声信号に更新する。また、認証解析装置Ｐ１は、ユーザ側通話端末ＵＰ１の電話番号が登録話者データベースＤＢに既に登録済みの電話番号でないと判定した場合には、この電話番号と、取得された感情ごとの発話音声信号とを対応付けて登録する。

　なお、本実施の形態１では、一例としてユーザ側通話端末ＵＰ１（つまり、ユーザＵＳ）の識別処理に電話番号を用いる例を示すが、例えばユーザ側通話端末ＵＰ１がＰＣ，ノートＰＣ，タブレット端末等により実現されたり、ユーザＵＳとオペレータＯＰとがウェブ会議システムを利用して通話したりする場合には、電話番号の代わりにユーザ側通話端末ＵＰ１のＩＰ（Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ）アドレス等が使用されてよい。

　また、認証解析装置Ｐ１は、オペレータ側通話端末ＯＰ１から送信されたユーザＵＳの発話音声信号を取得し、例えば周波数ごとに音声解析して、ユーザＵＳ個人の発話特徴量を抽出する。認証解析装置Ｐ１は、登録話者データベースＤＢを参照して、登録話者データベースＤＢに事前に登録された複数のユーザのそれぞれの発話特徴量と、抽出された発話特徴量とを照合して、ユーザＵＳの音声認証を実行する。認証解析装置Ｐ１は、ユーザ認証結果を含む認証結果画面ＳＣを生成して、情報表示部ＤＰに送信して出力させる。なお、図１に示す認証結果画面ＳＣは、一例であってこれに限定されないことは言うまでもない。図１に示す認証結果画面ＳＣは、ユーザ認証結果であるメッセージ「××〇〇さんの声と一致しました。」を含む。

　データベースの一例としての登録話者データベースＤＢは、所謂ストレージであって、例えばフラッシュメモリ、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）あるいはＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の記憶媒体を用いて構成される。登録話者データベースＤＢは、複数のユーザのユーザ情報と、発話特徴量とを対応付けて格納（登録）する。ここでいうユーザ情報は、ユーザに関する情報であって、例えば、ユーザ名、ユーザＩＤ（Ｉｄｅｎｔｉｆｉｃａｔｉｏｎ）、ユーザごとに割り当てられた識別情報等である。なお、登録話者データベースＤＢは、認証解析装置Ｐ１と一体的に構成されてもよい。登録話者データベースＤＢは、ユーザＵＳの感情ごとの発話音声信号と、ユーザＵＳの電話番号とを対応づけて、発話音声信号の感情に対応する第１の感情データベースＤＢ１，第２の感情データベースＤＢ２，…，第Ｎ（Ｎ：１以上の整数）の感情データベースＤＢＮのそれぞれに登録（格納）する。なお、登録話者データベースＤＢにおける感情データベースの数は、１つ以上であればよい。

　情報表示部ＤＰは、例えばＬＣＤ（Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）あるいは有機ＥＬ（Ｅｌｅｃｔｒｏｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイを用いて構成され、認証解析装置Ｐ１から送信された認証結果画面ＳＣを表示する。

　図１に示す例において、ユーザ側通話端末ＵＰ１は、ユーザＵＳの発話音声ＣＯＭ１２「××〇〇です」と、発話音声ＣＯＭ１４「１２３２４５６７８です」とを収音し、発話音声信号に変換して、オペレータ側通話端末ＯＰ１に送信する。オペレータ側通話端末ＯＰ１は、ユーザ側通話端末ＵＰ１から送信されたユーザＵＳの発話音声ＣＯＭ１２，ＣＯＭ１４のそれぞれに基づく発話音声信号を認証解析装置Ｐ１に送信する。

　なお、オペレータ側通話端末ＯＰ１は、オペレータＯＰの発話音声ＣＯＭ１１「お名前を教えてください」と、発話音声ＣＯＭ１３「会員番号を教えてください」と、ユーザＵＳの発話音声ＣＯＭ１２，ＣＯＭ１４とを収音した音声信号を取得した場合には、オペレータＯＰの発話音声ＣＯＭ１１，ＣＯＭ１３のそれぞれに基づく音声信号を分離、除去し、ユーザＵＳの発話音声ＣＯＭ１２，ＣＯＭ１４のそれぞれに基づく音声信号のみを抽出して、認証解析装置Ｐ１に送信する。これにより、認証解析装置Ｐ１は、音声認証の対象である人物の音声信号のみを用いることで、ユーザ認証精度を向上できる。

　図２を参照して、認証解析装置Ｐ１の内部構成例について説明する。図２は、実施の形態１における認証解析装置Ｐ１の内部構成例を示すブロック図である。認証解析装置Ｐ１は、通信部２０と、プロセッサ２１０と、メモリ２２と、を少なくとも含んで構成される。

　取得部の一例としての通信部２０は、オペレータ側通話端末ＯＰ１および登録話者データベースＤＢのそれぞれとの間でデータ通信可能に接続する。通信部２０は、オペレータ側通話端末ＯＰ１から送信された音声信号をプロセッサ２１０に出力する。

　プロセッサ２１０は、例えばＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）、ＧＰＵ（Ｇｒａｐｈｉｃａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の電子デバイスのうち少なくとも１つが実装された半導体チップを用いて構成される。プロセッサ２１０は、認証解析装置Ｐ１の全体的な動作を司るコントローラとして機能し、認証解析装置Ｐ１の各部の動作を統括するための制御処理、認証解析装置Ｐ１の各部との間のデータの入出力処理、データの演算処理およびデータの記憶処理を行う。

　プロセッサ２１０は、メモリ２２のＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）２２Ａに記憶されたプログラムおよびデータを用いることで、発話区間検出部２１Ａ、発話連結部２１Ｂ、特徴量抽出部２１Ｃ、類似度計算部２１Ｄ、感情識別部２１Ｅ、データベース登録部２１Ｆ、および進捗度判定部２１Ｇのそれぞれの機能を実現する。プロセッサ２１０は、動作中にメモリ２２のＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）２２Ｂを使用し、プロセッサ２１０および各部が生成あるいは取得したデータもしくは情報をメモリ２２のＲＡＭ２２Ｂに一時的に保存する。

　プロセッサ２１０は、ユーザ側通話端末ＵＰ１の電話番号（発信元番号）を取得し、取得された電話番号と、登録話者データベースＤＢに登録された複数のユーザ側通話端末の電話番号とを照合して、ユーザ側通話端末ＵＰ１（つまり、ユーザＵＳ）を特定する。プロセッサ２１０は、ユーザ側通話端末ＵＰ１を特定した場合には、登録話者データベースＤＢに登録され、ユーザ側通話端末ＵＰ１の所持者であるユーザＵＳのユーザ認証に用いられる発話音声信号の更新処理（言い換えると、新たな発話音声信号の登録処理）を実行し、ユーザＵＳを特定できなかった場合には、ユーザＵＳの電話番号とユーザ認証に用いられる発話音声信号との新規登録処理とを実行する。プロセッサ２１０は、発話音声信号の登録処理の進捗状態をオペレータＯＰに通知する進捗通知画面ＤＰ１１，ＤＰ１２Ａ，ＤＰ１２Ｂ（図９～図１１参照）を生成し、情報表示部ＤＰに出力する。

　発話区間検出部２１Ａは、取得された音声信号を解析し、ユーザＵＳが発話している発話区間を検出する。発話区間検出部２１Ａは、音声信号から検出された各発話区間に対応する発話音声信号を発話連結部２１Ｂまたは特徴量抽出部２１Ｃに出力する。また、発話区間検出部２１Ａは、各発話区間の発話音声信号をメモリ２２のＲＡＭ２２Ｂに一時的に保存してもよい。

　発話連結部２１Ｂは、発話区間検出部２１Ａにより発話音声信号から同一人物（ユーザＵＳ）の２以上の発話区間が検出された場合、これらの発話区間の発話音声信号同士を連結する。発話連結部２１Ｂは、連結後の発話音声信号を特徴量抽出部２１Ｃに出力する。なお、ユーザ認証方法については後述する。

　特徴量抽出部２１Ｃは、発話区間検出部２１Ａにより抽出された１以上の発話音声信号を用いて個人の音声の特徴を、例えば周波数ごとに解析して、発話特徴量を抽出する。なお、特徴量抽出部２１Ｃは、発話連結部２１Ｂから出力された発話音声信号の発話特徴量を抽出してもよい。特徴量抽出部２１Ｃは、抽出された発話特徴量と、この発話特徴量が抽出された発話音声信号とを対応付けて類似度計算部２１Ｄに出力したり、メモリ２２のＲＡＭ２２Ｂに一時的に保存したりする。

　類似度計算部２１Ｄは、特徴量抽出部２１Ｃから出力された発話音声信号の発話特徴量を取得する。類似度計算部２１Ｄは、登録話者データベースＤＢを参照して、登録話者データベースＤＢに登録された複数のユーザのそれぞれの発話特徴量と、取得された連結後の発話特徴量との類似度を算出する。類似度計算部２１Ｄは、算出された類似度に基づいて、発話音声信号に対応するユーザを特定してユーザ認証を実行する。

　類似度計算部２１Ｄは、ユーザ認証の結果、ユーザが特定されたと判定した場合、特定されたユーザに関する情報（つまり、認証結果）を含む認証結果画面ＳＣを生成して、表示Ｉ／Ｆ（Ｉｎｔｅｒ　Ｆａｃｅ）２３を介して、情報表示部ＤＰに出力する。

　なお、類似度計算部２１Ｄは、算出された類似度が所定値未満であると判定した場合、ユーザ認証不可であると判定し、発話連結部２１Ｂに発話音声信号の連結を要求する制御指令を生成して出力してもよい。また、類似度計算部２１Ｄは、同一人物（ユーザＵＳ）に対するユーザ認証において、ユーザ認証回数に上限回数が設定されており、ユーザ認証不可であると判定した回数が上限回数以上であると判定した場合には、ユーザ認証不可である旨を通知する認証結果画面（不図示）を生成して、情報表示部ＤＰに出力してもよい。

　感情識別部２１Ｅは、メモリ２２に記憶された感情モデルを用いて発話区間検出部２１Ａにより検出された発話音声信号を解析し、発話音声信号に対応するユーザＵＳの感情（例えば、平常，怒り，興奮，緊張，落ち込み等）を識別する。感情識別部２１Ｅは、識別された感情ごとに音声発話信号を結合し、データベース登録部２１Ｆに出力する。なお、感情識別部２１Ｅは、認証解析装置Ｐ１と別体で構成されてよい。

　データベース登録部２１Ｆは、ユーザ側通話端末ＵＰ１の電話番号と、感情識別部２１Ｅから出力された感情ごとの音声発話信号とを対応付けて、登録話者データベースＤＢのうち各感情に対応する第１の感情データベースＤＢ１，第２の感情データベースＤＢ２，…，第Ｎの感情データベースＤＢＮのそれぞれに登録（格納）する。

　進捗度判定部２１Ｇは、データベース登録部２１Ｆにより登録話者データベースＤＢに登録された発話音声信号の登録処理の進捗度を判定する。ここでいう登録処理の進捗度は、発話音声信号を用いたユーザ認証に必要な音種類数，発話長（言い換えると、発話音声信号の長さ）等の登録目標データ量に対する、登録話者データベースＤＢに登録されたユーザＵＳの発話音声信号の音種類，発話長等の現在の登録処理の割合（進捗度）である。

　メモリ２２は、例えばプロセッサ２１０が行う各種の処理を規定したプログラムとそのプログラムの実行中に使用するデータとを格納するＲＯＭ２２Ａと、プロセッサ２１０が行う各種の処理を実行する際に用いるワークメモリとしてのＲＡＭ２２Ｂと、を少なくとも有する。ＲＯＭ２２Ａには、プロセッサ２１０が行う各種の処理を規定したプログラムとそのプログラムの実行中に使用するデータとが書き込まれている。ＲＡＭ２２Ｂには、プロセッサ２１０により生成あるいは取得されたデータもしくは情報（例えば、連結前の発話音声信号、連結後の発話音声信号、連結前あるいは連結後の各発話区間に対応する発話特徴量等）が一時的に保存される。

　表示Ｉ／Ｆ２３は、プロセッサ２１０と情報表示部ＤＰとの間をデータ通信可能に接続し、プロセッサ２１０の類似度計算部２１Ｄにより生成された認証結果画面ＳＣを情報表示部ＤＰに出力する。

　次に、図３および図４を参照して、認証解析装置Ｐ１により実行される感情識別処理および発話音声信号の登録処置について説明する。図３は、実施の形態１における感情識別処理例を説明する図である。図４は、発話音声信号の登録例を説明する図である。なお、図３および図４で説明する感情識別処理方法は、実施の形態２における感情識別部２１Ｅでも同様に実行されてよい。

　なお、図３および図４で説明する感情識別処理では、一例として発話音声信号から２つの感情「感情１」，「感情２」のそれぞれを識別する例について説明するが、識別可能な感情数は１つ以上であればよい。また、「感情１」は、第１の感情データベースＤＢ１に登録（格納）される発話音声信号の感情に対応する。「感情２」は、第２の感情データベースＤＢ２に登録（格納）される発話音声信号の感情に対応する。

　感情識別部２１Ｅは、登録話者データベースＤＢが有する各感情データベースに対応する「感情１」，「感情２」のそれぞれの感情が含まれる発話音声信号の区間（時間帯）を抽出する。

　図３に示す例において、感情識別部２１Ｅは、発話音声信号に含まれるユーザＵＳの感情を解析し、閾値Ｔｈ１以上である発話音声信号の感情を「感情２」、閾値Ｔｈ１未満である発話音声信号の感情を「感情１」にそれぞれ識別する。感情識別部２１Ｅは、時間ｔ１１から時間ｔ１２までの間の時間帯ＰＲ１１の発話音声信号と、時間ｔ１３から時間ｔ１４までの間の時間帯ＰＲ１３の発話音声信号とを「感情１」，時間ｔ１２から時間ｔ１３までの間の時間帯ＰＲ１２の発話音声信号を「感情２」のそれぞれに識別する。感情識別部２１Ｅは、時間帯ＰＲ１１の発話音声信号と、時間帯ＰＲ１３の発話音声信号とを結合する。

　データベース登録部２１Ｆは、「感情１」に識別された時間帯ＰＲ１１と時間帯ＰＲ１３との発話音声信号と、ユーザＵＳの電話番号とを対応付けて第１の感情データベースＤＢ１に登録（格納）し、「感情２」に識別された時間帯ＰＲ１２の発話音声信号と、ユーザＵＳの電話番号とを対応付けて第２の感情データベースＤＢ２に登録（格納）する。ここで、データベース登録部２１Ｆは、第１の感情データベースＤＢ１あるいは第２の感情データベースＤＢ２に、それぞれ登録済みの発話音声信号があると判定した場合には、登録済みの発話音声信号を、感情識別部２１Ｅから出力された新たな発話音声信号に上書き（更新）する。

　これにより、実施の形態１における認証解析装置Ｐ１は、ユーザＵＳの発話音声信号を感情ごとに分類して登録話者データベースＤＢに登録（格納）することができる。したがって、認証解析装置Ｐ１は、通話時のユーザＵＳの感情により発話音声信号に含まれる発話者の個人性にばらつきが生じた場合であっても、登録された発話音声信号を用いたユーザ認証処理において、取得された発話音声信号に含まれる感情に類似あるいは同一の感情に識別された発話音声信号を用いることでユーザ認証精度の低下をより効果的に抑制できる。

　また、これにより、認証解析装置Ｐ１は、各感情データベースに登録（格納）された発話音声信号を、新たに取得された発話音声信号に上書き（更新）することで、より最新の個人性を含む発話音声信号を用いたユーザ認証処理によってユーザ認証精度を向上させたり、登録話者データベースＤＢの空き容量不足の発生をより効率的に抑制したりできる。

　次に、図５および図６を参照して、認証解析装置Ｐ１により実行される話速変換処理について説明する。図５は、オペレータＯＰとユーザＵＳとの通話例を示す図である。図６は、話速変換処理例を説明する図である。なお、図６に示す話速変換処理例は一例であって、これに限定されない。

　ユーザ側通話端末ＵＰ１は、ユーザＵＳの発話音声Ｕｓ１１「こんにちは」、発話音声Ｕｓ１２「暗証番号が分かりません」、発話音声Ｕｓ１３「ＩＤは１２３４５６７８です」、および発話音声Ｕｓ１４「名前は××〇〇です」を収音し、音声信号に変換してオペレータ側通話端末ＯＰ１に送信する。

　オペレータ側通話端末ＯＰ１は、オペレータＯＰの発話音声Ｏｐ１１「いかがなさいましたか」、発話音声Ｏｐ１２「はい、それではＩＤを教えてください」、および発話音声Ｏｐ１３「お名前を教えてください」を収音し、音声信号に変換してユーザ側通話端末ＵＰ１に送信する。また、オペレータ側通話端末ＯＰ１は、ユーザ側通話端末ＵＰ１から送信された音声信号を取得して、認証解析装置Ｐ１に送信する。

　認証解析装置Ｐ１における発話区間検出部２１Ａは、オペレータ側通話端末ＯＰ１から送信された音声信号からユーザＵＳの各発話音声Ｕｓ１１～Ｕｓ１４のそれぞれの発話区間を検出する。発話区間検出部２１Ａは、検出された各発話区間に対応する発話音声信号を抽出する。なお、図６では、図５に示す発話音声Ｕｓ１１に対応する発話音声信号を「発話１」、発話音声Ｕｓ１２に対応する発話音声信号を「発話２」、発話音声Ｕｓ１３に対応する発話音声信号を「発話３」、発話音声Ｕｓ１４に対応する発話音声信号を「発話４」とそれぞれ表記する。

　発話区間検出部２１Ａは、検出された発話区間の発話音声信号の話速を、所定の話速（例えば、図６に示す話速＝５．０文字／秒）になるように発話音声信号を縮小あるいは伸長し、発話音声信号の話速を変換する。これにより、認証解析装置Ｐ１は、ユーザ認証に用いる発話音声信号の発話特徴量と、登録話者データベースＤＢに登録されたユーザごとの発話特徴量との類似度をより高精度に算出できるため、ユーザ認証精度をより向上させることができる。

　以下、図６を参照してユーザＵＳの発話音声信号「発話１」～「発話４」のそれぞれの話速変換処理例について具体的に説明する。

　例えば、発話区間検出部２１Ａは、登録話者データベースＤＢへの登録（格納）に用いられるユーザＵＳの発話音声信号に音声解析を実行し、発話音声信号に含まれる文字数、発話音声信号の信号長（発話秒数）、および発話音声信号の話速のそれぞれを算出する。

　発話音声信号「発話１」は、文字数＝５文字、発話秒数（つまり発話区間）＝０．８秒、および話速＝６．２５文字／秒である。同様に、発話音声信号「発話２」は、文字数＝１６文字、発話秒数＝２．９秒、および話速＝５．５１文字／秒である。発話音声信号「発話３」は、文字数＝１６文字、発話秒数＝４．０秒、および話速＝４．０文字／秒である。また、発話音声信号「発話４」は、文字数＝１２文字、発話秒数＝３．５秒、および話速＝３．４２文字／秒である。

　このような場合、発話区間検出部２１Ａは、「発話１」の発話音声信号を発話秒数＝１．０秒、話速＝５．０文字／秒に話速変換し、「発話２」の発話音声信号を発話秒数＝３．２秒、話速＝５．０文字／秒に話速変換し、「発話３」の発話音声信号を発話秒数＝３．２秒、話速＝５．０文字／秒に話速変換し、「発話４」の発話音声信号を発話秒数＝２．４秒、話速＝５．０文字／秒に話速変換する。

　なお、発話音声信号の話速は、発話音声信号の音声認識結果により取得された文字数と発話秒数とに基づいて算出されてもよいし、モーラ数、音節数、あるいは音種類数と発話秒数とに基づいて推定されてもよい。その他、発話音声信号の話速は、音声信号の時間成分、周波数成分から直接演算処理により推定されてもよい。

　以上により、実施の形態１における認証解析装置Ｐ１は、所定話速に変換された発話音声信号を用いて、発話音声信号に含まれるユーザＵＳの感情識別処理，登録話者データベースＤＢへの発話音声信号の登録処理等を実行することにより、感情ごとにユーザ認証処理に必要な個人性を十分に含む発話音声信号の登録を実現できる。したがって、認証解析装置Ｐ１は、ユーザ認証処置においてユーザ認証精度を向上させることができる。

　次に、図７および図８を参照して、認証解析装置Ｐ１の動作手順例について説明する、図７は、実施の形態１における認証解析装置Ｐ１の動作手順例を示すフローチャートである。図８は、実施の形態１における認証解析装置Ｐ１の動作手順例を示すフローチャートである。

　認証解析装置Ｐ１における通信部２０は、オペレータ側通話端末ＯＰ１から送信されたユーザ側通話端末ＵＰ１との通話の音声信号（または音声データ）を取得する（Ｓｔ１１）。通信部２０は、取得された音声信号をプロセッサ２１０に出力する。また、通信部２０は、オペレータ側通話端末ＯＰ１から送信されたユーザ側通話端末ＵＰ１の電話番号を取得し、プロセッサ２１０に出力する（Ｓｔ１２）。なお、ここでいう電話番号は、ユーザ側通話端末ＵＰ１のＩＰアドレス等であってもよい。

　プロセッサ２１０は、通信部２０から出力されたユーザ側通話端末ＵＰ１の電話番号と、登録話者データベースＤＢに登録（格納）された複数のユーザ側通話端末の電話番号のそれぞれとを照合し、ユーザ側通話端末ＵＰ１の電話番号が登録話者データベースＤＢに登録済みであるか否かを判定し、判定結果を含む進捗通知画面を生成して情報表示部ＤＰに出力して表示させる（Ｓｔ１２）。

　具体的に、プロセッサ２１０は、ステップＳｔ１２の処理において、ユーザ側通話端末ＵＰ１の電話番号が登録話者データベースＤＢに登録済みである（つまり、登録話者データベースＤＢへの登録がある）と判定した場合、電話番号に対応付けられたユーザＵＳに関する情報（例えば、ユーザＵＳの名前，住所，年齢等）を含む進捗通知画面ＤＰ１２Ａ（図１０参照）を生成して、情報表示部ＤＰに出力する（Ｓｔ１２）。一方、プロセッサ２１０は、ステップＳｔ１２の処理において、ユーザ側通話端末ＵＰ１の電話番号が登録話者データベースＤＢに登録済みでない（つまり、登録話者データベースＤＢへの登録がない）と判定した場合、電話番号が登録済みでないことを通知する進捗通知画面ＤＰ１１（図９参照）を生成して、情報表示部ＤＰに出力する（Ｓｔ１２）。

　プロセッサ２１０は、オペレータＯＰによりユーザＵＳの発話音声信号の登録開始を要求する操作（つまり、登録開始操作）を受け付けたか否かを判定する（Ｓｔ１３）。

　プロセッサ２１０は、ステップＳｔ１３の処理において、オペレータＯＰによりユーザＵＳの発話音声信号の登録開始を要求する操作（つまり、登録開始操作）を受け付けたと判定した場合（Ｓｔ１３，ＹＥＳ）、登録話者データベースＤＢへのユーザＵＳの発話音声信号の登録開始する（Ｓｔ１４）。

　一方、プロセッサ２１０は、ステップＳｔ１３の処理において、オペレータＯＰによりユーザＵＳの発話音声信号の登録開始を要求する操作（つまり、登録開始操作）を受け付けていないと判定した場合（Ｓｔ１３，ＮＯ）、再度、ステップＳｔ１３の処理に戻り、オペレータＯＰによりユーザＵＳの発話音声信号の登録開始を要求する操作（つまり、登録開始操作）を受け付けたか否かを判定する。プロセッサ２１０は、オペレータ側通話端末ＯＰ１からユーザ側通話端末ＵＰ１とオペレータ側通話端末ＯＰ１との間の通話が終了した制御指令を取得した場合、図７に示す動作手順を終了する。

　プロセッサ２１０における発話区間検出部２１Ａは、オペレータ側通話端末ＯＰ１から送信されたユーザＵＳの音声信号からユーザＵＳが発話している発話区間を検出する（Ｓｔ１５）。

　プロセッサ２１０は、発話区間に対応する発話音声信号に含まれる文字数を音声認識する。発話区間検出部２１Ａは、音声認識された文字数と、発話音声信号の信号長（発話音声長、発話秒数等）とに基づいて、この発話音声信号の話速を算出する。プロセッサ２１０は、発話音声信号に話速変換処理を実行し、この発話音声信号の話速を所定話速に変換する（Ｓｔ１６）。なお、ステップＳｔ１６の処理は、必須でなく省略されてもよい。

　プロセッサ２１０は、検出された発話区間の情報（例えば、発話区間の開始時刻と終了時刻、文字数、信号長（発話音声長、発話秒数等）、話速変換前または話速変換後の話速等）をメモリ２２に記録する（Ｓｔ１７）。

　プロセッサ２１０は、発話音声信号に含まれるユーザＵＳの感情を解析して識別する（Ｓｔ１８）。プロセッサ２１０は、識別された発話音声信号を、感情ごとに連結する（Ｓｔ１９）。

　プロセッサ２１０は、登録話者データベースＤＢに登録される登録目標データ量に対して、現在の発話音声信号の登録処理の進捗度を判定（算出）する（Ｓｔ２０）。

　プロセッサ２１０は、現在の発話音声信号の登録処理の進捗度を示す登録進捗度情報ＩＮ１３を生成する。プロセッサ２１０は、登録進捗度情報ＩＮ１３を含む進捗通知画面ＤＰ１１，ＤＰ１２Ａ（図９，図１０参照）を生成して、情報表示部ＤＰに出力して表示させて、進捗度の判定結果をオペレータＯＰにリアルタイムで通知する（Ｓｔ２１）。

　プロセッサ２１０は、現在の進捗度が閾値以上であるか否かを判定する（Ｓｔ２２）。

　プロセッサ２１０は、ステップＳｔ２２の処理において、現在の進捗度が閾値以上であると判定した場合（Ｓｔ２２，ＹＥＳ）、登録話者データベースＤＢに電話番号が登録済みのユーザ側通話端末ＵＰ１であるか否かを判定する（Ｓｔ２３）。

　一方、プロセッサ２１０は、ステップＳｔ２２の処理において、現在の進捗度が閾値以上でないと判定した場合（Ｓｔ２２，ＮＯ）、登録処理を継続することを要求する制御指令を受け付けたか否かを判定する（Ｓｔ２４）。

　プロセッサ２１０は、ステップＳｔ２４の処理において、オペレータ側通話端末ＯＰ１から送信されたオペレータＯＰ操作に基づく制御指令に基づいて、登録処理を継続することを要求する制御指令を受け付けたと判定した場合（Ｓｔ２４，ＹＥＳ）、ステップＳｔ１５の処理に移行する。

　一方、プロセッサ２１０は、ステップＳｔ２４の処理において、オペレータ側通話端末ＯＰ１から送信されたオペレータＯＰ操作に基づく制御指令に基づいて、登録処理を継続することを要求する制御指令を受け付けていない（つまり、登録処理の中止あるいは終了を要求する制御指令を受け付けた）と判定した場合（Ｓｔ２４，ＮＯ）、ステップＳｔ３０の処理に移行し、取得された発話音声信号の登録話者データベースＤＢへの登録処理を中止する（つまり、登録失敗）（Ｓｔ３０）。

　プロセッサ２１０は、ステップＳｔ２３の処理において、進捗度判定部２１Ｇにより登録話者データベースＤＢに電話番号が登録済みのユーザ側通話端末ＵＰ１であると判定された場合（Ｓｔ２３，ＹＥＳ）、登録話者データベースＤＢに登録され、照合された電話番号が対応付けられた発話音声信号と、通話により取得された発話音声信号との類似度を算出する（Ｓｔ２５）。ここで、プロセッサ２１０は、感情識別部２１Ｅにより感情ごとに連結された発話音声信号と、登録話者データベースＤＢに登録され、かつ、この発話音声信号に含まれる感情と類似あるいは同一の感情を含む発話音声信号との類似度を算出する。

　一方、プロセッサ２１０は、進捗度判定部２１ＧによりステップＳｔ２３の処理において、登録話者データベースＤＢに電話番号が登録済みのユーザ側通話端末ＵＰ１でないと判定した場合（Ｓｔ２３，ＮＯ）、感情ごとに連結された発話音声信号と、取得されたユーザ側通話端末ＵＰ１の電話番号とを対応づけて、登録話者データベースＤＢの各感情データベースに登録（格納）し（Ｓｔ２６）、発話音声信号の登録処理を完了する（Ｓｔ２７）。

　プロセッサ２１０は、算出された類似度が閾値以上であるか否かを判定する（Ｓｔ２８）。

　プロセッサ２１０は、ステップＳｔ２８の処理において、算出された類似度が閾値以上であると判定した場合（Ｓｔ２８，ＹＥＳ）、現在、登録話者データベースＤＢに登録（格納）されているユーザ側通話端末ＵＰ１の電話番号が対応付けられた発話音声信号を、新たに取得された発話音声信号に更新（上書き）するか否かを、オペレータＯＰ操作を受け付けることで判定する（Ｓｔ２９）。

　一方、プロセッサ２１０は、ステップＳｔ２８の処理において、算出された類似度が閾値以上でないと判定した場合（Ｓｔ２８，ＮＯ）、登録話者データベースＤＢに登録された発話音声信号と取得された発話音声信号とが異なるユーザの音声であると判定し、取得された発話音声信号の登録話者データベースＤＢへの登録処理を中止する（つまり、登録失敗）（Ｓｔ３０）。

　プロセッサ２１０は、ステップＳｔ２７あるいはステップＳｔ３０の処理の後、発話音声信号の登録話者データベースＤＢへの登録処理結果を含む登録結果画面（不図示）を生成し、情報表示部ＤＰに出力して表示させる（Ｓｔ３１）。

　以上により、実施の形態１における認証解析装置Ｐ１は、ユーザＵＳの発話音声信号を感情ごとに分類して登録話者データベースＤＢに登録（格納）することができる。したがって、認証解析装置Ｐ１は、通話時のユーザＵＳの感情により発話音声信号に含まれる話者の個人性にばらつきが生じた場合であっても、登録された発話音声信号を用いたユーザ認証処理において、取得された発話音声信号に含まれる感情に類似あるいは同一の感情に識別された発話音声信号を用いることでユーザ認証精度をより向上できる。

　次に、図９を参照して、登録話者データベースＤＢに登録されていないユーザ側通話端末ＵＰ１（つまり、ユーザＵＳ）から取得された発話音声信号の登録処理の進捗通知画面について説明する。図９は、新規ユーザの進捗通知画面ＤＰ１１の一例を説明する図である。なお、図９に示す進捗通知画面ＤＰ１１は一例であって、これに限定されないことは言うまでもない。

　進捗通知画面ＤＰ１１は、登録されていないユーザ側通話端末ＵＰ１（つまり、ユーザＵＳ）の発話音声信号の登録処理の進捗状況をオペレータＯＰに通知する画面であって、プロセッサ２１０により生成されて、情報表示部ＤＰにより表示される。進捗通知画面ＤＰ１１は、ユーザ情報欄ＩＮ１１と、登録名入力欄ＩＦ１１と、音声信号グラフＩＮ１２と、登録進捗度情報ＩＮ１３と、話者登録ボタンＢＴ１１と、を含む。

　ユーザ情報欄ＩＮ１１は、ユーザ側通話端末ＵＰ１の電話番号，ＩＰアドレス等に対応付けて登録（格納）されたユーザＵＳに関する情報を含む。図９に示すユーザ情報欄ＩＮ１１は、例えば、ユーザ側通話端末ＵＰ１の電話番号，ＩＰアドレス等の発信元番号「××－××××－××××」、ユーザ側通話端末ＵＰ１の電話番号が登録済みであるか否かを示す登録有無情報「登録なし（新規）」、ユーザＵＳの名前「なし」、ユーザＵＳの住所「なし」、ユーザＵＳの年齢「なし」、話者登録有無情報「なし」等の情報を含んで生成される。

　登録名入力欄ＩＦ１１は、登録話者データベースＤＢに登録されるユーザ名についてオペレータ操作を受け付け可能な入力欄である。なお、登録名入力欄ＩＦ１１は、ユーザ情報欄ＩＮ１１に含まれるユーザＵＳに関する情報を入力可能であってよい。

　音声信号グラフＩＮ１２は、検出された発話区間の発話音声信号ＳＧ１２に、発話音声信号ＳＧ１２に含まれるユーザＵＳの感情識別結果を重畳して表示する。

　登録進捗度情報ＩＮ１３は、登録話者データベースＤＢに登録される登録目標データ量に対する現在の発話音声信号の登録処理の進捗度ＩＮ１３１と、発話音声信号に含まれる音種類数「Ｘ」および発話長（信号長）「Ｘ」のそれぞれと、を含む。

　話者登録ボタンＢＴ１１は、オペレータＯＰによる登録話者データベースＤＢへの発話音声信号の登録処理の開始操作または停止操作を受け付ける。話者登録ボタンＢＴ１１は、オペレータＯＰ操作により、登録話者データベースＤＢへの発話音声信号の登録処理の開始操作を受け付けた場合には、登録話者データベースＤＢに登録されていないユーザ側通話端末ＵＰ１（つまり、ユーザＵＳ）から取得された発話音声信号の登録処理を実行する。また、話者登録ボタンＢＴ１１は、オペレータＯＰ操作により、登録話者データベースＤＢへの発話音声信号の登録処理の停止操作を受け付けた場合には、登録話者データベースＤＢに登録されていないユーザ側通話端末ＵＰ１から取得された発話音声信号の登録処理を中止する。

　次に、図１０および図１１を参照して、登録話者データベースＤＢに登録済みのユーザ側通話端末ＵＰ１（つまり、ユーザＵＳ）の発話音声信号の登録処理の進捗通知画面について説明する。図１０は、登録済みユーザの進捗通知画面ＤＰ１２Ａの一例を説明する図である。図１１は、登録済みユーザの進捗通知画面ＤＰ１２Ｂの一例を説明する図である。なお、図１０に示す進捗通知画面ＤＰ１２Ａと、図１１に示す進捗通知画面ＤＰ１２Ｂのそれぞれは一例であって、これに限定されないことは言うまでもない。

　進捗通知画面ＤＰ１２Ａは、登録話者データベースＤＢに登録済みのユーザ側通話端末ＵＰ１（つまり、ユーザＵＳ）から取得された発話音声信号の登録処理の進捗状況をオペレータＯＰに通知する画面であって、プロセッサ２１０により生成されて、情報表示部ＤＰにより表示される。進捗通知画面ＤＰ１２Ａは、ユーザ情報欄ＩＮ１４と、登録名入力欄ＩＦ１１と、音声信号グラフＩＮ１５と、登録進捗度情報ＩＮ１３と、話者登録ボタンＢＴ１２と、を含む。

　ユーザ情報欄ＩＮ１４は、ユーザ側通話端末ＵＰ１の電話番号，ＩＰアドレス等に対応付けて登録（格納）されたユーザＵＳに関する情報を含む。図１０に示すユーザ情報欄ＩＮ１４は、例えば、ユーザ側通話端末ＵＰ１の電話番号，ＩＰアドレス等の発信元番号「〇〇－〇〇〇〇－〇〇〇〇」、ユーザ側通話端末ＵＰ１の電話番号が登録済みであるか否かを示す登録有無情報「登録あり」、ユーザＵＳの名前「○○　〇〇」、ユーザＵＳの住所「〇〇〇〇〇〇」、ユーザＵＳの年齢「〇〇」、話者登録有無情報「有」等の情報を含んで生成される。

　音声信号グラフＩＮ１５は、検出された発話区間の発話音声信号ＳＧ１３に、発話音声信号ＳＧ１３に含まれるユーザＵＳの感情識別結果を重畳して表示する。

　話者登録ボタンＢＴ１２は、オペレータＯＰによる登録話者データベースＤＢへの発話音声信号の登録処理の開始操作または停止操作を受け付ける。話者登録ボタンＢＴ１２は、オペレータＯＰ操作により、登録話者データベースＤＢへの発話音声信号の登録処理の開始操作を受け付けた場合には、現在、登録話者データベースＤＢに登録されている発話音声信号を、取得された発話音声信号に更新（上書き）する。また、話者登録ボタンＢＴ１２は、オペレータＯＰ操作により、登録話者データベースＤＢへの発話音声信号の登録処理の停止操作を受け付けた場合には、登録話者データベースＤＢへの発話音声信号の登録処理を中止する。

　進捗通知画面ＤＰ１２Ｂは、進捗度判定部２１Ｇにより取得された発話音声信号が、登録目標量に到達した（進捗度が閾値以上である）と判定した場合にプロセッサ２１０により生成されて、情報表示部ＤＰにより表示される画面である。進捗通知画面ＤＰ１２Ｂは、進捗通知画面ＤＰ１２Ａに含まれる各種情報に加えて、新たに更新通知情報ＩＮ１６を含んで生成される。

　ここで、更新通知情報ＩＮ１６は、進捗度判定部２１Ｇにより取得された発話音声信号が、登録目標量に到達した（進捗度が閾値以上である）と判定した場合に生成されてもよいし、話者登録ボタンＢＴ１１は、オペレータＯＰ操作により、登録話者データベースＤＢへの発話音声信号の登録処理の開始操作を受け付けた場合に生成されてもよい。

　更新通知情報ＩＮ１６は、メッセージＭＳＧ１１「○○　〇〇さんの感情１は既に登録があり、同一話者であることを確認しました。データベースを更新しますか？」と、更新ボタンＢＴ１３と、登録中止ボタンＢＴ１４とを含む。

　プロセッサ２１０は、オペレータＯＰ操作により更新ボタンＢＴ１３が押下（選択）された場合、登録話者データベースＤＢに既に登録済みの発話音声信号を、取得された発話音声信号に更新する。

　以上により、実施の形態１における認証解析装置Ｐ１は、話者（つまり、ユーザ）の発話音声の音声信号を取得する通信部２０（取得部の一例）と、音声信号に含まれる話者の少なくとも１つの感情を識別する感情識別部２１Ｅと、感情識別部２１Ｅによる識別結果に基づいて、感情ごとの音声信号（つまり、発話音声信号）を登録話者データベースＤＢ（データベースの一例）に登録するデータベース登録部２１Ｆ（登録部の一例）と、を備える。

　また、以上により、実施の形態１における認証解析装置Ｐ１における登録話者データベースＤＢは、感情のそれぞれに対応する複数の感情データベース（例えば、図２に示す第１の感情データベースＤＢ１，第２の感情データベースＤＢ２，…，第Ｎの感情データベースＤＢＮ）を備える。データベース登録部２１Ｆは、感情に対応する感情データベースに、感情ごとの音声信号を登録する。これにより、実施の形態１における認証解析装置Ｐ１は、音声信号を感情ごとに管理できるため、通話時のユーザＵＳの感情に対応する感情データベースを参照することで、ユーザ認証処理において登録済みの発話音声信号を用いることができる。したがって、認証解析装置Ｐ１は、ユーザ認証精度を向上できる。

　また、以上により、実施の形態１における認証解析装置Ｐ１における通信部２０は、発話音声と、発話音声の話者を識別可能な話者情報とを取得する。データベース登録部２１Ｆは、感情に対応する感情データベースに、感情ごとの音声信号と、話者情報とを対応付けて登録する。これにより、実施の形態１における認証解析装置Ｐ１は、各感情データベースに、それぞれの感情の発話音声信号を登録した場合であっても、同一話者の発話音声信号を管理できる。

　また、以上により、実施の形態１における認証解析装置Ｐ１におけるデータベース登録部２１Ｆは、感情データベースに登録された話者情報のうち取得された話者情報と同一の話者情報があると判定した場合、感情データベースに登録済みであって、同一の話者情報の音声信号を感情ごとに識別された音声信号に更新する。これにより、実施の形態１における認証解析装置Ｐ１は、各感情データベースに登録（格納）された発話音声信号を、新たに取得された発話音声信号に上書き（更新）することで、登録話者データベースＤＢの空き容量不足の発生をより効率的に抑制できる。

　また、以上により、実施の形態１における認証解析装置Ｐ１は、データベース登録部２１Ｆにより感情データベースに登録された話者情報のうち取得された話者情報と同一の話者情報があると判定した場合、同一の話者情報の音声信号と、取得された音声信号との類似度を算出する類似度計算部２１Ｄ、をさらに備える。データベース登録部２１Ｆは、判定された類似度が閾値以上であると判定した場合、感情データベースに登録済みの音声信号を識別された音声信号に更新する。これにより、実施の形態１における認証解析装置Ｐ１は、類似度に基づいて、同一話者であると判定された話者情報が対応付けられ、各感情データベースに登録（格納）された発話音声信号を、新たに取得された発話音声信号に上書き（更新）できる。

　また、以上により、実施の形態１における認証解析装置Ｐ１におけるデータベース登録部２１Ｆは、算出された類似度が閾値以上でないと判定した場合、感情データベースに登録済みの音声信号の更新を省略する。これにより、実施の形態１における認証解析装置Ｐ１は、類似度に基づいて、同一人物でないと判定された場合には、各感情データベースに登録（格納）された発話音声信号の上書き（更新）を省略できる。

　また、以上により、実施の形態１における認証解析装置Ｐ１におけるデータベース登録部２１Ｆは、感情データベースに登録された話者情報のうち取得された話者情報と同一の話者情報がないと判定した場合、感情ごとに識別された音声信号を対応する感情データベースに登録する。これにより、実施の形態１における認証解析装置Ｐ１は類似度に基づいて、同一話者の発話音声信号が登録されていないと判定した場合には、取得された感情ごとの発話音声信号を、この話者の新たな発話音声信号として各感情データベースに登録（格納）できる。

　また、以上により、実施の形態１における認証解析装置Ｐ１は、通信部２０により取得された音声信号を所定話速に変換する発話区間検出部２１Ａ（変換部の一例）、をさらに備える。発話区間検出部２１Ａは、所定話速に変換された音声信号を用いて感情を識別する。これにより、実施の形態１における認証解析装置Ｐ１は、話者の話速にばらつきが生じた場合であっても、話速を所定話速に変換することで、ユーザ認証精度を向上できる。

　また、以上により、実施の形態１における認証解析装置Ｐ１において、話者情報は、発話音声を収音するユーザ側通話端末ＵＰ１（収音装置の一例）の電話番号である。これにより、実施の形態１における認証解析装置Ｐ１は、他の話者によるなりすましをより効果的に抑制できる。

（実施の形態２に至る経緯）
　特許文献１には、電話帳にある電話番号と、取得された電話番号と同一の電話番号に対応する少なくとも１つ以上の声紋データの合算取得時間長が、声紋照合のために必要な時間よりも長いと判定した場合、取得した電話番号と声紋データとを対応付けて格納する通話装置が開示されている。しかし、同一の電話番号であっても、例えば電話番号に対応する発話者と、この発話者以外の声紋データとが入れ替わって発話する場合がある。このような場合、通話装置は、異なる複数の発話者の声紋データを、取得された電話番号に対応して格納するため、声紋照合時に声紋照合精度が低下する可能性があった。

　そこで、以下の実施の形態２では、通話中の発話者の切替わりを検出し、音声認証に用いられる発話音声を収集する発話音声登録装置および発話音声登録方法の例を説明する。なお、以下の説明において、実施の形態１と同一の構成要素については同一の符号を用いることで、その説明を省略する。

（実施の形態２）
　図１２を参照して、実施の形態２における認証解析装置Ｐ１Ａの内部構成例を示すブロック図について説明する。図１２は、実施の形態２における認証解析装置Ｐ１Ａの内部構成例を示すブロック図である。

　実施の形態２における認証解析装置Ｐ１Ａは、コンピュータの一例であって、通話中の話者の切替わりを検出し、発話音声信号から登録話者データベースＤＢへの登録対象であるユーザＵＳの発話音声信号を抽出する。認証解析装置Ｐ１Ａは、抽出されたユーザＵＳの発話音声信号に含まれる感情を解析して識別し、識別された感情ごとの発話音声信号を、対応する感情データベースに登録（格納）する。

　実施の形態２における認証解析装置Ｐ１Ａのプロセッサ２１１は、発話区間検出部２１Ａ、発話連結部２１Ｂ、特徴量抽出部２１Ｃ、類似度計算部２１Ｄ、感情識別部２１Ｅ、データベース登録部２１Ｆ、進捗度判定部２１Ｇ、および話者切替わり識別部２１Ｈのそれぞれの機能を実現する。

　話者切替わり識別部２１Ｈは、オペレータ側通話端末ＯＰ１から送信され、発話区間検出部２１Ａにより検出された発話音声信号のうち直近で検出された複数の発話音声信号のそれぞれを連結した直近連結信号を生成する。話者切替わり識別部２１Ｈは、生成された直近連結信号と、登録話者データベースＤＢに登録されたユーザＵＳの発話音声信号との類似度を判定する。話者切替わり識別部２１Ｈは、直近連結信号の生成処理と、類似度の判定処理とを繰り返し実行し、判定された類似度、あるいは類似度の変化に基づいて、話者の切替わりを判定する。

　話者切替わり識別部２１Ｈは、話者の切替わりが判定されたタイミングに基づいて、登録話者データベースＤＢへの発話音声信号の登録対象であるユーザＵＳの発話音声信号を抽出し、抽出されたすべての発話音声信号のそれぞれを連結した長時間連結信号を生成し、データベース登録部２１Ｆに出力する。

　データベース登録部２１Ｆは、話者切替わり識別部２１Ｈから出力された長時間連結信号と、感情識別部２１Ｅから出力された各発話区間のそれぞれに対応する発話音声信号の感情識別結果とに基づいて、登録話者データベースＤＢの各感情データベースに発話音声信号を登録（格納）する。

　次に、図１３を参照して、話者切替わり識別部２１Ｈにより実行される話者の切替わり識別処理について説明する。図１３は、話者の切替わり識別処理例を説明する図である。なお、図１３で説明する話者の切替わり識別処理は、一例であってこれに限定されない。例えば、直近連結信号に含まれる発話音声信号の数は３つに限定されない。なお、図１３の説明において、ユーザ側通話端末ＵＰ１の所持者はユーザＡである。

　図１３に示す例において、ユーザ側通話端末ＵＰ１の所持者であるユーザＡは、オペレータＯＰとの通話中にユーザ側通話端末ＵＰ１をユーザＢに渡す。これにより、オペレータ側通話端末ＯＰ１から送信される音声信号は、ユーザＡの発話音声からユーザＢの発話音声に切り替わる。

　発話音声信号Ｕｓ２１，Ｕｓ２２，Ｕｓ２３，Ｕｓ２４，Ｕｓ２５のそれぞれは、ユーザＡの発話音声信号である。各発話音声信号Ｕｓ２１～Ｕｓ２５のそれぞれに対応する「発話Ａ１」～「発話Ａ５」のそれぞれは、発話区間検出部２１Ａにより検出された各発話区間の発話音声信号を示す。

　発話音声信号Ｕｓ３１，Ｕｓ３２，Ｕｓ３３，Ｕｓ３４のそれぞれは、ユーザＢの発話音声信号である。各発話音声信号Ｕｓ３１～Ｕｓ３４のそれぞれに対応する「発話Ｂ１」～「発話Ｂ４」のそれぞれは、発話区間検出部２１Ａにより検出された発話音声信号を示す。

　認証解析装置Ｐ１における発話区間検出部２１Ａは、オペレータ側通話端末ＯＰ１から送信された音声信号からユーザＡおよびユーザＢの発話区間「発話Ａ１」～「発話Ａ５」および発話区間「発話Ｂ１」～「発話Ｂ４」をそれぞれ検出する。

　プロセッサ２１１は、オペレータＯＰによりユーザＡの発話音声信号の登録開始を要求する操作（つまり、登録開始操作）を受け付けたと判定したタイミングで、登録話者データベースＤＢへのユーザＡの発話音声信号の登録を開始する。

　プロセッサ２１１は、オペレータ側通話端末ＯＰ１から送信されたユーザ側通話端末ＵＰ１の電話番号と、登録話者データベースＤＢに登録された複数のユーザ側通話端末のそれぞれの電話番号とを照合し、ユーザ側通話端末ＵＰ１の所持者であるユーザＡを特定する。

　話者切替わり識別部２１Ｈは、発話区間検出部２１Ａにより直近に検出された３つの発話区間「発話Ａ２」～「発話Ａ４」のそれぞれを連結した直近連結信号ＭＬ１１と、登録話者データベースＤＢに登録されたユーザＡの発話音声信号との類似度を判定する。このとき、直近連結信号ＭＬ１１がすべてユーザＡの発話音声から構成されており、所定の閾値以上の類似度であるため、話者切替わり識別部２１Ｈは、直近連結信号ＭＬ１１の類似度を「高」と判定する。話者切替わり識別部２１Ｈは、１回目の類似度の判定に用いられた直近連結信号ＭＬ１１と、１回目に判定された類似度とを対応付けてメモリ２２に記録する。

　話者切替わり識別部２１Ｈは、発話区間検出部２１Ａにより直近に検出された３つの発話区間「発話Ａ３」～「発話Ａ５」のそれぞれを連結した直近連結信号ＭＬ１２と、登録話者データベースＤＢに登録されたユーザＡの発話音声信号との類似度を判定する。このとき、直近連結信号ＭＬ１２がすべてユーザＡの発話音声から構成されており、所定の閾値以上の類似度であるため、話者切替わり識別部２１Ｈは、直近連結信号ＭＬ１２の類似度を「高」と判定する。話者切替わり識別部２１Ｈは、２回目の類似度の判定に用いられた直近連結信号ＭＬ１２と、２回目に判定された類似度とを対応付けてメモリ２２に記録する。

　話者切替わり識別部２１Ｈは、１回目の類似度判定処理により判定された類似度と、２回目の類似度判定処理により判定された類似度との変化に基づいて、ユーザ側通話端末ＵＰ１の話者が切り替わったか否かを判定する。直近連結信号ＭＬ１１の類似度が「高」であり、直近連結信号ＭＬ１２の類似度も「高」であるため、図１３における話者切替わり識別部２１Ｈは、直近連結信号ＭＬ１１の話者と直近連結信号ＭＬ１２の話者とが切り替わっていないと判定する。

　話者切替わり識別部２１Ｈは、発話区間検出部２１Ａにより直近に検出された３つの発話区間「発話Ａ４」～「発話Ｂ１」のそれぞれを連結した直近連結信号ＭＬ１３と、登録話者データベースＤＢに登録されたユーザＡの発話音声信号との類似度を判定する。このとき、直近連結信号ＭＬ１３がユーザＡとユーザＢとの発話音声から構成されており、所定の閾値未満の類似度であるため、話者切替わり識別部２１Ｈは、直近連結信号ＭＬ１３の類似度を「低」と判定する。話者切替わり識別部２１Ｈは、３回目の類似度の判定に用いられた直近連結信号ＭＬ１３と、３回目に判定された類似度とを対応付けてメモリ２２に記録する。

　話者切替わり識別部２１Ｈは、２回目の類似度判定処理により判定された類似度と、３回目の類似度判定処理により判定された類似度との変化に基づいて、ユーザ側通話端末ＵＰ１の話者が切り替わったか否かを判定する。直近連結信号ＭＬ１２の類似度が「高」であり、直近連結信号ＭＬ１３の信頼度が「低」であるため、図１３における話者切替わり識別部２１Ｈは、直近連結信号ＭＬ１２の話者と直近連結信号ＭＬ１３の話者とが切り替わったと判定する。

　話者切替わり識別部２１Ｈは、発話区間検出部２１Ａにより直近に検出された３つの発話区間「発話Ａ５」～「発話Ｂ２」のそれぞれを連結した直近連結信号ＭＬ１４と、登録話者データベースＤＢに登録されたユーザＡの発話音声信号との類似度を判定する。このとき、直近連結信号ＭＬ１４がユーザＡとユーザＢとの発話音声から構成されており、所定の閾値未満の類似度であるため、話者切替わり識別部２１Ｈは、直近連結信号ＭＬ１４の信頼度を「低」と判定する。話者切替わり識別部２１Ｈは、４回目の類似度の判定に用いられた直近連結信号ＭＬ１４と、４回目に判定された類似度とを対応付けてメモリ２２に記録する。

　話者切替わり識別部２１Ｈは、３回目の類似度判定処理により判定された類似度と、４回目の類似度判定処理により判定された類似度との変化に基づいて、ユーザ側通話端末ＵＰ１の話者が切り替わったか否かを判定する。直近連結信号ＭＬ１３の類似度が「低」であり、直近連結信号ＭＬ１４の信頼度も「低」であるため、図１３における話者切替わり識別部２１Ｈは、直近連結信号ＭＬ１３の話者と直近連結信号ＭＬ１４の話者とが切り替わっていないと判定する。

　話者切替わり識別部２１Ｈは、発話区間検出部２１Ａにより直近に検出された３つの発話区間「発話Ｂ１」～「発話Ｂ３」のそれぞれを連結した直近連結信号ＭＬ１５と、登録話者データベースＤＢに登録されたユーザＡの発話音声信号との類似度を判定する。このとき、直近連結信号ＭＬ１５がすべてユーザＢの発話音声から構成されており、所定の閾値未満の類似度であるため、話者切替わり識別部２１Ｈは、直近連結信号ＭＬ１５の類似度を「低」と判定する。話者切替わり識別部２１Ｈは、５回目の類似度の判定に用いられた直近連結信号ＭＬ１５と、５回目に判定された類似度とを対応付けてメモリ２２に記録する。

　話者切替わり識別部２１Ｈは、４回目の類似度判定処理により判定された類似度と、５回目の類似度判定処理により判定された類似度との変化に基づいて、ユーザ側通話端末ＵＰ１の話者が切り替わったか否かを判定する。直近連結信号ＭＬ１４の類似度が「低」であり、直近連結信号ＭＬ１５の類似度が「低」であるため、図１３における話者切替わり識別部２１Ｈは、直近連結信号ＭＬ１４の話者と直近連結信号ＭＬ１５の話者とが切り替わっていないと判定する。

　話者切替わり識別部２１Ｈは、発話区間検出部２１Ａにより直近に検出された３つの発話区間「発話Ｂ２」～「発話Ｂ４」のそれぞれを連結した直近連結信号ＭＬ１６と、登録話者データベースＤＢに登録されたユーザＡの発話音声信号との類似度を判定する。このとき、直近連結信号ＭＬ１６がすべてユーザＢの発話音声から構成されており、所定の閾値未満の類似度であるため、話者切替わり識別部２１Ｈは、直近連結信号ＭＬ１６の類似度を「低」と判定する。話者切替わり識別部２１Ｈは、６回目の類似度の判定に用いられた直近連結信号ＭＬ１６と、６回目に判定された類似度とを対応付けてメモリ２２に記録する。

　話者切替わり識別部２１Ｈは、５回目の類似度判定処理により判定された類似度と、６回目の類似度判定処理により判定された類似度との変化に基づいて、ユーザ側通話端末ＵＰ１の話者が切り替わったか否かを判定する。直近連結信号ＭＬ１５の類似度が「低」であり、直近連結信号ＭＬ１６の類似度も「低」であるため、図１３における話者切替わり識別部２１Ｈは、直近連結信号ＭＬ１５の話者と直近連結信号ＭＬ１６の話者とが切り替わっていないと判定する。

　話者切替わり識別部２１Ｈは、判定された類似度に基づいて、ユーザＡであると判定された直近連結信号ＭＬ１２までの発話音声信号Ｕｓ２１～Ｕｓ２５のそれぞれを連結した長時間連結信号ＬＴ１２を生成して、データベース登録部２１Ｆに出力する。

　データベース登録部２１Ｆは、感情識別部２１Ｅから出力された発話音声信号ごとの感情識別結果に基づいて、話者切替わり識別部２１Ｈから出力された長時間連結信号ＬＴ１２と、ユーザ側通話端末ＵＰ１の電話番号とを対応付けて、登録話者データベースＤＢの各感情データベースに登録（格納）する。

　なお、実施の形態２における話者切替わり識別部２１Ｈは、類似度判定処理を実行するたびに、類似度判定処理が開始された時の発話区間から類似度判定処理に用いられた直近の発話区間までのすべての発話音声信号を連結した長時間連結信号ＬＴ１１，ＬＴ１２，ＬＴ１３，ＬＴ１４，ＬＴ１５，ＬＴ１６のそれぞれを生成してもよい。

　また、話者切替わり識別部２１Ｈは、類似度が所定値以上であって、かつ、話者が切替わっていないと判定した場合、この発話区間までのすべての発話音声信号を連結した長時間連結信号を生成し、データベース登録部２１Ｆに出力してもよい。

　次に、図１４を参照して、実施の形態２における感情識別処理を説明する。図１４は、実施の形態２における感情識別処理例を説明する図である。なお、図１４で説明する感情識別処理方法は、実施の形態１における感情識別部２１Ｅでも同様に実行されてよい。

　なお、図１４で説明する感情識別処理は、一例として感情が含まれる（つまり、平常でない）発話音声信号と、感情が含まれていない（つまり、平常である）発話音声信号とを識別する例について説明するがこれに限定されない。例えば、感情識別部２１Ｅは、所定の感情（例えば、怒り）が含まれる発話音声信号と、所定の感情が含まれていない発話音声信号とを識別してもよいし、２つ以上の所定の感情（例えば、怒り，興奮）が含まれる発話音声信号と、これら２つ以上の所定の感情が含まれていない発話音声信号とを識別してもよい。また、感情識別部２１Ｅは、これら２つ以上の所定の感情が含まれていない発話音声信号にさらに感情識別処理を実行することにより、各感情データベースに対応する感情を識別してもよい。

　感情識別部２１Ｅは、取得された発話音声信号ＳＧ２１からユーザＵＳの感情を識別し、感情が含まれる発話音声信号の時間帯ＰＲ２２と、感情が含まれない発話音声信号の時間帯ＰＲ２１，ＰＲ２３のそれぞれとを抽出する。

　図１４に示す例において、感情識別部２１Ｅは、発話音声信号ＳＧ２１に含まれるユーザＵＳの感情を解析し、閾値Ｔｈ２以上である発話音声信号には感情が含まれていると判定し、閾値Ｔｈ１未満である発話音声信号には感情が含まれていないと判定する。感情識別部２１Ｅは、時間ｔ４１から時間ｔ４２までの間の時間帯ＰＲ２１の発話音声信号と、時間ｔ４３から時間ｔ４４までの間の時間帯ＰＲ２３の発話音声信号とを「感情なし」，時間ｔ４２から時間ｔ４３までの間の時間帯ＰＲ２２の発話音声信号を「感情あり」のそれぞれに識別する。感情識別部２１Ｅは、時間帯ＰＲ２１の発話音声信号と、時間帯ＰＲ２３の発話音声信号とを結合して、データベース登録部２１Ｆに出力する。

　データベース登録部２１Ｆは、感情識別部２１Ｅから出力された発話音声信号と、ユーザ側通話端末ＵＰ１の電話番号とを対応付けて、登録話者データベースＤＢに登録（格納）する。

　これにより、実施の形態２における認証解析装置Ｐ１は、ユーザＵＳの発話音声信号に含まれる感情に基づいて、ユーザ認証処理により適した発話音声信号（図１４では感情を含まない発話音声信号）のみを抽出し、登録話者データベースＤＢに登録（格納）できる。したがって、認証解析装置Ｐ１は、通話時のユーザＵＳの感情により発話音声信号に含まれる話者の個人性にばらつきが生じた場合であっても、登録された発話音声信号を用いたユーザ認証処理において、感情を含まない発話音声信号を用いることでユーザ認証精度の低下をより効果的に抑制できる。

　また、これにより、認証解析装置Ｐ１は、登録話者データベースＤＢに登録（格納）された発話音声信号を、新たに取得された発話音声信号に上書き（更新）することで、より最新の個人性を含む発話音声信号を用いたユーザ認証処理によってユーザ認証精度を向上させたり、登録話者データベースＤＢの空き容量不足の発生をより効率的に抑制したりできる。

　次に、図１５および図１６のそれぞれを参照して、実施の形態２における認証解析装置Ｐ１Ａの動作手順について説明する。図１５は、実施の形態２における音声登録処理例を説明するフローチャートである。図１６は、実施の形態２における音声登録処理例を説明するフローチャートである。なお、図１５および図１６の説明において、図７および図８に示す実施の形態１における認証解析装置Ｐ１の動作手順と同一の処理については、説明を省略する。

　認証解析装置Ｐ１Ａのプロセッサ２１１は、各発話区間の発話音声信号に含まれる発話特徴量を抽出する（Ｓｔ３２）。

　プロセッサ２１１は、発話区間検出部２１Ａにより直近で検出された数回分の発話区間のそれぞれの発話音声信号を連結して直近連結信号を生成する。プロセッサ２１１は、ユーザ側通話端末ＵＰ１の電話番号と、登録話者データベースＤＢに登録された複数のユーザ側通話端末のそれぞれの電話番号とを照合する。プロセッサ２１１は、生成された直近連結信号と、照合の結果、登録話者データベースＤＢでユーザ側通話端末ＵＰ１の電話番号と同一の電話番号に対応付けられた各感情の発話音声信号との類似度を判定する。プロセッサ２１１は、判定された類似度の変化に基づいて、話者が切り替わった否か（話者切替わり識別）を判定する（Ｓｔ３３）。なお、ここでプロセッサ２１１は、類似度の判定処理が１回目である場合、話者切替わり識別処理を省略してもよい。

　プロセッサ２１１は、類似度が閾値以上である発話音声信号と、ユーザ側通話端末ＵＰ１の電話番号とを対応付けて、登録話者データベースＤＢの各感情データベースに登録（格納）する（Ｓｔ３４）。なお、プロセッサ２１１は、ステップＳｔ３４の処理において、判定された類似度が閾値以上でないと判定した場合、登録話者データベースＤＢの各感情データベースへの発話音声信号の登録（格納）処理を省略する。

　プロセッサ２１１は、登録目標データ量の発話音声信号が登録話者データベースＤＢに登録完了したか否かを判定する（Ｓｔ３５）。

　プロセッサ２１１は、ステップＳｔ３５の処理において、登録目標データ量の発話音声信号が登録話者データベースＤＢに登録完了したと判定した場合（Ｓｔ３５，ＹＥＳ）、発話音声信号の登録処理を完了する（Ｓｔ３６）。

　プロセッサ２１１は、ステップＳｔ３５の処理において、登録目標データ量の発話音声信号が登録話者データベースＤＢに登録完了していないと判定した場合（Ｓｔ３５，ＮＯ）、登録処理を継続することを要求する制御指令を受け付けたか否かを判定する（Ｓｔ３７）。

　プロセッサ２１１は、ステップＳｔ３７の処理において、オペレータ側通話端末ＯＰ１から送信されたオペレータＯＰ操作に基づく制御指令に基づいて、登録処理を継続することを要求する制御指令を受け付けたと判定した場合（Ｓｔ３７，ＹＥＳ）、ステップＳｔ１５の処理に移行する。

　一方、プロセッサ２１１は、ステップＳｔ３７の処理において、オペレータ側通話端末ＯＰ１から送信されたオペレータＯＰ操作に基づく制御指令に基づいて、登録処理を継続することを要求する制御指令を受け付けていない（つまり、登録処理の中止あるいは終了を要求する制御指令を受け付けた）と判定した場合（Ｓｔ３７，ＮＯ）、取得された発話音声信号の登録話者データベースＤＢへの登録処理を中止する（つまり、登録失敗）（Ｓｔ３９）。

　プロセッサ２１０は、ステップＳｔ３６あるいはステップＳｔ３９の処理の後、発話音声信号の登録話者データベースＤＢへの登録処理結果を含む登録結果画面（不図示）を生成し、情報表示部ＤＰに出力して表示させる（Ｓｔ３８）。

　以上により、実施の形態２における認証解析装置Ｐ１は、ユーザＵＳの発話音声信号に含まれる感情の有無に基づいて、ユーザ認証処理により適した発話音声信号のみを登録話者データベースＤＢに登録できる。したがって、認証解析装置Ｐ１は、通話時のユーザＵＳの感情により発話音声信号に含まれる話者の個人性にばらつきが生じた場合であっても、登録された発話音声信号を用いたユーザ認証処理においてユーザ認証精度をより向上できる。

　以上により、実施の形態２における認証解析装置Ｐ１Ａは、話者の発話音声の音声信号を取得する通信部２０（取得部の一例）と、音声信号から話者の第１の発話区間と、第１の発話区間と異なる第２の発話区間とを検出する発話区間検出部２１Ａ（検出部の一例）と、第１の発話区間の音声信号と第２の発話区間の音声信号とを比較して、話者から話者と異なる他の話者への切替わり（例えば、図１３に示すユーザＡからユーザＢへの切替わり）を検知する話者切替わり識別部２１Ｈ（検知部の一例）と、話者切替わり識別部２１Ｈによる切替わりの検知に基づいて、話者の音声信号を登録話者データベースＤＢ（データベースの一例）に登録するデータベース登録部２１Ｆ（登録部の一例）と、を備える。

　これにより、実施の形態２における認証解析装置Ｐ１Ａは、同一のユーザ側通話端末ＵＰ１を用いた通話において、異なる複数の話者の音声信号を取得した場合であっても、各発話区間の発話音声信号に基づいて、話者の切替わりを検知できる。したがって、認証解析装置Ｐ１Ａは、登録話者データベースＤＢに登録される発話音声信号に他の話者の発話音声信号が混ざって登録されたり、上書きされたりする誤登録をより効果的に抑制できる。

　また、以上により、実施の形態２における認証解析装置Ｐ１Ａは、異なる２つの音声信号の類似度を算出する類似度計算部２１Ｄ、をさらに備える。通信部２０は、話者を識別可能な話者情報をさらに取得する。類似度計算部２１Ｄは、登録話者データベースＤＢに登録された複数の話者のそれぞれの話者情報のうち取得された話者情報と同一の話者情報に対応付けられた発話音声信号（登録音声信号の一例）を取得し、登録音声信号と第１の発話区間との第１の類似度と、登録音声信号と第２の発話区間との第２の類似度とを算出する。話者切替わり識別部２１Ｈは、第１の類似度と第２の類似度との変化に基づいて、話者から他の話者への切替わりを検知する。これにより、実施の形態２における認証解析装置Ｐ１Ａは、登録話者データベースＤＢに登録済みの発話音声信号との類似度に基づいて、ユーザ側通話端末ＵＰ１の所持者である話者の発話音声信号と、他の話者の発話音声信号とを識別できる。したがって、認証解析装置Ｐ１Ａは、登録される発話音声信号に他の話者の発話音声信号が混ざって登録されたり、上書きされたりする誤登録をより効果的に抑制できる。

　また、以上により、実施の形態２における認証解析装置Ｐ１Ａにおける話者切替わり識別部２１Ｈは、類似度が閾値以上でないと判定した場合、話者から他の話者への切替わりを検知する。これにより、実施の形態２における認証解析装置Ｐ１Ａは、登録話者データベースＤＢに登録済みの発話音声信号との類似度に基づいて、ユーザ側通話端末ＵＰ１の所持者である話者の発話音声信号と、他の話者の発話音声信号とを識別できる。

　また、以上により、実施の形態２における認証解析装置Ｐ１Ａは、音声信号に含まれる少なくとも１つの感情を識別する感情識別部２１Ｅと、感情識別部による識別結果に基づいて、感情を含む発話区間を削除する発話区間検出部２１Ａ（削除部の一例）と、をさらに備える。発話区間検出部２１Ａは、感情を含む発話区間が削除された音声信号から話者の第１の発話区間と、第２の発話区間とを検出する。これにより、実施の形態２における認証解析装置Ｐ１Ａは、ユーザＵＳの発話音声信号に含まれる感情に基づいて、ユーザ認証処理により適した発話音声信号（図１４では感情を含まない発話音声信号）のみを抽出し、登録話者データベースＤＢに登録（格納）できる。

　また、以上により、実施の形態２における認証解析装置Ｐ１Ａは、音声信号に含まれる少なくとも１つの感情を識別する感情識別部２１Ｅと、感情識別部２１Ｅによる識別結果に基づいて、感情を含む発話区間を削除するか否かの操作を受け付ける通信部２０（入力部の一例）と、をさらに備える。発話区間検出部２１Ａは、通信部２０が発話区間を削除する操作を受け付けた場合、感情を含む発話区間を削除し、感情を含む発話区間が削除された音声信号から話者の第１の発話区間と、第２の発話区間とを検出する。これにより、実施の形態２における認証解析装置Ｐ１Ａは、オペレータＯＰ操作に基づいて、ユーザＵＳの感情が含まれる発話音声信号を登録話者データベースＤＢに登録（格納）するか否かを選択可能にする。

　また、以上により、実施の形態２における認証解析装置Ｐ１Ａは、通信部２０により取得された音声信号を所定話速に変換する発話区間検出部２１Ａ（変換部の一例）、をさらに備える。感情識別部２１Ｅは、所定話速に変換された音声信号を用いて感情を識別する。これにより、実施の形態２における認証解析装置Ｐ１Ａは、話者の話速にばらつきが生じた場合であっても、話速を所定話速に変換することで、ユーザ認証精度を向上できる。

　また、以上により、実施の形態２における認証解析装置Ｐ１Ａにおいて、第１の発話区間および第２の発話区間のそれぞれは、少なくとも同一の発話区間を含む。これにより、実施の形態２における認証解析装置Ｐ１Ａは、話者の切替わりのタイミングをより精度よく検知できる。

　また、以上により、実施の形態２における認証解析装置Ｐ１Ａにおいて、話者情報は、発話音声を収音するユーザ側通話端末ＵＰ１（収音装置の一例）の電話番号である。これにより、実施の形態２における認証解析装置Ｐ１Ａは、他の話者によるなりすましをより効果的に抑制できる。

（実施の形態３に至る経緯）
　特許文献１には、電話帳にある電話番号と、取得された電話番号と同一の電話番号に対応する少なくとも１つ以上の声紋データの合算取得時間長が、声紋照合のために必要な時間よりも長いと判定した場合、取得した電話番号と声紋データとを対応付けて格納する通話装置が開示されている。しかし、上述した通話装置は、発話者自身の操作に基づいて、発話音声（声紋データ）の収音を行い、収音が終わったタイミングで、声紋データの合算取得時間長が声紋照合のために必要な時間よりも長いと判定した場合に発話者に声紋データを登録するか否かの選択を要求する。よって、通話装置は、声紋データの合算取得時間長が声紋照合のために必要な時間よりも短い場合、発話者が声紋データを登録しないと選択した場合には、新たな声紋データの格納を行うことができないという課題があった。

　そこで、以下の実施の形態３では、発話音声信号の現在の登録状況をリアルタイムで通知し、オペレータが行う発話音声信号の登録作業を支援する発話音声登録装置および発話音声登録方法の例を説明する。なお、以下の説明において、実施の形態１または実施の形態２と同一の構成要素については同一の符号を用いることで、その説明を省略する。

（実施の形態３）
　図１７を参照して、実施の形態３における認証解析装置Ｐ１Ｂの内部構成例を示すブロック図について説明する。図１７は、実施の形態３における認証解析装置Ｐ１Ｂの内部構成例を示すブロック図である。

　実施の形態３における認証解析装置Ｐ１Ｂは、コンピュータの一例であって、ユーザＵＳが発した発話において不足している音種類数，発話長等に基づいて、不足している音種類数，発話長等を取得するためのユーザＵＳへの質問例を生成する。認証解析装置Ｐ１Ｂは、生成された質問例画面ＤＰ２１（図２０参照）、あるいは進捗通知画面ＤＰ２２Ａ，ＤＰ２２Ｂ等を生成し、情報表示部ＤＰに出力して表示させる。

　実施の形態３におけるプロセッサ２１２は、発話区間検出部２１Ａ、発話連結部２１Ｂ、特徴量抽出部２１Ｃ、類似度計算部２１Ｄ、感情識別部２１Ｅ、データベース登録部２１Ｆ、および進捗度判定部２１Ｉのそれぞれの機能を実現する。

　進捗度判定部２１Ｉは、ユーザＵＳが発した発話において不足している音種類数，発話長等に基づいて、現在の進捗度を判定する。進捗度判定部２１Ｉは、現在の発話音声信号の登録処理の進捗度（つまり、登録目標データ量）が閾値以上でないと判定した場合、ユーザＵＳが発した複数の発話音声信号で不足している音種類数，発話長等に基づいて、不足している音種類数，発話長等を取得するためのユーザＵＳへの質問例を生成する。

　進捗度判定部２１Ｉは、判定された進捗度（言い換えると、発話音声信号の現在の登録状況）をオペレータＯＰにリアルタイムで通知する進捗通知画面ＤＰ２２Ａ，ＤＰ２２Ｂ（図２１，図２２参照）を生成して、情報表示部ＤＰに出力して表示させる。

　また、認証解析装置Ｐ１Ｂは、現在の発話音声信号の登録処理の進捗度（つまり、登録目標データ量）が閾値以上でないと判定した場合、ユーザＵＳが発した発話において不足している音種類数，発話長（信号長）等に基づいて、不足している音種類数，発話長等を取得するためのユーザＵＳへの質問例を生成する。認証解析装置Ｐ１Ｂは、生成された質問例画面ＤＰ２１（図２０参照）、あるいは進捗通知画面ＤＰ２２Ａ，ＤＰ２２Ｂ等を生成し、情報表示部ＤＰに出力して表示させる。

　実施の形態３におけるメモリ２２１は、不足する音種類数，発話長等に対応して選定される複数の質問例のそれぞれを記憶する。

　次に、図１８を参照して、実施の形態３における進捗度判定部２１Ｉが行う進捗度判定処理について説明する。図１８は、実施の形態３における進捗度判定処理例を説明する図である。

　図１８に示す例において、発話音声信号Ｕｓ４１，Ｕｓ４２，Ｕｓ４３のそれぞれは、ユーザＵＳの発話音声信号であって、登録話者データベースＤＢに登録しようとしている発話音声信号を示す。

　進捗度判定部２１Ｉは、現在、音種類数＝７、発話長＝５秒の発話音声信号Ｕｓ４１が登録されている場合、進捗度が「低」であると判定する。また、進捗度判定部２１Ｉは、現在、音種類数＝１２、発話長＝１０秒の発話音声信号Ｕｓ４２が登録されている場合、進捗度が「中」であると判定する。また、進捗度判定部２１Ｉは、現在、音種類数＝１５、発話長＝１３秒の発話音声信号Ｕｓ４３が登録されている場合、進捗度が「高」であると判定する。なお、進捗度判定部２１Ｉは、進捗度をパーセンテージで評価してもよい。

　ここで、プロセッサ２１２は、進捗度判定部２１Ｉにより判定された進捗度に基づいて、音声出力により進捗度をオペレータＯＰに通知してもよい。例えば、プロセッサ２１２は、進捗度が「低」である場合には所定の通知音を１回だけ出力し、進捗度が「中」である場合には所定の通知音を２回出力し、進捗度が「高」である場合には所定の通知音を３回出力する。これにより、オペレータＯＰは、所定の通知音が鳴る回数に基づいて、現在の進捗度を知ることができる。なお、所定の通知音は、音声メッセージであってもよい。

　次に、図１９を参照して、実施の形態３における認証解析装置の動作手順について説明する。図１９は、実施の形態３における認証解析装置Ｐ１Ｂの動作手順例を示すフローチャートである。

　プロセッサ２１２は、現在の進捗度が閾値以上であるか否かを判定する（Ｓｔ４０）。

　プロセッサ２１２は、ステップＳｔ４０の処理において、現在の進捗度が閾値以上であると判定した場合（Ｓｔ４０，ＹＥＳ）、感情ごとに連結された発話音声信号と、取得されたユーザ側通話端末ＵＰ１の電話番号とを対応づけて、登録話者データベースＤＢの各感情データベースに登録（格納）し（Ｓｔ４１）、発話音声信号の登録処理を完了する（Ｓｔ４２）。

　一方、プロセッサ２１２は、ステップＳｔ４０の処理において、現在の進捗度が閾値以上でないと判定した場合（Ｓｔ４０，ＮＯ）、登録処理を継続することを要求する制御指令を受け付けたか否かを判定する（Ｓｔ４３）。

　プロセッサ２１２は、ステップＳｔ４３の処理において、オペレータ側通話端末ＯＰ１から送信されたオペレータＯＰ操作に基づく制御指令に基づいて、登録処理を継続することを要求する制御指令を受け付けたと判定した場合（Ｓｔ４３，ＹＥＳ）、現在不足している発話音声信号の音種類数，発話長等に基づいて、少なくとも１つの質問例を選定する。プロセッサ２１２は、選定された質問例を含む質問例画面ＤＰ２１（図２０参照）、あるいは進捗通知画面ＤＰ２２Ａ，ＤＰ２２Ｂ（図２１，図２２参照）等を生成して、情報表示部ＤＰに出力して表示させる（Ｓｔ４４）。プロセッサ２１２は、ステップＳｔ１５の処理に移行する。

　一方、プロセッサ２１２は、ステップＳｔ４３の処理において、オペレータ側通話端末ＯＰ１から送信されたオペレータＯＰ操作に基づく制御指令に基づいて、登録処理を継続することを要求する制御指令を受け付けていない（つまり、登録処理の中止あるいは終了を要求する制御指令を受け付けた）と判定した場合（Ｓｔ４３，ＮＯ）、取得された発話音声信号の登録話者データベースＤＢへの登録処理を中止する（つまり、登録失敗）（Ｓｔ４５）。

　プロセッサ２１２は、ステップＳｔ４２あるいはステップＳｔ４５の処理の後、発話音声信号の登録話者データベースＤＢへの登録処理結果を含む登録結果画面（不図示）を生成し、情報表示部ＤＰに出力して表示させる（Ｓｔ４６）。

　以上により、実施の形態３における認証解析装置Ｐ１Ｂは、ユーザＵＳの発話音声信号を感情ごとに識別して登録話者データベースＤＢに登録（格納）することができる。したがって、認証解析装置Ｐ１Ｂは、通話時のユーザＵＳの感情により発話音声信号に含まれる音種類数，発話長にばらつきが生じた場合であっても、登録目標データ量としてユーザ認証に必要な音種類数，発話長を含む発話音声信号を取得するための質問例をオペレータＯＰに提示することで、オペレータＯＰを支援できる。

　また、認証解析装置Ｐ１Ｂは、判定された進捗度をリアルタイムでオペレータＯＰに可視化する。したがって、オペレータＯＰは、ユーザＵＳによる質問への回答に基づいて、発話音声信号の登録状況をリアルタイムで知ることができ、ユーザＵＳとの間の通話の終了タイミング、次の質問をすべきか否か等をより容易に判断することができる。

　次に、図２０を参照して、質問例画面ＤＰ２１について説明する。図２０は、質問例画面ＤＰ２１の一例を説明する図である。なお、図２０に示す質問例画面ＤＰ２１は一例であって、これに限定されない。また、図２０に示す音種類数グラフＩＮ２１２は必須でなく、省略されてよい。

　質問例画面ＤＰ２１は、進捗度判定部２１Ｉにより現在の発話音声信号の登録処理の進捗度（つまり、登録目標データ量）が閾値以上でないと判定した場合に生成され、情報表示部ＤＰに表示される。

　進捗度判定部２１Ｉは、ユーザＵＳが発した発話において不足している音種類数，発話長（信号長）等を解析し、解析結果に基づいて、ユーザ認証処理に用いられる発話音声信号として不足している音種類数，発話長等を取得するための少なくとも１つの質問例を選定する。進捗度判定部２１Ｉは、選定された少なくとも１つの質問例のそれぞれに優先順位を設定し、少なくとも１つの質問例と、質問例に対応する優先順位とを含む質問例画面ＤＰ２１を生成して、情報表示部ＤＰに出力して表示させる。なお、優先順位の情報は必須でなく省略されてよい。

　図２０に示す例における質問例画面ＤＰ２１は、４つの質問例と、ユーザＵＳが発した発話において音ごとの音種類数を示す音種類数グラフＩＮ２１２とを含んで生成される。質問例画面ＤＰ２１は、上から順に優先順位１である質問例「登録したいご住所をお聞かせいただけますでしょうか？」と、優先順位２である質問例「登録したいお電話番号をお聞かせいただけますでしょうか？」と、優先順位３である質問例「お客様のご生年月日をお聞かせいただけますでしょうか？」と、優先順位４である質問例「「かきくけこ」と発話していただけますか？」とを含む。

　これにより、オペレータＯＰは、質問例画面ＤＰ２１の４つの質問例のそれぞれのうちいずれか１つの質問を選択して、ユーザＵＳに質問できる。

　これにより、実施の形態３における認証解析装置Ｐ１Ｂは、不足している音種類数，発話長等をより効率的に取得し、ユーザ認証により適した発話音声信号を取得できる。また、認証解析装置Ｐ１Ｂは、ユーザＵＳとオペレータＯＰとの間の通話が長引かないようにオペレータＯＰを支援できる。

　次に、図２１および図２２のそれぞれを参照して、実施の形態３における進捗度判定部２１Ｉにより生成される進捗通知画面について説明する。図２１は、ユーザＵＳの進捗通知画面ＤＰ２２Ａの一例と説明する図である。図２２は、ユーザＵＳの進捗通知画面ＤＰ２２Ｂの一例と説明する図である。なお、図２１に示す進捗通知画面ＤＰ２２Ａおよび図２２に示す進捗通知画面ＤＰ２２Ｂのそれぞれは一例であってこれに限定されない。

　進捗通知画面ＤＰ２２Ａは、ユーザ側通話端末ＵＰ１から取得された発話音声信号の登録処理の進捗状況をオペレータＯＰに通知する画面であって、プロセッサ２１２により生成されて、情報表示部ＤＰにより表示される。また、進捗通知画面ＤＰ２２Ａは、プロセッサ２１２により進捗度が閾値未満であると判定された場合には、不足している音種類数，発話長を取得するための質問例ＩＮ２２１、をさらに含んで生成される。図２１に示す進捗通知画面ＤＰ２２Ａは、質問例ＩＮ２２１と、登録名入力欄ＩＦ２１と、登録進捗度情報ＩＮ２３と、音声信号グラフＩＮ２４と、話者登録ボタンＢＴ２１と、を含む。

　質問例ＩＮ２２１は、上から順に優先順位１である質問例「登録したいご住所をお聞かせいただけますでしょうか？」と、優先順位２である質問例「登録したいお電話番号をお聞かせいただけますでしょうか？」とを含む。

　なお、プロセッサ２１２は、オペレータＯＰ操作により進捗通知画面ＤＰ２２Ａに表示されたいずれか１つの質問例が選択（押下）操作された場合、この質問例を質問済みの質問例として記憶してよい。プロセッサ２１２は、再度、進捗度が閾値未満であると判定した場合、メモリ２２に記憶された複数の質問例のそれぞれのうち質問済みの質問例以外の他の質問例からオペレータＯＰに提示する質問例を選定してよい。

　登録名入力欄ＩＦ２１は、登録話者データベースＤＢに登録されるユーザ名についてオペレータ操作を受け付け可能な入力欄である。なお、登録名入力欄ＩＦ２１は、ユーザＵＳに関する情報を入力可能であってよい。

　登録進捗度情報ＩＮ２３は、登録目標データ量の音種類数に対して、現在登録されている発話音声信号の音種類数を示す進捗度ＩＮ２３１と、登録目標データ量の発話長に対して、現在登録されている発話音声信号の発話長を示す進捗度ＩＮ２３２とを含む。また、登録進捗度情報ＩＮ２３は、現在登録されている発話音声信号の音種類数を「音種類数：ＸＸ」，発話長を「発話長：ＸＸ」のように数値を用いて表示してもよい。

　音声信号グラフＩＮ２４は、検出された発話区間の発話音声信号を表示する。

　話者登録ボタンＢＴ２１は、オペレータＯＰによる登録話者データベースＤＢへの発話音声信号の登録処理の開始操作または停止操作を受け付ける。話者登録ボタンＢＴ２１は、オペレータＯＰ操作により、登録話者データベースＤＢへの発話音声信号の登録処理の開始操作を受け付けた場合には、取得された発話音声信号を登録話者データベースＤＢに登録する。また、話者登録ボタンＢＴ２１は、オペレータＯＰ操作により、登録話者データベースＤＢへの発話音声信号の登録処理の停止操作を受け付けた場合には、登録話者データベースＤＢへの発話音声信号の登録処理を中止する。

　進捗通知画面ＤＰ２２Ｂは、進捗通知画面ＤＰ２２Ａが表示された後、プロセッサ２１２により進捗度が閾値未満であると判定された場合にプロセッサ２１２により生成され、情報表示部ＤＰにより表示される。

　質問例ＩＮ２２２は、新たに生成された質問例であって、上から順に優先順位１である質問例「登録したいお電話番号をお聞かせいただけますでしょうか？」と、優先順位２である質問例「お客様のご生年月日をお聞かせいただけますでしょうか？」とを含む。

　登録進捗度情報ＩＮ２５は、音種類数の登録目標データ量に対して、現在登録されている発話音声信号の音種類数を示す進捗度ＩＮ２５１と、発話長の登録目標データ量に対して、現在登録されている発話音声信号の発話長を示す進捗度ＩＮ２５２とを含む。また、登録進捗度情報ＩＮ２５は、現在登録されている発話音声信号の音種類数を「音種類数：ＺＺ」，発話長を「発話長：ＺＺ」のように数値を用いて表示してもよい。

　音声信号グラフＩＮ２６は、検出された発話区間の発話音声信号を表示する。

　以上により、実施の形態３における認証解析装置Ｐ１Ｂは、話者の発話音声の音声信号と、話者を識別可能な話者情報とを取得する通信部２０（取得部の一例）と、取得された音声信号と話者情報とを対応付けて登録話者データベースＤＢ（データベースの一例）に登録するデータベース登録部２１Ｆ（登録部の一例）と、登録話者データベースＤＢに登録する音声信号の登録目標データ量（登録目標量の一例）に対して、登録話者データベースＤＢに登録される音声信号の進捗度（登録進捗度の一例）を繰り返し判定する進捗度判定部２１Ｉと、判定された進捗度を通知するプロセッサ２１２（通知部の一例）と、を備える。

　これにより、実施の形態３における認証解析装置Ｐ１Ｂは、判定された進捗度をリアルタイムでオペレータＯＰに可視化する。したがって、オペレータＯＰは、ユーザＵＳによる質問への回答に基づいて、発話音声信号の登録状況をリアルタイムで知ることができ、ユーザＵＳとの間の通話の終了タイミング、次の質問をすべきか否か等をより容易に判断することができる。

　また、以上により、実施の形態３における認証解析装置Ｐ１Ｂにおける進捗度判定部２１Ｉは、登録話者データベースＤＢに登録される音声信号の進捗度と、登録される音声信号に含まれる音種類数とを繰り返し判定する。プロセッサ２１２は、進捗度と音種類数とを通知する。これにより、実施の形態３における認証解析装置Ｐ１Ｂは、判定された進捗度をリアルタイムでオペレータＯＰに可視化する。したがって、オペレータＯＰは、ユーザＵＳによる質問への回答に基づいて、発話音声信号の登録状況（進捗度および音種類数）をリアルタイムで知ることができ、ユーザＵＳとの間の通話の終了タイミング、次の質問をすべきか否か等をより容易に判断することができる。

　また、以上により、実施の形態３における認証解析装置Ｐ１Ｂにおける進捗度判定部２１Ｉは、登録話者データベースＤＢに登録される音声信号に含まれる音ごとの音種類数（例えば、図２０に示す音種類数グラフＩＮ２１２）を判定する。プロセッサ２１２は、音ごとの音種類数を通知する。これにより、実施の形態３における認証解析装置Ｐ１Ｂは発話音声信号の登録状況である音ごとの音種類数を可視化して、オペレータＯＰに通知できる。

　また、以上により、実施の形態３における認証解析装置Ｐ１Ｂにおける進捗度判定部２１Ｉは、登録話者データベースＤＢに登録される音声信号の進捗度と、登録される音声信号の信号長とを繰り返し判定する。プロセッサ２１２は、進捗度と信号長とを通知する。これにより、実施の形態３における認証解析装置Ｐ１Ｂは、判定された進捗度をリアルタイムでオペレータＯＰに可視化する。したがって、オペレータＯＰは、ユーザＵＳによる質問への回答に基づいて、発話音声信号の登録状況（進捗度および発話長（信号長））をリアルタイムで知ることができ、ユーザＵＳとの間の通話の終了タイミング、次の質問をすべきか否か等をより容易に判断することができる。

　また、以上により、実施の形態３における認証解析装置Ｐ１Ｂは、進捗度に基づいて、ユーザＵＳへの少なくとも１つの質問を選定するプロセッサ２１２（選定部の一例）、をさらに備える。プロセッサ２１２は、選定された質問と、進捗度とを含む進捗通知画面ＤＰ２２Ａ，ＤＰ２２Ｂ（図２１，図２２参照）を生成して出力する。これにより、実施の形態３における認証解析装置Ｐ１Ｂは、進捗度に基づいて、ユーザ認証により適した発話音声信号を取得できる。

　また、以上により、実施の形態３における認証解析装置Ｐ１Ｂにおける進捗度判定部２１Ｉは、登録話者データベースＤＢに登録される音声信号の進捗度と、登録される音声信号に含まれる音種類数とを繰り返し判定する。プロセッサ２１２は、登録目標データ量の音種類数と、登録される音声信号に含まれる音種類数とに基づいて、質問を選定する。これにより、実施の形態３における認証解析装置Ｐ１Ｂは、不足している音種類数をより効率的に取得し、ユーザ認証により適した発話音声信号を取得できる。

　また、以上により、実施の形態３における認証解析装置Ｐ１Ｂにおけるプロセッサ２１２は、登録目標データ量の音種類数と、登録される音声信号に含まれる音種類数とに基づいて、複数の質問を選定し、選定された複数の質問のそれぞれの優先順位を決定する。プロセッサ２１２は、選定された複数の質問のそれぞれと、質問の優先順位と、進捗度とを含む進捗通知画面ＤＰ２２Ａ，ＤＰ２２Ｂ（図２１，図２２参照）を生成して出力する。これにより、実施の形態３における認証解析装置Ｐ１Ｂは、不足している音種類数をより効率的に取得し、ユーザ認証により適した発話音声信号を取得可能な質問例を、優先順位によりオペレータＯＰに可視化する。

　また、以上により、実施の形態３における認証解析装置Ｐ１Ｂにおける進捗度判定部２１Ｉは、登録話者データベースＤＢに登録される音声信号の進捗度と、登録される音声信号に含まれる信号長とを繰り返し判定する。プロセッサ２１２は、登録目標データ量の信号長と、登録される音声信号に含まれる信号長とに基づいて、質問を選定する。これにより、実施の形態３における認証解析装置Ｐ１Ｂは、登録目標データ量の信号長（発話長）と、登録される音声信号に含まれる信号長（発話長）とに基づいて、質問を選定する。これにより、実施の形態３における認証解析装置Ｐ１Ｂは、不足している発話長をより効率的に取得し、ユーザ認証により適した発話音声信号を取得できる。

　また、以上により、実施の形態３における認証解析装置Ｐ１Ｂにおけるプロセッサ２１２は、進捗度を含む進捗通知画面ＤＰ２２Ａ，ＤＰ２２Ｂ（図２１，図２２参照）を生成して出力する。これにより、実施の形態３における認証解析装置Ｐ１Ｂは、判定された進捗度をリアルタイムでオペレータＯＰに可視化する。したがって、オペレータＯＰは、ユーザＵＳによる質問への回答に基づいて、発話音声信号の登録状況をリアルタイムで知ることができ、ユーザＵＳとの間の通話の終了タイミング、次の質問をすべきか否か等をより容易に判断することができる。

　また、以上により、実施の形態３における認証解析装置Ｐ１Ｂにおけるプロセッサ２１２は、進捗度を音声で通知する音声通知信号を生成して出力する。これにより、実施の形態３における認証解析装置Ｐ１Ｂは、判定された進捗度をリアルタイムでオペレータＯＰに通知できる。したがって、オペレータＯＰは、ユーザＵＳによる質問への回答に基づいて、発話音声信号の登録状況をリアルタイムで知ることができ、ユーザＵＳとの間の通話の終了タイミング、次の質問をすべきか否か等をより容易に判断することができる。

　以上、図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。

　なお、本出願は、２０２１年１２月３日出願の日本特許出願（特願２０２１－１９７２２８）に基づくものであり、その内容は本出願の中に参照として援用される。

　本開示は、発話音声信号の現在の登録状況をリアルタイムで通知し、オペレータが行う発話音声信号の登録作業を支援する音声登録装置および音声登録方法として有用である。

２０　通信部
２１０，２１１，２１２　プロセッサ
２１Ａ　発話区間検出部
２１Ｂ　発話連結部
２１Ｃ　特徴量抽出部
２１Ｄ　類似度計算部
２１Ｅ　感情識別部
２１Ｆ　データベース登録部
２１Ｇ，２１Ｉ　進捗度判定部
２２　メモリ
２２Ａ　ＲＯＭ
２２Ｂ　ＲＡＭ
２３　表示Ｉ／Ｆ
１００　音声認証システム
ＤＢ　登録話者データベース
ＤＢ１　第１の感情データベース
ＤＢ２　第２の感情データベース
ＤＢＮ　第Ｎの感情データベース
ＤＰ　情報表示部
ＤＰ２２Ａ，ＤＰ２２Ｂ　進捗通知画面
ＯＰ１　オペレータ側通話端末
Ｐ１　認証解析装置
ＳＣ　認証結果画面
ＵＳ　ユーザ
ＵＰ１　ユーザ側通話端末

Claims

　話者の発話音声の音声信号と、前記話者を識別可能な話者情報とを取得する取得部と、
　取得された前記音声信号と前記話者情報とを対応付けてデータベースに登録する登録部と、
　前記データベースに登録する音声信号の登録目標量に対して、前記データベースに登録される音声信号の登録進捗度を繰り返し判定する進捗度判定部と、
　判定された前記登録進捗度を通知する通知部と、を備える、
　音声登録装置。
　前記進捗度判定部は、前記データベースに登録される前記音声信号の前記登録進捗度と、登録される前記音声信号に含まれる音種類数とを繰り返し判定し、
　前記通知部は、前記登録進捗度と前記音種類数とを通知する、
　請求項１に記載の音声登録装置。
　前記進捗度判定部は、前記データベースに登録される前記音声信号に含まれる音ごとの音種類数を判定し、
　前記通知部は、前記音ごとの前記音種類数を通知する、
　請求項２に記載の音声登録装置。
　前記進捗度判定部は、前記データベースに登録される前記音声信号の前記登録進捗度と、登録された前記音声信号の信号長とを繰り返し判定し、
　前記通知部は、前記登録進捗度と前記信号長とを通知する、
　請求項１に記載の音声登録装置。
　前記登録進捗度に基づいて、前記話者への少なくとも１つの質問を選定する選定部、をさらに備え、
　前記通知部は、選定された質問と、前記登録進捗度とを含む進捗通知画面を生成して出力する、
　請求項１に記載の音声登録装置。
　前記進捗度判定部は、前記データベースに登録される前記音声信号の前記登録進捗度と、登録される前記音声信号に含まれる音種類数とを繰り返し判定し、
　前記選定部は、前記登録目標量の音種類数と、登録される前記音声信号に含まれる前記音種類数とに基づいて、前記質問を選定する、
　請求項５に記載の音声登録装置。
　前記選定部は、前記登録目標量の音種類数と、登録される前記音声信号に含まれる前記音種類数とに基づいて、複数の質問を選定し、選定された前記複数の質問のそれぞれの優先順位を決定し、
　前記通知部は、選定された前記複数の質問のそれぞれと、前記質問の優先順位と、前記登録進捗度とを含む進捗通知画面を生成して出力する、
　請求項６に記載の音声登録装置。
　前記進捗度判定部は、前記データベースに登録される前記音声信号の前記登録進捗度と、登録される前記音声信号に含まれる信号長とを繰り返し判定し、
　前記選定部は、前記登録目標量の信号長と、登録される前記音声信号に含まれる前記信号長とに基づいて、前記質問を選定する、
　請求項５に記載の音声登録装置。
　前記通知部は、前記登録進捗度を含む進捗通知画面を生成して出力する、
　請求項１に記載の音声登録装置。
　前記通知部は、前記登録進捗度を音声で通知する音声通知信号を生成して出力する、
　請求項１に記載の音声登録装置。
　１以上のコンピュータが行う音声登録方法であって、
　話者の発話音声の音声信号と、前記話者を識別可能な話者情報とを取得し、
　取得された前記音声信号と前記話者情報とを対応付けてデータベースに登録し、
　前記データベースに登録する音声信号の登録目標量に対して、前記データベースに登録される音声信号の登録進捗度を繰り返し判定し、
　判定された前記登録進捗度を通知する、
　音声登録方法。