WO2022024297A1

WO2022024297A1 - 音声処理装置、音声処理方法、記録媒体、および音声認証システム

Info

Publication number: WO2022024297A1
Application number: PCT/JP2020/029248
Authority: WO
Inventors: レイカク; 孝文越仲
Original assignee: 日本電気株式会社
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2022-02-03
Also published as: US20230274760A1; JPWO2022024297A1

Abstract

ユーザによる判定の対象者との面談または生体センサの必要なしに、判定の対象者の状態を簡単に判定可能な技術を提供する。特徴抽出部（１１０）は、正常状態であったときの判定の対象者の発話に基づく音声データを教師データとして機械学習した識別器を用いて、判定の対象者の発話に基づく入力データから、入力データの特徴を抽出し、指標値算出部（１２０）は、入力データの特徴と、正常状態であったときの判定の対象者の発話に基づく音声データの特徴との間の類似度を表す指標値を算出し、状態判定部（１３０）は、指標値に基づいて、判定の対象者が正常状態であるか、非正常状態であるかを判定する。

Description

音声処理装置、音声処理方法、記録媒体、および音声認証システム

　本発明は、音声処理装置、音声処理方法、記録媒体、および音声認証システムに関し、特に、音声データに基づいて、話者を照合する音声処理装置、音声処理方法、記録媒体、および音声認証システムに関する。

　タクシー会社あるいはバス会社では、乗務員全員が参加する「点呼」がある。運行管理者は、乗務員との簡単な面談を行うことによって、乗務員の健康状態をチェックする。しかしながら、面談による健康状態のチェックでは、乗務員が意識的または無意識で嘘をついたり、自分の健康を過信または誤認したりする可能性がある。そこで、乗務員の健康状態を確実にチェックするために、関連する技術が開発されている。例えば、特許文献１には、乗務員が乗車している商用車に設置された生体センサおよびカメラを用いて、心電、筋電、眼球運動、脳波、呼吸、血圧、および発汗等を検知することによって、乗務員の心身の健康状態を総合的に判定する技術が記載されている。

国際公開第２０２０／００３３９２号特開２０１６－２０１０１４号公報特開２０１５－０６９２５５号公報

　しかしながら、特許文献１に記載の関連する技術では、会社が所有する商用車ごとに、生体センサおよびカメラを設置する必要がある。そのため、コスト負担が大きいことを理由に、このような技術を採用することが敬遠される場合がある。

　本発明は、上記の課題に鑑みてなされたものであり、その目的は、ユーザによる判定の対象者との面談または生体センサの必要なしに、判定の対象者の状態を簡単に判定可能な技術を提供することにある。

　本発明の一態様に係わる音声処理装置は、正常状態であったときの判定の対象者の発話に基づく音声データを教師データとして機械学習した識別器を用いて、判定の対象者の発話に基づく入力データから、前記入力データの特徴を抽出する特徴抽出手段と、前記入力データの特徴と、正常状態であったときの判定の対象者の発話に基づく音声データの特徴との間の類似度を表す指標値を算出する指標値算出手段と、前記指標値に基づいて、前記判定の対象者が正常状態であるか、非正常状態であるかを判定する状態判定手段とを備えている。

　本発明の一態様に係わる音声処理方法は、正常状態であったときの判定の対象者の発話に基づく音声データを教師データとして機械学習した識別器を用いて、判定の対象者の発話に基づく入力データから、前記入力データの特徴を抽出し、前記入力データの特徴と、正常状態であったときの判定の対象者の発話に基づく音声データの特徴との間の類似度を表す指標値を算出し、前記指標値に基づいて、前記判定の対象者が正常状態であるか、非正常状態であるかを判定することを含む。

　本発明の一態様に係わる記録媒体は、正常状態であったときの判定の対象者の発話に基づく音声データを教師データとして機械学習した識別器を用いて、判定の対象者の発話に基づく入力データから、前記入力データの特徴を抽出することと、前記入力データの特徴と、正常状態であったときの判定の対象者の発話に基づく音声データの特徴との間の類似度を表す指標値を算出することと、前記指標値に基づいて、前記判定の対象者が正常状態であるか、非正常状態であるかを判定することとをコンピュータに実行させるためのプログラムを格納している。

　本発明の一態様に係わる音声認証システムは、上述の一態様に係わる音声処理装置と、正常状態であったときの判定の対象者の発話に基づく音声データを前記教師データとして用いて前記識別器を学習させる学習装置とを備えている。

　本発明の一態様によれば、ユーザによる判定の対象者との面談または生体センサの必要なしに、判定の対象者の状態を簡単に判定することができる。

実施形態１に係わる音声処理装置の構成及び動作を概略的に説明する図である。実施形態２に係わる音声処理装置の構成を示すブロック図である。実施形態２に係わる音声処理装置の動作を示すフローチャートである。実施形態３に係わる音声処理装置の構成を示すブロック図である。実施形態３に係わる音声処理装置の動作を示すフローチャートである。実施形態２または３に係わる音声処理装置のハードウェア構成を示す図である。実施形態２または３に係わる音声処理装置と、学習装置とを備えた音声認証システムの構成を示すブロック図である。

　以下、いくつかの実施形態について、図面を参照しながら詳細に説明する。

　〔実施形態１〕
　（実施形態１に係わる音声処理装置Ｘ００の構成及び動作）
　図１は、実施形態１に係わる音声処理装置Ｘ００の構成及び動作の概要を説明する図である。図１に示すように、音声処理装置Ｘ００は、たとえば、マイクロフォン等の入力デバイスを用いて、判定の対象者により入力された音声信号（図１では入力データ）を受信する。判定の対象者の一例は、音声処理装置Ｘ００が状態を判定しようとする人物である。なお、本実施形態１において説明する音声処理装置Ｘ００の構成及び動作は、後述する実施形態２に係わる音声処理装置１００、および、実施形態３に係わる音声処理装置２００においても、実現可能である。

　たとえば、音声処理装置Ｘ００は、バスの運行サービスを提供する会社において、乗務員（例えば運転手）が正常に業務を担うことを支援する。この場合、判定の対象者は、バスの乗務員である。具体的には、音声処理装置Ｘ００は、以下で説明する方法で、乗務員の状態を判定し、判定の結果に基づいて、乗務員が運転することの可否を決定する。

　音声処理装置Ｘ００は、特定の場所（例えばバスの営業所）に設置されたマイクロフォンとの間で、無線ネットワークを介して通信し、判定の対象者がマイクロフォンに向かって発話した際に、マイクロフォンに入力された音声信号を、入力データとして受信する。あるいは、音声処理装置Ｘ００は、任意のタイミングで、判定の対象者が装着しているマイクロフォンに入力された音声信号を、入力データとして受信してもよい。例えば、音声処理装置Ｘ００は、判定の対象者である乗務員がバスを出庫する直前に、判定の対象者が装着しているマイクロフォンに入力された音声信号を、入力データとして受信する。

　また、音声処理装置Ｘ００は、予めＤＢ（Ｄａｔａ　Ｂａｓｅ）に登録された音声信号（図１では登録データ）を受信してもよい。登録データは、判定の対象者が正常状態であることが、医学的な検査または生体データの分析などによって確認されたときに、判定の対象者により入力された音声信号である。登録データは、判定の対象者の識別情報、および、判定の対象者が使用するマイクロフォンの識別情報などと紐づけて、ＤＢに格納されている。

　音声処理装置Ｘ００は、判定の対象者の発話に基づく入力データと、登録データとに基づいて、その人物が正常状態であるか、非正常状態であるかを判定する。

　より詳細な具体例では、音声処理装置Ｘ００は、判定の対象者の発話に基づく入力データと登録データとを照合し、それらの類似度を表す指標値に基づいて、判定の対象者の状態を判定する。ここでの判定の対象者の状態とは、判定の対象者の心身に関する評価を表す。

　一例では、判定の対象者の状態は、判定の対象者の体調または感情を表す。この場合、判定の対象者が非正常状態であるとは、判定の対象者に発熱や睡眠不足などによる体調不良があること、風邪などの病気にかかっていること、または、判定の対象者が心理的な問題（不安など）を抱えていることを表す。一方、判定の対象者が正常状態であるとは、判定の対象者が上で例示したような問題を何も持たないことを表す。より具体的には、判定の対象者が正常状態であるとは、判定の対象者が業務または付随する任務を遂行する上で支障となりうる問題を、心身共に抱えていないことを意味する。

　なお、以下の説明において、判定の対象者は、登録データとともに識別情報を登録された人物本人であることを、運行管理者の目視またはその他の手法によって、確認されているとする。その他の手法の一例は、顔認証、虹彩認証、指紋認証、またはその他の生体認証である。

　〔実施形態２〕
　図２から図３を参照して、実施形態２について説明する。

　（音声処理装置１００）
　図２を参照して、実施形態２に係わる音声処理装置１００の構成を説明する。図２は、音声処理装置１００の構成を示すブロック図である。

　図２に示すように、音声処理装置１００は、特徴抽出部１１０、指標値算出部１２０、および状態判定部１３０を備えている。

　特徴抽出部１１０は、正常状態であったときの判定の対象者の発話に基づく音声データを教師データとして機械学習した識別器（図１あるいは図７）を用いて、判定の対象者の発話に基づく入力データから、入力データの特徴を抽出する。特徴抽出部１１０は、特徴抽出手段の一例である。教師データは、正常状態であったときの判定の対象者の発話に基づく音声データである。

　一例では、特徴抽出部１１０は、マイクロフォン等の入力デバイスを用いて入力された入力データ（図１）を受信する。また、特徴抽出部１１０は、図示しないＤＢから、登録データ（図１）を受信する。特徴抽出部１１０は、入力データを学習済識別器（以下では、単に識別器と記載する）に入力し、識別器から、入力データの特徴を抽出する。また、特徴抽出部１１０は、登録データを識別器に入力し、特徴抽出部１１０から、登録データの特徴を抽出する。

　特徴抽出部１１０は、入力データおよび登録データのそれぞれの特徴を抽出するために、どのような機械学習の手法を用いてもよい。ここでの機械学習の一例は、深層学習であり、識別器の一例はＤＮＮ（Deep Neural Network：深層ニューラルネットワーク）である。この場合、特徴抽出部１１０は、入力データをＤＮＮに入力し、ＤＮＮの中間層から、入力データの特徴を抽出する。一例では、入力データから抽出される特徴は、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficients）またはＬＰＣ（linear predictive coding）係数であってもよいし、パワースペクトルまたはスペクトル包絡であってもよい。あるいは、入力データの特徴は、音声データを周波数分析することによって得られる特徴量で構成された、任意の次元の特徴ベクトル（以下では、音響ベクトルと呼ぶ）であってよい。

　特徴抽出部１１０は、登録データの特徴のデータ、および、入力データの特徴のデータを、指標値算出部１２０へ出力する。

　指標値算出部１２０は、入力データの特徴と、正常状態であったときの判定の対象者の発話に基づく音声データの特徴との間の類似度を表す指標値を算出する。指標値算出部１２０は、指標値算出手段の一例である。なお、正常状態であったときの判定の対象者の発話に基づく音声データとは、上述した登録データに相当する。

　一例では、指標値算出部１２０は、特徴抽出部１１０から、入力データの特徴のデータを受信する。また、指標値算出部１２０は、特徴抽出部１１０から、登録データの特徴のデータを受信する。指標値算出部１２０は、入力データに含まれる音素、登録データに含まれる音素を、それぞれ識別する。指標値算出部１２０は、入力データに含まれる音素と、登録データに含まれる同じ音素とを対応付ける。

　次に、一例では、指標値算出部１２０は、入力データに含まれる音素の特徴と登録データに含まれる同じ音素の特徴との間の類似度を表すスコアをそれぞれ計算し、すべての音素について計算したスコアの合計を、指標値として算出する。入力データに含まれる音素の特徴、および、登録データに含まれる音素の特徴は、同一の次元の特徴ベクトルであってよい。また、類似度を表すスコアは、入力データに含まれる音素の特徴ベクトルと登録データに含まれる同じ音素の特徴ベクトルとの間の距離の逆数、または、“（距離の上限値）－距離”であってよい。なお、以下の説明において、「スコア」とは、上述したスコアの合計を意味する。また、「入力データの特徴」「登録データの特徴」とは、「入力データに含まれる音素の特徴」「登録データに含まれる同じ音素の特徴」をそれぞれ意味する。

　指標値算出部１２０は、算出した指標値（一例ではスコア）のデータを、状態判定部１３０へ出力する。

　状態判定部１３０は、指標値に基づいて、判定の対象者が正常状態であるか、非正常状態であるかを判定する。状態判定部１３０は、状態判定手段の一例である。一例では、状態判定部１３０は、指標値算出部１２０から、入力データの特徴と登録データの特徴との間の類似度を表す指標値のデータを受信する。

　次に、一例では、状態判定部１３０は、指標値と、あらかじめ定められた閾値とを比較する。指標値が閾値より大きい場合、状態判定部１３０は、判定の対象者が正常状態であると判定する。一方、指標値が閾値以下である場合、状態判定部１３０は、判定の対象者が非正常状態であると判定する。状態判定部１３０は、判定の結果を出力する。

　加えて、状態判定部１３０は、判定の対象者が物体を操作する権限を制限してもよい。例えば、物体は、判定の対象者が操作しようとする商用車である。この場合、状態判定部１３０は、商用車のエンジンを始動させられないように、商用車のコンピュータを制御してもよい。

　（音声処理装置１００の動作）
　図３を参照して、本実施形態２に係わる音声処理装置１００の動作の一例を説明する。図３は、本例において、音声処理装置１００の各部（図２）が実行する処理の流れを示すフローチャートである。

　図３に示すように、特徴抽出部１１０は、入力データ（図１）から、入力データの特徴を抽出する（Ｓ１０１）。また、特徴抽出部１１０は、登録データ（図１）から、登録データの特徴を抽出する。そして、特徴抽出部１１０は、入力データの特徴のデータ、および、登録データの特徴のデータを、指標値算出部１２０へ出力する。

　指標値算出部１２０は、特徴抽出部１１０から、入力データの特徴のデータ、および、登録データの特徴のデータを受信する。指標値算出部１２０は、入力データの特徴と登録データの特徴との間の類似度を表す指標値を算出する（Ｓ１０２）。一例では、指標値算出部１２０は、入力データの特徴を示す特徴ベクトルと、登録データの特徴を示す特徴ベクトルとの間の距離を表すスコアを、指標値として算出する。指標値算出部１２０は、算出した指標値（スコア）のデータを、状態判定部１３０へ出力する。

　状態判定部１３０は、指標値算出部１２０から、入力データの特徴と登録データの特徴との間の類似度を表すスコアのデータを受信する。状態判定部１３０は、スコアと、あらかじめ定められた閾値とを比較する（Ｓ１０３）。

　スコアが閾値よりも大きい場合（Ｓ１０３でＹｅｓ）、状態判定部１３０は、判定の対象者が正常状態であると判定する（Ｓ１０４Ａ）。

　一方、スコアが閾値以下である場合（Ｓ１０３でＮｏ）、状態判定部１３０は、判定の対象者が非正常状態であると判定する（Ｓ１０４Ｂ）。その後、状態判定部１３０は、判定の結果（ステップＳ１０４ＡまたはＳ１０４Ｂ）を出力してもよい。

　以上で、本実施形態２に係わる音声処理装置１００の動作は終了する。

　（本実施形態の効果）
　本実施形態の構成によれば、特徴抽出部１１０は、正常状態であったときの判定の対象者の発話に基づく音声データを教師データとして機械学習した識別器を用いて、判定の対象者の発話に基づく入力データから、入力データの特徴を抽出する。指標値算出部１２０は、入力データの特徴と、正常状態であったときの判定の対象者の発話に基づく音声データの特徴との間の類似度を表す指標値を算出する。状態判定部１３０は、指標値に基づいて、判定の対象者が正常状態であるか、非正常状態であるかを判定する。音声処理装置１００は、識別器を用いて、人物が正常状態であることの確からしさを示す指標値を取得できる。この指標値に基づく判定の結果は、判定の対象者の発話が、正常状態であるときのその人物の発話とどれぐらい類似しているのかを示す。したがって、音声処理装置１００は、ユーザによる判定の対象者との面談または生体センサの必要なしに、判定の対象者の状態（正常であるか、非正常であるか）を簡単に判定することができる。また、音声処理装置２００による判定の結果が出力された場合、ユーザは、判定の対象者の状態を即時にチェックすることができる。

　〔実施形態３〕
　図４から図５を参照して、実施形態３について説明する。

　（音声処理装置２００）
　本実施形態３に係わる音声処理装置２００の動作の概要は、前記実施形態２で説明した音声処理装置１００の動作と共通である。基本的に、音声処理装置２００は、前記実施形態１において、図１を参照して説明した音声処理装置Ｘ００と共通の動作をするが、以下で説明するように、音声処理装置Ｘ００とは部分的に異なる動作もする。

　図４は、本実施形態３に係わる音声処理装置２００の構成を示すブロック図である。図４に示すように、音声処理装置２００は、特徴抽出部１１０、指標値算出部１２０、および状態判定部１３０を備えている。また音声処理装置２００は、提示部２４０をさらに備えている。すなわち、本実施形態３に係わる音声処理装置２００の構成は、提示部２４０を備えている点で、前記実施形態２に係わる音声処理装置１００とは異なる。本実施形態３においても、前記実施形態２と同じ符号の構成要素が行う処理は共通である。したがって、本実施形態３では、提示部２４０が行う処理についてのみ説明する。

　提示部２４０は、音声処理装置２００の状態判定部１３０による判定の結果に基づいて、判定の対象者が正常状態であるか、非正常状態であるかを示す情報を提示する。提示部２４０は、提示手段の一例である。

　一例では、提示部２４０は、状態判定部１３０から、判定の対象者が正常状態であるか、非正常であるかを示す判定の結果のデータを取得する。提示部２４０は、判定の結果のデータに応じて、互いに異なる情報を提示してもよい。

　例えば、状態判定部１３０によって、判定の対象者が正常状態であると判定された場合、提示部２４０は、指標値算出部１２０が算出した指標値（スコア）のデータを取得し、指標値（スコア）に基づいて、判定の結果の確からしさを示す情報を提示する。具体的には、提示部２４０は、判定の対象者が正常状態であることを、画面上のテキスト、記号、あるいはライトの光によって、表示する。一方、状態判定部１３０によって、判定の対象者が非正常状態であると判定された場合、提示部２４０は、警報を報知する。加えて、提示部２４０は、指標値算出部１２０が算出した指標値（スコア）のデータを取得し、取得した指標値（スコア）のデータを図示しない表示装置に出力することによって、表示装置の画面上に指標値（スコア）を表示してもよい。

　（音声処理装置２００の動作）
　図５を参照して、本実施形態３に係わる音声処理装置２００の動作について説明する。図５は、音声処理装置２００の各部（図４）が実行する処理を示すフローチャートである。

　図５に示すように、提示部２４０は、判定の対象者に対し、長い発話を促すメッセージのデータを、図示しない表示装置に出力することによって、表示装置の画面にメッセージを表示する（Ｓ２０１）。なお、長い発話の意味（あるいは発話の長短の定義）を、音声処理装置２００のユーザは適宜に定めてよい。一例では、長い発話とは、Ｎ単語以上（Ｎはユーザが設定した数）を含む発話である。判定の対象者に対し、長い発話を求める理由は、入力データの特徴と、登録データの特徴との間の類似度を表す指標値を正確に計算するためである。

　特徴抽出部１１０は、マイクロフォン等の入力デバイスから、判定の対象者の発話を集音された音声信号（図1の入力データ）を受信する（Ｓ２０２）。また、特徴抽出部１１０は、ＤＢから、判定の対象者が正常状態であるときに録音された音声信号（図１の登録データ）を受信する。

　特徴抽出部１１０は、入力データから、入力データの特徴を抽出する（Ｓ２０３）。また、特徴抽出部１１０は、登録データから、登録データの特徴を抽出する。

　そして、指標値算出部１２０は、入力データの特徴と登録データの特徴との間の類似度を表す指標値（スコア）を算出する（Ｓ２０４）。

　状態判定部１３０は、指標値と、あらかじめ定められた閾値とを比較する（Ｓ２０５）。スコアが閾値よりも大きい場合（Ｓ２０５でＹｅｓ）、状態判定部１３０は、判定の対象者が正常状態であると判定する（Ｓ２０６Ａ）。状態判定部１３０は、判定の結果を提示部２４０へ出力する。この場合、提示部２４０は、判定の対象者は正常状態であることを示す情報を、図示しない表示装置に表示する（Ｓ２０７Ａ）。

　一方、スコアが閾値以下である場合（Ｓ２０５でＮｏ）、状態判定部１３０は、判定の対象者が非正常状態であると判定する（Ｓ２０６Ｂ）。状態判定部１３０は、判定の結果を提示部２４０へ出力する。この場合、提示部２４０は、警報を報知する（Ｓ２０７Ｂ）。

　加えて、ステップＳ２０７Ｂにおいて、提示部２４０は、判定の対象者は非正常状態であることを示す情報を、図示しない表示装置に表示してもよい。一例では、提示部２４０は、指標値算出部１２０から、ステップＳ２０４において算出された指標値（スコア）のデータを取得し、取得したスコアそのもの、あるいはスコアに基づく情報（一例では、再検査の提案）を表示装置に表示する。

　以上で、本実施形態３に係わる音声処理装置２００の動作は終了する。

　（本実施形態の効果）
　本実施形態の構成によれば、特徴抽出部１１０は、正常状態であったときの判定の対象者の発話に基づく音声データを教師データとして機械学習した識別器を用いて、判定の対象者の発話に基づく入力データから、入力データの特徴を抽出する。指標値算出部１２０は、入力データの特徴と、正常状態であったときの判定の対象者の発話に基づく音声データの特徴との間の類似度を表す指標値を算出する。状態判定部１３０は、指標値に基づいて、判定の対象者が正常状態であるか、非正常状態であるかを判定する。これにより、音声処理装置２００は、識別器を用いて、判定の対象者が正常状態であることの確からしさを示す指標値を取得できる。この指標値に基づく判定の結果は、判定の対象者の発話が、正常状態であるときのその人物の発話とどれぐらい類似しているのかを示す。したがって、音声処理装置２００は、ユーザによる判定の対象者との面談の結果または生体データの必要なしに、判定の対象者の状態（正常であるか、非正常であるか）を簡単に判定することができる。また、音声処理装置２００による判定の結果が出力された場合、ユーザは、判定の対象者の状態を即時にチェックすることができる。

　さらに、本実施形態の構成によれば、提示部２４０は、判定の結果に基づいて、判定の対象者が正常状態であるか、非正常状態であるかを示す情報を提示する。そのため、提示された情報を見たユーザは、判定の対象者の状態を容易に把握することができる。そして、ユーザは、把握された判定の対象者の状態に応じた措置（例えば乗務員との再面談、あるいは業務の制限）を適切に行うことができる。

　〔ハードウェア構成〕
　前記実施形態２～３で説明した音声処理装置１００、２００の各構成要素は、機能単位のブロックを示している。これらの構成要素の一部又は全部は、例えば図６に示すような情報処理装置９００により実現される。図６は、情報処理装置９００のハードウェア構成の一例を示すブロック図である。

　図６に示すように、情報処理装置９００は、一例として、以下のような構成を含む。

　　・ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）９０１
　　・ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）９０２
　　・ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９０３
　　・ＲＡＭ９０３にロードされるプログラム９０４
　　・プログラム９０４を格納する記憶装置９０５
　　・記録媒体９０６の読み書きを行うドライブ装置９０７
　　・通信ネットワーク９０９と接続する通信インタフェース９０８
　　・データの入出力を行う入出力インタフェース９１０
　　・各構成要素を接続するバス９１１
　前記実施形態２～３で説明した音声処理装置１００、２００の各構成要素は、これらの機能を実現するプログラム９０４をＣＰＵ９０１が読み込んで実行することで実現される。各構成要素の機能を実現するプログラム９０４は、例えば、予め記憶装置９０５やＲＯＭ９０２に格納されており、必要に応じてＣＰＵ９０１がＲＡＭ９０３にロードして実行される。なお、プログラム９０４は、通信ネットワーク９０９を介してＣＰＵ９０１に供給されてもよいし、予め記録媒体９０６に格納されており、ドライブ装置９０７が当該プログラムを読み出してＣＰＵ９０１に供給してもよい。

　上記の構成によれば、前記実施形態２～３において説明した音声処理装置１００、２００が、ハードウェアとして実現される。したがって、前記実施形態２～３において説明した効果と同様の効果を奏することができる。

　〔実施形態２および３に共通〕
　上述した実施形態２または３に係る音声処理装置が共通して適用される音声認証システムの構成の一例を説明する。

　（音声認証システム１）
　図７を参照して、音声認証システム１の構成の一例を説明する。図７は、音声認証システム１の構成の一例を示すブロック図である。

　図７に示すように、音声認証システム１は、音声処理装置１００（２００）および学習装置１０を備えている。また、音声認証システム１は、１または複数の入力デバイスを備えていてもよい。音声処理装置１００（２００）は、前記実施形態２に係わる音声処理装置１００、あるいは、前記実施形態３に係わる音声処理装置２００である。

　図７に示すように、学習装置１０は、ネットワーク上にあるＤＢ（Data Base）から、あるいは学習装置１０と接続されたＤＢから、教師データを取得する。学習装置１０は、取得した教師データを用いて、識別器を学習させる。より詳細には、学習装置１０は、教師データに含まれる音声データを識別器に入力し、教師データに含まれる正解の情報を識別器の出力に与えて、周知の損失関数の値を計算する。そして、学習装置１０は、損失関数の計算値を減少させるように、所定の回数にわたって繰り返し、識別器のパラメータを更新する。あるいは、学習装置１０は、損失関数の値が所定値以下になるまで繰り返し、識別器のパラメータを更新する。

　前記実施形態２で説明したように、音声処理装置１００は、学習済の識別器を用いて、判定の対象者の状態を判定する。同様に、前記実施形態３に係わる音声処理装置２００も、学習済の識別器を用いて、判定の対象者の状態を判定する。

　本発明は、一例では、入力デバイスを用いて入力された音声のデータを分析することによって、本人確認を行う音声認証システムに利用することができる。

　　　１　音声認証システム
　　１０　学習装置
　１００　音声処理装置
　１１０　特徴抽出部
　１２０　指標値算出部
　１３０　状態判定部
　２００　音声処理装置
　２４０　提示部

Claims

　正常状態であったときの判定の対象者の発話に基づく音声データを教師データとして機械学習した識別器を用いて、判定の対象者の発話に基づく入力データから、前記入力データの特徴を抽出する特徴抽出手段と、
　前記入力データの特徴と、正常状態であったときの判定の対象者の発話に基づく音声データの特徴との間の類似度を表す指標値を算出する指標値算出手段と、
　前記指標値に基づいて、前記判定の対象者が正常状態であるか、非正常状態であるかを判定する状態判定手段と
　を備えた
　音声処理装置。
　前記判定の結果に基づいて、前記判定の対象者が正常状態であるか、非正常状態であるかを示す情報を提示する提示手段をさらに備えた
　ことを特徴とする請求項１に記載の音声処理装置。
　前記判定の対象者が非正常状態であると判定された場合、
　前記提示手段は、前記指標値に基づいて、前記判定の結果の確からしさを示す情報を提示する
　ことを特徴とする請求項２に記載の音声処理装置。
　前記判定の対象者が非正常状態であると判定された場合、
　前記状態判定手段は、前記判定の対象者が物体を操作する権限を制限する
　ことを特徴とする請求項１に記載の音声処理装置。
　正常状態であったときの判定の対象者の発話に基づく音声データを教師データとして機械学習した識別器を用いて、判定の対象者の発話に基づく入力データから、前記入力データの特徴を抽出し、
　前記入力データの特徴と、正常状態であったときの判定の対象者の発話に基づく音声データの特徴との間の類似度を表す指標値を算出し、
　前記指標値に基づいて、前記判定の対象者が正常状態であるか、非正常状態であるかを判定する
　音声処理方法。
　正常状態であったときの判定の対象者の発話に基づく音声データを教師データとして機械学習した識別器を用いて、判定の対象者の発話に基づく入力データから、前記入力データの特徴を抽出することと、
　前記入力データの特徴と、正常状態であったときの判定の対象者の発話に基づく音声データの特徴との間の類似度を表す指標値を算出することと、
　前記指標値に基づいて、前記判定の対象者が正常状態であるか、非正常状態であるかを判定することと
　をコンピュータに実行させるためのプログラムを格納した、一時的でない記録媒体。
　請求項１から４のいずれか１項に係わる音声処理装置と、
　正常状態であったときの判定の対象者の発話に基づく音声データを前記教師データとして用いて前記識別器を学習させる学習装置と
　を備えた音声認証システム。