WO2021048974A1

WO2021048974A1 - 情報処理装置、情報処理方法及び記憶媒体

Info

Publication number: WO2021048974A1
Application number: PCT/JP2019/035904
Authority: WO
Inventors: 良峻伊藤; 隆行荒川
Original assignee: 日本電気株式会社
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2021-03-18
Also published as: US11937040B2; US20220295170A1; EP4029442A1; JP7239007B2; EP4029442A4; BR112022002570A2; JPWO2021048974A1; CN114423339A

Abstract

ユーザの頭部を伝搬する音波に基づく周波数ドメインの音響特性を取得する取得部と、前記音響特性のピークの特徴を示す項が分母に含まれており、前記音響特性のノッチの特徴を示す項が分子に含まれている有理多項式を有する第１周波数応答関数を生成し、前記第１周波数応答関数に基づいて前記ユーザの生体認証に用いられる特徴量を抽出する抽出部と、を備える、情報処理装置が提供される。

Description

情報処理装置、情報処理方法及び記憶媒体

　本発明は、情報処理装置、情報処理方法及び記憶媒体に関する。

　特許文献１には、ユーザの頭部を伝搬する音響信号に基づく個人認証機能を備えたイヤホンが開示されている。特許文献１の個人認証装置は、音響特性から対数スペクトラム、メルケプストラム係数、線形予測分析係数等を特徴量として抽出してユーザの認証に用いている。

国際公開第２０１８／０３４１７８号国際公開第２０１８／１９８３１０号特開２００５－３３９２６５号公報

　特許文献１に記載されているような装着型機器により取得される音響特性は、装着状態によって変化し得る。このような要因による音響特性の変化は認証精度に影響を与える可能性があるため、装着状態の違いに対して頑健な特徴抽出手法が求められている。

　本発明は、装着状態の違いに対して頑健な特徴量を抽出することができる情報処理装置、情報処理方法及び記憶媒体を提供することを目的とする。

　本発明の一観点によれば、ユーザの頭部を伝搬する音波に基づく周波数ドメインの音響特性を取得する取得部と、前記音響特性のピークの特徴を示す項が分母に含まれており、前記音響特性のノッチの特徴を示す項が分子に含まれている有理多項式を有する第１周波数応答関数を生成し、前記第１周波数応答関数に基づいて前記ユーザの生体認証に用いられる特徴量を抽出する抽出部と、を備える、情報処理装置が提供される。

　本発明の他の一観点によれば、ユーザの頭部を伝搬する音波に基づく周波数ドメインの音響特性を取得するステップと、前記音響特性のピークの特徴を示す項が分母に含まれており、前記音響特性のノッチの特徴を示す項が分子に含まれている有理多項式を有する第１周波数応答関数を生成し、前記第１周波数応答関数に基づいて前記ユーザの生体認証に用いられる特徴量を抽出するステップと、を備える、情報処理方法が提供される。

　本発明の他の一観点によれば、コンピュータに、ユーザの頭部を伝搬する音波に基づく周波数ドメインの音響特性を取得するステップと、前記音響特性のピークの特徴を示す項が分母に含まれており、前記音響特性のノッチの特徴を示す項が分子に含まれている有理多項式を有する第１周波数応答関数を生成し、前記第１周波数応答関数に基づいて前記ユーザの生体認証に用いられる特徴量を抽出するステップと、を備える情報処理方法を実行させるためのプログラムが記憶された記憶媒体が提供される。

　本発明によれば、装着状態の違いに対して頑健な特徴量を抽出することができる情報処理装置、情報処理方法及び記憶媒体が提供される。

第１実施形態に係る情報処理システムの全体構成を示す模式図である。第１実施形態に係るイヤホン制御装置のハードウェア構成例を示すブロック図である。第１実施形態に係る情報通信装置のハードウェア構成例を示すブロック図である。第１実施形態に係るイヤホン及び情報通信装置の機能ブロック図である。第１実施形態に係る情報通信装置により行われる生体認証処理の概略を示すフローチャートである。第１実施形態に係る情報通信装置により行われる特徴量抽出処理を示すフローチャートである。音響特性の測定例を示すグラフである。イヤホンの着脱を繰り返したときの音響特性の変化例を示すグラフである。第２実施形態に係る情報通信装置により行われる特徴量抽出処理を示すフローチャートである。第３実施形態に係る情報通信装置により行われる特徴量抽出処理を示すフローチャートである。第４実施形態に係る情報通信装置により行われる特徴量抽出処理を示すフローチャートである。第５実施形態に係る情報処理装置の機能ブロック図である。

　以下、図面を参照して、本発明の例示的な実施形態を説明する。図面において同様の要素又は対応する要素には同一の符号を付し、その説明を省略又は簡略化することがある。

　［第１実施形態］
　本実施形態に係る情報処理システムについて説明する。本実施形態の情報処理システムは、イヤホン等の装着型機器により生体認証を行うためのシステムである。

　図１は、本実施形態に係る情報処理システムの全体構成を示す模式図である。情報処理システムは、互いに無線通信接続され得る情報通信装置１とイヤホン２とを備える。

　イヤホン２は、イヤホン制御装置２０、スピーカ２６及びマイクロホン２７を備える。イヤホン２は、ユーザ３の頭部、特に耳に装着可能な音響機器であり、典型的にはワイヤレスイヤホン、ワイヤレスヘッドセット等である。スピーカ２６は、装着時にユーザ３の外耳道に向けて音波を発する音波発生部として機能するものであり、イヤホン２の装着面側に配されている。マイクロホン２７は、装着時にユーザ３の外耳道等で反響した音波を受けることができるようにイヤホン２の装着面側に配されている。イヤホン制御装置２０は、スピーカ２６及びマイクロホン２７の制御及び情報通信装置１との通信を行う。

　なお、本明細書において、音波、音声等の「音」は、周波数又は音圧レベルが可聴範囲外である非可聴音を含むものとする。

　情報通信装置１は、例えば、イヤホン２と通信可能に接続されるコンピュータであり、音響情報に基づく生体認証を行う。情報通信装置１は、更に、イヤホン２の動作の制御、イヤホン２から発せられる音波の生成用の音声データの送信、イヤホン２が受けた音波から得られた音声データの受信等を行う。具体例としては、ユーザ３がイヤホン２を用いて音楽鑑賞を行う場合には、情報通信装置１は、音楽の圧縮データをイヤホン２に送信する。また、イヤホン２がイベント会場、病院等における業務指令用の電話装置である場合には、情報通信装置１は業務指示の音声データをイヤホン２に送信する。この場合、更に、ユーザ３の発話の音声データをイヤホン２から情報通信装置１に送信してもよい。

　なお、この全体構成は一例であり、例えば、情報通信装置１とイヤホン２が有線接続されていてもよい。また、情報通信装置１とイヤホン２が一体の装置として構成されていてもよく、情報処理システム内に更に別の装置が含まれていてもよい。

　図２は、イヤホン制御装置２０のハードウェア構成例を示すブロック図である。イヤホン制御装置２０は、ＣＰＵ（Central　Processing　Unit）２０１、ＲＡＭ（Random　Access　Memory）２０２、ＲＯＭ（Read　Only　Memory）２０３及びフラッシュメモリ２０４を備える。また、イヤホン制御装置２０は、スピーカＩ／Ｆ（Interface）２０５、マイクロホンＩ／Ｆ２０６、通信Ｉ／Ｆ２０７及びバッテリ２０８を備える。なお、イヤホン制御装置２０の各部は、不図示のバス、配線、駆動装置等を介して相互に接続される。

　ＣＰＵ２０１は、ＲＯＭ２０３、フラッシュメモリ２０４等に記憶されたプログラムに従って所定の演算を行うとともに、イヤホン制御装置２０の各部を制御する機能をも有するプロセッサである。ＲＡＭ２０２は、揮発性記憶媒体から構成され、ＣＰＵ２０１の動作に必要な一時的なメモリ領域を提供する。ＲＯＭ２０３は、不揮発性記憶媒体から構成され、イヤホン制御装置２０の動作に用いられるプログラム等の必要な情報を記憶する。フラッシュメモリ２０４は、不揮発性記憶媒体から構成され、データの一時記憶、イヤホン制御装置２０の動作用プログラムの記憶等を行う記憶装置である。

　通信Ｉ／Ｆ２０７は、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ－Ｆｉ（登録商標）等の規格に基づく通信インターフェースであり、情報通信装置１との通信を行うためのモジュールである。

　スピーカＩ／Ｆ２０５は、スピーカ２６を駆動するためのインターフェースである。スピーカＩ／Ｆ２０５は、デジタルアナログ変換回路、増幅器等を含む。スピーカＩ／Ｆ２０５は、音声データをアナログ信号に変換し、スピーカ２６に供給する。これによりスピーカ２６は、音声データに基づく音波を発する。

　マイクロホンＩ／Ｆ２０６は、マイクロホン２７から信号を取得するためのインターフェースである。マイクロホンＩ／Ｆ２０６は、アナログデジタル変換回路、増幅器等を含む。マイクロホンＩ／Ｆ２０６は、マイクロホン２７が受け取った音波により生じたアナログ信号をデジタル信号に変換する。これにより、イヤホン制御装置２０は、受け取った音波に基づく音声データを取得する。

　バッテリ２０８は、例えば二次電池であり、イヤホン２の動作に必要な電力を供給する。これにより、イヤホン２は、外部の電源に有線接続することなく、ワイヤレスで動作することができる。

　なお、図２に示されているハードウェア構成は例示であり、これら以外の装置が追加されていてもよく、一部の装置が設けられていなくてもよい。また、一部の装置が同様の機能を有する別の装置に置換されていてもよい。例えば、イヤホン２はユーザ３による操作を受け付けることができるようにボタン等の入力装置を更に備えていてもよく、ユーザ３に情報を提供するためのディスプレイ、表示灯等の表示装置を更に備えていてもよい。このように図２に示されているハードウェア構成は適宜変更可能である。

　図３は、情報通信装置１のハードウェア構成例を示すブロック図である。情報通信装置１は、ＣＰＵ１０１、ＲＡＭ１０２、ＲＯＭ１０３及びＨＤＤ（Hard　Disk　Drive）１０４を備える。また、情報通信装置１は、通信Ｉ／Ｆ１０５、入力装置１０６及び出力装置１０７を備える。なお、情報通信装置１の各部は、不図示のバス、配線、駆動装置等を介して相互に接続される。

　図３では、情報通信装置１を構成する各部が一体の装置として図示されているが、これらの機能の一部は外付け装置により提供されるものであってもよい。例えば、入力装置１０６及び出力装置１０７は、ＣＰＵ１０１等を含むコンピュータの機能を構成する部分とは別の外付け装置であってもよい。

　ＣＰＵ１０１は、ＲＯＭ１０３、ＨＤＤ１０４等に記憶されたプログラムに従って所定の演算を行うとともに、情報通信装置１の各部を制御する機能をも有するプロセッサである。ＲＡＭ１０２は、揮発性記憶媒体から構成され、ＣＰＵ１０１の動作に必要な一時的なメモリ領域を提供する。ＲＯＭ１０３は、不揮発性記憶媒体から構成され、情報通信装置１の動作に用いられるプログラム等の必要な情報を記憶する。ＨＤＤ１０４は、不揮発性記憶媒体から構成され、イヤホン２と送受信するデータの一時記憶、情報通信装置１の動作用プログラムの記憶等を行う記憶装置である。

　通信Ｉ／Ｆ１０５は、Ｂｌｕｅｔｏｏｔｈ（登録商標）、Ｗｉ－Ｆｉ（登録商標）等の規格に基づく通信インターフェースであり、イヤホン２等の他の装置との通信を行うためのモジュールである。

　入力装置１０６は、キーボード、ポインティングデバイス等であって、ユーザ３が情報通信装置１を操作するために用いられる。ポインティングデバイスの例としては、マウス、トラックボール、タッチパネル、ペンタブレット等が挙げられる。

　出力装置１０７は、例えば表示装置である。表示装置は、液晶ディスプレイ、ＯＬＥＤ（Organic　Light　Emitting　Diode）ディスプレイ等であって、情報の表示、操作入力用のＧＵＩ（Graphical　User　Interface）等の表示に用いられる。入力装置１０６及び出力装置１０７は、タッチパネルとして一体に形成されていてもよい。

　なお、図３に示されているハードウェア構成は例示であり、これら以外の装置が追加されていてもよく、一部の装置が設けられていなくてもよい。また、一部の装置が同様の機能を有する別の装置に置換されていてもよい。更に、本実施形態の一部の機能がネットワークを介して他の装置により提供されてもよく、本実施形態の機能が複数の装置に分散されて実現されるものであってもよい。例えば、ＨＤＤ１０４は、半導体メモリを用いたＳＳＤ（Solid　State　Drive）に置換されていてもよく、クラウドストレージに置換されていてもよい。このように図３に示されているハードウェア構成は適宜変更可能である。

　図４は、本実施形態に係るイヤホン２及び情報通信装置１の機能ブロック図である。情報通信装置１は、音響特性取得部１２１、特徴量抽出部１２２及び判定部１２３を備える。イヤホン２のブロック図の構成は図２と同様であるため説明を省略する。なお、音響特性取得部１２１はより一般的に取得部と呼ばれることがあり、特徴量抽出部１２２はより一般的に抽出部と呼ばれることがある。

　ＣＰＵ１０１は、ＲＯＭ１０３、ＨＤＤ１０４等に記憶されたプログラムをＲＡＭ１０２にロードして実行することで、所定の演算処理を行う。また、ＣＰＵ１０１は、当該プログラムに基づいて、通信Ｉ／Ｆ１０５等の情報通信装置１の各部を制御する。これにより、ＣＰＵ１０１は、音響特性取得部１２１、特徴量抽出部１２２及び判定部１２３の機能を実現する。各機能ブロックにより行われる具体的な処理の内容については後述する。

　なお、図４において、情報通信装置１内に記載されている機能ブロックの各機能の一部又は全部は、情報通信装置１ではなくイヤホン制御装置２０に設けられていてもよい。すなわち、上述の各機能は、情報通信装置１によって実現されてもよく、イヤホン制御装置２０によって実現されてもよく、情報通信装置１とイヤホン制御装置２０とが協働することにより実現されてもよい。情報通信装置１及びイヤホン制御装置２０は、より一般的に情報処理装置と呼ばれることもある。以下の説明では、特記されている場合を除き、図４に示されているとおり、音響情報の取得及び判定に関する各機能ブロックは情報通信装置１内に設けられているものとする。

　図５は、本実施形態に係る情報通信装置１により行われる生体認証処理の概略を示すフローチャートである。図５を参照して、情報通信装置１の動作を説明する。

　図５の生体認証処理は、例えば、ユーザ３がイヤホン２を操作することにより使用を開始したときに実行される。あるいは、図５の生体認証処理は、イヤホン２の電源がオンであるときに所定の時間が経過するごとに実行されてもよい。

　ステップＳ１０１において、音響特性取得部１２１は、イヤホン制御装置２０に対し、検査音を発するための指示を行う。イヤホン制御装置２０は、スピーカ２６に検査用信号を送信し、スピーカ２６は、検査用信号に基づいて生成された検査音をユーザ３の外耳道に発する。

　検査用信号には、チャープ信号、Ｍ系列（Maximum　Length　Sequence）信号、白色雑音、インパルス信号等の所定範囲の周波数成分を含む信号が用いられ得る。これにより、所定範囲内の周波数の情報を含む音響信号を取得することができる。なお、検査音は、周波数及び音圧レベルが可聴範囲内である可聴音であり得る。この場合、認証時に音波をユーザ３に知覚させることにより、認証を行っていることをユーザ３に知らせることができる。また、検査音は、周波数又は音圧レベルが可聴範囲外である非可聴音であってもよい。この場合、音波がユーザ３に知覚されにくくすることができ、利用時の快適性が向上する。

　ステップＳ１０２において、マイクロホン２７は外耳道等における反響音（耳音響）を受信して時間ドメインの電気信号に変換する。この電気信号は、音響信号と呼ばれることもある。マイクロホン２７は、音響信号をイヤホン制御装置２０に送信し、イヤホン制御装置２０は、音響信号を情報通信装置１に送信する。

　ステップＳ１０３において、音響特性取得部１２１は、ユーザの頭部を伝搬する音波に基づく周波数ドメインの音響特性を取得する。この音響特性は、例えば、時間ドメインの音響信号を高速フーリエ変換等のアルゴリズムを用いて周波数ドメインに変換することにより得られる周波数スペクトラムであり得る。取得された音響特性は、ＨＤＤ１０４に記憶される。

　ステップＳ１０４において、特徴量抽出部１２２は、音響特性から特徴量を抽出する。この処理の具体的な内容は後述する。抽出された特徴量はＨＤＤ１０４に記憶され、生体認証に用いられる。

　ステップＳ１０５において、判定部１２３は、特徴量抽出部１２２により抽出された特徴量と、あらかじめＨＤＤ１０４に記録されている登録者の特徴量とを照合することにより、ユーザ３が登録者であるか否かを判定する。ユーザ３が登録者であると判定された場合（ステップＳ１０６におけるＹＥＳ）、処理は、ステップＳ１０７に移行する。ユーザ３が登録者ではないと判定された場合（ステップＳ１０６におけるＮＯ）、処理は、ステップＳ１０８に移行する。

　ステップＳ１０７において、情報通信装置１は、ユーザ３によるイヤホン２の使用を許可することを示す制御信号をイヤホン２に送信する。これにより、イヤホン２はユーザ３により使用可能な状態となる。

　ステップＳ１０８において、情報通信装置１は、ユーザ３によるイヤホン２の使用を許可しないことを示す制御信号をイヤホン２に送信する。これにより、イヤホン２はユーザ３により使用不可能な状態となる。使用不可能な状態とは、例えば、イヤホン２のスピーカ２６から音声が発せられない状態等であり得る。なお、ステップＳ１０７、Ｓ１０８での制御は、イヤホン２側を制御するものではなく、情報通信装置１側を制御するものであってもよい。例えば、情報通信装置１とイヤホン２との通信接続の状態を異ならせることにより、使用許可状態と使用不許可状態を切り替えるものであってもよい。

　なお、ステップＳ１０５において、判定部１２３は、音響特性又は特徴量に基づいてイヤホン２がユーザ３の耳に装着されているか否かを更に判定してもよい。ユーザ３の耳に装着されていないと判定された場合には、ユーザ３が登録者ではないと判定された場合と同様に、イヤホン２の使用を不許可にする処理が行われ得る。

　図６は、本実施形態に係る情報通信装置１により行われる特徴量抽出処理を示すフローチャートである。図６を参照して、図５のステップＳ１０４における特徴量抽出処理をより詳細に説明する。

　ステップＳ１１１において、特徴量抽出部１２２は、音響特性取得部１２１により取得された音響特性に基づいて有理多項式モデルの周波数応答関数を算出する。音響特性及び有理多項式モデルの周波数応答関数について説明する。なお、有理多項式モデルの周波数応答関数は第１周波数応答関数と呼ばれることもある。

　図７は、音響特性取得部１２１により取得される音響特性の測定例を示すグラフである。図７の横軸は周波数を示しており、縦軸は、任意単位による信号の強度を示している。なお、縦軸は対数目盛で表示されている。この強度は、例えば、マイクロホン２７で受けとられた音波の強度を示すものである。以下では、音響特性は、マイクロホン２７で受けとられた音波の強度をスピーカ２６から発せられた音波の強度で規格化することにより得られたものとする。

　図７に示されるように、取得される音響特性は、複数のピーク（極大点）Ｐ１、Ｐ２、Ｐ３と、複数のノッチ（極小点）Ｎ１、Ｎ２とを有する。ピークＰ１、Ｐ２、Ｐ３及びノッチＮ１、Ｎ２は、ユーザ３の外耳道、鼓膜及びイヤホン２により形成される気柱において生じる共鳴を示している。ピークＰ１、Ｐ２、Ｐ３及びノッチＮ１、Ｎ２が複数個観測されていることから複数の共鳴モードが存在することがわかる。例えば、ピークＰ１、Ｐ２、Ｐ３の各々は、イヤホン２のマイクロホン２７の位置において音波の振幅が大きくなる共鳴モードを示している。なお、上述の気柱における共鳴の他に、イヤホン２内での共鳴モードも観測され得る。ピークＰ１、Ｐ２、Ｐ３及びノッチＮ１、Ｎ２の性質は、ユーザ３の外耳道の形状等に依存するため、個人を識別するための特徴量の抽出に有効である。

　このような音響特性は、以下の式（１）に示される有理多項式モデルによる周波数応答関数により表現することができる。

　ここで、ωは角周波数である。Ω_ｌ（ω）は多項式展開における基底関数であり、この基底関数は音響特性が取得された対象者に依存しない。なお、Ω_ｌ（ω）は複素関数である。α_ｌ、β_ｌは、多項式の実係数であり、この項は対象者によって異なる。すなわち、α_ｌ、β_ｌは対象者の特徴を示す特徴量である。Ｎ_ｍは有理多項式モデルにおいて仮定するモードの数であり、ｌは各モードを示す引数である。

　ピークが生じている周波数においては式（１）の分母がゼロになり、ノッチが生じている周波数においては式（１）の分子がゼロになる。このように、有理多項式モデルによる周波数応答関数では、ピークの特徴が分母で考慮されており、ノッチの特徴が分子で考慮されている。特徴量抽出部１２２は、取得された音響特性を式（１）で近似するように係数α_ｌ、β_ｌを決定して周波数応答関数の推定を行う。この近似には、誤差関数の最小化等のアルゴリズムを含む、最小二乗法、最尤推定法等の近似解法が用いられ得る。

　ステップＳ１１２において、特徴量抽出部１２２は、ユーザ３を示す特徴量として、有理多項式モデルによる周波数応答関数の係数α_ｌ、β_ｌを出力する。この特徴量の出力において、互いに異なる複数のＮ_ｍに対して係数α_ｌ、β_ｌを抽出し、複数のＮ_ｍにおいて得られた係数α_ｌ、β_ｌを結合して特徴量として抽出してもよい。これにより、複数のＮ_ｍにおいて安定的に得られるピーク及びノッチの性質を、特徴量に反映することができる。

　係数α_ｌ、β_ｌは、導出時に対数を算出する処理を要しないため、装着状態の違いに対して頑健な特徴量である。これについての詳細は後述する。

　上述の特徴量抽出手法の効果を説明する。上述のように、音響特性には、ユーザ３の外耳道、鼓膜及びイヤホン２により形成される気柱において生じる共鳴によるピーク及びノッチが含まれている。これらのピーク及びノッチの周波数及び大きさは、上述の気柱の形状に依存するものであるため、イヤホン２の位置によって変化し得る。したがって、イヤホン２の装着状態の違いによって音響特性が変化することがある。

　図８は、イヤホン２の着脱を繰り返したときの音響特性の変化例を示すグラフである。図８は、着脱を繰り返すことにより装着状態を変化させて音響特性を５回取得し、それらの音響特性を重ねて表示したものである。図８のピークＰ４、Ｐ５及びノッチＮ３に着目すると、ノッチＮ３のばらつきがピークＰ４、Ｐ５のばらつきに比べて大きいことがわかる。

　ノッチＮ３のばらつきの方がピークＰ４、Ｐ５のばらつきよりも大きい理由について、簡単な例を挙げて説明する。外耳道内に存在する共鳴モードが２つのみであるものと仮定し、２つの共鳴モードに起因する音響特性がＳ_１（ｆ）、Ｓ_２（ｆ）の２つに分離できるものとする。そして、Ｓ_１（ｆ）は固有周波数ｆ_１においてピークが生じる特性を有し、Ｓ_２（ｆ）は固有周波数ｆ_２においてピークが生じる特性を有するものとする。このとき、ｆ_１とｆ_２の間の周波数において、２つのモードの干渉を考慮した音響特性Ｓ_ｉ（ｆ）は、モード間の位相差をθとすると、以下の式（２）を満たす。

　イヤホン２の装着状態が変化すると、｜Ｓ_１（ｆ）｜、｜Ｓ_２（ｆ）｜及びθの３つのパラメータが変化することにより、｜Ｓ_ｉ（ｆ）｜も変化する。ここで、固有周波数ｆ_１においては、Ｓ_２（ｆ）の影響は十分に小さいため、以下の式（３）のように近似できる。

　また、固有周波数ｆ_２においては、Ｓ_１（ｆ）の影響は十分に小さいため、以下の式（４）のように近似できる。

　式（３）及び式（４）より、固有周波数の近傍ではθを含む項が無視できる。そのため、固有周波数の近傍では、装着状態の変化による絶対値（パワー）の変化の影響は受けるものの、装着状態の変化による位相差の変化の影響は受けにくいことがわかる。これは、図８においてピークＰ４、Ｐ５の近傍で比較的変動が小さいことと対応する。これに対し、ｆ_１とｆ_２の中間付近の周波数では上述の近似は成り立たないので、絶対値の変化と位相差の変化の両方が音響特性の変化要因となり得る。これは、図８においてノッチＮ３の近傍で比較的変動が大きいことと対応する。

　特許文献１に記載されているように、従来、メルケプストラム係数が認証用の特徴量として用いられることがあった。このメルスペクトラム係数の導出過程では、音響特性の対数を算出する処理が含まれる場合がある。音響特性を対数スケールに変換すると、強度が小さい領域が強調される。

　上述のように、ノッチ近傍では、隣接するモード間の位相差θの影響を受けやすいため、装着状態の変化による変動が顕著である。これに加えて、対数スケールへの変換により強度が極小であるノッチ近傍の変動の影響が強調される。この２つの影響が重畳されることにより、導出過程に対数を算出する処理を含むメルケプストラム係数を用いた特徴量抽出は、装着状態の変化による影響を受けやすいことがあった。

　これに対し、本実施形態の特徴量抽出手法は、導出時に対数を算出する処理を要しないため、装着状態の違いに対して頑健である。以上の理由により、本実施形態ではノッチ及びピークの特徴に着目しつつも、イヤホン２の装着状態の違いに対して頑健な特徴量を抽出することができる。

　本実施形態では、有理多項式モデルによる周波数応答関数から特徴量の抽出が行われる。この処理がノッチ、ピークの特徴に着目した特徴量の抽出手法であることを説明する。式（１）の有理多項式モデルによる周波数応答関数は、以下の式（５）に示される極／留数モデルによる周波数応答関数に変換することができる。この変換は、有理多項式モデルによる周波数応答関数の部分分数展開に相当する。なお、極／留数モデルの周波数応答関数は第２周波数応答関数と呼ばれることもある。

　ここで、λ_ｋは、音響特性の極を示す複素数であり、Ｒ_ｋは、極の形状を示す複素数である。λ_ｋ、Ｒ_ｋは、それぞれ、極、留数と呼ばれることもある。なお、ｊは虚数単位であり、Ｃは剰余項であり、「※」は複素共役を示す記号である。

　λ_ｋは、物理的には、極の固有周波数ｆ_ｋと極の減衰比ζ_ｋの情報を含んでいる。固有周波数ｆ_ｋと極の減衰比ζ_ｋは、以下の式（６）と式（７）によりそれぞれ表される。なお、Ｒｅ（λ_ｋ）は、λ_ｋの実部であり、Ｉｍ（λ_ｋ）は、λ_ｋの虚部である。

　固有周波数において、式（５）の括弧内のｊω－λ_ｋの項の虚部はゼロになり、ｊω－λ_ｋの項の実部は減衰比ζ_ｋにより定まる定数となる。したがって、式（５）の括弧内の項は、ｋ個目のピークを表現する減衰振動の関数である。言い換えると、式（５）は、周波数応答関数をＮ_ｍ個の減衰振動の和で表現したものである。

　このように、式（１）の有理多項式モデルによる周波数応答関数は、減衰振動の和により構成された極／留数モデルによる周波数応答関数に変換することができる。したがって、有理多項式モデルによる周波数応答関数には、共鳴モードの特徴が実質的に含まれており、共鳴モードが有するピーク及びノッチの特徴に着目した特徴量抽出に好適である。

　なお、有理多項式モデルではなく極／留数モデルの周波数応答関数に含まれる項から特徴量を抽出してもよい。しかしながら、極／留数モデルの各項は、対象者に依存して変化するため、特徴量の照合時に比較すべき項を判別するのが困難であるのに対し、有理多項式モデルの基底関数はユーザに依存しないため、特徴量の照合時に比較をしやすい利点がある。したがって、有理多項式モデルの周波数応答関数に含まれる項から特徴量を抽出することが望ましい。

　［第２実施形態］
　本実施形態の情報処理システムは、特徴量抽出処理の内容が第１実施形態と相違するが、それ以外の部分については第１実施形態と同様である。以下では主として第１実施形態との相違点について説明するものとし、共通部分については説明を省略又は簡略化する。

　図９は、本実施形態に係る情報通信装置１により行われる特徴量抽出処理を示すフローチャートである。本実施形態では、有理多項式モデルを極／留数モデルに変換して一部の項を除外する処理が追加されている点が第１実施形態と相違する。

　ステップＳ１１１において、特徴量抽出部１２２は、第１実施形態と同様に有理多項式モデルの周波数応答関数を算出する。

　ステップＳ１２１において、特徴量抽出部１２２は、有理多項式モデルの周波数応答関数を極／留数モデルの周波数応答関数に変換する。この処理の内容は式（１）、式（５）等を用いて第１実施形態で述べたとおりであるため説明を省略する。

　ステップＳ１２２において、特徴量抽出部１２２は、極／留数モデルの周波数応答関数の各項の中から有意でない項を判定する。有意でない項とは、外耳道内の共鳴という物理現象に基づく減衰振動を適切に表現していないことが明らかな項である。具体的には、減衰比ζ_ｋが負である項、固有周波数ｆ_ｋが共鳴し得る周波数範囲外である項等のように、明らかに外耳道内の共鳴という物理現象に反している項が挙げられる。

　ステップＳ１２３において、特徴量抽出部１２２は、極／留数モデルの周波数応答関数の中の各項の中から不安定な項を判定する。不安定な項とは、近似条件等の演算条件を変えて音響特性を周波数応答関数で近似する処理を何度か行ったときに安定して現れない項である。例えば、式（１）又は式（５）に示されているようなモデルで考慮するモードの数Ｎ_ｍを変えたときに同じ固有周波数及び同じ減衰比にならない項は、不安定な項である。不安定な項の判定手法の具体例としては、考慮するモードの数がＮ_ａである場合とＮ_ａ＋１である場合とで固有周波数又は減衰比の変化量が所定の誤差範囲を超えているモードを不安定なモードであると判定する手法が挙げられる。このような不安定な項は、外耳道内の共鳴という物理現象を表現するものではなく、演算処理上の要因で生じた擬似的なものである可能性が高い。

　ステップＳ１２４において、特徴量抽出部１２２は、極／留数モデルの周波数応答関数から一部の項を除外して、有理多項式モデルの周波数応答関数に変換する。ここで、「一部の項」とは、ステップＳ１２２において抽出された有意でない項及びステップＳ１２３において抽出された不安定な項であり得る。これにより物理現象を適切に表現していない項が除外される。また、剰余項Ｃはユーザ３の特徴を示す特徴量として抽出する必要性に乏しいため、「一部の項」は、剰余項Ｃを含んでいてもよい。なお、この一部の項を除外する処理は、具体的には、対応する項の留数Ｒ_ｋ又は剰余項Ｃの値をゼロに変更する処理であり得る。

　ステップＳ１１２において、特徴量抽出部１２２は、第１実施形態と同様の処理により、ステップＳ１２４により得られた有理多項式モデルの周波数応答関数の係数を特徴量として出力する。

　本実施形態の手法によれば、第１実施形態と同様に装着状態の違いに対して頑健な特徴量を抽出することができる。また、有意でない項、不安定な項等を除外してから特徴量の抽出が行われるため、ユーザ３の外耳道の形状等の生体上の特徴をより適切に反映した特徴量を抽出することができる。

　［第３実施形態］
　本実施形態の情報処理システムは、特徴量抽出処理の内容が第１及び第２実施形態と相違するが、それ以外の部分については第１及び第２実施形態と同様である。以下では主として第２実施形態との相違点について説明するものとし、共通部分については説明を省略又は簡略化する。

　図１０は、本実施形態に係る情報通信装置１により行われる特徴量抽出処理を示すフローチャートである。本実施形態では、一部の項を除外して得られた有理多項式モデルの周波数応答関数からスペクトラムを再構築してメル周波数ケプストラム係数（Mel-Frequency　Cepstrum　Coefficient:　MFCC）を算出する処理が追加されている点が第２実施形態と相違する。

　ステップＳ１１１からステップＳ１２４までの処理は第２実施形態と同様であるため説明を省略する。

　ステップＳ１３１において、特徴量抽出部１２２は、ステップＳ１２４において生成された有理多項式モデルの周波数応答関数から音響特性のスペクトラムを再構築する。

　ステップＳ１３２において、特徴量抽出部１２２は、再構築後のスペクトラムからメル周波数ケプストラム係数を算出する。以下、メル周波数ケプストラム係数の算出手法の一例を説明する。

　まず、特徴量抽出部１２２は、再構築後のスペクトラムに対してメルフィルタバンクを適用する。メルフィルタバンクとは、複数の三角窓関数を含むフィルタバンクである。この複数の三角窓関数は、人間の聴覚特性を考慮したメル尺度に基づいて、周波数が高いものほど広い周波数幅を有するように構成されている。メルフィルタバンクを適用して得られたスペクトラムをメルスペクトラムと呼ぶ。また、メルスペクトラムの強度（縦軸）を対数スケールに変換したものをメル対数スペクトラムと呼ぶ。対数スケールへの変換により、利得の小さな高次の共振現象をよく表現することができる。

　次に、特徴量抽出部１２２は、メル対数スペクトラムに対し、離散コサイン変換を行いケフレンシードメイン（quefrency　domain）のケプストラム（Cepstrum）を算出する。ケプストラムのうちの所定範囲の次数の項の係数を取り出すことで、メル周波数ケプストラム係数が算出される。この手法では、人間の聴覚特性が考慮された重みづけにより効率的な圧縮が施された特徴量を得ることができる。

　ステップＳ１３３において、特徴量抽出部１２２は、ステップＳ１３２の処理により取得されたメル周波数ケプストラム係数を特徴量として出力する。

　本実施形態の手法によれば、第２実施形態と同様に、ユーザ３の外耳道の形状等の生体の特徴をより適切に表現した特徴量を抽出することができる。また、メル周波数ケプストラム係数の算出過程において人間の聴覚特性が考慮された重みづけがなされるため、効率的な圧縮が施された特徴量を抽出することができる。

　［第４実施形態］
　本実施形態の情報処理システムは、特徴量抽出処理の内容が第１乃至第３実施形態と相違するが、それ以外の部分については第１乃至第３実施形態と同様である。以下では主として第３実施形態との相違点について説明するものとし、共通部分については説明を省略又は簡略化する。

　図１１は、本実施形態に係る情報通信装置１により行われる特徴量抽出処理を示すフローチャートである。本実施形態では、有理多項式モデルの周波数応答関数の係数と、メル周波数ケプストラム係数との両方を特徴量として抽出する点が第２又は第３実施形態と相違する。

　ステップＳ１４１において、特徴量抽出部１２２は、第１又は第２実施形態と同様の処理により、ステップＳ１２４により得られた有理多項式モデルの周波数応答関数の係数を第１特徴量として出力する。

　ステップＳ１３１及びステップＳ１３２の処理は第３実施形態と同様であるため説明を省略する。

　ステップＳ１４２において、特徴量抽出部１２２は、ステップＳ１３２の処理により取得されたメル周波数ケプストラム係数を第２特徴量として出力する。

　特徴量抽出後の判定処理（図５のステップＳ１０５）においては、第１特徴量と第２特徴量の両方に基づいてユーザ３が登録者であるか否かを判定する。具体的には、第１特徴量を用いた照合により得られた第１スコアと第２特徴量を用いた照合により得られた第２スコアとを所定の比率で重み付け加算して、加算後のスコアに基づいてユーザ３が登録者であるか否かを判定するという手法が用いられ得る。また、第１特徴量を用いた照合と第２特徴量を用いた照合とを別々に行って、２つの照合結果の論理和又は論理積を最終的な照合結果としてもよい。

　本実施形態の手法によれば、第２実施形態による特徴量抽出手法と第３実施形態による特徴量抽出手法が併用されているので両方の効果を得ることができる。更に、本実施形態では、ピーク及びノッチの特徴を抽出した第１特徴量と、主として音響特性の波形の特徴を抽出した第２特徴量を併用して判定を行うことができるため、より多面的な情報が考慮された高精度な生体認証が実現され得る。

　上述の実施形態において説明したシステムは以下の第５実施形態のようにも構成することができる。

　［第５実施形態］
　図１２は、第５実施形態に係る情報処理装置４の機能ブロック図である。情報処理装置４は、取得部４２１及び抽出部４２２を備える。取得部４２１は、ユーザの頭部を伝搬する音波に基づく周波数ドメインの音響特性を取得する。抽出部４２２は、音響特性のピークの特徴を示す項が分母に含まれている有理多項式を有する第１周波数応答関数を生成し、第１周波数応答関数に基づいてユーザの生体認証に用いられる特徴量を抽出する。

　本実施形態によれば、装着状態の違いに対して頑健な特徴量を抽出することができる情報処理装置４が提供される。

　［変形実施形態］
　本発明は、上述の実施形態に限定されることなく、本発明の趣旨を逸脱しない範囲において適宜変更可能である。例えば、いずれかの実施形態の一部の構成を他の実施形態に追加した例や、他の実施形態の一部の構成と置換した例も、本発明の実施形態である。

　上述の実施形態では、装着型機器の例としてイヤホン２を例示しているが、処理に必要な音響情報を取得可能であれば、外耳孔に装着されるイヤホンに限定されるものではない。例えば、装着型機器は、耳全体を覆うようなヘッドホンであってもよく、外耳孔以外の頭部から間接的に音波を伝達させる骨伝導型の音響装置であってもよい。また、装着型機器が両耳に装着される２つのイヤホンで構成されていてもよく、その場合、両耳に対して上述の実施形態の生体認証を行ってもよく、片耳のみに対して上述の実施形態の生体認証を行ってもよい。

　上述の実施形態の機能を実現するように該実施形態の構成を動作させるプログラムを記憶媒体に記録させ、記憶媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記憶媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記憶媒体だけでなく、そのプログラム自体も各実施形態に含まれる。また、上述の実施形態に含まれる１又は２以上の構成要素は、各構成要素の機能を実現するように構成されたＡＳＩＣ（Application　Specific　Integrated　Circuit）、ＦＰＧＡ（Field　Programmable　Gate　Array）等の回路であってもよい。

　該記憶媒体としては例えばフロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ（Compact　Disk）－ＲＯＭ、磁気テープ、不揮発性メモリカード、ＲＯＭを用いることができる。また該記憶媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、ＯＳ（Operating　System）上で動作して処理を実行するものも各実施形態の範疇に含まれる。

　上述の各実施形態の機能により実現されるサービスは、ＳａａＳ（Software　as　a　Service）の形態でユーザに対して提供することもできる。

　なお、上述の実施形態は、いずれも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

　上述の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

　（付記１）
　ユーザの頭部を伝搬する音波に基づく周波数ドメインの音響特性を取得する取得部と、
　前記音響特性のピークの特徴を示す項が分母に含まれており、前記音響特性のノッチの特徴を示す項が分子に含まれている有理多項式を有する第１周波数応答関数を生成し、前記第１周波数応答関数に基づいて前記ユーザの生体認証に用いられる特徴量を抽出する抽出部と、
　を備える、情報処理装置。

　（付記２）
　前記抽出部は、前記有理多項式の係数を前記特徴量として抽出する、
　付記１に記載の情報処理装置。

　（付記３）
　前記第１周波数応答関数の分母は、前記ピークに対応する周波数においてゼロである、
　付記１又は２に記載の情報処理装置。

　（付記４）
　前記音響特性は複数の前記ピークを有し、
　前記抽出部は、複数の分数の和を含む第２周波数応答関数を生成する、
　付記１乃至３のいずれか１項に記載の情報処理装置。

　（付記５）
　前記第２周波数応答関数に含まれる前記複数の分数の各々の分母の虚部は、前記複数の前記ピークのうちの１つに対応する周波数においてゼロである、
　付記４に記載の情報処理装置。

　（付記６）
　前記第１周波数応答関数と前記第２周波数応答関数とは、相互に変換可能である、
　付記４又は５に記載の情報処理装置。

　（付記７）
　前記第２周波数応答関数は、前記第１周波数応答関数の部分分数展開を含む、
　付記６に記載の情報処理装置。

　（付記８）
　前記抽出部は、前記第２周波数応答関数に含まれる前記複数の分数から一部の項を除外してから前記第１周波数応答関数に変換することにより、前記第１周波数応答関数を生成する、
　付記４乃至７のいずれか１項に記載の情報処理装置。

　（付記９）
　前記抽出部は、前記第２周波数応答関数に含まれる前記複数の分数から物理的に有意でない項を除外してから前記第１周波数応答関数に変換することにより、前記第１周波数応答関数を生成する、
　付記４乃至８のいずれか１項に記載の情報処理装置。

　（付記１０）
　前記抽出部は、前記第２周波数応答関数に含まれる前記複数の分数から演算条件の変化に対して不安定な項を除外してから前記第１周波数応答関数に変換することにより、前記第１周波数応答関数を生成する、
　付記４乃至９のいずれか１項に記載の情報処理装置。

　（付記１１）
　前記抽出部は、前記第２周波数応答関数から変換された前記第１周波数応答関数を用いて周波数ドメインのスペクトラムを生成する、
　付記８乃至１０のいずれか１項に記載の情報処理装置。

　（付記１２）
　前記抽出部は、前記スペクトラムに基づいて前記特徴量を抽出する、
　付記１１に記載の情報処理装置。

　（付記１３）
　前記抽出部は、前記第１周波数応答関数の係数に基づいて第１特徴量を抽出し、前記スペクトラムに基づいて第２特徴量を抽出する、
　付記１１又は１２に記載の情報処理装置。

　（付記１４）
　前記音響特性は、前記ユーザの頭部に装着される装着型機器によって取得された前記ユーザの外耳道を伝搬する音波に基づく、
　付記１乃至１３のいずれか１項に記載の情報処理装置。

　（付記１５）
　ユーザの頭部を伝搬する音波に基づく周波数ドメインの音響特性を取得するステップと、
　前記音響特性のピークの特徴を示す項が分母に含まれており、前記音響特性のノッチの特徴を示す項が分子に含まれている有理多項式を有する第１周波数応答関数を生成し、前記第１周波数応答関数に基づいて前記ユーザの生体認証に用いられる特徴量を抽出するステップと、
　を備える、情報処理方法。

　（付記１６）
　コンピュータに、
　ユーザの頭部を伝搬する音波に基づく周波数ドメインの音響特性を取得するステップと、
　前記音響特性のピークの特徴を示す項が分母に含まれており、前記音響特性のノッチの特徴を示す項が分子に含まれている有理多項式を有する第１周波数応答関数を生成し、前記第１周波数応答関数に基づいて前記ユーザの生体認証に用いられる特徴量を抽出するステップと、
　を備える情報処理方法を実行させるためのプログラムが記憶された記憶媒体。

　１　　　　　　　　　情報通信装置
　２　　　　　　　　　イヤホン
　３　　　　　　　　　ユーザ
　４　　　　　　　　　情報処理装置
　２０　　　　　　　　イヤホン制御装置
　２６　　　　　　　　スピーカ
　２７　　　　　　　　マイクロホン
　１０１、２０１　　　ＣＰＵ
　１０２、２０２　　　ＲＡＭ
　１０３、２０３　　　ＲＯＭ
　１０４　　　　　　　ＨＤＤ
　１０５、２０７　　　通信Ｉ／Ｆ
　１０６　　　　　　　入力装置
　１０７　　　　　　　出力装置
　１２１　　　　　　　音響特性取得部
　１２２　　　　　　　特徴量抽出部
　１２３　　　　　　　判定部
　２０４　　　　　　　フラッシュメモリ
　２０５　　　　　　　スピーカＩ／Ｆ
　２０６　　　　　　　マイクロホンＩ／Ｆ
　２０８　　　　　　　バッテリ
　４２１　　　　　　　取得部
　４２２　　　　　　　抽出部

Claims

　ユーザの頭部を伝搬する音波に基づく周波数ドメインの音響特性を取得する取得部と、
　前記音響特性のピークの特徴を示す項が分母に含まれており、前記音響特性のノッチの特徴を示す項が分子に含まれている有理多項式を有する第１周波数応答関数を生成し、前記第１周波数応答関数に基づいて前記ユーザの生体認証に用いられる特徴量を抽出する抽出部と、
　を備える、情報処理装置。
　前記抽出部は、前記有理多項式の係数を前記特徴量として抽出する、
　請求項１に記載の情報処理装置。
　前記第１周波数応答関数の分母は、前記ピークに対応する周波数においてゼロである、
　請求項１又は２に記載の情報処理装置。
　前記音響特性は複数の前記ピークを有し、
　前記抽出部は、複数の分数の和を含む第２周波数応答関数を生成する、
　請求項１乃至３のいずれか１項に記載の情報処理装置。
　前記第２周波数応答関数に含まれる前記複数の分数の各々の分母の虚部は、前記複数の前記ピークのうちの１つに対応する周波数においてゼロである、
　請求項４に記載の情報処理装置。
　前記第１周波数応答関数と前記第２周波数応答関数とは、相互に変換可能である、
　請求項４又は５に記載の情報処理装置。
　前記第２周波数応答関数は、前記第１周波数応答関数の部分分数展開を含む、
　請求項６に記載の情報処理装置。
　前記抽出部は、前記第２周波数応答関数に含まれる前記複数の分数から一部の項を除外してから前記第１周波数応答関数に変換することにより、前記第１周波数応答関数を生成する、
　請求項４乃至７のいずれか１項に記載の情報処理装置。
　前記抽出部は、前記第２周波数応答関数に含まれる前記複数の分数から物理的に有意でない項を除外してから前記第１周波数応答関数に変換することにより、前記第１周波数応答関数を生成する、
　請求項４乃至８のいずれか１項に記載の情報処理装置。
　前記抽出部は、前記第２周波数応答関数に含まれる前記複数の分数から演算条件の変化に対して不安定な項を除外してから前記第１周波数応答関数に変換することにより、前記第１周波数応答関数を生成する、
　請求項４乃至９のいずれか１項に記載の情報処理装置。
　前記抽出部は、前記第２周波数応答関数から変換された前記第１周波数応答関数を用いて周波数ドメインのスペクトラムを生成する、
　請求項８乃至１０のいずれか１項に記載の情報処理装置。
　前記抽出部は、前記スペクトラムに基づいて前記特徴量を抽出する、
　請求項１１に記載の情報処理装置。
　前記抽出部は、前記第１周波数応答関数の係数に基づいて第１特徴量を抽出し、前記スペクトラムに基づいて第２特徴量を抽出する、
　請求項１１又は１２に記載の情報処理装置。
　前記音響特性は、前記ユーザの頭部に装着される装着型機器によって取得された前記ユーザの外耳道を伝搬する音波に基づく、
　請求項１乃至１３のいずれか１項に記載の情報処理装置。
　ユーザの頭部を伝搬する音波に基づく周波数ドメインの音響特性を取得するステップと、
　前記音響特性のピークの特徴を示す項が分母に含まれており、前記音響特性のノッチの特徴を示す項が分子に含まれている有理多項式を有する第１周波数応答関数を生成し、前記第１周波数応答関数に基づいて前記ユーザの生体認証に用いられる特徴量を抽出するステップと、
　を備える、情報処理方法。
　コンピュータに、
　ユーザの頭部を伝搬する音波に基づく周波数ドメインの音響特性を取得するステップと、
　前記音響特性のピークの特徴を示す項が分母に含まれており、前記音響特性のノッチの特徴を示す項が分子に含まれている有理多項式を有する第１周波数応答関数を生成し、前記第１周波数応答関数に基づいて前記ユーザの生体認証に用いられる特徴量を抽出するステップと、
　を備える情報処理方法を実行させるためのプログラムが記憶された記憶媒体。