WO2023074229A1

WO2023074229A1 - 情報処理方法、情報処理装置、及び情報処理プログラム

Info

Publication number: WO2023074229A1
Application number: PCT/JP2022/035967
Authority: WO
Inventors: 慎太郎岡田; 正成宮本; 光佑板倉
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2021-11-01
Filing date: 2022-09-27
Publication date: 2023-05-04

Abstract

情報処理装置は、第１人物の顔と第２人物の顔との類似度を示す顔類似度を取得し、第１人物の音声と第２人物の音声との類似度を示す音声類似度を取得し、第１人物が第２人物と同一人物であるかを判定する際に用いられる閾値を含む統合範囲内に顔類似度がある場合、前記顔類似度及び前記音声類似度を統合することによって統合類似度を算出し、統合類似度を最終類似度として決定し、顔類似度が統合範囲内にない場合、顔類似度を最終類似度として算出し、最終類似度を出力する。

Description

情報処理方法、情報処理装置、及び情報処理プログラム

　本開示は、対象人物を認識する技術に関するものである。

　非特許文献１には、登録人物と対象人物とにおいて、顔画像同士を比較すると共に音声データ同士を比較することによって対象人物を認識する技術が開示されている。

　しかしながら、非特許文献１では、顔画像同士の比較結果は高精度である一方で、音声データ同士の比較結果が低精度であるような場合、顔画像同士の比較結果が音声データ同士の比較結果に影響されて、却って認識精度が低下することが考慮されていないので、さらなる改善の必要がある。

Jesus Villalba, Daniel Garcia-Romero, Nanxin Chen, Gregory Sell, Jonas Borgstrom, Alan McCree, L. Paola Garcia-Perera1, Saurabh Kataria, Phani Sankar Nidadavolu,Pedro A. Torres-Carrasquillo, Najim Dehak , "Advances in Speaker Recognition for Telephone and Audio-Visual Data: the JHU-MIT Submission for NIST SRE19" , Odyssey 2020 The Speaker and Language Recognition Workshop1-5 November 2020, Tokyo, Japan

　本開示は、このような課題を解決するためのものであり、音声データと顔画像とを用いて対象人物を認識する場合において、音声データの精度にかかわらず、対象人物を高精度に認識できる技術を提供することを目的とする。

　本開示の一態様における情報処理方法は、コンピュータにおける情報処理方法であって、第１人物の顔と第２人物の顔との類似度を示す顔類似度を取得し、前記第１人物の音声と前記第２人物の音声との類似度を示す音声類似度を取得し、前記第１人物が前記第２人物と同一人物であるかを判定する際に用いられる閾値を含む統合範囲内に前記顔類似度がある場合、前記顔類似度及び前記音声類似度を統合することによって統合類似度を算出し、前記統合類似度を最終類似度として決定し、前記顔類似度が前記統合範囲内にない場合、前記顔類似度を前記最終類似度として算出し、前記最終類似度を出力する。

　本開示によれば、音声データと顔画像とを用いて対象人物を認識する場合において、音声データの精度にかかわらず、対象人物を高精度に認識できる。

本開示の実施の形態１における情報処理システムの全体構成の一例を示すブロック図である。実施の形態１における情報処理装置の処理の一例を示すフローチャートである。重み係数と顔類似度との関係を示すグラフである。比較例の課題を説明するための図である。実施の形態１における情報処理装置の効果を説明するための図である。実施の形態１における情報処理装置と比較例との実験結果を纏めた表である。本開示の実施の形態２における情報処理システムの全体構成の一例を示す図である。本開示の実施の形態２における情報処理装置が統合範囲を決定する処理の一例を示すフローチャートである。統合範囲の第１決定方法を説明する図である。統合範囲の第２決定方法を説明する図である。統合範囲の第３決定方法を説明する図である。本開示の実施の形態３における情報処理システムの全体構成の一例を示す図である。

　（本開示の基礎となる知見）
　近年、対象人物の認識精度のさらなる向上を図るために、音声データに加えてさらに顔画像を用いて対象人物を認識するマルチモーダル認識技術が検討されている（例えば、非特許文献１）。このようなマルチモーダル認識技術においては、対象人物の音声データと登録人物の音声データとの類似度である音声類似度と、対象人物の顔画像と登録人物の顔画像との類似度である顔類似度とを統合することで統合類似度が算出され、算出された統合類似度が閾値と比較されて対象人物が登録人物であるか否かが判定される。

　しかしながら、取得した対象人物の顔画像は高精度であるが、騒音等の影響により、取得した対象人物の音声データが低精度であるような場合、高い値を有する顔類似度が低い値を有する音声類似度の影響を受け、統合類似度が閾値を下回り、対象人物が登録人物でないと誤判定される可能性がある。したがって、このようなケースにおいては顔類似度に加えて音声類似度を用いると、却って対象人物の認識精度が低下するという課題が生じる。

　本開示はこのような課題を解決するためになされたものである。

　（１）本開示の一態様における情報処理方法は、コンピュータにおける情報処理方法であって、第１人物の顔と第２人物の顔との類似度を示す顔類似度を取得し、前記第１人物の音声と前記第２人物の音声との類似度を示す音声類似度を取得し、前記第１人物が前記第２人物と同一人物であるかを判定する際に用いられる閾値を含む統合範囲内に前記顔類似度がある場合、前記顔類似度及び前記音声類似度を統合することによって統合類似度を算出し、前記統合類似度を最終類似度として決定し、前記顔類似度が前記統合範囲内にない場合、前記顔類似度を前記最終類似度として算出し、前記最終類似度を出力する。

　この構成によれば、第１人物が第２人物と同一人物であるかを判定する際に用いられる閾値を含む統合範囲内に顔類似度がある場合、顔類似度及び音声類似度を統合することによって統合類似度が算出され、統合類似度が最終類似度として決定される。一方、顔類似度が統合範囲内にない場合、顔類似度が最終類似度として決定されている。このように、本構成では、顔類似度が閾値付近にあり、顔類似度のみでは判定が難しい場合は、顔類似度と音声類似度とが統合された統合類似度を用いて対象人物を認識することが可能となる。一方、顔類似度が閾値付近になく、顔類似度のみでの判定が容易である場合は、顔類似度のみを用いて対象人物を認識することが可能となる。その結果、音声データの精度にかかわらず対象人物を高精度に認識できる。

　（２）上記（１）記載の情報処理方法において、さらに、同一人物における前記顔類似度と前記顔類似度の頻度との関係を示す第１分布と、異なる人物における前記顔類似度と前記顔類似度の頻度との関係を示す第２分布と、を含む分布情報を取得し、前記統合範囲は、前記第１分布及び前記第２分布に基づいて算出されてもよい。

　この構成によれば、同一人物における顔類似度と顔類似度の頻度との関係を示す第１分布と、異なる人物における顔類似度と顔類似度の頻度との関係を示す第２分布と、を含む分布情報に基づいて統合範囲が算出されているので、統合範囲を精度よく決定できる。

　（３）上記（２）記載の情報処理方法において、前記統合範囲は、前記第１分布における前記顔類似度の最小値から前記第２分布における前記顔類似度の最大値までの幅に基づいて決定されたものであってもよい。

　この構成によれば、第１分布における顔類似度の最小値から第２分布における顔類似度の最大値までの幅に基づいて統合範囲が決定されるので、統合範囲を精度よく決定できる。

　（４）上記（２）又は（３）のいずれか１つに記載の情報処理方法において、前記統合範囲は、前記閾値から前記第１分布における前記顔類似度の最小値までの第１幅と、前記閾値から前記第２分布における前記顔類似度の最大値までの第２幅とに基づいて決定されたものであってもよい。

　この構成によれば、閾値から第１分布における顔類似度の最小値までの第１幅と、閾値から第２分布における顔類似度の最大値までの第２幅とに基づいて統合範囲が決定されるので、統合範囲を精度よく決定できる。

　（５）上記（２）～（４）のいずれか１つに記載の情報処理方法において、前記統合範囲は、前記閾値を中心とする幅を有し、前記幅は、前記第１分布及び前記第２分布において、前記顔類似度の最小値から前記顔類似度の最大値までの第３幅と、前記分布情報の精度と、に基づいて決定されたものであってもよい。

　この構成によれば、統合範囲は閾値を中心とする幅を有し、この幅は、第１分布及び第２分布の全域における前記顔類似度の最小値から顔類似度の最大値までの第３幅と、分布情報の精度と、に基づいて決定されるので、統合範囲を精度よく決定できる。

　（６）上記（１）～（５）のいずれか１つに記載の情報処理方法において、前記統合類似度は、前記顔類似度と前記音声類似度とを所定の重み係数で重み付け平均することで得られた値を有していてもよい。

　この構成によれば、統合類似度は、顔類似度と音声類似度とを所定の重み係数で重み付け平均することで得られた値を有するので、顔類似度と音声類似度とを適切に統合できる。

　（７）上記（６）記載の情報処理方法において、前記所定の重み係数は、固定値であってもよい。

　この構成によれば、固定の重み係数を用いて統合類似度が算出されているので統合類似度を容易に算出できる。

　（８）上記（６）記載の情報処理方法において、前記所定の重み係数は、前記顔類似度が前記統合範囲の中心に近づくにつれて前記顔類似度に対して前記音声類似度の割合が大きくなる値が設定されてもよい。

　この構成によれば、顔類似度が統合範囲の中心に近づくにつれて値が小さくなる重み係数を用いて統合類似度が算出されているので、統合類似度を正確に算出できる。

　（９）上記（１）～（８）のいずれか１つに記載の情報処理方法において、前記統合類似度は、前記音声類似度に重み係数を乗じた値と前記顔類似度との加算値であってもよい。

　この構成によれば、重み係数により値が調整された音声類似度が顔類似度に加算されて統合類似度が算出されているので、顔類似度をベースとしつつ統合類似度を正確に算出できる。

　（１０）上記（１）～（９）のいずれか１つに記載の情報処理方法において、さらに、前記第１人物の顔画像を取得し、さらに、前記第１人物の前記顔画像から前記第１人物の前記顔特徴量を算出し、さらに、前記第２人物の前記顔特徴量を取得し、さらに、前記第１人物の顔特徴量と前記第２人物の前記顔特徴量とから前記顔類似度を算出し、前記顔類似度の取得では、算出された前記顔類似度が取得されてもよい。

　この構成によれば、第１人物が対象人物であり、第２人物が登録人物とした場合において、第１人物が登録人物であるか否かを算出できる。

　（１１）上記（１）～（１０）のいずれかに記載の情報処理方法において、さらに、前記第１人物の音声データを取得し、さらに、前記第１人物の前記音声データから前記第１人物の前記音声特徴量を算出し、さらに、前記第２人物の前記音声特徴量を取得し、さらに、前記第１人物の音声特徴量と前記第２人物の音声特徴量とから前記音声類似度を算出し、前記音声類似度の取得では、算出された前記音声類似度が取得されてもよい。

　この構成によれば、第１人物が対象人物であり、第２人物が登録人物とした場合において、第１人物が登録人物であるか否かを判定できる。

　（１２）上記（１）～（１１）のいずれかに記載の情報処理方法において、さらに、前記最終類似度が前記閾値を超える場合、前記第１人物と前記第２人物とは同一人物であると判定し、前記最終類似度が前記閾値よりも小さい場合、前記第１人物と前記第２人物とは異なる人物であると判定し、さらに、前記第１人物と前記第２人物とが同一人物であるか否かの判定結果を出力してもよい。

　この構成によれば、最終類似度を用いて第１人物が第２人物と同一人物であるか否かを判定することができる。

　（１３）本開示の別の一態様における情報処理装置は、第１人物の顔と第２人物の顔との類似度を示す顔類似度を取得する第１取得部と、前記第１人物の音声特徴量と前記第２人物の音声特徴量とに基づいて算出された前記第１人物の音声と前記第２人物の音声との類似度を示す音声類似度を取得する第２取得部と、前記顔類似度が統合範囲内にある場合、前記顔類似度及び前記音声類似度を統合することによって統合類似度を算出し、前記統合類似度を最終類似度として決定し、前記顔類似度が前記統合範囲内にない場合、前記顔類似度を前記最終類似度として決定する統合部と、前記最終類似度を出力する出力部と、を備える。

　この構成によれば、音声データの精度にかかわらず対象人物を高精度に認識し得る情報処理装置を提供できる。

　（１４）本開示の別の一態様における情報処理プログラムは、コンピュータに、第１人物の顔と第２人物の顔との類似度を示す顔類似度を取得し、前記第１人物の音声特徴量と前記第２人物の音声特徴量とに基づいて算出された前記第１人物の音声と前記第２人物の音声との類似度を示す音声類似度を取得し、前記顔類似度が統合範囲内にある場合、前記顔類似度及び前記音声類似度を統合することによって統合類似度を算出し、前記統合類似度を最終類似度として決定し、前記顔類似度が前記統合範囲内にない場合、前記顔類似度を前記最終類似度として算出し、前記最終類似度を出力する、処理を実行させる。

　この構成によれば、音声データの精度にかかわらず対象人物を高精度に認識し得る情報処理プログラムを提供できる。

　本開示は、このような情報処理プログラムによって動作する情報処理システムとして実現することもできる。また、このようなコンピュータプログラムを、ＣＤ－ＲＯＭ等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。

　なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。

　（実施の形態１）
　図１は、本開示の実施の形態１における情報処理システム１００の全体構成の一例を示すブロック図である。情報処理システム１００は、音声データと顔画像とを用いて認識対象となる対象人物が事前に登録された登録人物と同一人物であるか否かを判定するシステムである。対象人物は第１人物の一例であり、登録人物は第２人物の一例である。情報処理システム１００は、例えば、対象人物の管理エリアへの入退室を管理する入退室管理システムに適用される。管理エリアは、例えば、建物、住居、オフィス等である。なお、情報処理システム１００の適用例はこれに限定されず、音声データと顔画像とを用いて個人認証を行う個人認証システムに適用されてもよい。

　情報処理システム１００は、情報処理装置１、カメラ２、マイク３、及びディスプレイ４を含む。情報処理装置１は、コンピュータで構成されている。情報処理装置１は、プロセッサ１１及びメモリ１２を含む。プロセッサ１１は、例えばＣＰＵ（中央演算処理装置）である。メモリ１２は、例えばフラッシュメモリ等の不揮発性の書き換え可能な記憶装置である。

　プロセッサ１１は、顔特徴量算出部１１１、顔類似度算出部１１２、第１取得部１１３、音声特徴量算出部１１４、音声類似度算出部１１５、第２取得部１１６、統合部１１７、認識部１１８、及び出力部１１９を含む。顔特徴量算出部１１１～出力部１１９は、例えばプロセッサ１１が情報処理プログラムを実行することで実現されてもよいし、ＡＳＩＣ等の専用のハードウェア回路で構成されてもよい。

　顔特徴量算出部１１１は、カメラ２が撮影した対象人物の顔画像を取得し、取得した顔画像から対象人物の顔の特徴量である顔特徴量を算出する。顔画像とは、対象人物の顔を含む画像である。顔画像は所定行×所定列でピクセルデータが配列されたデジタルの画像データである。顔画像はモノクロ画像であってもよいし、Ｒ，Ｇ，Ｂの３つの色成分を有するカラー画像であってもよい。顔特徴量は、例えば顔の特徴を示すベクトルである。

　顔特徴量算出部１１１は、顔識別モデルに顔画像を入力することで顔特徴量を算出すればよい。顔識別モデルは、例えば、顔画像を説明変数とし、顔特徴量を目的変数とする多数のデータセットを機械学習することで予め作成された学習済みモデルである。

　顔識別モデルは例えばメモリ１２に予め記憶されている。但し、これは一例であり、顔特徴量算出部１１１は、顔識別モデルを記憶する外部サーバに顔画像を送信し、外部サーバから応答として送信された顔特徴量を取得することで、顔特徴量を算出してもよい。

　顔類似度算出部１１２は、登録人物の顔特徴量を取得し、取得した登録人物の顔特徴量と対象人物の顔特徴量との類似度である顔類似度を算出する。登録人物の顔特徴量はメモリ１２に予め記憶されているので、顔類似度算出部１１２は、メモリ１２から登録人物の顔特徴量を取得すればよい。登録人物の顔特徴量は、登録人物の顔画像を顔識別モデルに入力することで事前に計算されたものである。したがって、登録人物の顔特徴量は、対象人物の顔特徴量と同じ次元数を有している。

　なお、メモリ１２は、複数の登録人物の顔特徴量と複数の人物ＩＤと対応付けて記憶していてもよい。この場合、顔類似度算出部１１２は、対象人物が入力した人物ＩＤに対応する登録人物の顔特徴量と対象人物の顔特徴量との顔類似度を算出すればよい。この場合、対象人物は図略の操作装置を介して人物ＩＤを入力すればよい。

　顔類似度は、ベクトル同士の類似を評価し得る指標であれば、どのような指標が採用されてもよい。本実施の形態では、顔類似度は、登録人物の顔類似度と、対象人物の顔類似度とが近いほど大きな値を持つものとする。顔類似度は、所定範囲（例えば０～１００、０～２００等）に正規化された値を有する。例えば、顔類似度は、ユークリッド距離又はコサイン類似度を、対象人物の顔類似度と登録人物の顔類似度との類似性が高くなるにつれて値が大きくなるように、所定範囲内に正規化することで算出される。

　第１取得部１１３は、顔類似度算出部１１２が算出した顔類似度を取得する。

　音声特徴量算出部１１４は、マイク３が収音した対象人物の音声データを取得し、取得した音声データから対象人物の音声の特徴量である音声特徴量を算出する。音声データは、例えばマイク３が収音した対象人物のアナログの音声データをＡ／Ｄ変換することで得られるデジタルの音声データである。音声特徴量は音声の特徴を示すベクトルである。音声特徴量の一例は、ｘベクトル、ｉベクトル等である。

　音声特徴量算出部１１４は、音声識別モデルに音声データを入力することで音声特徴量を算出すればよい。音声識別モデルは、例えば、音声データを説明変数とし、音声特徴量を目的変数とする多数のデータセットを機械学習することで予め作成された学習済みモデルである。

　音声識別モデルは、メモリ１２に予め記憶されている。但し、これは一例であり、音声特徴量算出部１１４は、音声識別モデルを記憶する外部サーバに音声データを送信し、外部サーバから応答として送信された音声特徴量を取得することで、音声特徴量を算出してもよい。

　音声類似度算出部１１５は、登録人物の音声特徴量を取得し、取得した登録人物の音声特徴量と対象人物の音声特徴量との類似度である音声類似度を算出する。登録人物の音声特徴量はメモリ１２に予め記憶されているので、音声類似度算出部１１５は、メモリ１２から登録人物の音声特徴量を取得すればよい。登録人物の音声特徴量は、登録人物の音声データを音声識別モデルに入力することで事前に計算されたものである。したがって、登人物の音声特徴量は、対象人物の音声特徴量と同じ次元数を有している。

　なお、メモリ１２は複数の登録人物の音声特徴量と複数の人物ＩＤと対応付けて記憶していてもよい。この場合、音声類似度算出部１１５は、対象人物が操作装置を介して入力した人物ＩＤに対応する登録人物の音声特徴量と対象人物の音声特徴量との音声類似度を算出すればよい。

　第２取得部１１６は、音声類似度算出部１１５が算出した音声類似度を取得し、音声類似度を統合部１１７に入力する。

　統合部１１７は、第１取得部１１３が取得した顔類似度が、統合範囲内にある場合、顔類似度及び音声類似度を統合することによって統合類似度を算出し、統合類似度を最終類似度として決定する。一方、第１取得部１１３が取得した顔類似度が統合範囲内にない場合、第１取得部１１３が取得した顔類似度を最終類似度として決定する。統合範囲は、対象人物が登録人物と同一人物であるかを判定する際に用いられる閾値Ｔ１を含む範囲であり、予めメモリ１２に記憶されている。統合類似度の計算手法については後述する。

　認識部１１８は、統合部１１７により算出された最終類似度と閾値Ｔ１とを比較することにより、対象人物が登録人物と同一人物であるか否か、すなわち、対象人物が本人であるか他人であるかを判定する。閾値Ｔ１はメモリ１２に予め記憶されている。例えば、認識部１１８は、最終類似度が閾値Ｔ１よりも大きい場合、対象人物は登録人物と同一人物であると判定する。一方、認識部１１８は、最終類似度が閾値Ｔ１以下の場合、対象人物は登録人物と異なる人物であると判定する。

　出力部１１９は、認識部１１８による判定結果を示す判定結果情報を生成し、生成した判定結果情報をディスプレイ４に出力する。

　メモリ１２は、顔識別モデル、音声識別モデル、統合範囲、及び閾値Ｔ１を記憶する。

　カメラ２は、例えば管理エリアの出入口に設置された撮影装置である。カメラ２は、図略の人感センサにより管理エリアに入ろうとする対象人物が検知された場合、対象人物の顔画像を撮影する。或いは、カメラ２は、対象人物が図略の操作装置を介して人物ＩＤを入力した場合、対象人物の顔画像を撮影する。カメラ２は、撮影した顔画像をプロセッサ１１に入力する。なお、人物ＩＤが入力される場合、カメラ２は、顔画像と人物ＩＤとを対応付けてプロセッサ１１に入力すればよい。

　マイク３は、例えば管理エリアの出入口に設置された収音装置である。マイク３は、図略の人感センサにより管理エリアに入ろうとする対象人物が検知された場合、対象人物の音声データを収音する。或いは、マイク３は、対象人物が図略の操作装置を介して人物ＩＤを入力した場合、対象人物の音声データを収音する。マイク３は、収音した音声データをプロセッサ１１に入力する。

　ディスプレイ４は、例えば管理エリアの出入口に設置された表示装置である。ディスプレイ４は、出力部１１９が出力した判定結果情報を表示する。ディスプレイ４は、認識部１１８により対象人物が登録人物と同一人物であると判定された場合、対象人物が本人であることを示す第１判定結果情報を表示する。一方、ディスプレイ４は、認識部１１８により対象人物が登録人物と異なる人物であると判定された場合、対象人物が他人であることを示す第２判定結果情報を表示する。第１判定結果情報は、対象人物の管理エリアへの入室を許可することを示す情報であってもよい。第２判定結果情報は、対象人物の管理エリアへの入室を拒否することを示す情報であってもよい。

　続いて、情報処理装置１の処理について説明する。図２は、実施の形態１における情報処理装置１の処理の一例を示すフローチャートである。

　（ステップＳ１）
　顔特徴量算出部１１１は、カメラ２から対象人物の顔画像を取得する。

　（ステップＳ２)
　顔特徴量算出部１１１は、顔画像を顔識別モデルに入力することにより、対象人物の顔特徴量を算出する。

　（ステップＳ３）
　顔類似度算出部１１２は、メモリ１２から登録人物の顔特徴量を取得する。

　（ステップＳ４）
　顔類似度算出部１１２は、顔特徴量算出部１１１により算出された対象人物の顔特徴量と登録人物の顔特徴量との類似度である顔類似度を算出する。第１取得部１１３は、顔類似度算出部１１２により算出された顔類似度を取得し、取得した顔類似度を統合部１１７に入力する。

　（ステップＳ５）
　音声特徴量算出部１１４は、マイク３から音声データを取得する。

　（ステップＳ６）
　音声特徴量算出部１１４は、音声データを音声識別モデルに入力することで、対象人物の音声特徴量を算出する。

　（ステップＳ７）
　音声類似度算出部１１５は、メモリ１２から登録人物の音声特徴量を取得する。

　（ステップＳ８）
　音声類似度算出部１１５は、音声特徴量算出部１１４により算出された対象人物の音声特徴量と登録人物の音声特徴量との類似度である音声類似度を算出する。第２取得部１１６は、音声類似度算出部１１５により算出された音声類似度を取得し、取得した音声類似度を統合部１１７に入力する。

　（ステップＳ９）
　統合部１１７は、第１取得部１１３から入力された顔類似度が統合範囲内にあるか否かを判定する。顔類似度が統合範囲内にあると判定された場合（ステップＳ９でＹＥＳ）、処理はステップＳ１０に進む。一方、顔類似度が統合範囲内にないと判定された場合（ステップＳ９でＮＯ）、処理はステップＳ１１に進む。

　（ステップＳ１０）
　統合部１１７は、顔類似度及び音声類似度を統合することによって統合類似度を算出し、統合類似度を最終類似度として決定する。統合類似度は例えば下記の３つの方法により算出される。ステップＳ１０の処理が終了すると処理はステップＳ１２に進む。

　（第１方法）
　統合部１１７は、顔類似度と音声類似度とを固定の重み係数で重み付け平均することで統合類似度を算出する。具体的には、統合部１１７は下記の式（１）を用いて統合類似度を算出する。

　ｓ＝α・ｓｖ＋（１－α）・ｓｆ　　　（１）

　ｓは統合類似度である。αは固定の重み係数であり、０以上、１以下である。ｓｖは音声特徴量である。ｓｆは顔特徴量である。

　（第２方法）
　統合部１１７は、顔類似度と音声類似度とを可変の重み係数で重み付け平均することで統合類似度を算出する。具体的には、統合部１１７は下記の式（２）を用いて統合類似度を算出する。

　ｓ＝α・ｓｖ＋（１－α）・ｓｆ　　　（２）

　重み係数αは、顔類似度ｓｆが統合範囲の中心に近づくにつれて顔類似度ｓｆに対して音声類似度ｓｖの割合が大きくなる値に設定される。

　図３は、重み係数αと顔類似度ｓｆとの関係を示すグラフＧ１である。グラフＧ１において縦軸は重み係数αを示し、横軸は顔類似度ｓｆを示す。ｐは統合範囲の最小値であり、ｑは統合範囲の最大値である。ｃは統合範囲の中心であり、ｃ＝（ｐ＋ｑ）／２で表される。

　以上を踏まえ、重み係数αは下記の式（３）、（４）で表される。

　α＝（ｓｆ－ｐ）／（ｃ－ｐ）　　　（ｓｆ≦ｃ）　　（３）
　α＝（ｑ－ｓｆ）／（ｑ－ｃ）　　　（ｃ＜ｓｆ）　　（４）

　顔類似度ｓｆが中心ｃ以下の場合、重み係数αは、式（３）に示すように、顔類似度ｓｆが中心ｃに近づくにつれてリニアに増大する。一方、顔類似度ｓｆが中心ｃより大きい場合、重み係数αは、式（４）に示すように、顔類似度ｓｆが中心ｃから離れるにつれてリニアに減少する。顔類似度ｓｆが中心ｃの場合、式（３）又は式（４）に示すように重み係数αは１である。

　このように、第２方法では、重み係数αは、顔類似度ｓｆが中心ｃに近づくほど１に近づくように設定される。そのため、顔類似度ｓｆが中心ｃに近づくほど、顔類似度ｓｆに比べて音声類似度ｓｖの割合が大きくなるように、顔類似度ｓｆと音声類似度ｓｖとが線形に変化する重み係数で加重平均される。一方、重み係数αは、顔類似度ｓｆが中心ｃから離れるほど０に近づくように設定される。そのため、顔類似度ｓｆが中心ｃから最小値ｐ又は最大値ｑに近づくほど、顔類似度ｓｆに比べて音声類似度ｓｖの割合が小さくなるように、顔類似度ｓｆと音声類似度ｓｖとが線形に変化する重み係数で加重平均される。

　（第３方法）
　統合部１１７は、音声類似度ｓｖに重み係数αを乗じた値と顔類似度ｓｆとの加算値を統合類似度として算出する。具体的には、統合部１１７は下記の式（５）を用いて統合類似度を算出する。

　ｓ＝α・ｓｖ＋ｓｆ　　　（５）

　αは固定の重み係数であり、０以上、１以下である。このように第３方法では、顔類似度ｓｆに重み係数αで重み付けされた音声類似度ｓｖを加算した値が統合類似度ｓとして算出されている。そのため、顔類似度をベースにしつつ統合類似度を正確に算出できる。

　（ステップＳ１１）
　統合部１１７は、顔類似度算出部１１２により算出された顔類似度を最終類似度として決定する。

　（ステップＳ１２）
　認識部１１８は、最終類似度が閾値Ｔ１より大きいか否かを判定する。最終類似度が閾値Ｔ１より大きい場合（ステップＳ１２でＹＥＳ）、処理はステップＳ１３に進む。一方、最終類似度が閾値Ｔ１以下の場合（ステップＳ１２でＮＯ）、処理はステップＳ１４に進む。

　（ステップＳ１３）
　認識部１１８は、対象人物は、登録人物と同一人物、すなわち、本人であると判定する。

　（ステップＳ１４）
　認識部１１８は、対象人物は、登録人物と異なる人物、すなわち、他人であると判定する。

　（ステップＳ１５）
　出力部１１９は、認識部１１８による判定結果を示す判定結果情報を生成し、判定結果情報をディスプレイ４に出力する。これにより、ディスプレイ４は、対象人物が本人と判定されたことを示す第１判定結果情報または対象人物が他人であると判定されたことを示す第２判定結果情報を表示する。その結果、対象人物に判定結果を通知できる。

　なお、情報処理装置１は、対象人物が本人であると判定された場合、管理エリアの出入口の自動ドアを開放する制御信号を自動ドアに送信してもよい。一方、情報処理装置１は、対象人物が本人でないと判定された場合、自動ドアを開放する制御信号を自動ドアに送信しないようにしてもよい。

　続いて、情報処理装置１の効果について比較例と比較しつつ説明する。図４は、比較例の課題を説明するための図である。図４に示す分布情報Ｄ１において、縦軸は頻度、横軸は顔類似度ｓｆを示す。分布情報Ｄ１は、第１分布Ｄ１０１と第２分布Ｄ１０２とを含む。第１分布Ｄ１０１は、対象人物が登録人物と同一人物である場合において、対象人物の顔特徴量と登録人物の顔特徴量とを比較する多数の試行を実施した場合に得られることが想定される顔類似度ｓｆの仮想分布である。第２分布Ｄ１０２は、対象人物が登録人物と異なる人物である場合において、対象人物の顔特徴量と登録人物の顔特徴量とを比較する多数の試行を実施した場合に得られることが想定される顔類似度ｓｆの仮想分布である。第１分布Ｄ１０１は、第２分布Ｄ１０２よりも顔類似度ｓｆが高い側に分布している。第１分布Ｄ１０１は左端側の一部の領域が第２分布Ｄ１０２の右端側の一部の領域と重なっている。比較例は、この重なった領域の中心の顔類似度ｓｆの値（＝７０）を閾値Ｔ１として採用している。

　比較例では、顔類似度ｓｆが統合範囲内であるか否かに拘わらず、統合類似度ｓが閾値Ｔ１（＝７０）と比較される。比較例では、統合類似度ｓは、ｓ＝（ｓｆ＋ｓｖ）／２により算出される。

　ここで、顔類似度ｓｆが１００、音声類似度ｓｖが２０のケースを考察する。このケースでは、顔類似度ｓｆが１００であり閾値Ｔ１（＝７０）よりも大幅に大きいため、対象人物が本人である可能性は高い。

　しかしながら、比較例では、統合類似度ｓが６０（＝（１００＋２０）／２）と算出され、統合類似度ｓが閾値Ｔ１（＝７０）を下回るので、対象人物が本人ではないと判定されてしまう。このように、比較例では、統合類似度ｓのみを用いて対象人物が本人であるか否かが判定されるので、顔類似度ｓｆによる判定が容易なケースであるにも拘わらず、低い音声類似度ｓｖが得られた場合、誤判定される可能性がある。このような低い音声類似度ｓｖは、マイク３の周囲環境の騒音が激しいとき、または、対象人物がマイク３とは別の方向に向けて発話したようなときに生じる。これでは、音声類似度ｓｖを使用したことにより、認識精度が却って低下してしまう。

　そこで、情報処理装置１は、顔類似度ｓｆが統合範囲内にあり、顔類似度ｓｆのみでは対象人物が本人であるか否かの判定が難しい場合において、統合類似度を算出する。

　図５は、実施の形態１における情報処理装置１の効果を説明するための図である。図５に示す分布情報Ｄ１は図４と同じである。図５の例では、統合範囲Ｗ１は顔類似度ｓｆが６０以上、８０以下の範囲の値を有する。ここで、顔類似度ｓｆが１００、音声類似度ｓｖが２０のケースを考察する。このケースにおいて、実施の形態１では、顔類似度ｓｆが１００であり、統合範囲Ｗ１内にないので、顔類似度ｓｆが最終類似度として決定される。そのため、最終類似度は閾値Ｔ１を上回り、対象人物は本人であると判定される。

　一方、本実施の形態では、顔類似度ｓｆが統合範囲Ｗ１内にあり、顔類似度ｓｆのみでの判断が難しい場合は、統合類似度ｓが最終類似度として算出される。そのため、実施の形態１は、対象人物が本人であるか否かの判定精度を高めることができる。

　図６は、実施の形態１における情報処理装置１と比較例との実験結果を纏めた表である。ＥＥＲ（％）は話者識別で一般的に用いられる誤り率の評価尺度であり、値が小さいほど性能が高い。ｍｉｎＣはＮＩＳＴ（アメリカ国立標準技術研究所）によって定義されたコストであり、値が小さいほど性能が高い。

　図６に示すように、ＥＥＲ（％）は、比較例では「０．４０６」であったのに対して実施の形態１では「０．３８１」であった。また、ｍｉｎＣは、比較例では「０．０２１」であったのに対して実施の形態１では「０．０１２」であった。したがって、ＥＥＲ（％）及びｍｉｎＣ共、実施の形態１の手法は、比較例の手法に比べて性能が高いことが確認された。

　このように実施の形態１では、顔類似度が閾値付近にあり、顔類似度のみでは判定が難しい場合は、顔類似度と音声類似度とが統合された統合類似度を用いて対象人物を認識することが可能となる。一方、顔類似度が閾値付近になく、顔類似度のみでの判定が容易である場合は、顔類似度のみを用いて対象人物を認識することが可能となる。その結果、音声データの精度にかかわらず対象人物を高精度に認識できる。

　（実施の形態２）
　実施の形態２は、分布情報に基づいて統合範囲を算出するものである。図７は、本開示の実施の形態２における情報処理システム１００の全体構成の一例を示す図である。図７において、図１との相違点は情報処理装置１Ａのプロセッサ１１Ａがさらに統合範囲決定部１２０を有している点にある。なお、実施の形態２において、実施の形態１と同一の構成要素には同一の符号を付し、説明を省略する。

　統合範囲決定部１２０は、同一人物における顔類似度と顔類似度の頻度との関係を示す第１分布と、異なる人物における顔類似度と顔類似度の頻度との関係を示す第２分布と、を含む分布情報を取得する。統合範囲決定部１２０は、第１分布及び第２分布に基づいて統合範囲を算出し、算出した統合範囲をメモリ１２に記憶する。

　図８は、本開示の実施の形態２における情報処理装置１Ａが統合範囲を決定する処理の一例を示すフローチャートである。

　（ステップＳ３０）
　統合範囲決定部１２０は、統合範囲を決定するための学習データを取得する。ここで、統合範囲決定部１２０は、外部端末（図略）から学習データを取得すればよい。外部端末は、例えば、デスクトップコンピュータ等である。

　学習データは、第１学習データと第２学習データとを含む。第１学習データは、対象人物と登録人物とが同一人物である場合において、対象人物の顔特徴量と登録人物の顔特徴量とを比較する多数の試行を実行した場合に得られる多数の顔類似度を含む。この試行において、対象人物は複数の人物であってもよいし、１人の人物であってもよい。第２学習データは、対象人物と登録人物とが異なる人物である場合において、対象人物の顔特徴量と登録人物の顔特徴量とを比較する多数の試行を実行した場合に得られる多数の顔類似度を含む。

　（ステップＳ３１）
　統合範囲決定部１２０は、取得した学習データから分布情報を算出する。これにより、統合範囲決定部１２０は、分布情報を取得する。ここで、統合範囲決定部１２０は、第１学習データに含まれる顔特徴量を複数の階級に分類し、各階級における顔特徴量の頻度を求めることで、第１分布を算出する。また、統合範囲決定部１２０は、第２学習データに含まれる顔特徴量を複数の階級に分類し、各階級における顔特徴量の頻度を求めることで、第２分布を算出する。これにより、分布情報が算出される。

　（ステップＳ３２）
　統合範囲決定部１２０は、第１分布と第２分布とに基づいて統合範囲を決定する。統合範囲は以下の３つの方法を用いて決定される。

　（第１決定方法）
　図９は、統合範囲Ｗ１の第１決定方法を説明する図である。図９に示す分布情報Ｄ１０は第１分布Ｄ１１と第２分布Ｄ１２とを含む。分布情報Ｄ１０において縦軸は頻度、横軸は顔類似度ｓｆを示す。第１分布Ｄ１１は、第２分布Ｄ１２よりも顔類似度ｓｆが高い側に分布している。第１分布Ｄ１１は左端側の一部の領域が第２分布Ｄ１２の右端側の一部の領域と重なっている。閾値Ｔ１は、例えば、この重なった領域の中心の顔類似度ｓｆの値が採用される。

　統合範囲決定部１２０は、第１分布Ｄ１１における顔類似度ｓｆの最小値Ａ１から第２分布Ｄ１２における顔類似度ｓｆの最大値Ａ２までの幅Ｗ２に基づいて統合範囲Ｗ１を決定する。

　具体的には、統合範囲決定部１２０は、幅Ｗ２に余裕を与えるために幅Ｗ２に所定の係数（例えば１．１）を乗じることで統合範囲Ｗ１の長さを算出する。また、統合範囲決定部１２０は、統合範囲Ｗ１の中心が幅Ｗ２の中心に位置するように統合範囲Ｗ１の位置を決定する。なお、係数の１．１は一例であり、１．０５、１．１５等の適宜の値が採用される。

　（第２決定方法）
　図１０は、統合範囲Ｗ１の第２決定方法を説明する図である。統合範囲決定部１２０は、閾値Ｔ１から第１分布Ｄ１１における顔類似度ｓｆの最小値Ａ１までの第１幅Ｗ２１と、閾値Ｔ１から第２分布Ｄ１２における顔類似度ｓｆの最大値Ａ２までの第２幅Ｗ２２とに基づいて統合範囲Ｗ１を決定する。

　具体的には、統合範囲決定部１２０は、余裕を与えるために第１幅Ｗ２１に所定の係数（例えば１．１）を乗じて第１幅Ｗ３１を算出すると共に、余裕を与えるために第２幅Ｗ２２に所定の係数（例えば１．１）を乗じて第２幅Ｗ３２を算出する。そして、統合範囲決定部１２０は、第１幅Ｗ３１と第２幅Ｗ３２とを連結することで統合範囲Ｗ１を算出する。なお、係数の１．１は一例であり、１．０５、１．１５等の適宜の値が採用される。

　（第３決定方法）
　図１１は、統合範囲Ｗ１の第３決定方法を説明する図である。統合範囲決定部１２０は、第１分布Ｄ１１及び第２分布Ｄ１２において、顔類似度ｓｆの最小値Ｂ１から顔類似度の最大値Ｂ２までの第３幅Ｗ３と、分布情報の精度と、に基づいて統合範囲Ｗ１の幅を決定する。

　分布情報Ｄ１０の精度は、例えば、第１分布Ｄ１１の正解率と第２分布Ｄ１２の正解率との平均値である。第１分布Ｄ１１の正解率は、例えば、第１分布Ｄ１１の全試行数に対する、第１分布Ｄ１１において閾値Ｔ１以上の試行数の割合である。第２分布Ｄ１２の正解率は、例えば、第２分布Ｄ１２の全試行数に対する、第２分布Ｄ１２において閾値Ｔ１以下の試行数の割合である。なお、第１分布Ｄ１１の正解率は、例えば、第１分布の全領域の面積に対する、第１分布Ｄ１１において閾値Ｔ１以上の領域の面積の割合であってもよい。第２分布Ｄ１２の正解率は、例えば、第２分布Ｄ１２の全領域の面積に対する、第２分布Ｄ１２において閾値Ｔ１以下の領域の面積の割合であってもよい。

　分布情報Ｄ１０の精度は、例えば、第１分布Ｄ１１の誤り率と第２分布Ｄ１２の誤り率との平均値であってもよい。第１分布Ｄ１１の誤り率は、例えば、第１分布Ｄ１１の全試行数に対する、第１分布Ｄ１１において閾値Ｔ１以下の試行数の割合である。第２分布Ｄ１２の誤り率は、例えば、第２分布Ｄ１２の全試行数に対する、第２分布Ｄ１２において閾値Ｔ１以上の試行数の割合である。なお、第１分布Ｄ１１の誤り率は、例えば、第１分布Ｄ１１の全領域の面積に対する、第１分布Ｄ１１において閾値Ｔ１以下の領域の面積の割合であってもよい。また、第２分布Ｄ１２の誤り率は、例えば、第２分布Ｄ１２の全領域の面積に対する、第２分布Ｄ１２において閾値Ｔ１以上の領域の面積の割合であってもよい。

　統合範囲決定部１２０は、分布情報Ｄ１０の精度が高いほど幅Ｗ３を小さくすることで統合範囲Ｗ１の幅を決定すればよい。そして、統合範囲決定部１２０は、統合範囲Ｗ１の中心が閾値Ｔ１に位置するように統合範囲Ｗ１の位置を決定すればよい。

　統合部１１７はこのようにして決定された統合範囲Ｗ１を顔類似度ｓｆと比較することで統合類似度を算出するか否かを判定すればよい。

　このように、実施の形態２によれば、実際の事例に基づいて算出された分布情報に基づいて統合範囲が決定されているので、統合範囲を精度よく決定できる。

　（実施の形態３）
　実施の形態３は、実施の形態１の情報処理システム１００をネットワークに適用したものである。図１２は、本開示の実施の形態３における情報処理システム１００の全体構成の一例を示す図である。

　情報処理システム１００は、情報処理装置１Ｂ及び端末２００を備える。情報処理装置１Ｂ及び端末２００はネットワークを介して通信可能に接続されている。ネットワークは例えばインターネット等の広域通信網である。

　情報処理装置１Ｂは、例えば、１以上のコンピュータを含むクラウドサーバであり、情報処理装置１に対してさらに通信部１３を備える。通信部１３は情報処理装置１Ｂをネットワークに接続する通信装置である。通信部１３は、端末２００から送信される、顔画像及び音声データを受信する。通信部１３は、認識部１１８による判定結果を示す判定結果情報を端末２００に送信する。

　端末２００は、タブレット型コンピュータ又はスマートフォン等の携帯端末であってもよいし、デスクトップコンピュータであってもよい。端末２００は、カメラ２Ａ、マイク３Ａ、ディスプレイ４Ａに加えてさらに通信部５Ａを備える。カメラ２Ａは、対象人物の顔画像を撮影する。マイク３Ａは対象人物の音声データを収音する。ディスプレイ４Ａは、判定結果情報を表示する。通信部５Ａは、カメラ２Ａが撮影した顔画像及びマイク３Ａが収音した音声データを情報処理装置１Ｂに送信する。通信部５Ａは、情報処理装置１Ｂから送信された判定結果情報を受信する。

　実施の形態３における情報処理システム１００は、端末２００を用いて対象人物が本人であるか否かを判定するシステムである。対象人物は、端末２００に向けて発話すると、カメラ２Ａにより対象人物の顔画像が撮影されると共に、発話した音声データがマイク３Ａにより収音される。そして、撮影された顔画像と収音された音声データとが端末２００から情報処理装置１Ｂに送信される。顔画像及び音声データを受信した情報処理装置１Ｂは、実施の形態１で説明した手法を用いて対象人物が本人であるか否かを判定し、対象人物が本人であるか否かの判定結果を示す判定結果情報を端末２００に送信する。判定結果情報を受信した端末２００は、判定結果情報をディスプレイ４Ａに表示する。これにより、対象人物に判定結果を提示できる。

　本開示は下記の変形例が採用できる。

　（１）実施の形態２では、統合範囲決定部１２０は外部端末（図略）から取得した学習データに基づいて分布情報を算出するものとして説明したが、本開示はこれに限定されない。統合範囲決定部１２０は、外部端末（図略）から分布情報を取得してもよい。

　（２）実施の形態３においては実施の形態２に示す情報処理装置１Ａが適用されてもよい。

　（３）情報処理装置１、１Ａ、１Ｂにおいて、顔特徴量算出部１１１、顔類似度算出部１１２、音声特徴量算出部１１４、音声類似度算出部１１５は、外部装置に設けられていてもよい。外部装置は、例えば端末２００である。この場合、第１取得部１１３は、外部装置から顔類似度を取得し、第２取得部１１６は外部装置から音声類似度を取得することになる。

　（４）情報処理装置１、１Ａ、１Ｂにおいて、認識部１１８は外部装置（図略）に設けられていてもよい。この場合、出力部１１９は、統合部１１７により算出された最終類似度を外部装置に送信すればよい。さらに、この場合、外部装置の認識部１１８は最終類似度を閾値と比較することで対象人物が本人であるか否かを判定すればよい。

　（５）カメラ２は、所定の周期で顔画像を情報処理装置１に入力してもよい。また、マイク３は、所定の周期で音声データを情報処理装置１に入力してもよい。この場合、情報処理装置１は、周期的に対象人物が本人であるか否かの判定を行えばよい。

　（６）図２において、ステップＳ１～Ｓ４の処理セットと、ステップＳ５～Ｓ８の処理セットとは並列処理により実行されてもよい。

　本開示によれば、人物が本人であるか否かを識別する技術分野において有用である。

Claims

　コンピュータにおける情報処理方法であって、
　第１人物の顔と第２人物の顔との類似度を示す顔類似度を取得し、
　前記第１人物の音声と前記第２人物の音声との類似度を示す音声類似度を取得し、
　前記第１人物が前記第２人物と同一人物であるかを判定する際に用いられる閾値を含む統合範囲内に前記顔類似度がある場合、前記顔類似度及び前記音声類似度を統合することによって統合類似度を算出し、前記統合類似度を最終類似度として決定し、前記顔類似度が前記統合範囲内にない場合、前記顔類似度を前記最終類似度として算出し、
　前記最終類似度を出力する、
　情報処理方法。
　さらに、同一人物における前記顔類似度と前記顔類似度の頻度との関係を示す第１分布と、異なる人物における前記顔類似度と前記顔類似度の頻度との関係を示す第２分布と、を含む分布情報を取得し、
　前記統合範囲は、前記第１分布及び前記第２分布に基づいて算出される、
　請求項１記載の情報処理方法。
　前記統合範囲は、前記第１分布における前記顔類似度の最小値から前記第２分布における前記顔類似度の最大値までの幅に基づいて決定されたものである、
　請求項２記載の情報処理方法。
　前記統合範囲は、前記閾値から前記第１分布における前記顔類似度の最小値までの第１幅と、前記閾値から前記第２分布における前記顔類似度の最大値までの第２幅とに基づいて決定されたものである、
　請求項２記載の情報処理方法。
　前記統合範囲は、前記閾値を中心とする幅を有し、
　前記幅は、前記第１分布及び前記第２分布において、前記顔類似度の最小値から前記顔類似度の最大値までの第３幅と、前記分布情報の精度と、に基づいて決定されたものである、
　請求項２記載の情報処理方法。
　前記統合類似度は、前記顔類似度と前記音声類似度とを所定の重み係数で重み付け平均することで得られた値を有する、
　請求項１記載の情報処理方法。
　前記所定の重み係数は、固定値である、
　請求項６記載の情報処理方法。
　前記所定の重み係数は、前記顔類似度が前記統合範囲の中心に近づくにつれて前記顔類似度に対して前記音声類似度の割合が大きくなる値が設定される、
　請求項６記載の情報処理方法。
　前記統合類似度は、前記音声類似度に重み係数を乗じた値と前記顔類似度との加算値である、
　請求項１記載の情報処理方法。
　さらに、前記第１人物の顔画像を取得し、
　さらに、前記第１人物の前記顔画像から前記第１人物の前記顔特徴量を算出し、
　さらに、前記第２人物の前記顔特徴量を取得し、
　さらに、前記第１人物の顔特徴量と前記第２人物の前記顔特徴量とから前記顔類似度を算出し、
　前記顔類似度の取得では、算出された前記顔類似度が取得される、
　請求項１記載の情報処理装置。
　さらに、前記第１人物の音声データを取得し、
　さらに、前記第１人物の前記音声データから前記第１人物の前記音声特徴量を算出し、
　さらに、前記第２人物の前記音声特徴量を取得し、
　さらに、前記第１人物の音声特徴量と前記第２人物の音声特徴量とから前記音声類似度を算出し、
　前記音声類似度の取得では、算出された前記音声類似度が取得される、
　請求項１記載の情報処理方法。
　さらに、前記最終類似度が前記閾値を超える場合、前記第１人物と前記第２人物とは同一人物であると判定し、前記最終類似度が前記閾値よりも小さい場合、前記第１人物と前記第２人物とは異なる人物であると判定し、
　さらに、前記第１人物と前記第２人物とが同一人物であるか否かの判定結果を出力する、
　請求項１記載の情報処理方法。
　第１人物の顔と第２人物の顔との類似度を示す顔類似度を取得する第１取得部と、
　前記第１人物の音声と前記第２人物の音声との類似度を示す音声類似度を取得する第２取得部と、
　前記顔類似度が統合範囲内にある場合、前記顔類似度及び前記音声類似度を統合することによって統合類似度を算出し、前記統合類似度を最終類似度として決定し、前記顔類似度が前記統合範囲内にない場合、前記顔類似度を前記最終類似度として決定する統合部と、
　前記最終類似度を出力する出力部と、を備える、
　情報処理装置。
　コンピュータに、
　第１人物の顔と第２人物の顔との類似度を示す顔類似度を取得し、
　前記第１人物の音声と前記第２人物の音声との類似度を示す音声類似度を取得し、
　前記顔類似度が統合範囲内にある場合、前記顔類似度及び前記音声類似度を統合することによって統合類似度を算出し、前記統合類似度を最終類似度として決定し、前記顔類似度が前記統合範囲内にない場合、前記顔類似度を前記最終類似度として算出し、
　前記最終類似度を出力する、処理を実行させる、
　プログラム。