WO2023074229A1 - 情報処理方法、情報処理装置、及び情報処理プログラム - Google Patents

情報処理方法、情報処理装置、及び情報処理プログラム Download PDF

Info

Publication number
WO2023074229A1
WO2023074229A1 PCT/JP2022/035967 JP2022035967W WO2023074229A1 WO 2023074229 A1 WO2023074229 A1 WO 2023074229A1 JP 2022035967 W JP2022035967 W JP 2022035967W WO 2023074229 A1 WO2023074229 A1 WO 2023074229A1
Authority
WO
WIPO (PCT)
Prior art keywords
similarity
person
face
information processing
distribution
Prior art date
Application number
PCT/JP2022/035967
Other languages
English (en)
French (fr)
Inventor
慎太郎 岡田
正成 宮本
光佑 板倉
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority to CN202280071884.2A priority Critical patent/CN118176529A/zh
Publication of WO2023074229A1 publication Critical patent/WO2023074229A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Definitions

  • This disclosure relates to technology for recognizing a target person.
  • Non-Patent Document 1 when the comparison result between face images is highly accurate, but the comparison result between voice data is low accuracy, the result of comparison between face images is the result of comparison between voice data. Further improvement is necessary because it does not take into account that the recognition accuracy is lowered due to the influence of
  • An information processing method is an information processing method in a computer, in which face similarity indicating the degree of similarity between the face of a first person and the face of a second person is obtained, and the voice of the first person is obtained. and the voice similarity indicating the similarity between the voice of the second person and the integration range including the threshold value used when determining whether the first person is the same person as the second person. If there is a face similarity, calculating an integrated similarity by integrating the face similarity and the voice similarity, determining the integrated similarity as a final similarity, and determining that the face similarity is within the integration range If not, the face similarity is calculated as the final similarity, and the final similarity is output.
  • the face similarity having a high value has a low value.
  • the integrated similarity may fall below the threshold, and the target person may be erroneously determined not to be a registered person. Therefore, in such a case, if the voice similarity is used in addition to the face similarity, there is a problem that the recognition accuracy of the target person is lowered.
  • the integration range is determined based on the width from the minimum value of face similarity in the first distribution to the maximum value of face similarity in the second distribution, so the integration range can be determined with high accuracy.
  • the integration range has a width centered on the threshold value, and the width includes the first distribution and the In the second distribution, it may be determined based on a third width from the minimum value of the face similarity to the maximum value of the face similarity and the accuracy of the distribution information.
  • the integrated similarity is obtained by weighting and averaging the face similarity and the voice similarity with a predetermined weighting factor. may have a value obtained by
  • the integrated similarity is calculated using a fixed weighting factor, the integrated similarity can be easily calculated.
  • the integrated similarity is calculated using a weighting factor whose value decreases as the face similarity approaches the center of the integration range, so the integrated similarity can be calculated accurately.
  • the integrated similarity is a sum of a value obtained by multiplying the voice similarity by a weighting factor and the face similarity.
  • the integrated similarity is calculated by adding the voice similarity whose value is adjusted by the weighting factor to the face similarity, the integrated similarity can be accurately calculated based on the face similarity.
  • An information processing program acquires, in a computer, a face similarity indicating the degree of similarity between the face of a first person and the face of a second person, and the speech features of the first person. acquiring a voice similarity indicating a similarity between the voice of the first person and the voice of the second person calculated based on the amount and the voice feature amount of the second person; if the face similarity is within the integration range, calculate an integrated similarity by integrating the face similarity and the voice similarity, determine the integrated similarity as the final similarity, and if the face similarity is not within the integration range , calculating the face similarity as the final similarity and outputting the final similarity.
  • FIG. 3 is a graph G1 showing the relationship between the weighting factor ⁇ and the face similarity sf.
  • the vertical axis indicates the weighting factor ⁇
  • the horizontal axis indicates the face similarity sf.
  • p is the minimum value of the integrated range
  • q is the maximum value of the integrated range.
  • Step S11 The integration unit 117 determines the face similarity calculated by the face similarity calculation unit 112 as the final similarity.
  • the information processing device 1B is, for example, a cloud server including one or more computers, and further includes a communication unit 13 in addition to the information processing device 1.
  • the communication unit 13 is a communication device that connects the information processing device 1B to a network.
  • the communication unit 13 receives face images and voice data transmitted from the terminal 200 .
  • the communication unit 13 transmits determination result information indicating the determination result by the recognition unit 118 to the terminal 200 .

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Abstract

情報処理装置は、第1人物の顔と第2人物の顔との類似度を示す顔類似度を取得し、第1人物の音声と第2人物の音声との類似度を示す音声類似度を取得し、第1人物が第2人物と同一人物であるかを判定する際に用いられる閾値を含む統合範囲内に顔類似度がある場合、前記顔類似度及び前記音声類似度を統合することによって統合類似度を算出し、統合類似度を最終類似度として決定し、顔類似度が統合範囲内にない場合、顔類似度を最終類似度として算出し、最終類似度を出力する。

Description

情報処理方法、情報処理装置、及び情報処理プログラム
 本開示は、対象人物を認識する技術に関するものである。
 非特許文献1には、登録人物と対象人物とにおいて、顔画像同士を比較すると共に音声データ同士を比較することによって対象人物を認識する技術が開示されている。
 しかしながら、非特許文献1では、顔画像同士の比較結果は高精度である一方で、音声データ同士の比較結果が低精度であるような場合、顔画像同士の比較結果が音声データ同士の比較結果に影響されて、却って認識精度が低下することが考慮されていないので、さらなる改善の必要がある。
Jesus Villalba, Daniel Garcia-Romero, Nanxin Chen, Gregory Sell, Jonas Borgstrom, Alan McCree, L. Paola Garcia-Perera1, Saurabh Kataria, Phani Sankar Nidadavolu,Pedro A. Torres-Carrasquillo, Najim Dehak , "Advances in Speaker Recognition for Telephone and Audio-Visual Data: the JHU-MIT Submission for NIST SRE19" , Odyssey 2020 The Speaker and Language Recognition Workshop1-5 November 2020, Tokyo, Japan
 本開示は、このような課題を解決するためのものであり、音声データと顔画像とを用いて対象人物を認識する場合において、音声データの精度にかかわらず、対象人物を高精度に認識できる技術を提供することを目的とする。
 本開示の一態様における情報処理方法は、コンピュータにおける情報処理方法であって、第1人物の顔と第2人物の顔との類似度を示す顔類似度を取得し、前記第1人物の音声と前記第2人物の音声との類似度を示す音声類似度を取得し、前記第1人物が前記第2人物と同一人物であるかを判定する際に用いられる閾値を含む統合範囲内に前記顔類似度がある場合、前記顔類似度及び前記音声類似度を統合することによって統合類似度を算出し、前記統合類似度を最終類似度として決定し、前記顔類似度が前記統合範囲内にない場合、前記顔類似度を前記最終類似度として算出し、前記最終類似度を出力する。
 本開示によれば、音声データと顔画像とを用いて対象人物を認識する場合において、音声データの精度にかかわらず、対象人物を高精度に認識できる。
本開示の実施の形態1における情報処理システムの全体構成の一例を示すブロック図である。 実施の形態1における情報処理装置の処理の一例を示すフローチャートである。 重み係数と顔類似度との関係を示すグラフである。 比較例の課題を説明するための図である。 実施の形態1における情報処理装置の効果を説明するための図である。 実施の形態1における情報処理装置と比較例との実験結果を纏めた表である。 本開示の実施の形態2における情報処理システムの全体構成の一例を示す図である。 本開示の実施の形態2における情報処理装置が統合範囲を決定する処理の一例を示すフローチャートである。 統合範囲の第1決定方法を説明する図である。 統合範囲の第2決定方法を説明する図である。 統合範囲の第3決定方法を説明する図である。 本開示の実施の形態3における情報処理システムの全体構成の一例を示す図である。
 (本開示の基礎となる知見)
 近年、対象人物の認識精度のさらなる向上を図るために、音声データに加えてさらに顔画像を用いて対象人物を認識するマルチモーダル認識技術が検討されている(例えば、非特許文献1)。このようなマルチモーダル認識技術においては、対象人物の音声データと登録人物の音声データとの類似度である音声類似度と、対象人物の顔画像と登録人物の顔画像との類似度である顔類似度とを統合することで統合類似度が算出され、算出された統合類似度が閾値と比較されて対象人物が登録人物であるか否かが判定される。
 しかしながら、取得した対象人物の顔画像は高精度であるが、騒音等の影響により、取得した対象人物の音声データが低精度であるような場合、高い値を有する顔類似度が低い値を有する音声類似度の影響を受け、統合類似度が閾値を下回り、対象人物が登録人物でないと誤判定される可能性がある。したがって、このようなケースにおいては顔類似度に加えて音声類似度を用いると、却って対象人物の認識精度が低下するという課題が生じる。
 本開示はこのような課題を解決するためになされたものである。
 (1)本開示の一態様における情報処理方法は、コンピュータにおける情報処理方法であって、第1人物の顔と第2人物の顔との類似度を示す顔類似度を取得し、前記第1人物の音声と前記第2人物の音声との類似度を示す音声類似度を取得し、前記第1人物が前記第2人物と同一人物であるかを判定する際に用いられる閾値を含む統合範囲内に前記顔類似度がある場合、前記顔類似度及び前記音声類似度を統合することによって統合類似度を算出し、前記統合類似度を最終類似度として決定し、前記顔類似度が前記統合範囲内にない場合、前記顔類似度を前記最終類似度として算出し、前記最終類似度を出力する。
 この構成によれば、第1人物が第2人物と同一人物であるかを判定する際に用いられる閾値を含む統合範囲内に顔類似度がある場合、顔類似度及び音声類似度を統合することによって統合類似度が算出され、統合類似度が最終類似度として決定される。一方、顔類似度が統合範囲内にない場合、顔類似度が最終類似度として決定されている。このように、本構成では、顔類似度が閾値付近にあり、顔類似度のみでは判定が難しい場合は、顔類似度と音声類似度とが統合された統合類似度を用いて対象人物を認識することが可能となる。一方、顔類似度が閾値付近になく、顔類似度のみでの判定が容易である場合は、顔類似度のみを用いて対象人物を認識することが可能となる。その結果、音声データの精度にかかわらず対象人物を高精度に認識できる。
 (2)上記(1)記載の情報処理方法において、さらに、同一人物における前記顔類似度と前記顔類似度の頻度との関係を示す第1分布と、異なる人物における前記顔類似度と前記顔類似度の頻度との関係を示す第2分布と、を含む分布情報を取得し、前記統合範囲は、前記第1分布及び前記第2分布に基づいて算出されてもよい。
 この構成によれば、同一人物における顔類似度と顔類似度の頻度との関係を示す第1分布と、異なる人物における顔類似度と顔類似度の頻度との関係を示す第2分布と、を含む分布情報に基づいて統合範囲が算出されているので、統合範囲を精度よく決定できる。
 (3)上記(2)記載の情報処理方法において、前記統合範囲は、前記第1分布における前記顔類似度の最小値から前記第2分布における前記顔類似度の最大値までの幅に基づいて決定されたものであってもよい。
 この構成によれば、第1分布における顔類似度の最小値から第2分布における顔類似度の最大値までの幅に基づいて統合範囲が決定されるので、統合範囲を精度よく決定できる。
 (4)上記(2)又は(3)のいずれか1つに記載の情報処理方法において、前記統合範囲は、前記閾値から前記第1分布における前記顔類似度の最小値までの第1幅と、前記閾値から前記第2分布における前記顔類似度の最大値までの第2幅とに基づいて決定されたものであってもよい。
 この構成によれば、閾値から第1分布における顔類似度の最小値までの第1幅と、閾値から第2分布における顔類似度の最大値までの第2幅とに基づいて統合範囲が決定されるので、統合範囲を精度よく決定できる。
 (5)上記(2)~(4)のいずれか1つに記載の情報処理方法において、前記統合範囲は、前記閾値を中心とする幅を有し、前記幅は、前記第1分布及び前記第2分布において、前記顔類似度の最小値から前記顔類似度の最大値までの第3幅と、前記分布情報の精度と、に基づいて決定されたものであってもよい。
 この構成によれば、統合範囲は閾値を中心とする幅を有し、この幅は、第1分布及び第2分布の全域における前記顔類似度の最小値から顔類似度の最大値までの第3幅と、分布情報の精度と、に基づいて決定されるので、統合範囲を精度よく決定できる。
 (6)上記(1)~(5)のいずれか1つに記載の情報処理方法において、前記統合類似度は、前記顔類似度と前記音声類似度とを所定の重み係数で重み付け平均することで得られた値を有していてもよい。
 この構成によれば、統合類似度は、顔類似度と音声類似度とを所定の重み係数で重み付け平均することで得られた値を有するので、顔類似度と音声類似度とを適切に統合できる。
 (7)上記(6)記載の情報処理方法において、前記所定の重み係数は、固定値であってもよい。
 この構成によれば、固定の重み係数を用いて統合類似度が算出されているので統合類似度を容易に算出できる。
 (8)上記(6)記載の情報処理方法において、前記所定の重み係数は、前記顔類似度が前記統合範囲の中心に近づくにつれて前記顔類似度に対して前記音声類似度の割合が大きくなる値が設定されてもよい。
 この構成によれば、顔類似度が統合範囲の中心に近づくにつれて値が小さくなる重み係数を用いて統合類似度が算出されているので、統合類似度を正確に算出できる。
 (9)上記(1)~(8)のいずれか1つに記載の情報処理方法において、前記統合類似度は、前記音声類似度に重み係数を乗じた値と前記顔類似度との加算値であってもよい。
 この構成によれば、重み係数により値が調整された音声類似度が顔類似度に加算されて統合類似度が算出されているので、顔類似度をベースとしつつ統合類似度を正確に算出できる。
 (10)上記(1)~(9)のいずれか1つに記載の情報処理方法において、さらに、前記第1人物の顔画像を取得し、さらに、前記第1人物の前記顔画像から前記第1人物の前記顔特徴量を算出し、さらに、前記第2人物の前記顔特徴量を取得し、さらに、前記第1人物の顔特徴量と前記第2人物の前記顔特徴量とから前記顔類似度を算出し、前記顔類似度の取得では、算出された前記顔類似度が取得されてもよい。
 この構成によれば、第1人物が対象人物であり、第2人物が登録人物とした場合において、第1人物が登録人物であるか否かを算出できる。
 (11)上記(1)~(10)のいずれかに記載の情報処理方法において、さらに、前記第1人物の音声データを取得し、さらに、前記第1人物の前記音声データから前記第1人物の前記音声特徴量を算出し、さらに、前記第2人物の前記音声特徴量を取得し、さらに、前記第1人物の音声特徴量と前記第2人物の音声特徴量とから前記音声類似度を算出し、前記音声類似度の取得では、算出された前記音声類似度が取得されてもよい。
 この構成によれば、第1人物が対象人物であり、第2人物が登録人物とした場合において、第1人物が登録人物であるか否かを判定できる。
 (12)上記(1)~(11)のいずれかに記載の情報処理方法において、さらに、前記最終類似度が前記閾値を超える場合、前記第1人物と前記第2人物とは同一人物であると判定し、前記最終類似度が前記閾値よりも小さい場合、前記第1人物と前記第2人物とは異なる人物であると判定し、さらに、前記第1人物と前記第2人物とが同一人物であるか否かの判定結果を出力してもよい。
 この構成によれば、最終類似度を用いて第1人物が第2人物と同一人物であるか否かを判定することができる。
 (13)本開示の別の一態様における情報処理装置は、第1人物の顔と第2人物の顔との類似度を示す顔類似度を取得する第1取得部と、前記第1人物の音声特徴量と前記第2人物の音声特徴量とに基づいて算出された前記第1人物の音声と前記第2人物の音声との類似度を示す音声類似度を取得する第2取得部と、前記顔類似度が統合範囲内にある場合、前記顔類似度及び前記音声類似度を統合することによって統合類似度を算出し、前記統合類似度を最終類似度として決定し、前記顔類似度が前記統合範囲内にない場合、前記顔類似度を前記最終類似度として決定する統合部と、前記最終類似度を出力する出力部と、を備える。
 この構成によれば、音声データの精度にかかわらず対象人物を高精度に認識し得る情報処理装置を提供できる。
 (14)本開示の別の一態様における情報処理プログラムは、コンピュータに、第1人物の顔と第2人物の顔との類似度を示す顔類似度を取得し、前記第1人物の音声特徴量と前記第2人物の音声特徴量とに基づいて算出された前記第1人物の音声と前記第2人物の音声との類似度を示す音声類似度を取得し、前記顔類似度が統合範囲内にある場合、前記顔類似度及び前記音声類似度を統合することによって統合類似度を算出し、前記統合類似度を最終類似度として決定し、前記顔類似度が前記統合範囲内にない場合、前記顔類似度を前記最終類似度として算出し、前記最終類似度を出力する、処理を実行させる。
 この構成によれば、音声データの精度にかかわらず対象人物を高精度に認識し得る情報処理プログラムを提供できる。
 本開示は、このような情報処理プログラムによって動作する情報処理システムとして実現することもできる。また、このようなコンピュータプログラムを、CD-ROM等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。
 なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。
 (実施の形態1)
 図1は、本開示の実施の形態1における情報処理システム100の全体構成の一例を示すブロック図である。情報処理システム100は、音声データと顔画像とを用いて認識対象となる対象人物が事前に登録された登録人物と同一人物であるか否かを判定するシステムである。対象人物は第1人物の一例であり、登録人物は第2人物の一例である。情報処理システム100は、例えば、対象人物の管理エリアへの入退室を管理する入退室管理システムに適用される。管理エリアは、例えば、建物、住居、オフィス等である。なお、情報処理システム100の適用例はこれに限定されず、音声データと顔画像とを用いて個人認証を行う個人認証システムに適用されてもよい。
 情報処理システム100は、情報処理装置1、カメラ2、マイク3、及びディスプレイ4を含む。情報処理装置1は、コンピュータで構成されている。情報処理装置1は、プロセッサ11及びメモリ12を含む。プロセッサ11は、例えばCPU(中央演算処理装置)である。メモリ12は、例えばフラッシュメモリ等の不揮発性の書き換え可能な記憶装置である。
 プロセッサ11は、顔特徴量算出部111、顔類似度算出部112、第1取得部113、音声特徴量算出部114、音声類似度算出部115、第2取得部116、統合部117、認識部118、及び出力部119を含む。顔特徴量算出部111~出力部119は、例えばプロセッサ11が情報処理プログラムを実行することで実現されてもよいし、ASIC等の専用のハードウェア回路で構成されてもよい。
 顔特徴量算出部111は、カメラ2が撮影した対象人物の顔画像を取得し、取得した顔画像から対象人物の顔の特徴量である顔特徴量を算出する。顔画像とは、対象人物の顔を含む画像である。顔画像は所定行×所定列でピクセルデータが配列されたデジタルの画像データである。顔画像はモノクロ画像であってもよいし、R,G,Bの3つの色成分を有するカラー画像であってもよい。顔特徴量は、例えば顔の特徴を示すベクトルである。
 顔特徴量算出部111は、顔識別モデルに顔画像を入力することで顔特徴量を算出すればよい。顔識別モデルは、例えば、顔画像を説明変数とし、顔特徴量を目的変数とする多数のデータセットを機械学習することで予め作成された学習済みモデルである。
 顔識別モデルは例えばメモリ12に予め記憶されている。但し、これは一例であり、顔特徴量算出部111は、顔識別モデルを記憶する外部サーバに顔画像を送信し、外部サーバから応答として送信された顔特徴量を取得することで、顔特徴量を算出してもよい。
 顔類似度算出部112は、登録人物の顔特徴量を取得し、取得した登録人物の顔特徴量と対象人物の顔特徴量との類似度である顔類似度を算出する。登録人物の顔特徴量はメモリ12に予め記憶されているので、顔類似度算出部112は、メモリ12から登録人物の顔特徴量を取得すればよい。登録人物の顔特徴量は、登録人物の顔画像を顔識別モデルに入力することで事前に計算されたものである。したがって、登録人物の顔特徴量は、対象人物の顔特徴量と同じ次元数を有している。
 なお、メモリ12は、複数の登録人物の顔特徴量と複数の人物IDと対応付けて記憶していてもよい。この場合、顔類似度算出部112は、対象人物が入力した人物IDに対応する登録人物の顔特徴量と対象人物の顔特徴量との顔類似度を算出すればよい。この場合、対象人物は図略の操作装置を介して人物IDを入力すればよい。
 顔類似度は、ベクトル同士の類似を評価し得る指標であれば、どのような指標が採用されてもよい。本実施の形態では、顔類似度は、登録人物の顔類似度と、対象人物の顔類似度とが近いほど大きな値を持つものとする。顔類似度は、所定範囲(例えば0~100、0~200等)に正規化された値を有する。例えば、顔類似度は、ユークリッド距離又はコサイン類似度を、対象人物の顔類似度と登録人物の顔類似度との類似性が高くなるにつれて値が大きくなるように、所定範囲内に正規化することで算出される。
 第1取得部113は、顔類似度算出部112が算出した顔類似度を取得する。
 音声特徴量算出部114は、マイク3が収音した対象人物の音声データを取得し、取得した音声データから対象人物の音声の特徴量である音声特徴量を算出する。音声データは、例えばマイク3が収音した対象人物のアナログの音声データをA/D変換することで得られるデジタルの音声データである。音声特徴量は音声の特徴を示すベクトルである。音声特徴量の一例は、xベクトル、iベクトル等である。
 音声特徴量算出部114は、音声識別モデルに音声データを入力することで音声特徴量を算出すればよい。音声識別モデルは、例えば、音声データを説明変数とし、音声特徴量を目的変数とする多数のデータセットを機械学習することで予め作成された学習済みモデルである。
 音声識別モデルは、メモリ12に予め記憶されている。但し、これは一例であり、音声特徴量算出部114は、音声識別モデルを記憶する外部サーバに音声データを送信し、外部サーバから応答として送信された音声特徴量を取得することで、音声特徴量を算出してもよい。
 音声類似度算出部115は、登録人物の音声特徴量を取得し、取得した登録人物の音声特徴量と対象人物の音声特徴量との類似度である音声類似度を算出する。登録人物の音声特徴量はメモリ12に予め記憶されているので、音声類似度算出部115は、メモリ12から登録人物の音声特徴量を取得すればよい。登録人物の音声特徴量は、登録人物の音声データを音声識別モデルに入力することで事前に計算されたものである。したがって、登人物の音声特徴量は、対象人物の音声特徴量と同じ次元数を有している。
 なお、メモリ12は複数の登録人物の音声特徴量と複数の人物IDと対応付けて記憶していてもよい。この場合、音声類似度算出部115は、対象人物が操作装置を介して入力した人物IDに対応する登録人物の音声特徴量と対象人物の音声特徴量との音声類似度を算出すればよい。
 第2取得部116は、音声類似度算出部115が算出した音声類似度を取得し、音声類似度を統合部117に入力する。
 統合部117は、第1取得部113が取得した顔類似度が、統合範囲内にある場合、顔類似度及び音声類似度を統合することによって統合類似度を算出し、統合類似度を最終類似度として決定する。一方、第1取得部113が取得した顔類似度が統合範囲内にない場合、第1取得部113が取得した顔類似度を最終類似度として決定する。統合範囲は、対象人物が登録人物と同一人物であるかを判定する際に用いられる閾値T1を含む範囲であり、予めメモリ12に記憶されている。統合類似度の計算手法については後述する。
 認識部118は、統合部117により算出された最終類似度と閾値T1とを比較することにより、対象人物が登録人物と同一人物であるか否か、すなわち、対象人物が本人であるか他人であるかを判定する。閾値T1はメモリ12に予め記憶されている。例えば、認識部118は、最終類似度が閾値T1よりも大きい場合、対象人物は登録人物と同一人物であると判定する。一方、認識部118は、最終類似度が閾値T1以下の場合、対象人物は登録人物と異なる人物であると判定する。
 出力部119は、認識部118による判定結果を示す判定結果情報を生成し、生成した判定結果情報をディスプレイ4に出力する。
 メモリ12は、顔識別モデル、音声識別モデル、統合範囲、及び閾値T1を記憶する。
 カメラ2は、例えば管理エリアの出入口に設置された撮影装置である。カメラ2は、図略の人感センサにより管理エリアに入ろうとする対象人物が検知された場合、対象人物の顔画像を撮影する。或いは、カメラ2は、対象人物が図略の操作装置を介して人物IDを入力した場合、対象人物の顔画像を撮影する。カメラ2は、撮影した顔画像をプロセッサ11に入力する。なお、人物IDが入力される場合、カメラ2は、顔画像と人物IDとを対応付けてプロセッサ11に入力すればよい。
 マイク3は、例えば管理エリアの出入口に設置された収音装置である。マイク3は、図略の人感センサにより管理エリアに入ろうとする対象人物が検知された場合、対象人物の音声データを収音する。或いは、マイク3は、対象人物が図略の操作装置を介して人物IDを入力した場合、対象人物の音声データを収音する。マイク3は、収音した音声データをプロセッサ11に入力する。
 ディスプレイ4は、例えば管理エリアの出入口に設置された表示装置である。ディスプレイ4は、出力部119が出力した判定結果情報を表示する。ディスプレイ4は、認識部118により対象人物が登録人物と同一人物であると判定された場合、対象人物が本人であることを示す第1判定結果情報を表示する。一方、ディスプレイ4は、認識部118により対象人物が登録人物と異なる人物であると判定された場合、対象人物が他人であることを示す第2判定結果情報を表示する。第1判定結果情報は、対象人物の管理エリアへの入室を許可することを示す情報であってもよい。第2判定結果情報は、対象人物の管理エリアへの入室を拒否することを示す情報であってもよい。
 続いて、情報処理装置1の処理について説明する。図2は、実施の形態1における情報処理装置1の処理の一例を示すフローチャートである。
 (ステップS1)
 顔特徴量算出部111は、カメラ2から対象人物の顔画像を取得する。
 (ステップS2)
 顔特徴量算出部111は、顔画像を顔識別モデルに入力することにより、対象人物の顔特徴量を算出する。
 (ステップS3)
 顔類似度算出部112は、メモリ12から登録人物の顔特徴量を取得する。
 (ステップS4)
 顔類似度算出部112は、顔特徴量算出部111により算出された対象人物の顔特徴量と登録人物の顔特徴量との類似度である顔類似度を算出する。第1取得部113は、顔類似度算出部112により算出された顔類似度を取得し、取得した顔類似度を統合部117に入力する。
 (ステップS5)
 音声特徴量算出部114は、マイク3から音声データを取得する。
 (ステップS6)
 音声特徴量算出部114は、音声データを音声識別モデルに入力することで、対象人物の音声特徴量を算出する。
 (ステップS7)
 音声類似度算出部115は、メモリ12から登録人物の音声特徴量を取得する。
 (ステップS8)
 音声類似度算出部115は、音声特徴量算出部114により算出された対象人物の音声特徴量と登録人物の音声特徴量との類似度である音声類似度を算出する。第2取得部116は、音声類似度算出部115により算出された音声類似度を取得し、取得した音声類似度を統合部117に入力する。
 (ステップS9)
 統合部117は、第1取得部113から入力された顔類似度が統合範囲内にあるか否かを判定する。顔類似度が統合範囲内にあると判定された場合(ステップS9でYES)、処理はステップS10に進む。一方、顔類似度が統合範囲内にないと判定された場合(ステップS9でNO)、処理はステップS11に進む。
 (ステップS10)
 統合部117は、顔類似度及び音声類似度を統合することによって統合類似度を算出し、統合類似度を最終類似度として決定する。統合類似度は例えば下記の3つの方法により算出される。ステップS10の処理が終了すると処理はステップS12に進む。
 (第1方法)
 統合部117は、顔類似度と音声類似度とを固定の重み係数で重み付け平均することで統合類似度を算出する。具体的には、統合部117は下記の式(1)を用いて統合類似度を算出する。
 s=α・sv+(1-α)・sf   (1)
 sは統合類似度である。αは固定の重み係数であり、0以上、1以下である。svは音声特徴量である。sfは顔特徴量である。
 (第2方法)
 統合部117は、顔類似度と音声類似度とを可変の重み係数で重み付け平均することで統合類似度を算出する。具体的には、統合部117は下記の式(2)を用いて統合類似度を算出する。
 s=α・sv+(1-α)・sf   (2)
 重み係数αは、顔類似度sfが統合範囲の中心に近づくにつれて顔類似度sfに対して音声類似度svの割合が大きくなる値に設定される。
 図3は、重み係数αと顔類似度sfとの関係を示すグラフG1である。グラフG1において縦軸は重み係数αを示し、横軸は顔類似度sfを示す。pは統合範囲の最小値であり、qは統合範囲の最大値である。cは統合範囲の中心であり、c=(p+q)/2で表される。
 以上を踏まえ、重み係数αは下記の式(3)、(4)で表される。
 α=(sf-p)/(c-p)   (sf≦c)  (3)
 α=(q-sf)/(q-c)   (c<sf)  (4)
 顔類似度sfが中心c以下の場合、重み係数αは、式(3)に示すように、顔類似度sfが中心cに近づくにつれてリニアに増大する。一方、顔類似度sfが中心cより大きい場合、重み係数αは、式(4)に示すように、顔類似度sfが中心cから離れるにつれてリニアに減少する。顔類似度sfが中心cの場合、式(3)又は式(4)に示すように重み係数αは1である。
 このように、第2方法では、重み係数αは、顔類似度sfが中心cに近づくほど1に近づくように設定される。そのため、顔類似度sfが中心cに近づくほど、顔類似度sfに比べて音声類似度svの割合が大きくなるように、顔類似度sfと音声類似度svとが線形に変化する重み係数で加重平均される。一方、重み係数αは、顔類似度sfが中心cから離れるほど0に近づくように設定される。そのため、顔類似度sfが中心cから最小値p又は最大値qに近づくほど、顔類似度sfに比べて音声類似度svの割合が小さくなるように、顔類似度sfと音声類似度svとが線形に変化する重み係数で加重平均される。
 (第3方法)
 統合部117は、音声類似度svに重み係数αを乗じた値と顔類似度sfとの加算値を統合類似度として算出する。具体的には、統合部117は下記の式(5)を用いて統合類似度を算出する。
 s=α・sv+sf   (5)
 αは固定の重み係数であり、0以上、1以下である。このように第3方法では、顔類似度sfに重み係数αで重み付けされた音声類似度svを加算した値が統合類似度sとして算出されている。そのため、顔類似度をベースにしつつ統合類似度を正確に算出できる。
 (ステップS11)
 統合部117は、顔類似度算出部112により算出された顔類似度を最終類似度として決定する。
 (ステップS12)
 認識部118は、最終類似度が閾値T1より大きいか否かを判定する。最終類似度が閾値T1より大きい場合(ステップS12でYES)、処理はステップS13に進む。一方、最終類似度が閾値T1以下の場合(ステップS12でNO)、処理はステップS14に進む。
 (ステップS13)
 認識部118は、対象人物は、登録人物と同一人物、すなわち、本人であると判定する。
 (ステップS14)
 認識部118は、対象人物は、登録人物と異なる人物、すなわち、他人であると判定する。
 (ステップS15)
 出力部119は、認識部118による判定結果を示す判定結果情報を生成し、判定結果情報をディスプレイ4に出力する。これにより、ディスプレイ4は、対象人物が本人と判定されたことを示す第1判定結果情報または対象人物が他人であると判定されたことを示す第2判定結果情報を表示する。その結果、対象人物に判定結果を通知できる。
 なお、情報処理装置1は、対象人物が本人であると判定された場合、管理エリアの出入口の自動ドアを開放する制御信号を自動ドアに送信してもよい。一方、情報処理装置1は、対象人物が本人でないと判定された場合、自動ドアを開放する制御信号を自動ドアに送信しないようにしてもよい。
 続いて、情報処理装置1の効果について比較例と比較しつつ説明する。図4は、比較例の課題を説明するための図である。図4に示す分布情報D1において、縦軸は頻度、横軸は顔類似度sfを示す。分布情報D1は、第1分布D101と第2分布D102とを含む。第1分布D101は、対象人物が登録人物と同一人物である場合において、対象人物の顔特徴量と登録人物の顔特徴量とを比較する多数の試行を実施した場合に得られることが想定される顔類似度sfの仮想分布である。第2分布D102は、対象人物が登録人物と異なる人物である場合において、対象人物の顔特徴量と登録人物の顔特徴量とを比較する多数の試行を実施した場合に得られることが想定される顔類似度sfの仮想分布である。第1分布D101は、第2分布D102よりも顔類似度sfが高い側に分布している。第1分布D101は左端側の一部の領域が第2分布D102の右端側の一部の領域と重なっている。比較例は、この重なった領域の中心の顔類似度sfの値(=70)を閾値T1として採用している。
 比較例では、顔類似度sfが統合範囲内であるか否かに拘わらず、統合類似度sが閾値T1(=70)と比較される。比較例では、統合類似度sは、s=(sf+sv)/2により算出される。
 ここで、顔類似度sfが100、音声類似度svが20のケースを考察する。このケースでは、顔類似度sfが100であり閾値T1(=70)よりも大幅に大きいため、対象人物が本人である可能性は高い。
 しかしながら、比較例では、統合類似度sが60(=(100+20)/2)と算出され、統合類似度sが閾値T1(=70)を下回るので、対象人物が本人ではないと判定されてしまう。このように、比較例では、統合類似度sのみを用いて対象人物が本人であるか否かが判定されるので、顔類似度sfによる判定が容易なケースであるにも拘わらず、低い音声類似度svが得られた場合、誤判定される可能性がある。このような低い音声類似度svは、マイク3の周囲環境の騒音が激しいとき、または、対象人物がマイク3とは別の方向に向けて発話したようなときに生じる。これでは、音声類似度svを使用したことにより、認識精度が却って低下してしまう。
 そこで、情報処理装置1は、顔類似度sfが統合範囲内にあり、顔類似度sfのみでは対象人物が本人であるか否かの判定が難しい場合において、統合類似度を算出する。
 図5は、実施の形態1における情報処理装置1の効果を説明するための図である。図5に示す分布情報D1は図4と同じである。図5の例では、統合範囲W1は顔類似度sfが60以上、80以下の範囲の値を有する。ここで、顔類似度sfが100、音声類似度svが20のケースを考察する。このケースにおいて、実施の形態1では、顔類似度sfが100であり、統合範囲W1内にないので、顔類似度sfが最終類似度として決定される。そのため、最終類似度は閾値T1を上回り、対象人物は本人であると判定される。
 一方、本実施の形態では、顔類似度sfが統合範囲W1内にあり、顔類似度sfのみでの判断が難しい場合は、統合類似度sが最終類似度として算出される。そのため、実施の形態1は、対象人物が本人であるか否かの判定精度を高めることができる。
 図6は、実施の形態1における情報処理装置1と比較例との実験結果を纏めた表である。EER(%)は話者識別で一般的に用いられる誤り率の評価尺度であり、値が小さいほど性能が高い。minCはNIST(アメリカ国立標準技術研究所)によって定義されたコストであり、値が小さいほど性能が高い。
 図6に示すように、EER(%)は、比較例では「0.406」であったのに対して実施の形態1では「0.381」であった。また、minCは、比較例では「0.021」であったのに対して実施の形態1では「0.012」であった。したがって、EER(%)及びminC共、実施の形態1の手法は、比較例の手法に比べて性能が高いことが確認された。
 このように実施の形態1では、顔類似度が閾値付近にあり、顔類似度のみでは判定が難しい場合は、顔類似度と音声類似度とが統合された統合類似度を用いて対象人物を認識することが可能となる。一方、顔類似度が閾値付近になく、顔類似度のみでの判定が容易である場合は、顔類似度のみを用いて対象人物を認識することが可能となる。その結果、音声データの精度にかかわらず対象人物を高精度に認識できる。
 (実施の形態2)
 実施の形態2は、分布情報に基づいて統合範囲を算出するものである。図7は、本開示の実施の形態2における情報処理システム100の全体構成の一例を示す図である。図7において、図1との相違点は情報処理装置1Aのプロセッサ11Aがさらに統合範囲決定部120を有している点にある。なお、実施の形態2において、実施の形態1と同一の構成要素には同一の符号を付し、説明を省略する。
 統合範囲決定部120は、同一人物における顔類似度と顔類似度の頻度との関係を示す第1分布と、異なる人物における顔類似度と顔類似度の頻度との関係を示す第2分布と、を含む分布情報を取得する。統合範囲決定部120は、第1分布及び第2分布に基づいて統合範囲を算出し、算出した統合範囲をメモリ12に記憶する。
 図8は、本開示の実施の形態2における情報処理装置1Aが統合範囲を決定する処理の一例を示すフローチャートである。
 (ステップS30)
 統合範囲決定部120は、統合範囲を決定するための学習データを取得する。ここで、統合範囲決定部120は、外部端末(図略)から学習データを取得すればよい。外部端末は、例えば、デスクトップコンピュータ等である。
 学習データは、第1学習データと第2学習データとを含む。第1学習データは、対象人物と登録人物とが同一人物である場合において、対象人物の顔特徴量と登録人物の顔特徴量とを比較する多数の試行を実行した場合に得られる多数の顔類似度を含む。この試行において、対象人物は複数の人物であってもよいし、1人の人物であってもよい。第2学習データは、対象人物と登録人物とが異なる人物である場合において、対象人物の顔特徴量と登録人物の顔特徴量とを比較する多数の試行を実行した場合に得られる多数の顔類似度を含む。
 (ステップS31)
 統合範囲決定部120は、取得した学習データから分布情報を算出する。これにより、統合範囲決定部120は、分布情報を取得する。ここで、統合範囲決定部120は、第1学習データに含まれる顔特徴量を複数の階級に分類し、各階級における顔特徴量の頻度を求めることで、第1分布を算出する。また、統合範囲決定部120は、第2学習データに含まれる顔特徴量を複数の階級に分類し、各階級における顔特徴量の頻度を求めることで、第2分布を算出する。これにより、分布情報が算出される。
 (ステップS32)
 統合範囲決定部120は、第1分布と第2分布とに基づいて統合範囲を決定する。統合範囲は以下の3つの方法を用いて決定される。
 (第1決定方法)
 図9は、統合範囲W1の第1決定方法を説明する図である。図9に示す分布情報D10は第1分布D11と第2分布D12とを含む。分布情報D10において縦軸は頻度、横軸は顔類似度sfを示す。第1分布D11は、第2分布D12よりも顔類似度sfが高い側に分布している。第1分布D11は左端側の一部の領域が第2分布D12の右端側の一部の領域と重なっている。閾値T1は、例えば、この重なった領域の中心の顔類似度sfの値が採用される。
 統合範囲決定部120は、第1分布D11における顔類似度sfの最小値A1から第2分布D12における顔類似度sfの最大値A2までの幅W2に基づいて統合範囲W1を決定する。
 具体的には、統合範囲決定部120は、幅W2に余裕を与えるために幅W2に所定の係数(例えば1.1)を乗じることで統合範囲W1の長さを算出する。また、統合範囲決定部120は、統合範囲W1の中心が幅W2の中心に位置するように統合範囲W1の位置を決定する。なお、係数の1.1は一例であり、1.05、1.15等の適宜の値が採用される。
 (第2決定方法)
 図10は、統合範囲W1の第2決定方法を説明する図である。統合範囲決定部120は、閾値T1から第1分布D11における顔類似度sfの最小値A1までの第1幅W21と、閾値T1から第2分布D12における顔類似度sfの最大値A2までの第2幅W22とに基づいて統合範囲W1を決定する。
 具体的には、統合範囲決定部120は、余裕を与えるために第1幅W21に所定の係数(例えば1.1)を乗じて第1幅W31を算出すると共に、余裕を与えるために第2幅W22に所定の係数(例えば1.1)を乗じて第2幅W32を算出する。そして、統合範囲決定部120は、第1幅W31と第2幅W32とを連結することで統合範囲W1を算出する。なお、係数の1.1は一例であり、1.05、1.15等の適宜の値が採用される。
 (第3決定方法)
 図11は、統合範囲W1の第3決定方法を説明する図である。統合範囲決定部120は、第1分布D11及び第2分布D12において、顔類似度sfの最小値B1から顔類似度の最大値B2までの第3幅W3と、分布情報の精度と、に基づいて統合範囲W1の幅を決定する。
 分布情報D10の精度は、例えば、第1分布D11の正解率と第2分布D12の正解率との平均値である。第1分布D11の正解率は、例えば、第1分布D11の全試行数に対する、第1分布D11において閾値T1以上の試行数の割合である。第2分布D12の正解率は、例えば、第2分布D12の全試行数に対する、第2分布D12において閾値T1以下の試行数の割合である。なお、第1分布D11の正解率は、例えば、第1分布の全領域の面積に対する、第1分布D11において閾値T1以上の領域の面積の割合であってもよい。第2分布D12の正解率は、例えば、第2分布D12の全領域の面積に対する、第2分布D12において閾値T1以下の領域の面積の割合であってもよい。
 分布情報D10の精度は、例えば、第1分布D11の誤り率と第2分布D12の誤り率との平均値であってもよい。第1分布D11の誤り率は、例えば、第1分布D11の全試行数に対する、第1分布D11において閾値T1以下の試行数の割合である。第2分布D12の誤り率は、例えば、第2分布D12の全試行数に対する、第2分布D12において閾値T1以上の試行数の割合である。なお、第1分布D11の誤り率は、例えば、第1分布D11の全領域の面積に対する、第1分布D11において閾値T1以下の領域の面積の割合であってもよい。また、第2分布D12の誤り率は、例えば、第2分布D12の全領域の面積に対する、第2分布D12において閾値T1以上の領域の面積の割合であってもよい。
 統合範囲決定部120は、分布情報D10の精度が高いほど幅W3を小さくすることで統合範囲W1の幅を決定すればよい。そして、統合範囲決定部120は、統合範囲W1の中心が閾値T1に位置するように統合範囲W1の位置を決定すればよい。
 統合部117はこのようにして決定された統合範囲W1を顔類似度sfと比較することで統合類似度を算出するか否かを判定すればよい。
 このように、実施の形態2によれば、実際の事例に基づいて算出された分布情報に基づいて統合範囲が決定されているので、統合範囲を精度よく決定できる。
 (実施の形態3)
 実施の形態3は、実施の形態1の情報処理システム100をネットワークに適用したものである。図12は、本開示の実施の形態3における情報処理システム100の全体構成の一例を示す図である。
 情報処理システム100は、情報処理装置1B及び端末200を備える。情報処理装置1B及び端末200はネットワークを介して通信可能に接続されている。ネットワークは例えばインターネット等の広域通信網である。
 情報処理装置1Bは、例えば、1以上のコンピュータを含むクラウドサーバであり、情報処理装置1に対してさらに通信部13を備える。通信部13は情報処理装置1Bをネットワークに接続する通信装置である。通信部13は、端末200から送信される、顔画像及び音声データを受信する。通信部13は、認識部118による判定結果を示す判定結果情報を端末200に送信する。
 端末200は、タブレット型コンピュータ又はスマートフォン等の携帯端末であってもよいし、デスクトップコンピュータであってもよい。端末200は、カメラ2A、マイク3A、ディスプレイ4Aに加えてさらに通信部5Aを備える。カメラ2Aは、対象人物の顔画像を撮影する。マイク3Aは対象人物の音声データを収音する。ディスプレイ4Aは、判定結果情報を表示する。通信部5Aは、カメラ2Aが撮影した顔画像及びマイク3Aが収音した音声データを情報処理装置1Bに送信する。通信部5Aは、情報処理装置1Bから送信された判定結果情報を受信する。
 実施の形態3における情報処理システム100は、端末200を用いて対象人物が本人であるか否かを判定するシステムである。対象人物は、端末200に向けて発話すると、カメラ2Aにより対象人物の顔画像が撮影されると共に、発話した音声データがマイク3Aにより収音される。そして、撮影された顔画像と収音された音声データとが端末200から情報処理装置1Bに送信される。顔画像及び音声データを受信した情報処理装置1Bは、実施の形態1で説明した手法を用いて対象人物が本人であるか否かを判定し、対象人物が本人であるか否かの判定結果を示す判定結果情報を端末200に送信する。判定結果情報を受信した端末200は、判定結果情報をディスプレイ4Aに表示する。これにより、対象人物に判定結果を提示できる。
 本開示は下記の変形例が採用できる。
 (1)実施の形態2では、統合範囲決定部120は外部端末(図略)から取得した学習データに基づいて分布情報を算出するものとして説明したが、本開示はこれに限定されない。統合範囲決定部120は、外部端末(図略)から分布情報を取得してもよい。
 (2)実施の形態3においては実施の形態2に示す情報処理装置1Aが適用されてもよい。
 (3)情報処理装置1、1A、1Bにおいて、顔特徴量算出部111、顔類似度算出部112、音声特徴量算出部114、音声類似度算出部115は、外部装置に設けられていてもよい。外部装置は、例えば端末200である。この場合、第1取得部113は、外部装置から顔類似度を取得し、第2取得部116は外部装置から音声類似度を取得することになる。
 (4)情報処理装置1、1A、1Bにおいて、認識部118は外部装置(図略)に設けられていてもよい。この場合、出力部119は、統合部117により算出された最終類似度を外部装置に送信すればよい。さらに、この場合、外部装置の認識部118は最終類似度を閾値と比較することで対象人物が本人であるか否かを判定すればよい。
 (5)カメラ2は、所定の周期で顔画像を情報処理装置1に入力してもよい。また、マイク3は、所定の周期で音声データを情報処理装置1に入力してもよい。この場合、情報処理装置1は、周期的に対象人物が本人であるか否かの判定を行えばよい。
 (6)図2において、ステップS1~S4の処理セットと、ステップS5~S8の処理セットとは並列処理により実行されてもよい。
 本開示によれば、人物が本人であるか否かを識別する技術分野において有用である。

Claims (14)

  1.  コンピュータにおける情報処理方法であって、
     第1人物の顔と第2人物の顔との類似度を示す顔類似度を取得し、
     前記第1人物の音声と前記第2人物の音声との類似度を示す音声類似度を取得し、
     前記第1人物が前記第2人物と同一人物であるかを判定する際に用いられる閾値を含む統合範囲内に前記顔類似度がある場合、前記顔類似度及び前記音声類似度を統合することによって統合類似度を算出し、前記統合類似度を最終類似度として決定し、前記顔類似度が前記統合範囲内にない場合、前記顔類似度を前記最終類似度として算出し、
     前記最終類似度を出力する、
     情報処理方法。
  2.  さらに、同一人物における前記顔類似度と前記顔類似度の頻度との関係を示す第1分布と、異なる人物における前記顔類似度と前記顔類似度の頻度との関係を示す第2分布と、を含む分布情報を取得し、
     前記統合範囲は、前記第1分布及び前記第2分布に基づいて算出される、
     請求項1記載の情報処理方法。
  3.  前記統合範囲は、前記第1分布における前記顔類似度の最小値から前記第2分布における前記顔類似度の最大値までの幅に基づいて決定されたものである、
     請求項2記載の情報処理方法。
  4.  前記統合範囲は、前記閾値から前記第1分布における前記顔類似度の最小値までの第1幅と、前記閾値から前記第2分布における前記顔類似度の最大値までの第2幅とに基づいて決定されたものである、
     請求項2記載の情報処理方法。
  5.  前記統合範囲は、前記閾値を中心とする幅を有し、
     前記幅は、前記第1分布及び前記第2分布において、前記顔類似度の最小値から前記顔類似度の最大値までの第3幅と、前記分布情報の精度と、に基づいて決定されたものである、
     請求項2記載の情報処理方法。
  6.  前記統合類似度は、前記顔類似度と前記音声類似度とを所定の重み係数で重み付け平均することで得られた値を有する、
     請求項1記載の情報処理方法。
  7.  前記所定の重み係数は、固定値である、
     請求項6記載の情報処理方法。
  8.  前記所定の重み係数は、前記顔類似度が前記統合範囲の中心に近づくにつれて前記顔類似度に対して前記音声類似度の割合が大きくなる値が設定される、
     請求項6記載の情報処理方法。
  9.  前記統合類似度は、前記音声類似度に重み係数を乗じた値と前記顔類似度との加算値である、
     請求項1記載の情報処理方法。
  10.  さらに、前記第1人物の顔画像を取得し、
     さらに、前記第1人物の前記顔画像から前記第1人物の前記顔特徴量を算出し、
     さらに、前記第2人物の前記顔特徴量を取得し、
     さらに、前記第1人物の顔特徴量と前記第2人物の前記顔特徴量とから前記顔類似度を算出し、
     前記顔類似度の取得では、算出された前記顔類似度が取得される、
     請求項1記載の情報処理装置。
  11.  さらに、前記第1人物の音声データを取得し、
     さらに、前記第1人物の前記音声データから前記第1人物の前記音声特徴量を算出し、
     さらに、前記第2人物の前記音声特徴量を取得し、
     さらに、前記第1人物の音声特徴量と前記第2人物の音声特徴量とから前記音声類似度を算出し、
     前記音声類似度の取得では、算出された前記音声類似度が取得される、
     請求項1記載の情報処理方法。
  12.  さらに、前記最終類似度が前記閾値を超える場合、前記第1人物と前記第2人物とは同一人物であると判定し、前記最終類似度が前記閾値よりも小さい場合、前記第1人物と前記第2人物とは異なる人物であると判定し、
     さらに、前記第1人物と前記第2人物とが同一人物であるか否かの判定結果を出力する、
     請求項1記載の情報処理方法。
  13.  第1人物の顔と第2人物の顔との類似度を示す顔類似度を取得する第1取得部と、
     前記第1人物の音声と前記第2人物の音声との類似度を示す音声類似度を取得する第2取得部と、
     前記顔類似度が統合範囲内にある場合、前記顔類似度及び前記音声類似度を統合することによって統合類似度を算出し、前記統合類似度を最終類似度として決定し、前記顔類似度が前記統合範囲内にない場合、前記顔類似度を前記最終類似度として決定する統合部と、
     前記最終類似度を出力する出力部と、を備える、
     情報処理装置。
  14.  コンピュータに、
     第1人物の顔と第2人物の顔との類似度を示す顔類似度を取得し、
     前記第1人物の音声と前記第2人物の音声との類似度を示す音声類似度を取得し、
     前記顔類似度が統合範囲内にある場合、前記顔類似度及び前記音声類似度を統合することによって統合類似度を算出し、前記統合類似度を最終類似度として決定し、前記顔類似度が前記統合範囲内にない場合、前記顔類似度を前記最終類似度として算出し、
     前記最終類似度を出力する、処理を実行させる、
     プログラム。
     
PCT/JP2022/035967 2021-11-01 2022-09-27 情報処理方法、情報処理装置、及び情報処理プログラム WO2023074229A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202280071884.2A CN118176529A (zh) 2021-11-01 2022-09-27 信息处理方法、信息处理装置、以及信息处理程序

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US202163274200P 2021-11-01 2021-11-01
US63/274,200 2021-11-01
JP2022063089 2022-04-05
JP2022-063089 2022-04-05

Publications (1)

Publication Number Publication Date
WO2023074229A1 true WO2023074229A1 (ja) 2023-05-04

Family

ID=86159766

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/035967 WO2023074229A1 (ja) 2021-11-01 2022-09-27 情報処理方法、情報処理装置、及び情報処理プログラム

Country Status (1)

Country Link
WO (1) WO2023074229A1 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320552A (ja) * 1997-05-15 1998-12-04 Hamamatsu Photonics Kk 人物照合装置
JPH11306351A (ja) * 1998-04-20 1999-11-05 Ntt Data Corp データ統合方法及び装置、記録媒体
JP2003058888A (ja) * 2001-08-15 2003-02-28 Secom Co Ltd 個人照合装置
JP2006078855A (ja) * 2004-09-10 2006-03-23 Toshiba Tec Corp 個人認証装置
JP2008257327A (ja) * 2007-04-02 2008-10-23 Omron Corp 照合装置
JP2011044101A (ja) * 2009-08-24 2011-03-03 Sony Corp 閾値更新装置、閾値決定装置、閾値更新方法、閾値決定方法およびプログラム
WO2011061862A1 (ja) * 2009-11-17 2011-05-26 株式会社日立製作所 生体情報を用いた認証システム及び認証装置
JP2016189162A (ja) * 2015-03-30 2016-11-04 オムロン株式会社 個人識別装置、識別閾値設定方法、およびプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320552A (ja) * 1997-05-15 1998-12-04 Hamamatsu Photonics Kk 人物照合装置
JPH11306351A (ja) * 1998-04-20 1999-11-05 Ntt Data Corp データ統合方法及び装置、記録媒体
JP2003058888A (ja) * 2001-08-15 2003-02-28 Secom Co Ltd 個人照合装置
JP2006078855A (ja) * 2004-09-10 2006-03-23 Toshiba Tec Corp 個人認証装置
JP2008257327A (ja) * 2007-04-02 2008-10-23 Omron Corp 照合装置
JP2011044101A (ja) * 2009-08-24 2011-03-03 Sony Corp 閾値更新装置、閾値決定装置、閾値更新方法、閾値決定方法およびプログラム
WO2011061862A1 (ja) * 2009-11-17 2011-05-26 株式会社日立製作所 生体情報を用いた認証システム及び認証装置
JP2016189162A (ja) * 2015-03-30 2016-11-04 オムロン株式会社 個人識別装置、識別閾値設定方法、およびプログラム

Similar Documents

Publication Publication Date Title
JP7109634B2 (ja) アイデンティティ認証方法及び装置
CN110956966B (zh) 声纹认证方法、装置、介质及电子设备
CN109815845A (zh) 人脸识别的方法和装置、存储介质
US7991199B2 (en) Object identification and verification using transform vector quantization
CN110837758B (zh) 一种关键词输入方法、装置及电子设备
WO2019167784A1 (ja) 位置特定装置、位置特定方法及びコンピュータプログラム
WO2020003413A1 (ja) 情報処理装置、制御方法、及びプログラム
WO2023074229A1 (ja) 情報処理方法、情報処理装置、及び情報処理プログラム
US11107476B2 (en) Speaker estimation method and speaker estimation device
CN111507289A (zh) 视频匹配方法、计算机设备和存储介质
WO2006009035A1 (ja) 信号検出方法,信号検出システム,信号検出処理プログラム及びそのプログラムを記録した記録媒体
JP6763408B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
CN113035230B (zh) 认证模型的训练方法、装置及电子设备
JP2019049829A (ja) 目的区間判別装置、モデル学習装置、及びプログラム
CN113948089B (zh) 声纹模型训练和声纹识别方法、装置、设备及介质
CN114911449A (zh) 音量控制方法、装置、存储介质和电子设备
CN114333844A (zh) 声纹识别方法、装置、介质及设备
CN112992174A (zh) 一种语音分析方法及其语音记录装置
CN118176529A (zh) 信息处理方法、信息处理装置、以及信息处理程序
CN112329890A (zh) 图像处理方法及装置、电子设备及存储介质
Shenai et al. Fast biometric authentication system based on audio-visual fusion
US20220121732A1 (en) Biometric authentication
CN116959471A (zh) 语音增强方法、语音增强网络的训练方法及电子设备
KR20110124644A (ko) 멀티모달 융합을 위한 환경변수 측정방법
CN116071791A (zh) 活体检测模型的训练方法、人脸活体检测方法及电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22886561

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023556217

Country of ref document: JP

Kind code of ref document: A