WO2020166173A1

WO2020166173A1 - 情報処理装置及び情報処理方法

Info

Publication number: WO2020166173A1
Application number: PCT/JP2019/046783
Authority: WO
Inventors: 広岩瀬; 祐平滝; 邦仁澤井; 真里斎藤; 真一河野
Original assignee: ソニー株式会社
Priority date: 2019-02-15
Filing date: 2019-11-29
Publication date: 2020-08-20
Also published as: JP7487668B2; DE112019006868T5; JPWO2020166173A1; US20220199096A1

Abstract

ユーザとの対話を制御し、前記対話におけるユーザの発話に基づく音声認証処理を実行する認証対話制御部、を備え、認証対話制御部は、ハッシュ種ワードを含むチャレンジ発話文を生成して、チャレンジ発話として出力させ、出力されたチャレンジ発話に対するユーザからのレスポンス発話に基づいて認識されたレスポンス発話文がハッシュ値ワードを含むか否かの判定に基づいて、音声認証処理を実行し、ハッシュ値ワードは、ハッシュ種ワードとの間で、ワード関係ルールにより規定される所定の関係を有する、情報処理装置が提供される。

Description

情報処理装置及び情報処理方法

　本開示は、情報処理装置及び情報処理方法に関する。

　一般的に、ユーザの認証は、識別情報およびパスワードを入力する方法により実行される場合が多い。しかし、近年、上記方法の代替として、ユーザの音声に基づく音声認証を行う技術が開発されている。例えば、特許文献１には、ユーザが発話した音声の音響情報およびユーザが予め登録した発話フレーズの特徴量に基づいて、音声認証処理を実行する技術が開示されている。

特開２０１４－１８２２７０号公報

　ところで、ユーザが所定のフレーズを発話したか否かに基づく音声認証の場合、音声認証の際にユーザの近くに他者が存在すると、当該他者に音声認証に係る発話が聞こえる可能性がある。

　しかし、一方で、セキュリティ性を考慮して、装置の発話音量を下げたり、また音声認証に係る情報を一部読み上げなかったりする場合、ユーザによる音声認証に係る情報の聞き逃しや見落としが発生する可能性がある。しかし、特許文献１では、上記のようなセキュリティ強度の変化に基づくアクセシビリティの変化については考慮されていない。

　本開示によれば、ユーザとの対話を制御し、前記対話におけるユーザの発話に基づく音声認証処理を実行する認証対話制御部、を備え、前記認証対話制御部は、ハッシュ種ワードを含むチャレンジ発話文を生成して、チャレンジ発話として出力させ、出力された前記チャレンジ発話に対する前記ユーザからのレスポンス発話に基づいて認識されたレスポンス発話文がハッシュ値ワードを含むか否かの判定に基づいて、前記音声認証処理を実行し、前記ハッシュ値ワードは、前記ハッシュ種ワードとの間で、ワード関係ルールにより規定される所定の関係を有する、情報処理装置が提供される。

　また、本開示によれば、ユーザとの対話を制御し、前記対話における前記ユーザの発話に基づく音声認証処理を実行する認証対話制御部、を備え、前記認証対話制御部は、認識された前記ユーザの周囲状況に基づいて、実行される前記音声認証処理のセキュリティ強度を決定する、情報処理装置が提供される。

　また、本開示によれば、ユーザとの対話を制御し、前記対話におけるユーザの発話に基づく音声認証処理を実行すること、を含み、ハッシュ種ワードを含むチャレンジ発話文を生成して、チャレンジ発話として出力させ、出力された前記チャレンジ発話に対する前記ユーザからのレスポンス発話に基づいて認識されたレスポンス発話文がハッシュ値ワードを含むか否かの判定に基づいて、前記音声認証処理を実行することをさらに含み、前記ハッシュ値ワードは、前記ハッシュ種ワードとの間で、ワード関係ルールにより規定される所定の関係を有する、情報処理方法が提供される。

　また、本開示によれば、ユーザとの対話を制御し、前記対話における前記ユーザの発話に基づく音声認証処理を実行すること、を含み、認識された前記ユーザの周囲状況に基づいて、実行される前記音声認証処理のセキュリティ強度を決定することをさらに含む、情報処理方法が提供される。

本実施形態に係るシステム構成例について説明するための図である。同実施形態に係る情報処理端末１０の機能構成の一例について説明するための図である。同実施形態に係る認証対話制御部１０６による音声認証処理の一例について説明するための図である。同実施形態に係る認証対話制御部１０６による認識された他者の数に基づく音声認証処理の一例について説明するための図である。同実施形態に係る認証対話制御部１０６によるフェイク発話ＦＣＳを含む音声認証対話制御の一例について説明するための図である。同実施形態に係る認証対話制御部１０６による他者の数に基づいて数が決定されるフェイク発話ＦＣＳを含む音声認証対話制御の一例について説明するための図である。同実施形態に係る認証対話制御部１０６によるリトライの際の音声認証処理の一例について説明するための図である。同実施形態に係る認証対話制御部１０６によるリトライの際の音声認証処理の一例について説明するための図である。同実施形態に係る認証対話制御部１０６による他者が認識されなかった場合の音声認証処理の一例について説明するための図である。同実施形態に係る認証対話制御部１０６によるユーザ個人データを用いた音声認証処理の一例について説明するための図である。同実施形態に係る認証対話制御部１０６によるフェイクレスポンス発話文ＦＲＳＳのフェイク発話ＦＣＳに対する肯定判定および否定判定の一例について説明するための図である。同実施形態に係る認証対話制御部１０６によるチャレンジ発話ＣＳの出力およびレスポンス発話ＲＳに基づく音声認証に係る処理の動作の流れの一例について説明するための図である。同実施形態に係る認証対話制御部１０６によるチャレンジ発話文ＣＳＳの生成処理の流れの一例について説明するための図である。同実施形態に係る認証対話制御部１０６によるハッシュ種ワードの決定処理の流れの一例について説明するための図である。同実施形態に係る認証対話制御部１０６によるフェイク発話ＦＣＳを含む音声認証に係る処理の動作の流れの一例について説明するための図である。同実施形態に係る認証対話制御部１０６によるフェイク発話ＦＣＳを含む音声認証に係る処理の動作の流れの一例について説明するための図である。本開示の一実施形態に係る情報処理端末１０および情報処理サーバ２０のハードウェア構成例を示すブロック図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
　１．背景
　２．実施形態
　　２．１．システム構成例
　　２．２．情報処理端末１０の機能構成例
　　２．３．具体例
　　　２．３．１．対話制御例１
　　　２．３．２．対話制御例２
　　　２．３．３．対話制御例３
　　　２．３．４．対話制御例４
　　　２．３．５．対話制御例５
　　　２．３．６．肯定否定判定例
　　２．４．動作例
　　　２．４．１．音声認証対話動作例
　　　２．４．２．チャレンジ発話文ＣＳＳの生成例
　　　２．４．３．ハッシュ種ワードの決定例
　　　２．４．４．フェイク発話ＦＣＳを含む音声認証処理例
　３．ハードウェア構成例
　４．まとめ

　＜１．背景＞
　まず、本開示に係る背景について説明する。近年、ユーザＵの音声発話に基づいて音声認証処理を実行する装置が開発されている。ここでの音声認証処理とは、ユーザが所定のフレーズを発話したか否かに基づく認証処理をいう。

　音声認証は種々の用途で使用される。例えば、音声認証は、インターネット上のサービスを利用する際の識別情報とパスワードの入力によるユーザ認証の代替手段として使用され得る。また、音声認証は、ユーザＵが識別情報やパスワードを失念した場合の代わりの認証手段として使用され得る。他にも、２段階認証における追加の認証の手段として使用される。また、視覚に障害を有するユーザがインターネット上のサービスを利用する際の本人確認にも使用され得る。

　ところで、音声認証の際に、ユーザＵの発話が聞こえる場所に他者が存在すると、当該他者がユーザＵの発話音声を聞くことにより、ユーザＵの所定のフレーズ等が他者に知られてしまう可能性がある。また、視覚に障害を有するユーザＵの認証において、装置が認証処理に係る情報を読み上げる際に他者がユーザＵの近くに存在する場合でも、他者がユーザＵの発話を聞くことにより、認証処理に係る情報が他者に知られてしまう可能性がある。

　一方で、セキュリティ強度を上げるために、装置の発話音声の音量を小さくしたり、また装置が一部の音声認証に係る情報を読み上げなかったりする場合、ユーザＵは必要な情報を聞き落としたり見落としたりする可能性が想定される。

　本開示に係る技術思想は上記の点に鑑みて発想されたものであり、ユーザＵの状況に基づいて決定されたセキュリティ強度で音声認証処理を実行する機能を有する。係る機能によれば、ユーザＵに余計な負荷をかけない、かつ、十分なセキュリティ性を確保した音声認証処理を実行することが可能となる。

　＜２．実施形態＞
　＜＜２．１．システム構成例＞＞
　まず、図１を参照して、本実施形態に係るシステム構成例について説明する。図１は、本実施形態に係るシステム構成例について説明するための図である。情報処理システムは、情報処理端末１０、情報処理サーバ２０、およびネットワーク３０を備える。

　（情報処理端末１０）
　情報処理端末１０は、ユーザとの対話を制御し、当該対話におけるユーザの発話に基づく音声認証処理を実行する情報処理装置である。具体的には、情報処理端末１０は、チャレンジ発話ＣＳをユーザに出力し、当該チャレンジ発話ＣＳに対するユーザからのレスポンス発話ＲＳに基づいて音声認証処理を実行する。ここで、チャレンジ発話ＣＳは、情報処理端末１０による音声認証処理の際に出力される発話である。情報処理端末１０は、チャレンジ発話ＣＳに係るチャレンジ発話文ＣＳＳの生成を、情報処理端末１０自身で実行してもよいし、または後述する情報処理サーバ２０に依頼してもよい。情報処理端末１０による音声認証処理の詳細については後述する。

　なお、情報処理端末１０は、例えば、スマートフォン、タブレット、ＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）、スマートスピーカ、ウェアラブル装置、ヒアラブル装置などであってもよい。また、情報処理端末１０は、据え置き型または自律移動型の専用端末であってもよい。例えば、情報処理端末１０は、ＡＴＭ（Ａｕｔｏｍａｔｉｃ　Ｔｅｌｌｅｒ　Ｍａｃｈｉｎｅ）やデジタルサイネージ装置などであってもよい。

　（情報処理サーバ２０）
　情報処理サーバ２０は、情報処理端末１０からの依頼に基づいて音声認証処理に係る発話文を生成する。音声認証処理に係る発話文は、例えばチャレンジ発話ＣＳに対応するチャレンジ発話文ＣＳＳである。例えば、情報処理サーバ２０は、汎用の雑談対話サービスの提供が可能なサーバであってよい。

　（ネットワーク３０）
　ネットワーク３０は、情報処理端末１０と情報処理サーバ２０との間での情報の有線、または無線の伝送路である。例えば、ネットワーク３０は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク３０は、ＩＰ－ＶＰＮ（Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ－Ｖｉｒｔｕａｌ　Ｐｒｉｖａｔｅ　Ｎｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

　以上、本実施形態に係る情報処理システムの構成例について説明した。なお、図１を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理システムの機能構成は係る例に限定されない。本実施形態に係る情報処理システムの機能構成は、仕様や運用に応じて柔軟に変形可能である。

　＜＜２．２．情報処理端末１０の機能構成例＞＞
　続いて、本実施形態に係る情報処理端末１０の機能構成の一例について説明する。図２は、本実施形態に係る情報処理端末１０の機能構成の一例について説明するための図である。情報処理端末１０は、音声入力部１０１、音声認識部１０２、自然言語処理部１０３、画像入力部１０４、画像認識部１０５、認証対話制御部１０６、音声合成部１０７、音声出力部１０８、記憶部１０９、および通信部１１０を備える。

　（音声入力部１０１）
　音声入力部１０１は、ユーザによる発話などの音情報を収集する機能を有する。音声入力部１０１が収集する音情報は、後述する音声認識部１０２による認識処理に使用される。音声入力部１０１は、音情報を収集するためのマイクロフォンを備える。

　（音声認識部１０２）
　音声認識部１０２は、音声入力部１０１が収集したユーザの発話に基づく自動音声認識処理を行い、認識結果として発話文を生成する機能を有する。

　（自然言語処理部１０３）
　自然言語処理部１０３は、音声認識部１０２による自動音声認識処理の結果に対する自然言語理解処理を行い、解析結果として、発話の意図やワードの属性、概念などを音声認識部１０２が生成した発話文に付与する処理を実行する機能を有する。具体的には、自然言語処理部１０３は、音声認識部１０２が認識した発話文に対し、発話意図理解（ＮＬＵ；Ｎａｔｕｒａｌ　Ｌａｎｇｕａｇｅ　Ｕｎｄｅｒｓｔａｎｄｉｎｇ）処理による発話の意図や、形態素解析処理による発話文が含むそれぞれのワードの属性および単語意味概念辞書の参照によるそれぞれのワードの意味概念の抽出などを行う。自然言語処理部１０３による自然言語処理の結果は、後述する認証対話制御部１０６による音声認証処理に使用される。

　（画像入力部１０４）
　画像入力部１０４は、ユーザや周囲状況の画像を撮像する機能を有する。画像入力部１０４が撮像した画像は、後述する画像認識部１０５によるユーザ認識や周囲状況の認識に用いられる。本実施形態に係る画像入力部１０４は、画像を撮像することが可能な撮像装置を備える。なお、上記の画像には、静止画像のほか動画像が含まれる。

　（画像認識部１０５）
　画像認識部１０５は、画像入力部１０４が撮像した画像に基づく種々の認識処理を行う機能を有する。本実施形態に係る画像認識部１０５は、例えば、上記の画像からユーザや周辺状況などを認識することができる。ここで、周囲状況は、例えばユーザＵと同じ場にいる他者ＡＰなどである。画像認識部１０５による認識処理の結果は、認証対話制御部１０６による音声認証処理に使用される。

　（認証対話制御部１０６）
　認証対話制御部１０６は、ユーザとの対話を制御し、当該対話におけるユーザの発話に基づく音声認証処理を実行する機能を有する。具体的には、認証対話制御部１０６は、チャレンジ発話文ＣＳＳを生成して、チャレンジ発話ＣＳとして音声出力部１０８に出力させ、出力したチャレンジ発話ＣＳに対するユーザからのレスポンス発話ＲＳに基づいて音声認証処理を実行する。なお、以下、チャレンジ発話ＣＳおよびレスポンス発話ＲＳに基づく音声認証を音声認証対話とも称する。

　さらに具体的には、認証対話制御部１０６は、音声認証処理として、音声出力部１０８に出力させたチャレンジ発話ＣＳに対するユーザからのレスポンス発話ＲＳに基づいて自然言語処理部１０３が解析したレスポンス発話文ＲＳＳが、ハッシュ値ワードを含むか否かの判定を行う。認証対話制御部１０６は、レスポンス発話文ＲＳＳがハッシュ値ワードを含む場合、音声認証の成功と判断する。

　チャレンジ発話文ＣＳＳは、ユーザＵと対話が可能な文の発話であり得る。一方で、チャレンジ発話文ＣＳＳは、単語の羅列でもよい。

　チャレンジ発話ＣＳは、予め規定されたハッシュ種ワードを含む。ハッシュ種ワードは、予め規定された複数のワードのうちから決定されてよい。ここで、ハッシュ値ワードは、ハッシュ種ワードとの間で、ワード関係ルールにより規定される所定の関係を有するワードである。

　ここで、ワード関係ルールとは、ハッシュ種ワードとハッシュ値ワードとの間の予め規定された所定の関係をいう。ワード関係ルールは、例えば、ハッシュ種ワードの所定番目の文字もしくは音節が、ハッシュ値ワードの所定番目の文字もしくは音節と同じであることなどである。ワード関係ルールは、例えばハッシュ種ワードおよびハッシュ値ワードの文字数が同じであること（もしくはハッシュ値ワードがハッシュ種ワードと比較して文字数が所定数異なること）などである。また、ワード変換ルールは、例えばハッシュ種ワードおよびハッシュ値ワードの最初もしくは最後の母音もしくは子音が同じであることである。

　また、ハッシュ種ワードは、予め規定された所定の属性であるハッシュ種属性を有してよく、ハッシュ値ワードは、予め規定された所定の属性であり、かつ、ハッシュ種属性との組み合わせが予め規定された、ハッシュ値属性を有してよい。ハッシュ種属性およびハッシュ値属性は、それぞれ所定のハッシュ種ワード、所定のハッシュ値ワードが備える性質や特徴を表す属性である。

　以下、具体例について、ハッシュ種属性を例に挙げて説明する。なお、ハッシュ値属性についても同様である。例えば、ハッシュ種属性は、ハッシュ種ワードの上位概念である。ハッシュ種属性がハッシュ種ワードの上位概念である場合、例えば、ハッシュ種ワード「ａｐｐｌｅ」のハッシュ種属性は「食べ物」であり、また、ハッシュ種ワード「ｄｏｇ」のハッシュ種属性は「動物」である。

　他にも、ハッシュ種属性は、例えばハッシュ種ワードの品詞である。ハッシュ種属性がハッシュ種ワードの品詞である場合、例えば、ハッシュ種ワード「ｃｕｔｅ」のハッシュ種属性は「形容詞」であり、また、ハッシュ種ワード「ａｆｔｅｒ」のハッシュ種属性は「接続詞」である。

　ハッシュ種属性の他の例は、地名や人名、（映画や音楽、キャラクタなどの）コンテンツ名であることや、カタカナ語や外来語であること、所定文字から始まることなどである。また、ハッシュ種属性は、例えば、ユーザの個人データでもよい。ユーザの個人データは、例えば後述する記憶部１０９が記憶するユーザの連絡先リストや予定表などである。なお、認証対話制御部１０６は、ハッシュ種属性およびハッシュ値属性を考慮せずに、レスポンス発話文ＲＳＳがワード関係ルールに則しているか否かに基づいて音声認証処理を実行してもよい。

　認証対話制御部１０６は、ユーザＵにより予め規定されたハッシュ種属性を有するハッシュ種ワードを含むチャレンジ発話文ＣＳＳを生成し、チャレンジ発話ＣＳとして音声出力部１０８に出力させてよい。また、認証対話制御部１０６は、ユーザからのレスポンス発話ＲＳに基づいて自然言語処理部１０３により解析されたレスポンス発話文ＲＳＳが、ハッシュ値属性を有し、かつ、ハッシュ種ワードとの間でワード関係ルールに則するハッシュ値ワードを含むか否かの判定を行い、当該ハッシュ値ワードを含む場合、音声認証の成功と判断してよい。

　認証対話制御部１０６は、上記の判定において、まず、レスポンス発話文ＲＳＳがハッシュ値属性を有するワードが含むか否かの判定を行い、次に、認証対話制御部１０６は、レスポンス発話文ＲＳＳがハッシュ値属性を有するワードを含む場合に、当該ワードにワード関係ルールを満たすワードが存在するか否かに基づいて、レスポンス発話文ＲＳＳがハッシュ値ワードを含むか否かを判定してもよい。

　認証対話制御部１０６による音声認証対話は、例えば、情報処理端末１０がユーザＵからの音声認証開始発話ＵＳＳを検出することにより開始される。ここで、音声認証開始発話ＵＳＳは、所定のフレーズの発話である。なお、音声認証対話は、情報処理端末１０によるユーザＵの検出に基づいて開始されてもよい。例えば、認証対話制御部１０６は、画像認識部１０５がユーザＵを認識した場合、「おはよう」などの音声認証開始発話ＵＳＳを音声出力部１０８に出力させて音声認証対話を開始してもよい。

　認証対話制御部１０６は、上述した音声認証以外に、声質認証やジェスチャ等の他の認証と組み合わせてもよい。例えば、認証対話制御部１０６は、音声認証と他の認証とが共に成功した場合に、ユーザ認証が成功したと判断してもよい。あるいは、認証対話制御部１０６は、他の認証に対する代替の認証方法として上述した音声認証を実行してもよい。

　上述したハッシュ種属性、ハッシュ値属性、およびワード関係ルールの組み合わせは、ユーザＵにより予め複数規定されてもよい。例えば、認証対話制御部１０６は、音声認証に失敗した場合、他のハッシュ種属性、ハッシュ値属性、およびワード関係ルールの組み合わせにより再び音声認証を行ってもよい。

　なお、認証対話制御部１０６は、勿論、チャレンジ発話ＣＳ以外の発話を行うこともできる。例えば、認証対話制御部１０６は、ユーザＵと雑談を行うための発話を行ってもよい。認証対話制御部１０６による音声認証処理の具体例については後述する。

　（音声合成部１０７）
　音声合成部１０７は、認証対話制御部１０６による制御に基づいて、音声合成を行う機能を有する。

　（音声出力部１０８）
　音声出力部１０８は、認証対話制御部１０６による制御に基づいて、音声を含む種々の音を出力する機能を有する。音声出力部１０８は、例えば、チャレンジ発話ＣＳなどの音声認証に係る発話を出力する。音声出力部１０８は、例えばスピーカやアンプなどの音声出力装置を備える。

　（記憶部１０９）
　記憶部１０９は、認証対話制御部１０６による音声認証処理に係る情報を記憶する機能を有する。音声認証処理に係る情報としては、例えば、音声認証に使用されるユーザ個人データやチャレンジ発話文ＣＳＳの生成の際に使用されるハッシュ種ワードデータベースなどが挙げられる。ユーザ個人データは、例えばユーザＵの予定表に記入されている場所および対応する日付やユーザＵの連絡先リストの苗字および名前などの、他者ＡＰが把握する可能性が低い情報である。

　（通信部１１０）
　通信部１１０は、認証対話制御部１０６による制御に基づいて、情報処理サーバ２０との通信を実行する機能を有する。具体的には、通信部１１０は、発話文の生成の依頼する情報を情報処理サーバ２０に送信し、生成された発話文を情報処理サーバ２０から受信する。

　以上、本実施形態に係る情報処理端末１０の機能構成例について説明した。なお、図２を用いて説明した上記の構成はあくまで一例であり、本実施形態に係る情報処理端末１０の機能構成は係る例に限定されない。本実施形態に係る情報処理端末１０の機能構成は、仕様や運用に応じて柔軟に変形可能である。

　＜＜２．３．具体例＞＞
　［２．３．１．対話制御例１］
　続いて、図３～図１１を参照して、本実施形態に係る認証対話制御部１０６による対話制御の具体例について説明する。上述したように、認証対話制御部１０６は、画像認識部１０５が認識した他者の存在に基づいて、音声認証処理のセキュリティ強度を決定する。ここでいうセキュリティ強度とは、認証対話制御部１０６による音声認証の方法が他者に把握されることの困難さをいう。以下、認証対話制御部１０６による他者の存在に基づく音声認証処理の例について説明する。

　図３は、本実施形態に係る認証対話制御部１０６による音声認証処理の一例について説明するための図である。図３には、音声認証対象のユーザＵ１、他者ＡＰ１、および情報処理端末１０が示されている。

　図３の一例において、情報処理端末１０は、ハッシュ種属性が「食べ物」であり、ハッシュ値属性が「動物」であり、ワード関係ルールが「ハッシュ種ワードおよびハッシュ値ワードの１番目の文字が同じ」であることがユーザＵ１により規定されている。従って、図３の一例におけるハッシュ値ワードは、属性が「食べ物」であるハッシュ種ワードの１番目の文字と、１番目の文字が同じであり属性が「動物」であるワードである。なお、図４以降で示される具体例についても、特別に言及されない限り、同様のハッシュ種属性、ハッシュ値属性、およびワード関係ルールが規定されているものとして説明する。

　まず、ユーザＵは、音声認証を開始する音声認証開始発話ＵＳＳを行う。認証対話制御部１０６は、自然言語処理部１０３が解析したユーザの音声認証開始発話ＵＳＳに基づいて、音声認証処理を開始する。次に、画像入力部１０４がユーザＵ１の状況を撮影し、画像認識部１０５が他者を認識する。次に、認証対話制御部１０６は、画像認識部１０５が認識した他者ＡＰ１の存在に基づいて属性が「食べ物」である「ｓａｎｄｗｉｃｈｅｓ」を含むチャレンジ発話文ＣＳＳ１を生成し、チャレンジ発話ＣＳ１を音声出力部１０８に出力させる。

　次に、ユーザＵ１は、チャレンジ発話ＣＳ１に基づいて「ｓｅａｌｓ」を含むレスポンス発話ＲＳ１を行う。ここで、「ｓｅａｌｓ」は、ユーザＵ１がチャレンジ発話ＣＳ１で聞いた「ｓａｎｄｗｉｃｈｅｓ」の単語に基づいて発話した単語である。認証対話制御部１０６は、ユーザＵ１によるレスポンス発話ＲＳ１から認識されたレスポンス発話文ＲＳＳ１から属性が「動物」であり、かつ１番目の文字が「ｓ」である「ｓｅａｌｓ」を検出する。

　次に、認証対話制御部１０６は、「ｓｅａｌｓ」を検出したことに基づいて、レスポンス発話文ＲＳＳがハッシュ値ワードを含むと判定し、音声認証処理が成功したと判断する。最後に、認証対話制御部１０６は、音声認証の完了を伝える音声認証完了発話ＡＳＥを音声出力部１０８に出力させ、音声認証処理は終了する。

　このように、チャレンジ発話ＣＳおよびレスポンス発話ＲＳを用いて音声認証処理を行うことで、同じ場に存在する他者による音声認証情報の把握を困難とすることが可能となる。

　以上、他者が存在する場合の認証対話制御部１０６による音声認証対話制御の一例である。ところで、例えば、ユーザＵと同じ場にいる他者の数が多くなるに従って、音声認証情報が他者に把握される可能性が高くなる状況が想定される。つまり、ユーザＵと同じ場にいる他者の数が多くなるに従って、音声認証処理のセキュリティ強度をより高くする必要がある。従って、認証対話制御部１０６は、画像認識部１０５が他者の存在を認識した場合、認識された他者の数に基づいて、生成するチャレンジ発話文ＣＳＳの長さを決定してよい。具体的には、認証対話制御部１０６は、認識された他者の数が多くなるに従って生成するチャレンジ発話文ＣＳＳを長くしてよい。

　ここで、図４を参照して、認証対話制御部１０６による認識された他者の数に基づく音声認証処理の一例について説明する。図４は、本実施形態に係る認証対話制御部１０６による認識された他者の数に基づく音声認証処理の一例について説明するための図である。図４には、音声認証対象のユーザＵ１、他者ＡＰ２、ＡＰ３、および情報処理端末１０が示されている。

　まず、ユーザＵ１は、音声認証を開始する音声認証開始発話ＵＳＳを行う。認証対話制御部１０６は、自然言語処理部１０３が解析したユーザＵ１の音声認証開始発話ＵＳＳに基づいて、音声認証処理を開始する。次に、画像入力部１０４がユーザＵ１の状況を撮影し、画像認識部１０５が他者ＡＰ２、ＡＰ３の存在を認識する。ここで、認証対話制御部１０６は、他者ＡＰの数が２人であること（図３に示された１人よりも多いこと）を認識する。

　次に、認証対話制御部１０６は、画像認識部１０５が認識した他者ＡＰ２、ＡＰ３の存在に基づいて、ハッシュ種ワード「ｓａｎｄｗｉｃｈｅｓ」を含むチャレンジ発話文ＣＳＳ２を生成し、チャレンジ発話ＣＳ２として音声出力部１０８に出力させる。ここで、チャレンジ発話文ＣＳＳ２は、図３で説明したチャレンジ発話文ＣＳＳ１よりも長い発話文である。

　次に、ユーザＵ１は、チャレンジ発話ＣＳ２に基づいて「ｓｅａｌｓ」を含むレスポンス発話文ＲＳＳ２のレスポンス発話ＲＳ２を行う。認証対話制御部１０６は、ユーザＵ１によるレスポンス発話ＲＳ２から認識されたレスポンス発話文ＲＳＳ２から自然言語処理部１０３が解析したレスポンス発話文ＲＳＳ２から属性が「動物」である「ｓｅａｌｓ」を検出する。

　次に、認証対話制御部１０６は、レスポンス発話文ＲＳＳがハッシュ値ワードを含むと判定し、音声認証処理が成功したと判断する。最後に、認証対話制御部１０６は、音声認証の完了を伝える音声認証完了発話ＡＳＥを音声出力部１０８に出力させ、音声認証処理は終了する。

　このように、生成されるチャレンジ発話文ＣＳＳを長くすることで、他者の数が多くなり音声認証情報が把握される可能性が高くなる状況でもセキュリティ性を保ったまま音声認証を行うことが可能となる。また、ユーザＵがチャレンジ発話ＣＳを聞くことで、同じ場にいる他者の数を把握することも可能となる。

　［２．３．２．対話制御例２］
　上記ではユーザＵと同じ場に他者が存在する場合、他者の数に応じて生成されるチャレンジ発話文ＣＳＳの長さが変更される例について説明した。ところで、以前の音声認証時にもユーザＵと同じ場にいた他者が存在する場合、当該他者が以前のユーザＵと情報処理端末１０との対話も含めて音声認証情報を推定する可能性がある。他にも、認証対話制御部１０６は、上記と同様の場合、音声認証対話の際にチャレンジ発話ＣＳ以外にフェイク発話ＦＣＳを音声出力部１０８に出力させてもよい。チャレンジ発話ＣＳとフェイク発話ＦＣＳとを混ぜることで、他者が音声認証情報を推測することがより困難となる。ここで、フェイク発話ＦＣＳとは、対応するフェイク発話文ＦＣＳＳがハッシュ種ワードを含まない発話をいう。

　ここで、図５を参照して、認証対話制御部１０６によるフェイク発話ＦＣＳを含む音声認証対話制御の一例について説明する。図５は、本実施形態に係る認証対話制御部１０６によるフェイク発話ＦＣＳを含む音声認証対話制御の一例について説明するための図である。図５には、音声認証対象のユーザＵ１、他者ＡＰ１、ＡＰ４、および情報処理端末１０が示されている。ここで、他者ＡＰ１は、以前のユーザＵ１の音声認証処理時に同じ場にいた他者である。

　認証対話制御部１０６は、例えば以前の音声認証処理時にユーザＵと同じ場で認識されていた他者ＡＰ１が存在する場合、チャレンジ発話文ＣＳＳの他に、少なくとも１のフェイク発話文ＦＣＳＳを生成し、フェイク発話ＦＣＳとして音声出力部１０８に出力させてよい。認証対話制御部１０６は、出力されたフェイク発話ＦＣＳに対するユーザＵからのフェイクレスポンス発話ＦＲＳを認識したことに基づいて、次のフェイク発話ＦＣＳまたはチャレンジ発話ＣＳを音声出力部１０８に出力させる。なお、フェイク発話文ＦＣＳＳは、レスポンス発話文ＲＳＳや他のフェイク発話文ＦＣＳＳに対するユーザＵからのフェイクレスポンス発話ＦＲＳと自然に繋がるような発話文であってよい。

　以下、図５の一例について説明する。まず、ユーザＵ１は、音声認証を開始する音声認証開始発話ＵＳＳを行う。認証対話制御部１０６は、自然言語処理部１０３が解析したユーザＵ１の音声認証開始発話ＵＳＳに基づいて、音声認証処理を開始する。

　次に、画像入力部１０４がユーザＵ１の状況を撮影し、画像認識部１０５が以前のユーザＵ１の音声認証処理時に同じ場にいた他者ＡＰ１を含む他者の存在を認識する。次に、認証対話制御部１０６は、フェイク発話文ＦＣＳＳ１を生成し、フェイク発話ＦＣＳ１として音声出力部１０８に出力させる。次に、ユーザＵ１は、フェイク発話ＦＣＳ１に基づいてフェイクレスポンス発話文ＦＲＳＳ１を発話するフェイクレスポンス発話ＦＲＳ１を行う。

　次に、認証対話制御部１０６は、ユーザＵ１からのフェイクレスポンス発話ＦＲＳ１に基づいて、ハッシュ種ワード「ｔｕｎａｓ」を含むチャレンジ発話文ＣＳＳ３を生成し、チャレンジ発話ＣＳ３として音声出力部１０８に出力させる。ユーザＵ１は、チャレンジ発話ＣＳ３に基づいて「ｔｉｇｅｒｓ」を含むレスポンス発話ＲＳ３を行う。認証対話制御部１０６は、レスポンス発話ＲＳ３に基づいて認識されたレスポンス発話文ＲＳＳ３からハッシュ値属性「動物」を有し、かつ、ワード変換ルールに則する「ｔｉｇｅｒｓ」を検出する。認証対話制御部１０６は、「ｔｉｇｅｒｓ」を検出したことに基づいて、レスポンス発話文ＲＳＳ３がハッシュ値ワードを含むと判定し、音声認証処理が成功したと判断する。

　次に、認証対話制御部１０６は、フェイク発話文ＦＣＳＳ２を生成し、フェイク発話ＦＣＳ２として音声出力部１０８に出力させる。次に、ユーザＵは、フェイク発話ＦＣＳ２に基づいてフェイクレスポンス発話文ＦＲＳＳ２を発話するフェイクレスポンス発話ＦＲＳ２を行う。最後に、認証対話制御部１０６は、音声認証の完了を伝える音声認証完了発話ＡＳＥを音声出力部１０８に出力させ、音声認証処理は終了する。

　このように、チャレンジ発話ＣＳ以外にフェイク発話ＦＣＳを用いて音声認証処理を行うことで、ユーザＵと情報処理端末１０との対話においていずれの発話で音声認証を行っているかの判別を困難にすることが可能となる。

　なお、認証対話制御部１０６は、以前の音声認証時にユーザＵと同じ場にいた他者が存在する場合、当該音声認証処理において使用されたワードとは異なるワードをハッシュ種ワードとしてチャレンジ発話文ＣＳＳを生成してもよい。このように、以前の音声認証処理時とは異なるワードをハッシュ種ワードとすることで、チャレンジ発話ＣＳにおける同じワードの出現からの音声認証情報の推測を防止することが可能となる。

　上記では認証対話制御部１０６は、認識された他者ＡＰの数に基づいて生成するチャレンジ発話文ＣＳＳの長さを決定する例について説明した。同様に、認証対話制御部１０６は、画像認識部１０５が認識した他者ＡＰの数に基づいて生成するフェイク発話文ＦＣＳＳの数、すなわち音声出力部１０８に出力させるフェイク発話ＦＣＳの数を決定してもよい。

　ここで、図６を参照して、認証対話制御部１０６による他者ＡＰの数に基づいて数が決定されるフェイク発話ＦＣＳを含む音声認証対話制御の一例について説明する。図６は、本実施形態に係る認証対話制御部１０６による他者の数に基づいて数が決定されるフェイク発話ＦＣＳを含む音声認証対話制御の一例について説明するための図である。図６には、音声認証対象のユーザＵ、他者ＡＰ１、ＡＰ４、ＡＰ５および情報処理端末１０が示されている。ここで、他者ＡＰ１は、図５と同様に、以前のユーザＵ１の音声認証処理時に同じ場にいた他者である。

　図６の一例において、ユーザＵ１の音声認証開始発話ＵＳＳからフェイクレスポンス発話ＦＲＳ２までは図５に示された発話と同様であるが、一方で、フェイクレスポンス発話ＦＲＳ２の後に、認証対話制御部１０６は、フェイク発話ＦＣＳ３を行う。ユーザＵは、フェイク発話ＦＣＳ３に基づいてフェイクレスポンス発話ＦＲＳ３を行う。最後に、認証対話制御部１０６は、音声認証の完了を伝える音声認証完了発話ＡＳＥを音声出力部１０８に出力させ、音声認証処理は終了する。

　このように、認識された他者ＡＰの数に基づいてフェイク発話ＦＣＳの数を決定することで、いずれの発話で音声認証を行っているかの判別をより困難にすることが可能となる。

　以上、フェイク発話ＦＣＳを含む認証対話の例を説明した。図５および図６において、以前の音声認証時にユーザＵと同じ場にいた他者が認識された場合について説明したが、勿論、認証対話制御部１０６は、以前の音声認証時にいなかった他者のみが認識された場合でも、フェイク発話ＦＣＳによる対話制御を行ってもよい。

　［２．３．３．対話制御例３］
　ところで、上述したチャレンジ発話ＣＳに対するユーザＵ１からのレスポンス発話ＲＳに基づく音声認証は、必ずしも成功するとは限らない。例えば、ユーザＵ１がハッシュ種ワードおよびワード関係ルールから、ハッシュ種ワードを連想できなかった状況や、チャレンジ発話ＣＳにおけるハッシュ種ワードに対応する箇所を聞き逃した状況が発生し得る。

　そのような状況の発生は、例えば、出力されたチャレンジ発話ＣＳに対応するチャレンジ発話文ＣＳＳが長すぎることや、ワード関係ルールに則したハッシュ値ワードの連想が困難なハッシュ種ワードが選択されたこと等に起因し得る。すなわち、ユーザＵ１にとって音声認証を成功させることが困難なチャレンジ発話文ＣＳＳが生成されたことに起因し得る。

　そのため、認証対話制御部１０６は、ユーザＵがハッシュ値属性を有し、かつ、ワード関係ルールに則するワードをレスポンス発話ＲＳにおいて発話できなかった場合、音声認証をリトライしてもよい。ここで、音声認証のリトライは、例えば認証対話制御部１０６がチャレンジ発話文ＣＳＳを生成する段階まで復帰することである。認証対話制御部１０６は、チャレンジ発話ＣＳの実行に際し、ひとつ前に生成したチャレンジ発話文ＣＳＳと比較して、短いチャレンジ発話文ＣＳＳを生成してもよい。

　ここで、図７を参照して、認証対話制御部１０６によるリトライの際の音声認証処理の一例について説明する。図７は、本実施形態に係る認証対話制御部１０６によるリトライの際の音声認証処理の一例について説明するための図である。図７には、音声認証対象のユーザＵ１、他者ＡＰ６、ＡＰ７および情報処理端末１０が示されている。

　まず、ユーザＵ１は、音声認証開始発話ＵＳＳを行う。情報処理端末１０の認証対話制御部１０６は、音声認証開始発話ＵＳＳを認識し音声認証処理を開始する。次に、画像入力部１０４がユーザＵの状況を撮影し、画像認識部１０５が他者ＡＰ６、ＡＰ７の存在を認識する。次に、認証対話制御部１０６は、画像認識部１０５が認識した他者の存在に基づいて「ｓａｎｄｗｉｃｈｅｓ」を含むチャレンジ発話文ＣＳＳ４を生成し、チャレンジ発話ＣＳ４として音声出力部１０８に出力させる。

　次に、ユーザＵは、チャレンジ発話ＣＳ４に基づいて「ｔｕｒｔｌｅｓ」を含むレスポンス発話文ＲＳＳ４のレスポンス発話ＲＳ４を行う。認証対話制御部１０６は、ユーザＵによるレスポンス発話ＲＳ４から認識されたレスポンス発話文ＲＳＳ４から属性が「動物」である「ｔｕｒｔｌｅｓ」を検出する。次に、認証対話制御部１０６は、検出した「ｔｕｒｔｌｅｓ」がワード関係ルールに則するワードでないことを検出する。認証対話制御部１０６は、レスポンス発話文ＲＳＳがハッシュ値ワードを含まないと判定し、音声認証処理が成功しなかったと判断する。

　次に、認証対話制御部１０６は、音声認証をリトライし、「ｃａｒｂｏｎａｒａ」を含むチャレンジ発話文ＣＳＳ５を生成し、チャレンジ発話ＣＳ５として音声出力部１０８に出力させる。ここでのチャレンジ発話文ＣＳＳ５は、チャレンジ発話文ＣＳＳ４と比較して短い発話文である。

　次に、ユーザＵ１は、チャレンジ発話ＣＳ５に基づいて「ｃｒａｂ」を含むレスポンス発話ＲＳ１を行う。認証対話制御部１０６は、ユーザＵ１によるレスポンス発話ＲＳ１から認識されたレスポンス発話文ＲＳＳ１から属性が「動物」である「ｃｒａｂ」を検出する。

　次に、認証対話制御部１０６は、検出した「ｃｒａｂ」がワード関係ルールに則するワードであることを検出する。認証対話制御部１０６は、「ｃｒａｂ」を検出したことに基づいて、レスポンス発話文ＲＳＳがハッシュ値ワードを含むと判定し、音声認証処理が成功したと判断する。最後に、認証対話制御部１０６は、音声認証の完了を伝える音声認証完了発話ＡＳＥを音声出力部１０８に出力させ、音声認証処理は終了する。

　このように、音声認証をリトライする場合に、チャレンジ発話文ＣＳＳを短くして音声認証の難易度を下げることにより、ユーザＵにとって適するセキュリティ強度での音声認証を行うことが可能となる。

　上記では、音声認証をリトライする場合に、生成されるチャレンジ発話文ＣＳＳを短くする例について説明したが、チャレンジ発話文ＣＳＳが含むハッシュ種ワードの数を増やしてもよい。チャレンジ発話文ＣＳＳが含むハッシュ種ワードの数を増やすことにより、ユーザＵがチャレンジ発話ＣＳを聞く際に、ハッシュ種ワードにあたる箇所を全て聞き逃す可能性が低減する。

　ここで、図８を参照して、認証対話制御部１０６によるリトライの際の音声認証処理の一例について説明する。図８は、本実施形態に係る認証対話制御部１０６によるリトライの際の音声認証処理の一例について説明するための図である。図８には、音声認証対象のユーザＵ１、他者ＡＰ８、ＡＰ９および情報処理端末１０が示されている。

　ここで、音声認証開始発話ＵＳＳからレスポンス発話ＲＳ６までは、図７に示された音声認証開始発話ＵＳＳからレスポンス発話ＲＳ４までと同様である。

　次に、認証対話制御部１０６は、音声認証をリトライし、「ｓｐａｇｈｅｔｔｉ」および「ｐｉｚｚａ」を含むチャレンジ発話文ＣＳＳ７を生成し、チャレンジ発話ＣＳ７として音声出力部１０８に出力させる。ここでのチャレンジ発話文ＣＳＳ７は、チャレンジ発話文ＣＳＳ５と比較して多くのハッシュ種ワードを含む発話である。

　次に、ユーザＵ１は、チャレンジ発話ＣＳ５に基づいて「ｐｅｎｇｕｉｎｓ」を含むレスポンス発話ＲＳ１を行う。認証対話制御部１０６は、ユーザＵによるレスポンス発話ＲＳ１から認識されたレスポンス発話文ＲＳＳ１から属性が「動物」である「ｐｅｎｇｕｉｎｓ」を検出する。

　次に、認証対話制御部１０６は、検出した「ｐｅｎｇｕｉｎｓ」がワード関係ルールに則するワードであることを検出する。認証対話制御部１０６は、「ｐｅｎｇｕｉｎｓ」を検出したことに基づいて、レスポンス発話文ＲＳＳがハッシュ値ワードを含むと判定し、音声認証処理が成功したと判断する。最後に、認証対話制御部１０６は、音声認証の完了を伝える音声認証完了発話ＡＳＥを音声出力部１０８に出力させ、音声認証処理は終了する。

　このように、音声認証をリトライする場合に、チャレンジ発話文ＣＳＳが含むハッシュ種ワードの数を増やして音声認証の難易度を下げることにより、ユーザＵにとって適するセキュリティ強度での音声認証を行うことが可能となる。

　なお、認証対話制御部１０６は、音声認証のリトライを所定回数まで行ってもよく、音声認証のリトライが所定回数より多くなった場合、当該音声認証は失敗と判断してもよい。

　［２．３．４．対話制御例４］
　上記まではユーザＵと同じ場に他者が存在する場合について説明したが、一方で、ユーザＵと同じ場に他者が存在しない場合、他者に音声認証情報を聞かれる可能性が無いため、音声認証のセキュリティ強度を下げてもよい。例えば、認証対話制御部１０６は、画像認識部１０５が他者を認識しなかった場合、ハッシュ種ワードのみを、チャレンジ発話ＣＳとして音声出力部１０８に出力させてもよい。

　ここで、図９を参照して、認証対話制御部１０６による他者が認識されなかった場合の音声認証処理の一例について説明する。図９は、本実施形態に係る認証対話制御部１０６による他者が認識されなかった場合の音声認証処理の一例について説明するための図である。図９には、音声認証対象のユーザＵ１および情報処理端末１０が示されている。

　まず、ユーザＵ１は、音声認証開始発話ＵＳＳを行う。情報処理端末１０の認証対話制御部１０６は、音声認証開始発話ＵＳＳを認識し音声認証処理を開始する。次に、画像入力部１０４がユーザＵ１の状況を撮影し、画像認識部１０５は他者が存在しないことを認識する。次に、認証対話制御部１０６は、画像認識部１０５により他者が存在しないことに基づいてハッシュ種ワード「Ｓａｎｄｗｉｃｈ」のみのチャレンジ発話文ＣＳＳ８を生成し、チャレンジ発話ＣＳ８として音声出力部１０８に出力させる。

　次に、ユーザＵ１は、チャレンジ発話ＣＳ８に基づいて「Ｓｅａｌ」のみのレスポンス発話ＲＳ８を行う。なお、ユーザＵによるレスポンス発話ＲＳ８は、図９に示されるハッシュ値ワード以外のワードを含む発話文による発話でもよい。認証対話制御部１０６は、ユーザＵによるレスポンス発話ＲＳ１から認識されたレスポンス発話文ＲＳＳ１から属性が「動物」である「Ｓｅａｌ」を検出する。

　次に、認証対話制御部１０６は、検出した「Ｓｅａｌ」がワード関係ルールに則するワードであることを検出する。認証対話制御部１０６は、「Ｓｅａｌ」を検出したことに基づいて、レスポンス発話文ＲＳＳがハッシュ値ワードを含むと判定し、音声認証処理が成功したと判断する。最後に、認証対話制御部１０６は、音声認証の完了を伝える音声認証完了発話ＡＳＥを音声出力部１０８に出力させ、音声認証処理は終了する。

　このように、音声認証時に同じ場に他者が存在しない場合には、生成されるチャレンジ発話文ＣＳＳを大幅に短くすることで、ユーザＵが余計な負担を負うこと無く音声認証を行うことが可能となる。

　なお、図９に示された一例においては、認証対話制御部１０６が生成するチャレンジ発話文ＣＳＳはハッシュ種ワードのみであったが、勿論チャレンジ発話文ＣＳＳがハッシュ種ワード以外のワードを含んでもよい。

　［２．３．５．対話制御例５］
　ところで、上記まではハッシュ種属性およびハッシュ値属性が「食べ物」や「動物」などの所謂「上位概念」である例について説明してきた。しかし、ハッシュ種属性およびハッシュ値属性は、例えば情報処理端末１０の記憶部１０９に記憶するユーザＵの個人データに基づいて決定されてもよい。

　例えば、ユーザＵの個人データに基づいてハッシュ種属性が「ユーザＵの予定表に記入されている場所」、またハッシュ値属性が「予定表に場所が記入されている日付」と決定されてもよい。この場合、ワード関係ルールは、「予定表に記入されている場所と日付が対応していること」である。

　なお、他の例として、ハッシュ種属性が「ユーザＵの連絡先リストに記録されている人の苗字」、またハッシュ値属性が「ユーザＵの連絡先リストに記録されている人の名前」、ワード関係ルールは、「ハッシュ種ワードの苗字とハッシュ値ワードの名前が対応していること（当該苗字と当該名前の組み合わせがユーザＵの連絡先リストに記録されていること）」でもよい。

　認証対話制御部１０６がユーザＵの個人データに基づく音声認証処理を行うことで、他者が音声認証情報を推測することがより困難となり、セキュリティ強度を上げることができる。

　ここで、図１０を参照して、認証対話制御部１０６によるユーザ個人データを用いた音声認証処理の一例について説明する。図１０は、本実施形態に係る認証対話制御部１０６によるユーザ個人データを用いた音声認証処理の一例について説明するための図である。図１０には、音声認証対象のユーザＵ１、他者ＡＰ１０、ＡＰ１１および情報処理端末１０が示されている。

　まず、ユーザＵ１は、音声認証開始発話ＵＳＳを行う。認証対話制御部１０６は、自然言語処理部１０３が解析したユーザの音声認証開始発話ＵＳＳに基づいて、音声認証処理を開始する。次に、画像入力部１０４がユーザＵの状況を撮影し、画像認識部１０５が他者ＡＰ１０、ＡＰ１１の存在を認識する。次に、認証対話制御部１０６は、画像認識部１０５が認識した他者ＡＰ１０、ＡＰ１１の存在に基づいてチャレンジ発話文ＣＳＳを生成し、属性が「ユーザＵ１の予定表に記入されている場所」である「ＡＢＣ　ｂｅａｃｈ」を含むチャレンジ発話ＣＳ９を音声出力部１０８に出力させる。

　次に、ユーザＵ１は、チャレンジ発話ＣＳ９に基づいて予定表のうちの「ＡＢＣ　ｂｅａｃｈ」が記入されている日付である「Ａｕｇｕｓｔ　２３」を含むレスポンス発話ＲＳ９を行う。認証対話制御部１０６は、ユーザＵによるレスポンス発話ＲＳ９から認識されたレスポンス発話文ＲＳＳ９から「予定表に場所が記入されている日付」である「Ａｕｇｕｓｔ　２３」を検出する。

　次に、認証対話制御部１０６は、「Ａｕｇｕｓｔ　２３」がワード関係ルールに則すること、すなわち「ＡＢＣ　ｂｅａｃｈ」が記入されている日付であることを検出する。認証対話制御部１０６は、「Ａｕｇｕｓｔ　２３」を検出したことに基づいて、レスポンス発話文ＲＳＳがハッシュ値ワードを含むと判定し、音声認証処理が成功したと判断する。最後に、認証対話制御部１０６は、音声認証の完了を伝える音声認証完了発話ＡＳＥを音声出力部１０８に出力させ、音声認証処理は終了する。

　このように、他者にとってより把握が難しいユーザＵ個人のデータを用いることで、よりセキュリティ強度が高い音声認証を行うことが可能となる。

　以上、認証対話制御部１０６によるユーザの状況に応じたセキュリティ強度による音声認証処理について説明した。上述した例では、他者の数や以前の音声認証時にユーザＵと同じ場にいた他者の存在に基づいてセキュリティ強度が決定されていたが、セキュリティ強度の決定方法は係る例に限定されない。例えば、認証対話制御部１０６は、他者のアテンションに基づいて音声認証のセキュリティ強度を決定してもよい。ここで、他者のアテンションとは、例えば他者の視線や顔の向きに基づくユーザＵや情報処理端末１０に対する関心の度合いをいう。認証対話制御部１０６は、ユーザＵや情報処理端末１０に対して関心がある他者が存在する場合、音声認証のセキュリティ強度を上げてもよい。

　また、認証対話制御部１０６は、ユーザＵが利用を開始したいサービスに応じて、音声認証対話の難易度、すなわちセキュリティ強度を変更してもよい。他にも、認証対話制御部１０６は、ハッシュ種属性、ハッシュ値属性、ワード関係ルールの組み合わせに応じて、音声出力部１０８に出力させる音声の質を変更してもよい。なお、認証対話制御部１０６は、上記までに説明した認証処理を文章の入出力をユーザＵとの間で行うことにより実現してもよい。

　［２．３．６．肯定否定判定例］
　以上、ユーザＵと同じ場にいる他者の有無に応じた音声認証処理の具体例について説明した。ところで、音声認証において、情報処理端末１０とユーザＵとの間で行われる対話は他者にとって自然なやり取りである方が、当該対話内のいずれのタイミングで音声認証情報のやり取りが行われているかが分かりにくくなる。

　そのため、例えば、情報処理端末１０は、出力されたフェイク発話ＦＣＳに対するユーザからのフェイクレスポンス発話ＦＲＳに基づいて認識されたフェイクレスポンス発話文ＦＲＳＳのフェイク発話ＦＣＳに対する肯定判定もしくは否定判定を実行してもよい。

　ここで、肯定判定もしくは否定判定は、チャレンジ発話文ＣＳＳおよびフェイク発話文ＦＣＳＳの生成に利用される。フェイクレスポンス発話文ＦＲＳＳのフェイク発話ＦＣＳに対する肯定判定もしくは否定判定を行うことで、生成されるチャレンジ発話ＣＳやフェイク発話ＦＣＳのユーザＵからの反応を予測することが容易となり、より自然な対話を行うことができる。

　具体的には、自然言語処理部１０３は、ユーザＵからのフェイクレスポンス発話ＦＲＳから認識されたフェイクレスポンス発話文ＦＲＳＳが含む肯定的な単語や否定的な単語もしくは単語群を検出し、認証対話制御部１０６は、当該単語もしくは単語群に基づいて肯定判定もしくは否定判定を実行してもよい。

　例えば、自然言語処理部１０３は、ユーザＵからのフェイクレスポンス発話ＦＲＳから認識されたフェイクレスポンス発話文ＦＲＳＳが含む肯定的な単語や否定的な単語もしくは単語群のスコアを算出してよい。また、例えば認証対話制御部１０６は、自然言語処理部１０３が算出したスコアが所定値以上かもしくは所定値以下かに基づいて肯定判定もしくは否定判定を行ってもよい。例えば、認証対話制御部１０６は、フェイクレスポンス発話文ＦＲＳＳを－１．０～＋１．０までの範囲でスコア付けして、スコアが例えば－０．５以下であれば否定判定、＋０．５以上であれば肯定判定をしてもよい。

　ここで、図１１を参照して、本実施形態に係る認証対話制御部１０６によるフェイクレスポンス発話文ＦＲＳＳのフェイク発話ＦＣＳに対する肯定判定および否定判定の一例について説明する。図１１は、本実施形態に係る認証対話制御部１０６によるフェイクレスポンス発話文ＦＲＳＳのフェイク発話ＦＣＳに対する肯定判定および否定判定の一例について説明するための図である。図１１には、音声認証対象のユーザＵ１、他者ＡＰ１、ＡＰ１２および情報処理端末１０が示されている。

　音声認証開始発話ＵＳＳ、フェイク発話ＦＣＳ５～フェイクレスポンス発話ＦＲＳ６、音声認証完了発話ＡＳＥは、図５で示された音声認証開始発話ＵＳＳ、フェイク発話ＦＣＳ１～フェイクレスポンス発話ＦＲＳ２、音声認証完了発話ＡＳＥと同様である。ここで、認証対話制御部１０６は、フェイクレスポンス発話ＦＲＳ５が認識されたフェイクレスポンス発話文ＦＲＳＳ５に対して自然言語処理部１０３が算出したスコアに基づいて、肯定判定もしくは否定判定を行う。

　具体的には、自然言語処理部１０３は、フェイクレスポンス発話文ＦＲＳＳ５に対して「＋０．８」のスコアを算出し、認証対話制御部１０６は、当該スコアに基づいてフェイクレスポンス発話文ＦＲＳＳ５に対して肯定判定を行う。また、自然言語処理部１０３は、フェイクレスポンス発話文ＦＲＳＳ５に対して「－０．６」のスコアを算出し、認証対話制御部１０６は、当該スコアに基づいてフェイクレスポンス発話文ＦＲＳＳ５に対して否定判定を行う。判定結果は、記憶部１０９に記憶されてもよいし、情報処理サーバ２０に送信されてもよい。

　このように、フェイクレスポンス発話文ＦＲＳＳのフェイク発話ＦＣＳに対する肯定判定もしくは否定判定のデータが蓄積され発話文の生成に利用されることで、ユーザＵとの対話をより自然に行うことが可能となる。

　なお、図１１の一例において他者が２人いる場合の認証対話制御部１０６によるフェイクレスポンス発話ＦＲＳに対する肯定判定もしくは否定判定について説明したが、勿論、チャレンジ発話ＣＳに対するレスポンス発話ＲＳへ同様の判定を行ってよい。また、他者が２人以外の場合や他者が存在しない場合においても、同様の判定を行ってよい。

　＜＜２．４．動作例＞＞
　続いて、図１２～図１５を参照して、本実施形態に係る認証対話制御部１０６による音声認証対話制御の動作の流れの一例について説明する。

　［２．４．１．音声認証対話動作例］
　まず、図１２を参照して、本実施形態に係る認証対話制御部１０６によるチャレンジ発話ＣＳの出力およびレスポンス発話ＲＳに基づく音声認証に係る処理の動作の流れの一例について説明する。図１２は、本実施形態に係る認証対話制御部１０６によるチャレンジ発話ＣＳの出力およびレスポンス発話ＲＳに基づく音声認証に係る処理の動作の流れの一例について説明するための図である。

　図１２を参照すると、まず、認証対話制御部１０６は、ユーザＵからの音声認証開始発話ＵＳＳが認識された場合、ハッシュ種属性を有するワードを記憶部１０９から取得する（Ｓ１０１）。ステップＳ１０１において、認証対話制御部１０６は、ハッシュ種属性を有するワードを情報処理サーバ２０から取得してもよい。次に、認証対話制御部１０６は、ステップＳ１０１で取得されたハッシュ種ワードを含むチャレンジ発話文ＣＳＳを生成し、チャレンジ発話ＣＳとして音声出力部１０８に出力させる（Ｓ１０２）。

　次に、自然言語処理部１０３から自然言語処理が実行されたレスポンス発話文ＲＳＳを受信しなかった場合（Ｓ１０３：Ｎｏ）、認証対話制御部１０６は、リトライ回数をインクリメントする（Ｓ１０４）。次に、リトライ回数が所定回数以上である場合（Ｓ１０５：Ｙｅｓ）、認証対話制御部１０６は音声認証失敗と判断し（Ｓ１０６）、認証対話制御部１０６は動作を終了する。一方、リトライ回数が所定回数以上でない場合（Ｓ１０５：Ｎｏ）、ステップＳ１０１へ復帰する。

　一方、自然言語処理部１０３から自然言語処理が実行されたレスポンス発話文ＲＳＳを受信した場合で（Ｓ１０３：Ｙｅｓ）、かつ、当該レスポンス発話文ＲＳＳがハッシュ値属性を有するワードを含まない場合（Ｓ１０７：Ｎｏ）、ステップＳ１０４へ進む。一方、自然言語処理部１０３から自然言語処理が実行されたレスポンス発話文ＲＳＳを受信した場合で（Ｓ１０３：Ｙｅｓ）、かつ、当該レスポンス発話文ＲＳＳがハッシュ値属性を有するワードを含む場合（Ｓ１０７：Ｙｅｓ）、認証対話制御部１０６は、レスポンス発話文ＲＳＳが含むハッシュ値属性を有するワードをハッシュ値ワード候補と決定する（Ｓ１０８）。

　次に、ステップＳ１０８で決定されたハッシュ値ワード候補のうちハッシュ種ワードとの間でワード関係ルールに則するワードが存在しない場合（Ｓ１０９：Ｎｏ）、ステップＳ１０４へ進む。一方、ステップＳ１０８で決定されたハッシュ値ワード候補のうちハッシュ種ワードとの間でワード関係ルールに則するワードが存在する場合（Ｓ１０９：Ｙｅｓ）、認証対話制御部１０６は音声認証成功と判断し（Ｓ１１０）、認証対話制御部１０６は動作を終了する。

　［２．４．２．チャレンジ発話文ＣＳＳの生成例］
　次に、図１３を参照して、本実施形態に係る認証対話制御部１０６によるチャレンジ発話文ＣＳＳの生成処理の流れの一例について説明する。図１３は、本実施形態に係る認証対話制御部１０６によるチャレンジ発話文ＣＳＳの生成処理の流れの一例について説明するための図である。

　図１３を参照すると、まず、ユーザＵと同じ場に他者が存在する場合（Ｓ２０１：Ｙｅｓ）、認証対話制御部１０６は、認識された他者の数が多くなるに従って長いチャレンジ発話文ＣＳＳを生成し（Ｓ２０２）、認証対話制御部１０６は動作を終了する。一方、ユーザＵと同じ場に他者が存在しない場合（Ｓ２０１：Ｎｏ）、認証対話制御部１０６は、ハッシュ種ワードのみを含むチャレンジ発話文ＣＳＳを生成し（Ｓ２０３）、認証対話制御部１０６は動作を終了する。なお、ステップＳ２０３において、認証対話制御部１０６は、ステップＳ２０２で生成されるチャレンジ発話文ＣＳＳよりもワード数が少ない、ハッシュ種ワード以外のワードを含むチャレンジ発話文ＣＳＳを生成してもよい。

　［２．４．３．ハッシュ種ワードの決定例］
　次に、図１４を参照して、本実施形態に係る認証対話制御部１０６によるハッシュ種ワードの決定処理の流れの一例について説明する。図１４は、本実施形態に係る認証対話制御部１０６によるハッシュ種ワードの決定処理の流れの一例について説明するための図である。

　図１４を参照すると、まず、ユーザ個人データに過去に使用されたハッシュ種ワードの情報が存在しない場合（Ｓ３０１：Ｎｏ）、認証対話制御部１０６は、ハッシュ種属性を有するワードを記憶部１０９が記憶するハッシュ種ワードデータベースからランダムに習得してハッシュ種ワードと決定する（Ｓ３０２）。次に、認証対話制御部１０６は、ステップＳ３０２で決定されたハッシュ種ワードおよびユーザＵと同じ場に他者に係る情報をユーザ個人データとして記憶部１０９に記憶し（Ｓ３０３）、認証対話制御部１０６は動作を終了する。

　一方、ユーザ個人データに過去に使用されたハッシュ種ワードの情報が存在し場合で（Ｓ３０１：Ｙｅｓ）、かつ、認証対象のユーザＵ以外に同じ場に他者が存在しない場合（Ｓ３０４：Ｎｏ）、認証対話制御部１０６はユーザ個人データに記憶される直近の認証時に使用されたハッシュ種ワードを今回使用するハッシュ種ワードと決定する（Ｓ３０５）。次に、認証対話制御部１０６は、ステップＳ３０５で決定されたハッシュ種ワードおよびユーザＵと同じ場に他者に係る情報をユーザ個人データとして記憶部１０９に記憶し（Ｓ３０３）、認証対話制御部１０６は動作を終了する。

　また、一方、認証対象のユーザＵ以外に同じ場に他者が存在する場合で（Ｓ３０４：Ｙｅｓ）、かつ、ユーザ個人データ内に今回認識された他者に係る情報が記憶されていない場合（Ｓ３０６：Ｎｏ）、ステップＳ３０５へ進む。

　また、一方、ユーザ個人データ内に今回認識された他者に係る情報が記憶されている場合（Ｓ３０６：Ｙｅｓ）、認証対話制御部１０６は、記憶部１０９が記憶するハッシュ種ワードデータベースに存在するハッシュ種属性を有するワードから、今回ユーザＵと同じ場に存在する他者がユーザＵの音声認証時に聞いたことが無いワードを習得してハッシュ種ワードと決定する（Ｓ３０７）。次に、認証対話制御部１０６は、ステップＳ３０７で決定されたハッシュ種ワードおよびユーザＵと同じ場に他者に係る情報をユーザ個人データとして記憶部１０９に記憶し（Ｓ３０３）、認証対話制御部１０６は動作を終了する。

　［２．４．４．フェイク発話ＦＣＳを含む音声認証処理例］
　次に、図１５Ａおよび図１５Ｂを参照して、本実施形態に係る認証対話制御部１０６によるフェイク発話ＦＣＳを含む音声認証に係る処理の動作の流れの一例について説明する。図１５Ａおよび図１５Ｂは、本実施形態に係る認証対話制御部１０６によるフェイク発話ＦＣＳを含む音声認証に係る処理の動作の流れの一例について説明するための図である。

　図１５Ａを参照すると、まず、ユーザＵ以外に以前の音声認証時にユーザＵと同じ場にいた他者が存在する場合（Ｓ４０１：Ｙｅｓ）、認証対話制御部１０６は、以前の音声認証時にユーザＵと同じ場にいた他者の数に基づいてフェイク発話ＦＣＳの回数を決定する（Ｓ４０２）。次に、認証対話制御部１０６は、チャレンジ発話ＣＳおよびフェイク発話ＦＣＳの順番をランダムに決定する（Ｓ４０３）。

　次に、ステップＳ４０３で決定された発話の順番においてチャレンジ発話ＣＳを行う音声認証対話の順番である場合（Ｓ４０４：Ｙｅｓ）、認証対話制御部１０６は音声認証処理を実行する（Ｓ４０５）。ここで、ステップＳ４０５における音声認証処理は、図１２で一例が示された音声認証対話制御に係る処理である。

　次に、ステップＳ４０５で音声認証が失敗した場合（Ｓ４０６：Ｎｏ）、認証対話制御部１０６は、音声認証に失敗したことを音声出力部１０８に出力させ（Ｓ４０７）、認証対話制御部１０６は動作を終了する。また、一方、ステップＳ４０５で音声認証が成功した場合で（Ｓ４０６：Ｙｅｓ）、かつ、ステップＳ４０２で決定した回数のフェイク対話および音声認証対話が完了した場合（Ｓ４０８：Ｙｅｓ）、認証対話制御部１０６は、音声認証に成功したことを音声出力部１０８に出力させ（Ｓ４１５）、認証対話制御部１０６は動作を終了する。一方、ステップＳ４０２で決定した回数のフェイク対話および音声認証対話が完了していない場合（Ｓ４０８：Ｎｏ）、ステップＳ４０４へ復帰する。

　また、一方、ステップＳ４０３で決定された発話の順番においてチャレンジ発話ＣＳを行う音声認証対話の順番でない場合（Ｓ４０４：Ｎｏ）、図１５Ｂを参照すると、認証対話制御部１０６は、情報処理サーバ２０からハッシュ種属性を有するワードを含まないフェイク発話文ＦＣＳＳを取得しフェイク発話ＦＣＳをして音声出力部１０８に出力させる（Ｓ４０９）。次に、自然言語処理部１０３はユーザＵからのフェイクレスポンス発話文ＦＲＳＳのスコアを算出する（Ｓ４１０）。

　次に、ステップＳ４１０で算出されたスコアが所定値以上である場合（Ｓ４１１：Ｙｅｓ）、認証対話制御部１０６は、フェイクレスポンス発話ＦＲＳを正例（肯定判定）して情報処理サーバ２０へ送信し（Ｓ４１２）、図１５Ａで示されたステップＳ４０８へ進む。

　一方、ステップＳ４１０で算出されたスコアが所定値以上でない場合で（Ｓ４１１：Ｎｏ）、かつ、ステップＳ４１０で算出されたスコアが所定値以下である場合（Ｓ４１３：Ｙｅｓ）、認証対話制御部１０６は、フェイクレスポンス発話ＦＲＳを負例（否定判定）として情報処理サーバ２０へ送信し（Ｓ４１４）、図１５Ａで示されたステップＳ４０８へ進む。一方、ステップＳ４１０で算出されたスコアが所定値以下でない場合（Ｓ４１３：Ｎｏ）、図１５Ａで示されたステップＳ４０８へ進む。

　なお、ユーザＵ以外に以前の音声認証時にユーザＵと同じ場にいた他者が存在しない場合は（Ｓ４０１：Ｎｏ）、認証対話制御部１０６は、フェイク対話を実行しないと決定し、すなわちフェイク対話の回数をゼロ回と決定し（Ｓ４１６）、ステップＳ４０５へ進む。

　＜３．ハードウェア構成例＞
　次に、本開示の一実施形態に係る情報処理端末１０および情報処理サーバ２０に共通するハードウェア構成例について説明する。図１６は、本開示の一実施形態に係る情報処理端末１０および情報処理サーバ２０のハードウェア構成例を示すブロック図である。図１６を参照すると、情報処理端末１０および情報処理サーバ２０は、例えば、プロセッサ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

　（プロセッサ８７１）
　プロセッサ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

　（ＲＯＭ８７２、ＲＡＭ８７３）
　ＲＯＭ８７２は、プロセッサ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、プロセッサ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。プロセッサ８７１、ＲＯＭ８７２、ＲＡＭ８７３により認証対話制御部１０６、音声認識部１０２、自然言語処理部１０３、画像認識部１０５、音声合成部１０７の機能は実現される。

　（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
　プロセッサ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

　（入力装置８７８）
　入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。入力装置８７８により音声入力部１０１および画像入力部１０４の機能は実現される。

　（出力装置８７９）
　出力装置８７９は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置８７９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。出力装置８７９により音声出力部１０８の機能は実現される。

　（ストレージ８８０）
　ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

　（ドライブ８８１）
　ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

　（リムーバブル記録媒体９０１）
　リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。ストレージ８８０、ドライブ８８１、リムーバブル記録媒体９０１等により記憶部１０９の機能は実現される。

　（接続ポート８８２）
　接続ポート８８２は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

　（外部接続機器９０２）
　外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

　（通信装置８８３）
　通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、又は各種通信用のモデム等である。通信装置８８３により通信部１１０の機能は実現される。

　＜４．まとめ＞
　以上、説明したように、本実施形態に係る情報処理システムは、ユーザの状況に基づいて決定されたセキュリティ強度で音声認証処理を実行する機能を有する。係る機能によれば、ユーザに余計な負荷をかけずに、かつ、十分なセキュリティ性を確保した音声認証処理を実行することが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　ユーザとの対話を制御し、前記対話におけるユーザの発話に基づく音声認証処理を実行する認証対話制御部、
　を備え、
　前記認証対話制御部は、ハッシュ種ワードを含むチャレンジ発話文を生成して、チャレンジ発話として出力させ、出力された前記チャレンジ発話に対する前記ユーザからのレスポンス発話に基づいて認識されたレスポンス発話文がハッシュ値ワードを含むか否かの判定に基づいて、前記音声認証処理を実行し、
　前記ハッシュ値ワードは、前記ハッシュ種ワードとの間で、ワード関係ルールにより規定される所定の関係を有する、
　情報処理装置。
（２）
　前記ハッシュ種ワードは、予め規定された所定の属性であるハッシュ種属性を有し、
　前記ハッシュ値ワードは、予め規定された所定の属性であり、かつ、前記ハッシュ種属性との組み合わせが予め規定された、ハッシュ値属性を有する、
　前記（１）に記載の情報処理装置。
（３）
　前記ワード関係ルールは、前記ハッシュ値ワードの所定番目の文字もしくは音節が、前記ハッシュ種ワードの所定番目の文字もしくは音節と同一であることである、
　前記（１）または（２）に記載の情報処理装置。
（４）
　前記認証対話制御部は、他者の存在が認識された場合、認識された前記他者の存在に基づいて前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
　前記（１）～（３）のいずれか１項に記載の情報処理装置。
（５）
　前記認証対話制御部は、認識された前記他者の数に基づいて前記チャレンジ発話文の長さを決定し、決定した前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
　前記（４）に記載の情報処理装置。
（６）
　前記認証対話制御部は、前記認識された他者の数が多くなるに従って長くする前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
　前記（５）に記載の情報処理装置。
（７）
　前記認証対話制御部は、前記認識された他者が以前の前記音声認証処理時に認識されていた場合、前記以前の音声認証処理時に生成された前記チャレンジ発話文が含む前記ハッシュ種ワードとは異なる前記ハッシュ種ワードを含む前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
　前記（４）～（６）のいずれか１項に記載の情報処理装置。
（８）
　前記認証対話制御部は、前記認識された他者が以前の前記音声認証処理時に認識されていない場合、前記以前の音声認証処理時に生成された前記チャレンジ発話文が含む前記ハッシュ種ワードを含む前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
　前記（４）～（６）のいずれか１項に記載の情報処理装置。
（９）
　前記認証対話制御部は、前記ハッシュ種ワードを含まないフェイク発話文をさらに生成して、フェイク発話として出力させる、
　前記（４）～（８）のいずれか１項に記載の情報処理装置。
（１０）
　前記認証対話制御部は、前記認識された他者の数に基づいて、前記フェイク発話文の数を決定し、前記決定した数の前記フェイク発話文を生成して、それぞれ前記フェイク発話として出力させる、
　前記（９）に記載の情報処理装置。
（１１）
　前記認証対話制御部は、前記チャレンジ発話および前記フェイク発話をランダムな順番で出力させる、
　前記（９）または（１０）に記載の情報処理装置。
（１２）
　前記認証対話制御部は、前記音声認証処理のリトライに基づいて、前記チャレンジ発話文の長さを決定し、前記決定した長さの前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
　前記（１）～（１１）のいずれか１項に記載の情報処理装置。
（１３）
　前記認証対話制御部は、前記音声認証処理のリトライに基づいて、前記チャレンジ発話文が含む前記ハッシュ種ワードの数を決定し、前記決定した数の前記ハッシュ種ワードを含む前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
　前記（１）～（１２）のいずれか１項に記載の情報処理装置。
（１４）
　前記認証対話制御部は、前記ユーザに係るユーザ情報に基づいて、前記ハッシュ種ワードおよび前記ワード関係ルールを決定し、前記決定したハッシュ種ワードを含む前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
　前記（１）～（１３）のいずれか１項に記載の情報処理装置。
（１５）
　前記認証対話制御部は、出力された前記フェイク発話に対する前記ユーザからのフェイクレスポンス発話に基づいて認識されたフェイクレスポンス発話文の前記フェイク発話に対する肯定判定もしくは否定判定を実行し、
　前記肯定判定もしくは否定判定は、前記チャレンジ発話文および前記フェイク発話文の生成に利用される、
　前記（９）～（１１）のいずれか１項に記載の情報処理装置。
（１６）
　ユーザとの対話を制御し、前記対話における前記ユーザの発話に基づく音声認証処理を実行する認証対話制御部、
　を備え、
　前記認証対話制御部は、認識された前記ユーザの周囲状況に基づいて、実行される前記音声認証処理のセキュリティ強度を決定する、
　情報処理装置。
（１７）
　前記ユーザの周囲状況は、認識された他者の数を含み、
　前記認証対話制御部は、認識された前記他者の数に基づいて、前記実行される音声認証処理の前記セキュリティ強度を決定する、
　前記（１６）に記載の情報処理装置。
（１８）
　前記ユーザの周囲状況は、前記ユーザの以前の前記ユーザに対する認証処理時に認識された前記他者が存在するか否かを含み、
　前記認証対話制御部は、前記ユーザの以前の前記ユーザに対する認証処理時に認識された前記他者が存在するか否かに基づいて、前記実行される音声認証処理の前記セキュリティ強度を決定する、
　前記（１７）に記載の情報処理装置。
（１９）
　ユーザとの対話を制御し、前記対話におけるユーザの発話に基づく音声認証処理を実行すること、
　を含み、
　ハッシュ種ワードを含むチャレンジ発話文を生成して、チャレンジ発話として出力させ、出力された前記チャレンジ発話に対する前記ユーザからのレスポンス発話に基づいて認識されたレスポンス発話文がハッシュ値ワードを含むか否かの判定に基づいて、前記音声認証処理を実行することをさらに含み、
　前記ハッシュ値ワードは、前記ハッシュ種ワードとの間で、ワード関係ルールにより規定される所定の関係を有する、
　情報処理方法。
（２０）
　ユーザとの対話を制御し、前記対話における前記ユーザの発話に基づく音声認証処理を実行すること、
　を含み、
　認識された前記ユーザの周囲状況に基づいて、実行される前記音声認証処理のセキュリティ強度を決定することをさらに含む、
　情報処理方法。

　１０　　情報処理端末
　１０１　音声入力部
　１０２　音声認識部
　１０３　自然言語処理部
　１０４　画像入力部
　１０５　画像認識部
　１０６　認証対話制御部
　１０７　音声合成部
　１０８　音声出力部
　１０９　記憶部
　１１０　通信部
　２０　　情報処理サーバ
　３０　　ネットワーク

Claims

　ユーザとの対話を制御し、前記対話におけるユーザの発話に基づく音声認証処理を実行する認証対話制御部、
　を備え、
　前記認証対話制御部は、ハッシュ種ワードを含むチャレンジ発話文を生成して、チャレンジ発話として出力させ、出力された前記チャレンジ発話に対する前記ユーザからのレスポンス発話に基づいて認識されたレスポンス発話文がハッシュ値ワードを含むか否かの判定に基づいて、前記音声認証処理を実行し、
　前記ハッシュ値ワードは、前記ハッシュ種ワードとの間で、ワード関係ルールにより規定される所定の関係を有する、
　情報処理装置。
　前記ハッシュ種ワードは、予め規定された所定の属性であるハッシュ種属性を有し、
　前記ハッシュ値ワードは、予め規定された所定の属性であり、かつ、前記ハッシュ種属性との組み合わせが予め規定された、ハッシュ値属性を有する、
　請求項１に記載の情報処理装置。
　前記ワード関係ルールは、前記ハッシュ値ワードの所定番目の文字もしくは音節が、前記ハッシュ種ワードの所定番目の文字もしくは音節と同一であることである、
　請求項１に記載の情報処理装置。
　前記認証対話制御部は、他者の存在が認識された場合、認識された前記他者の存在に基づいて前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
　請求項１に記載の情報処理装置。
　前記認証対話制御部は、認識された前記他者の数に基づいて前記チャレンジ発話文の長さを決定し、決定した前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
　請求項４に記載の情報処理装置。
　前記認証対話制御部は、前記認識された他者の数が多くなるに従って長くする前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
　請求項５に記載の情報処理装置。
　前記認証対話制御部は、前記認識された他者が以前の前記音声認証処理時に認識されていた場合、前記以前の音声認証処理時に生成された前記チャレンジ発話文が含む前記ハッシュ種ワードとは異なる前記ハッシュ種ワードを含む前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
　請求項４に記載の情報処理装置。
　前記認証対話制御部は、前記認識された他者が以前の前記音声認証処理時に認識されていない場合、前記以前の音声認証処理時に生成された前記チャレンジ発話文が含む前記ハッシュ種ワードを含む前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
　請求項４に記載の情報処理装置。
　前記認証対話制御部は、前記ハッシュ種ワードを含まないフェイク発話文をさらに生成して、フェイク発話として出力させる、
　請求項４に記載の情報処理装置。
　前記認証対話制御部は、前記認識された他者の数に基づいて、前記フェイク発話文の数を決定し、前記決定した数の前記フェイク発話文を生成して、それぞれ前記フェイク発話として出力させる、
　請求項９に記載の情報処理装置。
　前記認証対話制御部は、前記チャレンジ発話および前記フェイク発話をランダムな順番で出力させる、
　請求項９に記載の情報処理装置。
　前記認証対話制御部は、前記音声認証処理のリトライに基づいて、前記チャレンジ発話文の長さを決定し、前記決定した長さの前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
　請求項１に記載の情報処理装置。
　前記認証対話制御部は、前記音声認証処理のリトライに基づいて、前記チャレンジ発話文が含む前記ハッシュ種ワードの数を決定し、前記決定した数の前記ハッシュ種ワードを含む前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
　請求項１に記載の情報処理装置。
　前記認証対話制御部は、前記ユーザに係るユーザ情報に基づいて、前記ハッシュ種ワードおよび前記ワード関係ルールを決定し、前記決定したハッシュ種ワードを含む前記チャレンジ発話文を生成して、前記チャレンジ発話として出力させる、
　請求項１に記載の情報処理装置。
　前記認証対話制御部は、出力された前記フェイク発話に対する前記ユーザからのフェイクレスポンス発話に基づいて認識されたフェイクレスポンス発話文に対し、前記フェイク発話に対する肯定判定もしくは否定判定を実行し、
　前記肯定判定もしくは否定判定は、前記チャレンジ発話文および前記フェイク発話文の生成に利用される、
　請求項９に記載の情報処理装置。
　ユーザとの対話を制御し、前記対話における前記ユーザの発話に基づく音声認証処理を実行する認証対話制御部、
　を備え、
　前記認証対話制御部は、認識された前記ユーザの周囲状況に基づいて、実行される前記音声認証処理のセキュリティ強度を決定する、
　情報処理装置。
　前記ユーザの周囲状況は、認識された他者の数を含み、
　前記認証対話制御部は、認識された前記他者の数に基づいて、前記実行される音声認証処理の前記セキュリティ強度を決定する、
　請求項１６に記載の情報処理装置。
　前記ユーザの周囲状況は、前記ユーザの以前の前記ユーザに対する認証処理時に認識された前記他者が存在するか否かを含み、
　前記認証対話制御部は、前記ユーザの以前の前記ユーザに対する認証処理時に認識された前記他者が存在するか否かに基づいて、前記実行される音声認証処理の前記セキュリティ強度を決定する、
　請求項１７に記載の情報処理装置。
　ユーザとの対話を制御し、前記対話におけるユーザの発話に基づく音声認証処理を実行すること、
　を含み、
　ハッシュ種ワードを含むチャレンジ発話文を生成して、チャレンジ発話として出力させ、出力された前記チャレンジ発話に対する前記ユーザからのレスポンス発話に基づいて認識されたレスポンス発話文がハッシュ値ワードを含むか否かの判定に基づいて、前記音声認証処理を実行することをさらに含み、
　前記ハッシュ値ワードは、前記ハッシュ種ワードとの間で、ワード関係ルールにより規定される所定の関係を有する、
　情報処理方法。
　ユーザとの対話を制御し、前記対話における前記ユーザの発話に基づく音声認証処理を実行すること、
　を含み、
　認識された前記ユーザの周囲状況に基づいて、実行される前記音声認証処理のセキュリティ強度を決定することをさらに含む、
　情報処理方法。