WO2020017166A1

WO2020017166A1 - 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Info

Publication number: WO2020017166A1
Application number: PCT/JP2019/021306
Authority: WO
Inventors: 真里斎藤
Original assignee: ソニー株式会社
Priority date: 2018-07-20
Filing date: 2019-05-29
Publication date: 2020-01-23
Also published as: US20210134272A1

Abstract

ユーザ発話による処理リスクを考慮した処理制御や、発話ガイドの表示を行うことで誤動作を低減する構成を実現する。ユーザ発話が予め登録された限定発話であるか否かを判定する限定発話判定部と、ユーザ発話が限定発話でないと判定された場合、ユーザ発話に対応する処理のリスクを判定するリスク判定部と、ユーザ発話に対応する処理のリスクが低リスクでない場合、ユーザに予め登録された限定発話を行うように促すガイドを出力する処理実行部を有する。処理実行部は低リスクでない場合、リスクの説明情報を含むアラートを出力する。また、ユーザ発話が限定発話である場合、ユーザ発話の意味解析結果を取得することなくユーザ発話に対応する処理を実行する。

Description

情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

　本開示は、情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。さらに詳細には、ユーザ発話の音声認識結果に基づく処理や応答を行う情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。

　昨今、ユーザ発話の音声認識を行い、認識結果に基づく様々な処理や応答を行う音声認識システムの利用が増大している。
　この音声認識システムにおいては、マイクを介して入力するユーザ発話を認識理解して、それに応じた処理を行う。
　例えばユーザが、「明日の天気を教えて」と発話した場合、天気情報提供サーバから天気情報を取得して、取得情報に基づくシステム応答を生成して、生成した応答をスピーカーから出力する。具体的には、例えば、
　システム発話＝「明日の天気は晴れです。ただし、夕方、雷雨があるかもしれません」
　このようなシステム発話を出力する。

　このようにユーザ発話の音声認識を行いユーザとの会話を実現する装置は、エージェント機器、あるいはスマートスピーカー等と呼ばれ、昨今、利用が増大している。

　エージェント機器の機能も、日々、進化しており、様々な処理を行うことが可能となっている。例えば、ユーザが、「明日、８時にｘｘさんに写真を送って」と発話すれば、この発話に従った通り、ｘｘさん宛のメールに写真を添付して明日の８時に送信する処理が実行される。また、ユーザが「写真を撮影して」と発話すると、写真を撮影して装置に接続されたサーバに保存するといった処理を行う。

　このエージェント機器の問題点として、例えば、ユーザがエージェント機器ではなく家族に向けた発話に対して機器が処理を実行してしまうといった誤動作がある。このような誤動作を防止するための代表的な構成として起動ワードを用いる構成がある。すなわち起動ワードを最初に発話し、その後の発話のみを受け付ける構成である。しかし、いちいち起動ワードを発話するのが面倒であるという不満も多い。

　しかし、起動ワードを用いない設定とした場合、例えば、ユーザが家族に向けて「写真」と発話した場合でも、機器が勝手に写真を撮影してサーバに送信し、いつのまにか公開されてしまうといったプライバシーの漏えいにもなりかねない問題が発生する可能性がある。

　なお、プライバシー情報の外部漏えいを防止する構成を開示した従来技術として、例えば特許文献１（特開２００５－９９９４４号公報）がある。この文献は、プライバシー情報に対して、外部公開の条件情報を対応付けて携帯端末の記憶部に格納し、条件を満足するか否かを判定した上で外部公開の実行または停止を行う構成を開示している。

　しかし、この方法はユーザが各プライバシー情報について公開条件を逐次、設定する処理が必要となり、エージェント機器のように、次から次と新しい情報が入力されるような構成では、ユーザが各情報に逐次、条件を設定することは大きな負担であり、現実的な解決策として利用することは難しい。

特開２００５－９９９４４号公報

　本開示は、例えば、上記問題点に鑑みてなされたものであり、ユーザのプライバシー情報の漏えい等の問題が発生する可能性を低減した情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供することを目的とする。

　また、本開示は、エージェント機器の実行する処理のリスクに応じて処理態様を変更することで、誤った処理が行われる可能性を低減した情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供することを目的とする。

　本開示の第１の側面は、
　ユーザ発話が予め登録された限定発話であるか否かを判定する限定発話判定部と、
　ユーザ発話が限定発話でないと判定された場合、ユーザ発話に対応する処理のリスクを判定するリスク判定部と、
　ユーザ発話に対応する処理のリスクが低リスクでない場合、ユーザに予め登録された限定発話を行うように促すガイドを出力する処理実行部を有する情報処理装置にある。

　さらに、本開示の第２の側面は、
　ユーザ端末と、データ処理サーバを有する情報処理システムであり、
　前記ユーザ端末は、
　ユーザ発話を入力する音声入力部と、
　前記データ処理サーバの生成したシステム発話を出力する音声出力部を有し、
　前記データ処理サーバは、
　ユーザ発話が予め登録された限定発話であるか否かを判定する限定発話判定部と、
　ユーザ発話が限定発話でないと判定された場合、ユーザ発話に対応する処理のリスクを判定するリスク判定部と、
　ユーザ発話に対応する処理のリスクが低リスクでない場合、ユーザに予め登録された限定発話を行うように促すガイドを前記ユーザ端末に出力する情報処理システムにある。

　さらに、本開示の第３の側面は、
　情報処理装置において実行する情報処理方法であり、
　限定発話判定部が、ユーザ発話が予め登録された限定発話であるか否かを判定する限定発話判定ステップと、
　リスク判定部が、ユーザ発話が限定発話でないと判定された場合、ユーザ発話に対応する処理のリスクを判定するリスク判定ステップと、
　処理実行部が、ユーザ発話に対応する処理のリスクが低リスクでない場合、ユーザに予め登録された限定発話を行うように促すガイドを出力する処理実行ステップを実行する情報処理方法にある。

　さらに、本開示の第４の側面は、
　ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
　前記ユーザ端末は、
　音声入力部を介してユーザ発話を入力して、前記データ処理サーバに送信し、
　前記データ処理サーバは、
　ユーザ発話が予め登録された限定発話であるか否かを判定する限定発話判定処理と、
　ユーザ発話が限定発話でないと判定された場合、ユーザ発話に対応する処理のリスクを判定するリスク判定処理と、
　ユーザ発話に対応する処理のリスクが低リスクでない場合、ユーザに予め登録された限定発話を行うように促すガイドを前記ユーザ端末に出力する処理を実行する情報処理方法にある。

　さらに、本開示の第５の側面は、
　情報処理装置において情報処理を実行させるプログラムであり、
　限定発話判定部に、ユーザ発話が予め登録された限定発話であるか否かを判定させる限定発話判定ステップと、
　リスク判定部に、ユーザ発話が限定発話でないと判定された場合、ユーザ発話に対応する処理のリスクを判定させるリスク判定ステップと、
　処理実行部に、ユーザ発話に対応する処理のリスクが低リスクでない場合、ユーザに予め登録された限定発話を行うように促すガイドを出力させる処理実行ステップを実行させるプログラムにある。

　なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。

　本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　本開示の一実施例の構成によれば、ユーザ発話による処理リスクを考慮した処理制御や、発話ガイドの表示を行うことで誤動作を低減する構成が実現される。
　具体的には、例えば、ユーザ発話が予め登録された限定発話であるか否かを判定する限定発話判定部と、ユーザ発話が限定発話でないと判定された場合、ユーザ発話に対応する処理のリスクを判定するリスク判定部と、ユーザ発話に対応する処理のリスクが低リスクでない場合、ユーザに予め登録された限定発話を行うように促すガイドを出力する処理実行部を有する。処理実行部は低リスクでない場合、リスクの説明情報を含むアラートを出力する。また、ユーザ発話が限定発話である場合、ユーザ発話の意味解析結果を取得することなくユーザ発話に対応する処理を実行する。
　本構成により、ユーザ発話による処理リスクを考慮した処理制御や、発話ガイドの表示を行うことで誤動作を低減する構成が実現される。
　なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

ユーザ発話に対する応答を行う情報処理装置の具体的な処理例について説明する図である。情報処理装置の構成例と利用例について説明する図である。エージェント機器の問題点について説明する図である。情報処理装置の構成例について説明する図である。限定発話情報データベースの格納データの例について説明する図である。リスク判定情報データベースの格納データの例について説明する図である。本開示の情報処理装置の実行する処理の具体例について説明する図である。本開示の情報処理装置の実行する処理の具体例について説明する図である。本開示の情報処理装置の実行する処理の具体例について説明する図である。本開示の情報処理装置の実行する処理の具体例について説明する図である。本開示の情報処理装置の実行する処理のシーケンスについて説明するフローチャートを示す図である。本開示の情報処理装置の実行する処理のシーケンスについて説明するフローチャートを示す図である。本開示の情報処理装置の実行する処理のシーケンスについて説明するフローチャートを示す図である。本開示の情報処理装置の実行する処理のシーケンスについて説明するフローチャートを示す図である。限定発話情報データベースの格納データの例について説明する図である。限定発話情報データベースの格納データの例について説明する図である。情報処理システムの構成例について説明する図である。情報処理装置のハードウェア構成例について説明する図である。

　以下、図面を参照しながら本開示の情報処理装置、情報処理システム、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
　１．情報処理装置の実行する処理の概要について
　２．音声認識装置（エージェント機器）の問題点について
　３．情報処理装置の構成例について
　４．情報処理装置の実行する処理の具体例について
　５．情報処理装置の実行する処理のシーケンスについて
　６．学習処理実行部の実行する学習処理について
　７．情報処理装置の実行する処理、機能のその他の例について
　８．情報処理装置、および情報処理システムの構成例について
　９．情報処理装置のハードウェア構成例について
　１０．本開示の構成のまとめ

　　［１．情報処理装置の実行する処理の概要について］
　まず、図１以下を参照して、本開示の情報処理装置の実行する処理の概要についてについて説明する。

　図１は、ユーザ１の発するユーザ発話を認識して応答を行う情報処理装置１０の一処理例を示す図である。
　情報処理装置１０は、ユーザの発話、例えば、
　ユーザ発話＝「大阪の明日、午後の天気を教えて」
　このユーザ発話の音声認識処理を実行する。

　さらに、情報処理装置１０は、ユーザ発話の音声認識結果に基づく処理を実行する。
　図１に示す例では、ユーザ発話＝「大阪の明日、午後の天気を教えて」に応答するためのデータを取得し、取得データに基づいて応答を生成して生成した応答を、スピーカー１４を介して出力する。
　図１に示す例では、情報処理装置１０は、以下のシステム応答を行っている。
　システム応答＝「大阪の明日、午後の天気は晴れですが、夕方、にわか雨がある可能性があります。」
　情報処理装置１０は、音声合成処理（ＴＴＳ：Ｔｅｘｔ　Ｔｏ　Ｓｐｅｅｃｈ）を実行して上記のシステム応答を生成して出力する。

　情報処理装置１０は、装置内の記憶部から取得した知識データ、またはネットワークを介して取得した知識データを利用して応答を生成して出力する。
　図１に示す情報処理装置１０は、カメラ１１、マイク１２、表示部１３、スピーカー１４を有しており、音声入出力と画像入出力が可能な構成を有する。

　図１に示す情報処理装置１０は、例えばスマートスピーカーあるいはエージェント機器と呼ばれる。
　本開示の情報処理装置１０は、図２に示すように、エージェント機器１０ａに限らず、スマホ１０ｂやＰＣ１０ｃ等のような様々な装置形態とすることが可能である。

　情報処理装置１０は、ユーザ１の発話を認識して、ユーザ発話に基づく応答を行う他、例えば、ユーザ発話に応じて図２に示すテレビ、エアコン等の外部機器３０の制御も実行する。
　例えばユーザ発話が「テレビのチャンネルを１に変えて」、あるいは「エアコンの設定温度を２０度にして」といった要求である場合、情報処理装置１０は、このユーザ発話の音声認識結果に基づいて、外部機器３０に対して制御信号（Ｗｉ－Ｆｉ、赤外光など）を出力して、ユーザ発話に従った制御を実行する。

　なお、情報処理装置１０は、ネットワークを介してサーバ２０と接続され、サーバ２０から、ユーザ発話に対する応答を生成するために必要となる情報を取得することが可能である。また、音声認識処理や意味解析処理をサーバに行わせる構成としてもよい。

　　［２．音声認識装置（エージェント機器）の問題点について］
　次に、本開示の情報処理装置１０が解決しようとする問題点、すなわち従来の音声認識装置（エージェント機器）の問題点について説明する。
　エージェント機器の問題点として、例えば、ユーザがエージェント機器ではなく家族に向けた発話に対して機器が処理を実行してしまうといった誤動作がある。図３を参照して、具体例について説明する。

　図３には、情報処理装置１０と、その前で会話をしているユーザａ、ユーザｂを示している。
　ユーザａとユーザｂは、情報処理装置１０に対する発話を行っておらず、ユーザａ，ｂ間で会話をしている。
　ステップＳ１～Ｓ２において、ユーザａとユーザｂが以下の対話を行う。
　ユーザａ発話＝ほんと難しいね
　ユーザｂ発話＝写真撮影？

　このユーザ間の対話は、ユーザａが「難しい」といったのに対して、何が難しいのかを確認するために、ユーザｂが「写真撮影が難しいの？」という意味で、「写真撮影？」と発話したものである。
　このユーザｂの発話が情報処理装置１０に入力されると、情報処理装置１０は、入力発話の音声認識と発話意味解析を実行して、その解析結果として、ユーザｂが写真撮影を要求していると判断とする。

　この判断の結果、ステップＳ３で、写真撮影を行ってしまう。
　この撮影写真は、例えば、情報処理装置１０に接続されたサーバに自動的にアップロードされ、公開されてしまうといった事態も起こり得る。
　本開示の情報処理装置は、例えばこのような問題が発生することを防止、または低減することを可能としたものである。

　　［３．情報処理装置の構成例について］
　次に、図４を参照して、情報処理装置の具体的な構成例について説明する。
　図４は、ユーザ発話を認識して応答を行う情報処理装置１０の一構成例を示す図である。

　図４に示すように、情報処理装置１０は、入力部１１０、出力部１２０、データ処理部１５０を有する。
　なお、データ処理部１５０は、情報処理装置１０内に構成することも可能であるが、情報処理装置１０内に構成せず、外部サーバのデータ処理部を利用してもよい。サーバを利用した構成の場合、情報処理装置１０は、入力部１１０から入力した入力データを、ネットワークを介してサーバに送信し、サーバのデータ処理部１５０の処理結果を受信して、出力部１２０を介して出力する。

　次に、図４に示す情報処理装置１０の構成要素について説明する。
　入力部１１０は、音声入力部（マイク）１１１を有する。
　出力部１２０は、音声出力部（スピーカー）１２１、画像出力部（表示部）１２２を有する。
　情報処理装置１０は、最低限、これらの構成要素を有する。

　音声入力部（マイク）１１１は、図１に示す情報処理装置１０のマイク１２に対応する。なお、入力部１１０は、さらに図１に示す情報処理装置１０のカメラ１１に相当する画像入力部を備える構成としてもよい。本開示の処理では必須構成ではないので図４では省略している。

　音声出力部（スピーカー）１２１は、図１に示す情報処理装置１０のスピーカー１４に対応する。
　画像出力部（表示部）１２２は、図１に示す情報処理装置１０の表示部１３に対応する。
　なお、画像出力部（表示部）１２２は、例えば、プロジェクタや、液晶表示部等のディスプレイによって構成することが可能であり、また外部装置のテレビの表示部を利用した構成とすることも可能である。

　データ処理部１５０は、前述したように情報処理装置１０、または情報処理装置１０と通信可能なサーバのいずれかに構成される。
　データ処理部１５０は、入力データ解析部１６０、処理制御部１７０、出力制御部１８０を有する。

　入力データ解析部１６０は、音声認識部１６１、発話意味解析部１６２を有する。
　ユーザの発話音声は音声入力部１１１に入力される。
　音声入力部（マイク）１１１は、入力したユーザ発話音声を音声認識部１６１に入力する。
　音声認識部１６１は、例えばＡＳＲ（Ａｕｔｏｍａｔｉｃ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ）機能を有し、音声データを複数の単語から構成されるテキストデータに変換する。
　音声認識部１６１において生成されたテキストデータは、発話意味解析部１６２に入力される。

　発話意味解析部１６２は、テキストに含まれるユーザの意図候補を選択して出力する。
　発話意味解析部１６２は、例えば、ＮＬＵ（Ｎａｔｕｒａｌ　Ｌａｎｇｕａｇｅ　Ｕｎｄｅｒｓｔａｎｄｉｎｇ）等の自然言語理解機能を有し、テキストデータから、ユーザ発話の意図（インテント：Ｉｎｔｅｎｔ）や、発話に含まれる意味のある要素（有意要素）である実体情報（エンティティ：Ｅｎｔｉｔｙ）を推定する。

　ユーザ発話から、意図（エンティティ）と、実体情報（エンティティ）を正確に推定、取得することができれば、情報処理装置１０は、ユーザ発話に対する正確な処理を行うことができる。

　音声認識部１６１において生成されたテキストデータや、発話意味解析部１６２において解析されたユーザ発話の意図（インテント）と実体情報（エンティティ）は、処理制御部１７０に入力される。

　処理制御部１７０は、限定（Ｌｉｍｉｔｅｄ）発話判定部１７１、リスク判定部１７２、処理実行部１７３、学習処理実行部１７４、限定発話情報ＤＢ１７５、リスク判定情報ＤＢ１７６、アプリ／応答／アラート／ガイド情報ＤＢ１７７を有する。

　限定（Ｌｉｍｉｔｅｄ）発話判定部１７１は、音声認識部１６１において生成されたテキストデータを入力して、ユーザ発話が、予め登録された限定（Ｌｉｍｉｔｅｄ）発話であるか否かを判定する。具体的には、ユーザ発話が、限定発話情報ＤＢ１７５に登録されている発話であるか否かを判定する。

　限定発話情報ＤＢ１７５の登録データの例を図５に示す。
　限定発話情報ＤＢ１７５には、予め複数の限定（Ｌｉｍｉｔｅｄ）発話が登録されている。図５に示すように、ユーザ発話に対応するテキストデータと、限定発話であることを示すタグ（Ｌｉｍｉｔｅｄ）が対応付けて登録されている。

　図５に示すように、限定発話情報ＤＢ１７５には以下のようなデータが登録されている。
　（１）写真撮影して＝Ｌｉｍｉｔｅｄ（＝限定発話）、
　（２）メール送信して＝Ｌｉｍｉｔｅｄ（＝限定発話）、
　（３）予定表見せて＝Ｌｉｍｉｔｅｄ（＝限定発話）、
　（４）天気予報教えて＝Ｌｉｍｉｔｅｄ（＝限定発話）、
　（５）明かりをつけて＝Ｌｉｍｉｔｅｄ（＝限定発話）、
　例えば、このようなデータが限定発話情報として登録されている。

　限定（Ｌｉｍｉｔｅｄ）発話判定部１７１は、音声認識部１６１において生成されたテキストデータと、限定発話情報ＤＢ１７５に登録されたテキストデータが一致するか否かを判定する。一致した場合は、ユーザ発話が限定（Ｌｉｍｉｔｅｄ）発話であると判定し、この判定に基づいて処理実行部１７３において、ユーザ発話に対応する処理が実行される。
　この場合、入力データ解析部１６０の発話意味解析部１６２における発話意味解析処理は省略される。

　ユーザ発話が限定発話情報ＤＢ１７５に登録された限定（Ｌｉｍｉｔｅｄ）発話である場合、その発話対応の実行すべき処理（アプリ等）は予め対応付けられている。例えば処理実行部１７３が、処理実行に際して参照、利用するアプリ／応答／アラート／ガイド情報ＤＢ１７７には、限定発話と実行すべき処理（アプリ指定情報等）との対応データが格納されている。

　限定（Ｌｉｍｉｔｅｄ）発話判定部１７１が、ユーザ発話を限定（Ｌｉｍｉｔｅｄ）発話であると判定した場合、この限定（Ｌｉｍｉｔｅｄ）発話情報は処理実行部１７３に入力される。処理実行部１７３は、アプリ／応答／アラート／ガイド情報ＤＢ１７７の登録データを検索して、入力した限定（Ｌｉｍｉｔｅｄ）発話に対応付けられた処理を取得して実行する。
　具体的には、例えば、ユーザ発話が、図５に示す限定発話情報ＤＢ１７５の登録データであるエントリ（１）の「写真撮影して」である場合、処理実行部１７３は、写真撮影アプリを起動して写真撮影を実行する。

　このように、ユーザ発話が、限定発話情報ＤＢ１７５に登録された限定（Ｌｉｍｉｔｅｄ）発話である場合には、ユーザ発話の発話意味解析を行うことなく音声認識結果のみを用いて、即座にユーザ発話に対応する処理が実行される。従って、処理開始までの時間が大幅に短縮され、応答性に優れた処理が可能となる。

　一方、限定（Ｌｉｍｉｔｅｄ）発話判定部１７１が、音声認識部１６１から入力するテキストデータと、限定発話情報ＤＢ１７５に登録されたテキストデータが一致しないと判定した場合、限定（Ｌｉｍｉｔｅｄ）発話判定部１７１は、ユーザ発話が非限定（Ｕｎｌｉｍｉｔｅｄ）発話であると判定する。この判定情報はリスク判定部１７２に入力され、リスク判定部１７２によるリスク判定処理が開始される。

　リスク判定部１７２は、限定（Ｌｉｍｉｔｅｄ）発話判定部１７１からユーザ発話が非限定（Ｕｎｌｉｍｉｔｅｄ）発話であるとの判定結果を入力すると、入力データ解析部１６０の発話意味解析部１６２からユーザ発話の意味解析結果を入力する。

　リスク判定部１７２は、入力したユーザ発話の意味解析結果に基づいて、ユーザ発話の意図を確認し、その意図に従った処理のリスクの度合いを判定する。このリスク判定には、リスク判定情報ＤＢ１７５に格納された情報を利用する。

　リスク判定情報ＤＢ１７５に格納されたデータの一例を図６に示す。リスク判定情報ＤＢ１７５には、情報処理装置１０において実行される様々な処理のリスクレベルが登録されている。リスクレベルは例えば３段階であり、低リスク、中リスク、高リスクのいずれかが、各処理に対応付けられて登録されている。
　なお、リスクレベルは３段階に限らず、例えば０～１００のレベル値等の設定など、様々な設定が可能である。

　リスク判定情報ＤＢ１７５には、例えば図６に示すように、
　（１１）写真を撮影する＝高リスク
　（１２）写真を外部（サーバ）に送信＝高リスク
　（１３）会話をメッセージ送信＝高リスク
　（１４）大音量の音楽再生＝高リスク
　　：
　（２１）予定入力＝中リスク
　（２２）音楽再生＝中リスク
　　：
　（３１）天気情報の出力＝低リスク
　（３２）写真スライドショーの出力＝低リスク
　リスク判定情報ＤＢ１７５には、例えばこのように、情報処理装置１０において実行される様々な処理のリスクレベルが登録されている。

　リスク判定部１７２は、発話意味解析部１６２からユーザ発話の意味解析結果を入力して、ユーザ発話の意図に従った処理のリスクレベルをリスク判定情報ＤＢ１７５の登録データに基づいて判定する。

　ユーザ発話の意図に従った処理のリスクレベルが低レベル（低リスク）である場合には、処理実行部１７３にユーザ発話の意図に従った処理を実行させる。
　一方、ユーザ発話の意図に従った処理のリスクレベルが中レベル（中リスク）や高レベル（高リスク）である場合には、処理実行部１７３にユーザ発話の意図に従った処理を実行させることなく、例えばアラート（警告）の出力処理、あるいはユーザに限定発話に一致する再発話を促すガイド情報の表示、あるいはユーザ発話に対応する処理に関連する予備的な低リスクレベルの処理等を実行する。これらの処理の具体例については後述する。

　処理実行部１７３は、ユーザ発話に従った処理や、上述したアラート出力、ガイド情報出力等の処理を実行する。
　また、上述したように、処理実行部１７３は、ユーザ発話が限定（Ｌｉｍｉｔｅｄ）発話である場合には、発話意味解析結果を取得することなく、音声認識結果として得られるテキストに対応付けられた処理を実行する。

　一方、ユーザ発話が非限定（Ｕｎｌｉｍｉｔｅｄ）発話である場合には、発話意味解析結果を取得し、さらにユーザ発話に対応する処理のリスクレベルに応じて以下の処理を行う。
　（ａ）ユーザ発話に対応する処理が低リスクである場合は処理を実行する。
　（ｂ）ユーザ発話に対応する処理が中リスクや高リスクである場合には、アラート（警告）の出力処理、あるいはユーザに限定発話に一致する再発話を促すガイド情報の表示、あるいはユーザ発話に対応する処理に関連する予備的な低リスクレベルの処理等を実行する。

　学習処理実行部１７４は、学習処理により、限定発話情報ＤＢ１７５の登録データの更新を行う。すなわち、例えば新たな限定（Ｌｉｍｉｔｅｄ）発話情報の登録処理等を実行する。この学習処理の詳細については後述する。

　処理実行部１７３における処理実行結果は、出力制御部１８０を介して出力される。
　出力制御部１８０は、出力音声制御部１８１、表示情報制御部１８２を有する。出力音声制御部１８１は、処理実行部の決定した処理に基づいて、ユーザに対するシステム発話を生成する。出力音声制御部１８１の生成した応答音声情報は、スピーカー等の音声出力部１２１を介して出力される。
　表示情報制御部１８２は、処理実行部１７３における処理の実行結果に基づいて、画像出力部（表示部）１２２の表示情報の生成、更新等の処理を行う。

　　［４．情報処理装置の実行する処理の具体例について］
　次に、図７以下を参照して本開示の情報処理装置１０の実行する処理の具体例について説明する。

　図７は、本開示の情報処理装置１０が実行する処理を説明する図である。図７に示すユーザ１がユーザ発話を実行する。情報処理装置１０は、このユーザ発話に応じて、図に示すステップＳ１１以下の処理を実行する。

　なお、図７に示す処理は、情報処理装置１０の記憶部に格納されたプログラムに従って実行することが可能であり、例えばプログラム実行機能を有するＣＰＵ等のプロセッサ有する制御部（データ処理部）の制御下で実行することができる。
　以下、図７に示す各ステップの処理について説明する。

　　（ステップＳ１１）
　まず、ステップＳ１１において、音声認識部１６１がユーザ発話に対する音声認識処理を実行する。
　音声認識部１６１は、例えばＡＳＲ（Ａｕｔｏｍａｔｉｃ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ）機能を有し、音声データを複数の単語から構成されるテキストデータに変換する。

　音声認識部１６１の音声認識処理結果は、発話意味解析部１６２に入力されるとともに、処理制御部１７０の限定（Ｌｉｍｉｔｅｄ）発話判定部１７１に入力される。

　　（ステップＳ１２）
　ステップＳ１２の処理は、処理制御部１７０の限定（Ｌｉｍｉｔｅｄ）発話判定部１７１の実行する処理である。
　限定（Ｌｉｍｉｔｅｄ）発話判定部１７１は、音声認識部１６１において生成されたテキストデータを入力して、ユーザ発話が、予め登録された限定（Ｌｉｍｉｔｅｄ）発話であるか否かを判定する。具体的には、ユーザ発話が、限定発話情報ＤＢ１７５に登録されている発話であるか否かを判定する。

　ユーザ発話が、限定発話情報ＤＢ１７５に登録されている限定（Ｌｉｍｉｔｅｄ）発話であると判定した場合は、ステップＳ１３に進む。
　一方、ユーザ発話が、限定発話情報ＤＢ１７５に登録されていない非限定（Ｕｎｌｉｍｉｔｅｄ）発話であると判定した場合は、ステップＳ１４に進む。

　　（ステップＳ１３）
　ステップＳ１３の処理は、ステップＳ１２において、ユーザ発話が限定発話情報ＤＢ１７５に登録されている限定（Ｌｉｍｉｔｅｄ）発話であると判定した場合に実行される。

　この場合、ステップＳ１３において、処理実行部１７３がユーザ発話に対応する処理を実行する。この場合、ユーザ発話の発話意味解析を行うことなく音声認識結果のみを用いて、即座にユーザ発話に対応する処理が実行される。従って、処理開始までの時間が大幅に短縮され、応答性に優れた処理が可能となる。

　ユーザ発話が限定発話情報ＤＢ１７５に登録されている限定（Ｌｉｍｉｔｅｄ）発話である場合の処理実行例を図８に示す。
　図８に示すユーザａは、ステップＳ２１において以下のユーザ発話を行う。
　ユーザ発話＝写真撮影して

　このユーザ発話は、先に図５を参照して説明した限定発話情報ＤＢ１７５に登録された限定（Ｌｉｍｉｔｅｄ）発話である。この場合、処理制御部１７０の限定（Ｌｉｍｉｔｅｄ）発話判定部１７１は、ユーザ発話が限定（Ｌｉｍｉｔｅｄ）発話であると判定し、処理実行部１７３が、この判定結果に基づいて、ユーザ発話対応の処理、すなわち写真撮影処理を実行する。

　　（ステップＳ１４）
　一方、ステップＳ１２において、ユーザ発話が限定発話情報ＤＢ１７５に登録されている限定（Ｌｉｍｉｔｅｄ）発話でないと判定した場合、ステップＳ１４の処理を実行する。

　ステップＳ１４は、入力データ解析部１６０の発話意味解析部１６２が実行するユーザ発話に対する意味解析処理である。例えば、ユーザ発話の意図（インテント：Ｉｎｔｅｎｔ）や、発話に含まれる意味のある要素（有意要素）である実体情報（エンティティ：Ｅｎｔｉｔｙ）を推定する。

　ユーザ発話から、意図（エンティティ）と、実体情報（エンティティ）を正確に推定、取得することができれば、情報処理装置１０は、ユーザ発話に対する正確な処理を行うことができる。
　発話意味解析部１６２の生成したユーザ発話対応の意味解析結果は、処理制御部１７０のリスク判定部１７２に入力される。

　　（ステップＳ１５）
　ステップＳ１５の処理は、リスク判定部１７２が実行するリスク判定処理である。
　リスク判定部１７２は、ユーザ発話の意味解析結果に基づいて、ユーザ発話の意図を確認し、その意図に従った処理のリスクの度合いを判定する。このリスク判定には、リスク判定情報ＤＢ１７５に格納された情報、すなわち先に図６を参照して説明したリスク判定情報ＤＢ１７５に格納された情報を利用する。

　ユーザ発話の意図に従った処理のリスクが低リスクであると判定した場合は、ステップＳ１６の処理を実行する。
　一方、ユーザ発話の意図に従った処理のリスクが中リスクまたは高リスクである場合は、ステップＳ１７の処理を実行する。

　　（ステップＳ１６）
　ステップＳ１６の処理は、ステップＳ１５において、ユーザ発話の意図に従った処理のリスクが低リスクであると判定した場合に実行される。
　ステップＳ１６では、低リスクであると判定したユーザ発話の意図に従った処理を実行する。この処理は処理実行部１７３において実行される。

　　（ステップＳ１７）
　ステップＳ１７の処理は、ステップＳ１５において、ユーザ発話の意図に従った処理のリスクが中リスクまたは高リスクであると判定した場合に実行される。
　ステップＳ１７では、中リスク、または高リスクであると判定したユーザ発話の意図に従った処理は実行せず、例えばアラート（警告）の出力処理、あるいはユーザに限定発話に一致する再発話を促すガイド情報の表示、あるいはユーザ発話に対応する処理に関連する予備的な低リスクレベルの処理等を実行する。

　図９にこのステップＳ１７の処理の具体例を示す。
　図９に示すユーザａは、ステップＳ４１において以下のユーザ発話を行っている。
　ユーザ発話＝写真撮影

　このユーザ発話は、先に図５を参照して説明した限定発話情報ＤＢ１７５に登録された限定（Ｌｉｍｉｔｅｄ）発話ではない。この場合、処理制御部１７０の限定（Ｌｉｍｉｔｅｄ）発話判定部１７１は、ユーザ発話が限定（Ｌｉｍｉｔｅｄ）発話でないと判定する。
　さらに、リスク判定部１７２が、発話意味解析部１６２からユーザ発話の意味解析結果を入力して、ユーザ発話の意図に従った処理のリスクレベルをリスク判定情報ＤＢ１７５の登録データに基づいて判定する。
　発話意味解析部１６２からは、ユーザ意図が「写真を撮影すること」であることを示す結果が入力される。
　リスク判定部１７２は、このユーザ意図に従った処理（写真の撮影）のリスクレベルをリスク判定情報ＤＢ１７５の登録データに基づいて判定する。
　図６に示すデータ例のように、写真の撮影は高リスクであると登録されている。

　この結果、ステップＳ１７において高リスクであると判定したユーザ発話の意図に従った処理は実行せず、例えばアラート（警告）の出力処理、あるいはユーザに限定発話に一致する再発話を促すガイド情報の表示、あるいはユーザ発話に対応する処理に関連する予備的な低リスクレベルの処理等を実行する。

　図９に示すステップＳ４２において情報処理装置１０が実行しているシステム発話、すなわち、
　システム発話＝撮影した写真は共有されてしまいますよ
　このシステム発話がアラートに相当する。

　また、情報処理装置の表示部には、過去に撮影済みの写真データが表示される。この写真表示処理は、ユーザ発話に対応する処理に関連する予備的な低リスクレベルの処理に相当する処理である。

　さらに、表示部には、以下のガイド情報の表示が実行される。
　ガイド＝撮影したい場合は「写真撮影して」
　このガイド表示は、ユーザが本当に写真の撮影を要求したいのであれば、予め登録された限定（Ｌｉｍｉｔｅｄ）発話、すなわち、
　限定（Ｌｉｍｉｔｅｄ）発話＝「写真撮影して」
　この限定（Ｌｉｍｉｔｅｄ）発話を行うように促すガイド表示である。

　このように、ユーザ発話の意図に従った処理が高リスクまたは中リスクであると判定した場合、ユーザ発話の意図に従った処理は実行せず、
　（ａ）アラート（警告）の出力処理、
　（ｂ）ユーザに限定発話に一致する再発話を促すガイド情報の表示、
　（ｃ）ユーザ発話に対応する処理に関連する予備的な低リスクレベルの処理、
　これらの少なくともいずれかの処理を実行する。

　　（ステップＳ１８）
　さらに、ステップＳ１８において、ステップＳ１７で表示したガイドに従ったユーザの再発話、すなわち、登録された限定（Ｌｉｍｉｔｅｄ）発話に一致する発話を入力した場合、その限定（Ｌｉｍｉｔｅｄ）発話対応の処理を実行する。

　図９に示す例では、ガイド情報として以下の情報が表示されている。
　ガイド＝撮影したい場合は「写真撮影して」
　ユーザはこのガイド情報に従って、以下のユーザ発話を実行する。
　ユーザ発話＝写真撮影して
　この状態を図１０に示す。

　図１０に示すように、ユーザａはステップＳ４３において、以下のユーザ発話を実行している。
　ユーザ発話＝写真撮影して
　このユーザ発話は、先に図５を参照して説明した限定発話情報ＤＢ１７５に登録された限定（Ｌｉｍｉｔｅｄ）発話である。この場合、処理制御部１７０の限定（Ｌｉｍｉｔｅｄ）発話判定部１７１は、ユーザ発話が限定（Ｌｉｍｉｔｅｄ）発話であると判定し、処理実行部１７３が、この判定結果に基づいて、ユーザ発話対応の処理、すなわち写真撮影処理を実行する。

　このように、本開示の情報処理装置１０は、ユーザ発話に基づく処理のリスクが中リスクまたは高リスクである場合には、そのユーザ発話の意味解析結果に基づくユーザ意図に従った処理を実行することなく、警告（アラート）出力や、限定（Ｌｉｍｉｔｅｄ）発話を促すガイド情報を出力する。
　これらの処理により、例えばユーザの意図しないプライバシーの漏えい等の問題を発生させることのない安全な処理が実現される。

　　［５．情報処理装置の実行する処理のシーケンスについて］
　次に、本開示の情報処理装置１０の実行する処理のシーケンスについて、図１１以下に示すフローチャートを参照して説明する。

　なお、図１１に示すフローチャートに従った処理は、情報処理装置１０の記憶部に格納されたプログラムに従って実行することが可能であり、例えばプログラム実行機能を有するＣＰＵ等のプロセッサ有する制御部（データ処理部）の制御下で実行することができる。
　以下、図１１に示すフローの各ステップの処理について説明する。

　　（ステップＳ１０１）
　まず、ステップＳ１０１において、情報処理装置１０は、ユーザ発話検出処理を実行する。
　この処理は、図４に示す入力データ解析部１６０の音声認識部１６１において実行される。

　　（ステップＳ１０２）
　次に、ステップＳ１０２において、音声認識部１６１は、ユーザ発話の検出の有無を判定し、検出された場合はステップＳ１０３に進む。検出されない場合は、ステップＳ１０１に戻り、ユーザ発話検出処理を継続する。

　　（ステップＳ１０３）
　ステップＳ１０２において、ユーザ発話が検出された場合はステップＳ１０３に進む。ステップＳ１０３において、ユーザ発話に対する音声認識処理を実行する。

　この処理は、図４に示す入力データ解析部１６０の音声認識部１６１において実行される。
　音声認識部１６１において実行されたユーザ発話の音声認識結果は、処理制御部１７０のの限定（Ｌｉｍｉｔｅｄ）発話判定部１７１に入力される。

　　（ステップＳ１０４）
　ステップＳ１０４の処理は、処理制御部１７０の限定（Ｌｉｍｉｔｅｄ）発話判定部１７１の実行する処理である。
　限定（Ｌｉｍｉｔｅｄ）発話判定部１７１は、音声認識部１６１において生成されたテキストデータを入力して、ユーザ発話が、予め登録された限定（Ｌｉｍｉｔｅｄ）発話であるか否かを判定する。具体的には、ユーザ発話が、限定発話情報ＤＢ１７５に登録されている発話であるか否かを判定する。

　ユーザ発話が、限定発話情報ＤＢ１７５に登録されている限定（Ｌｉｍｉｔｅｄ）発話であると判定した場合は、ステップＳ１０５に進む。
　一方、ユーザ発話が、限定発話情報ＤＢ１７５に登録されていない非限定（Ｕｎｌｉｍｉｔｅｄ）発話であると判定した場合は、ステップＳ１０６に進む。

　　（ステップＳ１０５）
　ステップＳ１０４において、ユーザ発話が限定発話情報ＤＢ１７５に登録されている限定（Ｌｉｍｉｔｅｄ）発話であると判定した場合、ステップＳ１０５において、ユーザ発話に対応する処理を実行する。

　処理実行部１７３は、音声認識結果であるユーザ発話テキストに対応づけられた処理を実行する。なお、限定（Ｌｉｍｉｔｅｄ）発話に一致するテキストに対して実行すべき処理は、アプリ／応答／アラート／ガイド情報ＤＢ１７７に格納されている。

　　（ステップＳ１０６）
　一方、テップＳ１０４において、ユーザ発話が限定発話情報ＤＢ１７５に登録されている限定（Ｌｉｍｉｔｅｄ）発話でないと判定した場合、ステップＳ１０６において、ユーザ発話に対する意味解析処理を実行する。

　この処理は、図４に示す入力データ解析部１６０の発話意味解析部１６２において実行される。発話意味解析部１６２は、例えば、ユーザ発話の意図（インテント：Ｉｎｔｅｎｔ）や、発話に含まれる意味のある要素（有意要素）である実体情報（エンティティ：Ｅｎｔｉｔｙ）を推定する。
　発話意味解析部１６２の生成したユーザ発話対応の意味解析結果は、処理制御部１７０のリスク判定部１７２に入力される。

　　（ステップＳ１０７）
　次に、ステップＳ１０７においてリスク判定処理を実行する。
　この処理は、処理制御部１７０のリスク判定部１７２が実行する。リスク判定部１７２は、ユーザ発話の意味解析結果に基づいて、ユーザ発話の意図を確認し、その意図に従った処理のリスクの度合いを判定する。このリスク判定には、リスク判定情報ＤＢ１７５に格納された情報、すなわち先に図６を参照して説明したリスク判定情報ＤＢ１７５に格納された情報を利用する。

　　（ステップＳ１０８）
　ステップＳ１０８はステップＳ１０７におけるリスク判定結果に基づく分岐処理である。
　ステップＳ１０７におけるユーザ発話の意図に対応する処理のリスク判定結果として、処理が低リスクであると判定した場合は、ステップＳ１０５に進み、低リスクであると判定した処理を実行する。

　一方、ステップＳ１０７におけるユーザ発話の意図に対応する処理のリスク判定結果として、処理が高リスクであると判定した場合は、ステップＳ２０１に進む。
　さらに、ステップＳ１０７におけるユーザ発話の意図に対応する処理のリスク判定結果として、処理が中リスクであると判定した場合は、ステップＳ２２１に進む。

　次に、ステップＳ１０８において、ユーザ発話の意図に対応する処理が高リスクであると判定した場合の処理について、図１２に示すフローチャートを参照して説明する。

　　（ステップＳ２０１）
　リスク判定部１７２がユーザ発話の意図に対応する処理が高リスクであると判定した場合、まず、ステップＳ２０１において、処理実行部１７３が、アラート（警告）の出力処理を実行する。
　これは、ユーザ発話に基づく処理を実行した場合のリスクについての説明や警告をユーザに知らせるためのものである。
　アラート出力は音声、または画像の出力によって実行される。

　　（ステップＳ２０２）
　次に、処理実行部１７３は、ステップＳ２０２において、限定（Ｌｉｍｉｔｅｄ）発話に関するガイド情報を出力する。

　これは、先に図９を参照して説明した例における下のガイド情報表示処理に対応する処理である。
　ガイド＝撮影したい場合は「写真撮影して」
　このガイド表示は、ユーザが本当に写真の撮影を要求したいのであれば、予め登録された限定（Ｌｉｍｉｔｅｄ）発話、すなわち、
　限定（Ｌｉｍｉｔｅｄ）発話＝「写真撮影して」
　この限定（Ｌｉｍｉｔｅｄ）発話を行うように促すガイド表示である。

　このように、ステップＳ２０２では、ユーザの意図を再確認するため、ユーザに限定（Ｌｉｍｉｔｅｄ）発話を再発話するかしないかを決定させるための案内情報を提供する。

　　（ステップＳ２０３）
　ステップＳ２０３は、ステップＳ２０２において実行したガイド出力に応じて新たなユーザ発話を入力したか否かを判定する。
　新たなユーザ発話が入力されない場合は、処理を終了する。
　一方、新たなユーザ発話が入力された場合は、ステップＳ２０４に進む。

　　（ステップＳ２０４）
　ステップＳ２０４では、新たに入力したユーザ発話の音声認識処理を実行する。
　この処理は、図４に示す入力データ解析部１６０の音声認識部１６１において実行される。
　音声認識部１６１において実行されたユーザ発話の音声認識結果は、処理制御部１７０のの限定（Ｌｉｍｉｔｅｄ）発話判定部１７１に入力される。

　　（ステップＳ２０５）
　ステップＳ２０５の処理は、処理制御部１７０の限定（Ｌｉｍｉｔｅｄ）発話判定部１７１の実行する処理である。
　限定（Ｌｉｍｉｔｅｄ）発話判定部１７１は、音声認識部１６１において生成されたテキストデータを入力して、ユーザ発話が、予め登録された限定（Ｌｉｍｉｔｅｄ）発話であるか否かを判定する。具体的には、ユーザ発話が、限定発話情報ＤＢ１７５に登録されている発話であるか否かを判定する。

　ユーザ発話が、限定発話情報ＤＢ１７５に登録されている限定（Ｌｉｍｉｔｅｄ）発話であると判定した場合は、ステップＳ２０６に進む。
　一方、ユーザ発話が、限定発話情報ＤＢ１７５に登録されていない非限定（Ｕｎｌｉｍｉｔｅｄ）発話であると判定した場合は、ステップＳ２０７に進む。

　　（ステップＳ２０６）
　ステップＳ２０５において、ユーザ発話が限定発話情報ＤＢ１７５に登録されている限定（Ｌｉｍｉｔｅｄ）発話であると判定した場合、ステップＳ２０６において、ユーザ発話に対応する処理を実行する。

　　（ステップＳ２０７）
　一方、テップＳ２０５において、ユーザ発話が限定発話情報ＤＢ１７５に登録されている限定（Ｌｉｍｉｔｅｄ）発話でないと判定した場合、ステップＳ２０７において、ユーザ発話に対する意味解析処理を実行する。
　その後、図１１に示すフローのステップＳ１０７に戻り、リスク判定処理以下の処理を実行する。

　このフローに従った処理を行うことで、ユーザの意図しない高リスク処理が誤って実行されることが防止される。
　高リスク処理を実行するためには、ユーザは限定（Ｌｉｍｉｔｅｄ）発話を行うことが必要となる。

　次に、図１１に示すフローのステップＳ１０８において、ユーザ発話の意図に対応する処理が中リスクであると判定した場合の処理について、図１３に示すフローチャートを参照して説明する。

　図１３に示すフローのステップＳ２２１～Ｓ２２７の処理は、図１２を参照して説明した高リスク対応のフローのステップＳ２０１～Ｓ２０７の処理とほぼ同様の処理となる。
　ステップＳ２２１の処理とステップＳ２０１の処理が異なるのみであり、ステップＳ２２２～Ｓ２２７の処理とステップＳ２０２～Ｓ２０７の処理は同じ処理である。
　異なる処理であるステップＳ２２１の処理について説明する。

　　（ステップＳ２２１）
　リスク判定部１７２がユーザ発話の意図に対応する処理が中リスクであると判定した場合、まず、ステップＳ２２１において、処理実行部１７３が、ユーザ発話に対応する処理に関連する低リスクな予備的処理を実行する。

　これは、例えば先に図９を参照して説明した過去に撮影済みの写真を、情報処理装置１０の表示部に表示する処理等である。
　写真情報の表示は低リスク処理であり、ユーザ発話＝写真撮影に関連する処理である。この処理に併せて、ステップＳ２２２において、限定（Ｌｉｍｉｔｅｄ）発話に関するガイド情報を出力する。

　この表示によって、ユーザは、本当に写真を撮影したい場合は、ガイド情報に従って限定（Ｌｉｍｉｔｅｄ）発話を実行すればよい。
　一方、ユーザが写真を撮影したいという意図がない場合は、ガイド情報に従った限定（Ｌｉｍｉｔｅｄ）発話を実行しなければよい。

　なお、ユーザ発話対応処理が高リスクである場合に実行する図１２を参照して説明したフローでは、図１３に示すステップＳ２２１の処理、すなわち、ユーザ発話対応処理に関連する低リスク処理を行わない設定としているが、ユーザ発話対応処理が高リスクである場合にも、ユーザ発話対応処理に関連する低リスク処理を実行する構成としてもよい。

　また、ユーザ発話対応処理が中リスクである場合にも、高リスクの処理において実行したアラート出力を実行する構成としてもよい。

　　［６．学習処理実行部の実行する学習処理について］
　次に、図４に示す情報処理装置１０の処理制御部１７０内に構成される学習処理実行部１７４の実行する学習処理について説明する。

　学習処理実行部１７４は、学習処理により、限定発話情報ＤＢ１７５の登録データの更新を行う。すなわち、例えば新たな限定（Ｌｉｍｉｔｅｄ）発話情報の登録処理等を実行する。

　図１４は、学習処理実行部１７４が実行する学習処理による限定発話情報ＤＢ１７５の登録データの更新処理のシーケンスを説明するフローチャートである。
　図１４に示すフローの各ステップの処理について説明する。

　　（ステップＳ３０１）
　学習処理実行部１７４は、ステップＳ３０１において、ガイド情報に従ったユーザ再発話が入力され、その再発話に従った処理が実行されたか否かを判定する。
　実行された場合はステップＳ３０２に進み、実行されなかった場合は処理を終了する。

　なお、ガイド情報に従ったユーザ再発話は、限定発話情報ＤＢ１７５に登録された限定（Ｌｉｍｉｔｅｄ）発話である。
　ガイド情報が出力されたということは、ユーザは、ガイド情報の出力前に限定発話情報ＤＢ１７５に登録されていない非限定（Ｕｎｌｉｍｉｔｅｄ）発話を行っていることを意味する。

　ステップＳ３０１において、ガイド情報に従ったユーザ再発話が入力され、その再発話に従った処理が実行されたと判定された場合には、以下の推定が成立する。
　すなわち、ユーザは、先行して実行した非限定（Ｕｎｌｉｍｉｔｅｄ）発話を、限定発話情報ＤＢ１７５に登録された限定（Ｌｉｍｉｔｅｄ）発話と同じ意図をもって発話したと推定される。

　　（ステップＳ３０２）
　学習処理実行部１７４は、上記推定に従い、ステップＳ３０２において、ガイド情報の出力前にユーザが実行した非限定（Ｕｎｌｉｍｉｔｅｄ）発話を、新たな限定（Ｌｉｍｉｔｅｄ）発話として、新たに限定発話情報ＤＢ１７５に登録するデータベース更新処理を実行する。

　これは、ガイド情報の出力前にユーザが実行した非限定（Ｕｎｌｉｍｉｔｅｄ）発話が、限定発話情報ＤＢ１７５に登録された限定（Ｌｉｍｉｔｅｄ）発話と同じ意図をもってユーザが発話したとの判断に基づく処理である。

　このような学習に基づいて、限定発話情報ＤＢ１７５の登録データは順次、更新される。
　例えば、図１５に示すように、新たな限定（Ｌｉｍｉｔｅｄ）発話データが限定発話情報ＤＢ１７５の登録データとして追加登録されることになる。

　図１５に示すように限定発話情報ＤＢ１７５の更新がなされた後は、例えばユーザが「写真撮って」と発話した場合、この発話は、限定（Ｌｉｍｉｔｅｄ）発話とみなされ、音声認識結果に基づいて即座に処理が実行されることになる。

　なお、学習処理は、例えば個人単位、あるいは家族単位の学習データとして生成して登録する構成としてもよい。
　例えばカメラで撮影された画像からユーザ識別を行い、識別されたユーザ固有の発話が確認された場合、その発話を、そのユーザ固有の限定（Ｌｉｍｉｔｅｄ）発話として登録する。
　また、例えば、家族、または性別、または年齢、またはコンテクスト等のユーザ属性によって規定される複数ユーザのグループ単位の限定発話を、限定発話情報ＤＢ１７５に登録するデータベース更新処理を実行する構成としてもよい。

　図１６にユーザ識別子を追加してユーザ対応の限定（Ｌｉｍｉｔｅｄ）発話を登録した限定発話情報ＤＢ１７５の登録データ例を示す。
　例えば、エントリ（１２），（２２）がユーザ識別を伴う学習処理によって追加された特定ユーザ対応の限定（Ｌｉｍｉｔｅｄ）発話登録データである。
　この、特定ユーザ対応の限定（Ｌｉｍｉｔｅｄ）発話登録データは、その特定ユーザからの発話である場合にのみ限定（Ｌｉｍｉｔｅｄ）発話として処理されることになる。

　　［７．情報処理装置の実行する処理、機能のその他の例について］
　以上、本開示の情報処理装置１０の実行する基本的な実施例について説明した。以下、本開示の情報処理装置１０の実行する処理、機能のその他の例について説明する。

　上述した実施例では、情報処理装置１０は、ユーザ発話、すなわち音声情報のみに対して処理を行う例として説明したが、音声以外のデータ、例えば、カメラを介して入力するユーザのジェスチャや、表示画面部に対するタップ処理、スイッチ操作などの様々な入力情報に基づいて、ユーザの意図、例えば本当に写真を撮影してほしいのか否かを確認するといった処理を行う構成としてもよい。

　また、上述した実施例において、リスクレベルは図６を参照して説明したリスク判定情報ＤＢ１７６に記録された固定的なデータとして説明したが、リスクレベルを状況に応じて変更する構成としてもよい。例えば、ユーザの処理の履歴や指示によって更新、変更可能な構成としてもよい。また、緊急時には強制的に実行したい処理もあり、このような場合は、リスク判定機能を解除する構成としてもよい。

　また、会話のコンテクストによって、動的にリスクを変化させる構成としてもよい。例えば時間帯や、ユーザの性別、年齢などの状況に応じて異なるリスク設定のデータを適用してリスク判定を行う。またユーザの声の抑揚、音圧等によって、リスク判定態様を変更する構成としてもよい。例えば、ユーザが声を張っているときにはコマンドを発声している確率が高いため、リスク判定を行わず、処理を実行するといった設定である。

　また、情報処理装置のリスク判定部１７２が実行したリスク判定結果をインジケータ等でユーザに提示する構成としてもよい。

　　［８．情報処理装置、および情報処理システムの構成例について］
　複数の実施例について説明したが、これらの実施例において説明した様々な処理機能、例えば、図４に示す情報処理装置１０の各構成要素の処理機能は、すべて一つの装置、例えばユーザの所有するエージェント機器、あるいはスマホやＰＣ等の装置内に構成することも可能であるが、その一部をサーバ等において実行する構成とすることも可能である。

　図１７にシステム構成例を示す。
　図１７（１）情報処理システム構成例１は、図４に示す情報処理装置のほぼ全ての機能を一つの装置、例えばユーザの所有するスマホやＰＣ、あるいは音声入出力と画像入出力機能を持つエージェント機器等のユーザ端末である情報処理装置４１０内に構成した例である。
　ユーザ端末に相当する情報処理装置４１０は、例えばユーザに対する応答実行時に外部アプリを利用する場合にのみ、アプリ実行サーバ４２０と通信を実行する。

　アプリ実行サーバ４２０は、例えば天気情報提供サーバ、交通情報提供サーバ、医療情報提供サーバ、観光情報提供サーバ等であり、ユーザ発話に対する応答を生成するための情報を提供可能なサーバ等によって構成される。

　一方、図１７（２）情報処理システム構成例２は、図４に示す情報処理装置の機能の一部をユーザの所有するスマホやＰＣ、エージェント機器等のユーザ端末である情報処理装置４１０内に構成し、一部を情報処理装置と通信可能なデータ処理サーバ４６０において実行する構成としたシステム例である。

　例えば、図４に示す装置中の入力部１１０、出力部１２０のみをユーザ端末側の情報処理装置４１０側に設け、その他の機能をすべてサーバ側で実行するといった構成等が可能である。

　具体的には、例えば以下のようなシステム構成が可能である。
　ユーザ端末と、データ処理サーバを有する情報処理システムであり、ユーザ端末は、ユーザ発話を入力する音声入力部と、データ処理サーバが生成したシステム発話を出力する音声出力部を有する。一方、データ処理サーバは、ユーザ発話が予め登録された限定発話であるか否かを判定する限定発話判定部と、ユーザ発話が限定発話でないと判定された場合、ユーザ発話に対応する処理のリスクを判定するリスク判定部と、ユーザ発話に対応する処理のリスクが低リスクでない場合、ユーザに予め登録された限定発話を行うように促すガイドをユーザ端末に出力する。例えばこのような構成が可能である。

　なお、ユーザ端末側の機能と、サーバ側の機能の機能分割態様は、様々な異なる設定が可能であり、また、１つの機能を双方で実行する構成も可能である。

　　［９．情報処理装置のハードウェア構成例について］
　次に、図１８を参照して、情報処理装置のハードウェア構成例について説明する。
　図１８を参照して説明するハードウェアは、先に図４を参照して説明した情報処理装置のハードウェア構成例であり、また、図１７を参照して説明したデータ処理サーバ４６０を構成する情報処理装置のハードウェア構成の一例である。

　ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）５０１は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）５０２、または記憶部５０８に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）５０３には、ＣＰＵ５０１が実行するプログラムやデータなどが記憶される。これらのＣＰＵ５０１、ＲＯＭ５０２、およびＲＡＭ５０３は、バス５０４により相互に接続されている。

　ＣＰＵ５０１はバス５０４を介して入出力インタフェース５０５に接続され、入出力インタフェース５０５には、各種スイッチ、キーボード、マウス、マイクロホン、センサーなどよりなる入力部５０６、ディスプレイ、スピーカーなどよりなる出力部５０７が接続されている。ＣＰＵ５０１は、入力部５０６から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部５０７に出力する。

　入出力インタフェース５０５に接続されている記憶部５０８は、例えばハードディスク等からなり、ＣＰＵ５０１が実行するプログラムや各種のデータを記憶する。通信部５０９は、Ｗｉ－Ｆｉ通信、ブルートゥース（登録商標）（ＢＴ）通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。

　入出力インタフェース５０５に接続されているドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア５１１を駆動し、データの記録あるいは読み取りを実行する。

　　［１０．本開示の構成のまとめ］
　以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

　なお、本明細書において開示した技術は、以下のような構成をとることができる。
　（１）　ユーザ発話が予め登録された限定発話であるか否かを判定する限定発話判定部と、
　ユーザ発話が限定発話でないと判定された場合、ユーザ発話に対応する処理のリスクを判定するリスク判定部と、
　ユーザ発話に対応する処理のリスクが低リスクでない場合、ユーザに予め登録された限定発話を行うように促すガイドを出力する処理実行部を有する情報処理装置。

　（２）　前記処理実行部は、さらに、
　ユーザ発話に対応する処理のリスクが低リスクでない場合、アラートを出力する（１）に記載の情報処理装置。

　（３）　前記アラートは、ユーザ発話に対応する処理のリスクの説明情報を含む（２）に記載の情報処理装置。

　（４）　前記処理実行部は、さらに、
　ユーザ発話に対応する処理のリスクが低リスクでない場合、ユーザ発話に対応する処理に関連する低リスク処理を実行する（１）～（３）いずれかに記載の情報処理装置。

　（５）　前記限定発話判定部が、ユーザ発話が限定発話であると判定した場合、
　前記処理実行部は、
　ユーザ発話に対応する処理を実行する（１）～（４）いずれかに記載の情報処理装置。

　（６）　前記限定発話判定部が、ユーザ発話が限定発話であると判定した場合、
　前記処理実行部は、
　ユーザ発話の意味解析結果を取得することなく、ユーザ発話に対応する処理を実行する（１）～（５）いずれかに記載の情報処理装置。

　（７）　前記情報処理装置は、さらに、
　ユーザ発話に対する音声認識を実行する音声認識部を有し、
　前記限定発話判定部は、
　前記音声認識部において生成されたテキストデータに基づいて、ユーザ発話が予め登録された限定発話であるか否かを判定する（１）～（６）いずれかに記載の情報処理装置。

　（８）　前記処理実行部は、
　前記音声認識部において生成されたテキストデータに対応付けられた処理を実行する（７）に記載の情報処理装置。

　（９）　前記情報処理装置は、さらに、
　限定発話を登録した限定発話情報データベースの更新処理を実行する学習処理実行部を有する（１）～（８）いずれかに記載の情報処理装置。

　（１０）　前記学習処理実行部は、
　前記処理実行部が出力した限定発話を促すガイドに従ってユーザが限定発話を実行した場合、
　前記ガイドの出力前のユーザの非限定発話を、新たな限定発話として前記限定発話情報データベースに登録するデータベース更新処理を実行する（９）に記載の情報処理装置。

　（１１）　前記学習処理実行部は、
　ユーザ個別の限定発話を、前記限定発話情報データベースに登録するデータベース更新処理を実行する（９）または（１０）に記載の情報処理装置。

　（１２）　前記学習処理実行部は、
　ユーザ属性によって規定される複数ユーザのグループ単位の限定発話を、前記限定発話情報データベースに登録するデータベース更新処理を実行する（９）～（１１）いずれかに記載の情報処理装置。

　（１３）　前記ユーザ属性は、家族、または性別、または年齢、またはコンテクストの少なくともいずれかのユーザ属性である（１２）に記載の情報処理装置。

　（１４）　ユーザ端末と、データ処理サーバを有する情報処理システムであり、
　前記ユーザ端末は、
　ユーザ発話を入力する音声入力部と、
　前記データ処理サーバの生成したシステム発話を出力する音声出力部を有し、
　前記データ処理サーバは、
　ユーザ発話が予め登録された限定発話であるか否かを判定する限定発話判定部と、
　ユーザ発話が限定発話でないと判定された場合、ユーザ発話に対応する処理のリスクを判定するリスク判定部と、
　ユーザ発話に対応する処理のリスクが低リスクでない場合、ユーザに予め登録された限定発話を行うように促すガイドを前記ユーザ端末に出力する情報処理システム。

　（１５）　前記データ処理サーバの前記処理実行部は、さらに、
　ユーザ発話に対応する処理のリスクが低リスクでない場合、ユーザ発話に対応する処理のリスクの説明情報を含むアラートを前記ユーザ端末に出力する（１２）に記載の情報処理システム。

　（１６）　情報処理装置において実行する情報処理方法であり、
　限定発話判定部が、ユーザ発話が予め登録された限定発話であるか否かを判定する限定発話判定ステップと、
　リスク判定部が、ユーザ発話が限定発話でないと判定された場合、ユーザ発話に対応する処理のリスクを判定するリスク判定ステップと、
　処理実行部が、ユーザ発話に対応する処理のリスクが低リスクでない場合、ユーザに予め登録された限定発話を行うように促すガイドを出力する処理実行ステップを実行する情報処理方法。

　（１７）　ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
　前記ユーザ端末は、
　音声入力部を介してユーザ発話を入力して、前記データ処理サーバに送信し、
　前記データ処理サーバは、
　ユーザ発話が予め登録された限定発話であるか否かを判定する限定発話判定処理と、
　ユーザ発話が限定発話でないと判定された場合、ユーザ発話に対応する処理のリスクを判定するリスク判定処理と、
　ユーザ発話に対応する処理のリスクが低リスクでない場合、ユーザに予め登録された限定発話を行うように促すガイドを前記ユーザ端末に出力する処理を実行する情報処理方法。

　（１８）　情報処理装置において情報処理を実行させるプログラムであり、
　限定発話判定部に、ユーザ発話が予め登録された限定発話であるか否かを判定させる限定発話判定ステップと、
　リスク判定部に、ユーザ発話が限定発話でないと判定された場合、ユーザ発話に対応する処理のリスクを判定させるリスク判定ステップと、
　処理実行部に、ユーザ発話に対応する処理のリスクが低リスクでない場合、ユーザに予め登録された限定発話を行うように促すガイドを出力させる処理実行ステップを実行させるプログラム。

　また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

　なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　以上、説明したように、本開示の一実施例の構成によれば、ユーザ発話による処理リスクを考慮した処理制御や、発話ガイドの表示を行うことで誤動作を低減する構成が実現される。
　具体的には、例えば、ユーザ発話が予め登録された限定発話であるか否かを判定する限定発話判定部と、ユーザ発話が限定発話でないと判定された場合、ユーザ発話に対応する処理のリスクを判定するリスク判定部と、ユーザ発話に対応する処理のリスクが低リスクでない場合、ユーザに予め登録された限定発話を行うように促すガイドを出力する処理実行部を有する。処理実行部は低リスクでない場合、リスクの説明情報を含むアラートを出力する。また、ユーザ発話が限定発話である場合、ユーザ発話の意味解析結果を取得することなくユーザ発話に対応する処理を実行する。
　本構成により、ユーザ発話による処理リスクを考慮した処理制御や、発話ガイドの表示を行うことで誤動作を低減する構成が実現される。

　　１０　情報処理装置
　　１１　カメラ
　　１２　マイク
　　１３　表示部
　　１４　スピーカー
　　２０　サーバ
　　３０　外部機器
　１１０　入力部
　１１１　音声入力部
　１１２　画像入力部
　１２０　出力部
　１２１　音声出力部
　１２２　画像出力部
　１５０　データ処理部
　１６０　入力データ解析部
　１６１　音声認識部
　１６２　発話意味解析部
　１７０　処理制御部
　１７１　限定（Ｌｉｍｉｔｅｄ）発話判定部
　１７２　リスク判定部
　１７３　処理実行部
　１７４　学習処理実行部
　１７５　限定発話情報ＤＢ
　１７６　リスク判定情報ＤＢ
　１７７　アプリ／応答／アラート／ガイド情報ＤＢ
　１８０　出力制御部
　１８１　出力音声制御部
　１８２　表示情報制御部
　４１０　情報処理装置
　４２０　アプリ実行サーサーバ
　４６０　データ処理サーバ
　５０１　ＣＰＵ
　５０２　ＲＯＭ
　５０３　ＲＡＭ
　５０４　バス
　５０５　入出力インタフェース
　５０６　入力部
　５０７　出力部
　５０８　記憶部
　５０９　通信部
　５１０　ドライブ
　５１１　リムーバブルメディア

Claims

　ユーザ発話が予め登録された限定発話であるか否かを判定する限定発話判定部と、
　ユーザ発話が限定発話でないと判定された場合、ユーザ発話に対応する処理のリスクを判定するリスク判定部と、
　ユーザ発話に対応する処理のリスクが低リスクでない場合、ユーザに予め登録された限定発話を行うように促すガイドを出力する処理実行部を有する情報処理装置。
　前記処理実行部は、さらに、
　ユーザ発話に対応する処理のリスクが低リスクでない場合、アラートを出力する請求項１に記載の情報処理装置。
　前記アラートは、ユーザ発話に対応する処理のリスクの説明情報を含む請求項２に記載の情報処理装置。
　前記処理実行部は、さらに、
　ユーザ発話に対応する処理のリスクが低リスクでない場合、ユーザ発話に対応する処理に関連する低リスク処理を実行する請求項１に記載の情報処理装置。
　前記限定発話判定部が、ユーザ発話が限定発話であると判定した場合、
　前記処理実行部は、
　ユーザ発話に対応する処理を実行する請求項１に記載の情報処理装置。
　前記限定発話判定部が、ユーザ発話が限定発話であると判定した場合、
　前記処理実行部は、
　ユーザ発話の意味解析結果を取得することなく、ユーザ発話に対応する処理を実行する請求項１に記載の情報処理装置。
　前記情報処理装置は、さらに、
　ユーザ発話に対する音声認識を実行する音声認識部を有し、
　前記限定発話判定部は、
　前記音声認識部において生成されたテキストデータに基づいて、ユーザ発話が予め登録された限定発話であるか否かを判定する請求項１に記載の情報処理装置。
　前記処理実行部は、
　前記音声認識部において生成されたテキストデータに対応付けられた処理を実行する請求項７に記載の情報処理装置。
　前記情報処理装置は、さらに、
　限定発話を登録した限定発話情報データベースの更新処理を実行する学習処理実行部を有する請求項１に記載の情報処理装置。
　前記学習処理実行部は、
　前記処理実行部が出力した限定発話を促すガイドに従ってユーザが限定発話を実行した場合、
　前記ガイドの出力前のユーザの非限定発話を、新たな限定発話として前記限定発話情報データベースに登録するデータベース更新処理を実行する請求項９に記載の情報処理装置。
　前記学習処理実行部は、
　ユーザ個別の限定発話を、前記限定発話情報データベースに登録するデータベース更新処理を実行する請求項９に記載の情報処理装置。
　前記学習処理実行部は、
　ユーザ属性によって規定される複数ユーザのグループ単位の限定発話を、前記限定発話情報データベースに登録するデータベース更新処理を実行する請求項９に記載の情報処理装置。
　前記ユーザ属性は、家族、または性別、または年齢、またはコンテクストの少なくともいずれかのユーザ属性である請求項１２に記載の情報処理装置。
　ユーザ端末と、データ処理サーバを有する情報処理システムであり、
　前記ユーザ端末は、
　ユーザ発話を入力する音声入力部と、
　前記データ処理サーバの生成したシステム発話を出力する音声出力部を有し、
　前記データ処理サーバは、
　ユーザ発話が予め登録された限定発話であるか否かを判定する限定発話判定部と、
　ユーザ発話が限定発話でないと判定された場合、ユーザ発話に対応する処理のリスクを判定するリスク判定部と、
　ユーザ発話に対応する処理のリスクが低リスクでない場合、ユーザに予め登録された限定発話を行うように促すガイドを前記ユーザ端末に出力する情報処理システム。
　前記データ処理サーバの前記処理実行部は、さらに、
　ユーザ発話に対応する処理のリスクが低リスクでない場合、ユーザ発話に対応する処理のリスクの説明情報を含むアラートを前記ユーザ端末に出力する請求項１２に記載の情報処理システム。
　情報処理装置において実行する情報処理方法であり、
　限定発話判定部が、ユーザ発話が予め登録された限定発話であるか否かを判定する限定発話判定ステップと、
　リスク判定部が、ユーザ発話が限定発話でないと判定された場合、ユーザ発話に対応する処理のリスクを判定するリスク判定ステップと、
　処理実行部が、ユーザ発話に対応する処理のリスクが低リスクでない場合、ユーザに予め登録された限定発話を行うように促すガイドを出力する処理実行ステップを実行する情報処理方法。
　ユーザ端末と、データ処理サーバを有する情報処理システムにおいて実行する情報処理方法であり、
　前記ユーザ端末は、
　音声入力部を介してユーザ発話を入力して、前記データ処理サーバに送信し、
　前記データ処理サーバは、
　ユーザ発話が予め登録された限定発話であるか否かを判定する限定発話判定処理と、
　ユーザ発話が限定発話でないと判定された場合、ユーザ発話に対応する処理のリスクを判定するリスク判定処理と、
　ユーザ発話に対応する処理のリスクが低リスクでない場合、ユーザに予め登録された限定発話を行うように促すガイドを前記ユーザ端末に出力する処理を実行する情報処理方法。
　情報処理装置において情報処理を実行させるプログラムであり、
　限定発話判定部に、ユーザ発話が予め登録された限定発話であるか否かを判定させる限定発話判定ステップと、
　リスク判定部に、ユーザ発話が限定発話でないと判定された場合、ユーザ発話に対応する処理のリスクを判定させるリスク判定ステップと、
　処理実行部に、ユーザ発話に対応する処理のリスクが低リスクでない場合、ユーザに予め登録された限定発話を行うように促すガイドを出力させる処理実行ステップを実行させるプログラム。