WO2021192794A1

WO2021192794A1 - 情報処理装置及び情報処理方法

Info

Publication number: WO2021192794A1
Application number: PCT/JP2021/006976
Authority: WO
Inventors: 広岩瀬; 祐平滝; 邦仁澤井
Original assignee: ソニーグループ株式会社
Priority date: 2020-03-25
Filing date: 2021-02-25
Publication date: 2021-09-30
Also published as: JPWO2021192794A1; EP4131057A1; EP4131057A4; US20230134103A1

Abstract

情報処理装置は、自然言語により入力されたテキストから未知のフレーズである未知語を検出する第１の検出部（１３ｄａ）と、上記テキストに含まれる既知のフレーズに関する事象の発生を検出する第２の検出部（１３ｄｃ）と、上記未知語に対し、かかる未知語の検出時の状況を示す観測コンテキスト（Ｃｏ）を条件コンテキスト（Ｃｒ）として、上記事象の発生時の状況を示す観測コンテキスト（Ｃｏ）を対象コンテキスト（Ｃｔ）として、それぞれ紐付ける紐付け部（１３ｄｄ）と、を備える。

Description

情報処理装置及び情報処理方法

　本開示は、情報処理装置及び情報処理方法に関する。

　従来、対話型の音声ＵＩ（User　Interface）を介し、ユーザの発話内容に応じた各種の情報処理を実行する情報処理装置が知られている。かかる情報処理装置では、例えば自然言語理解（ＮＬＵ：Natural　Language　Understanding）処理を介して、ユーザの発話内容からユーザの意図を示す「インテント」と、かかるインテントに対応する動作のパラメータとなる「エンティティ」とを推定し、その推定結果に基づいて情報処理を実行する。

　なお、ユーザの発話内容に未知のフレーズ（以下、「未知語」という）が含まれていると、インテントやエンティティを推定することができない。このため、かかる情報処理装置の開発・設計工程においては、ＮＬＵのエンティティ登録や、画像や地図座標等へのタグ情報の付与といった、言語的なフレーズを実対象に紐付ける学習作業が例えば人手により行われる。

　ただし、言語的なフレーズというものは、膨大に存在するのはもちろんのこと、時間の経過とともに変化するのが常である。したがって、上述したような人手による学習作業では、膨大なコストがかかるうえに、フレーズの変化に追従するのにも限界がある。

　そこで、ユーザの発話内容に基づいて未知語を学習する学習モードと、学習した未知語に対応した各種情報処理を実行する実行モードとを有し、ユーザ自身に学習作業を行わせることで学習効率の向上を図る情報処理装置が提案されている（例えば、特許文献１参照）。

国際公開第２００９／０２８６４７号

　しかしながら、上述した従来技術には、ユーザに負荷を与えることなく、効率よく未知語を実対象へ紐付けるうえで、さらなる改善の余地がある。

　具体的には、上述した従来技術を用いた場合、ユーザは明示的に学習モードと実行モードとを切り替えて発話を学習または実行させる必要がある。このため、ユーザにとっては負荷が高く、学習効率も低い。

　そこで、本開示では、ユーザに負荷を与えることなく、効率よく未知語を実対象へ紐付けることができる情報処理装置及び情報処理方法を提案する。

　本開示によれば、自然言語により入力されたテキストから未知のフレーズである未知語を検出する第１の検出部と、前記テキストに含まれる既知のフレーズに関する事象の発生を検出する第２の検出部と、前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付ける紐付け部と、を備える情報処理装置が提供される。

　また、本開示によれば、自然言語により入力されたテキストから未知のフレーズである未知語を検出する第１の検出部と、前記テキストに含まれる既知のフレーズに関する事象の発生を検出する第２の検出部と、前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付ける紐付け部と、新たな前記テキストに前記既知のフレーズが含まれ、かつ、前記未知語に紐付けられた前記条件コンテキストが観測される場合に、当該未知語を用いた応答を生成するように指示する指示部と、を備える情報処理装置が提供される。

　また、本開示によれば、自然言語により入力されたテキストから未知のフレーズである未知語を検出することと、前記テキストに含まれる既知のフレーズに関する事象の発生を検出することと、前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付けることと、を含む情報処理方法が提供される。

　また、本開示によれば、自然言語により入力されたテキストから未知のフレーズである未知語を検出することと、前記テキストに含まれる既知のフレーズに関する事象の発生を検出することと、前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付けることと、新たな前記テキストに前記既知のフレーズが含まれ、かつ、前記未知語に紐付けられた前記条件コンテキストが観測される場合に、当該未知語を用いた応答を生成するように指示することと、を含む情報処理方法が提供される。

本開示の実施形態に係る情報処理方法の概要説明図（その１）である。本開示の実施形態に係る情報処理方法の概要説明図（その２）である。用語の説明図である。本開示の実施形態に係る情報処理システムの構成例を示す図である。本開示の実施形態に係る情報処理装置の構成例を示すブロック図である。センサ部の構成例を示すブロック図である。実行対話制御部の構成例を示すブロック図である。未知語情報の説明図である。人向け発話の場合の処理説明図（その１）である。人向け発話の場合の処理説明図（その２）である。人向け発話の場合の処理説明図（その３）である。人向け発話の場合の処理説明図（その４）である。人向け発話の場合の処理説明図（その５）である。人向け発話の場合の処理説明図（その６）である。人向け発話の場合の処理説明図（その７）である。人向け発話の場合の処理説明図（その８）である。人向け発話の場合の処理手順を示すフローチャートである。変形例に係る未知語情報の説明図である。システム向け発話の場合の処理説明図（その１）である。システム向け発話の場合の処理説明図（その２）である。システム向け発話の場合の処理説明図（その３）である。システム向け発話の場合の処理手順を示すフローチャートである。本開示の実施形態に係るサーバ装置の構成例を示すブロック図である。判定部が実行する判定処理の説明図である。紐付けを保持または破棄する対話処理例を示す図（その１）である。紐付けを保持または破棄する対話処理例を示す図（その２）である。画像認識器のエリアによる自動更新の応用例を示す図（その１）である。画像認識器のエリアによる自動更新の応用例を示す図（その２）である。情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後にハイフン付きの異なる数字を付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の構成を、必要に応じて情報処理装置１０－１及び情報処理装置１０－２のように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、情報処理装置１０－１及び情報処理装置１０－２を特に区別する必要がない場合には、単に情報処理装置１０と称する。

　また、以下に示す項目順序に従って本開示を説明する。
　　１．概要
　　　１－１．本実施形態の比較例における問題点
　　　１－２．本実施形態の概要
　　２．情報処理システムの構成
　　　２－１．全体構成
　　　２－２．情報処理装置の構成
　　　２－３．実行対話制御部の構成
　　　２－４．処理内容の具体例（人向け発話の場合）
　　　２－５．処理内容の具体例（システム向け発話の場合）
　　　２－６．サーバ装置の構成
　　　２－７．画像認識器のエリアによる自動更新の応用例
　　３．変形例
　　　３－１．人向け発話の場合の変形例
　　　３－２．システム向け発話の場合の変形例
　　　３－３．その他の変形例
　　４．ハードウェア構成
　　５．むすび

＜＜１．概要＞＞
　図１は、本開示の実施形態に係る情報処理方法の概要説明図（その１）である。また、図２は、本開示の実施形態に係る情報処理方法の概要説明図（その２）である。なお、図１は、本開示の実施形態の比較例における問題点を示すものとなっている。

＜１－１．本実施形態の比較例における問題点＞
　図１に示すように、比較例に係る情報処理システム１’は、１以上の情報処理装置１０’と、サーバ装置１００’とを含む。情報処理装置１０’は、ユーザがそれぞれ使用する機器であり、音声ＵＩを介し、ユーザの発話内容に応じた各種の情報処理を実行する。

　なお、情報処理装置１０’は、デスクトップ型ＰＣ（Personal　Computer）や、ノート型ＰＣや、タブレット端末や、携帯電話機や、ＰＤＡ（Personal　Digital　Assistant）等である。また、情報処理装置１０’は、例えば、ユーザが装着するウェアラブル端末や、車両に搭載されるナビゲーション装置、ドライブレコーダ等の車載装置である。

　サーバ装置１００’は、例えばクラウドサーバとして構成され、ＮＬＵ処理等に用いられる認識モデルを生成および更新して、情報処理装置１０’へ配信する。認識モデルは、図１に示すように、例えば言語的なフレーズと実対象とを紐付けた学習情報を含む。

　ところで、こうした言語的なフレーズを実対象に紐付ける学習作業は、情報処理システム１’の開発・設計工程や、運用工程等において、例えば人手により行われる。ただし、言語的なフレーズというものは、膨大に存在するのはもちろんのこと、時間の経過とともに変化するのが常である。

　したがって、情報処理システム１’においては、新たな未知語を常に実対象へ紐付ける必要があるとも言え、上述したような人手による学習作業では、膨大なコストがかかるうえに、フレーズの変化に追従するのにも限界がある。

　なお、ユーザの発話内容に基づいて未知語を学習する学習モードと、学習した未知語に対応した各種情報処理を実行する実行モードとを有し、ユーザ自身に学習作業を行わせることができる情報処理装置１０’もある。ただし、かかる装置を用いる場合、ユーザは明示的に学習モードと実行モードとを切り替えて発話を学習または実行させる必要があり、ユーザにとっては負荷が高く、学習効率も低い。

＜１－２．本実施形態の概要＞
　そこで、本開示の実施形態に係る情報処理方法では、自然言語により入力されたテキストから未知のフレーズである未知語を検出し、テキストに含まれる既知のフレーズに関する事象の発生を検出し、未知語に対し、かかる未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、上記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付けることとした。

　具体的には、図２に示すように、実施形態に係る情報処理方法では、音声ＵＩの実際の使用過程で動的に未知語を実対象へ紐付ける（ステップＳ１）。図２に示すのは、情報処理装置１０が、例えばタクシーに搭載されたナビゲーション装置に相当する情報処理装置１０－１である場合である。

　かかる場合、情報処理装置１０は、タクシーの乗客と運転手との会話からエンティティと推定される未知語が検出された場合に、かかる未知語を含む発話中の発話インテントを保持するとともに、未知語検出時の観測コンテキストを条件コンテキストとして保持する。ここで、観測コンテキストは、ユーザおよびユーザの置かれている状況を認識するための認識情報であり、例えばタクシーに搭載された各種のセンシングデバイスによるセンシングデータである。

　そして、情報処理装置１０は、保持した発話インテントが実行された場合に、かかる実行時の観測コンテキストを、未知語の実対象に対応する対象コンテキストとして未知語に紐付ける。

　一例として、情報処理装置１０は、乗客が「黄色い看板を右へ曲がって」と発話し、フレーズ「黄色い看板」が未知語として検出された場合に、「右へ曲がる」を発話インテントとして保持するとともに、フレーズ「黄色い看板」検出時の観測コンテキストを条件コンテキストとして保持する。ここでの条件コンテキストは、例えば、フレーズ「黄色い看板」検出時のＧＰＳ（Global　Positioning　System）位置が示す現在地である。

　そして、情報処理装置１０は、観測コンテキストまたはユーザの発話から、タクシーが実際に「右へ曲がる」ことを検出した場合に、かかる検出時の観測コンテキストを、フレーズ「黄色い看板」の実対象に対応する対象コンテキストとしてフレーズ「黄色い看板」に紐付ける。ここでの対象コンテキストは、例えば、「右へ曲がる」実行時のＧＰＳ位置が示す現在地である。

　これにより、情報処理装置１０は、動的にフレーズ「黄色い看板」の実対象を獲得することができる。

　なお、対象コンテキストが紐付けられた未知語は、以後、ユーザの発話等に当該未知語が含まれた場合に、上述した発話インテントおよび条件コンテキストが一致した状況に遭遇すれば、当該未知語に紐付いている対象コンテキストを実対象として解釈し、これに応じた情報処理を実行する。

　例えば上述した「黄色い看板」の例で、紐付け後の別の機会に、同タクシーが当該「黄色い看板」のある交差点を「右へ曲がる」経路に沿って走行中であるものとする。かかる場合、情報処理装置１０は、タクシーが同交差点に差し掛かる途中でフレーズ「黄色い看板」検出時のＧＰＳ位置へ到達したならば、例えば「１００ｍ先を右へ曲がってください」ではなく、「黄色い看板を右へ曲がってください」とナビゲーションする。

　かかるタクシー内のユーザ同士の会話、すなわち人へ向けた発話に基づく未知語の学習例および適用例の詳細については、図３～図１８を用いた説明で後述する。また、実施形態に係る情報処理方法では、人へ向けた発話に限らず、システムへ向けた発話に基づいても未知語の学習および適用を行うことができる。かかる詳細については、システムに向けた発話に対する変形例として、図１９～図２２を用いた説明で後述する。

　そして、実施形態に係る情報処理方法では、サーバ装置１００が、ステップＳ１で実行された紐付け結果を収集し、統計処理を実行する（ステップＳ２）。そして、サーバ装置１００は、統計結果に応じて紐付け結果を他の情報処理装置１０へ適用する（ステップＳ３）。

　例えばサーバ装置１００は、上述した「黄色い看板」の例で、過去の一定期間内に同一の条件コンテキストおよび対象コンテキストで所定数以上使用されている（関連性が高い）ことを検出すると、かかる「黄色い看板」の紐付け結果をシステム全体へ配信する。なお、このとき、サーバ装置１００は、「黄色い看板」のように位置に対するフレーズタグであれば、例えばマップベンダ等に配信することも可能である。

　また、仮に、「黄色い看板」の実体が撤去されてなくなったとしても、フレーズ「黄色い看板」は発話されなくなることで、統計上、「黄色い看板」の紐付けデータは数が減り、システム全体へは配信されなくなる。

　かかるサーバ装置１００が実行するステップＳ２およびステップＳ３の詳細については、図２３～図２８を用いた説明で後述する。

　このように、実施形態に係る情報処理方法では、自然言語により入力されたテキストから未知のフレーズである未知語を検出し、テキストに含まれる既知のフレーズに関する事象の発生を検出し、未知語に対し、かかる未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、上記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付けることとした。

　したがって、実施形態に係る情報処理方法によれば、ユーザが音声ＵＩを介してシステムを利用するほどにフレーズと実対象の紐付けが自動的に集積され、人手では追従しきれない言語の変化にも追従した発話の解釈や情報処理を実行することが可能となる。言い換えれば、音声ＵＩシステムの対応語彙が、開発者側のプロダクトアウトによる仕様ではなく、ユーザーの実際の言語フレーズの使用動向に自動的に追従して更新されるため、音声ＵＩとしての利便性が高まる。

　すなわち、実施形態に係る情報処理方法によれば、ユーザに負荷を与えることなく、効率よく未知語を実対象へ紐付けることができる。

　以下、上述した実施形態に係る情報処理方法を適用した情報処理システム１の構成例について、より具体的に説明する。

　なお、以下の説明では、フレーズ「黄色い看板」のように、未知語が、発話意図「右へ曲がる」の対象・属性となるエンティティである場合を主たる例として挙げるが、インテントが未知語であってもよい。かかる例については、図１８を用いた説明で後述する。

　また、ここで、以下の説明で用いる用語等について説明しておく。図３は、用語の説明図である。

　図３に示すように、ユーザから「黄色い看板を右へ曲がって」との発話があったものとする。かかる場合、本実施形態では、ＮＬＵ処理により、ユーザの意図を示す「インテント」として「曲がる」が抽出される。また、かかるインテントの対象・属性、言い換えればインテントに対応する動作のパラメータとなる「エンティティ」として、「右」および「黄色い看板」が抽出される。

　なお、「右」については、ＮＬＵ処理により、方向（Ｄｉｒｅｃｔｉｏｎ）を示すパラメータであることまで推定可能である。また、「黄色い看板」については、ＮＬＵ処理により、場所（Ｐｌａｃｅ）を示すパラメータであることまでは推定可能であるものの、例えばフレーズとしては未知である。かかる場合、以下の説明では、「曲がる」および「右」、すなわち「右へ曲がる」に相当する部分を、「発話インテントＩ_ｕ」と称することとする。すなわち、発話インテントＩ_ｕは、インテントを含む、ユーザの発話中の既知の部分である。これに対し、「黄色い看板」に相当する部分を、「未知語エンティティＰ_ｕ」と称することとする。

　未知語エンティティＰ_ｕは、ＮＬＵ処理でユーザの発話テキストから推定されたインテントに対し、そのインテントの対象・属性となるエンティティのフレーズがＮＬＵに登録されている辞書に存在しない場合、もしくはフレーズとしてＮＬＵの辞書には登録されているが、実行対話制御でインテントの対象・属性として扱える実対象の中に当該フレーズと紐付けられたものがないか複数あって一意に特定できない場合、の当該フレーズを指す。言い換えれば、未知語は、ユーザの発話テキストのＮＬＵ処理において用いられる辞書情報に存在しないフレーズ、または、辞書情報に存在するものの上記テキストに基づく情報処理においてかかるフレーズに対応する実対象を一意に特定できないフレーズである。

　また、同図には示していないが、上述した観測コンテキストについては、以下「観測コンテキストＣ_ｏ」と記載する。同様に、条件コンテキストについては、以下「条件コンテキストＣ_ｒ」と記載する。また、同様に、対象コンテキストについては、以下「対象コンテキストＣ_ｔ」と記載する。

＜＜２．情報処理システムの構成＞＞
＜２－１．全体構成＞
　図４は、本開示の実施形態に係る情報処理システム１の構成例を示す図である。図４に示すように、情報処理システム１は、１以上の情報処理装置１０と、サーバ装置１００とを含む。また、図４に示すように、情報処理装置１０と、サーバ装置１００とは、インターネットや携帯電話回線網等であるネットワークＮによって相互に接続され、ネットワークＮを介して相互にデータを送受信する。

　情報処理装置１０は、上述した情報処理装置１０’と同様に、ユーザがそれぞれ使用する機器であり、音声ＵＩを介し、ユーザの発話内容に応じた各種の情報処理を実行する。情報処理装置１０は、デスクトップ型ＰＣや、ノート型ＰＣや、タブレット端末や、携帯電話機や、ＰＤＡ等である。また、情報処理装置１０は、例えば、ユーザが装着するウェアラブル端末や、車両に搭載されるナビゲーション装置、ドライブレコーダ等の車載装置である。

　情報処理装置１０は、それぞれ未知語エンティティＰ_ｕを検出した場合に、検出時の観測コンテキストＣ_ｏを条件コンテキストＣ_ｒとして未知語エンティティＰ_ｕへ紐付ける。また、情報処理装置１０は、発話インテントＩ_ｕの実行を検出した場合に、検出時の観測コンテキストＣ_ｏを対象コンテキストＣ_ｔとして未知語エンティティＰ_ｕへ紐付ける。そして、情報処理装置１０は、これらの紐付け結果である未知語情報を、サーバ装置１００へ送信する。

　サーバ装置１００は、例えばクラウドサーバとして構成され、各情報処理装置１０から送信される未知語情報を収集する。また、サーバ装置１００は、収集した未知語情報をビッグデータとして管理するとともに、未知語情報に関する統計処理を実行する。また、サーバ装置１００は、統計した統計結果に応じて未知語情報をシステム全体へ適用する。なお、サーバ装置１００の具体的な構成例については、図２３～図２８を用いた説明で後述する。

　次に、図５は、情報処理装置１０の構成例を示すブロック図である。また、図６は、センサ部３の構成例を示すブロック図である。また、図７は、実行対話制御部１３ｄの構成例を示すブロック図である。

　なお、図５～図７（および後に示す図２３）では、実施形態の特徴を説明するために必要な構成要素のみを表しており、一般的な構成要素についての記載を省略している。

　換言すれば、図５～図７（および図２３）に図示される各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。例えば、各ブロックの分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することが可能である。

　また、図５～図７（および図２３）を用いた説明では、既に説明済みの構成要素については、説明を簡略するか、省略する場合がある。

＜２－２．情報処理装置の構成＞
　図５に示すように、情報処理装置１０は、音声入力部２と、センサ部３と、表示部４と、音声出力部５とが接続される。音声入力部２は、マイク等の音声入力デバイスによって実現される。

　センサ部３は、ユーザおよびユーザの置かれている状況を認識するための各種のセンサを有する。図６に示すように、センサ部３は例えば、カメラ３ａと、ＧＰＳセンサ３ｂと、加速度センサ３ｃと、生体情報センサ３ｄと、視線検出センサ３ｅとを有する。

　カメラ３ａは、例えば、撮像素子としてＣＭＯＳ（Complementary　Metal　Oxide　Semiconductor）イメージセンサまたはＣＣＤ（Charge　Coupled　Device）イメージセンサ等を用いて、ユーザおよびユーザの置かれている状況を認識するための画像を撮像する。例えばカメラ３ａは、タクシーの車内外を撮像可能に設けられた車載カメラである。

　ＧＰＳセンサ３ｂは、ＧＰＳ受信機であり、受信したＧＰＳ信号に基づいてＧＰＳ位置を検出する。加速度センサ３ｃは、各方向への加速度を検出する。加速度センサ３ｃは、例えば、ピエゾ抵抗型や静電容量型等の３軸加速度センサを用いることができる。

　生体情報センサ３ｄは、ユーザの脈拍や呼吸、体温といった、ユーザの生体情報を検出する。視線検出センサ３ｅは、ユーザの視線を検出する。なお、図６に示すセンサ部３の構成はあくまでも一例であって、ユーザおよびユーザの置かれている状況を認識するためのものであれば、図６に示す以外の各種のセンサが含まれてもよい。

　センサ部３は、これら各種のセンサ群によるセンシングデータを、上述した観測コンテキストＣ_ｏとして情報処理装置１０へ入力する。

　図５の説明に戻る。表示部４は、ディスプレイ等の画像出力デバイスによって実現される。音声出力部５は、スピーカ等の音声出力デバイスによって実現される。

　情報処理装置１０は、通信部１１と、記憶部１２と、制御部１３とを備える。通信部１１は、例えば、ＮＩＣ（Network　Interface　Card）等によって実現される。通信部１１は、ネットワークＮを介してサーバ装置１００と無線または有線で接続され、サーバ装置１００との間で情報の送受信を行う。

　記憶部１２は、例えば、ＲＡＭ（Random　Access　Memory）、ＲＯＭ（Read　Only　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図５に示す例では、記憶部１２は、認識モデル１２ａと、未知語情報１２ｂとを記憶する。

　認識モデル１２ａは、後述する音声認識（ＡＳＲ：Automatic　Speech　Recognition）処理における音声認識や、ＮＬＵ処理における意味理解、実行対話制御処理における対話認識等のためのモデル群であって、サーバ装置１００により、例えばディープラーニング等の機械学習のアルゴリズムを用いた学習モデル群として生成される。

　未知語情報１２ｂについては、図８を用いて説明する。図８は、未知語情報１２ｂの説明図である。図８に示すように、未知語情報１２ｂは、未知語エンティティＰ_ｕに対し、発話インテントＩ_ｕと、条件コンテキストＣ_ｒと、対象コンテキストＣ_ｔとを紐付けた情報である。

　条件コンテキストＣ_ｒは、同図に示すように、未知語エンティティＰ_ｕ検出時の観測コンテキストＣ_ｏに相当する。また、対象コンテキストＣ_ｔは、発話インテントＩ_ｕ実行時の観測コンテキストＣ_ｏに相当する。

　未知語情報１２ｂは、後述する実行対話制御部１３ｄによって、未知語エンティティＰ_ｕごとに登録されることとなる。

　図５の説明に戻る。制御部１３は、コントローラ（controller）であり、例えば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）等によって、記憶部１２に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１３は、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現することができる。

　制御部１３は、音声認識部１３ａと、意味理解部１３ｂと、コンテキスト認識部１３ｃと、実行対話制御部１３ｄと、応答生成部１３ｅと、出力制御部１３ｆと、送信部１３ｇとを有し、以下に説明する情報処理の機能や作用を実現または実行する。

　音声認識部１３ａは、音声入力部２から入力された音声データに対してＡＳＲ処理を行い、音声データをテキストデータへ変換する。また、音声認識部１３ａは、変換したテキストデータを意味理解部１３ｂへ出力する。

　意味理解部１３ｂは、音声認識部１３ａによって変換されたテキストデータに対してＮＬＵ処理等の意味理解処理を行って、インテントおよびエンティティ（未知語を含む）を推定し、推定結果を実行対話制御部１３ｄへ出力する。

　コンテキスト認識部１３ｃは、センサ部３からのセンシングデータを取得し、観測コンテキストＣ_ｏとして実行対話制御部１３ｄへ出力する。

＜２－３．実行対話制御部の構成＞
　実行対話制御部１３ｄは、意味理解部１３ｂによる推定結果に未知語のエンティティが含まれる場合に、未知語エンティティＰ_ｕとして抽出する。また、実行対話制御部１３ｄは、当該未知語エンティティＰ_ｕに対し、コンテキスト認識部１３ｃから入力される観測コンテキストＣ_ｏに基づいて条件コンテキストＣ_ｒおよび対象コンテキストＣ_ｔを紐付けて、未知語情報１２ｂを生成する。

　かかる実行対話制御部１３ｄの構成例について、より具体的に説明する。図７に示すように、実行対話制御部１３ｄは、未知語検出部１３ｄａと、登録部１３ｄｂと、実行検出部１３ｄｃと、紐付け部１３ｄｄと、指示部１３ｄｅとを有する。

　未知語検出部１３ｄａは、意味理解部１３ｂによって推定されたインテントおよびエンティティ（未知語を含む）から未知語を検出する。登録部１３ｄｂは、未知語検出部１３ｄａによって未知語のエンティティが検出された場合に、未知語エンティティＰ_ｕとして未知語情報１２ｂへ登録する。あわせて、登録部１３ｄｂは、かかる未知語エンティティＰ_ｕを含むフレーズの発話インテントＩ_ｕを、未知語エンティティＰ_ｕへ紐付けて未知語情報１２ｂへ登録する。

　また、登録部１３ｄｂは、かかる未知語検出時にコンテキスト認識部１３ｃから入力される観測コンテキストＣ_ｏを、条件コンテキストＣ_ｒとして未知語エンティティＰ_ｕへ紐付けて未知語情報１２ｂへ登録する。

　実行検出部１３ｄｃは、コンテキスト認識部１３ｃから入力される観測コンテキストＣ_ｏ、または、意味理解部１３ｂから入力されるインテントおよびエンティティに基づいて、未知語情報１２ｂへ登録された発話インテントＩ_ｕの実行を検出する。

　紐付け部１３ｄｄは、実行検出部１３ｄｃによって発話インテントＩ_ｕの実行が検出された場合に、かかる実行検出時にコンテキスト認識部１３ｃから入力される観測コンテキストＣ_ｏを、対象コンテキストＣ_ｔとして未知語情報１２ｂの未知語エンティティＰ_ｕへ紐付ける。

　指示部１３ｄｅは、意味理解部１３ｂから入力されるインテント／エンティティ（紐付け済みの未知語を含む）、および、コンテキスト認識部１３ｃから入力される観測コンテキストＣ_ｏが、未知語情報１２ｂの発話インテントＩ_ｕおよび条件コンテキストＣ_ｒと一致する場合に、当該発話インテントＩ_ｕおよび条件コンテキストＣ_ｒに紐付く未知語エンティティＰ_ｕを用いた応答を生成するように応答生成部１３ｅへ指示する。

　図５の説明に戻る。応答生成部１３ｅは、実行対話制御部１３ｄからの指示に従い、ユーザへ提示する画像情報および音声情報を生成する。

　出力制御部１３ｆは、応答生成部１３ｅによって生成された画像情報を表示部４を介してユーザへ提示する。また、出力制御部１３ｆは、応答生成部１３ｅによって生成された音声情報へ音声合成処理を施し、音声出力部５を介してユーザへ提示する。

　送信部１３ｇは、通信部１１を介し、未知語情報１２ｂをサーバ装置１００へ適宜送信する。なお、ここに言う「適宜」とは、随時であってもよいし、周期的であってもよい。また、未知語情報１２ｂが更新されるごとであってもよい。

＜２－４．処理内容の具体例（人向け発話の場合）＞
　次に、図２で示したタクシーの乗客と運転手との会話場面を例に挙げて、これまで説明してきた処理の内容をより具体的に説明する。図９～図１６は、人向け発話の場合の処理説明図（その１）～（その８）である。

　図９に示すように、乗客が「黄色い看板を右へ曲がって」（図３参照）と発話したものとする。すると、情報処理装置１０は、未知語を検出し（ステップＳ１１）、未知語エンティティＰ_ｕ「黄色い看板」を未知語情報１２ｂへ登録するとともに、発話インテントＩ_ｕ「右へ曲がる」を未知語エンティティＰ_ｕ「黄色い看板」へ紐付けて登録する。

　また、情報処理装置１０は、かかる未知語検出時の観測コンテキストＣ_ｏを未知語エンティティＰ_ｕ「黄色い看板」へ紐付けて、条件コンテキストＣ_ｒとして保存する（ステップＳ１２）。図９の例では、情報処理装置１０は、図中の自車位置マークが示すＧＰＳ位置（すなわち、未知語検出時の現在地）を条件コンテキストＣ_ｒとして保存する。

　そして、情報処理装置１０は、観測コンテキストＣ_ｏ、または、発話に基づいて、未知語情報１２ｂへ登録された発話インテントＩ_ｕの実行を検出する（ステップＳ１３）。なお、ここでは、運転手の「右へ曲がります」の発話から発話インテントＩ_ｕの実行を検出した例を示している。

　すると、情報処理装置１０は、かかる発話インテントＩ_ｕの実行検出時の観測コンテキストＣ_ｏを、対象コンテキストＣ_ｔとして未知語エンティティＰ_ｕ「黄色い看板」へ紐付ける（ステップＳ１４）。図９の例では、情報処理装置１０は、図中の交差点位置を指すピンマークが示すＧＰＳ位置（すなわち、実行検出時の現在地）を対象コンテキストＣ_ｔとして紐付ける。

　そして、情報処理装置１０は、このような未知語エンティティＰ_ｕ「黄色い看板」に関する未知語情報１２ｂが生成された後は、図１０に示すように、発話インテントＩ_ｕおよび条件コンテキストＣ_ｒが一致すれば（ステップＳ１５）、対象コンテキストＣ_ｔを実対象として解釈し、これに応じた情報処理を実行する。

　すなわち、タクシーが当該「黄色い看板」のある交差点を「右へ曲がる」経路に沿って走行中である場合、情報処理装置１０は、タクシーが同交差点に差し掛かる途中で条件コンテキストＣ_ｒが示すＧＰＳ位置へ到達したならば、情報処理装置１０は、同図に示すように、例えば「黄色い看板を右へ曲がってください」とナビゲーションする。

　なお、このとき発話インテントＩ_ｕが単に「曲がる」として未知語エンティティＰ_ｕ「黄色い看板」へ紐付いていれば、情報処理装置１０は、同交差点を左折する場合には「黄色い看板を左へ曲がってください」とナビゲーションすることもできる。

　また、別の例として、例えば運転手がルート検索に際して運転中に通りたくない場所があるとき等に、「黄色い看板の所を通って」と発話することにより、かかる「黄色い看板」の対象コンテキストＣ_ｔが示すＧＰＳ位置を、ルート検索の途中通過地点として指定することができる。

　なお、図９および図１０では、条件コンテキストＣ_ｒが未知語検出時のＧＰＳ位置である場合を例を挙げたが、例えば図１１に示すように、条件コンテキストＣ_ｒが、未知語検出時のＧＰＳ位置を含む所定範囲内（Ｐｌａｃｅ）であってもよい。

　また、「黄色い看板」の「黄色い」のように、ＮＬＵ処理により未知語エンティティＰ_ｕの色に関する属性が抽出された場合、例えば時間帯によって看板の色の見え方が変わることが予測されるので、かかる場合は、同図に示すように、条件コンテキストＣ_ｒに例えば未知語検出時の現在時刻を含む所定時間帯（ＴｉｍｅＺｏｎｅ）を含むようにしてもよい。なお、情報処理装置１０は、未知語エンティティＰ_ｕに複数の条件コンテキストＣ_ｒが紐付けられた場合、これら条件コンテキストＣ_ｒをＡＮＤ条件で判定する。

　また、色に関する属性に限らず、「黄色い看板」の「看板」は通常平らな表示面を有することから、図１２に示すように、ＮＬＵ処理により「指向性あり」との属性を抽出することができる。

　かかる場合は、同図に示すように、条件コンテキストＣ_ｒに、未知語検出時のＧＰＳ位置を含む所定範囲内（Ｐｌａｃｅ）に加えて、例えば未知語検出時の進行方向から所定角θ以内の進行方向範囲内（ＡｎｇｌｅＲａｎｇｅ）を含むようにしてもよい。

　図１２の場合、未知語情報１２ｂの適用時には、同図に示す（Ｐｌａｃｅ）の所定範囲内、および、（ＡｎｇｌｅＲａｎｇｅ）の進行方向範囲内の場合のみ、フレーズ「黄色い看板」が、ナビゲーション発話やユーザの発話解釈等に使用される。すなわち、条件コンテキストＣ_ｒに一致しない進行方向からは、指向性ありである看板は見えないため、かかる場合にはフレーズ「黄色い看板」は使用されないこととなる。

　これに対し、図１３に示すように、未知語エンティティＰ_ｕが「茶色い煙突」であるものとする。かかる場合、「茶色い煙突」の「煙突」については、ＮＬＵ処理により「指向性なし」との属性を抽出することができる。

　かかる場合は、同図に示すように、条件コンテキストＣ_ｒには、「指向性あり」の時とは異なり、未知語検出時の進行方向から所定角θ以内の進行方向範囲内（ＡｎｇｌｅＲａｎｇｅ）は含まれない。

　すなわち、煙突はどの進行方向からも視認可能であり、指向性なしのため、進行方向範囲は問わないとすることができる。図１３の場合、未知語情報１２ｂの適用時には、同図に示す（Ｐｌａｃｅ）の所定範囲内であれば、フレーズ「茶色い煙突」が、進行方向範囲を問わずナビゲーション発話やユーザの発話解釈等に使用されることとなる。

　ところで、これまではＧＰＳセンサ３ｂによって検出されるＧＰＳ位置を条件コンテキストＣ_ｒおよび対象コンテキストＣ_ｔとして用いる例を挙げたが、これに限られるものではない。例えば、ドライブレコーダ等のカメラ３ａによる撮像画像を、条件コンテキストＣ_ｒおよび対象コンテキストＣ_ｔとして用いてもよい。かかる場合の例を図１４～図１６に示す。なお、図１４および図１６では、ドット状のパターンで塗りつぶされた矩形部分が「黄色い看板」を表している。

　既に図９に示したのと同様に、図１４に示すように、乗客の「黄色い看板を右へ曲がって」との発話に基づき、未知語が検出されたものとする（ステップＳ２１）。そして、未知語エンティティＰ_ｕ「黄色い看板」が未知語情報１２ｂへ登録されるとともに、発話インテントＩ_ｕ「右へ曲がる」が未知語エンティティＰ_ｕ「黄色い看板」へ紐付けて登録されたものとする。

　そして、図１４の例の場合、情報処理装置１０は、ステップＳ２１の未知語検出時のカメラ３ａの撮像画像を、未知語エンティティＰ_ｕ「黄色い看板」へ紐付けて、条件コンテキストＣ_ｒとして保存する（ステップＳ２２）。

　そして、情報処理装置１０は、観測コンテキストＣ_ｏ、または、発話に基づいて、未知語情報１２ｂへ登録された発話インテントＩ_ｕの実行を検出する（ステップＳ２３）。

　すると、図１４の例の場合、情報処理装置１０は、ステップＳ２３の発話インテントＩ_ｕの実行検出時のカメラ３ａの撮像画像を、対象コンテキストＣ_ｔとして未知語エンティティＰ_ｕ「黄色い看板」へ紐付ける（ステップＳ２４）。

　そして、情報処理装置１０は、このような未知語エンティティＰ_ｕ「黄色い看板」に関する未知語情報１２ｂが生成された後は、図１５に示すように、発話インテントＩ_ｕおよび条件コンテキストＣ_ｒが一致すれば（ステップＳ２５）、対象コンテキストＣ_ｔを実対象として解釈し、これに応じた情報処理を実行する。

　すなわち、タクシーが当該「黄色い看板」のある交差点を「右へ曲がる」経路に沿って走行中である場合、情報処理装置１０は、タクシーが同交差点に差し掛かる途中で条件コンテキストＣ_ｒが示す撮像画像に対応する風景をカメラ３ａの撮像画像から画像認識したならば、情報処理装置１０は、同図に示すように、例えば「黄色い看板を右へ曲がってください」とナビゲーションする。

　そして、このとき、情報処理装置１０は、図１６に示すように、例えば条件コンテキストＣ_ｒの画像に、対象コンテキストＣ_ｔの画像および矢印を重畳表示する。かかる際の表示は、運転手が運転しながら視認できるように、例えばフロントガラス等に投影して行ってもよい。これにより、運転手に対するルート案内を、音声だけでなく視覚的にも分かりやすく行うことができる。

　なお、図１６に示した表示例はあくまで一例であって、表示形態を限定するものではない。例えば、必ずしも矢印は表示しなくともよい。また、ユーザが視認可能となればよく、その意味では、条件コンテキストＣ_ｒや対象コンテキストＣ_ｔはカメラ３ａの撮像画像に限らず、例えばナビ画面の表示領域に表示されている画像等であってもよい。

　また、情報処理装置１０は、カメラ３ａの撮像画像から、条件コンテキストＣ_ｒが示す撮像画像に対応する風景を画像認識する際、例えば「黄色い看板」について必ずしも色まで解析する必要はない。これにより、処理負荷を軽減できるというメリットがある。なお、無論、色まで解析してもよい。

　次に、実施形態に係る情報処理装置１０が実行する人向け発話の場合の処理手順について、図１７を用いて説明する。図１７は、人向け発話の場合の処理手順を示すフローチャートである。

　図１７に示すように、まず、未知語検出部１３ｄａが、人同士の会話に未知語エンティティＰ_ｕを検出する（ステップＳ１０１）。そして、登録部１３ｄｂが、未知語エンティティＰ_ｕとともに、未知語エンティティＰ_ｕを含む発話の発話インテントＩ_ｕを未知語情報１２ｂに記憶させる（ステップＳ１０２）。

　また、登録部１３ｄｂは、未知語エンティティＰ_ｕ検出時の観測コンテキストＣ_ｏを条件コンテキストＣ_ｒとして未知語情報１２ｂに記憶させる（ステップＳ１０３）。

　つづいて、実行検出部１３ｄｃが、観測コンテキストＣ_ｏまたは会話から発話インテントＩ_ｕの実行を検出する（ステップＳ１０４）。ここで、発話インテントＩ_ｕの実行が検出された場合（ステップＳ１０４，Ｙｅｓ）、紐付け部１３ｄｄが、発話インテントＩ_ｕ実行時の観測コンテキストＣ_ｏを対象コンテキストＣ_ｔとして未知語情報１２ｂに記憶させる（ステップＳ１０５）。

　そして、送信部１３ｇが、未知語情報１２ｂを、すなわち、未知語エンティティＰ_ｕに対する発話インテントＩ_ｕ、条件コンテキストＣ_ｒ、対象コンテキストＣ_ｔをサーバ装置１００へ送信し（ステップＳ１０６）、処理を終了する。

　なお、観測コンテキストＣ_ｏまたは会話から発話インテントＩ_ｕの実行が検出されない場合（ステップＳ１０４，Ｎｏ）、一定時間が経過したか、または、条件コンテキストＣ_ｒの条件範囲外であるかが判定される（ステップＳ１０７）。

　ここで、一定時間が経過していない、および、条件コンテキストＣ_ｒの条件範囲内であると判定された場合（ステップＳ１０７，Ｎｏ）、ステップＳ１０４からの処理を繰り返す。一方、一定時間が経過した、または、条件コンテキストＣ_ｒの条件範囲外であると判定された場合（ステップＳ１０７，Ｙｅｓ）、処理を終了する。

　ところで、これまでは、フレーズ「黄色い看板」のように、エンティティが未知語である場合について主に説明してきたが、インテントが未知語であってもよい。かかる変形例について、図１８を用いて説明する。図１８は、変形例に係る未知語情報１２ｂの説明図である。

　例えば、ユーザの発話の意味理解において、「あれして」等、インテントと推定される動詞部分が解釈不能となるケースはあるが、情報処理装置１０は、かかる場合に、図１８に示すように、当該インテントを未知語インテントＩＰ_ｕとして未知語情報１２ｂに登録する。

　そして、図１８に示すように、情報処理装置１０は、未知語インテントＩＰ_ｕに対し、発話エンティティＥ_ｕと、条件コンテキストＣ_ｒと、実行機能とを紐付ける。発話エンティティＥ_ｕは、ユーザの発話中で既知のエンティティとして推定されたフレーズである。

　そして、かかる場合の条件コンテキストＣ_ｒは、同図に示すように、未知語インテントＩＰ_ｕ検出時の観測コンテキストＣ_ｏに相当する。また、実行機能は、発話エンティティＥ_ｕを対象とする機能実行時の観測コンテキストＣ_ｏに相当する。

　すなわち、図１８の例では、未知語インテントＩＰ_ｕが検出された場合に、登録部１３ｄｂが、未知語インテントＩＰ_ｕおよび発話エンティティＥ_ｕを未知語情報１２ｂに登録する。また、登録部１３ｄｂは、あわせて未知語インテントＩＰ_ｕ検出時の観測コンテキストＣ_ｏを、条件コンテキストＣ_ｒとして未知語インテントＩＰ_ｕへ紐付けて登録する。

　そして、実行検出部１３ｄｃが、観測コンテキストＣ_ｏに基づいて発話エンティティＥ_ｕを対象とする機能が実行されたことを検出した場合に、紐付け部１３ｄｄが当該機能を実行機能として未知語インテントＩＰ_ｕへ紐付けることとなる。これにより、情報処理装置１０は、動的に未知語インテントＩＰ_ｕの実行機能を獲得することができる。

　未知語エンティティＰ_ｕの対象コンテキストＣ_ｔへの紐付けに加え、未知語インテントＩＰ_ｕも実行機能と紐付けられて集積されることにより、音声ＵＩが解釈および表現可能な語彙全体が自動的に増え、対話性能自体の向上につながる。

　なお、未知語インテントＩＰ_ｕの条件コンテキストＣ_ｒとして発話者の属性を紐付けて記憶・集積することにより、方言（エリア）や、年代、性別等の属性によって表現が異なるフレーズをシステムが解釈および表現するのに有用となる。

＜２－５．処理内容の具体例（システム向け発話の場合）＞
　次に、システム向け発話の場合の処理の内容を具体的に説明する。図１９～図２１は、システム向け発話の場合の処理説明図（その１）～（その３）である。ここでは、システム向け発話の場合として、ユーザＵが、音声ブラウザでの画像選択を行う場合を例に挙げる。また、ここでも、未知語がエンティティである場合を主たる例として説明を行う。

　図１９に示すように、ユーザＵが、音声ブラウザを利用可能なノートＰＣ等の情報処理装置１０を用いて、音声ブラウザ上で画像選択を行うものとする。なお、情報処理装置１０は、インターネット接続が可能であり、サーバ装置１００とも通信可能である。また、ユーザＵの周囲には、家族や友人等の同席者Ｏがいてもよい。

　かかる状況において、図２０に示すように、ユーザＵが「〇〇の写真を見せて」と発話したものとする。ここで、「○○」は、写真に写っている人物を特定する、名前やニックネーム等の呼称であり、未知語である。

　すると、情報処理装置１０は、未知語を検出し（ステップＳ３１）、未知語エンティティＰ_ｕ「○○」を未知語情報１２ｂへ登録するとともに、発話インテントＩ_ｕ「写真を見せる」を未知語エンティティＰ_ｕ「○○」へ紐付けて登録する。

　また、情報処理装置１０は、かかる未知語検出時の観測コンテキストＣ_ｏを未知語エンティティＰ_ｕ「○○」へ紐付けて、条件コンテキストＣ_ｒとして保存する（ステップＳ３２）。図２０の例では、情報処理装置１０は、ユーザＵが閲覧中のサイトのＵＲＬ（Uniform　Resource　Locator）を条件コンテキストＣ_ｒとして保存する。

　そして、情報処理装置１０は、ユーザＵに対し、同サイトにおいて発話インテントＩ_ｕの実行対象となりうる全ての画像に番号を付与して提示する（ステップＳ３３）。そして、ユーザＵに対し、画像の選択を促す問い合わせを行う（図中の「何番の写真ですか？」参照）。

　そして、かかる問い合わせに応じユーザＵが画像を選択したならば（図中の「１番！」参照）、情報処理装置１０は、観測コンテキストＣ_ｏ、すなわち選択された画像を、対象コンテキストＣ_ｔとして未知語エンティティＰ_ｕ「〇〇」へ紐付ける（ステップＳ３４）。

　そして、情報処理装置１０は、このような未知語エンティティＰ_ｕ「〇〇」に関する未知語情報１２ｂが生成された後は、図２１に示すように、発話インテントＩ_ｕおよび条件コンテキストＣ_ｒが一致すれば（ステップＳ３５）、対象コンテキストＣ_ｔを実対象として解釈し、これに応じた情報処理を実行する。

　すなわち、ユーザＵが別の機会等に同サイトを閲覧中に「○○の写真を見せて」と発話した場合に、情報処理装置１０は、未知語エンティティＰ_ｕ「〇〇」を選択された画像のタグとして使用し（ステップＳ３６）、発話解釈に際しての画像の検索タグとして利用する。

　また、かかる未知語情報１２ｂがサーバ装置１００へ送信され、サーバ装置１００において行われる統計処理の結果、未知語エンティティＰ_ｕ「○○」が、パブリックな異なる画像に対して所定数以上登録されたものとする。

　かかる場合、サーバ装置１００は、未知語エンティティＰ_ｕ「○○」を認識ラベルとする機械学習を実行し（ステップＳ３７）、認識モデル１２ａの一つとして画像認識器を生成して配信する（ステップＳ３８）。ステップＳ３７およびステップＳ３８については、図２７および図２８を用いた説明でより具体的に後述する。

　このように、図２０および図２１を用いて説明した処理内容により、システム向け発話の場合であっても、ユーザＵに動的に未知語エンティティＰ_ｕへ実対象を紐付けることが可能となる。

　なお、図２０および図２１では、条件コンテキストＣ_ｒをユーザＵが閲覧中のサイトのＵＲＬとしたが、これに限られるものではなく、例えば同席者Ｏの撮像画像等を条件コンテキストＣ_ｒとしてもよい。これにより、例えば家族等、特定のメンバが揃っていることを条件コンテキストＣ_ｒとしたコンテンツの鑑賞等を行うことができる。

　次に、実施形態に係る情報処理装置１０が実行するシステム向け発話の場合の処理手順について、図２２を用いて説明する。図２２は、システム向け発話の場合の処理手順を示すフローチャートである。

　図２２に示すように、まず、未知語検出部１３ｄａが、システムへの発話指示に未知語エンティティＰ_ｕを検出する（ステップＳ２０１）。そして、登録部１３ｄｂが、未知語エンティティＰ_ｕとともに、未知語エンティティＰ_ｕを含む発話の発話インテントＩ_ｕを未知語情報１２ｂに記憶させる（ステップＳ２０２）。

　また、登録部１３ｄｂは、未知語エンティティＰ_ｕ検出時の観測コンテキストＣ_ｏを条件コンテキストＣ_ｒとして未知語情報１２ｂに記憶させる（ステップＳ２０３）。

　つづいて、実行対話制御部１３ｄは、発話インテントＩ_ｕの実行対象となりうる全ての観測コンテキストＣ_ｏに番号を付与してユーザへ提示させる（ステップＳ２０４）。そして、実行検出部１３ｄｃが、ユーザが観測コンテキストＣ_ｏのいずれかを選択したことを検出する（ステップＳ２０５）。

　ここで、ユーザが観測コンテキストＣ_ｏのいずれかを選択した場合（ステップＳ２０５，Ｙｅｓ）、指示部１３ｄｅが、ユーザが選択した候補で発話インテントＩ_ｕを実行させる（ステップＳ２０６）。そして、紐付け部１３ｄｄが、ユーザが選択した観測コンテキストＣ_ｏを対象コンテキストＣ_ｔとして未知語情報１２ｂに記憶させる（ステップＳ２０７）。

　そして、送信部１３ｇが、未知語情報１２ｂを、すなわち、未知語エンティティＰ_ｕに対する発話インテントＩ_ｕ、条件コンテキストＣ_ｒ、対象コンテキストＣ_ｔをサーバ装置１００へ送信し（ステップＳ２０８）、処理を終了する。

　なお、ユーザが選択しない場合（ステップＳ２０５，Ｎｏ）、一定時間が経過したか、または、条件コンテキストＣ_ｒの条件範囲外であるかが判定される（ステップＳ２０９）。ここに言う条件コンテキストＣ_ｒの条件範囲外は、例えばユーザが閲覧するサイトを移動した場合等が挙げられる。

　ここで、一定時間が経過していない、および、条件コンテキストＣ_ｒの条件範囲内であると判定された場合（ステップＳ２０９，Ｎｏ）、ステップＳ２０５からの処理を繰り返す。一方、一定時間が経過した、または、条件コンテキストＣ_ｒの条件範囲外であると判定された場合（ステップＳ２０９，Ｙｅｓ）、処理を終了する。

＜２－６．サーバ装置の構成＞
　次に、サーバ装置１００の構成例について説明する。図２３は、本開示の実施形態に係るサーバ装置１００の構成例を示すブロック図である。

　図２３に示すように、サーバ装置１００は、通信部１０１と、記憶部１０２と、制御部１０３とを備える。通信部１０１は、例えば、ＮＩＣ等によって実現される。通信部１０１は、ネットワークＮを介して情報処理装置１０のそれぞれと無線または有線で接続され、情報処理装置１０との間で情報の送受信を行う。

　記憶部１０２は、上述した記憶部１２と同様に、例えば、ＲＡＭ、ＲＯＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。図２３に示す例では、記憶部１０２は、未知語情報ＤＢ（データベース）１０２ａと、統計情報１０２ｂと、認識モデルＤＢ１０２ｃとを記憶する。

　未知語情報ＤＢ１０２ａは、後述する収集部１０３ａによって各情報処理装置１０から収集される未知語情報１２ｂを集積するデータベースである。統計情報１０２ｂは、後述する統計処理部１０３ｂによって実行される統計処理の統計結果に関する情報である。

　認識モデルＤＢ１０２ｃは、後述する学習部１０３ｄによって生成され、各情報処理装置１０へ配信される認識モデル１２ａのデータベースである。

　制御部１０３は、上述した制御部１３と同様に、コントローラであり、例えば、ＣＰＵやＭＰＵ等によって、記憶部１０２に記憶されている各種プログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１０３は、上述した制御部１３と同様に、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現することができる。

　制御部１０３は、収集部１０３ａと、統計処理部１０３ｂと、判定部１０３ｃと、学習部１０３ｄと、配信部１０３ｅとを有し、以下に説明する情報処理の機能や作用を実現または実行する。

　収集部１０３ａは、通信部１０１を介して各情報処理装置１０から未知語情報１２ｂを収集し、未知語情報ＤＢ１０２ａへ集積する。統計処理部１０３ｂは、未知語情報ＤＢ１０２ａに集積された未知語情報１２ｂに基づいて所定の統計処理を実行し、統計結果を統計情報１０２ｂとして出力する。

　判定部１０３ｃは、統計情報１０２ｂに基づいて、未知語情報１２ｂの適用範囲を判定する。また、判定部１０３ｃは、統計情報１０２ｂに基づいて、認識モデル１２ａ（例えば、上述した画像認識器）の更新を要するかを判定する。

　学習部１０３ｄは、判定部１０３ｃによって認識モデル１２ａの更新を要すると判定された場合に、未知語情報ＤＢ１０２ａに集積された未知語情報１２ｂに基づいて所定の機械学習のアルゴリズムを用いた学習処理を実行し、認識モデルＤＢ１０２ｃ中の更新対象である認識モデル１２ａを更新する。

　配信部１０３ｅは、判定部１０３ｃの判定結果に基づいて、未知語情報ＤＢ１０２ａ中の配信対象である未知語情報１２ｂを、通信部１０１を介して各情報処理装置１０へ配信する。また、配信部１０３ｅは、学習部１０３ｄによって更新された、認識モデルＤＢ１０２ｃ中の配信対象である認識モデル１２ａを、通信部１０１を介して各情報処理装置１０へ配信する。

　次に、判定部１０３ｃが実行する判定処理について、図２４を用いて説明する。図２４は、判定部１０３ｃが実行する判定処理の説明図である。なお、図２４には、統計情報１０２ｂの一例をあわせて示している。また、以下の説明では、「システム向け発話」の場合で説明した、未知語エンティティＰ_ｕへ対象コンテキストＣ_ｔとして選択画像が紐付けられた場合を例に挙げる。

　図２４に示すように、統計情報１０２ｂは、例えば「ＩＤ」項目と、「Ｐ_ｕ」項目と、「Ｃ_ｒ」項目と、「Ｃ_ｔ」項目と、「登録数」項目とを含む。「ＩＤ」項目は、紐付け結果それぞれの識別子が格納される。「Ｐ_ｕ」項目は、未知語エンティティＰ_ｕが格納される。「Ｃ_ｒ」項目は、条件コンテキストＣ_ｒが格納される。「Ｃ_ｔ」項目は、対象コンテキストＣ_ｔが格納される。

　「登録数」項目は、過去の一定期間内における各紐付け結果の登録数の集計結果が格納される。登録数は、使用数と言い換えてもよい。なお、図中の「所定数」は、登録数の規定の数である。登録数がかかる所定数以上である場合、判定部１０３ｃは、該当の紐付け結果をシステム全体へ適用させる。図２４では、一例として所定数を「５０」とした。

　そして、図２４の例の場合、判定部１０３ｃは、過去の一定期間内における登録数がいずれも所定数以上であるＩＤ「０１」～「０３」の紐付け結果については、全体へ適用するように判定する。

　また、判定部１０３ｃは、紐付け結果が特定の条件コンテキストＣ_ｒへの依存性が高い場合は、条件コンテキストＣ_ｒを外さないで適用するように判定する。これに対し、判定部１０３ｃは、紐付け結果が特定の条件コンテキストＣ_ｒへの依存性が低い場合は、条件コンテキストＣ_ｒを外して適用するように判定する。

　図２４の例の場合、ＩＤ「０１」～「０３」の紐付け結果は、条件コンテキストＣ_ｒが多岐にわたっている。したがって、条件コンテキストＣ_ｒへの依存性が低いと言え、判定部１０３ｃは、かかる場合には条件コンテキストＣ_ｒを条件から外す。

　また、判定部１０３ｃは、過去の一定期間内における登録数が所定数未満であるＩＤ「１１」の紐付け結果については、全体への適用を抑止するように判定する。

　なお、ここで図中の「誤登録？」に示すように、ＩＤ「１２」の紐付け結果については、ＩＤ「０１」～「０３」と同じ未知語エンティティＰ_ｕが登録されているものの、違う人物の画像が対象コンテキストＣ_ｔとして紐付いている。

　誤登録としては、悪意なく間違った場合や、悪意ある者がわざと間違える場合等が考えられるが、判定部１０３ｃは、過去の一定期間内における登録数が所定数未満であれば全体への適用は抑止するため、悪意ある者がわざと間違えても全体へ適用されることはまずないと言える。

　なお、未知語エンティティＰ_ｕの特定画像への紐付けが少ない初期の過渡状態においては、例えば情報処理装置１０側でユーザＵとのインタラクションによる紐付けの保持または破棄を行うことで、誤った紐付けが行われることを軽減することができる。

　かかる変形例について図２５および図２６を用いて説明する。図２５は、紐付けを保持または破棄する対話処理例を示す図（その１）である。また、図２６は、紐付けを保持または破棄する対話処理例を示す図（その２）である。

　なお、図２５は、既に示した図２０の続きに対応しているものとする。また、未知語エンティティＰ_ｕ「○○」に紐付けるべき正解画像は１番であるが、例えば悪意により４番の画像が紐付けられたデータが少数（上述の所定数未満）存在するものとする。

　かかる場合に、図２５に示すように、ユーザＵが、未知語エンティティＰ_ｕ「○○」に紐付ける画像の選択を促す問い合わせに対し１番の画像を選択した際、情報処理装置１０は、例えば「では、４番も○○ですか？」との問い合わせをユーザＵに対し行う。

　ここで、ユーザＵは、図２５において正解画像を選択しているので、少なくとも悪意者ではないと推定できる。そこで、図２６に示すように、ユーザＵが図２５の問い合わせに対し「Ｎｏ」の意思表示をした場合は、情報処理装置１０は、未知語エンティティＰ_ｕ「○○」と４番の画像との紐付けを破棄する。

　また、ユーザＵが「Ｙｅｓ」の意思表示をした場合は、情報処理装置１０は、未知語エンティティＰ_ｕ「○○」と４番の画像との紐付けを保持する。これにより、例えば悪意者により誤った紐付けが行われることを軽減することが可能となる。

＜２－７．画像認識器のエリアによる自動更新の応用例＞
　次に、図２１を用いて説明したステップＳ３７およびステップＳ３８について、図２７および図２８を用いてより具体的に説明する。すなわち、紐付け結果である未知語情報１２ｂがサーバ装置１００へ送信され、サーバ装置１００において行われる統計処理の結果、特定の未知語エンティティＰ_ｕがパブリックな異なる画像に対して所定数以上紐付けられている場合である。

　かかる場合、サーバ装置１００は、該当の未知語エンティティＰ_ｕを認識ラベルとする機械学習を実行し、認識モデル１２ａの一つとして画像認識器を生成して配信することは既に述べた。

　図２７は、画像認識器のエリアによる自動更新の応用例を示す図（その１）である。また、図２８は、画像認識器のエリアによる自動更新の応用例を示す図（その２）である。

　なお、図２７および図２８を用いた説明では、異なるエリアａ，ｂを例に挙げる。エリアａは、例えば液体せっけんの普及率が高いエリアである。これに対し、エリアｂは、例えば固形せっけんの普及率が高いエリアである。

　そして、ここでは、フレーズ「せっけん」がタグ付けされた（紐付けられた）パブリックな異なる画像が所定数以上存在し、フレーズ「せっけん」を認識ラベルとする機械学習が行われるものとする。

　かかる場合、図２７に示すように、まずエリアａでは、フレーズ「せっけん」が、パブリックな異なる液体せっけんの画像に対してタグ付けされやすくなる。なお、各画像の条件コンテキストＣ_ｒには、エリアａが含まれるものとする。

　そして、フレーズ「せっけん」がタグ付けされた液体せっけんの画像が所定数以上集まると、サーバ装置１００は、学習部１０３ｄが「せっけん」を認識ラベルとする機械学習を実行し、画像認識器Ａを生成する。サーバ装置１００は、これをエリアａの各情報処理装置１０へ配信し、かかるエリアａの情報処理装置１０では、認識対象画像として液体せっけんの画像を画像認識器Ａへ入力すると、「せっけん」との認識結果が得られることになる。

　しかしながら、画像認識器Ａは、液体せっけんの画像を教師データとして実行された機械学習により生成されたものである。したがって、かかる画像認識器Ａをエリアｂの各情報処理装置１０へ配信して、認識対象画像として固形せっけんの画像を画像認識器Ａへ入力しても、「せっけん」との認識結果を得ることはできない。

　このため、サーバ装置１００は、未知語情報ＤＢ１０２ａの該当の未知語情報１２ｂにおいて、例えばフレーズ「せっけん」に条件コンテキストＣ_ｒとして「エリアａ」が紐付いていれば、画像認識器Ａの配信対象をエリアａのみとする。

　一方で、図２８に示すように、エリアｂでは、フレーズ「せっけん」が、パブリックな異なる固形せっけんの画像に対してタグ付けされやすくなる。したがって、フレーズ「せっけん」がタグ付けされた固形せっけんの画像が所定数以上集まれば、サーバ装置１００は、学習部１０３ｄが「せっけん」を認識ラベルとする機械学習を実行することとなる。ただし、同じフレーズ「せっけん」を認識ラベルとする画像認識器Ａ（図２７参照）が既に存在すれば、学習部１０３ｄは更新学習を実行し、画像認識器Ａ’を出力する。

　そして、サーバ装置１００は、これをエリアｂの各情報処理装置１０へ配信し、かかるエリアｂの情報処理装置１０では、認識対象画像として固形せっけんの画像を画像認識器Ａ’へ入力すると、「せっけん」との認識結果が得られることになる。

　また、サーバ装置１００は、エリアｂの固形せっけんの画像に基づいて更新学習を実行することで、これまでの未知語情報１２ｂにおけるフレーズ「せっけん」に条件コンテキストＣ_ｒとして紐付いていた「エリアａ」への依存性が低下したと判断することができる。そして、この場合には、サーバ装置１００は「エリアａ」を条件から外す。

　また、サーバ装置１００は、このように条件コンテキストＣ_ｒから「エリアａ」が外れれば、画像認識器Ａ’の配信対象をエリアｂだけでなく例えば全てのエリアとすることができる。そして、サーバ装置１００が画像認識器Ａ’を例えばエリアａへ配信し、エリアａの情報処理装置１０において認識対象画像として液体せっけんまたは固形せっけんの画像を画像認識器Ａへ入力すれば、いずれの場合にも「せっけん」との認識結果を得ることができる。

　このように、機会学習が重ねられるのに応じて未知語情報１２ｂの特定の条件コンテキストＣ_ｒへの依存性が低下した場合に、該当の条件コンテキストＣ_ｒを条件から外し、またこれに応じて画像認識器を含む認識モデル１２ａの配信対象を変化させることで、認識モデル１２ａの動向追従性能を向上させることができる。

＜＜３．変形例＞＞
　なお、これまで、未知語の実対象を獲得するうえでの実施形態に係る情報処理方法について説明してきたが、説明した以外にも種々の変形例を挙げることができる。

＜３－１．人向け発話の場合の変形例＞
　例えば、人向け発話の場合の未知語エンティティＰ_ｕの実対象の獲得は、家族等でのテレビ番組や動画コンテンツの視聴時にも適用することができる。かかる視聴時において、例えば子供や高齢者が「××（が出てる）の見たい」と発話したものとする。「××」は、アニメのキャラクタや、出演者の呼称である。

　このとき、例えばテレビやＰＣ等によって実現された情報処理装置１０は、未知語エンティティＰ_ｕ「××」を検出し、かかる未知語エンティティＰ_ｕ「××」に対し、条件コンテキストＣ_ｒとしてその場にいる同席者Ｏや時間帯等を紐付ける。そして、情報処理装置１０は、実際に番組が選局されたり動画コンテンツが再生されたりした場合に、その選局された番組や再生された動画コンテンツを対象コンテキストＣ_ｔとしてさらに紐付ける。

　これにより、以後、同じ同席者Ｏや時間帯で「××の見たい」との発話があった場合に、情報処理装置１０は、未知語エンティティＰ_ｕ「××」をその番組や動画コンテンツと解釈することができる。

　また、別の変形例として、複数人で飲食店を検索する場面等を挙げることができる。かかる場合、例えばスマートフォン等によって実現された情報処理装置１０は、直前における人同士の会話の文脈や、その場にいる人、場所等を条件コンテキストＣ_ｒにすることができる。

　一例を挙げると、品川で一緒に食事をしようとしているメンバのうちの一人が、「この辺りで何か美味いものあったっけ？」と発話したものとする。すると、情報処理装置１０は、未知語エンティティＰ_ｕ「なにか美味いもの」を検出し、かかる未知語エンティティＰ_ｕ「なにか美味いもの」に対し、条件コンテキストＣ_ｒとして例えば同席者Ｏや品川等を紐付ける。

　そして、情報処理装置１０は、例えばメンバのうちの別の一人が、先の発話に対し、「ああ、△△の店に行こうよ」と答えると、その「△△の店」を対象コンテキストＣ_ｔとしてさらに紐付ける。

　これにより、以後、品川で同じメンバで「なにか美味いもの」との発話があった場合に、情報処理装置１０は、未知語エンティティＰ_ｕ「なにか美味いもの」を「△△の店」と解釈することができ、例えば飲食店の検索において第１の候補として提示することができる。

＜３－２．システム向け発話の場合の変形例＞
　また、例えば、システム向け発話の場合の未知語エンティティＰ_ｕの実対象の獲得は、図１９～図２１に示した画像検索に限らず、種々のコンテンツ検索にも適用することができる。

　かかる場合、図２０に示したように、ユーザＵが、提示された複数の候補のうちから選択したコンテンツが、対象コンテキストＣ_ｔとして紐付くこととなる。

　また、別の変形例として、未知語エンティティＰ_ｕに対し、例えばユーザＵが選択したテキストによる既知のフレーズを対象コンテキストＣ_ｔとして紐付けてもよい。かかる場合、情報処理装置１０は、未知語エンティティＰ_ｕが検出された場合に、かかる未知語エンティティＰ_ｕを、同義語の既知のフレーズによって解釈することが可能となる。

　また、別の変形例として、システム向け発話の場合にも、図１８を用いて説明したインテントが未知語である場合を適用してもよい。

　システム向け発話の場合にも、情報処理装置１０は、検出した未知語インテントＩＰ_ｕに対し、発話エンティティＥ_ｕと、条件コンテキストＣ_ｒと、実行機能とを紐付けることとなる。なお、システム向け発話の場合、図２０に示したのと同様に、情報処理装置１０は、発話エンティティＥ_ｕを対象としてシステムが実行可能な機能の候補を提示し、ユーザＵに対し、実行する機能の選択を促す問い合わせを行う。

　そして、かかる問い合わせに応じユーザＵが実行する機能を選択したならば、情報処理装置１０は、観測コンテキストＣ_ｏ、すなわち選択された実行機能を、対象コンテキストＣ_ｔとして未知語インテントＩＰ_ｕへ紐付ける。これにより、情報処理装置１０は、システム向け発話の場合にも、動的に未知語インテントＩＰ_ｕの実行機能を獲得することができる。

＜３－３．その他の変形例＞
　また、上述した実施形態では、音声言語により入力されたテキストから未知語を検出する場合について説明したが、これに限られるものではなく、自然言語により入力されればよい。したがって、例えば、メッセージアプリのメッセージから未知語を検出することにしてもよい。その他、例えば、Ｗｅｂに公開された記事から未知語を検出してもよい。

　また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。例えば、図７に示した未知語検出部１３ｄａおよび実行検出部１３ｄｃは統合されてもよい。また、同じく図７に示した登録部１３ｄｂおよび紐付け部１３ｄｄは統合されてもよい。

　また、図７に示した情報処理装置１０の制御部１３が実行する各機能を、サーバ装置１００が実行することとしてもよい。かかる場合、ユーザＵが利用する情報処理装置１０は、音声入力部２、センサ部３、表示部４、音声出力部５、通信部１１を備え、ネットワークＮを介してサーバ装置１００との間で情報を送受信し、ユーザＵとの対話を通してサーバ装置１００における各機能の実行結果をユーザＵに提示する、言わば音声ＵＩ装置として機能することとなる。

　また、上記してきた実施形態は、処理内容を矛盾させない領域で適宜組み合わせることが可能である。また、本実施形態のシーケンス図或いはフローチャートに示された各ステップは、適宜順序を変更することが可能である。

＜＜４．ハードウェア構成＞＞
　上述してきた実施形態に係る情報処理装置１０、サーバ装置１００等の情報機器は、例えば図２９に示すような構成のコンピュータ１０００によって実現される。以下、実施形態に係る情報処理装置１０を例に挙げて説明する。図２９は、情報処理装置１０の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ（Hard　Disk　Drive）１４００、通信インターフェイス１５００、及び入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る情報処理プログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が実施形態に係る情報処理装置１０として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた情報処理プログラムを実行することにより、音声認識部１３ａ、意味理解部１３ｂ、コンテキスト認識部１３ｃ、実行対話制御部１３ｄ、応答生成部１３ｅ、出力制御部１３ｆ、送信部１３ｇ等の機能を実現する。また、ＨＤＤ１４００には、本開示に係る情報処理プログラムや、記憶部１２内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

＜＜５．むすび＞＞
　以上説明したように、本開示の一実施形態によれば、情報処理装置１０は、自然言語により入力されたテキストから未知のフレーズである未知語を検出する未知語検出部１３ｄａ（「第１の検出部」の一例に相当）と、上記テキストに含まれる既知のフレーズに関する事象の発生を検出する実行検出部１３ｄｃ（「第２の検出部」の一例に相当）と、上記未知語に対し、かかる未知語の検出時の状況を示す観測コンテキストＣ_ｏを条件コンテキストＣ_ｒとして、上記事象の発生時の状況を示す観測コンテキストＣ_ｏを対象コンテキストＣ_ｔとして、それぞれ紐付ける紐付け部１３ｄｄと、を備える。これにより、ユーザに負荷を与えることなく、効率よく未知語を実対象へ紐付けることができる。

　以上、本開示の各実施形態について説明したが、本開示の技術的範囲は、上述の各実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。

　また、本明細書に記載された各実施形態における効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　自然言語により入力されたテキストから未知のフレーズである未知語を検出する第１の検出部と、
　前記テキストに含まれる既知のフレーズに関する事象の発生を検出する第２の検出部と、
　前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付ける紐付け部と、
　を備える、情報処理装置。
（２）
　前記第１の検出部は、
　前記テキストのＮＬＵ処理において用いられる辞書情報に存在しないフレーズ、または、前記辞書情報に存在するものの前記テキストに基づく情報処理において該フレーズに対応する実対象を一意に特定できないフレーズを前記未知語として検出する、
　前記（１）に記載の情報処理装置。
（３）
　前記第１の検出部は、
　ユーザの会話を通して入力された前記テキストから前記未知語を検出する、
　前記（１）または（２）に記載の情報処理装置。
（４）
　前記第１の検出部は、
　ユーザからの発話指示として入力された前記テキストから前記未知語を検出する、
　前記（１）、（２）または（３）に記載の情報処理装置。
（５）
　前記第２の検出部は、
　前記第１の検出部によって検出された前記未知語が、前記ＮＬＵ処理を介してエンティティとして抽出されるフレーズである場合に、前記ＮＬＵ処理を介して抽出されるインテントの実行を検出し、
　前記紐付け部は、
　前記未知語に対し、前記未知語の検出時の観測コンテキストを前記条件コンテキストとして紐付けるとともに、前記インテントの実行時の観測コンテキストを前記対象コンテキストとして紐付ける、
　前記（２）に記載の情報処理装置。
（６）
　前記紐付け部は、
　移動する状況が観測される場合に、前記未知語に対し、前記未知語の検出時の現在位置を含む所定範囲を示す位置情報を前記条件コンテキストとして紐付けるとともに、前記インテントの実行時の現在位置を示す観測コンテキストを前記対象コンテキストとして紐付ける、
　前記（５）に記載の情報処理装置。
（７）
　前記紐付け部は、
　前記未知語に対し、前記未知語の検出時の時間帯を示す観測コンテキストを前記条件コンテキストとして紐付ける、
　前記（５）または（６）に記載の情報処理装置。
（８）
　前記紐付け部は、
　移動する状況が観測されるとともに、前記ＮＬＵ処理を介して指向性ありとの属性が前記未知語から抽出される場合に、前記未知語に対し、前記未知語の検出時の進行方向から所定角以内の進行方向範囲を示す観測コンテキストを前記条件コンテキストとして紐付ける、
　前記（５）、（６）または（７）に記載の情報処理装置。
（９）
　前記紐付け部は、
　前記未知語に対し、前記未知語の検出時の撮像画像を前記条件コンテキストとして紐付けるとともに、前記インテントの実行時の撮像画像を前記対象コンテキストとして紐付ける、
　前記（５）～（８）のいずれか一つに記載の情報処理装置。
（１０）
　前記第２の検出部は、
　前記第１の検出部によって検出された前記未知語が、前記ＮＬＵ処理を介してエンティティとして抽出されるフレーズである場合に、前記ＮＬＵ処理を介して抽出されるインテントの実行対象となりうる全ての候補をユーザに対し提示したうえで該候補のうちの一つをユーザが選択したことを検出し、
　前記紐付け部は、
　前記未知語に対し、前記未知語の検出時の観測コンテキストを前記条件コンテキストとして紐付けるとともに、ユーザによって選択された前記候補を前記対象コンテキストとして紐付ける、
　前記（２）に記載の情報処理装置。
（１１）
　前記第２の検出部は、
　前記第１の検出部によって検出された前記未知語が、前記ＮＬＵ処理を介してインテントとして抽出されるフレーズである場合に、前記ＮＬＵ処理を介して抽出されるエンティティを対象とする機能の実行を検出し、
　前記紐付け部は、
　前記未知語に対し、前記未知語の検出時の観測コンテキストを前記条件コンテキストとして紐付けるとともに、前記機能を前記対象コンテキストとして紐付ける、
　前記（２）に記載の情報処理装置。
（１２）
　前記紐付け部による紐付け結果をサーバ装置へ送信する送信部
　をさらに備え、
　前記サーバ装置は、
　前記紐付け結果の統計結果に基づき、過去の一定期間内に前記未知語が前記紐付け結果と同一の前記条件コンテキストおよび前記対象コンテキストで所定数以上使用されていないと判定される場合に、当該紐付け結果の配信を抑止する、
　前記（１）～（１１）のいずれか一つに記載の情報処理装置。
（１３）
　前記サーバ装置は、
　前記紐付け結果の統計結果に基づき、特定の条件コンテキストに対する前記未知語の依存性が低下したと判定される場合に、前記未知語に対する当該特定の条件コンテキストの紐付けを解消する、
　前記（１２）に記載の情報処理装置。
（１４）
　自然言語により入力されたテキストから未知のフレーズである未知語を検出する第１の検出部と、
　前記テキストに含まれる既知のフレーズに関する事象の発生を検出する第２の検出部と、
　前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付ける紐付け部と、
　新たな前記テキストに前記既知のフレーズが含まれ、かつ、前記未知語に紐付けられた前記条件コンテキストが観測される場合に、当該未知語を用いた応答を生成するように指示する指示部と、
　を備える、情報処理装置。
（１５）
　前記指示部は、
　前記未知語を用いた応答を生成させる場合に、当該未知語に紐付く前記条件コンテキストを表す画像とともに、当該未知語に紐付く前記対象コンテキストを表す画像とをユーザが視認可能となるように生成させる、
　前記（１４）に記載の情報処理装置。
（１６）
　自然言語により入力されたテキストから未知のフレーズである未知語を検出することと、
　前記テキストに含まれる既知のフレーズに関する事象の発生を検出することと、
　前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付けることと、
　を含む、情報処理方法。
（１７）
　自然言語により入力されたテキストから未知のフレーズである未知語を検出することと、
　前記テキストに含まれる既知のフレーズに関する事象の発生を検出することと、
　前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付けることと、
　新たな前記テキストに前記既知のフレーズが含まれ、かつ、前記未知語に紐付けられた前記条件コンテキストが観測される場合に、当該未知語を用いた応答を生成するように指示することと、
　を含む、情報処理方法。
（１８）
　自然言語により入力されたテキストに含まれるフレーズに基づき、該フレーズに応じた応答を生成するように指示する指示部
　を備え、
　前記指示部は、
　前記テキストから検出された未知のフレーズである未知語に対し紐付けられた、前記未知語の検出時の状況を示す観測コンテキストである条件コンテキストと、前記テキストに含まれる既知のフレーズに関する事象の発生時の状況を示す観測コンテキストである対象コンテキストとに基づき、新たな前記テキストに前記既知のフレーズが含まれ、かつ、前記未知語に紐付けられた前記条件コンテキストが観測される場合に、当該未知語を用いた応答を生成するように指示する、
　情報処理装置。
（１９）
　自然言語により入力されたテキストに含まれるフレーズに基づき、該フレーズに応じた応答を生成するように指示すること
　を含み、
　前記指示することは、
　前記テキストから検出された未知のフレーズである未知語に対し紐付けられた、前記未知語の検出時の状況を示す観測コンテキストである条件コンテキストと、前記テキストに含まれる既知のフレーズに関する事象の発生時の状況を示す観測コンテキストである対象コンテキストとに基づき、新たな前記テキストに前記既知のフレーズが含まれ、かつ、前記未知語に紐付けられた前記条件コンテキストが観測される場合に、当該未知語を用いた応答を生成するように指示する、
　情報処理方法。
（２０）
　コンピュータに、
　自然言語により入力されたテキストから未知のフレーズである未知語を検出すること、
　前記テキストに含まれる既知のフレーズに関する事象の発生を検出すること、
　前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付けること、
　を実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
（２１）
　コンピュータに、
　自然言語により入力されたテキストから未知のフレーズである未知語を検出すること、
　前記テキストに含まれる既知のフレーズに関する事象の発生を検出すること、
　前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付けること、
　新たな前記テキストに前記既知のフレーズが含まれ、かつ、前記未知語に紐付けられた前記条件コンテキストが観測される場合に、当該未知語を用いた応答を生成するように指示すること、
　を実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。

　１　情報処理システム
　１０　情報処理装置
　１１　通信部
　１２　記憶部
　１２ａ　認識モデル
　１２ｂ　未知語情報
　１３　制御部
　１３ａ　音声認識部
　１３ｂ　意味理解部
　１３ｃ　コンテキスト認識部
　１３ｄ　実行対話制御部
　１３ｄａ　未知語検出部
　１３ｄｂ　登録部
　１３ｄｃ　実行検出部
　１３ｄｄ　紐付け部
　１３ｄｅ　指示部
　１３ｅ　応答生成部
　１３ｆ　出力制御部
　１３ｇ　送信部
　１００　サーバ装置
　１０１　通信部
　１０２　記憶部
　１０２ａ　未知語情報ＤＢ
　１０２ｂ　統計情報
　１０２ｃ　認識モデルＤＢ
　１０３　制御部
　１０３ａ　収集部
　１０３ｂ　統計処理部
　１０３ｃ　判定部
　１０３ｄ　学習部
　１０３ｅ　配信部

Claims

　自然言語により入力されたテキストから未知のフレーズである未知語を検出する第１の検出部と、
　前記テキストに含まれる既知のフレーズに関する事象の発生を検出する第２の検出部と、
　前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付ける紐付け部と、
　を備える、情報処理装置。
　前記第１の検出部は、
　前記テキストのＮＬＵ（Natural　Language　Understanding）処理において用いられる辞書情報に存在しないフレーズ、または、前記辞書情報に存在するものの前記テキストに基づく情報処理において該フレーズに対応する実対象を一意に特定できないフレーズを前記未知語として検出する、
　請求項１に記載の情報処理装置。
　前記第１の検出部は、
　ユーザの会話を通して入力された前記テキストから前記未知語を検出する、
　請求項１に記載の情報処理装置。
　前記第１の検出部は、
　ユーザからの発話指示として入力された前記テキストから前記未知語を検出する、
　請求項１に記載の情報処理装置。
　前記第２の検出部は、
　前記第１の検出部によって検出された前記未知語が、前記ＮＬＵ処理を介してエンティティとして抽出されるフレーズである場合に、前記ＮＬＵ処理を介して抽出されるインテントの実行を検出し、
　前記紐付け部は、
　前記未知語に対し、前記未知語の検出時の観測コンテキストを前記条件コンテキストとして紐付けるとともに、前記インテントの実行時の観測コンテキストを前記対象コンテキストとして紐付ける、
　請求項２に記載の情報処理装置。
　前記紐付け部は、
　移動する状況が観測される場合に、前記未知語に対し、前記未知語の検出時の現在位置を含む所定範囲を示す位置情報を前記条件コンテキストとして紐付けるとともに、前記インテントの実行時の現在位置を示す観測コンテキストを前記対象コンテキストとして紐付ける、
　請求項５に記載の情報処理装置。
　前記紐付け部は、
　前記未知語に対し、前記未知語の検出時の時間帯を示す観測コンテキストを前記条件コンテキストとして紐付ける、
　請求項５に記載の情報処理装置。
　前記紐付け部は、
　移動する状況が観測されるとともに、前記ＮＬＵ処理を介して指向性ありとの属性が前記未知語から抽出される場合に、前記未知語に対し、前記未知語の検出時の進行方向から所定角以内の進行方向範囲を示す観測コンテキストを前記条件コンテキストとして紐付ける、
　請求項５に記載の情報処理装置。
　前記紐付け部は、
　前記未知語に対し、前記未知語の検出時の撮像画像を前記条件コンテキストとして紐付けるとともに、前記インテントの実行時の撮像画像を前記対象コンテキストとして紐付ける、
　請求項５に記載の情報処理装置。
　前記第２の検出部は、
　前記第１の検出部によって検出された前記未知語が、前記ＮＬＵ処理を介してエンティティとして抽出されるフレーズである場合に、前記ＮＬＵ処理を介して抽出されるインテントの実行対象となりうる全ての候補をユーザに対し提示したうえで該候補のうちの一つをユーザが選択したことを検出し、
　前記紐付け部は、
　前記未知語に対し、前記未知語の検出時の観測コンテキストを前記条件コンテキストとして紐付けるとともに、ユーザによって選択された前記候補を前記対象コンテキストとして紐付ける、
　請求項２に記載の情報処理装置。
　前記第２の検出部は、
　前記第１の検出部によって検出された前記未知語が、前記ＮＬＵ処理を介してインテントとして抽出されるフレーズである場合に、前記ＮＬＵ処理を介して抽出されるエンティティを対象とする機能の実行を検出し、
　前記紐付け部は、
　前記未知語に対し、前記未知語の検出時の観測コンテキストを前記条件コンテキストとして紐付けるとともに、前記機能を前記対象コンテキストとして紐付ける、
　請求項２に記載の情報処理装置。
　前記紐付け部による紐付け結果をサーバ装置へ送信する送信部
　をさらに備え、
　前記サーバ装置は、
　前記紐付け結果の統計結果に基づき、過去の一定期間内に前記未知語が前記紐付け結果と同一の前記条件コンテキストおよび前記対象コンテキストで所定数以上使用されていないと判定される場合に、当該紐付け結果の配信を抑止する、
　請求項１に記載の情報処理装置。
　前記サーバ装置は、
　前記紐付け結果の統計結果に基づき、特定の条件コンテキストに対する前記未知語の依存性が低下したと判定される場合に、前記未知語に対する当該特定の条件コンテキストの紐付けを解消する、
　請求項１２に記載の情報処理装置。
　自然言語により入力されたテキストから未知のフレーズである未知語を検出する第１の検出部と、
　前記テキストに含まれる既知のフレーズに関する事象の発生を検出する第２の検出部と、
　前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付ける紐付け部と、
　新たな前記テキストに前記既知のフレーズが含まれ、かつ、前記未知語に紐付けられた前記条件コンテキストが観測される場合に、当該未知語を用いた応答を生成するように指示する指示部と、
　を備える、情報処理装置。
　前記指示部は、
　前記未知語を用いた応答を生成させる場合に、当該未知語に紐付く前記条件コンテキストを表す画像とともに、当該未知語に紐付く前記対象コンテキストを表す画像をユーザが視認可能となるように生成させる、
　請求項１４に記載の情報処理装置。
　自然言語により入力されたテキストから未知のフレーズである未知語を検出することと、
　前記テキストに含まれる既知のフレーズに関する事象の発生を検出することと、
　前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付けることと、
　を含む、情報処理方法。
　自然言語により入力されたテキストから未知のフレーズである未知語を検出することと、
　前記テキストに含まれる既知のフレーズに関する事象の発生を検出することと、
　前記未知語に対し、前記未知語の検出時の状況を示す観測コンテキストを条件コンテキストとして、前記事象の発生時の状況を示す観測コンテキストを対象コンテキストとして、それぞれ紐付けることと、
　新たな前記テキストに前記既知のフレーズが含まれ、かつ、前記未知語に紐付けられた前記条件コンテキストが観測される場合に、当該未知語を用いた応答を生成するように指示することと、
　を含む、情報処理方法。