WO2017149868A1

WO2017149868A1 - 情報処理装置、情報処理方法、およびプログラム

Info

Publication number: WO2017149868A1
Application number: PCT/JP2016/085030
Authority: WO
Inventors: 浩明小川
Original assignee: ソニー株式会社
Priority date: 2016-03-01
Filing date: 2016-11-25
Publication date: 2017-09-08
Also published as: JP2017156511A; US10522145B2; EP3425631A4; US20190057696A1; EP3425631A1

Abstract

【課題】音声の集音時の状況に適応的に、音声の認識結果の意味を解釈することが可能な、情報処理装置、情報処理方法、およびプログラムを提案する。【解決手段】集音されたユーザの音声の認識結果と、前記音声の集音時のコンテキスト情報とに基づいて、前記認識結果の意味を解釈する意味解釈部、を備える、情報処理装置。

Description

情報処理装置、情報処理方法、およびプログラム

　本開示は、情報処理装置、情報処理方法、およびプログラムに関する。

　従来、例えば車、ロボット、および、ドローンなどの、自律移動可能な機器を制御するための技術が各種提案されている。

　例えば、下記特許文献１には、ウェブパッドに対するユーザの操作に基づいて、ロボットの動作を制御する技術が記載されている。また、下記特許文献２には、タッチスクリーンに表示されるＣＧ映像に対するタッチ操作に応じて、ロボットの動作を制御する技術が記載されている。

特表２０１４－５０５９３４号公報特開２０１２－１７１０２４号公報

　ところで、自律移動可能な機器に対して音声で命令を行うことも望まれる。例えば、医師が手術を行う際には、手が塞がっているので、機器に対して音声により命令を行う需要が非常に大きい。

　しかしながら、機器に対して音声で命令を行う場面に特許文献１および特許文献２に記載の技術を適用することを想定すると、特許文献１および特許文献２に記載の技術では、音声の集音時の状況によらずに、当該音声の認識結果の意味を解釈する。このため、上記の技術では、例えば、当該認識結果をユーザの意図とは異なる意味に解釈してしまう恐れが大きい。

　そこで、本開示では、音声の集音時の状況に適応的に、音声の認識結果の意味を解釈することが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提案する。

　本開示によれば、集音されたユーザの音声の認識結果と、前記音声の集音時のコンテキスト情報とに基づいて、前記認識結果の意味を解釈する意味解釈部、を備える、情報処理装置が提供される。

　また、本開示によれば、集音されたユーザの音声の認識結果と、前記音声の集音時のコンテキスト情報とに基づいて、前記認識結果の意味をプロセッサが解釈すること、を含む、情報処理方法が提供される。

　また、本開示によれば、コンピュータを、集音されたユーザの音声の認識結果と、前記音声の集音時のコンテキスト情報とに基づいて、前記認識結果の意味を解釈する意味解釈部、として機能させるための、プログラムが提供される。

　以上説明したように本開示によれば、音声の集音時の状況に適応的に、音声の認識結果の意味を解釈することができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

第１の実施形態による情報処理システムの構成例を示した説明図である。車１０の内部または外部においてユーザが音声で命令を行う様子を示した説明図である。第１の実施形態による車１０の構成例を示した機能ブロック図である。第１の実施形態による意味解釈部１０８の構成例を示した機能ブロック図である。第１の実施形態による自然言語知識ＤＢ１２４の構成例を示した説明図である。第１の実施形態による曖昧性解消知識ＤＢ１２６の構成例を示した説明図である。車１０の外部から「Ｇｏ　ｒｉｇｈｔ！」と発声された場合における音声の意味解釈の例を示した説明図である。第１の実施形態による地図画面の表示例を示した説明図である。車１０の外部から「Ｇｏ　ｒｉｇｈｔ！」と発声された場合における音声の意味解釈の変形例を示した説明図である。第１の実施形態による動作例を示したフローチャートである。第２の実施形態による、二人のユーザのうちの一人がロボット４０に対して音声で命令を行っている様子を示した説明図である。第２の実施形態によるロボット４０の構成例を示した機能ブロック図である。第３の実施形態による情報処理システムの構成例を示した説明図である。第３の実施形態による情報処理装置５０および内視鏡６０の構成例を示した機能ブロック図である。「右側を見せて！」と発声された場合における音声の意味解釈の例を示した説明図である。「光を右側へずらせ！」と発声された場合における音声の意味解釈の例を示した説明図である。第４の実施形態によるロボット８０に対して音声で命令を行っている様子を示した説明図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の構成を、必要に応じて車１０ａおよび車１０ｂのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、車１０ａおよび車１０ｂを特に区別する必要が無い場合には、単に車１０と称する。

　また、以下に示す項目順序に従って当該「発明を実施するための形態」を説明する。
　１．背景
　２．第１の実施形態
　３．第２の実施形態
　４．第３の実施形態
　５．第４の実施形態
　６．変形例

＜＜１．背景＞＞
　最初に、本開示の特徴を明確に示すために、本開示を創作するに至った背景について説明する。従来、例えば自動運転機能を有する車、ロボット、および、ドローンなど、自律移動可能な機器が各種開発されている。そして、これらの機器は、音声認識機能を搭載することが可能である。例えば、ロボットに対してユーザが「手を上げろ」と命令を発声した場合には、ロボットは、当該音声を認識することにより、ロボットのアームを上に上げるように制御することが可能である。

　また、ロボットを外部から遠隔操作することも可能である。例えば、ロボットから離れて位置するユーザが、スマートフォンなどの端末に対して、ロボットに対する命令を発声した場合には、まず、当該端末は、集音された音声をロボットへ送信する。そして、ロボットは、受信した音声を認識することにより、当該音声の認識結果に基づく制御を実行することが可能である。

　また、ロボットに搭載されたカメラにより撮影された映像をユーザが例えばウェアラブルデバイスなどの表示装置で見ながら、ロボットに対して音声で命令を行うことも可能である。

　なお、ユーザがロボットに対して音声で命令を行う場合には、入力されたユーザの音声信号が音声認識されることによりテキストに変換され、そして、変換後のテキストに対して意味解釈が行われることにより、ロボットは、当該命令の意味を解釈する。

　＜１‐１．課題の整理＞
　しかしながら、公知の技術では、ユーザによる命令の音声の意味をロボットが適切に解釈できない場合がある。例えば、「Ｇｏ　ｒｉｇｈｔ！」といった、「右」や「左」などの相対的な表現を含む命令の場合には、ロボットは、音声認識の結果だけでは、当該認識結果をユーザの意図とは異なる意味に解釈してしまう恐れが大きい。より具体的には、ユーザの向きを基準とした右の方向であるのか、あるいは、ロボットの向きを基準とした右の方向であるのかを、ロボットは、音声認識の結果だけでは特定することができない。

　また、同じ音声（例えば「Ｇｏ　ｒｉｇｈｔ！」）であっても、音声を発した状況によって、ユーザが意図する意味は変化し得る。例えば、ロボットに搭載されたカメラで撮影された映像を見ながらユーザが命令を発声する場面では、当該映像上の右方向へロボットが移動することをユーザが望む場合が多い。また、例えば地図画面など、ロボットの現在位置を上から俯瞰する画面を見ながらユーザが命令を行う場面では、画面上の右方向へロボットが移動することをユーザが望む場合が多い。

　そこで、上記事情を一着眼点にして、本開示を創作するに至った。本開示によれば、機器に対して命令が発声された場合に、音声の認識結果と、音声の集音時のコンテキスト情報とに基づいて、命令の意味を解釈することが可能である。これにより、命令が発声された状況に応じて、ユーザの直感に沿うように命令の意味を特定することができる。以下、このような本開示の各実施形態について順次説明を行う。

＜＜２．第１の実施形態＞＞
　＜２－１．情報処理システムの構成＞
　まず、第１の実施形態について説明する。第１の実施形態では、自動運転機能を有する車１０に対してユーザが音声により命令を与えることにより、車１０を移動させる場面を想定する。図１は、第１の実施形態による情報処理システムの構成を示した説明図である。図１に示すように、第１の実施形態による情報処理システムは、車１０、ＨＭＤ２０、タブレット端末２２、および、通信網２４を含む。

　{２－１－１．車１０}
　車１０は、本開示における情報処理装置および機器の一例である。車１０は、音声認識機能を有し、そして、音声認識の結果に基づいて移動を制御することが可能である。

　例えば、図２の（ａ）に示すように、車１０は、乗車しているユーザ２の音声を、車１０の内部に設置されている内部集音部１００により集音し、そして、集音した音声を認識することが可能である。また、図２の（ｂ）に示すように、車１０は、車１０の外部に位置するユーザ２の音声を、車１０の外部に設置されている外部集音部１０２により集音し、そして、集音した音声を認識することが可能である。

　また、車１０は、車１０の前方方向の映像を撮影する撮影部（図示省略）、および、後方方向の映像を撮影する撮影部（図示省略）を有し得る。なお、撮影部は、車１０の外部に設置されていてもよいし、車１０の内部に設置されていてもよいし、または、車１０の外部および内部の両方に設置されていてもよい。

　また、図１に示すように、車１０は、通信網２４を介して、ＨＭＤ２０およびタブレット端末２２との間で情報を送受信することが可能である。ここで、ＨＭＤ２０およびタブレット端末２２は、基本的には、車１０の遠隔に位置するユーザにより使用される。但し、かかる例に限定されず、ＨＭＤ２０およびタブレット端末２２は、車１０に乗車しているユーザにより使用されてもよい。

　例えば、車１０は、撮影部により撮影された映像などをＨＭＤ２０またはタブレット端末２２へ送信することが可能である。また、車１０は、ＨＭＤ２０またはタブレット端末２２により集音されるユーザの音声を、ＨＭＤ２０またはタブレット端末２２からそれぞれ受信することが可能である。そして、車１０は、ＨＭＤ２０またはタブレット端末２２から受信される命令の音声を認識し、そして、認識結果に基づいて制御を行うことが可能である。

　{２－１－２．ＨＭＤ２０}
　ＨＭＤ２０は、装着型の装置である。ＨＭＤ２０は、表示画面を表示する表示部、および、ユーザの音声を集音する第１遠隔集音部２００を備える。また、ＨＭＤ２０は、通信網２４を介して車１０との間で情報を送受信することが可能である。例えば、ＨＭＤ２０は、車１０に設置されている撮影部により撮影された映像を車１０から受信する。そして、受信した映像を表示部に表示することが可能である。

　また、第１遠隔集音部２００は、車１０から受信された映像の表示時などにおいて、車１０に対する、ユーザの命令の音声を集音する。そして、ＨＭＤ２０は、第１遠隔集音部２００により集音された音声と、集音時のコンテキスト情報（例えば、集音時に車１０のいずれの方向の映像が表示部に表示されていたかなどを示す情報）とを車１０へ送信することが可能である。

　{２－１－３．タブレット端末２２}
　タブレット端末２２は、表示画面を表示する表示部、および、ユーザの音声を集音する第２遠隔集音部２２０を備える。例えば、表示部は、地図画面などの各種の表示画面を表示する。また、第２遠隔集音部２２０は、地図画面の表示時などにおいて、車１０に対するユーザの命令の音声を集音する。そして、タブレット端末２２は、集音された音声と、集音時のコンテキスト情報（例えば、表示部に表示されている地図画面の表示方向と方位との関係性を示す情報など）とを通信網２４を介して車１０へ送信することが可能である。

　{２－１－４．通信網２４}
　通信網２４は、通信網２４に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網２４は、電話回線網、インターネット、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などを含んでもよい。また、通信網２４は、ＩＰ－ＶＰＮ（Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ－Ｖｉｒｔｕａｌ　Ｐｒｉｖａｔｅ　Ｎｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

　＜２－２．構成＞
　以上、第１の実施形態による情報処理システムの構成について説明した。次に、第１の実施形態による車１０の構成について詳細に説明する。図３は、第１の実施形態による車１０の構成例を示した機能ブロック図である。図３に示すように、車１０は、内部集音部１００、外部集音部１０２、通信部１０４、音声認識部１０６、意味解釈部１０８、制御部１１０、および、駆動部１１２を有する。

　{２－２－１．内部集音部１００}
　内部集音部１００は、車内に設置されている集音部である。例えば、内部集音部１００は、車内の音（空気振動）を検出し、そして、電気信号に変換する。また、内部集音部１００は、集音した音声と、集音時のコンテキスト情報（例えば、当該音声が内部集音部１００により集音されたことを示す情報など）とを音声認識部１０６へ伝達する。

　{２－２－２．外部集音部１０２}
　外部集音部１０２は、車１０の外部に設置されている集音部である。例えば、外部集音部１０２は、車１０の外部の音を検出し、そして、電気信号に変換する。また、外部集音部１０２は、集音した音声と、集音時のコンテキスト情報（例えば、当該音声の到来方向や到来時刻など）とを音声認識部１０６へ伝達する。

　{２－２－３．通信部１０４}
　通信部１０４は、例えば通信網２４を介して他の装置との間で情報の送受信を行う。例えば、通信部１０４は、集音された音声と、集音時のコンテキスト情報とをＨＭＤ２０またはタブレット端末２２から受信する。

　また、通信部１０４は、受信した音声およびコンテキスト情報を音声認識部１０６へ伝達する。

　{２－２－４．音声認識部１０６}
　音声認識部１０６は、内部集音部１００、外部集音部１０２、または、通信部１０４から伝達される音声を認識し、文字列に変換する。また、音声認識部１０６は、音声の認識結果と、伝達されたコンテキスト情報とを意味解釈部１０８へ伝達する。

　{２－２－５．意味解釈部１０８}
　意味解釈部１０８は、音声認識部１０６による認識結果と、集音時のコンテキスト情報とに基づいて、当該認識結果の意味を解釈する。図４は、意味解釈部１０８の詳細な構成例を示した機能ブロック図である。図４に示すように、意味解釈部１０８は、自然言語処理部１２０、および、曖昧性解消部１２２を有する。

　{２－２－６．自然言語処理部１２０}
　自然言語処理部１２０は、音声認識部１０６による認識結果を意味表現に変換する。例えば、自然言語処理部１２０は、当該認識結果に基づいて自然言語知識ＤＢ１２４を参照することにより、当該認識結果を意味表現に変換する。

　ここで、自然言語知識ＤＢ１２４は、文字列ごとの意味表現が格納されているデータベースである。図５は、自然言語知識ＤＢ１２４の構成例を示した説明図である。図５に示したように、自然言語知識ＤＢ１２４では、文字列１２４０、および、意味表現１２４２が対応付けられている。ここで、文字列１２４０には、複数の種類の文字列（例えば会話文など）が予め記録される。また、意味表現１２４２には、該当の文字列に対応する意味表現が記録される。例えば、図５に示した例では、文字列「Ｇｏ　ｒｉｇｈｔ！」に対応する意味表現として、「ＧＯ＿ＲＩＧＨＴ＿ＳＵＢＪＥＣＴＩＶＥ」が格納されている例を示している。

　なお、変形例として、自然言語処理部１２０は、例えば、「Ｇｏｋｈａｎ　Ｔｕｒ，Ｒｅｎａｔｏ　Ｄｅ　Ｍｏｒｉ：　“Ｓｐｏｋｅｎ　Ｌａｎｇｕａｇｅ　Ｕｎｄｅｒｓｔａｎｄｉｎｇ：　Ｓｙｓｔｅｍｓ　ｆｏｒ　Ｅｘｔｒａｃｔｉｎｇ　Ｓｅｍａｎｔｉｃ　Ｉｎｆｏｒｍａｔｉｏｎ　ｆｒｏｍ　Ｓｐｅｅｃｈ”，Ｗｉｌｅｙ，２０１１．」に記載されているような公知の変換方法を用いて、認識結果を意味表現に変換することも可能である。

　{２－２－７．曖昧性解消部１２２}
　曖昧性解消部１２２は、自然言語処理部１２０により変換された意味表現が曖昧性を含む場合に、集音時のコンテキスト情報に基づいて、当該意味表現の曖昧性を解消する。例えば、曖昧性解消部１２２は、自然言語処理部１２０から伝達される意味表現と、集音時のコンテキスト情報とに基づいて、後述する曖昧性解消知識ＤＢ１２６を参照することにより、当該意味表現の曖昧性を解消する。

　（２－２－７－１．コンテキスト情報）
　ここで、コンテキスト情報は、例えば、集音時における車１０とユーザとの位置関係を示す情報を含み得る。例えば、コンテキスト情報は、集音時において、ユーザが車１０の内部に位置したか否か、また、ユーザが車１０の遠隔に位置したか否かを示す。また、車１０の外部に位置した場合に関しては、コンテキスト情報は、車１０に対して前後左右のいずれの方向に位置していたかを示す。なお、コンテキスト情報には、前後左右の４方向に限定されず、例えば斜めの方向や、右から３０°の方向など、より詳細な方向が記録されていてもよい。

　例えば、内部集音部１００により音声が集音された場合には、ユーザが車１０の内部に位置していたことを示すように、コンテキスト情報は生成され得る。また、外部集音部１０２により音声が集音された場合には、ユーザが車１０の外部に位置していたこと、および、当該音声の到来方向および到来時刻を含むように、コンテキスト情報は生成され得る。また、第１遠隔集音部２００または第２遠隔集音部２２０により音声が集音された場合には、ユーザが車１０の遠隔に位置していたことを示すように、コンテキスト情報は生成され得る。

　また、コンテキスト情報は、集音時において、表示部に表示されていた画像に関する情報を含み得る。例えば、第１遠隔集音部２００により音声が集音された場合には、集音時においてＨＭＤ２０の表示部に表示されていた映像（例えば車１０のいずれの方向の映像が表示部に表示されていたかなど）の情報を含むように、コンテキスト情報は生成され得る。また、第２遠隔集音部２２０により音声が集音された場合には、集音時においてタブレット端末２２の表示部に表示されていた表示画面（例えば地図画面など）に関する情報を含むように、コンテキスト情報は生成され得る。例えば、コンテキスト情報は、当該表示部に表示されている地図画面の表示方向と方位との関係性を示す情報を含む。

　または、コンテキスト情報は、集音時におけるユーザの視線に関する検出結果を含み得る。例えば、車１０の外部に設置されているカメラによる撮影に基づいて検出された、車１０の外部に位置するユーザの視線方向を含むように、コンテキスト情報は生成され得る。または、車１０の内部に設置されているカメラによる撮影に基づいて検出された、乗車中のユーザの視線方向を含むように、コンテキスト情報は生成され得る。

　（２－２－７－２．曖昧性解消知識ＤＢ１２６）
　曖昧性解消知識ＤＢ１２６は、意味表現ごとの曖昧性の解消方法が格納されているデータベースである。図６は、曖昧性解消知識ＤＢ１２６の構成例を示した説明図である。図６に示したように、曖昧性解消知識ＤＢ１２６では、意味表現１２６０、内部集音部１２６２、外部集音部１２６４、第１遠隔集音部１２６６、および、第２遠隔集音部１２６８が対応付けられている。ここで、意味表現１２６０には、曖昧性を有する、複数の種類の意味表現が記録される。また、内部集音部１２６２、外部集音部１２６４、第１遠隔集音部１２６６、および、第２遠隔集音部１２６８にはそれぞれ、（該当の音声の送信元である）集音部ごとの、該当の意味表現に対応する解釈方法が記録される。

　なお、曖昧性解消知識ＤＢ１２６に対する解釈方法の登録は、例えば車の所持者などのユーザが初期設定を行うことによりなされ得る。または、車１０の内部または外部に設置されているカメラによる撮影画像などに基づいて、初期設定を行おうとしているユーザ（発話者）を特定することにより、ユーザごとに解釈方法が曖昧性解消知識ＤＢ１２６に登録され得る。

　または、曖昧性解消知識ＤＢ１２６の内容は自動で登録可能であってもよい。例えば、車１０に設置されているカメラによる撮影画像などに基づいて、登録を要求しているユーザが特定され、そして、当該ユーザの属性情報（例えば年齢、性別など）に対応付けて予め機械学習により得られている解釈方法が、曖昧性解消知識ＤＢ１２６に自動的に登録されてもよい。

　（２－２－７－３．解釈例１）
　‐内部集音部１００による集音時
　ここで、図６に示した意味表現「ＧＯ＿ＲＩＧＨＴ＿ＳＵＢＪＥＣＴＩＶＥ」に関して、曖昧性解消部１２２による解釈方法について詳細に説明する。例えば、該当の音声（「Ｇｏ　ｒｉｇｈｔ！」）が内部集音部１００により集音された場合には、曖昧性解消部１２２は、意味表現を「ＧＯ＿ＲＩＧＨＴ」、すなわち、車１０を右折させる命令として解釈する。

　‐外部集音部１０２による集音時
　また、該当の音声が外部集音部１０２により集音された場合には、曖昧性解消部１２２は、ユーザの前方方向を基準として右方向へ車１０を移動させるように、当該意味表現を解釈する。具体的には、曖昧性解消部１２２は、集音時における該当の音声の到来方向に基づいて、当該意味表現を解釈する。

　ここで、図７を参照して、上記の機能についてより詳細に説明する。図７は、車１０の前後左右の各々の方向からユーザが「Ｇｏ　ｒｉｇｈｔ！」という音声を発した場合における当該音声の意味の解釈方法を示した説明図である。例えば、図７の（ａ）に示したように、車１０の前方から該当の音声が到来した場合（ＦＲＯＮＴ＿ＶＯＩＣＥ）には、曖昧性解消部１２２は、図６に示したように、当該意味表現を「ＧＯ＿ＬＥＦＴ」、すなわち、車１０を左折させる命令として解釈する。また、図７の（ｂ）に示したように、車１０の右から音声が到来した場合（ＲＩＧＨＴ＿ＶＯＩＣＥ）には、曖昧性解消部１２２は、図６に示したように、当該意味表現を「ＧＯ＿ＦＲＯＮＴ」、すなわち、車１０を前進させる命令として解釈する。また、図７の（ｃ）に示したように、車１０の左から音声が到来した場合（ＬＥＦＴ＿ＶＯＩＣＥ）には、曖昧性解消部１２２は、図６に示したように、当該意味表現を「ＢＡＣＫ＿ＦＯＷＡＲＤ」、すなわち、車１０をバックさせる命令として解釈する。また、図７の（ｄ）に示したように、車１０の後ろから音声が到来した場合には、曖昧性解消部１２２は、図６に示したように、当該意味表現を「ＢＡＣＫ＿ＲＩＧＨＴ」、すなわち、車１０を右へバックさせる命令として解釈する。

　‐第１遠隔集音部２００による集音時
　また、該当の音声が第１遠隔集音部２００（ＨＭＤ２０）により集音された場合には、曖昧性解消部１２２は、集音時にＨＭＤ２０の表示部に表示されていた映像に基づいて、当該意味表現を解釈する。例えば、該当の音声の集音時に、車１０の前方が撮影された映像がＨＭＤ２０に表示されていた場合（ＦＲＯＮＴＶＩＥＷ）には、曖昧性解消部１２２は、図６に示したように、当該意味表現を「ＧＯ＿ＲＩＧＨＴ」、すなわち、車１０を右折させる命令として解釈する。また、該当の音声の集音時に、車１０の後方が撮影された映像がＨＭＤ２０に表示されていた場合には、曖昧性解消部１２２は、図６に示したように、当該意味表現を「ＢＡＣＫ＿ＬＥＦＴ」、すなわち、車１０を左へバックさせる命令として解釈する。

　‐第２遠隔集音部２２０による集音時
　また、該当の音声が第２遠隔集音部２２０（タブレット端末２２）により集音された場合には、曖昧性解消部１２２は、集音時にタブレット端末２２の表示部に表示されていた画面に基づいて、当該意味表現を解釈する。例えば、曖昧性解消部１２２は、集音時にタブレット端末２２の表示部に表示されていた地図画面の表示方向と方位との関係性に基づいて、当該意味表現を解釈する。

　ここで、図８を参照して、上記の機能についてより詳細に説明する。図８は、地図画面の表示例（地図画面３０）を示した説明図である。なお、図８では、地図画面３０の上側が「西」を向くような表示向きで表示されている例を示している。また、位置３００は、地図画面３０における現在の車１０の位置を示している。

　例えば、該当の音声の集音時に、タブレット端末２２の表示部に地図画面３０が表示されていた場合には、曖昧性解消部１２２は、図６に示したように、当該意味表現を「ＧＯ＿ＤＩＲ（ＭＡＰ＿ＲＩＧＨＴ）」、すなわち、地図画面３０における右方向に対応する方位（図８に示した例では「北」）へ車１０を移動させる命令として解釈する。

　（２－２－７－４．解釈例２）
　ところで、複数の集音部によりユーザの音声が集音される場合も想定される。例えば内部集音部１００および外部集音部１０２によりユーザの音声が集音された場合には、曖昧性解消部１２２は、内部集音部１００および外部集音部１０２のうちいずれかに対応する解釈方法を用いて、当該音声に対応する意味表現の解釈を行うことが可能である。例えば、曖昧性解消部１２２は、内部集音部１００および外部集音部１０２のうち、集音された音の大きさがより大きい集音部に対応する解釈方法を用いて、当該意味表現の解釈を行ってもよい。または、曖昧性解消部１２２は、内部集音部１００および外部集音部１０２のうち、音の到達時間がより早かった集音部に対応する解釈方法を用いて、当該意味表現の解釈を行ってもよい。

　また、タブレット端末２２が車１０の内部に位置しており、かつ、内部集音部１００およびタブレット端末２２（第２遠隔集音部２２０）によりユーザの音声が集音される場合も想定される。この場合には、曖昧性解消部１２２は、集音時においてタブレット端末２２を操作していたことが推定されるか否かに基づいて、該当の音声に対応する意味表現の解釈を行ってもよい。例えば、集音時においてタブレット端末２２を操作していることが推定される場合には、曖昧性解消部１２２は、タブレット端末２２に対応する解釈方法を用いて、当該意味表現の解釈を行う。また、集音時においてタブレット端末２２を操作していないことが推定される場合には、曖昧性解消部１２２は、内部集音部１００に対応する解釈方法を用いて、当該意味表現の解釈を行う。

　なお、タブレット端末２２をユーザが操作していることは、タブレット端末２２の測定結果に基づいて推定され得る。例えば、タブレット端末２２が動いていることがタブレット端末２２の加速度センサにより検出される場合、または、タブレット端末２２をユーザが持っていること（タブレット端末２２の傾き）がタブレット端末２２のジャイロスコープにより検出される場合などに、タブレット端末２２をユーザが操作していると推定される。

　（２－２－７－５．変形例１）
　なお、変形例として、曖昧性解消部１２２は、集音時にユーザが見ていたことが推定される映像に基づいて、集音された音声に対応する意味表現の曖昧性を解消することも可能である。例えば、ユーザが車１０の内部に位置しており、かつ、「Ｇｏ　ｒｉｇｈｔ！」という音声が内部集音部１００により集音された場合には、曖昧性解消部１２２は、車１０の内部に設置されているカメラによる撮影画像から特定されるユーザの視線方向に基づいて、当該音声に対応する意味表現の曖昧性を解消してもよい。

　より具体的には、集音時のユーザの視線方向が車１０の前方であることが特定される場合には、曖昧性解消部１２２は、当該意味表現を、車１０を右折させる命令として解釈してもよい。また、集音時のユーザの視線方向が車１０の後方であることが特定される場合には、曖昧性解消部１２２は、当該意味表現を、車１０を左へバックさせる命令として解釈してもよい。また、集音時のユーザの視線方向が車１０の右方向であることが特定される場合には、曖昧性解消部１２２は、当該意味表現を、車１０をバックさせる命令として解釈してもよい。また、集音時のユーザの視線方向が車１０の左方向であることが特定される場合には、曖昧性解消部１２２は、当該意味表現を、車１０を前進させる命令として解釈してもよい。

　また、ユーザが車１０の外部に位置しており、かつ、「Ｇｏ　ｒｉｇｈｔ！」という音声が外部集音部１０２により集音された場合には、曖昧性解消部１２２は、車１０の外部に設置されているカメラによる撮影画像から特定されるユーザの視線方向に基づいて、当該音声に対応する意味表現の曖昧性を解消することも可能である。ここで、図９を参照して、上記の機能についてより詳細に説明する。例えば、図９の（ａ）に示したように、ユーザが車１０の左側に位置しており、かつ、集音時におけるユーザの視線方向が車１０の前方であることが特定される場合には、曖昧性解消部１２２は、当該意味表現を、車１０を右折させる命令として解釈してもよい。また、図９の（ｂ）に示したように、ユーザが車１０の左側に位置しており、かつ、集音時におけるユーザの視線方向が車１０の後方であることが特定される場合には、曖昧性解消部１２２は、当該意味表現を、車１０を左へバックさせる命令として解釈してもよい。この解釈例によれば、ユーザが同じ場所に位置していても、命令の発声時においてユーザが見ている方向に応じて、音声認識結果の意味解釈を適切に切り替えることができる。

　（２－２－７－６．変形例２）
　なお、図６に示した曖昧性解消知識ＤＢ１２６の例では、「Ｇｏ　ｒｉｇｈｔ！」という音声が外部集音部１０２により集音される場合にはユーザにとっての右方向へ車１０を移動させるような解釈方法を示しているが、かかる例に限定されない。例えば、「Ｇｏ　ｒｉｇｈｔ！」という音声が外部集音部１０２により集音された場合には常に車１０にとっての右方向へ車１０を移動させるように曖昧性解消知識ＤＢ１２６が登録されてもよい。また、個々の意味表現に対応する解釈方法は、ユーザの好みに応じて切り替え可能であってもよい。

　{２－２－８．制御部１１０}
　制御部１１０は、意味解釈部１０８による意味解釈の結果に基づいて、制御コマンドを生成する。例えば、制御部１１０は、車１０の移動に関する制御コマンドを生成する。また、制御部１１０は、生成した制御コマンドを駆動部１１２へ伝達する。

　{２－２－９．駆動部１１２}
　駆動部１１２は、制御部１１０から伝達される制御コマンドに従って、例えばエンジンなどを駆動する。

　なお、第１の実施形態による車１０の構成は、上述した例に限定されない。例えば、内部集音部１００または外部集音部１０２は、車１０に固定されていなくてもよい。また、例えば、音声認識部１０６、意味解釈部１０８、および、制御部１１０は、通信網２４に接続されたサーバ（図示省略）に備えられてもよい。そして、この変形例では、当該サーバが、本開示における情報処理装置になり得る。また、車１０は、ユーザによる命令の音声に対応する制御コマンドを通信網２４を介して当該サーバから取得することが可能である。

　＜２－３．動作＞
　以上、第１の実施形態による構成について説明した。次に、第１の実施形態による動作の一例について、図１０を参照して説明する。

　図１０に示したように、まず、内部集音部１００、外部集音部１０２、第１遠隔集音部２００、または、第２遠隔集音部２２０のうちいずれかは、ユーザにより発せられた音声を集音する。そして、該当の集音部は、集音した音声と、集音時のコンテキスト情報とを音声認識部１０６へ伝達する（Ｓ１０１）。

　続いて、音声認識部１０６は、Ｓ１０１で伝達された音声を認識する（Ｓ１０３）。そして、意味解釈部１０８（自然言語処理部１２０）は、自然言語知識ＤＢ１２４を参照することにより、音声認識の結果を意味表現に変換する（Ｓ１０５）。

　続いて、意味解釈部１０８（曖昧性解消部１２２）は、変換後の意味表現が曖昧性を含むか否かを判定する（Ｓ１０７）。曖昧性が無い場合には（Ｓ１０７：Ｎｏ）、車１０は、後述するＳ１１３の処理を行う。

　一方、曖昧性が有る場合には（Ｓ１０７：Ｙｅｓ）、意味解釈部１０８は、Ｓ１０５で変換された意味表現と、Ｓ１０１で取得されたコンテキスト情報とに基いて、曖昧性解消知識ＤＢ１２６を参照することにより、当該意味表現の曖昧性の解消方法を特定する（Ｓ１０９）。

　そして、意味解釈部１０８は、特定した解消方法を用いて、当該意味表現の曖昧性を解消する（Ｓ１１１）。

　続いて、制御部１１０は、Ｓ１０５、もしくは、Ｓ１１１による意味解釈の結果に基づいて制御コマンドを生成する（Ｓ１１３）。

　その後、駆動部１１２は、生成された制御コマンドに従って、エンジンなどを駆動する（Ｓ１１５）。

　＜２－４．効果＞
　以上説明したように、第１の実施形態によれば、車１０に対して命令が発声された場合に、車１０は、当該音声の認識結果と、集音時のコンテキスト情報とに基づいて、命令の意味を解釈する。このため、命令が発声された状況に応じて命令の意味を適切に解釈することができる。

　例えば、音声認識の結果に対応する意味表現が曖昧性を含む場合には、車１０は、集音時における例えば車１０とユーザとの位置関係や、ＨＭＤ２０またはタブレット端末２２に表示されていた画像の内容などに基づいて、当該意味表現の曖昧性を解消する。このため、例えば、方向に関する曖昧性を含む命令が発声された場合であっても、車１０は、ユーザ（発話者）の直感に沿うように命令の意味を解釈し、移動することができる。

＜＜３．第２の実施形態＞＞
　＜３－１．概要＞
　以上、第１の実施形態について説明した。次に、第２の実施形態について説明する。図１１は、第２の実施形態の概要を示した説明図である。図１１に示したように、第２の実施形態では、例えば、二人のユーザ２がロボット４０を挟んで位置しており、かつ、ユーザ２ｂのみがロボット４０に対して命令を発声している場面を想定する。例えば、ユーザ２ｂは「Ｃｏｍｅ　ｏｎ！」という音声により、ロボット４０に対して移動の指示を与える。

　ところで、「Ｃｏｍｅ　ｏｎ！」という命令は、音声を発したユーザの方へロボット４０を近づかせる命令であるので、ロボット４０は、まず、二人のユーザのうち音声を発したユーザがいずれであるかを特定する必要がある。

　後述するように、第２の実施形態によるロボット４０は、複数のユーザのうちのいずれかから命令が発声された場合に、当該音声を発したユーザを特定することができる。さらに、ロボット４０は、特定したユーザと、当該音声の認識結果とに基いて、当該認識結果の意味を適切に解釈することができる。なお、ロボット４０は、本開示における情報処理装置および機器の一例である。

　＜３－２．構成＞
　次に、第２の実施形態による構成について詳細に説明する。図１２は、第２の実施形態によるロボット４０の構成例を示した機能ブロック図である。図１２に示すように、ロボット４０は、集音部１５０、音声認識部１０６、意味解釈部１０８、制御部１１０、および、駆動部１１２を有する。なお、以下では、第１の実施形態とは異なる機能を有する構成要素についてのみ説明を行う。

　{３－２－１．集音部１５０}
　集音部１５０は、ロボット４０の外部の音を検出し、そして、電気信号に変換する。また、集音部１５０は、集音した音声と、集音時のコンテキスト情報（例えば、当該音声の到来方向を示す情報など）とを音声認識部１０６へ伝達する。

　{３－２－２．意味解釈部１０８}
　第２の実施形態による意味解釈部１０８は、第１の実施形態と同様に、図４に示したように、自然言語処理部１２０、および、曖昧性解消部１２２を有する。

　{３－２－３．曖昧性解消部１２２}
　第２の実施形態による曖昧性解消部１２２は、自然言語処理部１２０により変換された意味表現が曖昧性を含む場合に、集音時のコンテキスト情報に基づいて、当該意味表現の曖昧性を解消する。例えば、「Ｃｏｍｅ　ｏｎ！」という音声が集音された場合には、曖昧性解消部１２２は、該当の音声の到来方向に基づいたユーザの特定結果を用いて、当該意味表現を当該ユーザに近づく命令として解釈する。

　なお、該当の音声を発したユーザの特定は、以下のように行われ得る。例えば、音声の発生が検出された際に、ロボット４０は、まず、ロボット４０に設置されているカメラ（図示省略）を、当該音声が到来した方向へ向け、そして、画像を撮影する。そして、ロボット４０は、撮影画像に基いて、カメラを向けた方向に位置するユーザが、当該音声を発したユーザであるか否かを判定する。例えば、ロボット４０は、当該ユーザの顔がロボット４０の方向を向いているか否かを確認することにより、当該音声を発したユーザであるか否かを判定する。なお、当該ユーザの顔がロボット４０の方向を向いていることの判定に関しては、ロボット４０は、撮影されたユーザの黒目間の距離に基いて判定してもよいし、または、顔全体の機械学習の結果に基いて判定してもよい。

　さらに、ロボット４０は、撮影したユーザの顔や口の画像に基いて、当該ユーザが発声しているか否かを解析することにより、撮影したユーザが当該音声を発したユーザであるか否かを判定することも可能である。なお、ユーザごとの声および顔が予め登録されている場合には、ロボット４０は、撮影した顔の識別、および、集音された音声の識別を行うことにより、当該音声を発したユーザが誰であるかを特定することが可能である。または、ユーザごとの属性（性別や年齢など）が予め登録されている場合には、ロボット４０は、撮影した顔の識別に基づいて、撮影したユーザの属性を推定したり、または、集音された音声の識別に基づいて当該ユーザの属性を推定することにより、当該ユーザが誰であるかを特定することも可能である。

　{３－２－４．制御部１１０}
　第２の実施形態による制御部１１０は、意味解釈部１０８による意味解釈の結果に基づいて、例えばロボット４０を移動させるなどの制御を行うための制御コマンドを生成する。

　{３－２－５．駆動部１１２}
　第２の実施形態による駆動部１１２は、制御部１１０から伝達される制御コマンドに従って、ロボット４０を移動させる。

　＜３－３．効果＞
　以上説明したように、第２の実施形態によれば、複数のユーザのうちのいずれかから命令が発声された場合に、ロボット４０は、集音時のコンテキスト情報に基づいて、当該音声を発したユーザを特定することができる。そして、ロボット４０は、特定したユーザに基いて当該音声の認識結果の意味を解釈する。このため、例えば、ロボット４０が二人のユーザに挟まれて位置しており、かつ、いずれかのユーザにより「Ｃｏｍｅ　ｏｎ！」という命令が発声された場合であっても、ロボット４０は、当該音声を発したユーザの方へ適切に近づくことができる。

＜＜４．第３の実施形態＞＞
　以上、第２の実施形態について説明した。次に、第３の実施形態について説明する。後述するように、第３の実施形態によれば、内視鏡手術用のカメラシステムにおいて、医師により命令が発声された場合に、当該音声の認識結果と、集音時のコンテキスト情報とに基づいて、命令の意味を解釈することが可能である。これにより、命令が発声された状況に応じて、医師の直感に沿うように命令の意味を適切に解釈することができる。

　＜４－１．情報処理システムの構成＞
　図１３は、第３の実施形態による情報処理システムの構成例を示した説明図である。図１３に示すように、第３の実施形態による情報処理システムは、情報処理装置５０、および、内視鏡６０を有する。

　{４－１－１．情報処理装置５０}
　情報処理装置５０は、内視鏡６０の動作を制御するための装置である。例えば、情報処理装置５０は、内視鏡６０（の撮影部６０４）のズームや、視野の上下移動を制御する。また、情報処理装置５０は、内視鏡６０により撮影される撮影範囲を変化させたり、内視鏡６０により照射される光の範囲を調整する。

　{４－１－２．内視鏡６０}
　内視鏡６０は、患者の身体の内部の映像を撮影するための装置である。この内視鏡６０は、撮影を行う撮影部６０４、および、撮影範囲を照らすための照明部６０６を有する。例えば、内視鏡６０は、撮影した映像のうちの一部を表示部６５０に表示させる。そして、ユーザ（医師）は、表示部６５０に表示された映像を見ることにより、内視鏡６０による撮影結果を確認することができる。なお、撮影された映像が表示部６５０に表示される向き（表示方向）は、ユーザが自由に切り替え可能である。

　また、内視鏡６０は、情報処理装置５０から受信される制御情報に基づいて、撮影部６０４および照明部６０６の位置や姿勢を変更することが可能である。

　＜４－２．構成＞
　以上、第３の実施形態による情報処理システムの構成について説明した。次に、第３の実施形態による構成について詳細に説明する。図１４は、第３の実施形態による内視鏡６０、および、情報処理装置５０の構成例を示した機能ブロック図である。なお、以下では、第１の実施形態または第２の実施形態とは異なる機能を有する構成要素についてのみ説明を行う。

　{４－２－１．内視鏡６０}
　まず、内視鏡６０の構成について説明する。図１４に示すように、内視鏡６０は、姿勢センサ６００、駆動部６０２、撮影部６０４、および、照明部６０６を有する。

　（４－２－１－１．姿勢センサ６００）
　姿勢センサ６００は、撮影部６０４および照明部６０６の姿勢情報を検出するためのセンサである。また、姿勢センサ６００は、検出した撮影部６０４の姿勢情報および照明部６０６の姿勢情報を情報処理装置５０へ逐次送信する。

　（４－２－１－２．駆動部６０２）
　駆動部６０２は、例えば、情報処理装置５０から受信される制御情報に基づいて、撮影部６０４や照明部６０６の姿勢を変更したり、移動させる。

　（４－２－１－３．撮影部６０４）
　撮影部６０４は、外部の映像を撮影する。例えば、撮影部６０４は、駆動部６０２の制御により、撮影範囲を移動させたり、または、ズームの倍率を変更する。また、内視鏡６０は、撮影部６０４を一個だけ有してもよいし、または、二個以上有してもよい。

　（４－２－１－４．照明部６０６）
　照明部６０６は、例えば白色光などの光を照射する。この照明部６０６は、ＬＥＤやランプなどにより構成される。なお、内視鏡６０は、照明部６０６を一個だけ有してもよいし、または、二個以上有してもよい。なお、撮影部６０４と照明部６０６とは、基本的には、互いに独立した（操作）デバイスとして構成されているものとする。

　{４－２－２．情報処理装置５０}
　次に、情報処理装置５０の構成について説明する。図１４に示すように、情報処理装置５０は、集音部１５０、音声認識部１０６、意味解釈部１０８、および、制御部１１０を有する。

　（４－２－２－１．集音部１５０）
　第３の実施形態による集音部１５０は、情報処理装置５０の外部の音を検出し、そして、電気信号に変換する。また、集音部１５０は、集音した音声と、集音時のコンテキスト情報（例えば、撮影された画像が表示部６５０に表示されている向き（表示方向）の情報、および、内視鏡６０から受信される撮影部６０４の姿勢情報や照明部６０６の姿勢情報など）とを音声認識部１０６へ伝達する。

　（４－２－２－２．曖昧性解消部１２２）
　‐解消例１
　第３の実施形態による曖昧性解消部１２２は、自然言語処理部１２０により変換された意味表現が曖昧性を含む場合に、集音時のコンテキスト情報に基づいて、当該意味表現の曖昧性を解消する。例えば、表示部６５０に表示される撮影画像の表示方向が切り替え可能であり、かつ、「右側を見せて！」や「右側をズーム！」などの、方向に関する曖昧性を含む音声が認識された場合には、曖昧性解消部１２２は、表示部６５０における撮影画像の表示方向の情報に基づいて、撮影部６０４の撮影方向を変更させる命令として、当該認識結果に対応する意味表現を解釈する。例えば、「右側を見せて！」という音声が認識された場合には、曖昧性解消部１２２は、表示部６５０に表示されている画像の右側の領域が、表示部６５０において、より中心の位置に表示されるように、撮影部６０４の撮影方向を変更させる命令として当該意味表現を解釈する。

　図１５は、撮影部６０４により撮影された画像の例（撮影画像７０）を示した説明図である。なお、撮影画像７０は、撮影部６０４に含まれる撮像素子により撮影された画像全体を示している。また、図１５に示した表示領域７００は、撮影画像７０のうち、表示部６５０に表示される画像領域を示している。例えば、表示領域７００ａが表示部６５０に表示されており、かつ、「右側を見せて！」という音声が集音された場合には、曖昧性解消部１２２は、表示部６５０に表示されている画像における右方向（表示方向）に対応する方向へ表示領域７００を移動させる命令として解釈する。

　‐解消例２
　また、撮影部６０４と照明部６０６とが独立して存在しており、かつ、「光を右側へずらせ！」などの、照明の方向に関する曖昧性を含む音声が認識された場合には、曖昧性解消部１２２は、表示部６５０における撮影画像の表示方向の情報、撮影部６０４の姿勢情報、および、照明部６０６の姿勢情報に基づいて、照明部６０６の姿勢を変更させる命令として、当該認識結果に対応する意味表現を解釈する。

　図１６は、患者の体内において照明部６０６が照射している範囲である照射範囲７１０を、撮影画像７０と一緒に示した説明図である。例えば、照明部６０６が現在照射している範囲が照射範囲７１０ａであり、かつ、「光を右側へずらせ！」という音声が集音された場合には、曖昧性解消部１２２は、当該音声に対応する意味表現を、表示部６５０に表示されている画像における右方向（表示方向）に対応する方向へ照射範囲７１０を移動させる命令として解釈する。

　‐変形例
　なお、変形例として、二個の撮影部６０４の各々により撮影された画像が合成された画像が表示部６５０に表示されており、かつ、「右側を見せて！」という音声が集音された場合には、曖昧性解消部１２２は、表示部６５０に表示されている画像における右方向に対応する撮影部６０４のみにより撮影された画像を表示部６５０に表示させる命令として、当該音声の意味を解釈することも可能である。

　（４－２－２－３．制御部１１０）
　第３の実施形態による制御部１１０は、意味解釈部１０８による意味解釈の結果に基づいて、内視鏡６０に対する制御コマンドを生成する。また、制御部１１０は、生成した制御コマンドを内視鏡６０（駆動部６０２）へ送信する。

　＜４－３．効果＞
　以上説明したように、第３の実施形態によれば、医師により命令が発声された場合に、情報処理装置５０は、当該音声の認識結果と、集音時のコンテキスト情報とに基づいて、命令の意味を解釈する。例えば、「右側を見せて！」という音声が集音された場合には、情報処理装置５０は、表示部６５０に表示されている画像（つまり、医師が閲覧している画像）の表示方向の情報に基づいて、撮影部６０４の撮影方向を変更させる命令として、当該認識結果の意味を解釈する。このため、医師の直感に沿うように、命令の意味を適切に解釈することができる。

　＜４－４．変形例＞
　なお、上記の説明では、第３の実施形態が内視鏡手術用のカメラシステムに適用される例について説明したが、第３の実施形態は、かかる例に限定されない。例えば、顕微鏡と情報処理装置５０とが接続されており、かつ、当該顕微鏡をユーザが使用する場面にも第３の実施形態は適用可能である。例えば、顕微鏡により撮影された画像のうち一部が表示部に表示されており、かつ、「右側を見せて！」や「右側をズーム！」などの曖昧性を含む命令がユーザにより発声される場合などに、情報処理装置５０は、上記と同様の解釈方法により、当該命令の意味を解釈することができる。

＜＜５．第４の実施形態＞＞
　＜５－１．概要＞
　以上、第３の実施形態について説明した。次に、第４の実施形態について説明する。図１７は、第４の実施形態の概要を示した説明図である。第４の実施形態では、複数の物体が存在している場面において、いずれかの物体に関する操作（例えば物体を運ぶなど）をユーザが音声によりロボット８０に命令する場面を想定する。例えば、図１７に示したように、ロボット８０が検知可能な範囲内に複数のペットボトル９０が置かれており、そして、ユーザ２は、例えば「ペットボトルを取って！」といった音声により、いずれかのペットボトル９０を把持するようにロボット８０に指示を与える。

　ところで、「ペットボトルを取って！」という音声だけでは、複数のペットボトル９０のうちのいずれが操作対象であるのか曖昧である。このため、ロボット８０は、ユーザが意図するペットボトル９０がいずれであるのかを特定する必要がある。

　後述するように、第４の実施形態によれば、ユーザにより命令が発声された場合に、ロボット８０は、複数の物体の中から、当該命令に対応する物体を操作対象として特定することが可能である。さらに、ロボット８０は、特定した操作対象と、当該音声の認識結果とに基いて、当該認識結果の意味を適切に解釈することができる。ここで、複数の物体は、物体ごとに種類が異なっていてもよいし、または、全て同じ種類であってもよい。なお、ロボット８０は、本開示における情報処理装置および機器の一例である。

　＜５－２．構成＞
　次に、第４の実施形態による構成について詳細に説明する。第４の実施形態によるロボット８０に含まれる構成要素は、（図１２に示した）第２の実施形態によるロボット４０と同様である。以下では、第２の実施形態と異なる機能を有する構成要素についてのみ説明を行う。

　{５－２－１．集音部１５０}
　第４の実施形態による集音部１５０は、ロボット８０の外部の音を検出し、そして、電気信号に変換する。また、集音部１５０は、集音した音声と、集音時のコンテキスト情報（例えば、ユーザのジェスチャーや視線方向などの、ユーザの状態の検出結果など）とを音声認識部１０６へ伝達する。

　{５－２－２．曖昧性解消部１２２}
　第４の実施形態による曖昧性解消部１２２は、自然言語処理部１２０により変換された意味表現が操作対象に関する曖昧性を含む場合に、音声の集音時におけるユーザの状態の検出結果に基づいて操作対象を特定する。

　例えば、「ペットボトルを取って！」という音声が集音され、かつ、集音時において、複数のペットボトルのうちのいずれかの方向を例えば指や手で指すなどのジェスチャーが検出された場合には、曖昧性解消部１２２は、複数のペットボトルのうち、検出されたジェスチャーが指示する方向に位置するペットボトルを操作対象として特定する。また、「ペットボトルを取って！」という音声が集音され、かつ、集音時において、複数のペットボトルのうちのいずれかへユーザの視線が向いていることが検出された場合には、曖昧性解消部１２２は、複数のペットボトルのうち、検出された視線の方向に位置するペットボトルを操作対象として特定する。

　{５－２－３．制御部１１０}
　第４の実施形態による制御部１１０は、意味解釈部１０８による意味解釈の結果に基づいて、例えばロボット８０を移動させたり、アームを動かすなどの制御を行うための制御コマンドを生成する。

　＜５－３．効果＞
　以上説明したように、第４の実施形態によれば、操作対象に関する曖昧性を含む命令が発声された場合に、ロボット８０は、当該音声の認識結果と、集音時におけるユーザの状態の検出結果とに基づいて、当該命令に対応する操作対象を特定する。このため、例えば、ロボット８０が検知可能な範囲内に複数の物体が存在する場合であっても、ユーザが意図する操作対象を特定することができる。そして、ロボット８０は、音声の認識結果に基づいて、ユーザの直感に沿うように、操作対象に関する操作を実行することができる。

＜＜６．変形例＞＞
　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　＜６－１．変形例１＞
　例えば、第１の実施形態では、本開示における機器が車１０、つまり、地上を移動する機器である例について説明したが、本開示はかかる例に限定されない。例えば、当該機器は、ドローンなどの飛行体であってもよい。そして、この場合、飛行体は、前後左右に移動させる命令だけでなく、例えば「上へ行け！」などの上下方向に関する命令の音声の意味を同様に解釈することが可能である。

　例えば、当該飛行体がユーザに追従して移動するモードに設定されている際に「上へ行け！」という音声が集音された場合には、当該飛行体は、当該音声の認識結果に対応する意味表現を、ユーザの現在位置を基準としてより上へ移動させる命令として解釈してもよい。また、当該飛行体により撮影される映像がＨＭＤ２０やタブレット端末２２に表示されている際に「上へ行け！」という音声が集音された場合には、当該飛行体は、当該音声の認識結果に対応する意味表現を、当該飛行体の現在位置を基準としてより上へ移動させる命令として解釈してもよい。つまり、この場合、ユーザの位置によらずに、当該飛行体を移動させる。

　＜６－２．変形例２＞
　また、上述した各実施形態では、本開示における情報処理装置が、車１０、ロボット４０、情報処理装置５０、または、ロボット８０である例について説明したが、かかる例に限定されない。例えば、当該情報処理装置は、家の中の様々な機器を制御するためのエージェント装置、または、工作機器などであってもよい。

　また、上述した各実施形態によれば、例えばＣＰＵ、ＲＯＭ、およびＲＡＭなどのハードウェアを、上述した各実施形態による車１０、ロボット４０、情報処理装置５０、または、ロボット８０の各構成と同等の機能を発揮させるためのコンピュータプログラムも提供可能である。また、該コンピュータプログラムが記録された記録媒体も提供される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　集音されたユーザの音声の認識結果と、前記音声の集音時のコンテキスト情報とに基づいて、前記認識結果の意味を解釈する意味解釈部、
を備える、情報処理装置。
（２）
　前記ユーザの音声は、機器に対する命令の音声である、前記（１）に記載の情報処理装置。
（３）
　前記コンテキスト情報は、前記機器と前記ユーザとの位置関係を示す情報を含む、前記（２）に記載の情報処理装置。
（４）
　前記命令は、方向に関する命令であり、
　前記意味解釈部は、前記認識結果、および、前記音声の集音時における前記機器と前記ユーザとの位置関係に基づいて、前記機器に対する制御方向を特定する、前記（３）に記載の情報処理装置。
（５）
　前記コンテキスト情報は、前記ユーザの視線に関する検出結果をさらに含み、
　前記意味解釈部は、さらに、検出された前記ユーザの視線方向に基づいて、前記機器に対する制御方向を特定する、前記（４）に記載の情報処理装置。
（６）
　前記ユーザが前記機器の外部に位置していると判定される場合には、前記意味解釈部は、前記機器により検知される前記音声の到来方向に基づいて、前記機器に対する制御方向を特定する、前記（４）または（５）に記載の情報処理装置。
（７）
　前記ユーザが前記機器の内部に位置していると判定される場合には、前記意味解釈部は、前記機器の前方の方向に基づいて、前記機器に対する制御方向を特定する、前記（４）～（６）のいずれか一項に記載の情報処理装置。
（８）
　前記コンテキスト情報は、表示部に表示されている映像に関する情報をさらに含む、前記（４）～（７）のいずれか一項に記載の情報処理装置。
（９）
　前記映像は、前記機器の外部の映像であり、
　前記意味解釈部は、前記映像の撮影方向に基づいて、前記機器に対する制御方向を特定する、前記（８）に記載の情報処理装置。
（１０）
　前記ユーザが前記機器から遠隔して位置していると判定される場合には、前記意味解釈部は、前記表示部に表示されている映像に基づいて、前記機器に対する制御方向を特定する、前記（８）または（９）に記載の情報処理装置。
（１１）
　前記コンテキスト情報は、表示部に表示されている地図画面の表示方向と方位との関係性を示す情報である、前記（２）に記載の情報処理装置。
（１２）
　前記命令は、方向に関する命令であり、
　前記意味解釈部は、前記認識結果、および、前記音声の集音時における前記地図画面の表示方向と方位との関係性に基づいて、前記機器に対する制御方向を特定する、前記（１１）に記載の情報処理装置。
（１３）
　前記コンテキスト情報は、前記機器の姿勢情報である、前記（２）に記載の情報処理装置。
（１４）
　前記コンテキスト情報は、前記認識結果に対応する複数の物体の位置と、前記ユーザが指示する方向との関係性を示す情報である、前記（２）に記載の情報処理装置。
（１５）
　前記意味解釈部は、前記認識結果、および、前記音声の集音時における前記複数の物体の位置と前記ユーザが指示する方向との関係性に基づいて、前記複数の物体のうちのいずれかを操作対象として特定する、前記（１４）に記載の情報処理装置。
（１６）
　前記意味解釈部は、前記複数の物体のうち、前記音声の集音時において前記ユーザが指示する方向に位置する物体を前記操作対象として特定する、前記（１５）に記載の情報処理装置。
（１７）
　前記コンテキスト情報は、前記音声を集音する集音部に関する情報を含む、前記（２）～（１６）のいずれか一項に記載の情報処理装置。
（１８）
　前記集音部に関する情報は、前記集音部の種類、または、前記集音部と前記機器との位置関係を示す情報である、前記（１７）に記載の情報処理装置。
（１９）
　集音されたユーザの音声の認識結果と、前記音声の集音時のコンテキスト情報とに基づいて、前記認識結果の意味をプロセッサが解釈すること、
を含む、情報処理方法。
（２０）
　コンピュータを、
　集音されたユーザの音声の認識結果と、前記音声の集音時のコンテキスト情報とに基づいて、前記認識結果の意味を解釈する意味解釈部、
として機能させるための、プログラム。

１０　車
２０　ＨＭＤ
２２　タブレット端末
２４　通信網
４０、８０　ロボット
５０　情報処理装置
６０　内視鏡
１００　内部集音部
１０２　外部集音部
１０４　通信部
１０６　音声認識部
１０８　意味解釈部
１１０　制御部
１１２、６０２　駆動部
１２０　自然言語処理部
１２２　曖昧性解消部
１２４　自然言語知識ＤＢ
１２６　曖昧性解消知識ＤＢ
１５０　集音部
２００　第１遠隔集音部
２２０　第２遠隔集音部
６００　姿勢センサ
６０４　撮影部
６０６　照明部
６５０　表示部

Claims

　集音されたユーザの音声の認識結果と、前記音声の集音時のコンテキスト情報とに基づいて、前記認識結果の意味を解釈する意味解釈部、
を備える、情報処理装置。
　前記ユーザの音声は、機器に対する命令の音声である、請求項１に記載の情報処理装置。
　前記コンテキスト情報は、前記機器と前記ユーザとの位置関係を示す情報を含む、請求項２に記載の情報処理装置。
　前記命令は、方向に関する命令であり、
　前記意味解釈部は、前記認識結果、および、前記音声の集音時における前記機器と前記ユーザとの位置関係に基づいて、前記機器に対する制御方向を特定する、請求項３に記載の情報処理装置。
　前記コンテキスト情報は、前記ユーザの視線に関する検出結果をさらに含み、
　前記意味解釈部は、さらに、検出された前記ユーザの視線方向に基づいて、前記機器に対する制御方向を特定する、請求項４に記載の情報処理装置。
　前記ユーザが前記機器の外部に位置していると判定される場合には、前記意味解釈部は、前記機器により検知される前記音声の到来方向に基づいて、前記機器に対する制御方向を特定する、請求項４に記載の情報処理装置。
　前記ユーザが前記機器の内部に位置していると判定される場合には、前記意味解釈部は、前記機器の前方の方向に基づいて、前記機器に対する制御方向を特定する、請求項４に記載の情報処理装置。
　前記コンテキスト情報は、表示部に表示されている映像に関する情報をさらに含む、請求項４に記載の情報処理装置。
　前記映像は、前記機器の外部の映像であり、
　前記意味解釈部は、前記映像の撮影方向に基づいて、前記機器に対する制御方向を特定する、請求項８に記載の情報処理装置。
　前記ユーザが前記機器から遠隔して位置していると判定される場合には、前記意味解釈部は、前記表示部に表示されている映像に基づいて、前記機器に対する制御方向を特定する、請求項８に記載の情報処理装置。
　前記コンテキスト情報は、表示部に表示されている地図画面の表示方向と方位との関係性を示す情報である、請求項２に記載の情報処理装置。
　前記命令は、方向に関する命令であり、
　前記意味解釈部は、前記認識結果、および、前記音声の集音時における前記地図画面の表示方向と方位との関係性に基づいて、前記機器に対する制御方向を特定する、請求項１１に記載の情報処理装置。
　前記コンテキスト情報は、前記機器の姿勢情報である、請求項２に記載の情報処理装置。
　前記コンテキスト情報は、前記認識結果に対応する複数の物体の位置と、前記ユーザが指示する方向との関係性を示す情報である、請求項２に記載の情報処理装置。
　前記意味解釈部は、前記認識結果、および、前記音声の集音時における前記複数の物体の位置と前記ユーザが指示する方向との関係性に基づいて、前記複数の物体のうちのいずれかを操作対象として特定する、請求項１４に記載の情報処理装置。
　前記意味解釈部は、前記複数の物体のうち、前記音声の集音時において前記ユーザが指示する方向に位置する物体を前記操作対象として特定する、請求項１５に記載の情報処理装置。
　前記コンテキスト情報は、前記音声を集音する集音部に関する情報を含む、請求項２に記載の情報処理装置。
　前記集音部に関する情報は、前記集音部の種類、または、前記集音部と前記機器との位置関係を示す情報である、請求項１７に記載の情報処理装置。
　集音されたユーザの音声の認識結果と、前記音声の集音時のコンテキスト情報とに基づいて、前記認識結果の意味をプロセッサが解釈すること、
を含む、情報処理方法。
　コンピュータを、
　集音されたユーザの音声の認識結果と、前記音声の集音時のコンテキスト情報とに基づいて、前記認識結果の意味を解釈する意味解釈部、
として機能させるための、プログラム。