WO2020241143A1

WO2020241143A1 - 情報処理装置、情報処理方法および情報処理プログラム

Info

Publication number: WO2020241143A1
Application number: PCT/JP2020/017814
Authority: WO
Inventors: 研二小川; 昭彦泉; 太一下屋鋪; 智哉藤田; 賢司久永
Original assignee: ソニー株式会社
Priority date: 2019-05-30
Filing date: 2020-04-24
Publication date: 2020-12-03
Also published as: CN113875262A; JPWO2020241143A1; US20220223152A1

Abstract

本開示の一実施形態に係る情報処理装置は、外部機器制御部と、外部機器状態認識部と、モデル獲得部とを備えている。外部機器制御部は、制御対象である１または複数の外部機器に対して複数のコマンドを送信する。外部機器状態認識部は、外部機器制御部による複数のコマンド送信前後の、１または複数の外部機器の状態を認識する。モデル獲得部は、外部機器制御部から送信された複数のコマンドと、外部機器制御部による複数のコマンド送信前後の、１または複数の外部機器の状態とを対応付けた状態遷移モデルを生成する。

Description

情報処理装置、情報処理方法および情報処理プログラム

　本開示は、音声認識可能な情報処理装置、音声認識可能な情報処理装置で実行可能な情報処理方法および情報処理プログラムに関する。

　近年、音声認識によって周囲の機器を操作する技術が開発されている（例えば、特許文献１，２参照）。

特開２００３－１１１１５７号公報特開２００５－８６７６８号公報

　ところで、周囲の機器を目的の状態（ゴール状態）にするために、多数の音声コマンドを順次、入力するのは、ユーザにとって非常に煩雑である。１つの音声コマンドの入力によって周囲の機器をゴール状態に至るまで操作することの可能な情報処理装置、情報処理方法および情報処理プログラムを提供することが望ましい。

　本開示の一実施形態に係る情報処理方法は、以下の２つを含む。
（Ａ）制御対象である１または複数の外部機器に対して複数のコマンドを送信し、その応答を受信することにより、複数のコマンド送信前後の、１または複数の外部機器の状態を認識すること
（Ｂ）送信した複数のコマンドと、複数のコマンド送信前後の、１または複数の外部機器の状態とを対応付けた状態遷移モデルを生成すること

　本開示の一実施形態に係る情報処理プログラムは、以下の２つをコンピュータに実行させる。
（Ａ）複数のコマンドを外部機器制御部に出力することにより、外部機器制御部から、制御対象である１または複数の外部機器に対して複数のコマンドを出力させた後、その応答を得ることにより、複数のコマンド送信前後の、１または複数の外部機器の状態を得ること
（Ｂ）出力した複数のコマンドと、複数のコマンド送信前後の、１または複数の外部機器の状態とを対応付けた状態遷移モデルを生成することと
　をコンピュータに実行させる

　本開示の一実施形態に係る情報処理装置、情報処理方法および情報処理プログラムでは、制御対象である１または複数の外部機器に対して送信した複数のコマンドと、複数のコマンド送信前後の、１または複数の外部機器の状態とを対応付けた状態遷移モデルが生成される。これにより、状態遷移モデルから、実行すべきコマンドを選択しながら、外部から入力されたコマンドに対応するゴール状態に向けて、制御対象である１または複数の外部機器を制御することが可能となる。

本開示の一実施形態に係るエージェント機器の概略構成例を表す図である。図１の機器制御モデルデータベースに格納されるモデルの一例を表す図である。図１の機器制御モデル共有データベースに格納されるモデルの一例を表す図である。状態遷移モデルの作成手順の一例を表す図である。音声コマンドの登録手順の一例を表す図である。音声コマンドの実行手順の一例を表す図である。音声コマンドの修正手順の一例を表す図である。図１のエージェント機器の概略構成の一変形例を表す図である。図８の携帯端末の概略構成例を表す図である。図１のエージェント機器の概略構成の一変形例を表す図である。図８のエージェント機器の概略構成の一変形例を表す図である。

　以下、本開示を実施するための形態について、図面を参照して詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。説明は以下の順序で行う。

　１．背景
　２．実施の形態
　　　　ゴールベースで音声コマンドの処理を実行する例
　３．変形例
　　　　携帯端末画面にＵＩを表示する例
　　　　ゴールベース実行部の一部をプログラムで構成する例

＜１．背景＞
　ゲームのＡＩ（artificial intelligence）キャラクタを制御する際の考え方の１つにゴールベースというものがある。ゴールベースとは、ＡＩキャラクタを制御するためのアクション列をコマンドとして入力するのではなく、ゴール状態を入力することで、ＡＩキャラクタが指示されたゴール状態に向かって自ら多様なアクションを選択・実行してゴール状態を実現していくことを指している。従来のアクション列をコマンドとして入力する場合には、現在状態を事前に把握した上でゴール状態に向かうための一連のアクション列を決定し、それを入力としなければならなかった。しかし、ゴールベースでは、ゴール状態のみを指示すればよくなると共に、途中で周囲の状態が変化して行うべきアクションが変化した場合にも、ＡＩキャラクタが自ら適応的にアクションを切り換えてゴール状態に向かって進んでいくという自律性も与えることが可能になる。

　以下では、この考え方を現実世界の外部機器制御に用いて、ユーザがゴール状態を指示すると、複数の外部機器に向けて複数のコマンドを実行しながら現在状態からゴール状態に向けて自動で各外部機器の制御を行う手法を指す言葉として、"ゴールベース"を用いることとする。

　特許文献１（特開２００３－１１１１５７）には、ユーザの生活習慣や生活環境等に応じて、あるいはユーザの嗜好に則って、各種機器を快適に制御することの可能な統合コントローラが開示されている。特許文献２（特開２００５－８６７６８）には、各種機器を接続したネットワークを利用して、これら各種機器を各ユーザのそれぞれの習慣に合った設定で容易に動作させることの可能な制御装置が開示されている。

　特許文献１，２では、ユーザの習慣を獲得することが前提となっており、ユーザが行ってない行動は獲得・実行することができない。そこで、以下では、ゴールベースの考え方に基づいて、機器に送るコマンドを適応的に変えながらゴール状態に向けて各機器を制御することの可能なエージェント機器について説明する。

＜２．実施の形態＞
[構成]
　本開示の一実施の形態に係るエージェント機器１について説明する。図１は、エージェント機器１の概略構成例を表したものである。エージェント機器１は、コマンド取得部１０と、ゴールベース実行部２０とを備えている。

　エージェント機器１は、ネットワークを介して、音声エージェントクラウドサービス３０および機器制御モデル共有データベース４０に接続されている。機器制御モデル共有データベース４０は、本開示の「記憶部」の一具体例に相当する。エージェント機器１の周囲には、制御対象である１または複数の外部機器（例えば、外部機器５０，６０，７０）が設置されている。外部機器５０は、例えば、テレビジョンである。機器制御モデル共有データベース４０は、例えば、クラウドサービスとして動作するデータベースである。機器制御モデル共有データベース４０には、例えば、ＤＲＡＭ（Dynamic Random Access Memory）などの揮発性メモリ、または、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read-Only Memory）やフラッシュメモリなどの不揮発性メモリが含まれ得る。外部機器６０は、例えば、部屋の照明器具である。外部機器７０は、例えば、ＤＶＤ（登録商標）もしくはＢＤ（登録商標）などのプレーヤである。なお、外部機器５０，６０，７０は、上記の機器に限定されるものではない。

　ここで、ネットワークは、例えば、インターネットで標準的に利用されている通信プロトコル（ＴＣＰ／ＩＰ）を用いて通信を行うネットワークである。ネットワークは、例えば、そのネットワーク独自の通信プロトコルを用いて通信を行うセキュアなネットワークであってもよい。ネットワークは、例えば、インターネット、イントラネット、または、ローカルエリアネットワークである。ネットワークと、エージェント機器１との接続は、例えば、イーサネット（登録商標）等の有線ＬＡＮ（Local Area Network）であってもよいし、Ｗｉ－Ｆｉ等の無線ＬＡＮや、携帯電話回線などであってもよい。

（コマンド取得部１０）
　コマンド取得部１０は、音声認識により音声コマンドを取得する。コマンド取得部１０は、例えば、マイク１１、音声認識部１２、発話解釈・実行部１３、音声合成部１４およびスピーカ１５を有している。

　マイク１１は、周囲のサウンドを受信し、それにより得られたサウンド信号を音声認識部１２に出力する。音声認識部１２は、入力されたサウンド信号に含まれる、ユーザの発話音声信号を抽出し、発話解釈・実行部１３に出力する。発話解釈・実行部１３は、入力された発話音声信号を音声エージェントクラウドサービス３０に出力する。発話解釈・実行部１３は、音声エージェントクラウドサービス３０から得られたテキストデータに含まれるコマンド（音声コマンド）を抽出し、ゴールベース実行部２０に出力する。発話解釈・実行部１３は、このテキストデータを用いた音声テキストデータを生成し、音声合成部１４に出力する。音声合成部１４は、入力された音声テキストデータに基づいてサウンド信号を生成し、スピーカ１５に出力する。スピーカ１５は、入力されたサウンド信号を音声に変換し、外部に出力する。

　音声エージェントクラウドサービス３０は、エージェント機器１（発話解釈・実行部１３）からユーザの発話音声データを受信する。音声エージェントクラウドサービス３０は、受信した発話音声データを音声認識によりテキスト化し、テキスト化により得られたテキストデータをエージェント機器１（発話解釈・実行部１３）に出力する。

（ゴールベース実行部２０）
　ゴールベース実行部２０は、ゴールベースの考え方に基づいて、制御対象である１または複数の外部機器（例えば、外部機器５０，６０，７０）に送るコマンドを適応的に変えながらゴール状態に向けて各外部機器を制御する。ゴールベース実行部２０は、例えば、外部機器状態認識部２１、外部機器制御部２２、機器制御モデルデータベース２３、機器制御モデル獲得部２４、ゴールベース機器制御部２５、ゴールベースコマンド登録・実行部２６およびコマンド・ゴール状態変換データベース２７を有している。機器制御モデルデータベース２３は、本開示の「記憶部」の一具体例に相当する。ゴールベースコマンド登録・実行部２６は、本開示の「実行部」の一具体例に相当する。

　外部機器状態認識部２１は、制御対象である１または複数の外部機器の種別および現在状態を認識する。外部機器状態認識部２１は、例えば、外部機器制御部２２による複数のコマンド送信前後の、１または複数の外部機器の状態を認識する。

　外部機器状態認識部２１では、制御対象である１または複数の外部機器の種類によって認識方法が異なる。例えば、外部機器がネットワークに接続されている場合には、外部機器状態認識部２１は、ネットワークに接続された外部機器と通信を行うことにより、外部機器の状態を認識することが可能に構成されていてもよい。この場合、外部機器状態認識部２１は、例えば、ネットワークに接続された１または複数の外部機器と通信を行うことの可能な通信機器で構成されている。また、例えば、外部機器が外観から状態を認識可能となっている場合には、外部機器状態認識部２１は、外部機器を撮像することにより、外部機器の状態を認識することが可能に構成されていてもよい。この場合、外部機器状態認識部２１は、例えば、１または複数の外部機器を撮像することの可能な撮像装置で構成されている。また、例えば、外部機器が、当該外部機器から発せられるサウンドから状態を認識可能となっている場合には、外部機器状態認識部２１は、外部機器から発せられるサウンドを取得することにより、外部機器の状態を認識することが可能に構成されていてもよい。この場合、外部機器状態認識部２１は、例えば、１または複数の外部機器から発せられるサウンドを取得することの可能な集音装置で構成されている。また、例えば、外部機器が、赤外線リモコンコードで制御可能に構成されている場合には、外部機器状態認識部２１は、外部機器に対して送信された赤外線リモコンコードを受信することにより、外部機器の状態を認識することが可能に構成されていてもよい。この場合、外部機器状態認識部２１は、例えば、１または複数の外部機器に対して送信された赤外線リモコンコードを受信することの可能な受信装置で構成されている。なお、この場合、赤外線リモコンコードは、外部機器状態認識部２１が受信するコードの一例であり、外部機器状態認識部２１が受信するコードは、赤外線リモコンコードに限定されない。また、例えば、外部機器が、赤外線リモコンコードとは異なるコードで制御可能に構成されている場合には、外部機器状態認識部２１は、外部機器に対して送信されたコードを受信することにより、外部機器の状態を認識することが可能に構成されていてもよい。この場合、外部機器状態認識部２１は、例えば、１または複数の外部機器に対して送信されたコードを受信することの可能な受信装置で構成されている。外部機器状態認識部２１は、例えば、上記通信機器、上記撮像装置、上記集音装置および上記受信装置の少なくとも１つによって構成されていてもよい。

　外部機器制御部２２は、制御対象である１または複数の外部機器の状態を変更するための制御を実行する。外部機器制御部２２は、例えば、制御対象である１または複数の外部機器に対して複数のコマンドを送信することにより、外部機器を制御する。外部機器制御部２２では、制御対象である１または複数の外部機器の種類によって制御方法が異なる。

　例えば、外部機器がネットワークに接続されている場合には、外部機器制御部２２は、ネットワークに接続された外部機器と通信を行うことにより、外部機器を制御することが可能に構成されていてもよい。また、例えば、外部機器が、赤外線リモコンコードで制御可能に構成されている場合には、外部機器制御部２２は、外部機器に対して赤外線リモコンコードを送信することにより、外部機器を制御することが可能に構成されていてもよい。また、例えば、外部機器が、例えばボタンやスイッチなどの物理的な入力インターフェースを有している場合には、外部機器制御部２２は、ロボットマニピュレーターを介して、外部機器を操作することが可能に構成されていてもよい。

　機器制御モデルデータベース２３は、機器制御モデルＭを格納している。機器制御モデル共有データベース４０は、機器制御モデルＭを格納している。機器制御モデルデータベース２３および機器制御モデル共有データベース４０に格納された機器制御モデルＭは、図２、図３に示したように、機器ＩＤ一覧２３Ａ、コマンド一覧２３Ｂ、状態判別一覧２３Ｃおよび状態遷移モデル２３Ｄを含んでいる。機器制御モデルＭは、例えば、ＤＲＡＭ（Dynamic Random Access Memory）などの揮発性メモリ、または、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read-Only Memory）やフラッシュメモリなどの不揮発性メモリに格納されている。

　機器ＩＤ一覧２３Ａには、外部機器ごとに割り当てられた識別子（外部機器ＩＤ）が含まれている。外部機器ＩＤは、例えば、外部機器から得られた情報を基に、機器制御モデル獲得部２４によって生成される。外部機器ＩＤは、例えば、外部機器の製造会社および型番などを含んで構成されている。外部機器ＩＤは、例えば、外部機器の外観映像から得られた情報を基に、機器制御モデル獲得部２４によって生成されたものであってもよい。外部機器ＩＤは、例えば、ユーザから入力された情報を基に、機器制御モデル獲得部２４によって生成されたものであってもよい。

　コマンド一覧２３Ｂは、外部機器ＩＤと、外部機器ＩＤに対応する外部機器において受け付け可能な複数のコマンドとを関連付けたテーブル（以下、「テーブルＡ」と称する。）を含んでいる。テーブルＡは、本開示の「第１のテーブル」の一具体例に相当する。コマンド一覧２３Ｂは、外部機器ＩＤごとに、テーブルＡを含んでいる。コマンド一覧２３Ｂは、例えば、外部機器から得られた情報（外部機器ＩＤ）と、機器制御モデルデータベース２３もしくは機器制御モデル共有データベース４０に対してプリインストールされた情報（コマンド一覧）とを基に、機器制御モデル獲得部２４によって生成される。コマンド一覧２３Ｂは、例えば、外部機器から得られた情報（外部機器ＩＤ）と、外部機器に対して送信された赤外線リモコンコードとを基に、機器制御モデル獲得部２４によって生成されたものであってもよい。コマンド一覧２３Ｂは、例えば、機器制御モデルデータベース２３もしくは機器制御モデル共有データベース４０に対してプリインストールされたものであってもよい。

　状態判別一覧２３Ｃは、外部機器ＩＤと、外部機器ＩＤに対応する外部機器の状態を判別可能な方法についての情報とを関連付けたテーブル（以下、「テーブルＢ」と称する。）を含んでいる。テーブルＢは、本開示の「第２のテーブル」の一具体例に相当する。状態判別一覧２３Ｃは、外部機器ＩＤごとに、テーブルＢを含んでいる。状態判別一覧２３Ｃは、例えば、外部機器から得られた情報（外部機器ＩＤ）と、機器制御モデルデータベース２３もしくは機器制御モデル共有データベース４０に対してプリインストールされた情報（状態判別方法）とを基に、機器制御モデル獲得部２４によって生成される。状態判別一覧２３Ｃは、例えば、機器制御モデルデータベース２３もしくは機器制御モデル共有データベース４０に対してプリインストールされたものであってもよい。

　状態遷移モデル２３Ｄは、例えば、外部機器ＩＤと、外部機器ＩＤに対応する外部機器において受け付け可能な複数のコマンドと、外部機器制御部２２による複数のコマンド送信前後の、外部機器ＩＤに対応する外部機器の状態とを関連付けたテーブル（以下、「テーブルＣ」と称する。）を含んでいる。状態遷移モデル２３Ｄは、例えば、外部機器ＩＤごとに、テーブルＣを含んでいる。状態遷移モデル２３Ｄは、例えば、外部機器から得られた情報を基に、機器制御モデル獲得部２４によって生成される。

　状態遷移モデル２３Ｄは、機械学習によって生成された学習モデルであってもよい。この場合、状態遷移モデル２３Ｄは、制御対象である１または複数の外部機器の状態（現在状態）と、ゴール状態が入力されると、入力されたゴール状態に至るのに必要な１または複数のコマンド（つまり、次に実行すべき１または複数のコマンド）を出力する出力するように構成されている。

　機器制御モデル獲得部２４は、例えば、外部機器状態認識部２１から得られた情報を基に、外部機器ＩＤを生成する。機器制御モデル獲得部２４は、例えば、ユーザから入力された情報を基に、外部機器ＩＤを生成してもよい。機器制御モデル獲得部２４は、例えば、生成した外部機器ＩＤを機器制御モデルデータベース２３および機器制御モデル共有データベース４０に格納してもよい。

　機器制御モデル獲得部２４は、例えば、外部機器から得られた情報（外部機器ＩＤ）と、機器制御モデル獲得部２４から外部機器制御部２２に入力したコマンドとを基に、コマンド一覧２３Ｂを生成する。機器制御モデル獲得部２４は、例えば、外部機器制御部２２によるコマンド送信前後の、外部機器ＩＤに対応する外部機器の状態に変化がある場合に限り、外部機器ＩＤと、コマンドとを対応付けて、コマンド一覧２３Ｂに格納してもよい。つまり、機器制御モデル獲得部２４は、例えば、外部機器がコマンドを実行した場合に限り、外部機器ＩＤと、コマンドとを対応付けて、コマンド一覧２３Ｂに格納してもよい。機器制御モデル獲得部２４は、例えば、生成したコマンド一覧２３Ｂを機器制御モデルデータベース２３および機器制御モデル共有データベース４０に格納してもよい。

　機器制御モデル獲得部２４は、例えば、外部機器から得られた情報（外部機器ＩＤ）と、機器制御モデルデータベース２３もしくは機器制御モデル共有データベース４０から得られた情報（状態判別方法）とを基に、状態判別一覧２３Ｃを生成する。機器制御モデル獲得部２４は、例えば、生成した状態判別一覧２３Ｃを機器制御モデルデータベース２３および機器制御モデル共有データベース４０に格納してもよい。

　機器制御モデル獲得部２４は、例えば、外部機器から得られた情報（外部機器ＩＤ）と、機器制御モデル獲得部２４から外部機器制御部２２に入力したコマンド（外部機器制御部２２から送信されたコマンド）と、外部機器から得られた情報（外部機器制御部２２によるコマンド送信前後の、外部機器ＩＤに対応する外部機器の状態）とを基に、状態遷移モデル２３Ｄを生成する。機器制御モデル獲得部２４は、例えば、機械学習（例えば、強化学習）を用いて、多様なコマンドを外部機器制御部２２に送りながら、外部機器状態認識部２１で得られた外部機器の状態を基に、状態遷移モデル２３Ｄを生成する。機器制御モデル獲得部２４は、例えば、生成した状態遷移モデル２３Ｄを機器制御モデルデータベース２３および機器制御モデル共有データベース４０に格納してもよい。

　機器制御モデル獲得部２４は、例えば、状態遷移モデル２３Ｄの一部を、機械学習（例えば、強化学習）を用いずに、プログラミングなどを用いて、作成してもよい。これは、機械制御が複雑すぎて機械学習では状態遷移モデル２３Ｄの一部の獲得が困難な例や、外部からの観測では外部機器の状態の判別が不十分な例、または、状態遷移モデル２３Ｄの一部が十分にシンプルで機械学習を使わない方が状態遷移モデル２３Ｄの一部の獲得をコンパクトにできて効率的である例などにおいて、有効な手法である。

　ゴールベース機器制御部２５は、機器制御モデルデータベース２３もしくは機器制御モデル共有データベース４０から読み出した機器制御モデルを用いながら、ゴールベースコマンド登録・実行部２６より指示されたゴール状態になるまで、制御対象である１または複数の外部機器の制御を行う。ゴールベース機器制御部２５が、例えば、ゴールベースコマンド登録・実行部２６より指示されたゴール状態に至るのに必要なコマンドリストを状態遷移モデル２３Ｄに基づいて生成する。ゴールベース機器制御部２５は、例えば、外部機器状態認識部２１から得られた、制御対象である１または複数の外部機器の状態から、ゴールベースコマンド登録・実行部２６より指示されたゴール状態に至るのに必要なコマンドリストを状態遷移モデル２３Ｄに基づいて生成する。続いて、ゴールベース機器制御部２５は、例えば、生成したコマンドリスト内の各コマンドを順次、実行する。ゴールベース機器制御部２５は、例えば、生成したコマンドリスト内の各コマンドを順次、外部機器制御部２２に出力する。

　なお、状態遷移モデル２３Ｄが学習モデルである場合、ゴールベース機器制御部２５は、例えば、外部機器状態認識部２１から得られた、制御対象である１または複数の外部機器の状態（現在状態）と、ゴールベースコマンド登録・実行部２６より指示されたゴール状態を状態遷移モデル２３Ｄに入力し、状態遷移モデル２３Ｄから、入力されたゴール状態に至るのに必要な１または複数のコマンド（具体的には、次に実行すべき１または複数のコマンド）を得てもよい。このとき、ゴールベース機器制御部２５は、例えば、状態遷移モデル２３Ｄから１または複数のコマンドを取得するたびに、取得した１または複数のコマンドを外部機器制御部２２に出力してもよい。さらに、ゴールベース機器制御部２５は、例えば、この動作を、現在状態とゴール状態が一致するまで繰り返すことで、制御対象である１または複数の外部機器の状態をゴール状態まで遷移させてもよい。

　コマンド・ゴール状態変換データベース２７は、音声コマンドとゴール状態とが関連付けられたテーブル（以下、「テーブルＤ」と称する。）を格納している。テーブルＤは、本開示の「第３のテーブル」の一具体例に相当する。テーブルＤは、例えば、ユーザがコマンド取得部１０を介して入力した音声コマンドと、図示しない入力ＩＦ（Interface）を介してユーザから入力されたゴール状態とを基に、ゴールベースコマンド登録・実行部２６によって生成される。テーブルＤは、例えば、ＤＲＡＭなどの揮発性メモリ、または、ＥＥＰＲＯＭやフラッシュメモリなどの不揮発性メモリに格納されている。

　ゴールベースコマンド登録・実行部２６は、コマンド取得部１０（発話解釈・実行部１３）から入力された音声コマンドに対応するゴール状態を、コマンド・ゴール状態変換データベース２７に格納されたテーブルから把握する。続いて、ゴールベースコマンド登録・実行部２６は、把握したゴール状態をゴールベース機器制御部２５に出力する。コマンド・ゴール状態変換データベース２７は、例えば、ユーザがコマンド取得部１０を介して入力した音声コマンドと、図示しない入力ＩＦ（Interface）を介してユーザから入力されたゴール状態とを基にテーブルＤを生成し、コマンド・ゴール状態変換データベース２７に格納する。

（機器制御モデルＭの作成）
　次に、機器制御モデルＭの作成手順について説明する。図４は、機器制御モデルＭの作成手順の一例を表したものである。

　まず、機器制御モデル獲得部２４は、制御対象である１または複数の外部機器から何らかの応答が得られる信号を外部機器制御部２２に出力する。外部機器制御部２２は、機器制御モデル獲得部２４から入力された信号を基に、所定の信号を生成し、制御対象である１または複数の外部機器に対して出力する。外部機器状態認識部２１は、制御対象である１または複数の外部機器から信号を受信すると、受信した信号を機器制御モデル獲得部２４に出力する。機器制御モデル獲得部２４は、外部機器状態認識部２１から入力された信号を基に、制御対象である１または複数の外部機器の外部機器ＩＤを生成する（ステップＳ１０１）。機器制御モデル獲得部２４は、生成した外部機器ＩＤを機器制御モデルデータベース２３および機器制御モデル共有データベース４０に格納する。

　次に、機器制御モデル獲得部２４は、外部からコマンド一覧２３Ｂを取得する（ステップＳ１０２）。機器制御モデル獲得部２４は、取得したコマンド一覧２３Ｂを機器制御モデルデータベース２３および機器制御モデル共有データベース４０に格納する。続いて、機器制御モデル獲得部２４は、外部から状態判別一覧２３Ｃを取得する（ステップＳ１０３）。機器制御モデル獲得部２４は、取得した状態判別一覧２３Ｃを機器制御モデルデータベース２３および機器制御モデル共有データベース４０に格納する。

　次に、機器制御モデル獲得部２４は、機器制御モデルデータベース２３または機器制御モデル共有データベース４０から読み出したコマンド一覧２３Ｂに含まれる各コマンドを、外部機器制御部２２に出力する。外部機器制御部２２は、機器制御モデル獲得部２４から入力された各コマンドを、制御対象である１または複数の外部機器に対して出力する。つまり、機器制御モデル獲得部２４は、機器制御モデルデータベース２３または機器制御モデル共有データベース４０から読み出したコマンド一覧２３Ｂに含まれる複数のコマンドを、外部機器制御部２２に出力することにより、外部機器制御部２２から、制御対象である１または複数の外部機器に対して複数のコマンドを出力させる。このとき、外部機器状態認識部２１は、例えば、外部機器制御部２２による１または複数のコマンド送信前後の、制御対象である１または複数の外部機器の状態を認識し、認識した１または複数の外部機器の状態を機器制御モデル獲得部２４に出力する。機器制御モデル獲得部２４は、外部機器状態認識部２１から、外部機器制御部２２による１または複数のコマンド送信前後の、制御対象である１または複数の外部機器の状態を取得する。さらに、機器制御モデル獲得部２４は、例えば、制御対象である１または複数の外部機器から得られた情報（外部機器ＩＤ）と、機器制御モデル獲得部２４から外部機器制御部２２に入力した１または複数のコマンド（外部機器制御部２２から送信された１または複数のコマンド）と、外部機器から得られた情報（外部機器制御部２２によるコマンド送信前後の、制御対象である１または複数の外部機器の状態）とを基に、状態遷移モデル２３Ｄを生成する（ステップＳ１０４）。

　状態遷移モデル２３Ｄが学習モデルである場合、機器制御モデル獲得部２４は、例えば、ユーザから指定されたゴール状態と、機器制御モデルデータベース２３または機器制御モデル共有データベース４０から読み出したコマンド一覧２３Ｂとを用いた機械学習を、状態遷移モデル２３Ｄに対して行う。具体的には、機器制御モデル獲得部２４は、まず、ユーザから、あるゴール状態が指定されると、コマンド一覧２３Ｂから読み出した複数のコマンドを探索的に外部機器制御部２２に出力する。外部機器制御部２２は、機器制御モデル獲得部２４から入力された各コマンドを、制御対象である１または複数の外部機器に対して出力する。このとき、機器制御モデル獲得部２４は、外部機器制御部２２によるコマンド送信前後の、外部機器ＩＤに対応する外部機器の状態を、外部機器状態認識部２１から取得する。

　機器制御モデル獲得部２４は、初期には、外部機器制御部２２に出力するコマンドをランダムに選択し、ランダムに選択したコマンドを外部機器制御部２２に出力する。その後、機器制御モデル獲得部２４は、外部機器状態認識部２１から得られた、制御対象である１または複数の外部機器の状態（現在状態）と、ユーザから指定されたゴール状態とを、学習途中（つまり未完成）の状態遷移モデル２３Ｄに入力し、学習途中の状態遷移モデル２３Ｄから出力されたコマンドを、次に実行すべきコマンドとして選択する。機器制御モデル獲得部２４は、学習途中の状態遷移モデル２３Ｄから出力されたコマンドを、外部機器制御部２２に出力する。機器制御モデル獲得部２４は、ユーザからゴール状態が指定されるたびに、この一連の動作を繰り返し行うことで、最終的には、制御対象である１または複数の外部機器が任意の状態となっているときに、その状態をゴール状態に遷移させるのに最適であろう一連のコマンドを特定可能な状態遷移モデル２３Ｄを生成する。

　機器制御モデル獲得部２４は、生成した状態遷移モデル２３Ｄを機器制御モデルデータベース２３および機器制御モデル共有データベース４０に格納する。このようにして、機器制御モデルＭが生成される。

（音声コマンドの登録）
　次に、音声コマンドの登録について説明する。

　まず、音声コマンドを登録する際の課題について説明する。家庭には様々な外部機器が設置されており、実行したい内容もユーザによって変化することがある。例えば、シアターモードを実現することを考える。制御対象となる外部機器としては、テレビ、部屋の照明、ＡＶアンプ、ＤＶＤ／ＢＤプレーヤといったものが考えられる。ある程度まではシアターモードという機能を共通のものとしてプリインストールしておくことは可能である。しかし、家庭ごとの配線によって各ＡＶ機器の入出力設定は異なる。また、ある家には電動カーテンがあり、別の家には通常の照明に加えて間接照明があり、ある家ではノイズ音を発生している空気清浄機を止めたいかもしれない。こういった状況を踏まえると、各ユーザの手元で音声コマンドと実現すべきゴール状態との関係を容易にカスタマイズできることが重要であると考える。

　また、音声コマンドと紐づけるべき機器をどのようにして特定するのかという問題もある。その場に存在する制御可能なすべての外部機器の状態をまとめて保存してゴール状態とすることもできるが、それではユーザが真に求めるゴール状態とは異なることが多いと考える。例えば、外部機器として、洗濯を実行可能な洗濯ロボットおよび洗濯機と、料理を実行可能な料理ロボット、冷蔵庫、電子レンジおよびキッチンと、テレビ、ＡＶアンプ、電動カーテンおよびエアコンとがあったとする。ユーザは溜まった洗濯物を、洗濯機を使って洗濯し、それをベランダに干すという一連の動作が終わっている状態を"洗濯して"という音声コマンドのゴール状態としたかったとする。しかし、それ以外の料理ロボットやテレビなどの状態まで一緒にゴール状態として覚えてしまうと、次に"洗濯して"という音声コマンドを実行すると、料理ロボットやテレビの状態までが再現されてしまうことなる。よって、コマンドによって制御対象となる外部機器がどれなのかを適切に選定することが重要となる。

　そこで、本出願人は、ユーザの協力を得ながら制御対象の外部機器を特定するのが適切であると考えた。図５は、音声コマンドの登録手順の一例を表したものである。

　まず、ゴールベースコマンド登録・実行部２６は、音声コマンドの登録開始指示を取得する（ステップＳ２０１）。具体的には、ユーザが、音声コマンドの登録開始を指示する音声コマンドを発話する。例えば、ユーザが、「今から行う操作を覚えて」と発話する。すると、コマンド取得部１０は、ユーザから入力された音声コマンドを取得し、ゴールベースコマンド登録・実行部２６に出力する。ゴールベースコマンド登録・実行部２６は、コマンド取得部１０から、音声コマンドの登録開始を指示する音声コマンドが入力されると、音声コマンドの登録開始指示を取得したと判断する（ステップＳ２０１）。

　ゴールベースコマンド登録・実行部２６は、音声コマンドの登録開始指示を取得すると、外部機器の状態の監視を開始する（ステップＳ２０２）。具体的には、ゴールベースコマンド登録・実行部２６は、外部機器状態認識部２１からの入力を待つ。その後、ユーザ自らが、１または複数の外部機器の操作を行い、操作が終了した段階で、音声コマンドの登録終了を指示する音声コマンドを発話する。例えば、ユーザが、「この状態を×××××（コマンド名）として覚えて」と発話する。すると、コマンド取得部１０は、ユーザから入力された音声コマンドを取得し、ゴールベースコマンド登録・実行部２６に出力する。ゴールベースコマンド登録・実行部２６は、コマンド取得部１０から、音声コマンドの登録終了を指示する音声コマンドが入力されると、音声コマンドの登録終了指示を取得したと判断する（ステップＳ２０３）。

　ゴールベースコマンド登録・実行部２６は、音声コマンドの登録終了指示を取得すると、監視の間に得られた、外部機器状態認識部２１からの入力を基に、操作対象の１または複数の外部機器を特定するとともに、操作対象の１または複数の外部機器の最終状態をゴール状態として特定する。さらに、ゴールベースコマンド登録・実行部２６は、音声コマンド登録開始指示を取得してから、音声コマンド登録終了指示を取得するまでの間にコマンド取得部１０から入力されたコマンド名（×××××）を音声コマンドとして特定する。ゴールベースコマンド登録・実行部２６は、特定した、操作対象の１または複数の外部機器のゴール状態と、特定した音声コマンドとを互いに関連付けたテーブルＤを生成し、コマンド・ゴール状態変換データベース２７に格納する。このようにして、ゴールベースコマンド登録・実行部２６は、音声コマンドおよび監視結果をコマンド・ゴール状態変換データベース２７に登録する（ステップＳ２０４）。

　なお、ユーザが、例えば、エージェント機器１に設けられた所定のボタンを押すことにより、音声コマンドの登録が開始されてもよい。この場合、ゴールベースコマンド登録・実行部２６は、ユーザによって所定のボタンが押されたことを検知する信号を取得したときに、音声コマンドの登録開始指示を取得したと判断してもよい。

（音声コマンドの実行）
　次に、音声コマンドの実行について説明する。図６は、音声コマンドの実行手順の一例を表したものである。

　まず、ゴールベースコマンド登録・実行部２６は、音声コマンドを取得する（ステップＳ３０１）。具体的には、ユーザが、操作対象の１または複数の外部機器の最終状態に対応する音声コマンドを発話する。例えば、ユーザが、「シアターモードにして」と発話する。すると、コマンド取得部１０は、ユーザから入力された音声コマンドとして、“シアターモード”を取得し、ゴールベースコマンド登録・実行部２６に出力する。ゴールベースコマンド登録・実行部２６は、コマンド取得部１０から、音声コマンドを取得する。

　ゴールベースコマンド登録・実行部２６は、コマンド取得部１０から、音声コマンドが入力されると、コマンド・ゴール状態変換データベース２７から、入力された音声コマンドに対応するゴール状態を特定する（ステップＳ３０２）。続いて、ゴールベースコマンド登録・実行部２６は、特定したゴール状態をゴールベース機器制御部２５に出力する。

　ゴールベース機器制御部２５は、ゴール状態がゴールベースコマンド登録・実行部２６から入力されると、外部機器状態認識部２１から、ゴール状態が規定された、１または複数の外部機器の現在の状態を取得する（ステップＳ３０３）。次に、ゴールベース機器制御部２５は、制御対象である１または複数の外部機器が現在の状態からゴール状態に至るのに必要なコマンドリストを状態遷移モデル２３Ｄに基づいて生成する（ステップＳ３０４）。次に、ゴールベース機器制御部２５は、生成したコマンドリスト内の各コマンドを順次、実行する（ステップＳ３０５）。具体的には、ゴールベース機器制御部２５は、生成したコマンドリスト内の各コマンドを順次、外部機器制御部２２に出力する。その結果、操作対象の１または複数の外部機器が、音声コマンドに対応した最終状態となる。

（音声コマンドの修正）
　次に、音声コマンドの修正について説明する。

　音声コマンドの修正には、大まかに分けて、（１）操作対象として新たな１または複数の外部機器の追加（更に、追加する１または複数の外部機器の最終状態の追加）、（２）操作対象からの１または複数の外部機器の削除、および（３）操作対象に含まれる少なくとも１つの外部機器の最終状態の変更、のうち、少なくとも１つが考えられる。いずれも登録済みの音声コマンドを基準にして、音声コマンドの修正を行うのが適切であると考える。ユーザは最初に登録済みの音声コマンドを実行するようにエージェント機器１に指示し、次に（１）および（３）の場合は追加の外部機器の操作を行った上で、音声コマンドの修正を指示する。（２）の場合もほぼ同様で、エージェント機器１が削除対象の外部機器の操作を行った後に、ユーザがその操作の削除を指示する。

　音声コマンドの別名を作成する場合や、複数の音声コマンドを組み合わせて新しい音声コマンドを作る場合も同様に、既存のコマンドを使いつつ、必要あればユーザがそこから差分の操作を行い、最終状態を新しいコマンドとして登録すればよい。このようにすることで、エージェント機器１は簡単な動作を元にして、より複雑な動作を獲得することができ、しかもゴールベースの考え方に基づいているので、コマンド実行時に各外部機器がどのような状態にあったとしても、ゴール状態を実現することができる。

　また、Ｕｎｄｏの実現も容易である。エージェント機器１はコマンド実行前の外部機器の状態を保存しておき、コマンド実行後にユーザから、１つ前の状態に戻すよう指示を受けたら、保存しておいた状態をゴール状態として制御を行えばよい。

　次に、音声コマンドの修正手順の一例について説明する。図７は、音声コマンドの修正手順の一例を表したものである。

　まず、ゴールベースコマンド登録・実行部２６は、音声コマンドの修正開始指示を取得する（ステップＳ４０１）。具体的には、ユーザが、音声コマンドの修正開始を指示する音声コマンドを発話する。例えば、ユーザが、「音声コマンドの修正」と発話する。すると、コマンド取得部１０は、ユーザから入力された音声コマンドを取得し、ゴールベースコマンド登録・実行部２６に出力する。ゴールベースコマンド登録・実行部２６は、コマンド取得部１０から、音声コマンドの修正開始を指示する音声コマンドが入力されると、音声コマンドの修正開始指示を取得したと判断する（ステップＳ４０１）。

　ゴールベースコマンド登録・実行部２６は、音声コマンドの修正開始指示を取得した後、修正対象の音声コマンドを取得する（ステップＳ４０２）。具体的には、ユーザが、修正対象の音声コマンドを発話する。例えば、ユーザが、「シアターモードの修正」と発話する。すると、コマンド取得部１０は、ユーザから入力された音声コマンドを取得し、ゴールベースコマンド登録・実行部２６に出力する。ゴールベースコマンド登録・実行部２６は、コマンド取得部１０から、修正対象の音声コマンドを取得する（ステップＳ４０２）。

　ゴールベースコマンド登録・実行部２６は、コマンド取得部１０から、音声コマンドの修正開始指示および修正対象の音声コマンドを取得すると、上述のステップＳ３０２～Ｓ３０４を実行する（ステップＳ４０３）。続いて、ゴールベースコマンド登録・実行部２６は、操作対象の１または複数の外部機器の状態を監視しながら、上述のステップＳ３０５を実行する（ステップＳ４０４）。つまり、ゴールベースコマンド登録・実行部２６は、操作対象の１または複数の外部機器の状態を監視しながら、修正対象の音声コマンドに対応するゴール状態に至るのに必要な１または複数のコマンドを実行する。このとき、ユーザが、例えば、操作対象として新たに追加する１または複数の外部機器を操作したり、エージェント機器１が行った操作の削除を指示したり、操作対象に含まれる少なくとも１つの外部機器の最終状態を変更したりする。ゴールベースコマンド登録・実行部２６は、ユーザからの上述のような指示内容に応じた処理を行うことにより、修正対象の音声コマンドに対応するゴール状態を特定する。なお、ゴールベースコマンド登録・実行部２６は、ユーザからの上述のような指示内容に応じた処理を行うにあたって、操作対象の１または複数の外部機器の状態の監視や、修正対象の音声コマンドに対応するゴール状態に至るのに必要な１または複数のコマンドの実行を省略してもよい。

　その後、ユーザが、音声コマンドの修正終了を指示する音声コマンドを発話する。例えば、ユーザが、「この状態を×××××（コマンド名）として覚えて」と発話する。すると、コマンド取得部１０は、ユーザから入力された音声コマンドを取得し、ゴールベースコマンド登録・実行部２６に出力する。ゴールベースコマンド登録・実行部２６は、コマンド取得部１０から、音声コマンドの修正終了を指示する音声コマンドが入力されると、音声コマンドの修正終了指示を取得したと判断する（ステップＳ４０５）。

　ゴールベースコマンド登録・実行部２６は、音声コマンドの修正終了指示を取得すると、監視の間に得られた、外部機器状態認識部２１からの入力を基に、操作対象の１または複数の外部機器を特定するとともに、操作対象の１または複数の外部機器の最終状態をゴール状態として特定する。さらに、ゴールベースコマンド登録・実行部２６は、コマンド取得部１０から入力されたコマンド名（×××××）を音声コマンドとして特定する。ゴールベースコマンド登録・実行部２６は、特定した、操作対象の１または複数の外部機器のゴール状態と、特定した音声コマンドとを互いに関連付けたテーブルＤを生成し、コマンド・ゴール状態変換データベース２７に格納する。このようにして、ゴールベースコマンド登録・実行部２６は、音声コマンドおよび監視結果をコマンド・ゴール状態変換データベース２７に登録する（ステップＳ４０６）。その結果、音声コマンドの修正が完了する。

　なお、ユーザが、例えば、エージェント機器１に設けられた所定のボタンを押すことにより、音声コマンドの修正が開始されてもよい。この場合、ゴールベースコマンド登録・実行部２６は、ユーザによって所定のボタンが押されたことを検知する信号を取得したときに、音声コマンドの修正開始指示を取得したと判断してもよい。

［効果］
　次に、エージェント機器１の効果について説明する。

　音声認識によってアプリケーションを起動する際に、最短発話でアプリケーションを起動させることで、発話に要するユーザ負担を軽減することが望まれている。例えば、「音楽をかけて」と言う代わりに、「音楽」と言うだけで、音楽を流せるようにすることが望まれている。しかし、最短発話でアプリケーションを起動しようとすると、周囲の話声やノイズにより、誤動作が生じる確率が高くなってしまうと言う問題があった。

　一方、本実施の形態に係るエージェント機器１では、制御対象である１または複数の外部機器に対して送信した複数のコマンドと、複数のコマンド送信前後の、１または複数の外部機器の状態とを対応付けた状態遷移モデル２３Ｄが生成される。これにより、状態遷移モデル２３Ｄから、実行すべきコマンドを選択しながら、外部から入力されたコマンドに対応するゴール状態に向けて、制御対象である１または複数の外部機器を制御することが可能となる。従って、１つの音声コマンドの入力によって周囲の機器をゴール状態に至るまで操作するが可能となり、エージェント機器１を直感的に操作することができる。また、特別なスキルを必要とせず、ユーザ独自の音声コマンドの追加や変更も行うことが可能となる。

　また、本実施の形態では、コマンド一覧２３Ｂおよび状態判別一覧２３Ｃが機器制御モデルデータベース２３に設けられている。これにより、コマンド一覧２３Ｂおよび状態判別一覧２３Ｃと、状態遷移モデル２３Ｄとを用いることで、１つの音声コマンドの入力によって周囲の機器をゴール状態に至るまで操作するが可能となる。

　また、本実施の形態では、コマンド取得部１０と、コマンド・ゴール状態変換データベース２７と、ゴールベースコマンド登録・実行部２６とが設けられている。これにより、状態遷移モデル２３Ｄから、実行すべきコマンドを選択しながら、外部から入力されたコマンドに対応するゴール状態に向けて、制御対象である１または複数の外部機器を制御することが可能となる。従って、１つの音声コマンドの入力によって周囲の機器をゴール状態に至るまで操作するが可能となる。

　また、本実施の形態では、状態遷移モデル２３Ｄが機器制御モデルデータベース２３に設けられている。これにより、エージェント機器１内に設けられたコマンド一覧２３Ｂ、状態判別一覧２３Ｃおよび状態遷移モデル２３Ｄを用いることで、１つの音声コマンドの入力によって周囲の機器をゴール状態に至るまで操作するが可能となる。

　また、本実施の形態では、状態遷移モデル２３Ｄがネットワーク上の機器制御モデル共有データベース４０に設けられている。これにより、他のエージェント機器がネットワーク上の機器制御モデル共有データベース４０を利用することができるので、エージェント機器ごとに、機械学習を行う必要がなくなり、モデルの作成に要する手間を低減することができる。

　また、本実施の形態では、状態遷移モデル２３Ｄの一部が、機械学習（例えば、強化学習）を用いずに、プログラミングなどを用いて、作成されている場合には、機械学習では実現困難な制御モデルや、より効率的な制御モデルを設けることが可能となる。

＜３．変形例＞
　次に、上記実施の形態に係るエージェント機器１の変形例について説明する。

[変形例Ａ]
　上記実施の形態において、音声エージェントクラウドサービス３０が省略されてもよい。この場合、発話解釈・実行部１３が、受信した発話音声データを音声認識によりテキスト化するようになっていてもよい。また、上記実施の形態において、音声認識部１２、発話解釈・実行部１３および音声合成部１４が省略されてもよい。この場合、音声認識部１２、発話解釈・実行部１３および音声合成部１４の機能を実現するクラウドサービスがネットワーク上に設けられ、コマンド取得部１０が、マイク１１で得られたサウンド信号を、ネットワークを介して当該クラウドサービスに送信し、当該クラウドサービスで生成されたサウンド信号を、ネットワークを介して受信するようになっていてもよい。

[変形例Ｂ]
　また、上記実施の形態およびその変形例において、エージェント機器１は、例えば、図８に示したように、携帯端末９０と通信可能な通信部８０を備えていてもよい。携帯端末９０は、エージェント機器１のＵＩ（Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）を提供する。携帯端末９０は、例えば、図９に示したように、通信部９１、マイク９２、スピーカ９３、表示部９４、記憶部９５および制御部９６を有している。

　通信部９１は、ネットワークを介して、携帯端末９０と通信可能に構成されている。ここで、ネットワークは、例えば、インターネットで標準的に利用されている通信プロトコル（ＴＣＰ／ＩＰ）を用いて通信を行うネットワークである。ネットワークは、例えば、そのネットワーク独自の通信プロトコルを用いて通信を行うセキュアなネットワークであってもよい。ネットワークは、例えば、インターネット、イントラネット、または、ローカルエリアネットワークである。ネットワークと、エージェント機器１との接続は、例えば、イーサネット（登録商標）等の有線ＬＡＮであってもよいし、Ｗｉ－Ｆｉ等の無線ＬＡＮや、携帯電話回線などであってもよい。

　マイク９２は、周囲のサウンドを受信し、それにより得られたサウンド信号を制御部９６に出力する。スピーカ９３は、入力されたサウンド信号を音声に変換し、外部に出力する。表示部９４は、例えば、液晶パネル、または、有機ＥＬ（Electro Luminescence）パネルである。表示部９４は、制御部９６から入力された映像信号に基づいて映像を表示する。記憶部９５は、例えば、ＤＲＡＭなどの揮発性メモリ、または、ＥＥＰＲＯＭやフラッシュメモリなどの不揮発性メモリである。記憶部９５には、エージェント機器１のＵＩを提供するためのプログラム９５Ａが格納されている。プログラム９５Ａが制御部９６にロードされることにより、制御部９６は、プログラム９５Ａに記述された動作を実行する。

　制御部９６は、通信部９１を介してエージェント機器１から入力された情報を含む映像信号を生成し、表示部９４に出力する。制御部９６は、マイク９２で得られたサウンド信号を、通信部９１を介してエージェント機器１（音声認識部１２）に出力する。音声認識部１２は、携帯端末９０から入力されたサウンド信号に含まれる、ユーザの発話音声信号を抽出し、発話解釈・実行部１３に出力する。

　本変形例では、携帯端末９０によって、エージェント機器１のＵＩが提供される。これにより、エージェント機器１がユーザから遠く離れている場合であっても、エージェント機器１に対して音声コマンドを確実に入力することができる。

[変形例Ｃ]
　上記実施の形態およびその変形例において、機器制御モデル獲得部２４、ゴールベース機器制御部２５およびゴールベースコマンド登録・実行部２６で実行される一連の処理をプログラムによって実現してもよい。例えば、図１０、図１１に示したように、ゴールベース実行部２０が、演算部２８および記憶部２９を備えていてもよい。記憶部２９は、例えば、ＤＲＡＭなどの揮発性メモリ、または、ＥＥＰＲＯＭやフラッシュメモリなどの不揮発性メモリである。記憶部２９には、機器制御モデル獲得部２４、ゴールベース機器制御部２５およびゴールベースコマンド登録・実行部２６で実行される一連の処理を実行するためのプログラム２９Ａが格納されている。プログラム２９Ａが演算部２８にロードされることにより、演算部２８は、プログラム２９Ａに記述された動作を実行する。

　また、例えば、本開示は以下のような構成を取ることができる。
（１）
　制御対象である１または複数の外部機器に対して複数のコマンドを送信する外部機器制御部と、
　前記外部機器制御部による前記複数のコマンド送信前後の、前記１または複数の外部機器の状態を認識する外部機器状態認識部と、
　前記外部機器制御部から送信された前記複数のコマンドと、前記外部機器制御部による前記複数のコマンド送信前後の、前記１または複数の外部機器の状態とを対応付けた状態遷移モデルを生成するモデル獲得部と
　を備えた
　情報処理装置。
（２）
　前記外部機器ごとに１つずつ割り当てられた複数の識別子と、各前記外部機器において受け付け可能な複数のコマンドとを関連付けた第１テーブルと、
　前記複数の識別子と、各前記外部機器の状態を判別可能な方法についての情報とを関連付けた第２テーブルと、
　前記状態遷移モデルと
　を格納する記憶部を更に備えた
　（１）に記載の情報処理装置。
（３）
　音声認識により音声コマンドを取得するコマンド取得部と、
　前記音声コマンドとゴール状態とが関連付けられた第３のテーブルと、
　前記コマンド取得部によって取得された前記音声コマンドに対応する前記ゴール状態を前記第３のテーブルから把握し、把握した前記ゴール状態に至るのに必要な１または複数のコマンドを前記状態遷移モデルに基づいて生成し、生成した前記１または複数のコマンドを実行する実行部と
　を更に備えた
　（１）または（１）に記載の情報処理装置。
（４）
　前記モデル獲得部で生成した前記状態遷移モデルを格納する記憶部を更に備えた
　（１）ないし（３）のいずれか１つに記載の情報処理装置。
（５）
　前記モデル獲得部は、生成した前記状態遷移モデルをネットワーク上の記憶部に格納する
　（１）ないし（３）のいずれか１つに記載の情報処理装置。
（６）
　前記外部機器状態認識部は、前記１または複数の外部機器と通信を行うことの可能な通信機器、前記１または複数の外部機器を撮像することの可能な撮像装置、前記１または複数の外部機器から発せられるサウンドを取得することの可能な集音装置、および前記１または複数の外部機器に対して送信された赤外線リモコンコードを受信することの可能な受信装置の少なくとも１つによって構成されている
　（１）ないし（５）のいずれか１つに記載の情報処理装置。
（７）
　前記状態遷移モデルは、機械学習によって生成された学習モデルであり、前記１または複数の外部機器の状態と、前記ゴール状態が入力されると、入力された前記ゴール状態に至るのに必要な１または複数のコマンドを出力するように構成されている
　（３）に記載の情報処理装置。
（８）
　前記１または複数の外部機器から得られた情報を基に、前記外部機器ごとに前記識別子を生成する識別子生成部を更に備えた
　（２）に記載の情報処理装置。
（９）
　前記実行部は、音声コマンド登録開始指示を取得すると、前記１または複数の外部機器の状態の監視を開始し、音声コマンド登録終了指示を取得すると、前記監視の間に得られた、前記外部機器状態認識部からの入力を基に、操作対象の１または複数の外部機器を特定するとともに、前記操作対象の１または複数の外部機器の最終状態をゴール状態として特定する
　（３）に記載の情報処理装置。
（１０）
　前記実行部は、ユーザから入力された音声コマンドと、前記ゴール状態とを関連付けて前記第３テーブルを作成する
　（９）に記載の情報処理装置。
（１１）
　前記実行部は、前記音声コマンド登録開始指示を取得してから、前記音声コマンド登録終了指示を取得するまでの間にユーザから入力された音声コマンドと、前記ゴール状態とを関連付けて前記第３テーブルを作成する
　（９）または（１０）に記載の情報処理装置。
（１２）
　前記実行部は、音声コマンド修正開始指示および修正対象の音声コマンドを取得すると、ユーザからの指示内容に応じた処理を行うことにより、前記修正対象の音声コマンドに対応するゴール状態を特定する
　（９）に記載の情報処理装置。
（１３）
　前記実行部は、音声コマンド修正開始指示および修正対象の音声コマンドを取得すると、前記１または複数の外部機器の状態を監視しながら、前記修正対象の音声コマンドに対応する前記ゴール状態に至るのに必要な１または複数のコマンドを実行し、さらに、ユーザからの指示内容に応じた処理を行うことにより、前記修正対象の音声コマンドに対応するゴール状態を特定する
　（１２）に記載の情報処理装置。
（１４）
　前記実行部は、前記ユーザからの指示内容に応じた処理として、前記操作対象へ新たな１または複数の外部機器の追加、前記操作対象から１または複数の外部機器の削除、および、前記操作対象に含まれる少なくとも１つの外部機器の最終状態の変更のうち少なくとも１つの処理を行う
　（１２）に記載の情報処理装置。
（１５）
　制御対象である１または複数の外部機器に対して複数のコマンドを送信し、その応答を受信することにより、前記複数のコマンド送信前後の、前記１または複数の外部機器の状態を認識することと、
　送信した前記複数のコマンドと、前記複数のコマンド送信前後の、前記１または複数の外部機器の状態とを対応付けた状態遷移モデルを生成することと
　を含む
　情報処理方法。
（１６）
　複数のコマンドを外部機器制御部に出力することにより、前記外部機器制御部から、制御対象である１または複数の外部機器に対して前記複数のコマンドを出力させた後、その応答を得ることにより、前記複数のコマンド送信前後の、前記１または複数の外部機器の状態を得ることと、
　出力した前記複数のコマンドと、前記複数のコマンド送信前後の、前記１または複数の外部機器の状態とを対応付けた状態遷移モデルを生成することと
　をコンピュータに実行させる
　情報処理プログラム。

　本開示の一実施形態に係る情報処理装置、情報処理方法および情報処理プログラムでは、制御対象である１または複数の外部機器に対して送信した複数のコマンドと、複数のコマンド送信前後の、１または複数の外部機器の状態とを対応付けた状態遷移モデルが生成される。これにより、状態遷移モデルから、実行すべきコマンドを選択しながら、外部から入力されたコマンドに対応するゴール状態に向けて、制御対象である１または複数の外部機器を制御することが可能となる。従って、１つの音声コマンドの入力によって周囲の機器をゴール状態に至るまで操作するが可能となる。

　本出願は、日本国特許庁において２０１９年５月３０日に出願された日本特許出願番号第２０１９－１００９５６号を基礎として優先権を主張するものであり、この出願のすべての内容を参照によって本出願に援用する。

　当業者であれば、設計上の要件や他の要因に応じて、種々の修正、コンビネーション、サブコンビネーション、および変更を想到し得るが、それらは添付の請求の範囲やその均等物の範囲に含まれるものであることが理解される。

Claims

　制御対象である１または複数の外部機器に対して複数のコマンドを送信する外部機器制御部と、
　前記外部機器制御部による前記複数のコマンド送信前後の、前記１または複数の外部機器の状態を認識する外部機器状態認識部と、
　前記外部機器制御部から送信された前記複数のコマンドと、前記外部機器制御部による前記複数のコマンド送信前後の、前記１または複数の外部機器の状態とを対応付けた状態遷移モデルを生成するモデル獲得部と
　を備えた
　情報処理装置。
　前記外部機器ごとに１つずつ割り当てられた複数の識別子と、各前記外部機器において受け付け可能な複数のコマンドとを関連付けた第１のテーブルと、
　前記複数の識別子と、各前記外部機器の状態を判別可能な方法についての情報とを関連付けた第２のテーブルと
　を格納する記憶部を更に備えた
　請求項１に記載の情報処理装置。
　音声認識により音声コマンドを取得するコマンド取得部と、
　前記音声コマンドとゴール状態とが関連付けられた第３のテーブルと、
　前記コマンド取得部によって取得された前記音声コマンドに対応する前記ゴール状態を前記第３のテーブルから把握し、把握した前記ゴール状態に至るのに必要な１または複数のコマンドを前記状態遷移モデルに基づいて生成し、生成した前記１または複数のコマンドを実行する実行部と
　を更に備えた
　請求項１に記載の情報処理装置。
　前記モデル獲得部で生成した前記状態遷移モデルを格納する記憶部を更に備えた
　請求項１に記載の情報処理装置。
　前記モデル獲得部は、生成した前記状態遷移モデルをネットワーク上の記憶部に格納する
　請求項１に記載の情報処理装置。
　前記外部機器状態認識部は、前記１または複数の外部機器と通信を行うことの可能な通信機器、前記１または複数の外部機器を撮像することの可能な撮像装置、前記１または複数の外部機器から発せられるサウンドを取得することの可能な集音装置、および前記１または複数の外部機器に対して送信された赤外線リモコンコードを受信することの可能な受信装置の少なくとも１つによって構成されている
　請求項１に記載の情報処理装置。
　前記状態遷移モデルは、機械学習によって生成された学習モデルであり、前記１または複数の外部機器の状態と、前記ゴール状態が入力されると、入力された前記ゴール状態に至るのに必要な１または複数のコマンドを出力するように構成されている
　請求項３に記載の情報処理装置。
　前記１または複数の外部機器から得られた情報を基に、前記外部機器ごとに前記識別子を生成する識別子生成部を更に備えた
　請求項２に記載の情報処理装置。
　前記実行部は、音声コマンド登録開始指示を取得すると、前記１または複数の外部機器の状態の監視を開始し、音声コマンド登録終了指示を取得すると、前記監視の間に得られた、前記外部機器状態認識部からの入力を基に、操作対象の１または複数の外部機器を特定するとともに、前記操作対象の１または複数の外部機器の最終状態をゴール状態として特定する
　請求項３に記載の情報処理装置。
　前記実行部は、ユーザから入力された音声コマンドと、前記ゴール状態とを関連付けて前記第３テーブルを作成する
　請求項９に記載の情報処理装置。
　前記実行部は、前記音声コマンド登録開始指示を取得してから、前記音声コマンド登録終了指示を取得するまでの間にユーザから入力された音声コマンドと、前記ゴール状態とを関連付けて前記第３テーブルを作成する
　請求項９に記載の情報処理装置。
　前記実行部は、音声コマンド修正開始指示および修正対象の音声コマンドを取得すると、ユーザからの指示内容に応じた処理を行うことにより、前記修正対象の音声コマンドに対応するゴール状態を特定する
　請求項９に記載の情報処理装置。
　前記実行部は、音声コマンド修正開始指示および修正対象の音声コマンドを取得すると、前記１または複数の外部機器の状態を監視しながら、前記修正対象の音声コマンドに対応する前記ゴール状態に至るのに必要な１または複数のコマンドを実行し、さらに、ユーザからの指示内容に応じた処理を行うことにより、前記修正対象の音声コマンドに対応するゴール状態を特定する
　請求項１２に記載の情報処理装置。
　前記実行部は、前記ユーザからの指示内容に応じた処理として、前記操作対象へ新たな１または複数の外部機器の追加、前記操作対象から１または複数の外部機器の削除、および、前記操作対象に含まれる少なくとも１つの外部機器の最終状態の変更のうち少なくとも１つの処理を行う
　請求項１２に記載の情報処理装置。
　制御対象である１または複数の外部機器に対して複数のコマンドを送信し、その応答を受信することにより、前記複数のコマンド送信前後の、前記１または複数の外部機器の状態を認識することと、
　送信した前記複数のコマンドと、前記複数のコマンド送信前後の、前記１または複数の外部機器の状態とを対応付けた状態遷移モデルを生成することと
　を含む
　情報処理方法。
　複数のコマンドを外部機器制御部に出力することにより、前記外部機器制御部から、制御対象である１または複数の外部機器に対して前記複数のコマンドを出力させた後、その応答を得ることにより、前記複数のコマンド送信前後の、前記１または複数の外部機器の状態を得ることと、
　出力した前記複数のコマンドと、前記複数のコマンド送信前後の、前記１または複数の外部機器の状態とを対応付けた状態遷移モデルを生成することと
　をコンピュータに実行させる
　情報処理プログラム。