WO2019107224A1

WO2019107224A1 - 機器制御システム、機器制御方法、及びプログラム

Info

Publication number: WO2019107224A1
Application number: PCT/JP2018/042864
Authority: WO
Inventors: 須山　明彦; 和也虫壁; 啓介塚田
Original assignee: ヤマハ株式会社
Priority date: 2017-12-01
Filing date: 2018-11-20
Publication date: 2019-06-06
Also published as: EP3719630A1; CN111433736A; JP6962158B2; EP3719630A4; CN111433736B; US20200294494A1; US11574631B2; JP2019101730A

Abstract

ユーザが音声入力において受付可能なフレーズを容易に得ること。機器制御システムは、デバイスに関するユーザ設定を取得し、前記取得された前記ユーザ設定に基づいて、前記デバイスを制御可能なフレーズを生成し、前記生成されたフレーズを表示させるデータを出力する。

Description

機器制御システム、機器制御方法、及びプログラム

　本発明は機器制御システム、機器制御方法、及びプログラムに関する。

　近年は、例えばスマートフォンやスマートスピーカなど、音声認識を用いた音声入力により物理的な操作をしなくても手軽に操作できる機器が増加している。

　音声入力においては、指示として何らかのフレーズを入力することになる。ここで入力されるフレーズの文は本来的に自由度が高いため、ユーザは、音声入力としてどんなフレーズが受け付けられるかわからない。そこで、受け付け可能なフレーズを説明するマニュアルを整備する方法が考えられるが、定型フレーズしか案内することができない、そのため、全ユーザに共通するフレーズを案内することはできても、ユーザにより変化するフレーズを案内できないという問題があった。

　本発明は上記課題を鑑みてなされたものであって、その目的は、ユーザが音声入力において受付可能なフレーズを容易かつ確実に得ることが可能な技術を提供することにある。

　上記課題を解決するために、本発明に係る機器制御システムは、デバイスに関するユーザ設定を取得する設定取得手段と、前記取得された前記ユーザ設定に基づいて、前記デバイスを制御可能なフレーズを生成するフレーズ生成手段と、前記生成されたフレーズを表示させるデータを出力する表示データ出力手段と、を含む。

　また、本発明に係る機器制御方法は、デバイスに関するユーザ設定を取得するステップと、前記取得された前記ユーザ設定に基づいて、前記デバイスを制御可能なフレーズを生成するステップと、前記生成されたフレーズを表示させるデータを出力するステップと、を含む。

　また、本発明に係るプログラムは、デバイスに関するユーザ設定を取得する設定取得手段、前記取得された前記ユーザ設定に基づいて、前記デバイスを制御可能なフレーズを生成するフレーズ生成手段、および、前記生成されたフレーズを表示させるデータを出力する表示データ出力手段、としてコンピュータを機能させる。

　本発明によれば、ユーザが音声入力において受付可能なフレーズを容易に得ることが可能になる。

本発明の実施形態にかかる機器制御システムの構成を示す図である。機器テーブルの一例を示す図である。音声認識装置、コマンドデータ送信装置、機器およびユーザ端末により実現される機能を示すブロック図である。メッセージの一例を示す図である。音声入力の利用登録の処理の一例を示すフロー図である。音声入力利用テーブルの一例を示す図である。機器登録の処理を説明するシーケンス図である。機器登録におけるユーザ端末の処理の例を示すフロー図である。機器登録における機器の処理の例を示すフロー図である。機器登録におけるコマンドデータ送信装置の処理の例を示すフロー図である。サンプルフレーズのテンプレートの一例を示す図である。フレーズ生成部およびフレーズ出力部の処理の例を示すフロー図である。表示されるサンプルフレーズの一例を示す図である。表示されるサンプルフレーズの他の一例を示す図である。動作指示受付部、メッセージ生成部、メッセージ送信部、メッセージ受信部、コマンド実行部の処理の一例を示すフロー図である。

　以下、本発明の実施形態の例を図面に基づいて説明する。

　［１．システム構成］図１は、本発明の実施形態に係る機器制御システムの構成を示す。図１に示すように、機器制御システム１は、第１機器２０－１、第２機器２０－２、第３機器２０－３、音声入力装置３０、音声認識装置４０、及びコマンド処理システム５０を含む。以下では、第１機器２０－１、第２機器２０－２、および第３機器２０－３を総称して「機器２０」と記載する場合がある。

　機器２０及び音声入力装置３０はローカルエリアに設置され、ＬＡＮ２に接続される。ＬＡＮ２は有線ＬＡＮであってもよいし、無線ＬＡＮであってもよい。ＬＡＮ２はルータ４を介してインターネット６に接続される。音声認識装置４０及びコマンド処理システム５０はローカルエリア外に設置される。すなわち、機器２０及び音声入力装置３０から見て、音声認識装置４０及びコマンド処理システム５０はインターネット６側に設置される。なお、「ローカルエリア」とは、ＬＡＮ２を介した通信が可能な限られた範囲のエリアである。

　機器２０は機器制御システム１による制御の対象となる機器である。図１では、３台の機器２０が示されているが、４台以上の機器２０が含まれていてもよいし、２台以下の機器２０のみが含まれていてもよい。

　例えば、機器２０はオーディオ機器又はオーディオビジュアル機器である。具体的には、機器２０は、ＡＶレシーバ、ＡＶアンプ、スピーカ、光ディスク再生機器（ブルーレイディスク（登録商標）プレーヤ又はＤＶＤ（登録商標）プレーヤ等）、又はテレビジョン受像機である。また例えば、機器２０は楽器（電子楽器又は電気楽器等）であってもよい。なお、機器２０はこれら以外の機器であってもよい。

　以下では、第１機器２０－１がＡＶレシーバであり、第２機器２０－２がテレビジョン受像機であり、第３機器２０－３がブルーレイディスクプレーヤである例を想定する。第２機器２０－２はＨＤＭＩ（High-Definition Multimedia Interface：登録商標）ケーブルを介して第１機器２０－１の第１のＨＤＭＩ端子（ＨＤＭＩ１）に接続され、第３機器２０－３はＨＤＭＩケーブルを介して第１機器２０－１の第２のＨＤＭＩ端子（ＨＤＭＩ２）に接続されている。また、プライベートＩＰアドレス「１９２．１６８．０．２」、「１９２．１６８．０．３」、「１９２．１６８．０．４」がそれぞれ第１機器２０－１、第２機器２０－２、第３機器２０－３に対して設定されている。

　図１に示すように、第１機器２０－１は制御部２１、記憶部２２、及び通信部２３を含む。制御部２１は少なくとも一つのマイクロプロセッサ（ＣＰＵ）を含み、記憶部２２に記憶されたプログラムに従って処理を実行する。記憶部２２は、主記憶部（例えばＲＡＭ）及び補助記憶部（例えば、不揮発性の半導体メモリ、またはハードディスクドライブ）を含む。記憶部２２はプログラムやデータを記憶するためのものである。通信部２３は他の装置との間でデータを送受信するためのものである。図１では省略されているが、第２機器２０－２、および第３機器２０－３も制御部２１、記憶部２２、及び通信部２３を含む。

　なお、機器２０は、情報記憶媒体（例えば光ディスク又はメモリカード等）に記憶されたプログラムやデータを読み取るための構成（例えば光ディスクドライブ又はメモリーカードスロット等）を備えてもよい。そして、プログラムが情報記憶媒体を介して機器２０に供給されてもよい。プログラムはインターネット６を介して機器２０に供給されてもよい。

　音声入力装置３０はマイクロフォンを含み、音声入力を受け付ける。本実施形態では、ユーザが機器２０への動作指示を音声入力するために音声入力装置３０が使用される。例えば、Ｘ社が提供するコマンド処理システム５０を介して、居間に設置された機器２０をスタンバイ状態から起動させたい場合、ユーザは「ＡＡＡ　ａｓｋ　ＭＣ　ｔｏ　ｔｕｒｎ　ｏｎ　ｔｈｅ　Ｌｉｖｉｎｇ　Ｒｏｏｍ」等を音声入力装置３０に入力する。ここで、「ＡＡＡ」は音声入力装置３０に対する音声入力を開始させるための言葉（Ｗａｋｅ　ｗｏｒｄ）であって、例えば音声入力装置３０の名称であり、「ＭＣ」は、コマンド処理システム５０の名称である。

　音声入力装置３０に入力された音声（フレーズ）を示す音声データはユーザＩＤとともにインターネット６を介して音声認識装置４０に送信される。音声認識装置４０は例えばサーバコンピュータによって実現される。音声認識装置４０はいわゆるクラウドコンピューティングにより、複数のサーバによって実現されてもよい。音声認識装置４０は音声認識処理を実行することによって、音声データを、プログラム（コマンド処理システム５０）によって理解しやすい形式のデータに変換する。例えば、音声認識装置４０は、フレーズの音声データから、そのユーザの指示の種類と指示の対象とを示す文字列を含む所定形式の動作指示を生成する。そして、動作指示はユーザＩＤとともにコマンド処理システム５０に送信される。なお、ユーザＩＤは、音声データがコマンド処理システム５０に送信されるまでの間に、いずれかのインターネット側の装置（処理）によって付与されてもよい。

　ここで、音声認識装置４０は、ユーザから送信される音声の内容、例えばフレーズ中の特定の単語群に応じて、そのフレーズの内容を処理できるコマンド処理システム５０に対して動作指示を送信することができる。ユーザは、利用したいコマンド処理システム５０を事前に音声認識装置４０に登録する。音声認識装置４０はユーザから入力されたフレーズ中の言葉に基づいて、登録されたコマンド処理システム５０のうちいずれかを選択し、選択されたコマンド処理システム５０へ動作指示を送信する。また、音声認識装置４０は、特定の機器２０に対して複数の種類のフレーズを受け付け、種類に応じたコマンドデータ送信装置１０を介して機器２０を制御してもよい。例えば、フレーズの種類により、フレーズにおける指示の文言のフォーマットが異なっている。

　例えば、フレーズの第１の種類では、名称が「Ｌｉｖｉｎｇ　Ｒｏｏｍ」である機器２０を起動させるフレーズは、「ＡＡＡ　ａｓｋ　ＭＣ　ｔｏ　ｔｕｒｎ　ｏｎ　ｔｈｅ　Ｌｉｖｉｎｇ　Ｒｏｏｍ」であり、フレーズの第２の種類では、その機器２０を起動させるフレーズは、「ＡＡＡ　ｔｕｒｎ　ｏｎ　ｔｈｅ　Ｌｉｖｉｎｇ　Ｒｏｏｍ」である。第１の種類では、フレーズはコマンド処理システム５０を識別する名称である「ＭＣ」を含むが、第２の種類では、フレーズがその名称を含まない。音声認識装置４０が第１の種類のフレーズを受け付けて動作指示を送信するか、第２の種類のフレーズを受け付けて動作指示を送信するかについては、ユーザにより設定される。この設定の詳細については後述する。音声認識装置４０が第１の種類のフレーズを受け付けた際に送信先となるコマンド処理システム５０が、第２の種類のものと異なっていてもよい。

　ユーザ端末６０は、ユーザによるタッチ操作などの物理的操作を受け付け、機器２０を制御する。また、ユーザ端末６０は、ユーザの操作に基づいてコマンド処理システム５０や音声認識装置４０の設定を行う。ユーザ端末６０は例えばスマートフォンやパーソナルコンピュータである。ユーザ端末６０は制御部６１、記憶部６２、及び通信部６３を含む。制御部６１、記憶部６２、通信部６３は制御部２１、記憶部２２、及び通信部２３と同様である。

　図１に示すように、コマンド処理システム５０は、コマンドデータ送信装置１０、データベース５２、及びＭＱＴＴ（Message Queueing Telemetry Transport）サーバ５３を含む。

　データベース５２は各種データを記憶する。例えば、データベース５２は各ユーザの所有している機器２０の情報を記憶する。図２はデータベース５２に記憶される機器テーブルの一例を示す。機器テーブルＴ１はユーザごとに（ユーザＩＤと関連付けて）記憶される。なお、コマンド処理システム５０（データベース５２）、ユーザ端末６０および機器２０で使用されるユーザＩＤは、音声入力装置３０及び音声認識装置４０で使用されるユーザＩＤと異なっていてもよいし、同じであってもよい。これらのユーザＩＤが異なる場合には、それらのユーザＩＤを変換するための対応関係データがコマンド処理システム５０または音声認識装置４０に記憶されている。

　図２に示すように、機器テーブルＴ１は「ＩＤ」、「名称」、「機器ＩＤ」、「ＩＰアドレス」、「コマンド種類」、「端子」、「接続先」、「受信可否」、「受付可能コマンド」フィールドを含む。

　「ＩＤ」フィールドは、ユーザの所有している各機器２０を一意に識別する情報を示す。図２では、第１機器２０－１が機器ＩＤ「１」に相当し、第２機器２０－２が機器ＩＤ「２」に相当する。

　「名称」フィールドは機器２０の名称を示す。この名称はユーザが動作指示の対象の機器２０を指定するために使用される。名称としては、ユーザによって設定された任意の名称が使用されてよいし、例えば機器２０の製造元等によって設定された初期名称が使用され、ユーザにより修正が可能になっていてもよい。

　「機器ＩＤ」フィールドは、これのみで機器２０を一意に特定する機器ＩＤである。機器ＩＤは、機器２０のＭＡＣアドレスであってもよいし、ＭＡＣアドレスに基づいて生成されたＩＤであってもよい。「ＩＰアドレス」フィールドは、機器２０が備えている有線又は無線ネットワークインタフェースカードに対して設定されたＩＰアドレスを示す。「コマンド種類」フィールドは、機器２０で使用されているコマンドの種類（体系）を示す。「端子」フィールドは、機器２０が備えている入力端子のリストを示す。「接続先」フィールドは、機器２０が他の機器２０の入力端子に接続されて、機器２０から出力される音声が他の機器２０に入力される場合に、機器２０が接続された他の機器２０の入力端子を示す。

　「受信可否」フィールドは、インターネット６を介してコマンドを含むメッセージを受信可能であるか否かを示す。メッセージについては後述する。例えば、「０」又は「１」が「受信可否」フィールドに登録される。「０」は、インターネット６を介してメッセージを受信できないことを示し、「１」は、インターネット６を介してメッセージを受信できることを示す。

　「受付可能コマンド」フィールドは、機器２０が受付可能なコマンドのリストを示す。「受付可能コマンド」フィールドのリスト中に「Ｐｏｗｅｒ」が設定されていれば、その機器は外部からのコマンドによりスタンバイ状態から起動することが可能であることを示し、設定されていなければスタンバイ状態から起動することができないことを示す。また、「受付可能コマンド」フィールドのリスト中に「Ｖｏｌｕｍｅ」が設定されていれば、その機器は外部からのコマンドにより音量を制御することが可能であることを示し、設定されていなければ音量を制御することができないことを示す。

　機器テーブルＴ１のデータは各ユーザによって登録される。ユーザはユーザ端末６０からコマンドデータ送信装置１０にアクセスすることによって、自らの所有する機器２０の情報を機器テーブルＴ１に登録できる。登録の詳細については後述する。

　なお、データベース５２には機器テーブルＴ１以外のデータも記憶される。例えば、データベース５２にはユーザと、機器２０のためにそのユーザが入力可能なフレーズの種類を示すデータとが関連付けて記憶されている。他にも、動作指示とコマンドとの対応関係を示すデータ（言い換えれば、動作指示をコマンドに変換するためのデータ）がデータベース５２に記憶されてもよい。

　コマンドデータ送信装置１０は例えばサーバコンピュータによって実現される。図１に示すように、コマンドデータ送信装置１０は制御部１１、記憶部１２、及び通信部１３を含む。制御部１１、記憶部１２、及び通信部１３は制御部２１、記憶部２２、及び通信部２３と同様である。なお、コマンドデータ送信装置１０は、情報記憶媒体（例えば光ディスク又はメモリカード等）に記憶されたプログラムやデータを読み取るための構成要素（例えば光ディスクドライブ又はメモリーカードスロット等）を備えてもよい。そして、プログラムが情報記憶媒体を介してコマンドデータ送信装置１０に供給されてもよい。プログラムはインターネット６を介してコマンドデータ送信装置１０に供給されてもよい。

　コマンドデータ送信装置１０はデータベース５２にアクセス可能である。コマンドデータ送信装置１０とデータベース５２とは一つのサーバコンピュータによって実現されてもよいし、別のサーバコンピュータによって実現されてもよい。

　コマンドデータ送信装置１０は、音声認識装置４０から送信される、機器２０に対する動作指示を受け付け、当該動作指示に基づいてコマンドを含むメッセージを生成し、当該メッセージを当該機器２０へ向けて送信する。より具体的には、メッセージはＭＱＴＴサーバ５３を介して機器２０へ向けて送信される。ＭＱＴＴサーバ５３は、ＭＱＴＴプロトコルを使用してデータを送受信するためのものである。コマンドデータ送信装置１０とＭＱＴＴサーバ５３とは一つのサーバコンピュータによって実現されてもよいし、別のサーバコンピュータによって実現されてもよい。

　［２．機能ブロック］図３は、コマンドデータ送信装置１０、機器２０およびユーザ端末６０により実現される機能を示すブロック図である。

　図３に示すように、コマンドデータ送信装置１０は動作指示受付部１１０、メッセージ生成部１２０、メッセージ送信部１３０、機器情報取得部１４０、音声利用登録部１５０、機器登録部１６０、及び登録結果送信部１７０を含む。動作指示受付部１１０、メッセージ生成部１２０、メッセージ送信部１３０、機器情報取得部１４０、音声利用登録部１５０、機器登録部１６０、及び登録結果送信部１７０は、制御部１１が記憶部１２に格納された各機能のプログラムを実行することによって実現される。

　また図３に示すように、機器２０はメッセージ受信部２１０、コマンド実行部２２０、機器情報送信部２３０および設定部２６０を含む。メッセージ受信部２１０、コマンド実行部２２０、機器情報送信部２３０および設定部２６０は制御部２１が記憶部２２に格納された各機能のプログラムを実行することによって実現される。

　また図３に示すように、ユーザ端末６０は登録制御部６１０、設定取得部６２０、フレーズ生成部６３０、フレーズ出力部６４０を含む。登録制御部６１０、設定取得部６２０、フレーズ生成部６３０、フレーズ出力部６４０は制御部６１が記憶部６２に格納された各機能のプログラムを実行することによって実現される。

　［２－１］まず、動作指示受付部１１０、メッセージ生成部１２０、メッセージ送信部１３０、メッセージ受信部２１０、及びコマンド実行部２２０について説明する。

　動作指示受付部１１０は、機器２０に対する動作指示を受け付ける。例えば、動作指示受付部１１０は、音声認識装置４０によってテキストデータ等のプログラムにとって理解可能な形式のデータに変換された動作指示を音声認識装置４０から受信する。

　メッセージ生成部１２０は、動作指示受付部１１０が機器２０に対する動作指示を受信した場合に、ユーザＩＤと、コマンドとを含むメッセージを生成する。このユーザＩＤは、動作指示にかかるユーザを特定する。コマンドは、動作指示に応じた動作を行わせるためのテキスト等のデータである。

　図４はメッセージＤ１の一例を示す図である。図４に示されるメッセージＤ１は、第１機器２０－１をスタンバイ状態から起動する旨の動作指示が受け付けられた場合に生成されるメッセージの一例である。

　メッセージＤ１は項目「ｕｉｄ」，「ｔｙｐｅ」，「ｉｄ」，「ｃｏｍｍａｎｄ」を含む。項目「ｕｉｄ」は動作指示をしたユーザのユーザＩＤを示す。図４に示す例では、ユーザＩＤ「Ｕ１」が項目「ｕｉｄ」に設定されている。項目「ｔｙｐｅ」はデータの種別を示す。図４に示す例では「ｃｍｄ」が項目「ｔｙｐｅ」に設定されている。これはメッセージ中にコマンドが含まれることを示している。項目「ｉｄ」はメッセージを一意に識別する識別情報を示す。項目「ｃｏｍｍａｎｄ」に設定されるデータはコマンドの内容を示す。項目「ｃｏｍｍａｎｄ」は項目「ｉｐ」，「ｐａｔｈ」，「ｍｅｔｈｏｄ」を含む。項目「ｉｐ」はコマンドの宛先を示す。図４の例では第１機器２０－１のＩＰアドレスが項目「ｉｐ」に設定されている。項目「ｐａｔｈ」はコマンド本体に相当する。項目「ｍｅｔｈｏｄ」は、使用されるＨＴＴＰプロトコルのメソッドを示す。

　メッセージ送信部１３０は、メッセージ生成部１２０によって生成されたメッセージを機器２０へ向けて送信する。なお、メッセージ送信部１３０は、動作指示の対象となる機器２０がインターネット６経由でメッセージを受信できない場合（「受信可否」フィールドに「０」が設定されている場合）には、他の機器２０へメッセージを送信し、その他の機器２０に対象の機器２０へメッセージの内容を転送させてもよい。

　メッセージはＭＱＴＴプロトコルを使用して機器２０へ送信される。言い換えると、メッセージ送信部１３０はＭＱＴＴサーバ５３を介してメッセージを機器２０へ送信する。ＭＱＴＴサーバ５３には、複数のトピックが存在している。トピックのそれぞれの識別情報は、機器２０の機器ＩＤに基づいて設定されている。コマンドデータ送信装置１０から機器２０へ送信する際には、コマンドデータ送信装置１０は機器ＩＤに応じた識別情報を有する要求側のトピックへメッセージをパブリッシュし、機器２０はその識別情報を有する要求側のトピックにパブリッシュされたメッセージを取得する。なお、ＭＱＴＴプロトコルと異なるプロトコルでコマンド処理システム５０と機器２０との間の通信が行われてもよい。

　メッセージ受信部２１０はメッセージをインターネット６を介して受信する。コマンド実行部２２０は、メッセージに含まれるコマンドに基づいて、コマンドを実行する。コマンド実行部２２０は、メッセージに含まれるコマンドを直接解釈して機器２０を直接制御してもよい。またコマンド実行部２２０は、ローカルエリアにあるユーザ端末６０等から、ＬＡＮ２を介して受信されるコマンドを実行する内部実行部と、受信されたメッセージに含まれるコマンドを変換し、その内部実行部へ変換されたコマンドを内部的に送信する変換部とを有していてもよい。例えば、機器２０はＨＴＴＰデーモンを起動させ、内部実行部は、変換部からＨＴＴＰプロトコルを介してコマンドを受け付けてよい。

　［２－２］次に、登録制御部６１０、設定取得部６２０、フレーズ生成部６３０、フレーズ出力部６４０、音声利用登録部１５０、機器登録部１６０、登録結果送信部１７０、設定部２６０の概要について説明する。

　登録制御部６１０は、ユーザについて、第１の種類および第２の種類のうち少なくとも一方のフレーズを音声認識装置４０が受け付け、コマンド処理システム５０へ動作指示を送信することを可能にする。より具体的には、登録制御部６１０は音声認識装置４０およびコマンド処理システム５０に、このユーザについて利用登録の処理を実行させる。また、登録制御部６１０は、ユーザの操作に基づいて、コマンド処理システム５０に音声入力による指示の対象となる機器２０を登録する。

　設定取得部６２０は、ローカルエリアに接続される機器２０を検出し、検出された機器２０から機器２０の音声入力における機器２０の名称を含む機器情報を取得する。また、設定取得部６２０は、登録制御部６１０またはコマンド処理システム５０から、音声認識装置４０が受付可能なフレーズの種類を示す情報を取得する。機器情報やフレーズの種類を示す情報をまとめて、以下ではユーザ設定と記載する。音声入力における機器２０の名称や、利用可能なフレーズの種類は、ユーザにより設定可能な項目であるからである。なお、登録制御部６１０は、設定取得部６２０により複数の機器２０が検出された場合、例えば検出された機器２０のうちユーザが指定する１または複数の機器２０を音声入力による指示の対象となる機器２０として登録する。

　音声利用登録部１５０は、ユーザ端末６０の登録制御部６１０から、ユーザが音声入力によるコマンド処理システム５０の利用を登録する要求（利用登録要求）を受信し、コマンドデータ送信装置１０と音声認識装置４０とが連携してそのユーザによる音声入力を可能にするための処理を実行する。

　機器登録部１６０は、ユーザ端末６０の登録制御部６１０から、音声入力による指示の対象となる機器２０を登録する要求（機器登録要求）を受信し、その機器２０を音声入力の対象として登録する。登録結果送信部１７０は、機器２０の登録の結果（機器登録結果）と、サンプルフレーズのテンプレートとを送信する。

　設定部２６０は、ユーザ端末６０の登録制御部６１０から、ユーザＩＤ登録指示を受信し、そのユーザＩＤ登録指示に含まれるユーザＩＤを不揮発性メモリに書き込む。また設定部２６０は、ユーザ端末６０の登録制御部６１０から、接続開始指示を受信し、コマンド処理システム５０に含まれるＭＱＴＴサーバ５３と接続させ、コマンド処理システム５０からの受信を可能にする。

　フレーズ生成部６３０は、設定取得部６２０により取得されるユーザ設定に基づいて、機器２０を制御可能なフレーズを生成する。フレーズ出力部６４０は、生成されたフレーズを表示させるデータを出力する。フレーズ出力部６４０がそのデータを出力することにより、ユーザ端末６０の表示画面など、ユーザが視認可能なデバイスに、生成されたフレーズが表示される。

　［２－３］次に、機器情報取得部１４０及び機器情報送信部２３０について説明する。

　機器情報取得部１４０は機器２０の機器情報を取得する。機器情報取得部１４０は、メッセージ（以下では「機器情報要求」と記載する）を生成し、当該メッセージをインターネット６を介して機器２０へ送信する。機器情報要求は、機器２０に対して当該機器２０の機器情報を機器情報取得部１４０へ向けて送信させるためのコマンドと、ユーザＩＤとを含む。より具体的には、機器情報取得部１４０は機器情報要求をＭＱＴＴサーバ５３を介して機器２０へ送信する。なお、機器情報要求の生成及び送信もメッセージ生成部１２０及びメッセージ送信部１３０により実行されてもよい。

　機器情報送信部２３０は、機器情報要求が受信されると、機器２０の機器情報をインターネット６を介してコマンドデータ送信装置１０に返信する。機器情報は、例えば、機器２０の機種情報、ユーザが機器２０を特定する名称、機器ＩＤ、ＩＰアドレスを含む。また、機器情報は、機器２０の現在の状態を示す現在情報を含んでもよい。なお、機器情報送信部２３０は機器情報をＭＱＴＴサーバ５３を介してコマンドデータ送信装置へ送信する。機器情報取得部１４０は機器情報を受信する。そして、機器情報取得部１４０は、受信した機器情報のうち必要な項目を抽出し、それらの項目を機器テーブルＴ１に登録する。

　［３．処理］機器制御システム１で実行される処理について説明する。

　［３－１］はじめに、音声入力の利用登録の処理について説明する。音声入力の利用登録の処理は、音声認識装置４０がユーザについて１または複数の種類のフレーズを受け付けて動作指示を送信することを可能にする処理と、コマンド処理システム５０がその動作指示を受け付けることを可能にする情報を登録する処理とを含む。ユーザが音声入力によるコマンド処理システム５０の利用をする前にこの処理が行われる必要がある。

　以下では、第１の種類のフレーズについて利用登録の処理を行う例について説明する。なお、第２の種類のフレーズについても以下と同様の処理で登録されてよい。図５は、音声入力の利用登録の処理の一例を示すフロー図である。以下に記載される、音声利用登録部１５０が行う処理は、制御部１１がその機能のプログラムを実行することにより実行される。登録制御部６１０が行う処理は、制御部６１がその機能のプログラムを実行することにより実行される。

　はじめに、ユーザ端末６０の登録制御部６１０はユーザにより利用登録の処理の開始が指示された場合に、コマンド処理システム５０へ利用登録要求を送信する（ステップＳ１１１）。またコマンドデータ送信装置１０の音声利用登録部１５０は、通信部１３を介して利用登録要求を受信する（ステップＳ１２１）。利用登録要求は、ユーザにより直接的または間接的に指定される、音声入力を受け付ける音声認識装置４０と動作指示を処理するコマンド処理システム５０とを示す情報を含む。また、登録制御部６１０はユーザの認証情報を送信し（ステップＳ１１２）、音声利用登録部１５０は通信部１３を介してユーザの認証情報を受信する（ステップＳ１２２）。ユーザ端末６０から送信される認証情報は、例えばユーザＩＤおよびパスワードであってよい。また、コマンド処理システム５０とは別の認証サーバが存在する場合には、登録制御部６１０が認証サーバに対してユーザにより入力されたユーザの識別情報とパスワードを入力することにより認証サーバから取得したアクセス許可情報（トークンの一種）を、登録制御部６１０が認証情報として送信してもよい。この場合、登録制御部６１０はアクセス許可情報を用いて認証サーバからユーザＩＤを取得してよい。なお、ここで入力されるユーザＩＤと、コマンド処理システム５０と機器２０とで利用されるユーザＩＤとが異なっていてもよい。例えば、音声利用登録部１５０は、認証情報に含まれるユーザＩＤのハッシュ値を後続の処理で利用するユーザＩＤとして生成してもよい。

　認証情報が取得されると、音声利用登録部１５０は、ユーザからの第１の種類のフレーズによる音声入力を、音声認識装置４０が受け付ける設定と、音声認識装置４０が第１の種類のフレーズについて動作指示をコマンド処理システム５０へ送信する設定をする（ステップＳ１２３）。

　そして、音声利用登録部１５０は、音声入力の利用登録状況をデータベースに格納する（ステップＳ１２４）。図６は、音声入力利用テーブルの一例を示す図である。音声入力利用テーブルは、「ユーザＩＤ」、「第１種類登録」、「第２種類登録」フィールドを含む。「ユーザＩＤ」は、テーブルのレコードを一意に識別するキーとなる。「第１種類登録」は、「ユーザＩＤ」フィールドのユーザについて、第１の種類のフレーズを受け付けるための利用登録の処理がされているか否かを示す。「第２種類登録」は、「ユーザＩＤ」フィールドのユーザについて、第２の種類のフレーズを受け付けるための利用登録の処理がされているか否かを示す。

　音声入力の利用登録状況がデータベースに格納されると、音声利用登録部１５０は、音声入力の利用登録が成功したか否かを示す応答を送信し（ステップＳ１２５）、登録制御部６１０は利用登録応答を受信する（ステップＳ１１３）。

　［３－２］次に、ユーザの操作に基づいて、コマンド処理システム５０に音声入力による指示の対象となる機器２０を登録する処理（登録処理）について説明する。図７は、機器登録の処理を説明するシーケンス図である。図８は、機器登録におけるユーザ端末６０の処理の例を示すフロー図である。図９は、機器登録における機器２０の処理の例を示すフロー図である。図１０は、機器登録におけるコマンドデータ送信装置１０の処理の例を示すフロー図である。

　機器登録部１６０、登録結果送信部１７０および機器情報取得部１４０の処理は、制御部１１がその機能のプログラムを実行することにより行われる。登録制御部６１０、設定取得部６２０、フレーズ生成部６３０およびフレーズ出力部６４０の処理は、制御部６１がその機能のプログラムを実行することにより行われる。機器情報送信部２３０、設定部２６０の処理は、制御部２１がその機能のプログラムを実行することにより行われる。

　以下では、ユーザ端末６０、コマンドデータ送信装置１０、機器２０が実行する登録処理を、図７のシーケンス図に従った順序で説明する。

　はじめに、ユーザ端末６０の登録制御部６１０は、ユーザから機器登録開始の指示を取得した場合に、通信部６３を介して、コマンド処理システム５０へ利用登録確認要求を送信する（ステップＳ２１１）。利用登録確認要求は、より具体的には、音声認識装置４０が、１または複数の種類のフレーズについて利用登録がされているか否かを問い合わせる情報である。次に、コマンドデータ送信装置１０の機器登録部１６０は、利用登録確認要求を受信し、音声認識の利用登録の状況を示す利用登録確認応答を送信する（ステップＳ２５１）。より具体的には、機器登録部１６０は機器登録開始の指示をしたユーザについて音声入力利用テーブルに格納されたレコードを取得し、第１種類登録および第２種類登録のフィールドの値に基づいて、利用登録されたフレーズの種類を示す情報を応答する。なお、利用登録確認応答に、ユーザ端末６０を操作しているユーザのユーザＩＤを示す情報が含まれてもよい。ユーザ端末６０の登録制御部６１０は、利用登録確認応答を受信し、利用登録されたフレーズの種類を示す情報などを記憶部６２に格納する（ステップＳ２１２）。なお、ユーザについて、機器２０を操作するためのどの種類のフレーズについても利用登録がされていない場合には、利用登録確認応答としてエラーメッセージが送信され、登録制御部６１０はユーザに利用登録を行わせるための画面を出力する。

　設定取得部６２０は、利用登録確認応答を受信すると、ローカルエリア（ＬＡＮ２）に接続された１または複数の機器２０を検出し、検出された１または複数の機器２０へ機器情報要求を送信する（ステップＳ２１３）。機器２０の機器情報送信部２３０は、機器情報要求を受信し、ユーザ端末６０へ向けて機器情報を送信する（ステップＳ２２１）。機器情報は、ユーザにより設定された機器の名称および機器ＩＤを含む。ユーザ端末６０の設定取得部６２０は、送信された機器情報を受信する（ステップＳ２１４）。

　機器情報を受信すると、登録制御部６１０は検索された機器２０に、ユーザＩＤ登録指示を送信する（ステップＳ２１５）。機器２０の設定部２６０は、ユーザＩＤ登録指示を受信する（ステップＳ２２２）。ユーザＩＤ登録指示は、機器２０に登録すべきユーザＩＤの情報を含む。また、ユーザＩＤ登録指示が受信されると、設定部２６０は、不揮発性メモリにユーザＩＤを書き込む（ステップＳ２２３）。

　ユーザＩＤが書き込まれると、ユーザ端末６０の登録制御部６１０は、検索された機器に、ＭＱＴＴサーバへの接続開始指示を送信する（ステップＳ２１６）。機器２０の設定部２６０は、ＭＱＴＴサーバ５３への接続開始指示を受信する（ステップＳ２２４）。そして、設定部２６０は、ＭＱＴＴサーバ５３へ接続し（ステップＳ２２５）、ＭＱＴＴサーバ５３から動作指示を受信できる状態にする。

　機器２０がＭＱＴＴサーバ５３へ接続すると、ユーザ端末６０の登録制御部６１０は、コマンド処理システム５０（コマンドデータ送信装置１０）へ、機器登録要求を送信する（ステップＳ２１７）。機器登録要求は、ユーザＩＤと、登録する機器２０の機器ＩＤとを含む。コマンドデータ送信装置１０は、ユーザ端末６０から機器登録要求を受信する（ステップＳ２５２）。なお、機器登録要求に、ユーザＩＤの代わりに認証サーバへのアクセス許可情報を含んでもよい。この場合は、コマンドデータ送信装置１０はアクセス許可情報を用いて認証サーバからユーザＩＤまたはユーザＩＤの元となる情報を取得してもよい。

　そして、機器登録部１６０は、機器登録要求に含まれる機器ＩＤを有する機器２０に向けて、機器情報要求を送信する（ステップＳ２５３）。機器情報送信部２３０は、コマンド処理システム５０（ＭＱＴＴサーバ５３）から機器情報要求を受信し、コマンド処理システム５０へ機器情報を送信する（ステップＳ２２６）。機器登録部１６０は、機器情報を受信する（ステップＳ２５４）。機器情報は、コマンドの体系を示す情報、有する入力端子の情報、入力端子に接続される他の機器２０の情報、インターネット６を介してメッセージを受信できるか否かを示す情報、機器２０が受付可能なコマンドのリストを含む。機器登録部１６０は、受信した機器情報のうち少なくとも一部（機器ＩＤを含む）をユーザＩＤと関連付けてデータベースの機器テーブルＴ１に格納する（ステップＳ２５５）。なお、機器登録部１６０は、機器情報に含まれる情報を取捨選択、および整形して機器テーブルＴ１に格納してもよい。

　機器登録部１６０がステップＳ２５５までの処理を完了すると、登録結果送信部１７０は、音声入力の利用登録状況、言い換えると、音声認識装置４０がユーザについて受け付けることのできるフレーズの種類に基づいて、サンプルフレーズのテンプレートを選択する（ステップＳ２５６）。また機器登録部１６０はユーザ端末６０へ、機器の登録ができたか否かを示す機器登録結果と、選択されたサンプルフレーズのテンプレートとを送信する（ステップＳ２５７）。

　図１１は、サンプルフレーズのテンプレートの一例を示す図である。サンプルフレーズは、ユーザが音声入力することにより機器２０を制御可能なフレーズである。図１１は、第１の種類および第２の種類のフレーズについて利用登録がされている場合の例を示している。第１のテンプレートＴＰ１は第１の種類のフレーズのサンプルのテンプレートを含み、第２のテンプレートＴＰ２は、第２の種類のフレーズのサンプルのテンプレートを含む。サンプルの文面は、「ｓｅｎｔｅｎｃｅ」の項目に設定された文字列である。機器の名称はユーザが設定することが可能であり事前に準備することができないため、仮の文字列「％ｓ」がサンプルの文面に埋め込まれている。「ｆｅａｔｕｒｅ」の項目に設定された文字列は、操作対象となる機器２０が備える必要のあるコマンドを示している。

　フレーズ生成部６３０はコマンド処理システム５０（コマンドデータ送信装置１０）から、機器登録要求に対する処理の結果と、サンプルフレーズのテンプレートを受信する（ステップＳ２１８）。フレーズ生成部６３０は受信されたテンプレートと、ユーザ設定である利用登録の状況および機器の名称に基づいて、サンプルフレーズを生成し、フレーズ出力部６４０は生成されたサンプルフレーズを出力する（ステップＳ２１９）。

　以下では、フレーズ生成部６３０およびフレーズ出力部６４０の処理についてさらに詳細に説明する。図１２は、フレーズ生成部６３０およびフレーズ出力部６４０の処理の例を示すフロー図である。

　はじめに、フレーズ生成部６３０は、サンプルフレーズが必要とするコマンドを実行可能な機器２０を選択し、選択された機器２０の名称を取得する（ステップＳ３１１）。フレーズ生成部６３０は、例えば、テンプレートの「ｆｅａｔｕｒｅ」の項目に設定されたコマンドを収集し、また、機器テーブルＴ１に格納されたあるユーザに関するレコードのうち、受付可能コマンドのフィールドに収集されたすべてのコマンドが存在するレコードを選択し、そのレコードに含まれる機器の名称を取得する。

　次に、フレーズ生成部６３０は、ユーザ設定（利用登録されたフレーズの種類を示す情報および機器の名称）に応じた処理を行う。より具体的には以下の処理を行う。まずフレーズ生成部６３０は、利用登録されたフレーズの種類を示す情報が、第１の種類のフレーズを受付可能な状態を示すかを判定する（ステップＳ３１２）。第１の種類のフレーズを受付可能な状態を示す場合には（ステップＳ３１２のＹ）、フレーズ生成部６３０は第１のテンプレートＴＰ１の文言のうち機器名の箇所を選択された機器の名称で置き換えることにより、サンプルフレーズを生成する（ステップＳ３１３）。そして、フレーズ出力部６４０は、生成されたサンプルフレーズがユーザ端末６０の画面に表示されるように、サンプルフレーズのデータを出力する（ステップＳ３１４）。ここで、利用登録されたフレーズの種類を示す情報が、第１の種類のフレーズを受付可能な状態を示さない場合には（ステップＳ３１２のＮ）、ステップＳ３１３およびＳ３１４の処理はスキップされる。

　図１３は、表示されるサンプルフレーズの一例を示す図である。図１３の例は、第１の種類のフレーズが受付可能に設定されている場合に、第１のテンプレートＴＰ１に基づいて表示される画面の一例である。名称「Ｌｉｖｉｎｇ　ｒｏｏｍ」の機器２０は、ボリューム操作のコマンドを処理可能であるため、サンプルフレーズとして出力されている。

　次にフレーズ生成部６３０は、利用登録されたフレーズの種類を示す情報が、第２の種類のフレーズを受付可能な状態を示すかを判定する（ステップＳ３１５）。第２の種類のフレーズを受付可能な状態を示す場合には（ステップＳ３１５のＹ）、フレーズ生成部６３０は第２のテンプレートＴＰ２の文言のうち機器名の箇所を選択された機器の名称で置き換えることにより、サンプルフレーズを生成する（ステップＳ３１６）。そして、フレーズ出力部６４０は、生成されたサンプルフレーズがユーザ端末６０の画面に表示されるように、サンプルフレーズのデータを出力する（ステップＳ３１７）。ここで、利用登録されたフレーズの種類を示す情報が、第２の種類のフレーズを受付可能な状態を示さない場合には（ステップＳ３１５のＮ）、ステップＳ３１６およびＳ３１７の処理はスキップされる。

　図１４は、表示されるサンプルフレーズの他の一例を示す図である。図１４の例は、第２の種類のフレーズが受付可能に設定されている場合に、第２のテンプレートＴＰ２に基づいて表示される画面の一例である。

　このように、コマンドの入力例として示されるサンプルフレーズを動的に制御することで、ユーザが音声入力において受付可能なサンプルフレーズを容易かつ確実に得ることができる。また、サンプルフレーズの生成にユーザ設定も用いることで、ユーザに応じて受け付けられるフレーズが変化する場合であっても、ユーザはサンプルフレーズの文面を読み替える必要がない。これにより、ユーザが、受け付けられる正しいサンプルフレーズを容易に認識することができる。

　［３－３］以下では、動作指示をコマンド処理システム５０が受け付け、機器２０を制御する処理について説明する。図１５は、動作指示受付部１１０、メッセージ生成部１２０、メッセージ送信部１３０、メッセージ受信部２１０、コマンド実行部２２０の処理の一例を示すフロー図である。以下に記載される、動作指示受付部１１０、メッセージ生成部１２０、メッセージ送信部１３０の処理は、制御部１１がその機能のプログラムを実行することにより実行される。メッセージ受信部２１０、コマンド実行部２２０の処理は、制御部２１がその機能のプログラムを実行することにより実行される。

　はじめに、動作指示受付部１１０は、音声認識装置４０から動作指示を取得する（ステップＳ５１１）。そして、メッセージ生成部１２０は、取得した動作指示に基づいて、動作指示の対象となるユーザのユーザＩＤを取得し、動作指示に含まれる機器の名称と機器テーブルＴ１に基づいて、ユーザＩＤと関連付けられた機器ＩＤであって、かつ動作指示の対象となる機器２０の機器ＩＤを取得する（ステップＳ５１２）。そして、メッセージ生成部１２０は、動作指示に対応するコマンドと、取得されたユーザＩＤとを含むメッセージを生成し（ステップＳ５１３）、メッセージ送信部１３０は動作指示の対象となる機器２０へ生成されたメッセージを送信する（ステップＳ５１４）。

　動作指示の対象となる機器２０のメッセージ受信部２１０は、メッセージを受信する（ステップＳ５２１）。次に、メッセージ受信部２１０は、メッセージに含まれるユーザＩＤと、機器２０の不揮発性メモリに書き込まれたユーザＩＤとを比較する（ステップＳ５２２）。これらのユーザＩＤが同じ場合には（ステップＳ５２２のＹ）、コマンド実行部２２０はメッセージに含まれるコマンドを実行する（ステップＳ５２３）。一方、これらのユーザＩＤが異なる場合には（ステップＳ５２２のＮ）、そのメッセージは破棄され、メッセージ中のコマンドは実行されない。

　上述のように、メッセージ受信部２１０はユーザＩＤの比較結果に応じてコマンドを実行するか否かを制御する。これにより、機器２０の予期せぬ動作を防止することができる。特に、機器２０が譲渡された一方、コマンド処理システム５０側で機器登録が解除されていない場合には、譲渡したユーザが誤って機器２０に対するコマンドを音声入力した場合に、従来は機器２０がそのコマンドにより誤動作してしまう恐れがあった。一方、本実施形態では、譲渡されたユーザが機器登録を行っていれば、譲渡したユーザがどんなコマンドを入力しても、機器２０側でそのコマンドを含むメッセージを破棄するので、予期せぬ動作をする可能性を抑えることができる。

　［付記］以上に説明した実施形態についての記載から把握されるように、本明細書では以下に記載の発明を含む多様な技術的思想が開示されている。

　本発明にかかる機器制御システムは、デバイスに関するユーザ設定を取得する設定取得手段と、前記取得された前記ユーザ設定に基づいて、前記デバイスを制御可能なフレーズを生成するフレーズ生成手段と、前記生成されたフレーズを表示させるデータを出力する表示データ出力手段と、を含む。

　本発明にかかる機器制御方法は、デバイスに関するユーザ設定を取得するステップと、前記取得された前記ユーザ設定に基づいて、前記デバイスを制御可能なフレーズを生成するステップと、前記生成されたフレーズを表示させるデータを出力するステップと、を含む。

　本発明にかかるプログラムは、デバイスに関するユーザ設定を取得する設定取得手段、前記取得された前記ユーザ設定に基づいて、前記デバイスを制御可能なフレーズを生成するフレーズ生成手段、および、前記生成されたフレーズを表示させるデータを出力する表示データ出力手段、としてコンピュータを機能させる。

　上記発明の一形態では、前記設定取得手段は、音声入力において前記デバイスを特定する名称を取得し、前記フレーズ生成手段は、前記取得された名称に基づいて、前記デバイスを制御可能なフレーズを生成してもよい。

　上記発明の一形態では、前記設定取得手段は、音声入力において複数のデバイスのそれぞれが実行できるコマンドを取得し、前記フレーズ生成手段は、前記複数のデバイスのそれぞれが実行できるコマンドに基づいて、前記複数のデバイスの名称のうちいずれかを含むフレームを生成してもよい。

　上記発明の一形態では、前記設定取得手段は、ユーザの指示音声を認識する認識部が前記デバイスに対する指示として受付可能なフレーズの種類を示す情報を取得し、前記フレーズ生成手段は、前記フレーズ生成手段は、前記取得された情報に基づいて、前記デバイスを制御可能なフレーズを生成してもよい。

　上記発明の一形態では、前記認識部は、当該認識部により生成された動作指示を取得し前記デバイスを制御するシステムを識別する識別名称を含む第１の種類のフレーズと、前記識別名称を含まない第２の種類のフレーズとのいずれかを受付可能となるようユーザにより設定され、前記フレーズ生成手段は、第１の種別および第２の種別のフレーズのそれぞれが受付可能か否かに基づいて、前記デバイスを制御可能なフレーズを生成してもよい。

Claims

　デバイスに関するユーザ設定を取得する設定取得手段と、
　前記取得された前記ユーザ設定に基づいて、前記デバイスを制御可能なフレーズを生成するフレーズ生成手段と、
　前記生成されたフレーズを表示させるデータを出力する表示データ出力手段と、
　を含む機器制御システム。
　請求項１に記載の機器制御システムにおいて、
　前記設定取得手段は、音声入力において前記デバイスを特定する名称を取得し、
　前記フレーズ生成手段は、前記取得された名称に基づいて、前記デバイスを制御可能なフレーズを生成する、
　機器制御システム。
　請求項２に記載の機器制御システムにおいて、
　前記設定取得手段は、音声入力において複数のデバイスのそれぞれが実行できるコマンドを取得し、
　前記フレーズ生成手段は、前記複数のデバイスのそれぞれが実行できるコマンドに基づいて、前記複数のデバイスの名称のうちいずれかを含むフレームを生成する、
　機器制御システム。
　請求項１に記載の機器制御システムにおいて、
　前記設定取得手段は、ユーザの指示音声を認識する認識部が前記デバイスに対する指示として受付可能なフレーズの種類を示す情報を取得し、
　前記フレーズ生成手段は、前記フレーズ生成手段は、前記取得された情報に基づいて、前記デバイスを制御可能なフレーズを生成する、
　機器制御システム。
　請求項４に記載の機器制御システムにおいて、
　前記認識部は、当該認識部により生成された動作指示を取得し前記デバイスを制御するシステムを識別する識別名称を含む第１の種類のフレーズと、前記識別名称を含まない第２の種類のフレーズとのいずれかを受付可能となるようユーザにより設定され、
　前記フレーズ生成手段は、第１の種別および第２の種別のフレーズのそれぞれが受付可能か否かに基づいて、前記デバイスを制御可能なフレーズを生成する、
　機器制御システム。
　デバイスに関するユーザ設定を取得するステップと、
　前記取得された前記ユーザ設定に基づいて、前記デバイスを制御可能なフレーズを生成するステップと、
　前記生成されたフレーズを表示させるデータを出力するステップと、
　を含む機器制御方法。
　デバイスに関するユーザ設定を取得する設定取得手段、
　前記取得された前記ユーザ設定に基づいて、前記デバイスを制御可能なフレーズを生成するフレーズ生成手段、および、
　前記生成されたフレーズを表示させるデータを出力する表示データ出力手段、
　としてコンピュータを機能させるためのプログラム。