WO2018173295A1

WO2018173295A1 - ユーザインタフェース装置及び方法、並びに音操作システム

Info

Publication number: WO2018173295A1
Application number: PCT/JP2017/012170
Authority: WO
Inventors: 卓朗曽根
Original assignee: ヤマハ株式会社
Priority date: 2017-03-24
Filing date: 2017-03-24
Publication date: 2018-09-27
Also published as: US20180275959A1; US10592204B2

Abstract

ユーザにとって簡便なユーザインタフェースを備える電子機器を提供すること。電子機器は、入力される音を取得する音入力部（１１）と、取得される音に対する所定の認識処理の結果を取得する音認識部（１４）と、前記認識処理の結果に対応する音声を生成する音声生成部（１７）と、前記音声生成部により生成される音声を出力する音声送信部（１８）と、を含む。

Description

ユーザインタフェース装置及び方法、並びに音操作システム

　本発明はユーザインタフェース装置及び方法、並びに音操作システムに関し、特に音声認識システムを利用するユーザインタフェースに関する。

　近年、ネットワーク上に設けられた音声（スピーチ）認識システムの利用が進んでおり、スマートフォンやコンピュータのみならず、各種電子機器も、こうした音声認識システムを利用して、音声により操作できるようにする取り組みが進んでいる。

　音声認識システムを利用して音声により各種電子機器を操作する場合には、通常、ユーザはウェイクワードと呼ばれる固定のトリガワードを発声し、続けて指示内容を具体的に発声する必要がある。例えば、米国アマゾン社の音声認識システムでは、トリガワードである「アレクサ」に続けて、ローンチフレーズ、スキルネーム、アタランスといったコマンド内容を構成する言葉を、順に発声する必要がある。しかしながら、このように固定のトリガワードやコマンド内容を具体的に発声するのはユーザにとって面倒である。

　本発明は上記課題に鑑みてなされたものであって、その目的は、より簡便な音によるユーザインタフェース装置及び方法、並びに音操作システムを提供することにある。

　上記課題を解決するために、本発明に係る電子機器は、入力される音を取得する音入力部と、取得される音に対する所定の認識処理の結果を取得する音認識部と、前記認識処理の結果に対応する音声を生成する音声生成部と、前記音声生成部により生成される音声を出力する音声出力部と、を含む。

　また、本発明に係るユーザインタフェース方法は、入力される音を取得するステップと、取得される音に対する所定の認識処理の結果を取得するステップと、前記認識処理の結果に対応する、認識システムの認識対象である音を生成するステップと、生成される音を出力するステップと、を含む。

　また、本発明に係る音操作システムは、入力される音を取得する手段と、取得される音に対する所定の認識処理の結果を取得する手段と、前記認識処理の結果に対応する音声を生成する手段と、生成される音声を出力する手段と、前記出力される音の音声認識システムによる認識結果に従って機器を制御する手段と、を含む。

本発明の第１の実施形態に係る電子機器を含む、第１の音操作システムの全体構成を示す図である。本発明の第１の実施形態に係る電子機器の構成図である。本発明の第１の実施形態に係る電子機器の動作フロー図である。第１の音操作システムの変形例を示す図である。本発明の第２の実施形態に係る電子機器を含む、第２の音操作システムの全体構成を示す図である。本発明の第２の実施形態に係る電子機器の動作フロー図である。本発明の第３の実施形態に係る電子機器を含む、第３の音操作システムの全体構成を示す図である。本発明の第３の実施形態に係る電子機器の構成図である。本発明の第３の実施形態に係る電子機器の動作フロー図である。本発明の第３の実施形態に係る電子機器の変形例を示す図である。本発明による電子機器の音操作の各種パターンを示す図である。

　以下、本発明の実施形態について図面に基づき詳細に説明する。

　なお、本明細書においては「音声」とは、音声認識システムの認識対象である音を意味し、人の発声器官を通じて、或はスピーカーを通じて発生される言語音を含む。一方、「音」とは、マイクによる収音や電気信号の入力により取得される、あらゆる音を意味し、音声認識システムの認識対象である音の他、その認識対象外の音を含む。また、以下の説明において、既に説明した要素については、同一の符号を付して詳細な説明を適宜省略する。

　図１は、第１の音操作システムの全体構成を示す図である。同図に示す第１の音操作システムは、本発明の第１の実施形態に係るユーザインタフェース装置１０、音声認識システム３０、機器制御システム４０及び制御可能機器６０を含んでいる。ユーザインタフェース装置１０、音声認識システム３０、機器制御システム４０及び制御可能機器６０は、いずれもインターネット等の通信ネットワーク２０に接続されている。この音操作システムは、音声のみならず、楽器５１の演奏音などにより、ユーザインタフェース装置１０から制御可能機器６０の操作を可能とするものである。

　制御可能機器６０は、例えば電子楽器、オーディオ機器、映像機器、スマートフォン、パーソナルコンピュータ、空調装置、給湯器など、通信ネットワーク２０に接続可能なあらゆる機器であってよい。また、ユーザインタフェース装置１０は、制御可能機器６０を音声その他の音により操作する入力デバイスである。なお、ユーザインタフェース装置１０は制御可能機器６０と一体化されてもよい。また、ユーザインタフェース装置１０は、ユーザの操作により音を発生する、電子楽器等の音発生装置として構成されてもよい。

　音声認識システム３０及び機器制御システム４０は、いずれも１以上のコンピュータを含み、例えばクラウドコンピューティングを利用して実現されてもよい。

　音声認識システム３０は、通信ネットワーク２０を通じてユーザインタフェース装置１０から音声（音声データ）を受信すると、その音声に対して公知の音声認識処理を施す。認識結果は、音声の内容を示すデータ（例えば発話内容を記述したテキスト）として出力される。特に、認識結果に、制御可能機器６０の制御内容が含まれる場合、音声認識システム３０の認識結果は、通信ネットワーク２０を介して機器制御システム４０に送信される。

　機器制御システム４０は、通信ネットワーク２０を通じて音声認識システム３０の認識結果を受信すると、それを制御可能機器６０の制御コマンドに変換し、通信ネットワーク２０を介して制御可能機器６０に送信する。制御可能機器６０が電子楽器である場合、この制御コマンドは、自動演奏の開始コマンド、自動演奏の停止コマンド等である。自動演奏の開始コマンドは、演奏する曲の指定を含んでよい。制御可能機器６０がオーディオ機器である場合、この制御コマンドは、楽曲の再生コマンド、楽曲の停止コマンド等である。楽曲の再生コマンドは、再生する曲の指定を含んでよい。さらに、制御可能機器６０が映像機器である場合、この制御コマンドは、映像出力の開始コマンド、映像出力の停止コマンド等である。映像出力の開始コマンドは、出力する映像の指定を含んでよい。

　ここでは制御可能機器６０がオーディオ機器である場合について説明する。この音操作システムでは、一例として、ユーザ５０がユーザインタフェース装置１０に設けられたマイク１１の前で「ＸＸＸ，ＹＹＹを再生して下さい。」と発話すると、その音声が音声認識システム３０に送信される。ここで、「ＸＸＸ」は、トリガワード（例えば「ＡＬＥＸ」）であり、「ＹＹＹ」は楽曲名（例えば、「ビートルズのイエスタディ」）である。なお、「ＹＹＹ」以降の発話部分を、以下では「コマンドフレーズ」という。

　音声認識システム３０は受信した音声に認識処理を施し、認識結果（発話内容を示すテキスト）を機器制御システム４０に送信する。機器制御システム４０は、この認識結果を制御可能機器６０の制御コマンドに変換し、制御可能機器６０に送信する。制御可能機器６０は、制御コマンドに応じて、楽曲「ＹＹＹ」の再生を開始する。例えば、あらかじめ制御可能機器６０に保存している楽曲「ＹＹＹ」の音楽データを再生出力してもよいし、通信ネットワーク２０から楽曲「ＹＹＹ」の音楽データを受信し、それを再生出力してもよい。

　第１の音操作システムでは、このようにトリガワードをユーザ５０が声に出さなくても、ギターやピアノなどの楽器５１で予め決められた音（以下、「トリガ音」という。）を出すことで、ユーザインタフェース装置１０から制御可能機器６０の操作をすることができるものである。例えばマイク１１の前で、楽器５１により予め定められた和音やメロディを弾き、その前後のタイミングで、又はその和音やメロディと重なるタイミングで、例えば「ＹＹＹを再生して下さい。」と、ユーザ５０がマイク１１の前でコマンドフレーズを発話すると、ユーザインタフェース装置１０はトリガワードである「ＸＸＸ」の発話内容をコマンドフレーズの直前に自動的に補い、「ＸＸＸ，ＹＹＹを再生して下さい。」という音声を音声認識システム３０に送信する。その結果、ユーザ５０が「ＸＸＸ，ＹＹＹを再生して下さい。」と自ら発話した場合と同様にして、制御可能機器６０で楽曲「ＹＹＹ」の再生が開始される。

　図２は、マイク１１を利用した操作入力に関する、ユーザインタフェース装置１０の構成図である。同図に示すようにユーザインタフェース装置１０は、マイク１１、音声バッファ１２、トリガワード認識部１３、音認識部１４、制御部１５、スイッチ１６、音声生成部１７、通信部１８を含んでいる。ユーザインタフェース装置１０は、例えばコンピュータ及び制御ソフトウェアを中心に構成される。

　マイク１１は、ユーザ５０の声や楽器５１の音を収音して、それを電気信号に変換する。音声バッファ１２は、マイク１１により収音された、直近の一定時間の音のデータを記録するメモリである。トリガワード認識部１３は、マイク１１により収音された音を監視し、所定のトリガワードが収音されたか否かを判定するものである。トリガワードが収音されれば、直ちにその旨を制御部１５に通知する。

　音認識部１４は、マイク１１により収音された音に対して所定の認識処理を施す。この認識処理は、後述するように種々のものであってよいが、ここでは一例として、予め定められた和音やメロディといったトリガ音をマイク１１が収音したか否かを判定する処理であるものとする。この処理は、例えば、マイク１１により収音された音の特徴量と、トリガ音の特徴量と、の類似度を計算し、この類似度が所定値以上であるか否かを判定するものである。音認識部１４は、マイク１１により、トリガ音が収音されたと判定すると、直ちにその旨を制御部１５に通知する。

　スイッチ１６は、音声バッファ１２及び音声生成部１７が入力側に接続されており、通信部１８が出力側に接続されている。スイッチ１６は、制御部１５の指示に応じて、入力データを、音声バッファ１２に記憶された音声とするか、音声生成部１７により生成された音声とするか、を切り替えている。

　音声生成部１７は、制御部１５の指示に応じて、音認識部１４での認識結果に対応する音声を合成し、スイッチ１６に出力するものである。音声の合成には、種々の音声合成技術を利用することができる。また、出力すべき音声の種類が有限であれば、それら有限の音声を事前に記憶しておき、選択的に読み出す構成としてもよい。ここでは、音声制御部１７は、制御部１５の指示に応じて、予め記憶されているトリガワード（例えば「ＡＬＥＸ」）の音声をスイッチ１６に出力する。通信部１８は、スイッチ１６から出力される音声を外部に出力する。ここでは、音声を音声認識システム３０にストリーム送信する。なお、通信部１８を用いる代わりにスピーカを設け、スイッチ１６から出力される音声を発音してもよい。そして、他の装置により、この音声を収音して音声認識システム３０に送信してよい。

　制御部１５は、トリガワード認識部１３がマイク１１によりトリガワードが収音されたと判断した場合には、スイッチ１６を音声バッファ１２側（図中Ａ）に切り替え、通信部１８により、トリガワードから始まる音声を音声認識システム３０に送信する。制御部１５は、所定の制限時間の経過、又は無音状態が所定時間経過するといった、所定の終了条件を満足すれば、音声認識システム３０への音声の送信を停止する。その後、上述したように、制御対象機器６０は、機器制御システム４０から制御コマンドを受信し、該制御コマンドに応じた動作を行う。

　また、制御部１５は、音認識部１４がマイク１１によりトリガ音が収音されたと判断した場合には、図３に示す処理を実行する。すなわち、トリガ音がマイク１１により収音されたと音認識部１４が判断すると（Ｓ１０１）、制御部１５は、スイッチ１６を音声生成部１７側（図中Ｂ）に切り替え（Ｓ１０２）、通信部１８により、音声生成部１７により出力されるトリガワードの音声を音声認識システム３０に送信する（Ｓ１０３）。トリガワードの音声の終了後、制御部１５はスイッチ１６を音声バッファ１２側（図中Ａ）に切り替え（Ｓ１０４）、通信部１８により、音声バッファ１２に記憶された音声を音声認識システム３０に送信する（Ｓ１０５）。そして、制御部１５は、所定の制限時間の経過、又は無音状態が所定時間経過するといった、所定の終了条件を満足すれば（Ｓ１０６）、音声認識システム３０への音声の送信を停止する。なお、一連の音声は、単一のストリーミングセッションで音声認識システム３０に送信される。その後、上述したように、制御可能機器６０は、機器制御システム４０から制御コマンドを受信し、該制御コマンドに応じた動作を行う。

　なお、図３に示す処理では、ユーザ５０が楽器５１でトリガ音を出し、その後にユーザ５０がコマンドフレーズを発話することを前提としているが、上述のように、コマンドフレーズは、トリガ音の前に発話されてもよいし、トリガ音と重なって発話されてもよい。この場合、音認識部１４は、楽器５１によるトリガ音の収音区間、ユーザ５０による発話区間を認識する。ユーザ５０の発話区間は、例えばユーザ５０の声の周波数域の音が収音されている区間とすることができる。上記のＳ１０５の処理では、制御部１５は、音声バッファ１２に記憶されている音声のうち、楽器５１によるトリガ音の収音区間に最も近い発話区間を選択し、選択された発話区間の先頭から音声を音声認識システム４０に送信する。

　以上説明した音操作システムによれば、トリガワードをユーザ５０が声に出さなくても、代わりに、ギターやピアノなどの楽器５１で予め決められたトリガ音を出すことで、ユーザインタフェース装置１０から制御可能機器６０の操作をすることができる。なお、トリガ音は楽器５１の音に限定されず、トリガワードと異なるものであれば、種々の音であってよい。例えば、ユーザ５０の歌声や鼻歌、机を叩く音、床をタップする音など、様々な音をトリガ音に採用することができる。

　また、トリガ音は、他の発音機器により電子的に出力される音であってよい。例えば、チャイムの音などを他の発音機器により出力し、これをトリガ音としてもよい。また、トリガ音は非可聴音であってもよい。図４に示すように、ユーザ５０が携帯機器５２を操作して、所定の非可聴音を出力し、この音をユーザインタフェース装置１０の音認識部１４がトリガ音として認識してもよい。また、所定データがエンコードされた非可聴音をトリガ音として携帯機器５２から出力してもよい。この場合、ユーザインタフェース装置１０の音認識部１４は、マイク１１で収音された音をデコードし、上記の所定データが得られれば、トリガ音が収音されたと判定してよい。トリガ音として非可聴音を採用すれば、トリガ音とコマンドフレーズが重複して発せられ、音声認識システム３０に送信されたとしても、音声認識システム３０がコマンドフレーズの内容を誤認識する可能性が低くなるという利点がある。

　次に、図５は、第２の音操作システムの全体構成を示す図である。第２の音操作システムは、トリガワードをトリガ音で代替するだけでなく、コマンドフレーズも、楽器５１の演奏音などのコマンド音で代替するというものである。一例として、第２の音操作システムによれば、ユーザ５０は携帯機器５２を操作してトリガ音である非可聴音をユーザインタフェース装置１０ａのマイク１１の前で出力し、その出力区間の前後のタイミング、又はその出力区間と重なるタイミングで、楽器５１により楽曲の一部を演奏することにより、その楽曲を制御可能機器６０で再生することができる。すなわち、第２の音操作システムでは、楽器５１により演奏された楽音は、ユーザインタフェース装置１０ａによりコマンド音として認識される。

　本発明の第２の実施形態に係るユーザインタフェース装置１０ａは、既に説明した図２に示す構成を有しているが、特に音認識部１４、制御部１５及び音声生成部１７の機能及び動作は、ユーザインタフェース装置１０のそれらとは異なっている。すなわちユーザインタフェース装置１０ａの音認識部１４は、マイク１１で収音された音がトリガ音であるか否かを判定するだけでなく、さらに、マイク１１で収音された音に認識処理を施し、取得された音に対応する楽曲を特定する。例えば、音認識部１４は、取得された音の特徴量（例えば和音パターン、メロディ、リズム、音響パターンなどの各種特徴を示す情報）を演算する。一方、事前に、多数の楽曲のそれぞれに、その楽曲の特徴量を関連づけて記憶したデータベースを用意されている。そして、音認識部１４は、演算された特徴量に類似する特徴量を有する楽曲をデータベースから特定する。なお、このデータベースは、ユーザインタフェース装置１０ａの内部に記憶されてもよいし、通信ネットワーク２０を介してアクセス可能な他のコンピュータに記憶されてよい。また、最終的な認識処理の結果を音認識部１４が取得できるのであれば、音認識部１４による認識処理の一部又は全部は、通信ネットワーク２０を介してアクセス可能な他のコンピュータにより行われてよい。

　ユーザインタフェース装置１０ａの音声生成部１７は、音認識部１４によりトリガ音が認識されれば、トリガワードの音声（例えば、「ＸＸＸ」）を出力する。さらに、音認識部１４により楽曲が特定されれば、その楽曲の再生を指示するコマンドフレーズの音声（例えば、「ＹＹＹを再生して下さい。」）を合成し、出力する。具体的には、音声生成部１７は、例えば音声認識部１４により出力される楽曲名のテキストを音声合成して出力し、続けて「を再生して下さい。」といった固定フレーズを出力すればよい。こうした固定フレーズは、都度合成してもよいし、予め記憶されたものを読み出してもよい。こうして、「ＸＸＸ，ＹＹＹを再生して下さい。」という、音声コマンド全体が音声認識システム３０に送信されることになる。

　ユーザインタフェース装置１０ａの制御部１５は、図６に示す動作を行う。すなわち、同図に示すように制御部１５は、音認識部１４によりトリガ音の収音があったと判定されるまで待機する（Ｓ２０１）。トリガ音の収音があれば、次に、音認識部１４に、マイク１１で収音される音に対する認識処理を実行させる（Ｓ２０２）。その後、制御部１５はスイッチ１６を音声生成部１７側（図中Ｂ）に切り替え（Ｓ２０３）、音声生成部１７から出力されるトリガワードの音声を音声認識システム３０に送信する（Ｓ２０４）。続いて、音声生成部１７から出力されるコマンドフレーズの音声を音声認識システム３０に送信する（Ｓ２０５）。なお、一連の音声は、単一のストリーミングセッションで音声認識システム３０に送信される。その後、上述したように、ユーザインタフェース装置１０は、機器制御システム４０から制御コマンドを受信し、該制御コマンドに応じた動作を行う。

　以上説明した第２の音操作システムによれば、ユーザ５０が発話しなくとも、希望する楽曲を制御可能機器６０で再生することができる。なお、コマンドフレーズは、楽曲を一意に特定する情報を含むものに限定されない。例えば、収音される音のコード進行、リズム、テンポなどの楽曲属性を音認識部１４が認識し、音声生成部１７は、認識された楽曲属性を含むコマンドフレーズの音声を出力してよい。この場合、機器制御システム４０は、例えばそうした楽曲属性を有する楽曲群の再生を指示する制御コマンドを制御可能機器６０に送信してよい。また、コマンド音は楽器５１以外で発せられてもよい。例えば、ユーザ５０の歌声や鼻歌をコマンド音としてよい。コマンド音をユーザ５０の歌声や鼻歌とする場合、音認識部１４はユーザ５０の年齢や性別等の属性を認識し、音声生成部１７は、その認識内容をコマンドフレーズの音声に含めるようにしてよい。こうすれば、機器制御システム４０は、ユーザ５０の属性に適合した動作（例えば、若い男性が好む楽曲の再生など）を指示する制御コマンドを生成し、それを制御可能機器６０に送信することができる。

　次に、図７は、第３の音操作システムの全体構成を示す図である。第３の音操作システムでは、トリガ音及びコマンド音の一部が電子楽器５３から本発明の第３の実施形態に係るユーザインタフェース装置１０ｂにライン入力される。また、コマンド音の残りの部分はユーザ５０が発話して、マイク１１からユーザインタフェース装置１０ｂに入力する。

　例えば、電子楽器５３には特別のボタンが設けられており、このボタンを押すことにより、予め決まったトリガ音をライン出力することができる。もちろん、電子楽器５３を演奏して、予め決まった和音やメロディをトリガ音としてライン出力するようにしてもよい。楽曲特定のため、ユーザ５０が電子楽器５３により楽曲の一部を演奏し、楽音をユーザインタフェース装置１０ｂにライン入力する。また、特定された楽曲に対する処理内容（「再生」など）については、ユーザ５０が発話してマイク入力する。こうすると、ユーザインタフェース装置１０ｂからは、音声生成部１７により生成されるトリガワードの音声（例えば、「ＸＸＸ」）、音声生成部１７により生成される、楽曲を特定するコマンドフレーズの音声（例えば、「ＹＹＹ」）、その楽曲の処理内容を示すユーザ５０の音声（例えば、「再生して下さい。」）、が順に音声認識システム３０に送信されることになる。

　ユーザインタフェース装置１０ｂも、図８に示す構成を有している。同図に示すように、ユーザインタフェース装置１０ｂでは、音声認識部１４に外部入力端子１９が設けられており、ここに電子キーボードなどの電子楽器５３が接続される。なお、電子楽器５３は無線によりユーザインタフェース装置１０ｂに接続されてもよい。いずれにしても、電子楽器５３からは、ユーザインタフェース装置１０ｂにトリガ音やコマンド音が電気信号により入力される。

　ユーザインタフェース装置１０ｂの制御部１５は、図９に示す動作を行う。すなわち、同図に示すように制御部１５は、音認識部１４によりトリガ音の入力があったと判定されるまで待機する（Ｓ３０１）。トリガ音の入力があれば、次に制御部１５は、音認識部１４に、ライン入力される音に対する認識処理を実行させる（Ｓ３０２）。その後、制御部１５はスイッチ１６を音声生成部１７側（図中Ｂ）に切り替え（Ｓ３０３）、音声生成部１７から出力されるトリガワードの音声を音声認識システム３０に送信する（Ｓ３０４）。続いて、音声生成部１７から出力されるコマンドフレーズの音声を音声認識システム３０に送信する（Ｓ３０５）。

　制御部１５は、次にスイッチ１６を音声バッファ１６側（図中Ａ）に切り替え、通信部１８により、音声バッファ１２に記憶された音声を音声認識システム３０に送信する（Ｓ３０７）。そして、制御部１５は、所定の制限時間の経過、又は無音状態が所定時間経過するといった、所定の終了条件を満足すれば（Ｓ８０８）、音声認識システム３０への音声の送信を停止する。なお、一連の音声は、単一のストリーミングセッションで音声認識システム３０に送信される。その後、上述したように、制御可能機器６０は、機器制御システム４０から制御コマンドを受信し、該制御コマンドに応じた動作を行う。

　以上説明した第３の音操作システムによれば、音声コマンドをライン入力できるので、音声認識部１４はノイズの影響を受けることなく認識処理を行うことができる。また、コマンドの内容のうち、楽器演奏により指示するのが相応しい部分については電子楽器５３の演奏により指示し、発話によるのが相応しい部分については発話により指示することができ、利便性が向上する。なお、ユーザインタフェース装置１０ｂが電子楽器５３を一体的に備えるようにしてもよい。この場合、電子楽器５３の機能部分から生成される音響信号が、内部的にインタフェース装置１０ｂの機能部分に入力される。

　また、電子楽器５３がスピーカーを備える場合には、マイク１１はそのスピーカーにより発せられる音を収音することが考えられる。そこで、図１０に示すユーザインタフェース装置１０ｃのように、音声バッファ１２の前段にエコーキャンセラ７０を設けるとともに、このエコーキャンセラ７０に外部入力端子１９からの入力信号を供給してよい。こうすれば、エコーキャンセラ７０にて、外部入力端子１９からの入力信号の音を、マイク１１から入力される音から除去することができる。こうすれば、楽器音を低減してユーザ５０の声を音声認識システム３０に送信することができ、音声認識システム３０での音声認識率を向上させることができる。

　本実施形態は、入力音を音声認識システム３０が受付可能な音声に変換し、楽音等、音声認識システム１０が受付不能な音により、ユーザインタフェース装置１０，１０ａ，１０ｂから、制御可能機器６０を操作可能とするものである。この変換には種々のパターンが存在する。図１１はそれらパターンの一部を示している。同図において、Ｓｉは楽器５１等により入力されるトリガ音を示しており、Ｖはユーザ５０により発せられるコマンドフレーズの音声を示している。Ｓは楽器５１等により入力されるコマンド音を示している。また、Ｖｉはトリガワードの音声を示しており、Ｖｓは、楽器５１等により入力されるコマンド音に基づいて電子楽器１０等で生成されるコマンドフレーズの音声（以下、「合成コマンドフレーズ音声」という。）を示している。

　まず、入力パターン「Ｓｉ＋Ｖ」は、トリガ音及びコマンドフレーズの音声を入力するものであるが（順序は問わない。以下同様。）、これは出力パターン「Ｖｉ＋Ｖ」、すなわちトリガワードの音声及びコマンドフレーズの音声を順に出力するものに変換される（パターンＰ１）。入力パターン「Ｖｉ＋Ｓ」は、トリガワードの音声及びコマンド音を入力するものであるが、これは出力パターン「Ｖｉ＋Ｖｓ」、すなわちトリガワードの音声及び合成コマンドフレーズ音声を順に出力するものに変換される（パターンＰ２）。入力パターン「Ｓｉ＋Ｓ」は、トリガ音及びコマンド音を入力するものであるが、これも出力パターン「Ｖｉ＋Ｖｓ」に変換される（パターンＰ３）。入力パターン「Ｓ」は、トリガ音を兼ねたコマンド音の入力であり、これも出力パターン「Ｖｉ＋Ｖｓ」に変換される（パターンＰ４）。入力パターン「Ｓ＋Ｖ」は、トリガ音を兼ねたコマンド音、コマンドフレーズの音声を入力するものであるが、これは出力パターン「Ｖｉ＋Ｖｓ＋Ｖ」、すなわちトリガワードの音声、合成コマンドフレーズ音声、コマンドフレーズの音声を順に出力するものに変換される(パターンＰ５）。入力パターン「Ｓｉ＋Ｖ＋Ｓ」は、トリガ音、コマンドフレーズの音声、コマンド音を入力するものであるが、これも出力パターン「Ｖｉ＋Ｖｓ＋Ｖ」で変換される（パターンＰ６）。

　音操作システムでは、以上のパターンＰ１～Ｐ６のいずれの変換を行ってもよい。なお、いずれの出力パターンにおいても、トリガワードの音声（Ｖｉ）は、音声認識システム３０が必須としないならば省略してもよい。

Claims

　入力される音を取得する音入力部と、
　取得される音に対する所定の認識処理の結果を取得する音認識部と、
　前記認識処理の結果に対応する音声を生成する音声生成部と、前記音声生成部により生成される音声を出力する音声出力部と、を含むユーザインタフェース装置。
　請求項１に記載のユーザインタフェース装置において、
　前記音声出力部は、前記音声生成部により生成される音声を音声認識システムに送信する、ユーザインタフェース装置。
　請求項２に記載のユーザインタフェース装置において、
　前記音声認識システムによる、前記音声生成部により生成される音声の認識結果に基づいて制御可能機器が制御される、ユーザインタフェース装置。
　請求項１乃至３のいずれかに記載のユーザインタフェース装置において、
　前記音入力部は、マイクによる収音及び／又は電気信号の入力により音を取得する、ユーザインタフェース装置。
　請求項１乃至４のいずれかに記載のユーザインタフェース装置において、
　前記音入力部は、音声以外の音を取得する、ユーザインタフェース装置。
　請求項５に記載のユーザインタフェース装置において、
　前記音入力部は、所定データが符号化された非可聴音を取得する、ユーザインタフェース装置。
　請求項１乃至６のいずれかに記載のユーザインタフェース装置において、
　前記音認識部は、取得される音を外部の音認識システムに送信し、該音認識システムから送信される前記認識処理の結果を取得する、ユーザインタフェース装置。
　請求項１乃至７のいずれかに記載の電子機器において、
　前記音声出力部は、前記音声生成部により生成される音声と、前記音入力部により取得される音の一部と、を予め定められた順序で出力する、ユーザインタフェース装置。
　入力される音を取得するステップと、
　取得される音に対する所定の認識処理の結果を取得するステップと、
　前記認識処理の結果に対応する、認識システムの認識対象である音を生成するステップと、
　生成される音を出力するステップと、
　を含むユーザインタフェース方法。
　入力される音を取得する手段と、
　取得される音に対する所定の認識処理の結果を取得する手段と、
　前記認識処理の結果に対応する音声を生成する手段と、
　生成される音声を出力する手段と、
　前記出力される音の音声認識システムによる認識結果に従って機器を制御する手段と、
　を含む音操作システム。