WO2020129695A1

WO2020129695A1 - 情報処理装置、制御方法、情報処理端末、情報処理方法

Info

Publication number: WO2020129695A1
Application number: PCT/JP2019/047779
Authority: WO
Inventors: 慎平亀岡; 浅津　英樹; 山地　秀典
Original assignee: ソニー株式会社
Priority date: 2018-12-21
Filing date: 2019-12-06
Publication date: 2020-06-25
Also published as: KR20210104689A; EP3902281A4; JP2022028094A; US20220053228A1; EP3902281A1

Abstract

本技術は、認識対象となる音声をユーザの意図に応じたマイクロフォンを用いて検出することができるようにする情報処理装置、制御方法、情報処理端末、情報処理方法に関する。本技術の一側面の情報処理装置は、筐体に設けられたマイクロフォンである本体マイクロフォンと、認識対象となる音声の検出を、本体マイクロフォンと、ユーザの操作に用いられる情報処理端末に設けられたマイクロフォンである端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、情報処理端末に対するユーザの操作の状態に基づいて制御する。本技術は、マイクロフォンを有するTVに適用することができる。

Description

情報処理装置、制御方法、情報処理端末、情報処理方法

　本技術は、情報処理装置、制御方法、情報処理端末、情報処理方法に関し、特に、認識対象となる音声をユーザの意図に応じたマイクロフォンを用いて検出することができるようにした情報処理装置、制御方法、情報処理端末、情報処理方法に関する。

　近年、音声アシスタント機能を搭載したTV（テレビジョン受像機）が販売されている。音声アシスタント機能は、機器の操作を音声で行うことができるようにするものである。

　ユーザは、音声アシスタント機能を利用することにより、例えば、TVの操作や、番組の検索、動画配信サービスが配信する動画の検索を、キーワードなどを発話することによって行うことができる。

特開２０１８－１１７３１１号公報

　音声アシスタント機能を利用する場合、ユーザは、リモートコントローラに設けられたマイクボタンを押してから発話を行う。ユーザの発話は、リモートコントローラに設けられたマイクロフォンにより検出され、TVに対して送信される。

　TVの本体にマイクロフォンを搭載するモデルもある。この場合、ユーザの音声を、本体に設けられたマイクロフォンにより検出するのか、リモートコントローラに設けられたマイクロフォンにより検出するのかを適切に切り替える必要がある。

　本技術はこのような状況に鑑みてなされたものであり、認識対象となる音声をユーザの意図に応じたマイクロフォンを用いて検出することができるようにするものである。

　本技術の第１の側面の情報処理装置は、筐体に設けられたマイクロフォンである本体マイクロフォンと、認識対象となる音声の検出を、前記本体マイクロフォンと、ユーザの操作に用いられる情報処理端末に設けられたマイクロフォンである端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記情報処理端末に対する前記ユーザの操作の状態に基づいて制御する制御部とを備える。

　本技術の第１の側面においては、認識対象となる音声の検出を、本体マイクロフォンと、ユーザの操作に用いられる情報処理端末に設けられたマイクロフォンである端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかが、情報処理端末に対するユーザの操作の状態に基づいて制御される。

　本技術の第２の側面の情報処理端末は、筐体に設けられたマイクロフォンである端末マイクロフォンと、認識対象となる音声の検出を前記端末マイクロフォンにより行うときに操作される所定のボタンを含む、情報処理装置の操作に用いられる操作部と、認識対象となる音声の検出を、前記情報処理装置が有するマイクロフォンと、前記端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記所定のボタンに対するユーザの操作の状態に基づいて制御する前記情報処理装置から検出要求が送信されてくることに応じて、前記端末マイクロフォンにより検出された音声を前記情報処理装置に対して送信する通信部とを備える。

　本技術の第２の側面においては、認識対象となる音声の検出を、前記情報処理装置が有するマイクロフォンと、前記端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記所定のボタンに対するユーザの操作の状態に基づいて制御する前記情報処理装置から検出要求が送信されてくることに応じて、前記端末マイクロフォンにより検出された音声が前記情報処理装置に対して送信される。

本技術の一実施形態に係るTVの音声認識について説明する図である。本体マイクを用いた操作の例を示す図である。リモコンマイクを用いた操作の例を示す図である。マイクボタンの押下後のやりとりの例を示す図である。 TVの表示画面の例を示す図である。音声の検出に用いられるマイクロフォンの切り替えの例を示す図である。 TVのアプリケーション構造の例を示す図である。 TVのハードウェア構成例を示すブロック図である。リモートコントローラの構成例を示すブロック図である。 TVの機能構成例を示すブロック図である。 TVのマイク制御処理について説明するフローチャートである。情報処理端末としてのスマートフォンの例を示す図である。他の情報処理端末の例を示す図である。画面表示の例を示す図である。コンピュータの構成例を示すブロック図である。

　以下、本技術を実施するための形態について説明する。説明は以下の順序で行う。
　１．TVの音声認識機能
　２．アプリケーション構造
　３．TVの構成と動作
　４．変形例

＜＜TVの音声認識機能＞＞
　図１は、本技術の一実施形態に係るTVの音声認識について説明する図である。

　図１に示すように、TV１の筐体正面にはディスプレイ１１が設けられ、ディスプレイ１１の下にはマイクロフォン１２が設けられる。マイクロフォン１２は、例えばユーザの音声を検出するために用いられる。

　TV１には音声アシスタント機能が搭載されている。ユーザは、番組の検索、動画配信サービスが配信する動画の検索、Webサイトの検索、設定変更、チャンネルの切り替えなどのTV１の各種の操作を音声により行うことができる。TV１に接続された外部のデバイスの操作なども、音声により行うことが可能とされる。

　マイクロフォン１２により検出された音声を表す音声データは、インターネット３１を介して音声認識サーバ３２に送信される。音声認識サーバ３２においては音声認識が行われ、音声認識結果を表す情報がTV１に対して送信される。

　TV１は、音声認識サーバ３２から送信されてきた情報を受信し、音声認識結果に応じた処理を行うことになる。

　このように音声を用いた操作が可能なTV１には、TV１の操作に用いる情報処理端末としてのリモートコントローラ２も用意される。ユーザは、リモートコントローラ２を用いることによっても、TV１を操作することができる。

　リモートコントローラ２は、ユーザが片手で持つことが可能な筐体を有する。筐体の形状としては、例えば、細長状、直方体状などが挙げられる。リモートコントローラ２の筐体の表面には、電源ボタン、音量ボタン、チャンネルボタン、カーソルボタン、決定ボタンなどの各種のボタンが設けられる。ユーザの操作の内容を表す信号は、赤外線通信により、または、Bluetooth（登録商標）、無線LANなどの電波を用いた無線通信によりTV１に対して送信される。

　リモートコントローラ２にはマイクロフォン２２が設けられる。ユーザは、他のボタンとともに並べて設けられたマイクボタン２１を押下することにより、マイクロフォン２２を用いて音声を入力することができる。

　マイクロフォン２２により検出された音声を表す音声データはTV１に対して送信され、マイクロフォン１２により検出された音声と同様の処理が施される。リモートコントローラ２から送信された音声データは、TV１から音声認識サーバ３２に対して送信され、音声認識サーバ３２において音声認識の対象となる。

　リモートコントローラ２は、TV１用の外部の機器である。TV１には、音声を入力するためのマイクロフォンとして、本体に設けられたマイクロフォン１２と、TV１用の外部の機器に設けられたマイクロフォン２２との２つのマイクロフォンが用意されていることになる。

　以下、適宜、TV１の本体に設けられたマイクロフォン１２を本体マイクという。また、リモートコントローラ２に設けられたマイクロフォン２２をリモコンマイクという。

　図２は、本体マイクを用いた操作の例を示す図である。

　図２の吹き出しに示すように、ユーザは、起動ワードを発話することにより音声アシスタント機能を利用することができる。図２の例においては「OK TV」が起動ワードとされている。

　起動ワード後のユーザの発話が本体マイクにより検出され、音声認識の対象となる。図２の例においては、「４チャンネルつけて」の発話がユーザにより行われている。

　本体マイクにより検出された「４チャンネルつけて」の音声を表す音声データが音声認識サーバ３２に送信される。TV１においては、音声認識サーバ３２による音声認識の結果に基づいて、受信するチャンネルを４チャンネルに切り替える動作が行われる。

　このように、ユーザは、起動ワードを発話することにより音声アシスタント機能を起動させ、リモートコントローラ２を用いずに、本体マイクに音声を入力することによって各種の操作を行うことができる。図２の例においては、リモートコントローラ２はユーザの隣に置かれている。

　図３は、リモコンマイクを用いた操作の例を示す図である。

　マイクボタン２１を押下した後に操作が可能となるから、リモコンマイクを用いた操作を行う場合、図３に示すように、ユーザはリモートコントローラ２を持った状態で操作を行うことになる。

　図４は、マイクボタン２１の押下後のやりとりの例を示す図である。

　マイクボタン２１が押下された場合、矢印Ａ１に示すように、マイクボタン２１が押下されたことを表す情報がリモートコントローラ２からTV１に対して送信される。

　マイクボタン２１が押下されたことを表す情報を受信したTV１からリモートコントローラ２に対しては、矢印Ａ２に示すように、音声の検出を開始することの要求である音声検出リクエストが送信される。

　音声検出リクエストを受信したリモートコントローラ２においては、リモコンマイクによる音声の検出が行われる。リモコンマイクにより検出されたユーザの音声を表す音声データは、矢印Ａ３に示すようにTV１に対して送信される。

　なお、TV１からリモートコントローラ２に対する音声検出リクエストの送信と、リモートコントローラ２からTV１に対する音声データの送信は、電波を用いた無線通信により行われる。

　また、リモートコントローラ２からTV１に対する、マイクボタン２１が押下されたことを表す情報の送信は、赤外線通信により、または電波を用いた無線通信により行われる。

　図３の説明に戻り、マイクボタン２１の押下後のユーザの発話がリモコンマイクにより検出され、音声認識の対象となる。図３の例においては、「野球の番組を検索して」の発話がユーザにより行われている。

　リモコンマイクにより検出された「野球の番組を検索して」の音声を表す音声データがTV１を介して音声認識サーバ３２に送信される。TV１においては、音声認識サーバ３２による音声認識の結果に基づいて、野球の番組を検索するための動作が行われる。

　このように、ユーザは、マイクボタン２１を押下することによってリモコンマイクを有効な状態とし、リモコンマイクに音声を入力することによって各種の操作を行うことができる。

　図５は、TV１の表示画面の例を示す図である。

　図５の例においては、番組表アプリケーションがアクティブとなり、番組表アプリケーションの画面がディスプレイ１１に表示されている。それぞれのタイル状の領域には、番組のサムネイル画像などが表示される。画面に表示されるカーソルを移動させることにより、ユーザは所定の番組を選択し、詳細な情報を表示させたりすることができる。

　後述するように、汎用のOS(Operating System)を搭載した機器であるTV１には各種のアプリケーションがインストールされている。実行中のアプリケーションのうち、アクティブな状態になっているアプリケーションの画面がディスプレイ１１に表示される。

　右下に示すように、番組表アプリケーションの画面には音声認識アイコン５１が表示される。音声認識アイコン５１は、音声認識を行うときに操作される画像である。

　ユーザは、リモートコントローラ２の例えばカーソルボタンを操作してカーソルを音声認識アイコン５１にあて、決定ボタンを押下することによって、音声の入力を行うことができる状態にすることができる。このように、ユーザは、音声認識アイコン５１などの、音声認識用のGUI(Graphical User Interface)の表示を操作することによっても、音声の入力が可能な状態にすることができる。

　音声認識アイコン５１の操作後のユーザの発話は、本体マイクにより検出され、音声認識の対象となる。すなわち、リモコンマイクは有効な状態にならない。

　図６は、音声の検出に用いられるマイクロフォンの切り替えの例を示す図である。

　図６の右側に示すように、ユーザが起動ワードを発話したことが検出された場合、その後の音声は、矢印Ａ１１の先に示すように、TV１に設けられた本体マイクにより検出される。

　図６の左側に示すように、アプリケーションから音声認識要求が出力された場合、矢印Ａ１２の先に示すように、マイクボタン２１をユーザが押下したか否かの判定が行われる。

　アプリケーションからの音声認識要求は、マイクボタン２１がユーザにより押下された場合、または、音声認識用のGUIの表示がユーザにより操作された場合に、例えばアクティブな状態のアプリケーションから出力される。

　マイクボタン２１を押下したか否かの判定であるマイクボタン押下判定は、アプリケーションから出力された音声認識要求を受信したプログラムモジュールにより行われる。マイクボタン押下判定を行うプログラムモジュールは、例えばOSの一部やドライバとして設けられる。

　マイクボタン押下判定により、マイクボタン２１がユーザにより押下されたと判定された場合、矢印Ａ１３の先に示すように、リモートコントローラ２に設けられたリモコンマイクが有効となり、その後の音声がリモコンマイクにより検出される。リモコンマイクにより検出された音声が音声認識の対象となる。

　一方、マイクボタン押下判定により、マイクボタン２１がユーザにより押下されていないと判定された場合、すなわち、アプリケーションからの音声認識要求が、音声認識用のGUIの表示が操作されたことに応じて出力された場合、その後の音声は、矢印Ａ１４の先に示すように本体マイクにより検出される。

　このように、音声を入力するためのユーザの操作として、マイクボタン２１を押下する操作、起動ワードを発話する操作、および、音声認識用のGUIの表示を用いた操作の３種類の操作が用意される。

　TV１は、マイクボタン２１を押下する操作が行われた場合のみ、リモコンマイクにより音声を検出する状態となり、他の２つの操作が行われた場合には、本体マイクにより音声を検出する状態となる。

　マイクボタン２１を押下する操作は、リモートコントローラ２を手に持ち、目でマイクボタン２１を確認して行う操作であるから、リモートコントローラ２に設けられているリモコンマイクにより音声を入力しようとする意図をユーザが有していると考えられる。

　マイクボタン２１を押下する操作が行われた場合にリモコンマイクにより音声を検出するTV１の動作は、ユーザの意図に応じたマイクロフォンを用いた動作といえる。

　一方、起動ワードを発話する操作は、主にTV１に顔を向けて行う操作であるから、本体マイクにより音声を入力しようとする意図をユーザが有していると考えられる。同様に、音声認識用のGUIの表示を用いた操作は、TV１の画面を見て行う操作であるから、本体マイクにより音声を入力しようとする意図をユーザが有していると考えられる。

　起動ワードを発話する操作や音声認識用のGUIの表示を用いた操作が行われた場合に本体マイクにより音声を検出するTV１の動作も、ユーザの意図に応じたマイクロフォンを用いた動作といえる。

　音声の検出に用いるマイクロフォンを以上のようにして切り替えるTV１の一連の処理については後述する。

＜＜アプリケーション構造＞＞
　図７は、TV１のアプリケーション構造の例を示す図である。

　TV１には、TV用OS６１が搭載される。TV用OS６１上で動作する各種のアプリケーションがTV１にインストールされる。図７の例においては、TV視聴アプリケーション７１、番組表アプリケーション７２、Webブラウザ７３、コンテンツ視聴アプリケーション７４が示されている。

　TV視聴アプリケーション７１は、放送された番組の視聴を管理するアプリケーションである。TV視聴アプリケーション７１の起動中、ユーザは、リモートコントローラ２を操作するなどして所定のチャンネルを選択し、選択したチャンネルで放送されている番組を視聴することができる。

　番組表アプリケーション７２は、番組の放送の予定をまとめた番組表を管理するアプリケーションである。番組表アプリケーション７２の起動中、ユーザは、リモートコントローラ２を操作するなどして、ディスプレイ１１に表示される番組表の画面の表示を切り替えることができる。

　Webブラウザ７３は、インターネット３１に接続し、Webページを閲覧するときなどに使用するアプリケーションである。Webブラウザ７３の起動中、ユーザは、リモートコントローラ２を操作するなどして所定のWebページを閲覧することができる。

　コンテンツ視聴アプリケーション７４は、図示せぬ配信サーバにより提供される配信サービスを利用するためのアプリケーションである。

　例えばコンテンツ視聴アプリケーション７４の起動時、TV１には、配信サーバから送信されてきた情報に基づいて、配信サービスのメイン画面が表示される。メイン画面には、タイトルやサムネイル画像などの、視聴可能なコンテンツに関する情報が表示される。ユーザは、リモートコントローラ２を操作するなどして、好みのコンテンツを選択することができる。ユーザが所定のコンテンツを選択したとき、コンテンツの配信が開始される。

　このような各種のアプリケーションがTV１にはインストールされる。例えば音声認識用のGUIの表示が操作された場合、音声認識要求が実行中のアプリケーションから出力される。アプリケーションから出力された音声認識要求に応じてマイクロフォンの切り替えを行うプログラムモジュールもTV１には用意される。

＜＜TVの構成と動作＞＞
＜TVの構成＞
　図８は、TV１のハードウェア構成例を示すブロック図である。

　図８に示す構成のうち、上述した構成には同じ符号を付してある。重複する説明については適宜省略する。

　チューナ１０１は、図示せぬアンテナから供給された放送波信号、または、衛星放送やケーブルテレビのセットトップボックスから供給された放送波信号を受信し、ユーザにより選択されたチャンネルの信号を抽出する。チューナ１０１は、抽出した信号に対して、A/D変換、復調などの各種の処理を施し、各種の処理を施すことによって取得した番組のデータをデコーダ１０２に出力する。

　デコーダ１０２は、番組のデータを構成するビデオストリームをデコードし、デコードして得られた各ピクチャのデータを信号処理部１０３に出力する。また、デコーダ１０２は、番組のデータを構成するオーディオストリームをデコードし、番組の音声データを信号処理部１０３に出力する。

　デコーダ１０２は、所定の配信サービスのコンテンツを再生する場合、通信部１１０において受信され、バス１０５を介して供給されたコンテンツのビデオストリームとオーディオストリームをデコードする。デコーダ１０２は、コンテンツのビデオストリームをデコードして得られた各ピクチャのデータと、オーディオストリームをデコードして得られた音声データを信号処理部１０３に出力する。

　信号処理部１０３は、CPU１０６による制御に従って、デコーダ１０２から供給された各ピクチャの画質調整を行う。信号処理部１０３は、画質調整後のピクチャをディスプレイ１１に出力し、番組やコンテンツの映像を表示させる。

　また、信号処理部１０３は、デコーダ１０２から供給された音声データのD/A変換等を行い、映像に同期させて、番組やコンテンツの音声をスピーカ１０４から出力させる。

　ディスプレイ１１は、LCD(Liquid Crystal Display)、有機ELディスプレイなどにより構成される。

　CPU(Central Processing Unit)１０６、ROM(Read Only Memory)１０７、RAM(Random Access Memory)１０８は、バス１０５により相互に接続される。CPU１０６は、ROM１０７や記録部１０９に記録されているプログラムをRAM１０８を用いて実行し、TV１の全体の動作を制御する。

　記録部１０９は、HDD(Hard Disk Drive)やSSD(Solid State Drive)などの記録媒体により構成される。記録部１０９は、番組のデータ、コンテンツ、EPGデータ、プログラムなどの各種のデータを記録する。

　通信部１１０は、インターネット３１のインタフェースである。通信部１１０は、音声認識サーバ３２との間で通信を行う。

　操作I/F部１１１は、赤外線通信によってリモートコントローラ２から送信されてきた情報を受信する。また、操作I/F部１１１は、電波を用いた無線通信によって、リモートコントローラ２との間で通信を行う。リモートコントローラ２から送信され、操作I/F部１１１により受信された音声データなどの情報は、バス１０５を介してCPU１０６に出力される。操作I/F部１１１は、リモートコントローラ２との間で通信を行う通信部として機能する。

　カメラ１１２は、TV１の正面の状況を適宜撮影する。

　図９は、リモートコントローラ２の構成例を示すブロック図である。

　操作I/F部１２１は、赤外線通信によってTV１に情報を送信する。また、操作I/F部１２１は、電波を用いた無線通信によって、TV１との間で通信を行う。操作I/F部１２１により受信された情報はコントローラ１２２に出力される。

　コントローラ１２２は、CPU、ROM、RAMから構成される。コントローラ１２２は、所定のプログラムを実行し、リモートコントローラ２の全体を制御する。コントローラ１２２は、マイクロフォン２２により検出された音声を表す音声データ、または、操作部１２３から供給された、ユーザの操作の内容を表す情報を、操作I/F部１２１を介してTV１に送信する。

　マイクロフォン２２は、ユーザの音声を検出し、検出した音声を表す音声データをコントローラ１２２に出力する。

　操作部１２３は、ユーザによる操作を検出し、検出した操作の内容を表す情報をコントローラ１２２に出力する。

　図１０は、TV１の機能構成例を示すブロック図である。

　図１０に示す機能部のうちの少なくとも一部は、図８のCPU１０６により、TV用OS６１を含む各種のプログラムが実行されることによって実現される。

　図１０に示すように、TV１においては、操作検出部１３１、起動ワード検出部１３２、マイク制御部１３３、音声受信制御部１３４、アプリケーション実行部１３５、および音声認識制御部１３６が実現される。マイクロフォン１２により構成される本体マイクにより検出された音声を表す音声データは、起動ワード検出部１３２とマイク制御部１３３に入力される。

　操作検出部１３１は、操作I/F部１１１を制御し、リモートコントローラ２を用いて行われるユーザの操作を検出する。マイクボタン２１の押下、画面に表示されたカーソルの移動などの各種の操作が操作検出部１３１により検出される。操作検出部１３１により検出された、ユーザの操作の内容を表す情報は、マイク制御部１３３、音声受信制御部１３４、およびアプリケーション実行部１３５に供給される。

　起動ワード検出部１３２は、本体マイクから供給された音声データに基づいて起動ワードの発話を検出する。起動ワード検出部１３２は、ユーザが起動ワードを発話したことを検出した場合、そのことを表す情報をマイク制御部１３３に出力する。

　マイク制御部１３３は、音声認識の対象とする音声の検出に用いるマイクロフォンを切り替える。例えば、マイク制御部１３３は、起動ワードを発話したことが検出された場合、本体マイクにより検出された音声を、音声認識の対象として音声認識制御部１３６に出力する。

　また、マイク制御部１３３は、音声認識用のGUIの表示が操作されることに応じて、アプリケーション実行部１３５から音声認識要求が供給された場合、本体マイクにより検出された音声を、音声認識の対象として音声認識制御部１３６に出力する。

　なお、本体マイクにより検出された音声は、常時録音されている訳ではない。起動ワードの検出設定がオンの場合は、本体マイクにより検出された音声は常時録音され、オフの場合は録音が行われない。音声認識用のGUIの表示が操作された場合、本体マイクに対してリクエストが出され、そのリクエストに応じて、本体マイクにより検出された音声が、起動ワード検出部１３２を経由せずに、マイク制御部１３３に供給される。

　マイク制御部１３３は、マイクボタン２１が押下されることに応じて、アプリケーション実行部１３５から音声認識要求が供給された場合、リモコンマイクを有効な状態とし、そのことを表す情報を音声受信制御部１３４に出力する。マイク制御部１３３は、リモコンマイクを有効な状態にした後に音声受信制御部１３４から供給された音声データを、音声認識の対象として音声認識制御部１３６に出力する。

　音声受信制御部１３４は、操作I/F部１１１を制御し、リモコンマイクによる音声の検出を制御する。例えば、音声受信制御部１３４は、リモコンマイクを有効な状態にすることを表す情報がマイク制御部１３３から供給された場合、音声検出リクエストをリモートコントローラ２に対して送信する。

　また、音声受信制御部１３４は、音声検出リクエストを送信した後にリモートコントローラ２から送信されてきた音声データを受信し、マイク制御部１３３に出力する。

　アプリケーション実行部１３５は、操作検出部１３１から供給された情報により表されるユーザの操作に応じて、アプリケーションの実行を制御する。

　例えば、アプリケーション実行部１３５は、所定のアプリケーションをアクティブな状態としている場合において、音声認識用のGUIの表示が操作された場合、音声認識要求をマイク制御部１３３に出力する。

　また、アプリケーション実行部１３５は、音声認識制御部１３６から供給された、音声認識の結果に基づいてアプリケーションの実行を制御する。

　音声認識制御部１３６は、通信部１１０を制御して音声認識サーバ３２と通信を行い、TV１における音声認識機能を制御する。音声認識制御部１３６は、マイク制御部１３３から供給された音声データを音声認識サーバ３２に送信する。

　また、音声認識制御部１３６は、音声認識サーバ３２から送信されてきた音声認識の結果を受信する。音声認識制御部１３６により受信された音声認識の結果はアプリケーション実行部１３５に出力される。

＜TVの動作＞
　ここで、図１１のフローチャートを参照して、以上のような構成を有するTV１のマイク制御処理について説明する。

　ステップＳ１において、TV１の起動ワード検出部１３２は、本体マイクから供給された音声データに基づいて、起動ワードの発話が検出されたか否かを判定する。

　起動ワードの発話が検出されたとステップＳ１において判定された場合、ステップＳ２において、マイク制御部１３３は、本体マイクを有効にする。なお、起動ワードの検出設定がオンの場合、本体マイクは元々有効であるため、ここでは、引き続き、本体マイクが有効とされる。

　ステップＳ３において、マイク制御部１３３は、本体マイクから供給された音声データを、音声認識の対象として取得する。マイク制御部１３３により取得された音声データは、音声認識制御部１３６に供給される。

　ステップＳ４において、音声認識制御部１３６は、マイク制御部１３３から供給された音声データを音声認識サーバ３２に送信する。

　音声認識サーバ３２においては、本体マイクにより検出された音声を対象として音声認識が行われ、音声認識の結果がTV１に対して送信される。音声認識サーバ３２から送信された音声認識の結果は、音声認識制御部１３６において受信され、アプリケーション実行部１３５に出力される。

　一方、起動ワードの発話が検出されていないとステップＳ１において判定された場合、ステップＳ５において、マイク制御部１３３は、アプリケーション実行部１３５が実行するアプリケーションから音声認識要求が出力されたか否かを判定する。

　音声認識要求が出力されたとステップＳ５において判定した場合、ステップＳ６において、マイク制御部１３３は、操作検出部１３１から供給された情報に基づいて、マイクボタン２１が押下されたか否かを判定する。

　マイクボタン２１が押下されていないとステップＳ６において判定された場合、ステップＳ２に進み、以上の処理と同様の処理が行われる。すなわち、本体マイクが有効とされ、ユーザの音声の検出が本体マイクを用いて行われる。

　マイクボタン２１が押下されたとステップＳ６において判定した場合、ステップＳ７において、マイク制御部１３３は、リモコンマイクを有効にする。音声受信制御部１３４は、音声検出リクエストをリモートコントローラ２に対して送信する。

　ステップＳ８において、音声受信制御部１３４は、音声検出リクエストを送信した後にリモートコントローラ２から送信されてきた音声データを受信し、マイク制御部１３３に出力する。マイク制御部１３３は、音声受信制御部１３４から供給された音声データを、音声認識の対象として音声認識制御部１３６に出力する。

　ステップＳ９において、音声認識制御部１３６は、マイク制御部１３３から供給された音声データを音声認識サーバ３２に送信する。

　音声認識サーバ３２においては、リモコンマイクにより検出された音声を対象として音声認識が行われ、音声認識の結果がTV１に対して送信される。音声認識サーバ３２から送信された音声認識の結果は、音声認識制御部１３６において受信され、アプリケーション実行部１３５に出力される。

　ステップＳ４またはステップＳ９において音声データが送信された後、または、ステップＳ５において、音声認識要求が出力されていないと判定された場合、ステップＳ１に戻り、以上の処理が繰り返し行われる。

　以上の処理により、TV１は、ユーザの意図に応じたマイクロフォンを用いて、ユーザの音声を検出することができる。TV１は、ユーザの意図にあったマイクロフォンを選択することにより、ユーザの音声をより正確に聞き取り、応答することが可能となる。

　すなわち、マイクボタン２１を押下することによって、リモコンマイクを用いて音声を入力しようとする意図をユーザが有している場合、TV１は、リモコンマイクを用いてユーザの音声を検出することができる。

　また、起動ワードを発話したり、音声認識用のGUIの表示を操作したりして、本体マイクを用いて音声を入力しようとする意図をユーザが有している場合、TV１は、本体マイクを用いてユーザの音声を検出することができる。

　ユーザとしても、自分の意図に応じたマイクロフォンから音声を入力することができる。

＜＜変形例＞＞
＜情報処理端末の例＞
　TV１の操作に用いられる情報処理端末がリモートコントローラ２であるものとしたが、スマートフォン、タブレット端末などの他のデバイスであってもよい。

　図１２は、情報処理端末としてのスマートフォンの例を示す図である。

　スマートフォン２０１には、スマートフォン２０１をTV１のリモートコントローラとして動作させるためのアプリケーションであるリモコンアプリがインストールされている。図１２のスマートフォン２０１のディスプレイに表示されている画面はリモコンアプリの画面である。ユーザは、リモコンアプリの画面の表示を用いて、TV１の操作を行うことができる。

　リモコンアプリの画面には、電源ボタン、音量ボタン、チャンネルボタン、カーソルボタン、決定ボタンなどの、リモートコントローラ２に設けられるボタンと同様の機能を有する各種のボタンが表示される。リモコンアプリの画面には、図１２に示すようにマイクボタン２１１も表示される。

　マイクボタン２１１が押下された場合、リモートコントローラ２のマイクボタン２１が押下された場合と同様に、スマートフォン２０１に設けられたマイクロフォン２１２が有効となり、音声を入力できる状態となる。

　TV１は、マイクロフォン２１２において検出され、スマートフォン２０１から送信されてきた音声データを音声認識の対象とすることになる。起動ワードが発話されたことに応じて音声認識要求が出力された場合、および、音声認識用のGUIの表示を用いて音声認識要求が出力された場合、上述したように本体マイクが音声の検出に用いられる。

　なお、スマートフォン２０１に設けられるマイクボタンとして、リモコンアプリの画面に表示されるマイクボタン２１１が用いられるようにしてもよいし、物理的に設けられたボタンが用いられるようにしてもよい。

　図１３は、他の情報処理端末の例を示す図である。

　TV１の操作に用いられる情報処理端末は、図１３のＡに示すようなエージェントデバイスであってもよいし、図１３のＢに示すような、音声アシスタント機能を搭載したスマートスピーカであってもよい。図１３のＡのエージェントデバイスと図１３のＢのスマートスピーカは、基本的にスマートフォン２０１と同様の機能を有する。

　このように、TV１の操作に用いられる情報処理端末として、マイクロフォンとともに、そのマイクロフォンを音声の検出に用いることを指示するための操作に用いられる操作部を有する各種のデバイスを用いることが可能である。

　また、音声による操作の対象となるデバイスがTV１であるものとしたが、マイクロフォンを有する各種のデバイスを音声で操作する場合にも、上述した技術を適用することが可能である。

＜システム構成例＞
　TV１により検出された音声の認識が音声認識サーバ３２において行われるものとしたが、TV１内において行われるようにしてもよい。

　この場合、図１０の音声認識制御部１３６は、マイク制御部１３３から供給された音声データを対象として自ら音声認識を行い、音声認識の結果をアプリケーション実行部１３５に出力することになる。

＜ユーザの意図の判定例＞
　リモコンマイクにより音声を入力しようとするユーザの意図が、マイクボタン２１を押下すること以外の、ユーザの各種の状態に基づいて判定されるようにしてもよい。

　例えば、ユーザがリモートコントローラ２を持ち続けている場合に、リモコンマイクにより音声を入力しようとする意図をユーザが有していると判定され、リモコンマイクが有効となるようにしてもよい。

　また、カメラ１１２により撮影された画像を解析し、所定のジェスチャーをユーザがとっていることが検出された場合に、リモコンマイクにより音声を入力しようとする意図をユーザが有していると判定され、リモコンマイクが有効となるようにしてもよい。

　他にも、ユーザがリモートコントローラ２の近くにいることが検出された場合や、リモートコントローラ２を手に持っていることが検出された場合にリモコンマイクが有効となるようにしてもよい。

　このように、カメラ１１２により撮影された画像を解析することによって、ユーザの意図が判定されるようにすることが可能である。

　当然、「リモコンマイクにより音声を入力」などの、リモコンマイクにより音声を入力しようとする意図をユーザが有していると推定できる発話が行われた場合に、マイクボタン２１が有効となるようにしてもよい。

　リモコンマイクを有効にするときのユーザの操作の状態と、本体マイクを有効にするときのユーザの操作の状態とを、それぞれユーザが設定することができるようにしてもよい。この場合、リモートコントローラ２には、そのような設定に用いられるスイッチが設けられる。

　また、ユーザがTV１の近くにいることが検出された場合、本体マイクにより音声を入力しようとする意図をユーザが有していると判定され、本体マイクが有効になるようにしてもよい。

　また、どのような場合にどのマイクを使用するかをユーザが予め設定することができるようにしてもよい。

＜有効なマイクロフォンの提示の例＞
　音声の検出に用いられているマイクロフォン、すなわち、有効なマイクロフォンがどのマイクロフォンであるのかがユーザに対して提示されるようにしてもよい。

　図１４は、画面表示の例を示す図である。

　図１４のＡの例においては、本体マイクを用いて音声の検出が行われていることを表すメッセージが画面の右下に表示されている。

　一方、図１４のＢの例では、リモコンマイクを用いて音声の検出が行われていることを表すメッセージが画面の右下に表示されている。

　このように、有効なマイクロフォンを表す情報が提示されるようにしてもよい。有効なマイクロフォンを表す情報として、メッセージではなく、アイコンが表示されるようにしてもよい。

　また、有効なマイクロフォンが、LEDの点灯によって提示されるようにしてもよい。この場合、例えば、本体マイクが有効になっているときには、TV１の筐体の所定の位置に設けられたLEDが点灯し、リモコンマイクが有効になっているときには、リモートコントローラ２の筐体の所定の位置に設けられたLEDが点灯する。

　本体マイクが有効になっているときに点灯するLEDと、リモコンマイクが有効になっているときに点灯するLEDの両方のLEDがTV１の筐体に設けられるようにしてもよい。

　このように、どのマイクロフォンが有効になっているかをユーザに対して示すことにより、ユーザビリティを向上させることが可能となる。ユーザも、有効なマイクに適した発話をすることが可能となる。

＜コンピュータの構成例＞
　上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

　図１５は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　CPU１００１、ROM１００２、RAM１００３は、バス１００４により相互に接続されている。

　バス１００４には、さらに、入出力インタフェース１００５が接続されている。入出力インタフェース１００５には、キーボード、マウスなどよりなる入力部１００６、ディスプレイ、スピーカなどよりなる出力部１００７が接続される。また、入出力インタフェース１００５には、ハードディスクや不揮発性のメモリなどよりなる記憶部１００８、ネットワークインタフェースなどよりなる通信部１００９、リムーバブルメディア１０１１を駆動するドライブ１０１０が接続される。

　以上のように構成されるコンピュータでは、CPU１００１が、例えば、記憶部１００８に記憶されているプログラムを入出力インタフェース１００５及びバス１００４を介してRAM１００３にロードして実行することにより、上述した一連の処理が行われる。

　CPU１００１が実行するプログラムは、例えばリムーバブルメディア１０１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供され、記憶部１００８にインストールされる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

　本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

＜構成の組み合わせ例＞
　本技術は、以下のような構成をとることもできる。

（１）
　筐体に設けられたマイクロフォンである本体マイクロフォンと、
　認識対象となる音声の検出を、前記本体マイクロフォンと、ユーザの操作に用いられる情報処理端末に設けられたマイクロフォンである端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記情報処理端末に対する前記ユーザの操作の状態に基づいて制御する制御部と
　を備える情報処理装置。
（２）
　前記端末マイクロフォンにより検出され、前記情報処理端末から送信された音声を受信する通信部をさらに備える
　前記（１）に記載の情報処理装置。
（３）
　前記制御部は、前記ユーザの操作の状態として、前記情報処理端末に設けられた所定のボタンを前記ユーザが押下したか否かを判定する
　前記（１）または（２）に記載の情報処理装置。
（４）
　前記制御部は、前記所定のボタンを前記ユーザが押下したと判定した場合、前記端末マイクロフォンにより音声の検出を行う
　前記（３）に記載の情報処理装置。
（５）
　前記制御部は、前記所定のボタンを前記ユーザが押下していないと判定した場合、前記本体マイクロフォンにより音声の検出を行う
　前記（４）に記載の情報処理装置。
（６）
　所定のアプリケーションを実行するアプリケーション実行部をさらに備え、
　前記制御部は、音声認識の要求が前記所定のアプリケーションから出力されたことに応じて、前記所定のボタンを前記ユーザが押下したか否かの判定を行う
　前記（３）乃至（５）のいずれかに記載の情報処理装置。
（７）
　前記音声認識の要求は、前記所定のアプリケーションの実行中に前記所定のボタンが押下された場合、および、音声認識を行うための操作が前記所定のアプリケーションの画面を用いて前記ユーザにより行われた場合に出力される
　前記（６）に記載の情報処理装置。
（８）
　前記本体マイクロフォンまたは前記端末マイクロフォンにより検出された音声をサーバに送信し、前記サーバによる音声認識の結果を受信する音声認識制御部をさらに備える
　前記（１）乃至（７）のいずれかに記載の情報処理装置。
（９）
　前記制御部は、前記ユーザの操作の状態として、前記情報処理端末を前記ユーザが持っているか否かを判定する
　前記（１）または（２）に記載の情報処理装置。
（１０）
　前記制御部は、音声の検出に用いられているマイクロフォンが前記本体マイクロフォンであるか、または、前記端末マイクロフォンであるかを提示する
　前記（１）乃至（９）のいずれかに記載の情報処理装置。
（１１）
　筐体に設けられたマイクロフォンである本体マイクロフォンを備える情報処理装置が、
　認識対象となる音声の検出を、前記本体マイクロフォンと、ユーザの操作に用いられる情報処理端末に設けられたマイクロフォンである端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記情報処理端末に対する前記ユーザの操作の状態に基づいて制御する
　制御方法。
（１２）
　筐体に設けられたマイクロフォンである端末マイクロフォンと、
　認識対象となる音声の検出を前記端末マイクロフォンにより行うときに操作される所定のボタンを含む、情報処理装置の操作に用いられる操作部と、
　認識対象となる音声の検出を、前記情報処理装置が有するマイクロフォンと、前記端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記所定のボタンに対するユーザの操作の状態に基づいて制御する前記情報処理装置から検出要求が送信されてくることに応じて、前記端末マイクロフォンにより検出された音声を前記情報処理装置に対して送信する通信部と
　を備える情報処理端末。
（１３）
　筐体に設けられたマイクロフォンである端末マイクロフォンと、
　認識対象となる音声の検出を前記端末マイクロフォンにより行うときに操作される所定のボタンを含む、情報処理装置の操作に用いられる操作部と
　を備える情報処理端末が、
　認識対象となる音声の検出を、前記情報処理装置が有するマイクロフォンと、前記端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記所定のボタンに対するユーザの操作の状態に基づいて制御する前記情報処理装置から検出要求が送信されてくることに応じて、前記端末マイクロフォンにより検出された音声を前記情報処理装置に対して送信する
　情報処理方法。

　１　TV，　２　リモートコントローラ，　１１　ディスプレイ，　１２　マイクロフォン，　２１　マイクボタン，　２２　マイクロフォン，　３１　インターネット，　３２　音声認識サーバ，　１２１　操作I/F部，　１２２　コントローラ，　１２３　操作部，　１３１　操作検出部，　１３２　起動ワード検出部，　１３３　マイク制御部，　１３４　音声受信制御部，　１３５　アプリケーション実行部，　１３６　音声認識制御部，　２０１　スマートフォン

Claims

　筐体に設けられたマイクロフォンである本体マイクロフォンと、
　認識対象となる音声の検出を、前記本体マイクロフォンと、ユーザの操作に用いられる情報処理端末に設けられたマイクロフォンである端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記情報処理端末に対する前記ユーザの操作の状態に基づいて制御する制御部と
　を備える情報処理装置。
　前記端末マイクロフォンにより検出され、前記情報処理端末から送信された音声を受信する通信部をさらに備える
　請求項１に記載の情報処理装置。
　前記制御部は、前記ユーザの操作の状態として、前記情報処理端末に設けられた所定のボタンを前記ユーザが押下したか否かを判定する
　請求項１に記載の情報処理装置。
　前記制御部は、前記所定のボタンを前記ユーザが押下したと判定した場合、前記端末マイクロフォンにより音声の検出を行う
　請求項３に記載の情報処理装置。
　前記制御部は、前記所定のボタンを前記ユーザが押下していないと判定した場合、前記本体マイクロフォンにより音声の検出を行う
　請求項４に記載の情報処理装置。
　所定のアプリケーションを実行するアプリケーション実行部をさらに備え、
　前記制御部は、音声認識の要求が前記所定のアプリケーションから出力されたことに応じて、前記所定のボタンを前記ユーザが押下したか否かの判定を行う
　請求項３に記載の情報処理装置。
　前記音声認識の要求は、前記所定のアプリケーションの実行中に前記所定のボタンが押下された場合、および、音声認識を行うための操作が前記所定のアプリケーションの画面を用いて前記ユーザにより行われた場合に出力される
　請求項６に記載の情報処理装置。
　前記本体マイクロフォンまたは前記端末マイクロフォンにより検出された音声をサーバに送信し、前記サーバによる音声認識の結果を受信する音声認識制御部をさらに備える
　請求項１に記載の情報処理装置。
　前記制御部は、前記ユーザの操作の状態として、前記情報処理端末を前記ユーザが持っているか否かを判定する
　請求項１に記載の情報処理装置。
　前記制御部は、音声の検出に用いられているマイクロフォンが前記本体マイクロフォンであるか、または、前記端末マイクロフォンであるかを提示する
　請求項１に記載の情報処理装置。
　筐体に設けられたマイクロフォンである本体マイクロフォンを備える情報処理装置が、
　認識対象となる音声の検出を、前記本体マイクロフォンと、ユーザの操作に用いられる情報処理端末に設けられたマイクロフォンである端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記情報処理端末に対する前記ユーザの操作の状態に基づいて制御する
　制御方法。
　筐体に設けられたマイクロフォンである端末マイクロフォンと、
　認識対象となる音声の検出を前記端末マイクロフォンにより行うときに操作される所定のボタンを含む、情報処理装置の操作に用いられる操作部と、
　認識対象となる音声の検出を、前記情報処理装置が有するマイクロフォンと、前記端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記所定のボタンに対するユーザの操作の状態に基づいて制御する前記情報処理装置から検出要求が送信されてくることに応じて、前記端末マイクロフォンにより検出された音声を前記情報処理装置に対して送信する通信部と
　を備える情報処理端末。
　筐体に設けられたマイクロフォンである端末マイクロフォンと、
　認識対象となる音声の検出を前記端末マイクロフォンにより行うときに操作される所定のボタンを含む、情報処理装置の操作に用いられる操作部と
　を備える情報処理端末が、
　認識対象となる音声の検出を、前記情報処理装置が有するマイクロフォンと、前記端末マイクロフォンとのうちのいずれのマイクロフォンにより行うかを、前記所定のボタンに対するユーザの操作の状態に基づいて制御する前記情報処理装置から検出要求が送信されてくることに応じて、前記端末マイクロフォンにより検出された音声を前記情報処理装置に対して送信する
　情報処理方法。