WO2015167008A1

WO2015167008A1 - 案内装置、案内方法、プログラム及び情報記憶媒体

Info

Publication number: WO2015167008A1
Application number: PCT/JP2015/063064
Authority: WO
Inventors: 幸太郎今村
Original assignee: 株式会社ソニー・コンピュータエンタテインメント
Priority date: 2014-05-02
Filing date: 2015-05-01
Publication date: 2015-11-05
Also published as: EP3139377A1; KR20160138572A; EP3139377A4; KR101883414B1; US20170032782A1; JPWO2015167008A1; EP3139377B1; JP6383409B2; US9870772B2

Abstract

　受け付ける音声の認識順位を用いて入力すべき音声の音量に関する案内の出力制御を行うことができる案内装置、案内方法、プログラム及び情報記憶媒体を提供する。音声受付部（４６）は、音声を受け付ける。出力制御部（５８）は、音声の認識結果として所与の情報が特定される場合に当該情報の認識順位に応じた態様で入力すべき音声の音量に関する案内が出力されるよう制御する。

Description

案内装置、案内方法、プログラム及び情報記憶媒体

　本発明は、案内装置、案内方法、プログラム及び情報記憶媒体に関する。

　受け付ける音声の認識結果として尤度等の指標によって順位付けられた複数の情報が特定される音声認識技術が存在する。このような音声認識技術では入力される音声の音量が小さすぎると環境音の影響によって音声の認識精度が低くなる。また入力される音声の音量が大きすぎても音声の認識精度が低くなる。そして音声の認識精度が低いと、ユーザが認識させたい情報は低い認識順位の認識結果として特定される、あるいは、認識結果として特定されないこととなる。そのため認識させたい情報が高い認識順位の認識結果として特定されるようにするためにはユーザは入力すべき音量で音声を入力する必要がある。

　例えば入力された音声の音量が小さい場合に「大きな声で言うと音声が認識されやすくなります。」などといった入力すべき音声の音量に関する案内が出力されるようにするとユーザは入力すべき音声の音量を把握できる。

　ここで例えばユーザによって音声入力されたマジックワードなどの所与の情報の認識順位に応じた態様で当該案内が出力されるようにしたとする。すると上述のように音声の認識精度が低いほど、当該情報の認識順位は低くなるため、当該案内の出力態様を手がかりにしてユーザは音声の認識精度を知ることができ、その結果入力すべき音声の音量をより的確に把握できることとなる。しかし従来技術では、入力すべき音声の音量に関する案内の出力制御に所与の情報の認識順位が用いられてはいなかった。

　本発明は上記課題に鑑みてなされたものであって、その目的の１つは、受け付ける音声の認識順位を用いて入力すべき音声の音量に関する案内の出力制御を行うことができる案内装置、案内方法、プログラム及び情報記憶媒体を提供することにある。

　上記課題を解決するために、本発明に係る案内装置は、音声を受け付ける受付部と、前記音声の認識結果として所与の情報が特定される場合に当該情報の認識順位に応じた態様で入力すべき音声の音量に関する案内が出力されるよう制御する出力制御部と、を含むことを特徴とする。

　また、本発明に係る別の案内装置は、音声を受け付ける受付部と、前記音声の認識結果として所与の情報が特定される場合に、音声による所定のコマンドの入力が不可能な通常状態から音声による当該コマンドの入力が可能な音声認識状態に変更する状態変更部と、認識された前記音声の音量に応じた入力すべき音声の音量に関する案内が当該変更の後に出力されるよう制御する出力制御部と、を含むことを特徴とする。

　また、本発明に係る案内方法は、音声を受け付けるステップと、前記音声の認識結果として所与の情報が特定される場合に当該情報の認識順位に応じた態様で入力すべき音声の音量に関する案内が出力されるよう制御するステップと、を含むことを特徴とする。

　また、本発明に係るプログラムは、音声を受け付ける手順、所定の情報が前記音声の認識結果として特定される場合に当該情報の認識順位に応じた態様で入力すべき音声の音量に関する案内が出力されるよう制御する手順、をコンピュータに実行させることを特徴とする。

　また、本発明に係る情報記憶媒体は、音声を受け付ける手順、所与の情報が前記音声の認識結果として特定される場合に当該情報の認識順位に応じた態様で入力すべき音声の音量に関する案内が出力されるよう制御する手順、をコンピュータに実行させることを特徴とするプログラムを記憶したコンピュータ読み取り可能な情報記憶媒体である。

　本発明の一態様では、音声による所定のコマンドの入力が不可能な通常状態である際に受け付ける音声の認識結果として前記所与の情報が特定され当該情報の認識順位が第１位である場合に、音声による前記コマンドの入力が可能な音声認識状態に変更する状態変更部、をさらに含み、前記出力制御部は、前記音声認識状態に変更された後に前記案内が出力されるよう制御する。

　この態様では、前記出力制御部は、前記通常状態である際に受け付ける音声の認識結果として前記所与の情報が特定され当該情報の認識順位が第１位以外である場合に、前記通常状態のままで前記案内が出力されるよう制御してもよい。

　また、本発明の一態様では、前記出力制御部は、認識された前記音声の音量が所定の音量よりも小さいという条件をさらに満足する場合に限って前記案内が出力されるよう制御する。

本発明の一実施形態に係る情報処理システムの全体構成の一例を示す図である。本発明の一実施形態に係る情報処理装置のハードウェア構成の一例を示す図である。ホーム画面の一例を示す図である。ホーム画面の一例を示す図である。ホーム画面の一例を示す図である。順位処理関係データの一例を示す図である。ホーム画面の一例を示す図である。ホーム画面の一例を示す図である。ホーム画面の一例を示す図である。本発明の一実施形態に係る情報処理装置で実装される機能の一例を示す機能ブロック図である。本実施形態に係る情報処理装置で行われる処理の流れの一例を示すフロー図である。

　以下、本発明の一実施形態について図面に基づき詳細に説明する。

　図１は、本発明の一実施形態に係る情報処理システム１０の全体構成の一例を示す図である。図１に示すように、本実施形態に係る情報処理システム１０は、情報処理装置１２とディスプレイ１４とカメラマイクユニット１６とコントローラ１８とを含んでいる。

　本実施形態に係る情報処理装置１２は、例えばゲームコンソールなどといったエンタテインメント装置等のコンピュータであり、例えば図２に示すように、制御部２０、記憶部２２、通信部２４、入出力部２６を含んでいる。制御部２０は、例えば情報処理装置１２にインストールされるプログラムに従って動作するＣＰＵ等のプログラム制御デバイスである。記憶部２２は、例えばＲＯＭやＲＡＭ等の記憶素子やハードディスクドライブなどである。記憶部２２には、制御部２０によって実行されるプログラムなどが記憶される。通信部２４は、例えばネットワークボードや無線ＬＡＮモジュールなどの通信インタフェースなどである。入出力部２６は、ＨＤＭＩ（登録商標）（High-Definition Multimedi Interface）ポートやＵＳＢポートなどの入出力ポートである。

　本実施形態に係るディスプレイ１４は、液晶ディスプレイ等であり、情報処理装置１２が生成する画面などを表示させる。また、本実施形態に係るディスプレイ１４は、情報処理装置１２が生成する音声データが表す音声を出力するスピーカも備えている。本実施形態に係るカメラマイクユニット１６は、例えば被写体を撮像した画像を情報処理装置１２に出力するカメラ１６ａ及び周囲の音声を取得して当該音声を音声データに変換して情報処理装置１２に出力するマイク１６ｂを含んでいる。

　情報処理装置１２とディスプレイ１４とは、例えば、ＡＶケーブルや、ＨＤＭＩケーブル等を介して接続されている。情報処理装置１２とカメラマイクユニット１６とは、例えば、ＵＳＢケーブルや、ＡＶケーブルや、ＨＤＭＩ（登録商標）（High-Definition Multimedia Interface）ケーブル等を介して接続されている。

　本実施形態に係るコントローラ１８は、情報処理装置１２に対する操作入力を行うための操作入力装置である。本実施形態に係るコントローラ１８は、例えばボタン、タッチパネル、操作スティックなどの操作子が設けられている。また、本実施形態に係るコントローラ１８は、角速度を検出するジャイロセンサ、加速度を検出する加速度センサ等のセンサを備えている。

　また、本実施形態に係るコントローラ１８はジャックを備えており、当該ジャックにマイクが備えるプラグを差し込むことにより、当該マイクによる音声入力も行うことができるようになっている。コントローラ１８に差し込まれたマイクに入力された音声はコントローラ１８で音声データに変換されて情報処理装置１２に出力される。

　本実施形態では、カメラマイクユニット１６が備えるマイク１６ｂにユーザが音声を入力することにより、情報処理装置１２は当該音声を認識して、当該音声の認識結果に応じた各種処理を実行する。このようにして本実施形態では、ユーザは音声によって情報処理装置１２に対する操作を行うことができるようになっている。なお本実施形態では、コントローラ１８のジャックにマイクのプラグが差し込まれている際には、当該マイクに入力された音声の認識結果をカメラマイクユニット１６が備えるマイク１６ｂに入力された音声の認識結果よりも優先して取り扱うようになっている。

　またユーザは、ボタンを押下したり、操作スティックを傾けたりすることで、コントローラ１８を用いて各種の操作入力を行うことができる。そして本実施形態では、コントローラ１８は、操作入力に対応付けられる入力データを情報処理装置１２に出力する。

　また、本実施形態に係るコントローラ１８は、ＵＳＢポートを備えている。コントローラ１８は、ＵＳＢケーブルで情報処理装置１２と接続することで、入出力部２６を介して有線で入力データを情報処理装置１２に出力することができる。また、本実施形態に係るコントローラ１８は、無線通信モジュール等を備えており、通信部２４を介して無線で入力データを情報処理装置１２に出力することができるようにもなっている。

　また本実施形態に係る情報処理装置１２には公知の音声認識エンジンがインストールされている。そして当該音声認識エンジンにより、当該情報処理装置１２に入力される音声、すなわち当該情報処理装置１２が受け付ける音声の認識結果として、尤度等の指標によって順位付けられた複数の情報が特定されるようになっている。なお本実施形態では、ある認識順位の認識結果として特定される情報がない、具体的には例えば、認識順位が第１位である認識結果に該当する情報がない場合があり得る。

　また当該音声認識エンジンは、入力される音声に基づいて情報処理装置１２がユーザの音声として認識した音の音量の相対的な大きさを特定できるようになっている。本実施形態では具体的には例えば、情報処理装置１２が周囲の雑音すなわち環境音として認識した音の音量に対する情報処理装置１２がユーザの音声として認識した音の音量の比を特定することができるようになっている。以下、このようにして特定される比をＳＮＲ（signal-to-noise ratio）と呼ぶこととする。

　また本実施形態に係る情報処理装置１２は、音声による所定のコマンドの入力が不可能な通常状態又は音声による所定のコマンドの入力が可能な音声認識状態のいずれかの実行状態で各種処理を実行する。そしてユーザは情報処理装置１２の実行状態を適宜切り替えることができるようになっている。

　図３は、本実施形態に係るディスプレイ１４に表示されるホーム画面３０の一例を示す図である。本実施形態では、ホーム画面３０において、ユーザは情報処理装置１２にインストールされているプログラムのうちのいずれかを選択できるようになっている。

　ホーム画面３０には、初期状態では、図３に示すようにそれぞれプログラムに対応付けられるプログラムアイコン画像３２（図３の例ではプログラムアイコン画像３２－１～３２－５）が配置されている。図３に示すホーム画面３０には、情報処理装置１２にインストールされているプログラムの少なくとも一部についてのプログラムアイコン画像３２が配置されている。そして当該プログラムアイコン画像３２のうちいずれかのプログラムアイコン画像３２、図３の例ではプログラムアイコン画像３２－１が、選択されている状態であることが示される。本実施形態では選択されている状態であるプログラムアイコン画像３２－１は、他のプログラムアイコン画像３２とは異なる態様で表示される。以下、選択されている状態となった選択肢を注目選択肢と呼ぶこととする。上述の例では、プログラムアイコン画像３２－１が注目選択肢である。

　本実施形態では、図３に示すように、注目選択肢であるプログラムアイコン画像３２－１の右下に、当該プログラムアイコン画像３２－１に対応付けられるプログラムの名称を表す文字列が配置される。また、注目選択肢であるプログラムアイコン画像３２－１が他のプログラムアイコン画像３２（３２－２～３２－５）よりも強調表示されている。具体的には、例えば、プログラムアイコン画像３２－１は他のプログラムアイコン画像３２（３２－２～３２－５）よりもサイズが大きく、また、プログラムアイコン画像３２－１の周囲には枠が配置されている。本実施形態では、以上のことによって、プログラムアイコン画像３２－１が選択されている状態であること、すなわちプログラムアイコン画像３２－１が注目選択肢であることが示されている。なお、プログラムアイコン画像３２が注目選択肢であることを示す手法は図３に示すものには限定されない。

　ここで、図３に示すホーム画面３０が表示されてから所定時間、例えば１０秒経過したとする。すると、ディスプレイ１４に表示されているホーム画面３０は、図４に示す状態となる。そして、ホーム画面３０は、所定時間間隔、例えば３秒間隔で、図４に示す状態と図５に示す状態とが切り替わる。図４に示す状態では、ホーム画面３０にコントローラ操作案内画像３４が配置される。当該コントローラ操作案内画像３４には、コントローラ１８による操作内容を案内する操作案内情報ＯＩが配置されている。一方、図５に示す状態では、ホーム画面３０にマジックワード案内画像３６が配置される。当該マジックワード案内画像３６には、音声認識を開始するための音声を表す所与の情報の音声入力を促すマジックワード案内情報ＭＩが配置されている。そしてマジックワード案内情報ＭＩには、音声認識を開始するための音声を表す所与の情報が含まれている。図５には、当該所与の情報の一例として、「音声認識開始」との語句が示されている。以下、音声認識を開始するための音声を表す所与の語句をマジックワードＭＷと呼ぶこととする。

　このようにして本実施形態では、ホーム画面３０が表示されてから所定時間が経過すると、コントローラ１８でどのような操作をすればよいかと、どのような音声を入力すればよいかの両方がユーザに案内されることとなる。なお、本実施形態では、ユーザによる音声入力ができない場合には、ホーム画面３０はマジックワード案内画像３６が配置された状態には切り替わらない。例えば、カメラマイクユニット１６が情報処理装置１２と接続されておらず、コントローラ１８のジャックにマイクのプラグが差し込まれていない場合には、ホーム画面３０はマジックワード案内画像３６が配置された状態には切り替わらない。

　ホーム画面３０が図３、図４、又は、図５に示す状態となっている際には、本実施形態に係る情報処理装置１２の実行状態は通常状態となっている。そして表示されているホーム画面３０が図３、図４、又は、図５に示す状態となっている際に、情報処理装置１２がユーザの音声を受け付けたとする。この場合本実施形態では、図６に示す順位処理関係データに従って、当該音声に基づいて特定されるＳＮＲの値とユーザの音声として認識された音に基づいて特定されるマジックワードＭＷの認識順位との組合せに応じた処理が実行されることとなる。図６に示す順位処理関係データには、マジックワードＭＷ等の所定の情報の認識順位と実行される処理の名称との関係が示されている。なお本実施形態に係る順位処理関係データでは、音量に関する条件と所定の情報の認識順位との組合せが実行される処理の名称と関連付けて管理されている。より具体的には例えば、受け付ける音声に基づいて特定されるＳＮＲの値に関する条件とマジックワードＭＷの認識順位との組合せが実行される処理の名称と関連付けて管理されている。

　例えば特定されるＳＮＲの値が所定値Ｌ１より大きく（ここでは例えば５ｄＢより大きく）、認識順位が第１位である認識結果がマジックワードＭＷ（ここでは例えば「音声認識開始」）である場合は、情報処理装置１２の実行状態が音声認識状態に変更される。この場合は、ホーム画面３０が図７に示す状態に切り替わる。

　また例えば特定されるＳＮＲの値が上述の所定値Ｌ１以下であり、認識順位が第１位である認識結果がマジックワードＭＷである場合は、情報処理装置１２の実行状態が音声認識状態へと変更されるとともに入力すべき音声の音量に関する案内が表示される。この場合は、ホーム画面３０が図８に示す状態に切り替わる。

　また例えば特定されるＳＮＲの値が上述の所定値Ｌ１以下であり、認識順位が第１位である認識結果に該当する情報がなく、認識順位が第２位である認識結果がマジックワードＭＷである場合は、入力すべき音声の音量に関する案内が出力される。この場合は、情報処理装置１２の実行状態は通常状態のままである。この場合は、ホーム画面３０が図９に示す状態に切り替わる。

　情報処理装置１２の実行状態が音声認識状態である場合には、図７及び図８に示すように、ホーム画面３０に、コマンドの音声入力を行うにあたって入力すべき音声をユーザに案内するための音声入力案内画像３８が配置される。

　本実施形態では、情報処理装置１２の実行状態が音声認識状態である際には、ユーザが音声を入力すると、情報処理装置１２は、当該音声が表す情報を認識して、その認識結果に基づいて、当該音声が表すコマンドを特定する。そして、情報処理装置１２は、当該コマンドに応じた処理を実行する。

　図７及び図８に例示する音声入力案内画像３８には、コマンドを示すコマンド情報ＣＩが少なくとも１つ配置されている。本実施形態では、コマンド情報ＣＩとしてコマンドを示す語句が配置される。なお、コマンド情報ＣＩとして語句の代わりにコマンドを象徴するアイコン画像などの他の情報が配置されても構わない。

　コマンド情報ＣＩは、情報処理装置１２が受付可能なコマンドに対応付けられている。そして本実施形態では、コマンド情報ＣＩが表す音声がユーザにより入力されると、当該コマンド情報ＣＩに対応付けられるコマンドに応じた処理が実行されることとなる。

　図７及び図８に例示するホーム画面３０には４つのコマンド情報ＣＩが配置されている。本実施形態では、ホーム画面３０に配置されているコマンド情報ＣＩの左側にはコマンド識別画像ＣＩＰが配置されている。そして、当該コマンド識別画像ＣＩＰにより、ユーザは、その右側のコマンド情報ＣＩが表す音声を入力することで当該コマンド情報ＣＩに対応付けられるコマンドに応じた処理が実行されることを認識できることとなる。

　ここで例えば、図７又は図８に示すホーム画面３０がディスプレイ１４に表示されていることとする。この場合に、「はじめる」との語句を表す音声を情報処理装置１２が受け付けた際には、注目選択肢であるプログラムアイコン画像３２に対応付けられるプログラムの実行が開始される。また、「電源」との語句を表す音声を情報処理装置１２が受け付けた際には、情報処理装置１２の電源が切れるよう制御することができる画面がディスプレイ１４に表示される。また「スクリーンショットを撮る」との語句を表す音声を情報処理装置１２が受け付けた際には、ホーム画面３０の表示内容を静止画像としてキャプチャしたキャプチャ画像が情報処理装置１２の記憶部２２に保存される。また「ログインする」との語句を表す音声を情報処理装置１２が受け付けた際には、ディスプレイ１４にはユーザの一覧が示された画面が表示される。そして、当該画面で情報処理装置１２に登録されているユーザの識別子を音声入力することで当該ユーザによるログインが行われる。

　また本実施形態では、コマンド情報ＣＩが表すコマンドには、コントローラ１８のボタン等の操作子が割り当てられている。そしてボタンを押下することで、当該ボタンに対応付けられるコマンドに応じた処理が実行されることとなる。このように、本実施形態では、コマンド情報ＣＩが表すコマンドに応じた処理は、操作子の操作によっても音声入力によっても実行することができるようになっている。

　また本実施形態では、表示されているプログラムアイコン画像３２は、当該プログラムアイコン画像３２に対応付けられるプログラムの名称、略称、通称等の情報が少なくとも１つ関連付けられている。また本実施形態では、図７及び図８に示す音声入力案内画像３８には、ゲーム等のプログラムの名称の音声入力を促すプログラム名称入力案内情報ＰＩが配置されている。そして本実施形態では、プログラムの名称等を表す音声をユーザが音声入力すると、当該プログラムに対応付けられるプログラムアイコン画像３２が注目選択肢として特定される。ここで、入力された音声が複数のプログラムについての名称等を表している場合は、これら複数のプログラムのうちのいずれかに対応付けられるプログラムアイコン画像３２が注目選択肢として特定される。本実施形態では、図７に示すホーム画面３０が表示されている際に、情報処理装置１２が「ドラゴンゲーム」との語句を表す音声を受け付けると、プログラムアイコン画像３２－４が注目選択肢として特定されることとなる。そして本実施形態ではプログラムアイコン画像３２－４が強調表示されるよう表示されているホーム画面３０が更新される。

　なお音声認識状態では、受け付ける音声の音量が所定の音量の範囲内である場合に、受け付ける音声に応じたコマンドの特定が行われるようにしてもよい。ここで当該所定の音量の範囲の下限が、上述の所定の音量Ｌ１よりも大きくてもよい。

　本実施形態では、図８に示すホーム画面３０では、図７に示されているプログラム名称入力案内情報ＰＩの代わりに、本実施形態における入力すべき音声の音量に関する案内である音量案内情報ＶＩが音声入力案内画像３８に配置される。ここでは例えば、より大きな声での入力をユーザに促す案内である音量案内情報ＶＩとして「大きな声で言うと音声が認識されやすくなります。」との文字列が音声入力案内画像３８に配置される。

　このように本実施形態では、情報処理装置１２の実行状態が通常状態から音声認識状態に変更されたタイミングについては音量案内情報ＶＩが表示されることがある。しかし本実施形態では、当該タイミングを除いては、受け付ける音声に基づいて特定されるＳＮＲの値が所定値Ｌ１以下であっても情報処理装置１２の実行状態が音声認識状態である場合に音量案内情報ＶＩは表示されないようになっている。

　また図９に示すホーム画面３０では、図５に示されているマジックワード案内情報ＭＩの代わりに上述の音量案内情報ＶＩが配置される。

　以上のようにして本実施形態では、音声の認識結果として特定されるマジックワードＭＷ等の所与の情報の認識順位に応じた態様で入力すべき音声の音量に関する案内が出力される。具体的には例えば、マジックワードＭＷ等の所与の情報の認識順位が第１位である場合は情報処理装置１２の実行状態が音声認識状態である場合に表示される音声入力案内画像３８内に上述の音量案内情報ＶＩが配置される。一方、マジックワードＭＷ等の所与の情報の認識順位が第２位である場合は情報処理装置１２の実行状態が通常状態である場合に表示されるマジックワード案内画像３６内に上述の音量案内情報ＶＩが配置される。

　一般的な音声認識技術では入力される音声の音量が小さすぎると環境音の影響によって音声の認識精度が低くなる。そして音声の認識精度が低いほど、ユーザが認識させたい情報の認識順位は低くなる。そのため本実施形態のように、音声の認識結果として特定される所与の情報の認識順位に応じた態様で入力すべき音声の音量に関する案内を出力されるようにすることで、ユーザは当該案内の出力態様を手がかりにして音声の認識精度を知ることができる。その結果ユーザは入力すべき音声の音量をより的確に把握できることとなる。

　また以上説明したように本実施形態では、認識されるユーザの音声の音量が周囲の雑音すなわち環境音の音量に比べて相対的に小さい場合に、より大きな声での入力をユーザに促す案内が出力されることとなる。なお入力される音声の音量が大きすぎても音声の認識精度が低くなる。そこで例えば、認識された音声の音量が所定の音量より大きい場合に、音声の認識結果として特定されるマジックワードＭＷ等の所与の情報の認識順位に応じた態様で入力すべき音声の音量に関する案内を出力されるようにしてもよい。ここで例えばより小さな声での入力をユーザに促す案内として「小さな声で言うと音声が認識されやすくなります。」との文字列が表示されるようにしてもよい。また、認識された音声の音量に関わらず、音声の認識結果として特定されるマジックワードＭＷ等の所与の情報の認識順位に応じた態様で入力すべき音声の音量に関する案内が出力されるようにしてもよい。

　また、入力すべき音声の音量に関する案内が音声出力されるようにしてもよい。ここで例えば入力された音声に基づいて特定されるＳＮＲの値が所定値Ｌ１以下であることとする。この場合に例えば、マジックワードＭＷ等の所与の情報の認識順位が第１位である場合は情報処理装置１２の実行状態が音声認識状態に変更された上で「大きな声で言うと音声が認識されやすくなります。」との内容を表す音声が音声出力されてもよい。一方、マジックワードＭＷ等の所与の情報の認識順位が第２位である場合は情報処理装置１２の実行状態が通常状態であるままで「大きな声で言うと音声が認識されやすくなります。」との内容を表す音声が音声出力されてもよい。

　また本実施形態では、ホーム画面３０が、図３、図４、又は、図５に示す状態となっている際に、所定の操作子に対する押下操作が行われた場合にも、情報処理装置１２の実行状態は音声認識状態へと変更される。この場合は、ホーム画面３０は、図７に示す状態に切り替わる。このように本実施形態では、コントローラ１８による操作によってもマジックワードＭＷを音声入力することによっても情報処理装置１２の実行状態を音声認識状態とすることができるようになっている。

　そして本実施形態では、情報処理装置１２の実行状態が音声認識状態となってから、コントローラ１８による操作も音声入力も行われない状態が所定時間、例えば１０秒間経過したら、情報処理装置１２の実行状態は通常状態に変更される。また、情報処理装置１２の実行状態が音声認識状態となってから、コントローラ１８による操作が行われた場合も同様に、情報処理装置１２の実行状態は通常状態に変更される。図７又は図８に示すホーム画面３０がディスプレイ１４に表示されている場合に情報処理装置１２の実行状態が通常状態となった際には、表示されているホーム画面３０は図５に示すものに変更される。

　また、図８に示す、音声認識状態におけるホーム画面３０が表示されている状態からコントローラ１８による操作も音声入力も行われない状態が所定時間、例えば５秒間経過したとする。この場合、当該ホーム画面３０は音量案内情報ＶＩが配置されていない図７に示すものに更新されてもよい。また、図９に示す、通常状態におけるホーム画面３０が表示されている状態からコントローラ１８による操作も音声入力も行われない状態が所定時間、例えば５秒間経過したとする。この場合、当該ホーム画面３０は音量案内情報ＶＩが配置されていない図５に示すものに更新されてもよい。

　なお、情報処理装置１２が音声認識状態である間は、スピーカから出力される音の音量が小さくなるよう制御されても構わない。

　また、本実施形態に係る情報処理装置１２は、当該情報処理装置１２の実行状態が通常状態である場合に上述のコマンド情報ＣＩが表す音声が認識可能であっても構わない。ここで例えば表示されているホーム画面３０が図３、図４、又は、図５に示す状態となっている際に、情報処理装置１２がユーザの音声を受け付けたとする。そして当該音声に基づいて特定されるＳＮＲの値が所定値Ｌ１以下であったとする。この場合、認識順位が第１位である認識結果が上述のコマンド情報ＣＩのいずれかであり、認識順位が第２位である認識結果がマジックワードＭＷである場合に、ホーム画面３０が図８に示す状態に切り替わるようにしてもよい。ここでもちろん認識順位が第１位である認識結果に該当する情報がなく、認識順位が第２位である認識結果がマジックワードＭＷである場合についても、ホーム画面３０が図８に示す状態に切り替わるようにしてもよい。またマジックワードＭＷの認識順位が第３位以下である場合についても、ホーム画面３０が図８に示す状態に切り替わるようにしてもよい。

　以下、情報処理装置１２の実行状態の変更制御及び音量案内情報ＶＩの表示制御についてさらに説明する。

　図１０は、本実施形態に係る情報処理装置１２で実装される、情報処理装置１２の実行状態の変更制御及び音量案内情報ＶＩの表示制御に関する機能の一例を示す機能ブロック図である。なお、本実施形態に係る情報処理装置１２で、図１０に示す機能のすべてが実装される必要はなく、また、図１０に示す機能以外の機能が実装されていても構わない。

　本実施形態に係る情報処理装置１２は、図１０に示すように、機能的には例えば、順位処理関係データ記憶部４０、状態管理データ記憶部４２、操作受付部４４、音声受付部４６、音声認識部４８、処理特定部５０、状態変更部５２、処理実行部５４、画面生成部５６、出力制御部５８、を含んでいる。順位処理関係データ記憶部４０、状態管理データ記憶部４２は、記憶部２２を主として実装される。操作受付部４４は、通信部２４又は入出力部２６を主として実装される。音声受付部４６は、入出力部２６を主として実装される。出力制御部５８は、入出力部２６を主として実装される。その他の機能は、制御部２０を主として実装される。なお音声認識部４８は、上述の音声認識エンジンで実装される機能に相当する。

　そして、以上の機能は、コンピュータである情報処理装置１２にインストールされた、以上の機能に対応する指令を含むプログラムを制御部２０で実行することにより実装されている。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどの通信手段を介して情報処理装置１２に供給される。

　順位処理関係データ記憶部４０は、図６に例示する順位処理関係データを記憶する。

　状態管理データ記憶部４２は、情報処理装置１２の実行状態を管理する状態管理データを記憶する。本実施形態では状態管理データは「通常状態」又は「音声認識状態」のいずれかの値をとることとする。

　操作受付部４４は、コントローラ１８に対する操作を受け付ける。本実施形態では操作受付部４４は、例えば押下されたボタンを表す信号等を受け付ける。

　音声受付部４６は、音声を受け付ける。音声受付部４６は、本実施形態では例えば、ユーザによりマイク１６ｂに入力される音声を受け付ける。

　音声認識部４８は、音声受付部４６が受け付ける音声を認識する。音声認識部４８は、本実施形態では、音声受付部４６が受け付ける音声の認識結果として、尤度等の指標によって順位付けられた少なくとも１つの情報を特定する。なお上述のように本実施形態では、ある認識順位の認識結果として特定される情報がない、具体的には例えば、認識順位が第１位である認識結果に該当する情報がない場合があり得る。また音声認識部４８は、音声受付部４６が受け付ける音声に基づいて情報処理装置１２がユーザの音声として認識した音の音量の相対的な大きさを特定する。本実施形態では音声認識部４８は、例えば上述のＳＮＲの値を特定する。

　処理特定部５０は、実行する処理を特定する。処理特定部５０は、本実施形態では例えば、順位処理関係データ記憶部４０に記憶されている順位処理関係データ、音声認識部４８が特定したＳＮＲの値、音声認識部４８により認識結果として特定された情報、に基づいて実行する処理の名称を特定する。また処理特定部５０は、本実施形態では例えば、音声認識部４８による認識結果又は操作受付部４４が受け付ける操作に基づいて、上述のコマンド情報ＣＩに対応付けられるコマンドに応じた処理を特定する。

　状態変更部５２は、情報処理装置１２の実行状態を変更する。本実施形態では、状態変更部５２は、音声認識部４８による認識結果又は操作受付部４４が受け付ける操作に基づいて、状態管理データ記憶部４２に記憶されている状態管理データの値を変更する。状態変更部５２は例えば、情報処理装置１２の実行状態が通常状態である際に受け付ける音声の認識結果としてマジックワードＭＷ等の所与の情報が特定された場合に、情報処理装置１２の実行状態を音声認識状態に変更する。ここで例えば、マジックワードＭＷ等の所与の情報が所定の順位である場合、例えば第１位である場合に状態管理データの値が「音声認識状態」に変更されるようにしてもよい。

　処理実行部５４は、処理特定部５０が上述のコマンド情報ＣＩに対応付けられるコマンドに応じた処理を特定した場合に当該処理を実行する。

　画面生成部５６は、ホーム画面３０等の画面を示すデータを生成する。本実施形態では、画面生成部５６は、所定のフレームレートで画面を示すデータを生成する。また画面生成部５６は、音声認識部４８が特定したＳＮＲの値、状態管理データ記憶部４２に記憶されている状態管理データの値、処理実行部５４による処理の実行結果などに基づいて、画面を示すデータを生成する。

　出力制御部５８は、音声認識部４８が認識する音声の認識結果としてマジックワードＭＷ等の所与の情報が特定される場合に当該情報の認識順位に応じた態様で入力すべき音声の音量に関する案内が出力されるよう制御する。例えば情報処理装置１２の実行状態が通常状態である際に受け付ける音声の認識結果として所与の情報が特定され当該情報の認識順位が第１位であったとする。この場合は、本実施形態に係る出力制御部５８は、情報処理装置１２の実行状態が通常状態から音声認識状態に変更された後に入力すべき音声の音量に関する案内が出力されるよう制御する。また例えば情報処理装置１２の実行状態が通常状態である際に受け付ける音声の認識結果として所与の情報が特定され当該情報の認識順位が第１位以外であったとする。この場合は、本実施形態に係る出力制御部５８は、情報処理装置１２の実行状態が通常状態のままで入力すべき音声の音量に関する案内が出力されるよう制御する。なお上述のように出力制御部５８は認識された音声の音量が所定の音量よりも小さいという条件を満足する場合に限って入力すべき音声の音量に関する案内が出力されるよう制御してもよい。また出力制御部５８は、本実施形態では画面生成部５６が生成した画面が出力されるよう制御する。なお出力制御部５８は本実施形態では例えば、画面生成部５６が所定のフレームレートで画面を示すデータを生成する度に、当該画面を示すデータをディスプレイ１４に出力する。そしてディスプレイ１４は当該データに応じた画面を表示する。このようにして本実施形態では、所定のフレームレートでディスプレイ１４に画面が表示されることとなる。また出力制御部５８は、入力すべき音声の音量に関する案内が音声出力される制御してもよい。

　なお画面生成部５６が、受け付ける音声の認識結果として所与の情報が特定される場合に、情報処理装置１２の実行状態が音声認識状態に変更された後に、認識された音声の音量に応じた音量案内情報ＶＩが配置された画面を示すデータを生成してもよい。この場合は、出力制御部５８が、認識された音声の音量に応じた入力すべき音声の音量に関する案内が情報処理装置１２の実行状態の変更の後に出力されるよう制御することとなる。

　ここで、ホーム画面３０が図３、図４、又は、図５に示す状態となっている際に音声受付部４６が音声を受け付けた際に、本実施形態に係る情報処理装置１２で行われる処理の流れの一例を、図１１に示すフロー図を参照しながら説明する。この状況では情報処理装置１２の実行状態は通常状態であるため、状態管理データ記憶部４２に記憶されている状態管理データの値は「通常状態」であることとなる。

　まず音声認識部４８が、音声受付部４６が受け付けた音声に基づいて、ＳＮＲの値を特定する（Ｓ１０１）。そして音声認識部４８が、音声受付部４６が受け付けた音声に基づいて、順位付けられた少なくとも１つの情報を認識結果として特定する（Ｓ１０２）。

　そして処理特定部５０が、順位処理関係データ記憶部４０に記憶されている順位処理関係データ、Ｓ１０１に示す処理で特定されたＳＮＲの値、及び、Ｓ１０２に示す処理で特定された情報、に基づいて実行する処理の名称を特定する（Ｓ１０３）。

　ここで例えばＳ１０１に示す処理で特定されたＳＮＲの値が５ｄＢより大きく、Ｓ１０２に示す処理で第１位の認識順位の認識結果としてマジックワードＭＷが特定されたとする。この場合は、「音声認識状態への変更」が実行する処理の名称として特定される。また例えばＳ１０１に示す処理で特定されたＳＮＲの値が５ｄＢ以下でありＳ１０２に示す処理で第１位の認識順位の認識結果としてマジックワードＭＷが特定されたとする。この場合は、「音声認識状態への変更」と「案内の表示」の２つが実行する処理の名称として特定される。また例えばＳ１０１に示す処理で特定されたＳＮＲの値が５ｄＢ以下でありＳ１０２に示す処理で認識順位が第１位である認識結果に該当する情報がなく認識順位が第２位である認識結果としてマジックワードＭＷが特定されたとする。この場合は、「案内の表示」が実行する処理の名称として特定される。

　そして状態変更部５２は、Ｓ１０３に示す処理で特定された処理の名称に「音声認識状態への変更」が含まれるか否かを確認する（Ｓ１０４）。含まれることが確認された場合は（Ｓ１０４：Ｙ）、状態変更部５２は、状態管理データ記憶部４２に記憶されている状態管理データの値を「音声認識状態」に変更する（Ｓ１０５）。

　Ｓ１０４に示す処理でＳ１０３に示す処理で特定された処理の名称に「音声認識状態への変更」が含まれていないことが確認された場合（Ｓ１０４：Ｎ）、又は、Ｓ１０５に示す処理が終了した場合は、画面生成部５６がホーム画面３０を生成する（Ｓ１０６）。Ｓ１０６に示す処理では画面生成部５６は、状態管理データ記憶部４２に記憶されている状態管理データの値及びＳ１０３に示す処理で特定された処理の名称に「案内の表示」が含まれるか否かに基づいてホーム画面３０を生成する。例えば状態管理データ記憶部４２に記憶されている状態管理データの値が「音声認識状態」である場合は、音声入力案内画像３８が配置されたホーム画面３０が生成される。一方、状態管理データ記憶部４２に記憶されている状態管理データの値が「通常状態」である場合は、マジックワード案内画像３６が配置されたホーム画面３０が生成される。また、Ｓ１０３に示す処理で特定された処理の名称に「案内の表示」が含まれる場合は音量案内情報ＶＩが配置されたホーム画面３０が生成される。なお本処理例では以上のいずれの条件にも場合にもあてはまらない場合には、Ｓ１０６に示す処理で画面生成部５６は表示されている画面と同一の画面を生成することとする。

　そして出力制御部５８が、Ｓ１０６に示す処理で生成されたホーム画面３０を示すデータをディスプレイ１４に出力して（Ｓ１０７）、本処理例に示す処理を終了する。ディスプレイ１４は当該データに応じた画面を表示する。

　なお上述のようにＳ１０７に示す処理で例えば入力すべき音声の音量に関する案内の音声を表す音声データがディスプレイ１４に出力されるようにしてもよい。この場合は、ディスプレイ１４は当該音声データが表す音声を出力する。なおこの場合は、画面生成部５６がＳ１０６に示す処理で音量案内情報ＶＩが配置されていないホーム画面３０を生成してもよい。

　なお、本発明は上述の実施形態に限定されるものではない。

　例えば、情報処理装置１２が、カメラ１６ａやマイク１６ｂを備えた携帯型ゲーム装置であってもよい。また、情報処理装置１２は、パーソナルコンピュータ、タブレット端末、スマートフォン、などであっても構わない。また、情報処理装置１２、ディスプレイ１４、カメラマイクユニット１６、の役割分担は上述のものに限定されない。また、情報処理装置１２が複数の筐体から構成されていてもよい。

　また、上記の具体的な文字列や図面中の具体的な文字列は例示であり、これらの文字列には限定されない。

Claims

　音声を受け付ける受付部と、
　前記音声の認識結果として所与の情報が特定される場合に当該情報の認識順位に応じた態様で入力すべき音声の音量に関する案内が出力されるよう制御する出力制御部と、
　を含むことを特徴とする案内装置。
　音声による所定のコマンドの入力が不可能な通常状態である際に受け付ける音声の認識結果として前記所与の情報が特定され当該情報の認識順位が第１位である場合に、音声による前記コマンドの入力が可能な音声認識状態に変更する状態変更部、をさらに含み、
　前記出力制御部は、前記音声認識状態に変更された後に前記案内が出力されるよう制御する、
　ことを特徴とする請求項１に記載の案内装置。
　前記出力制御部は、前記通常状態である際に受け付ける音声の認識結果として前記所与の情報が特定され当該情報の認識順位が第１位以外である場合に、前記通常状態のままで前記案内が出力されるよう制御する、
　ことを特徴とする請求項２に記載の案内装置。
　前記出力制御部は、認識された前記音声の音量が所定の音量よりも小さいという条件をさらに満足する場合に限って前記案内が出力されるよう制御する、
　ことを特徴とする請求項１から３のいずれか一項に記載の案内装置。
　音声を受け付ける受付部と、
　前記音声の認識結果として所与の情報が特定される場合に、音声による所定のコマンドの入力が不可能な通常状態から音声による当該コマンドの入力が可能な音声認識状態に変更する状態変更部と、
　認識された前記音声の音量に応じた入力すべき音声の音量に関する案内が当該変更の後に出力されるよう制御する出力制御部と、
　を含むことを特徴とする案内装置。
　音声を受け付けるステップと、
　前記音声の認識結果として所与の情報が特定される場合に当該情報の認識順位に応じた態様で入力すべき音声の音量に関する案内が出力されるよう制御するステップと、
　を含むことを特徴とする案内方法。
　音声を受け付ける手順、
　所定の情報が前記音声の認識結果として特定される場合に当該情報の認識順位に応じた態様で入力すべき音声の音量に関する案内が出力されるよう制御する手順、
　をコンピュータに実行させることを特徴とするプログラム。
　音声を受け付ける手順、
　所与の情報が前記音声の認識結果として特定される場合に当該情報の認識順位に応じた態様で入力すべき音声の音量に関する案内が出力されるよう制御する手順、
　をコンピュータに実行させることを特徴とするプログラムを記憶したコンピュータ読み取り可能な情報記憶媒体。