JPWO2016063564A1

JPWO2016063564A1 - 制御装置、制御方法、プログラム及び情報記憶媒体

Info

Publication number: JPWO2016063564A1
Application number: JP2016555098A
Authority: JP
Inventors: 啓悟田村; 史明久松
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2014-10-24
Filing date: 2015-05-26
Publication date: 2017-05-25
Anticipated expiration: 2035-05-26
Also published as: WO2016063564A1; JP6259530B2; EP3211638B1; KR102111983B1; US10434412B2; KR20170042737A; EP3211638A1; CN107077846A; KR20180110207A; US20170239567A1; CN107077846B; EP3211638A4

Abstract

音声認識による処理の実行が不可である場合に、受け付ける音声の認識が成功した際に音声認識による処理の実行が不可であることをユーザが認識できる制御装置、制御方法、プログラム及び情報記憶媒体を提供する。音声受付部（７４）は、音声を受け付ける。実行部（７８）は、音声の認識結果に応じた処理を実行する。出力制御部（８０）は、音声認識による処理の実行が不可であることを表す情報が出力されるよう制御する。音声の認識の成功に応じて、当該音声の認識結果に応じた処理の実行、又は、音声認識による処理の実行が不可であることを表す情報の出力制御、のいずれかが行われる。

Description

本発明は、制御装置、制御方法、プログラム及び情報記憶媒体に関する。

ユーザが入力した音声を受け付けて、当該音声の認識結果に応じたコマンドを特定し、当該コマンドに応じた処理を実行する技術が存在する。

例えばボイスチャットのプログラムやボイスメッセージのプログラムなどといった音声に関するプログラムが実行されている場合には、入力される音声の認識結果に応じた処理が、ユーザの意図に反して実行されるおそれがある。またオペレーティングシステム等のシステムプログラムでもシステムプログラムとは別に実行されるゲームプログラムでも音声の認識結果に応じた処理の実行が可能である場合にはコマンドが競合するおそれがある。また実行されるゲームプログラムによってはゲームの世界観を保つために音声の認識結果に応じた処理が実行されないことが望ましい場合がある。例えば以上のような場合には、音声認識による処理の実行が不可となることが望ましい。

そして音声認識による処理の実行が不可である場合に、受け付ける音声の認識が成功した際に音声認識による処理の実行が不可であることをユーザが認識できれば便利である。しかしこのような際に音声認識による処理の実行が不可であることをユーザが認識できるような技術は従来なかった。

本発明は上記課題に鑑みてなされたものであって、その目的の１つは、音声認識による処理の実行が不可である場合に、受け付ける音声の認識が成功した際に音声認識による処理の実行が不可であることをユーザが認識できる制御装置、制御方法、プログラム及び情報記憶媒体を提供することにある。

上記課題を解決するために、本発明に係る制御装置は、音声を受け付ける音声受付部と、前記音声の認識結果に応じた処理を実行する実行部と、音声認識による処理の実行が不可であることを表す情報が出力されるよう制御する出力制御部と、を含み、前記音声の認識の成功に応じて、当該音声の認識結果に応じた処理の実行、又は、音声認識による処理の実行が不可であることを表す情報の出力制御、のいずれかが行われる。

また、本発明に係る制御方法は、音声を受け付けるステップと、前記音声の認識結果に応じた処理を実行するステップと、音声認識による処理の実行が不可であることを表す情報が出力されるよう制御するステップと、を含み、前記音声の認識の成功に応じて、当該音声の認識結果に応じた処理の実行、又は、音声認識による処理の実行が不可であることを表す情報の出力制御、のいずれかが行われる。

また、本発明に係るプログラムは、音声を受け付ける手順、前記音声の認識結果に応じた処理を実行する手順、音声認識による処理の実行が不可であることを表す情報が出力されるよう制御する手順、をコンピュータに実行させ、前記音声の認識の成功に応じて、当該音声の認識結果に応じた処理の実行、又は、音声認識による処理の実行が不可であることを表す情報の出力制御、のいずれかが行われる。

また、本発明に係る情報記憶媒体は、音声を受け付ける手順、前記音声の認識結果に応じた処理を実行する手順、音声認識による処理の実行が不可であることを表す情報が出力されるよう制御する手順、をコンピュータに実行させ、前記音声の認識の成功に応じて、当該音声の認識結果に応じた処理の実行、又は、音声認識による処理の実行が不可であることを表す情報の出力制御、のいずれかが行われるプログラムを記憶したコンピュータ読み取り可能な情報記憶媒体である。

本発明の一態様では、前記音声の認識結果に応じた処理の実行として、入力すべき音声を案内する情報の出力制御が行われる。

また、本発明の一態様では、音声認識による処理の実行の可否を制御する実行可否制御部、をさらに含み、前記出力制御部は、前記音声の認識が成功した際に、音声認識による処理の実行が不可となるよう制御される場合は当該認識の成功に応じて音声認識による処理の実行が不可であることを表す情報が出力されるよう制御する。

この態様では、実行されているプログラムから音声認識による処理の実行の可否を制御する制御情報を受け付ける制御情報受付部、をさらに含み、前記実行可否制御部は、前記制御情報受付部が受け付ける前記制御情報に基づいて、前記音声の認識結果に応じた処理の実行の可否を制御してもよい。

さらに、前記制御情報受付部は、実行されている複数のプログラムから前記制御情報を受け付け、前記複数のプログラムのうちの少なくとも１つが、前記制御装置で実行されるシステムプログラムとは別に実行されるゲームプログラムであってもよい。

あるいは、前記出力制御部によって出力されるよう制御される、前記音声認識による処理の実行が不可であることを表す情報には、前記制御情報を出力したプログラムが示されていてもよい。

また、前記実行部は、コントローラから受け付ける操作入力に応じて、前記音声の認識結果に応じて実行されないよう制御されている処理を実行してもよい。

また、前記実行可否制御部は、複数のコマンドのうちの一部につき音声認識による当該コマンドに応じた処理の実行が不可となるよう制御し、前記出力制御部は、前記音声の認識結果として前記一部であるコマンドが特定される際に当該コマンドの特定に応じて当該コマンドに応じた処理が実行されないことを表す情報が出力されるよう制御してもよい。

本発明の一実施形態に係る情報処理システムの全体構成の一例を示す図である。本発明の一実施形態に係る情報処理装置のハードウェア構成の一例を示す図である。プレイ画面の一例を示す図である。プレイ画面の一例を示す図である。プレイ画面の一例を示す図である。本発明の一実施形態に係る情報処理装置で動作するプログラムの一例を説明する説明図である。制御情報の値とボイスコマンド実行可否情報の値との関係の一例を示す図である。本発明の一実施形態に係る情報処理装置で実現される機能の一例を示す機能ブロック図である。本発明の一実施形態に係る情報処理装置で行われる処理の流れの一例を示すフロー図である。

以下、本発明の一実施形態について図面に基づき詳細に説明する。

図１は、本発明の一実施形態に係る情報処理システム１０の全体構成の一例を示す図である。図１に示すように、本実施形態に係る情報処理システム１０は、情報処理装置１２とディスプレイ１４とカメラマイクユニット１６とコントローラ１８とを含んでいる。

本実施形態に係る情報処理装置１２は、例えばゲームコンソールなどといったエンタテインメント装置等のコンピュータであり、例えば図２に示すように、制御部２０、記憶部２２、通信部２４、入出力部２６を含んでいる。制御部２０は、例えば情報処理装置１２にインストールされるプログラムに従って動作するＣＰＵ等のプログラム制御デバイスである。本実施形態に係る制御部２０には、ＣＰＵから供給されるグラフィックスコマンドやデータに基づいてフレームバッファに画像を描画するＧＰＵ（Graphics Processing Unit）も含まれている。記憶部２２は、例えばＲＯＭやＲＡＭ等の記憶素子やハードディスクドライブなどである。記憶部２２には、制御部２０によって実行されるプログラムなどが記憶される。また、本実施形態に係る記憶部２２には、ＧＰＵにより画像が描画されるフレームバッファの領域が確保されている。通信部２４は、例えばイーサネット（登録商標）モジュールや無線ＬＡＮモジュールなどの通信インタフェースなどである。入出力部２６は、ＨＤＭＩ（登録商標）（High-Definition Multimedia Interface）ポートやＵＳＢポートなどの入出力ポートである。

本実施形態に係るディスプレイ１４は、液晶ディスプレイ等であり、情報処理装置１２が生成する画面などを表示させる。また、本実施形態に係るディスプレイ１４は、情報処理装置１２が生成する音声データが表す音声を出力するスピーカも備えている。本実施形態に係るカメラマイクユニット１６は、例えば被写体を撮像した画像を情報処理装置１２に出力するカメラ１６ａ及び周囲の音声を取得して当該音声を音声データに変換して情報処理装置１２に出力するマイク１６ｂを含んでいる。

情報処理装置１２とディスプレイ１４とは、例えば、ＡＶケーブルや、ＨＤＭＩケーブル等を介して接続されている。情報処理装置１２とカメラマイクユニット１６とは、例えば、ＵＳＢケーブルや、ＡＶケーブルや、ＨＤＭＩケーブル等を介して接続されている。

本実施形態に係るコントローラ１８は、情報処理装置１２に対する操作入力を行うための操作入力装置である。本実施形態に係るコントローラ１８には、例えばボタン、タッチパネル、操作スティックなどの操作子が設けられている。また、本実施形態に係るコントローラ１８は、角速度を検出するジャイロセンサ、加速度を検出する加速度センサ等のセンサを備えている。また、本実施形態に係るコントローラ１８はジャックを備えており、当該ジャックにマイクが備えるプラグを差し込むことにより、当該マイクによる音声入力も行うことができるようになっている。コントローラ１８に差し込まれたマイクに入力された音声はコントローラ１８で音声データに変換されて情報処理装置１２に出力される。

本実施形態では、カメラマイクユニット１６が備えるマイク１６ｂ又はコントローラ１８に接続されたマイクにユーザが音声を入力することにより、情報処理装置１２は当該音声を認識する。そして本実施形態に係る情報処理装置１２では、認識が成功した場合に、当該情報処理装置１２に入力される音声（当該情報処理装置１２が受け付ける音声）の認識結果に応じたコマンドの特定が可能となっている。そして本実施形態に係る情報処理装置１２は、特定されたコマンドに応じた処理を実行する。このようにして本実施形態では、ユーザは音声によって情報処理装置１２に対する操作を行えるようになっている。なお本実施形態では、コントローラ１８のジャックにマイクのプラグが差し込まれている際には、当該マイクに入力された音声の認識結果をカメラマイクユニット１６が備えるマイク１６ｂに入力された音声の認識結果よりも優先して取り扱うようになっている。

また本実施形態に係る情報処理装置１２は、音声による所定のコマンドの入力が不可能な通常状態又は音声による所定のコマンドの入力が可能な音声認識状態のいずれかの実行状態で各種処理を実行する。そしてユーザは情報処理装置１２の実行状態を適宜切り替えることができるようになっている。

またユーザは、ボタンを押下したり、操作スティックを傾けたりすることで、コントローラ１８を用いて各種の操作入力を行うことができる。そして本実施形態では、コントローラ１８は、操作入力に対応付けられる入力データを情報処理装置１２に出力する。

また、本実施形態に係るコントローラ１８は、ＵＳＢポートを備えている。コントローラ１８は、ＵＳＢケーブルで情報処理装置１２と接続することで、入出力部２６を介して有線で入力データを情報処理装置１２に出力することができる。また、本実施形態に係るコントローラ１８は、無線通信モジュール等を備えており、通信部２４を介して無線で入力データを情報処理装置１２に出力することができるようにもなっている。

図３は、本実施形態に係る情報処理装置１２のユーザがプレイするゲームのプレイ内容を表すプレイ画面３０の一例を示す図である。本実施形態では、図３に例示するプレイ画面３０がディスプレイ１４に表示されている際は、情報処理装置１２は上述の通常状態である。

ここで例えば情報処理装置１２が、例えば「音声認識開始」などといった、音声認識を開始するための所与の語句を表す音声を受け付けたとする。以下、音声認識を開始するための音声を表す所与の語句をマジックワードと呼ぶこととする。すると本実施形態では、表示されているプレイ画面３０が、図４に示す状態に切り替わる。図４に示す状態では、プレイ画面３０に、入力すべき音声をユーザに案内するための音声入力案内画像３２が配置されている。音声入力案内画像３２には、コマンドを表す語句が配置されている。本実施形態では、このようにプレイ画面３０に音声入力案内画像３２が配置されている際には、情報処理装置１２は上述の音声認識状態である。

本実施形態では、プレイ画面３０に音声入力案内画像３２が配置されている際には、ユーザが音声入力案内画像３２に配置されている語句を表す音声を入力すると、情報処理装置１２は、当該音声の認識結果に基づいて当該音声が表すコマンドを特定する。そして情報処理装置１２は、当該コマンドに応じた処理を実行する。例えば図４の例では情報処理装置１２が「ホーム画面」との語句を表す音声を受け付けた際には、ディスプレイ１４に表示された画面は、情報処理装置１２で実行されるプログラムを選択するメニューが配置されたホーム画面に切り替わる。

また、本実施形態に係る情報処理装置１２では、音声入力案内画像３２に語句が配置されていないコマンドについても当該コマンドを表す音声が入力された場合には、当該コマンドに応じた処理が実行される。例えば図４に例示するプレイ画面３０が表示されている際に「スクリーンショットを撮る」との語句を表す音声を受け付けた際には、プレイ画面３０の表示内容を静止画像としてキャプチャしたキャプチャ画像が情報処理装置１２の記憶部２２に保存される。

また本実施形態に係る情報処理装置１２は音声認識による処理の実行が不可となるよう制御できるようになっている。このように制御されている場合には、図３に例示するプレイ画面３０が表示されている際に情報処理装置１２がマジックワードを表す音声を受け付けると、表示されているプレイ画面３０は図５に示す状態に切り替わる。図５に示す状態ではプレイ画面３０には、入力すべき音声をユーザに案内するための音声入力案内画像３２は配置されず、その代わりに、音声認識による処理の実行が不可であることを表す案内情報３４が配置される。この場合は、情報処理装置１２は音声認識状態とはならない。そのため情報処理装置１２が例えば「ホーム画面」などといった所定のコマンドを表す音声を受け付けても、当該コマンドに応じた処理は実行されない。

また例えば音声認識による処理の実行が不可となるよう制御されている場合に、図３に例示するプレイ画面３０が表示されている際に「ホーム画面」などといった所定のコマンドを表す音声を受け付けたとする。この場合についてもマジックワードを表す音声が入力された場合と同様、図５に例示するように表示されているプレイ画面３０に案内情報３４が配置される。そしてこの場合は、当該コマンドに応じた処理は実行されない。

以下、図６を参照しながら上述の制御についてさらに説明する。

図６は、本実施形態に係る情報処理装置１２で動作するプログラムの一例を説明する説明図である。図６に例示するように、本実施形態に係る情報処理装置１２には、システムプログラム４０とゲームプログラム４２とがインストールされている。本実施形態ではシステムプログラム４０とゲームプログラム４２とは独立しており、ゲームプログラム４２はシステムプログラム４０上で動作する。本実施形態では上述のホーム画面は、情報処理装置１２がシステムプログラム４０を実行することで生成されてディスプレイ１４に表示される。また本実施形態では図３〜図５に例示するプレイ画面３０は、情報処理装置１２がゲームプログラム４２を実行することにより生成されてディスプレイ１４に表示される。

図６に示すように、本実施形態に係るシステムプログラム４０は、例えば、システムアプリケーションモジュール５０、フォーカス管理モジュール５２、ポート管理モジュール５４、オーディオドライバ５６、音声認識エンジン５８、出力モジュール６０、を含んで構成されている。なお本実施形態に係るシステムプログラム４０には、他のモジュールが含まれていてもよい。

システムアプリケーションモジュール５０は、本実施形態では例えば、システムプログラム４０の一部として含まれているアプリケーションプログラムである。そしてシステムアプリケーションモジュール５０は、本実施形態では例えば、ボイスチャットサブモジュール５０ａと、ボイスメッセージサブモジュール５０ｂと、を含んでいる。ボイスチャットサブモジュール５０ａは、情報処理装置１２のユーザが他のユーザとの音声によるチャットを行うためのモジュールである。ボイスメッセージサブモジュール５０ｂは、マイクから入力される音声の録音や、録音された音声の再生を行うためのモジュールである。

そして本実施形態に係るボイスチャットサブモジュール５０ａは、ボイスチャットサブモジュール５０ａが実行されている際に、ボイスチャットサブモジュール５０ａの実行状況を示すステータス情報をポート管理モジュール５４に出力する。本実施形態では例えば、ボイスチャットサブモジュール５０ａは、当該ボイスチャットサブモジュール５０ａによるユーザ間のボイスチャットが開始された際に値が「１」であるステータス情報をポート管理モジュール５４に出力する。一方、ボイスチャットサブモジュール５０ａは、当該ボイスチャットサブモジュール５０ａによるユーザ間のボイスチャットが終了された際に値が「０」であるステータス情報をポート管理モジュール５４に出力する。

また本実施形態に係るボイスメッセージサブモジュール５０ｂは、ボイスメッセージサブモジュール５０ｂが実行されている際に、ボイスメッセージサブモジュール５０ｂの実行状況を示すステータス情報をポート管理モジュール５４に出力する。本実施形態では例えば、ボイスメッセージサブモジュール５０ｂは、当該ボイスメッセージサブモジュール５０ｂによる音声の録音又は再生が開始された際に値が「１」であるステータス情報をポート管理モジュール５４に出力する。一方、ボイスメッセージサブモジュール５０ｂは、当該ボイスメッセージサブモジュール５０ｂによる音声の録音又は再生が終了された際に値が「０」であるステータス情報をポート管理モジュール５４に出力する。

フォーカス管理モジュール５２は、本実施形態では例えば、画面のフォーカス状態を管理するためのプログラムである。本実施形態に係る情報処理装置１２は、システムプログラム４０とゲームプログラム４２の両方を同時に実行することが可能である。この場合本実施形態では、いずれか一方のプログラムが生成する画面がフォーカスされる。例えば、図３〜図５に例示するプレイ画面３０がディスプレイ１４に表示されている場合は、当該プレイ画面３０がフォーカスされている状態であるといえる。そして本実施形態では、ユーザが所定の操作を行うことで、ゲームプログラム４２が生成する画面をフォーカスさせるか、システムプログラム４０が生成する画面をフォーカスさせるかを切り替えることができるようになっている。また本実施形態では、画面がフォーカスされているプログラムはフォアグラウンドで実行され、画面がフォーカスされていないプログラムはバックグラウンドで実行される。

そしてフォーカス管理モジュール５２は、本実施形態では例えば、画面のフォーカス状態を示すフォーカス状態情報をポート管理モジュール５４に出力する。本実施形態では例えば、フォーカス管理モジュール５２は、ゲームプログラム４２が生成する画面がフォーカスされた際に値が「１」であるフォーカス状態情報をポート管理モジュールに出力する。一方、フォーカス管理モジュール５２は、システムプログラム４０が生成する画面がフォーカスされた際に値が「０」であるフォーカス状態情報をポート管理モジュールに出力する。

また本実施形態では、ゲームプログラム４２は、音声認識による処理の実行が可又は不可となるよう要求する可不可要求情報をポート管理モジュール５４に出力できるようになっている。本実施形態では例えば、ゲームプログラム４２は、音声認識による処理の実行が不可となるよう要求する際には値が「１」である可不可要求情報をポート管理モジュール５４に出力する。一方、ゲームプログラム４２は、音声認識による処理の実行が可となるよう要求する際には値が「０」である可不可要求情報をポート管理モジュール５４に出力する。例えばゲームプログラム４２によっては、実行されるゲームの世界観を保つために音声の認識結果に応じた処理が実行されないことが望ましい場合がある。また例えば音声の認識結果に応じた処理の実行が可能なゲームプログラム４２については、システムプログラム４０とコマンドが競合するおそれがある。例えば以上のような、音声の認識結果に応じた処理が実行されないことが望ましい状況が発生した際には、値が「１」である可不可要求情報がポート管理モジュール５４に出力されるようにすればよい。また例えば音声の認識結果に応じた処理が実行されないことが望ましい状況ではなくなった際には、値が「０」である可不可要求情報がポート管理モジュール５４に出力されるようにすればよい。なお本実施形態では、値が「１」又は「０」である可不可要求情報が出力されるタイミングはゲームプログラム４２において自由に実装できるようになっている。

ポート管理モジュール５４は、本実施形態では例えば、音声認識による処理の実行の可否を制御する制御情報を受け付けるプログラムである。例えば上述の、ステータス情報、フォーカス状態情報、可不可要求情報が、当該制御情報に相当する。

本実施形態では、ポート管理モジュール５４は、情報処理装置１２で実行されているプログラムやモジュールから出力される制御情報を受け付けた際に、当該制御情報を保持する。そしてポート管理モジュール５４は、保持されている制御情報とは異なる値の制御情報を受け付けた際には、保持されている制御情報の値を受け付けた制御情報の値に更新する。

そのため本実施形態では例えば、ユーザ間のボイスチャットが行われている期間は、ボイスチャットサブモジュール５０ａから出力されたステータス情報の値として「１」が保持される。一方、ユーザ間のボイスチャットが行われていない期間は、ボイスチャットサブモジュール５０ａから出力されたステータス情報の値として「０」が保持される。また例えば、音声の録音又は再生が行われている期間は、ボイスメッセージサブモジュール５０ｂから出力されたステータス情報の値として「１」が保持される。一方音声の録音又は再生が行われていない期間は、ボイスメッセージサブモジュール５０ｂから出力されたステータス情報の値として「０」が保持される。

また本実施形態では例えば、ゲームプログラム４２が生成する画面がフォーカスされている状態である期間は、フォーカス状態情報の値として「１」が保持される。一方、システムプログラム４０が生成する画面がフォーカスされている状態である期間は、フォーカス状態情報の値として「０」が保持される。

また本実施形態では例えば、ゲームプログラム４２から音声認識による処理の実行が不可となるよう要求されている期間は、可不可要求情報の値として「１」が保持される。一方、ゲームプログラム４２から音声認識による処理の実行が可となるよう要求されている期間は、可不可要求情報の値として「０」が保持される。

そして本実施形態では、保持されているいずれかの制御情報の値の更新に応じて、保持されている制御情報の値に基づくボイスコマンド実行可否情報の値の決定、及び、決定されたボイスコマンド実行可否情報の値のオーディオドライバ５６への出力が行われる。本実施形態では、値が「１」であるボイスコマンド実行可否情報は、音声認識による処理の実行が不可であることを示し、値が「０」であるボイスコマンド実行可否情報は、音声認識による処理の実行が可であることを示すこととする。本実施形態では、値が「１」であるボイスコマンド実行可否情報が出力されると、後述するように音声認識による処理の実行が不可となるよう制御される。一方、値が「０」であるボイスコマンド実行可否情報が出力されると、後述するように音声認識による処理の実行が可となるよう制御される。

図７は、制御情報の値とボイスコマンド実行可否情報の値との関係の一例を示す図である。図７に示すように本実施形態では、保持されているステータス情報の値のうち少なくとも１つが「１」である場合には、ボイスコマンド実行可否情報の値は「１」と決定される。このようにして本実施形態では、ユーザ間のボイスチャット、音声の録音、音声の再生のいずれかが行われている期間は、音声認識による処理の実行が不可となるよう制御されることとなる。

また図７に示すように本実施形態では、保持されているステータス情報の値がすべて０である場合には、保持されているフォーカス状態情報の値と可不可要求情報の値の両方が「１」である場合に、ボイスコマンド実行可否情報の値は「１」と決定される。このようにして本実施形態では、ゲームプログラム４２が生成する画面がフォーカスされており、ゲームプログラム４２から音声認識による処理の実行が不可となるよう要求されている場合には、音声認識による処理の実行が不可となるよう制御されることとなる。

そして本実施形態では、保持されているステータス情報の値がすべて０であり、保持されているフォーカス状態情報の値と可不可要求情報の値のいずれかが「０」である場合には、ボイスコマンド実行可否情報の値は「０」と決定される。

オーディオドライバ５６は、本実施形態では例えば、情報処理装置１２にマイク１６ｂやコントローラ１８に接続されたマイクを介して入力された音声を受け付けるドライバである。本実施形態では例えば、マイク１６ｂやコントローラ１８に接続されたマイクは、受け付けた音声を音声データに変換する。そしてオーディオドライバ５６は、このようにして変換された音声データを受け付ける。そしてオーディオドライバ５６は、受け付けた音声データを音声認識エンジン５８に出力する。またオーディオドライバ５６は、ポート管理モジュール５４からボイスコマンド実行可否情報を受け付けた際に、当該ボイスコマンド実行可否情報を音声認識エンジン５８に出力する。

なお本実施形態では、オーディオドライバ５６は、受け付けた音声データを、当該音声データを利用するプログラムにも出力する。当該音声データは、ここでは例えば、ボイスチャットサブモジュール５０ａやボイスメッセージサブモジュール５０ｂに出力される。ボイスチャットサブモジュール５０ａは、例えばユーザ間のボイスチャットが行われている期間には、オーディオドライバ５６から受け付ける音声データを例えばボイスチャットの相手であるユーザが使用する情報処理装置１２に出力する。またボイスメッセージサブモジュール５０ｂは、例えば音声の録音が行われている期間は、オーディオドライバ５６から受け付ける音声データを記憶部２２に記憶させる。また例えばオーディオドライバ５６は、受け付けた音声データをゲームプログラム４２に出力してもよい。そしてゲームプログラム４２が、オーディオドライバ５６から受け付ける音声データを用いて当該ゲームプログラム４２における各種処理を実行してもよい。

音声認識エンジン５８は、例えば公知の音声認識エンジン５８であって、オーディオドライバ５６から受け付けた音声データを認識して、当該音声データが示す音声の認識が成功した場合には、音声の認識結果に応じたコマンドを特定する。また音声認識エンジン５８は、オーディオドライバ５６から出力されるボイスコマンド実行可否情報を受け付ける。

そして音声認識エンジン５８は、音声の認識が成功した際に、受け付けたボイスコマンド実行可否情報の値が「１」である場合は、音声認識による処理の実行が不可であることを表す情報が出力されるよう制御する出力制御情報を出力モジュール６０に出力する。

一方、音声認識エンジン５８は、音声の認識が成功した際に、受け付けたボイスコマンド実行可否情報の値が「０」である場合は、特定されたコマンドを示すコマンド情報をポート管理モジュール５４に出力する。

本実施形態では、ポート管理モジュール５４は、コマンド情報に基づいて当該コマンド情報が示すコマンドに応じた処理を実行すべきプログラムを特定可能となっている。そして本実施形態では、ポート管理モジュール５４は、コマンド情報を音声認識エンジン５８から受け付けると、当該コマンド情報が示すコマンドに応じた処理を実行すべきプログラムに当該コマンド情報を出力する。そして当該コマンド情報をポート管理モジュール５４から受け付けたプログラムは、当該コマンド情報が示すコマンドに応じた処理を実行する。

出力モジュール６０は、本実施形態では例えば、音声認識エンジン５８から上述の出力制御情報を受け付けた際に、音声認識による処理の実行が不可であることを表す情報が出力されるよう制御するプログラムである。出力モジュール６０は、例えば、音声認識エンジン５８から上述の出力制御情報を受け付けた際に、図５に例示する案内情報３４がディスプレイ１４に表示されるよう制御する。なお出力モジュール６０が、音声認識エンジン５８から上述の出力制御情報を受け付けた際に、音声認識による処理の実行が不可であることを表す音声を例えばディスプレイ１４が備えるスピーカから音声出力するようにしてもよい。

以上のようにして本実施形態によれば、音声認識による処理の実行が不可である場合に、受け付ける音声の認識が成功した際に音声認識による処理の実行が不可であることをユーザが認識できることとなる。

なお、ポート管理モジュール５４が、ボイスコマンド実行可否情報を、オーディオドライバ５６を経由せずに音声認識エンジン５８に直接出力するようにしてもよい。

また例えば、音声認識エンジン５８がシステムアプリケーションモジュール５０からステータス情報を直接受け付けてもよい。また例えば音声認識エンジン５８がフォーカス管理モジュール５２からフォーカス状態情報を直接受け付けてもよい。また例えば音声認識エンジン５８がゲームプログラム４２から可不可要求情報を直接受け付けてもよい。

以下、音声認識による処理の実行が不可であることをユーザに認識させる制御に関して、情報処理装置１２で実装される機能及び情報処理装置１２で行われる処理についてさらに説明する。

図８は、音声認識による処理の実行が不可であることをユーザに認識させる制御に関して、本実施形態に係る情報処理装置１２で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係る情報処理装置１２で、図８に示す機能のすべてが実装される必要はなく、また、図８に示す機能以外の機能が実装されていても構わない。

本実施形態に係る情報処理装置１２は、図８に示すように、機能的には例えば、制御情報受付部７０、実行可否制御部７２、音声受付部７４、音声認識部７６、実行部７８、出力制御部８０、を含んでいる。制御情報受付部７０、実行可否制御部７２、音声認識部７６、実行部７８は、制御部２０を主として実装される。音声受付部７４は、入出力部２６を主として実装される。出力制御部８０は、入出力部２６を主として実装される。

制御情報受付部７０、実行可否制御部７２の機能は、例えば図６におけるポート管理モジュール５４で実装される機能に相当する。音声受付部７４の機能は、例えば図６におけるオーディオドライバ５６で実装される機能に相当する。音声認識部７６の機能は、例えば図６における音声認識エンジン５８で実装される機能に相当する。実行部７８の機能は、図６におけるポート管理モジュール５４によって出力されるコマンド情報の出力先であるプログラムで実装される機能に相当する。出力制御部８０の機能は、例えば図６における出力モジュール６０で実装される機能に相当する。

そして、以上の機能は、コンピュータである情報処理装置１２にインストールされた、以上の機能に対応する指令を含むプログラムを制御部２０で実行することにより実装されている。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどの通信手段を介して情報処理装置１２に供給される。

制御情報受付部７０は、本実施形態では、情報処理装置１２で実行されているプログラムから音声認識による処理の実行の可否を制御する制御情報を受け付ける。制御情報受付部７０は、例えばステータス情報、フォーカス情報、可不可要求情報を受け付ける。このように、制御情報受付部７０は、例えばボイスチャットサブモジュール５０ａ、ボイスメッセージサブモジュール５０ｂ、フォーカス管理モジュール５２、ゲームプログラム４２、などといった、実行されている複数のプログラムから制御情報を受け付けてもよい。またこのように、制御情報を出力する複数のプログラムのうちの少なくとも１つが、情報処理装置１２で実行されるシステムプログラム４０とは別に実行されるゲームプログラム４２であってもよい。

実行可否制御部７２は、本実施形態では、音声認識による処理の実行の可否を制御する。実行可否制御部７２は、制御情報受付部７０が受け付ける制御情報に基づいて、音声認識による処理の実行の可否を制御してもよい。こうすれば、情報処理装置１２で実行されているプログラムが音声認識による処理の実行の可否を制御できることとなる。実行可否制御部７２は、例えば上述したように、ボイスコマンド実行可否情報を生成して音声認識部７６に出力する。

音声受付部７４は、本実施形態では、音声を受け付ける。

音声認識部７６は、本実施形態では、音声受付部７４が受け付ける音声を認識する。本実施形態では、音声認識部７６は、音声の認識に成功した際には、実行可否制御部７２による制御に従って、上述の出力制御情報の出力制御部８０への出力、又は、上述のコマンド情報の実行部７８への出力を行う。本実施形態では、例えば、実行可否制御部７２により音声認識による処理の実行が不可となるよう制御される場合は、出力制御情報を出力制御部８０に出力する。一方、実行可否制御部７２により音声認識による処理の実行が可となるよう制御される場合は、音声の認識結果に応じたコマンドを特定して、当該特定されるコマンドを示すコマンド情報を実行部７８に出力する。

実行部７８は、実行可否制御部７２により音声認識による処理の実行が可となるよう制御される場合は、音声認識部７６による音声の認識が成功した際に、音声の認識結果に応じた処理を実行する。実行部７８は、例えば音声認識部７６からコマンド情報を受け付ける場合は、当該コマンド情報が示すコマンドに応じた処理を実行する。

なお、音声による入力が可能なコマンドが、例えば所定のボタンの押下操作などといったコントローラ１８に対する操作によっても入力可能であっても構わない。そして、実行部７８が、コントローラ１８から受け付ける操作入力に応じて、音声による入力も可能なコマンドに応じた処理を実行してもよい。また実行可否制御部７２により音声認識による処理の実行が不可となるよう制御される場合に、実行部７８が、コントローラ１８から受け付ける操作入力に応じて、音声の認識結果に応じて実行されないよう制御されている処理を実行してもよい。また実行可否制御部７２により音声認識による処理の実行が可となるよう制御される場合に、実行部７８が、コントローラ１８から受け付ける操作入力に応じて、音声による入力も可能なコマンドに応じた処理を実行してもよい。

出力制御部８０は、音声認識部７６による音声の認識が成功した際に、音声認識による処理の実行が不可となるよう制御される場合は、当該認識の成功に応じて音声認識による処理の実行が不可であることを表す情報が出力されるよう制御する。出力制御部８０は、例えば、音声認識部７６から出力制御情報を受け付ける場合は、図５に例示する案内情報３４をディスプレイ１４に表示させる。なお出力制御部８０が出力されるよう制御する案内情報に、制御情報を出力したプログラムが示されていてもよい。こうすれば、ユーザは、音声認識による処理の実行が不可である原因となっているプログラムを認識することができる。

なお実行可否制御部７２は、複数のコマンドのうちの一部につき音声認識による当該コマンドに応じた処理の実行が不可となるよう制御してもよい。また出力制御部８０は、処理の実行が不可となるよう制御されているコマンドが音声の認識結果として特定される際に当該コマンドの特定に応じて当該コマンドに応じた処理が実行されないことを表す情報が出力されるよう制御してもよい。例えば図６の例において、音声認識エンジン５８がボイスチャットサブモジュール５０ａから値が「１」であるステータス情報を直接受け付けたとする。この場合に、ボイスチャットサブモジュール５０ａで実行される処理については、音声認識に応じた処理の実行が不可となるよう制御されてもよい。そして他のプログラムで実行される処理については、音声認識に応じた処理の実行が可となるよう制御されてもよい。こうすれば、一部のコマンドについて音声認識に応じた処理の実行が不可となるよう制御されても他のコマンドについては音声認識による入力が可能となる。

ここで、音声受付部７４が受け付ける音声の音声認識部７６による認識が成功した場合に、本実施形態に係る情報処理装置１２で行われる処理の流れの一例を、図９に例示するフロー図を参照しながら説明する。

まず、音声認識部７６は、実行可否制御部７２により音声認識による処理の実行が不可となるよう制御されているか否かを確認する（Ｓ１０１）。Ｓ１０１に示す処理では、上述の例では、音声認識エンジン５８がオーディオドライバ５６から受け付けたボイスコマンド実行可否情報の値が「１」であるか「０」であるかを確認する。

そして、音声認識による処理の実行が不可となるよう制御されている場合は（Ｓ１０１：Ｙ）、出力制御部８０が、図５に例示する案内情報３４などといった、音声認識による処理の実行が不可であることを表す情報が出力されるよう制御する（Ｓ１０２）。そして本処理例に示す処理は終了される。

一方、実行可否制御部７２により音声認識による処理の実行が可となるよう制御されている場合は（Ｓ１０１：Ｎ）、音声認識部７６が、音声認識が成功した音声に応じたコマンドを特定する（Ｓ１０３）。そして、実行部７８が、Ｓ１０３に示す処理で特定されたコマンドに応じた処理を実行する（Ｓ１０４）。そして本処理例に示す処理は終了される。

なお、本発明は上述の実施形態に限定されるものではない。

例えば本実施形態は、ユーザが、当該ユーザがプレイしたゲームや、他のユーザがプレイしているゲームあるいはプレイしたゲームなどを視聴している場面に応用されてもよい。例えばユーザがゲームのプレイを視聴している際に、音声の認識結果に応じた処理が実行されないことが望ましいシーンが表示されることがある。例えばこの状況で受け付ける音声の認識が成功した際に、上述のようにして音声認識による処理の実行が不可であることをユーザが認識できるようにしてもよい。

また例えば、情報処理装置１２が、カメラ１６ａやマイク１６ｂを備えた携帯型ゲーム装置であってもよい。また、情報処理装置１２は、パーソナルコンピュータ、タブレット端末、スマートフォン、などであっても構わない。

また例えば、情報処理装置１２が、複数のチャンネルの番組が表示可能で音声によって表示されるチャンネルを切り替えることができるヘッドマウントディスプレイであっても構わない。例えば当該ヘッドマウントディスプレイが音声を受け付け、当該音声の認識に成功したとする。この場合に、音声認識による処理の実行が不可となるよう制御される場合は当該認識の成功に応じて音声認識によるチャンネルを切り替えることが不可であることを表す情報が当該ヘッドマウントディスプレイに出力されるようにしてもよい。

また、情報処理装置１２、ディスプレイ１４、カメラマイクユニット１６、の役割分担は上述のものに限定されない。また、情報処理装置１２が複数の筐体から構成されていてもよい。

また、上記の具体的な文字列や図面中の具体的な文字列は例示であり、これらの文字列には限定されない。

Claims

音声を受け付ける音声受付部と、
前記音声の認識結果に応じた処理を実行する実行部と、
音声認識による処理の実行が不可であることを表す情報が出力されるよう制御する出力制御部と、を含み、
前記音声の認識の成功に応じて、当該音声の認識結果に応じた処理の実行、又は、音声認識による処理の実行が不可であることを表す情報の出力制御、のいずれかが行われる、
ことを特徴とする制御装置。
前記音声の認識結果に応じた処理の実行として、入力すべき音声を案内する情報の出力制御が行われる、
ことを特徴とする請求項１に記載の制御装置。
音声認識による処理の実行の可否を制御する実行可否制御部、をさらに含み、
前記出力制御部は、前記音声の認識が成功した際に、音声認識による処理の実行が不可となるよう制御される場合は当該認識の成功に応じて音声認識による処理の実行が不可であることを表す情報が出力されるよう制御する、
ことを特徴とする請求項１又は２に記載の制御装置。
実行されているプログラムから音声認識による処理の実行の可否を制御する制御情報を受け付ける制御情報受付部、をさらに含み、
前記実行可否制御部は、前記制御情報受付部が受け付ける前記制御情報に基づいて、前記音声の認識結果に応じた処理の実行の可否を制御する、
ことを特徴とする請求項３に記載の制御装置。
前記制御情報受付部は、実行されている複数のプログラムから前記制御情報を受け付け、
前記複数のプログラムのうちの少なくとも１つが、前記制御装置で実行されるシステムプログラムとは別に実行されるゲームプログラムである、
ことを特徴とする請求項４に記載の制御装置。
前記出力制御部によって出力されるよう制御される、前記音声認識による処理の実行が不可であることを表す情報には、前記制御情報を出力したプログラムが示されている、
ことを特徴とする請求項４又は５に記載の制御装置。
前記実行部は、コントローラから受け付ける操作入力に応じて、前記音声の認識結果に応じて実行されないよう制御されている処理を実行する、
ことを特徴とする請求項３から６のいずれか一項に記載の制御装置。
前記実行可否制御部は、複数のコマンドのうちの一部につき音声認識による当該コマンドに応じた処理の実行が不可となるよう制御し、
前記出力制御部は、前記音声の認識結果として前記一部であるコマンドが特定される際に当該コマンドの特定に応じて当該コマンドに応じた処理が実行されないことを表す情報が出力されるよう制御する、
ことを特徴とする請求項３から７のいずれか一項に記載の制御装置。
音声を受け付けるステップと、
前記音声の認識結果に応じた処理を実行するステップと、
音声認識による処理の実行が不可であることを表す情報が出力されるよう制御するステップと、を含み、
前記音声の認識の成功に応じて、当該音声の認識結果に応じた処理の実行、又は、音声認識による処理の実行が不可であることを表す情報の出力制御、のいずれかが行われる、
ことを特徴とする制御方法。
音声を受け付ける手順、
前記音声の認識結果に応じた処理を実行する手順、
音声認識による処理の実行が不可であることを表す情報が出力されるよう制御する手順、をコンピュータに実行させ、
前記音声の認識の成功に応じて、当該音声の認識結果に応じた処理の実行、又は、音声認識による処理の実行が不可であることを表す情報の出力制御、のいずれかが行われる、
ことを特徴とするプログラム。
音声を受け付ける手順、
前記音声の認識結果に応じた処理を実行する手順、
音声認識による処理の実行が不可であることを表す情報が出力されるよう制御する手順、をコンピュータに実行させ、
前記音声の認識の成功に応じて、当該音声の認識結果に応じた処理の実行、又は、音声認識による処理の実行が不可であることを表す情報の出力制御、のいずれかが行われる、
ことを特徴とするプログラムを記憶したコンピュータ読み取り可能な情報記憶媒体。