WO2020218094A1

WO2020218094A1 - 情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラム

Info

Publication number: WO2020218094A1
Application number: PCT/JP2020/016480
Authority: WO
Inventors: 徹小木曽
Original assignee: 株式会社ソニー・インタラクティブエンタテインメント
Priority date: 2019-04-26
Filing date: 2020-04-14
Publication date: 2020-10-29
Also published as: JP7170851B2; EP3960259A4; EP3960259A1; CN113710334B; CN113710334A; JPWO2020218094A1; US20220161128A1

Abstract

ユーザが装着、あるいは把持して用いる周辺装置に接続される情報処理装置であって、上記周辺装置の少なくとも一つは、周囲の音声を集音し、当該集音した音声を表す音声信号を出力するデバイスを備え、情報処理装置が、当該ユーザが装着あるいは把持する周辺装置が出力する音声信号を受け入れ、受け入れた音声信号のうち、所定の規則に基づいて少なくとも一部の音声信号を選択し、当該選択した音声信号を出力し、その他の音声信号を遮断する情報処理装置である。

Description

情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラム

　本発明は、情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラムに関する。

　音声による制御やチャットの処理のため、近年では家庭用ゲーム機やパーソナルコンピュータ等の情報処理装置に対し、音声入力可能な周辺装置が複数接続される場合がある。

　しかしながら、このように複数の音声入力デバイスが存在する現場において、ユーザが発声した音声等を処理すると、各音声入力デバイスが同じ音を集音するタイミングのずれや各音声入力デバイスの特性の相違から、意図しない音声となってしまう場合がある。

　例えばネットワークを介して行われるゲームに参加する複数のプレイヤのうち、一部の数人のプレイヤが一箇所に集まっている場合、各プレイヤ間でチャットを行おうとするときには、次のような問題が生じる。

　すなわち、集まっているプレイヤの一人が発声した音声は、当該発声したプレイヤの音声入力デバイス（例えばマイク）により集音されるだけでなく、隣接してプレイしている別のプレイヤの音声入力デバイスにも集音されてしまう場合がある。この場合、各プレイヤの音声を単にミキシング処理したのでは、音声がこもってしまったり、エコーが生じるなどして、聞き取りにくい音となってしまう。

　本発明は上記実情に鑑みて為されたもので、上述のような事情に考慮した複数の音声入力デバイスの制御を実現できる情報処理システム、情報処理装置、情報処理装置の制御方法、及びプログラムを提供することを、その目的の一つとする。

　上記従来例の問題点を解決する本発明の一態様は、ユーザが装着、あるいは把持して用いる周辺装置と、情報処理装置とを含む情報処理システムであって、前記周辺装置の少なくとも一つは、周囲の音声を集音し、当該集音した音声を表す音声信号を出力する音声入力手段を備え、前記情報処理装置は、ユーザが装着あるいは把持する前記少なくとも一つの周辺装置が出力する音声信号を受け入れる手段と、前記受け入れた音声信号のうち、所定の規則に基づいて少なくとも一部の音声信号を選択する選択手段と、前記選択手段が選択した音声信号を出力し、その他の音声信号を遮断する手段と、を含むこととしたものである。

　本発明によると、音声がこもったり、エコーが生じたりして、聞き取りにくい音となってしまうことを防止して、複数の音声入力周辺装置の制御を実現できる。

本発明の実施の形態に係る情報処理システムの構成例を表すブロック図である。本発明の実施の形態に係る情報処理装置の音声入力制御部の構成例を表すブロック図である。本発明の実施の形態に係る情報処理装置の制御部の例を表す機能ブロック図である。本発明の実施の形態に係る情報処理システムの動作の例を表す説明図である。

　本発明の実施の形態について図面を参照しながら説明する。本発明の実施の形態に係る情報処理システム１は、図１に例示するように、家庭用ゲーム機やＰＣ等の情報処理装置１０と、コントローラ２０とを含んで構成される。ここでコントローラ２０は複数あってもよい。またこの情報処理システム１には、チャットコントローラ３０や、ヘッドセット４０、あるいはヘッドマウントディスプレイ５０等、それぞれが音声入力デバイスを備えた複数の周辺装置がさらに含まれ、情報処理装置１０に接続されていてもよい。

　情報処理装置１０は、図１に例示したように、制御部１１と、記憶部１２と、操作制御部１３と、出力制御部１４と、音声入力制御部１５と、通信部１６とを含んで構成される。またコントローラ２０は、操作部２１と、マイク２２と、通信部２３と、表示部２４と、音声出力部２５とを含む。さらにチャットコントローラ３０は、操作部３１と、マイク３２と、通信部３３と、表示部３４とを含んでなる。

　情報処理装置１０の制御部１１は、ＣＰＵ等のプログラム制御デバイスであり、記憶部１２に格納されたプログラムに従って動作する。本実施の形態では、この制御部１１は、複数のアプリケーションプログラムを並列的に実行（いわゆるマルチタスキング処理を）しているものとする。

　具体的に情報処理装置１０が家庭用ゲーム機である場合、制御部１１は、ゲームのアプリケーションや、ネットワークを介して音声信号を授受するチャットアプリケーション等種々のアプリケーションプログラムを実行している。またこの制御部１１は、システムプログラムを実行しており、このシステムプログラムの処理として、コントローラ２０やヘッドセット４０等、装置ごとに、当該装置を利用するユーザを認証する処理を実行して、コントローラ２０等、各装置を特定する情報ごとに、ユーザを特定する情報（例えばユーザ名）を関連付けて記憶する。

　そして制御部１１は、操作制御部１３からコントローラ２０を特定する情報とともに操作情報の入力を受けると、実行中のアプリケーションのうちから操作情報の出力先となるアプリケーションを選択する。例えばゲームアプリケーションが起動しているときには、原則としてゲームアプリケーションを選択し、所定の操作情報については例外的にシステムで処理する、などとしてここでの出力先の選択の条件を予め定めておき、当該条件に従って選択すればよい。

　制御部１１は、操作情報の出力先のアプリケーションやシステムの処理として、操作制御部１３から入力された、コントローラ２０を特定する情報と操作情報とを用いた処理を実行する。またこの制御部１１は、複数の装置から受信した音声情報の各々をミキシングする際の、各音声信号のミキシングの音量を決定する。これらの制御部１１の動作については後に述べる。

　記憶部１２は、メモリデバイスやハードディスクドライブ等であり、制御部１１によって実行されるプログラムを保持する。またこの記憶部１２は制御部１１のワークメモリとしても動作する。

　操作制御部１３は、コントローラ２０との間で無線または有線にて通信可能に接続され、コントローラ２０からコントローラ２０にてユーザが行った操作の内容を表す操作情報を受信して、当該操作情報の受信元であるコントローラ２０を特定する情報とともに制御部１１に出力する。

　さらに本実施の形態では、この操作制御部１３は、制御部１１から入力される指示に従い、表示制御信号等を、指示されたコントローラ２０に対して送出する。

　出力制御部１４は、家庭用テレビや、モニタ、ヘッドマウントディスプレイ５０等の表示デバイスに接続され、制御部１１から入力される指示に従って、音声や映像等の信号をこれらの表示デバイスに出力する。またこの出力制御部１４は、映像と音声信号とを異なる装置に対して出力してもよい。例えば映像についてはモニタに出力し、音声信号についてはコントローラ２０やヘッドセット４０に出力するようにしてもよい。

　音声入力制御部１５は、コントローラ２０やチャットコントローラ３０、ヘッドセット４０、ヘッドマウントディスプレイ５０等、音声入力デバイスを備えた周辺装置から音声信号を受信する。またこの音声入力制御部１５は、図２に例示するように、ミキサ部１５１と、ミュート部１５２と、スイッチ部１５３と、出力部１５４とを含んで構成され、受信した音声信号のうち、予め定められた装置（例えばチャットコントローラ３０）以外の装置から入力された音声信号をミキサ部１５１にて合成する。

　具体的に、このミキサ部１５１は、コントローラ２０やヘッドセット４０、ヘッドマウントディスプレイ５０等の各装置から受信した音声信号ごとに音量を定めて、当該定めた音量で各装置から受信した音声信号を合成する。本実施の形態のある例では、このミキサ部１５１は、制御部１１から入力される指示に従って、各装置から受信した音声信号の音量を定める。

　また、例えば制御部１１が、ヘッドセット４０からの音声信号の音量を「２５５」、その他の音量を「０」とした場合は、このミキサ部１５１は選択手段としても機能する。この例ではミキサ部１５１は、ヘッドセット４０のみからの音声信号を選択的に出力することとなる。そしてこの場合、ヘッドセット４０以外のコントローラ２０やヘッドマウントディスプレイ５０等から受信した音声信号があっても、ミキサ部１５１の出力には含められない。

　さらに本実施の形態の一例では、この情報処理装置１０には複数のコントローラ２０が接続されることがあり得る。この場合も、ミキサ部１５１は、制御部１１から入力される指示に従って各コントローラ２０から受信した音声信号の音量を定める。例えばユーザＡが利用するコントローラ２０ａから受信した音声信号の音量を「２５５」、その他のユーザＢ，Ｃが利用するコントローラ２０ｂ，ｃから受信した音声信号の音量を「０」とする指示が制御部１１から入力された場合、ミキサ部１５１は、コントローラ２０ａから受信した音声信号を選択的に出力することとなる。

　ミュート部１５２は、ミキサ部１５１が出力する音声信号について、そのまま出力するか、あるいは出力しない（ミュートする）かを、制御部１１から入力される指示に従って切り替える。このミュート部１５２は、制御部１１がミュートしない旨の指示を出力しているときには、ミキサ部１５１が出力する音声信号をそのまま出力する。またこのミュート部１５２は、制御部１１がミュートする旨の指示を出力しているときには、ミキサ部１５１が出力する音声信号をスイッチ部１５３に出力せず破棄する（ミュートする）。

　スイッチ部１５３は、情報処理装置１０が受信した音声信号のうち、ミキサ部１５１に入力されていない装置からの音声信号（以下、割り込み音声信号と呼ぶ。ここでの例ではチャットコントローラ３０から受信した音声信号）からの入力を受け入れる。またこのスイッチ部１５３は、ミュート部１５２が音声信号を出力するときには、当該音声信号の入力を受け入れる。スイッチ部１５３は、ミュート部１５２から受け入れた音声信号（あれば）と、割り込み音声信号（あれば）とのいずれかを、制御部１１から入力される指示に従って選択して出力する。

　出力部１５４は、スイッチ部１５３が出力する音声信号を、制御部１１に出力する。このように本実施の形態の一例に係る音声入力制御部１５は、音声入力デバイスを備えた各周辺装置から音声信号を受信し、ミキシングし、あるいはいずれかを選択して出力し、制御部１１の処理に供する。

　通信部１６は、ネットワークインタフェース等であり、制御部１１から入力される指示に従い、ネットワークを介して種々の情報を送信する。またこの通信部１６はネットワークを介して受信した情報を制御部１１に出力している。

　コントローラ２０の操作部２１は、ボタンやジョイスティック等を含み、ユーザの操作を受け入れて、当該ユーザが行った操作の内容を表す操作情報を、通信部２３に出力する。またマイク２２は、周囲の音声を集音し、当該集音した音声を表すディジタルの音声信号を出力している。

　通信部２３は、例えばブルートゥース（登録商標）等の無線通信手段であり、操作部２１にてユーザが行った操作の内容を表す情報（操作情報）を情報処理装置１０に送出する。またこの通信部２３は、マイク２２が出力する音声信号を、情報処理装置１０に出力する。またこの通信部２３は、情報処理装置１０が出力する表示制御信号を表示部２４に出力する。さらにこの通信部２３は、情報処理装置１０から音声信号を受信すると、当該受信した音声信号を音声出力部２５に出力する。

　表示部２４は、例えばＬＥＤ等を含む。この表示部２４は、通信部２３から表示制御信号の入力を受けて、ＬＥＤを点灯ないし消灯する。音声出力部２５は、スピーカー等の振動子を備えたデバイスであり、情報処理装置１０から受信した音声信号に基づいて音声を鳴動する。

　さらにチャットコントローラ３０は、ユーザが音声入力を指示している間だけ音声の入力を受け入れて出力する、いわゆるプッシュ・トゥー・トーク装置（ＰＴＴ装置）であり、その操作部３１は、例えばボタンを含む。またマイク３２は、周囲の音声を集音して音声信号に変換して出力している。

　通信部３３は、例えばブルートゥース（登録商標）等の無線通信手段であり、ユーザが操作部３１のボタンを押下している間に、マイク３２が出力する音声信号を、情報処理装置１０に出力する。またこの通信部３３は、ユーザが操作部３１のボタンを押下していないときには、マイク３２が出力する音声信号を、情報処理装置１０に出力することなく破棄する。さらにこの通信部３３は、情報処理装置１０が出力する表示制御信号を表示部３４に出力する。

　表示部３４は、例えばＬＥＤ等を含む。この表示部３４は、通信部３３から表示制御信号の入力を受けて、ＬＥＤを点灯ないし消灯する。このチャットコントローラ３０の動作についても後に述べる。

　ヘッドセット４０は、例えばヘッドフォンやマイク等を備える。このヘッドセット４０は、情報処理装置１０が出力する音声信号に基づいてスピーカーを鳴動する。またこのヘッドセット４０は、マイクにて集音した音声信号を、情報処理装置１０に対して送出する。

　ヘッドマウントディスプレイ５０は、ディスプレイとスピーカーとマイクとを含んで構成される。このヘッドマウントディスプレイ５０は、情報処理装置１０が出力する映像信号や音声信号を受け入れて、ディスプレイに映像を表示し、また、スピーカーを鳴動させる。またこのヘッドマウントディスプレイ５０は、マイクにて集音した音声信号を、情報処理装置１０に対して送出する。

　ここで情報処理装置１０の制御部１１の動作について説明する。本実施の形態では、この制御部１１は、システムの処理として図３に例示するように、機能的に、音声入力処理部１１１と、ミュート処理部１１２と、割り込み処理部１１３と、表示処理部１１４とを含む。

　なお、本実施の形態の以下の例では、制御部１１は、情報処理装置１０に接続された、音声入力デバイスを備えた装置のうちの一つを、割り込み装置として定めておくものとする。

　音声入力処理部１１１は、音声入力デバイスを備えた装置（割り込み装置を定める場合、割り込み装置を除くこととする）を対象装置として、次の処理を行う。音声入力処理部１１１は、所定の規則に従って、情報処理装置１０に接続されている、対象装置ごとのミキシングの音量を定める。この所定の規則は、例えば次のようなものとすることができる。すなわち、制御部１１は、予め対象装置ごとに優先順位を定めておき、接続された装置のうち、優先順位の最も高い対象装置から受信する音声信号のミキシングの音量を予め定められた０より大きい値（０を含まない）とする。この値は例えば最大値、あるいは、対象装置ごとに、対象装置の種類に応じて異なった値が設定されてもよい、以下、この０より大きい値を出力値と呼ぶ。また、接続された装置のうち、優先順位の最も高い対象装置以外の対象装置から受信する音声信号のミキシングの音量を最低値とする。この最低値は、例えば音量「０」を表す値とすればよい。この最低値を、以下では遮断値と呼ぶ。

　なお、ここでの規則や音量の設定の例は一例であり、他にも種々の方法があり得る。例えば制御部１１は、ユーザが選択した対象装置について、当該対象装置から受信する音声信号のミキシングの音量を予め定められた出力値、それ以外の対象装置から受信する音声信号のミキシングの音量を遮断値としてもよい。

　また複数のユーザが情報処理装置１０を利用している場合を考慮して、ここでの規則は、次のようなものであってもよい。すなわち、
（１）原則としてユーザごとに一つの対象装置を選択する。
（２）ユーザごとに選択した対象装置が当該ユーザの音声以外を集音しにくい音声入力デバイスを備えるものとして予め定められた対象装置である場合は、当該対象装置のミキシングの音量を出力値とする。
（３）ユーザごとに選択した対象装置が、当該ユーザの音声以外を集音しにくい音声入力デバイスを備えるものとして予め定められた対象装置でない（ここでは便宜的に広集音装置と呼ぶ）場合、選択された対象装置が広集音装置であるユーザについては、いずれかのユーザを一人選び、当該選ばれたユーザについて選択した対象装置のミキシングの音量を出力値とする。
（４）（２），（３）でミキシングの音量を出力値としていない対象装置についてのミキシングの音量を遮断値とする。

　この例によると、マイクの指向性が比較的強いヘッドセット４０等を音声入力デバイスとして利用しているユーザについては、当該ヘッドセット４０が集音した音声信号がアプリケーションとしての処理で利用可能となるとともに、マイクの指向性が比較的弱い、広集音装置であるコントローラ２０等を音声入力デバイスとして利用しているユーザについては、コントローラ２０を音声入力デバイスとするユーザのうち一人のユーザが操作するコントローラ２０が集音した音声信号のみが、アプリケーションとしての処理で利用されるようになる。

　なお、いずれの場合も、広集音装置を利用しているユーザがコントローラ２０を操作して、音声信号の入力を要求したときには、当該ユーザのコントローラ２０等の広集音装置のミキシング音量を出力値とし、その他の広集音装置のミキシング音量を遮断値とする。

　ミュート処理部１１２は、ユーザが操作するコントローラ２０から受信した操作情報として、ミュートをするべき旨の操作情報を受け入れたときに、音声入力制御部１５に対してミュートの指示を出力する。

　割り込み処理部１１３は、予め定めた割り込み装置から入力される指示（例えば選択を要求する指示）に従い、当該割り込み装置から受信される音声信号を選択する指示を、音声入力制御部１５に出力してもよい。また割り込み装置から、選択を解除するべき旨の指示が受信されると、制御部１１は、この割り込み装置以外の装置から受信した音声信号を選択するべき旨の指示を、音声入力制御部１５に出力する。

　表示処理部１１４は、音声信号の入力の状態を示すために、音声入力処理部１１１、ミュート処理部１１２、及び割り込み処理部１１３が出力する指示に応じて、各装置に対する表示制御信号を出力する。この表示制御信号の具体的な例については後に述べる。

［動作例］
　本実施の形態の情報処理システム１は以上のような構成を基本的に備えており、次のように動作する。以下では、１つの情報処理装置１０をユーザＡ，Ｂ，Ｃの３人が共用してゲームを行う例（図４（ａ））について説明する。

　このとき、各ユーザＡ，Ｂ，Ｃはそれぞれのコントローラ２０ａ，ｂ，ｃを持って操作するものとする。すなわち、情報処理装置１０は当初、各コントローラ２０を操作するユーザを認証し、各コントローラを特定する情報に関連付けて、認証したユーザを特定する情報を記録する。またこの情報処理装置１０には、割り込み装置としてのチャットコントローラ３０が接続されているものとする。

　このとき情報処理装置１０は、予め定めた規則として、次の規則に従うものとする：
（１）原則としてユーザごとに一つの対象装置を選択する。
（２）ユーザごとに選択した対象装置が当該ユーザの音声以外を集音しにくい音声入力デバイスを備えるものとして予め定められた対象装置である場合は、当該対象装置のミキシングの音量を出力値（図４では「２５５」）とする。
（３）ユーザごとに選択した対象装置が当該ユーザの音声以外を集音しにくい音声入力デバイスを備えるものとして予め定められた対象装置でない（ここでは便宜的に広集音装置と呼ぶ）場合、選択された対象装置が広集音装置であるユーザについては、いずれかのユーザを一人選び、当該選ばれたユーザについて選択した対象装置のミキシングの音量を出力値とする。
（４）（２），（３）でミキシングの音量を出力値としていない対象装置についてのミキシングの音量を遮断値とする。

　そして情報処理装置１０は、この規則に従い、当該情報処理装置１０に接続されているコントローラ２０ａ，ｂ，ｃを対象装置として、これら対象装置ごとのミキシングの音量を定める。ここではコントローラ２０は広集音装置であるものとする。この例では、情報処理装置１０は、上記所定の規則に基づき、例えば最初に接続されたコントローラ２０（ユーザＡのコントローラ２０ａとする）のミキシングの音量を出力値、それ以外の対象装置から受信する音声信号のミキシングの音量を遮断値とする。

　このため、情報処理装置１０では、ユーザＡが使用しているコントローラ２０ａが集音して情報処理装置１０へ送出した音声信号がアプリケーションの処理に供されることとなる。

　例えばアプリケーションがチャットアプリケーションであれば、情報処理装置１０は、コントローラ２０ａが集音して情報処理装置１０へ送出した音声信号を、チャットの相手先へ送出することとなる。また相手先から受信した音声信号は、所定の方法で定めた出力先（例えばここでは各コントローラ２０ａ，ｂ，ｃ）に出力する。

　このときコントローラ２０ｂ，ｃの送出した音声信号は情報処理装置１０の音声入力制御部１５の動作により破棄される。これにより、各コントローラ２０ａ，ｂ，ｃで集音された音が混合され、音声がこもってしまったり、エコーが生じてしまうことが回避される。

　またここでユーザＣが、ヘッドセット４０を装着し、ヘッドセット４０のユーザとして情報処理装置１０の認証を受けると（図４（ｂ））、情報処理装置１０は、新たな装置の認証を行ったことを契機として、再度、上記規則に従って、情報処理装置１０に接続されているコントローラ２０ａ，ｂ，ｃ、及びユーザＣの利用するヘッドセット４０を対象装置として、これら対象装置ごとのミキシングの音量を定める。

　ここでヘッドセット４０は広集音装置でないものとすると、ここでは情報処理装置１０は、上記所定の規則に基づき、まずユーザＣについてはヘッドセット４０のミキシングの音量を出力値とする。また、他のユーザＡ，Ｂについては、例えば最初に接続されたコントローラ２０（ユーザＡのコントローラ２０ａとする）のミキシングの音量を出力値、それ以外の対象装置（ユーザＢのコントローラ２０ｂ）から受信する音声信号のミキシングの音量を遮断値とする。

　このときには、ユーザＣの発声した声はヘッドセット４０によって集音される。そしてユーザＡが使用しているコントローラ２０ａが集音して情報処理装置１０へ送出した音声信号と、このヘッドセット４０が送出した音声信号とミキシングされて、アプリケーションの処理に供されることとなる。

　このときコントローラ２０ｂ，ｃの送出した音声信号は情報処理装置１０の音声入力制御部１５の動作により破棄される。これにより、各コントローラ２０ａ，ｂ，ｃで集音された音が混合され、音声がこもってしまったり、エコーが生じてしまうことが回避される。なお、ヘッドセット４０は比較的指向性が強いため、ヘッドセット４０が出力する音声信号に含まれるユーザＡの音声は十分小さいものとなる。このため、ヘッドセット４０が集音して得た音声信号がコントローラ２０ａが送出した音声信号とミキシングされても音声がこもってしまったり、エコーが生じてしまうことはない。

　さらにここでユーザＢがコントローラ２０ｂを操作して、音声信号の入力を要求する操作を行うと、当該操作の内容を表す情報が情報処理装置１０に伝達される。情報処理装置１０では、当該要求を受けて、ユーザＣについてはヘッドセット４０のミキシングの音量を出力値のままとし、ここで音声信号の入力を要求したコントローラ２０ｂのミキシングの音量を出力値、それ以外の対象装置（ユーザＡのコントローラ２０ａ）から受信する音声信号のミキシングの音量を遮断値とする。

　このとき、コントローラ２０ａ，ｃの送出した音声信号は情報処理装置１０の音声入力制御部１５の動作により破棄される。これにより、各コントローラ２０ａ，ｂ，ｃで集音された音が混合され、音声がこもってしまったり、エコーが生じてしまうことが回避される。

　またこのチャットアプリケーションの処理を行う情報処理装置１０は、チャットの相手先から受信した音声信号を、各コントローラ２０に出力して、各コントローラ２０にて音声を鳴動させる。

［ミュート］
　また本実施の形態の一例では、いずれかのユーザがコントローラ２０を操作してミュートの指示を行うと、音声入力デバイスを備える各装置（割り込み装置を除く）からの音声信号がミュートされる。つまり本実施の形態の一例では、いずれかのコントローラ２０等からミュートの指示が行われると、すべての音声入力が遮断される。

　具体的にユーザＡ，Ｂ，Ｃのいずれかのユーザが自己の操作するコントローラ２０を操作してミュートの指示を行うと、当該ミュートの操作が行われたことを表す操作情報が情報処理装置１０に送出される。

　情報処理装置１０では、コントローラ２０からミュートをするべき旨の操作情報を受け入れて、音声入力制御部１５に対してミュートの指示を出力する。このときには、音声入力制御部１５のミキサ部１５１がどのような音量の設定で、各装置が送出する音声信号をミキシングしていたとしても、ミュート部１５２が、ミキサ部１５１が出力する音声信号を出力しない（ミュートする）よう制御する。

　これにより、ユーザの一つの操作によって、全体的にミュートが行われることとなり、装置ごとにミュートを設定する手間がなく、ミュートの操作性が向上する。

　またミュートの指示の内容によっては（例えばミュートを指示するためのボタンを長押しするなどした場合は）、制御部１１は、出力制御部１４の処理として、音声信号を出力しないよう制御してもよい（全ミュート）。このようにすると、テレビやヘッドセット、コントローラ２０からの音声出力も停止される。

［音声入力デバイスを備える周辺装置側でのミュート］
　またここで、コントローラ２０等、音声入力デバイスを備える周辺装置側で音声信号の送出をするか否かを制御可能な場合は、情報処理装置１０は、いずれかのユーザがコントローラ２０を操作してミュートの指示を行ったときには、このような装置に対して、音声信号の送出を停止するよう指示してもよい。

［出力モード］
　さらに本実施の形態では音声入力制御部１５から音声信号の入力を受けた制御部１１は、通常は当該入力された音声信号を、制御部１１にて実行中の任意のアプリケーションで利用可能なように制御する。以下では、この制御を行う制御部１１の動作モードを、便宜的に共有モードと呼ぶ。しかしながら本実施の形態のある例では、入力された音声信号を、特定のアプリケーションにのみ利用させることが好適な場合もある。

　具体的には、割り込み装置（ここでの例ではチャットコントローラ３０）からの音声信号については特定のアプリケーションにのみ利用させることとしてもよい。

　また、アプリケーションが音声入力を求めているのに、ミュートされた状態にあると、音声入力ができないので、アプリケーション側からの要求により一時的にミュートを解除可能な状態としたときには、当該一時的にミュートを解除した状態で入力される音声信号については、専ら当該要求したアプリケーションに対して音声信号を出力すべきである。

　そこで制御部１１は、一つのアプリケーションの処理において、音声入力の必要が生じると、音声入力が要求されている旨の表示をモニタ等に出力し、また、このアプリケーションを特定する情報（アプリケーション名でよい）を一時的に保持する。

　ここでユーザがコントローラ２０にて所定のアンミュートの操作を行うと、制御部１１は当該操作が為されたことを検出して、音声入力制御部１５のミキサ部１５１に対して、当該操作が行われたコントローラ２０のミキシング音量を最大とする（他のコントローラ２０等についてはミキシング音量を遮断値とする）。なお、複数のコントローラ２０にてアンミュートの操作が行われたときには、最も早くアンミュートの操作が行われたコントローラ２０についてのみミキシング音量を最大としてもよい。

　そして制御部１１は、次にユーザがコントローラ２０にてミュートの操作を行うまでの間、あるいは所定の時間が経過するまでの間にコントローラ２０から受信した音声信号を、先に一時的に保持した情報で特定されるアプリケーションの処理に供する（一時アンミュート）。この音声信号については、当該情報で特定されるアプリケーション以外の、他のアプリケーションに対しては利用不能に設定する。この設定を行ったときの制御部１１の動作モードを、便宜的に排他モードと呼ぶ。

　このような排他モードの制御については、入力される情報を特定のアプリケーションのみの処理に供するための広く知られたオペレーティングシステムの動作と同様であるので、ここでの詳しい説明は省略する。

［ミュート状態等の表示］
　次に、表示処理部１１４による表示制御信号の例について説明する。本実施の形態の一例では、制御部１１は、
（１）ミュートしていない状態では表示部２４のＬＥＤを消灯させる表示制御信号、
（２）ミュートしている状態では表示部２４のＬＥＤを点灯させる表示制御信号、
（３）全ミュートの場合は、表示部２４のＬＥＤを点滅させる表示制御信号、
をそれぞれの場合に出力する。

　これによると、ミュートの状態にあるか否かを表す表示制御信号が情報処理装置１０から出力され、コントローラ２０等が当該表示制御信号に応じて表示部２４の表示を変化させて（消灯、点灯、点滅などと変化させることによって）、ミュートの状態にあるか否かを明示するので、ユーザは音声入力が可能な状態にあるか否かがわかりやすい。

　さらに本実施の形態では、制御部１１は、
（４）ミキシング音量を遮断値としているデバイスに対しては、表示部２４のＬＥＤを全ミュートの場合とは区別可能な態様で点滅させる表示制御信号を出力してもよい。

　ここで区別可能な態様としては、点滅の周期を、全ミュートの場合に比べて長くするなどといったものでよい。これによると、他者が音声入力を行っている場合など、自分が所持するコントローラ２０を介して音声入力ができない場合を明示できる。

　またここでは表示部２４のＬＥＤを制御するものとしたが、表示部２４を例えば液晶表示部として、液晶表示部のバックライトの色や、表示内容を変更することでユーザに状態を通知することとしてもよい。

　１　情報処理システム、１０　情報処理装置、１１　制御部、１２　記憶部、１３　操作制御部、１４　出力制御部、１５　音声入力制御部、１６　通信部、２０　コントローラ、２１　操作部、２２　マイク、２３　通信部、２４　表示部、２５　音声出力部、３０　チャットコントローラ、３１　操作部、３２　マイク、３３　通信部、３４　表示部、４０　ヘッドセット、５０　ヘッドマウントディスプレイ、１１１　音声入力処理部、１１２　ミュート処理部、１１３　割り込み処理部、１１４　表示処理部、１５１　ミキサ部、１５２　ミュート部、１５３　スイッチ部、１５４　出力部。

Claims

　ユーザが装着、あるいは把持して用いられ、それぞれが周囲の音声を集音し、当該集音した音声を表す音声信号を出力する音声入力手段を備える複数の周辺装置に接続される情報処理装置であって、
　前記情報処理装置は、ユーザが装着あるいは把持する前記少なくとも一つの周辺装置が出力する音声信号を受け入れる手段と、
　前記受け入れた音声信号のうち、所定の規則に基づいて少なくとも一部の音声信号を選択する選択手段と、
　前記選択手段が選択した音声信号を出力し、その他の音声信号を遮断する手段と、
を有する情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記選択手段は、
　ユーザの使用する周辺装置が、当該ユーザ以外の音声を集音しにくい周辺装置として予め定められた周辺装置であるときには、当該周辺装置を選択し、
　当該ユーザ以外の音声を集音しにくい周辺装置として予め定められた周辺装置でないユーザが使用する周辺装置については、当該周辺装置のうち一つを選択する
情報処理装置。
　請求項１または２に記載の情報処理装置であって、
　さらに、前記周辺装置のうち、出力する音声信号が遮断される周辺装置に対し、当該周辺装置を介した音声入力ができない状態にあることを表す表示を行うよう、表示制御信号を出力する情報処理装置。
　請求項１から３のいずれか一項に記載の情報処理装置であって、
　前記出力された、前記選択手段により選択された音声信号が、チャットアプリケーションの処理に供される情報処理装置。
　ユーザが装着、あるいは把持して用いる周辺装置と、情報処理装置とを含む情報処理システムであって、
　前記周辺装置の少なくとも一つは、周囲の音声を集音し、当該集音した音声を表す音声信号を出力する音声入力手段を備え、
　前記情報処理装置は、ユーザが装着あるいは把持する前記少なくとも一つの周辺装置が出力する音声信号を受け入れる手段と、
　前記受け入れた音声信号のうち、所定の規則に基づいて少なくとも一部の音声信号を選択する選択手段と、
　前記選択手段が選択した音声信号を出力し、その他の音声信号を遮断する手段と、
　を含む情報処理システム。
　ユーザが装着、あるいは把持して用いられ、それぞれが周囲の音声を集音し、当該集音した音声を表す音声信号を出力する音声入力手段を備える複数の周辺装置に接続される情報処理装置の制御方法であって、
　前記情報処理装置において、音声信号を受け入れる手段が、ユーザが装着あるいは把持する前記少なくとも一つの周辺装置が出力する音声信号を受け入れる工程と、
　選択手段が、前記受け入れた音声信号のうち、所定の規則に基づいて少なくとも一部の音声信号を選択する工程と、
　音声信号の出力を制御する手段が、前記選択手段が選択した音声信号を出力し、その他の音声信号を遮断する工程と、
を実行する情報処理装置の制御方法。
　ユーザが装着、あるいは把持して用いられ、周囲の音声を集音し、当該集音した音声を表す音声信号を出力する音声入力手段を備える複数の周辺装置に接続される情報処理装置を、
　ユーザが装着あるいは把持する前記少なくとも一つの周辺装置が出力する音声信号を受け入れる手段と、
　前記受け入れた音声信号のうち、所定の規則に基づいて少なくとも一部の音声信号を選択する選択手段と、
　前記選択手段が選択した音声信号を出力し、その他の音声信号を遮断する手段と、
として機能させるプログラム。