WO2018101458A1

WO2018101458A1 - 収音機器、コンテンツ再生機器、及びコンテンツ再生システム

Info

Publication number: WO2018101458A1
Application number: PCT/JP2017/043269
Authority: WO
Inventors: 須山　明彦; 田中　克明
Original assignee: ヤマハ株式会社
Priority date: 2016-12-02
Filing date: 2017-12-01
Publication date: 2018-06-07

Abstract

本開示にかかる収音機器は、動作指示情報とユーザー固有情報とを含む音声情報を取得する収音部と、前記ユーザー固有情報に関するユーザー判別結果を取得する制御部と、前記ユーザー判別結果をコンテンツ再生機器に送信し、且つ前記動作指示情報を直接的又は間接的にコンテンツ再生機器に送信する通信部と、を含む。このような構成により、収音機器よりユーザー判別結果を受信したコンテンツ再生機器が、各ユーザーに適した動作遂行を行うことができる。

Description

収音機器、コンテンツ再生機器、及びコンテンツ再生システム

　本発明は、収音機器、コンテンツ再生機器、及びコンテンツ再生システムに関する。

　下記特許文献１には、マイクから入力された音声を認識する音声認識モジュールを備え、この音声認識モジュールが認識した音声を適用して予め設定された動作の遂行をアシストする技術が開示されている。

特開２０１４－７８００７号公報

　しかし、従来のコンテンツ再生機器を複数のユーザーが使用する場合において、ユーザーからの音声指示を受けた従来のコンテンツ再生機器が、各ユーザーに適した動作遂行をすることが難しかった。

　本発明は、上記問題点に鑑みてなされたものであり、その目的は、コンテンツ再生機器が、ユーザーからの音声指示に対して、各ユーザーに適した動作遂行を行うことを可能にすることである。

　本開示に係る収音機器は、動作指示情報とユーザー固有情報とを含む音声情報を取得する収音部と、前記ユーザー固有情報に関するユーザー判別結果を取得する制御部と、前記ユーザー判別結果をコンテンツ再生機器に送信し、且つ前記動作指示情報を直接的又は間接的にコンテンツ再生機器に送信する通信部と、を含む。

　本開示に係るコンテンツ再生機器は、収音機器からユーザー判別結果を受信し、サーバーからコマンド信号を受信する通信部と、前記ユーザー判別結果と前記コマンド信号を用いて動作遂行する制御部と、を含む。

　本開示に係るコンテンツ再生システムは、動作指示情報とユーザー固有情報とを含む音声情報を取得し、前記ユーザー固有情報に関するユーザー判別結果を取得し、前記ユーザー判別結果を送信する収音機器と、前記収音機器からの前記ユーザー判別結果を受信し、前記ユーザー判別結果を用いて動作遂行するコンテンツ再生機器と、を含む。

　本開示に係る収音機器の制御方法は、動作指示情報とユーザー固有情報とを含む音声情報を取得するステップと、前記ユーザー固有情報に関するユーザー判別結果を取得するステップと、前記ユーザー判別結果をコンテンツ再生機器に送信するステップと、前記動作指示情報を直接的又は間接的にコンテンツ再生機器に送信するステップと、を含む。

図１は第１の実施形態に係るコンテンツ再生システムの概要図である。図２は第１の実施形態に係る収音機器のブロック図である。図３は本開示に係る収音機器のユーザーリストを示す概念図である。図４は第１の実施形態に係るコンテンツ再生機器のブロック図である。図５は第１の実施形態に係るコンテンツ再生システムの動作例を示すフローチャートである。図６は第２の実施形態に係るコンテンツ再生システムの概念図である。図７は第２の実施形態に係る収音機器のブロック図である。図８は第２の実施形態に係るコンテンツ再生機器のブロック図である。図９は第２の実施形態に係るコンテンツ再生システムの動作例を示すフローチャートである。

［第１の実施形態］
　第１の実施形態について、図面を用いて以下に説明する。

［コンテンツ再生システム３００］
　図１は、本実施形態に係るコンテンツ再生システム３００の概念図である。本実施形態において、コンテンツ再生システム３００は、収音機器１００と、コンテンツ再生機器２００とを有している。コンテンツ再生機器２００は、ネットワーク１を介して収音機器１００に接続されている。なお、本開示におけるコンテンツとは、例えば音声や映像などを含む。

［ネットワーク１］
　ネットワーク１は、無線ＬＡＮ（Local Area Network）、有線ＬＡＮ、ＷＡＮ（Wide Area Network）、赤外線、電波、Bluetooth（登録商標）などを含み、コンテンツ再生機器２００と収音機器１００との間の信号伝達経路として利用される。

［収音機器１００］
　収音機器１００は、例えば、無線ＬＡＮ、有線ＬＡＮ、ＷＡＮ、赤外線、電波、Bluetooth（登録商標）などに対応した通信部を有し、ネットワーク１を介して、コンテンツ再生機器２００との信号伝達を行う。

　図２は、本実施形態に係る収音機器１００のブロック図である。本実施形態において、収音機器１００は、収音部３０、記憶部４０、制御部５０、通信部６０、ユーザー判別結果表示部８０を有している。収音機器１００は、記憶部４０に保存されたプログラム４２に基づいて、後述する音声情報取得ステップＳ１、ユーザー判別結果取得ステップＳ２、ユーザー判別結果表示ステップＳ３、発話継続の有無判定ステップＳ４、ユーザー判別結果確定ステップＳ５、ユーザー判別結果送信ステップＳ６などを実行するコンピュータである。当該プログラム４２は、光学的、磁気的等の種類を問わず、様々な記録媒体からインストールされてよく、インターネットを介してダウンロードされてもよい。

［収音部３０］
　収音部３０は、例えば収音機器１００に内蔵されたマイクである。収音部３０は、ユーザーが発した音声を収音するとともに、当該音声に関する情報を制御部５０に送信する。当該音声情報には、例えば声紋などのユーザー固有情報が含まれる。また、当該音声情報には、例えば「プレイリスト１を再生する。」などの、ユーザーからの動作指示情報が含まれる。なお、本実施形態においては、ユーザー固有情報の例として声紋を用いるが、その他のユーザー固有情報を用いてもかまわない。

［記憶部４０］
　記憶部４０は、例えばＨＤＤ(Hard Disc Drive)として実現される。記録媒体としては、フラッシュメモリ等の固体メモリ、固体メモリを内蔵したメモリカード、光ディスク、光磁気ディスク、ホログラムメモリなど各種考えられ、記憶部４０としては採用する記録媒体に応じて記録再生を実行できる構成とされればよい。記憶部４０には、制御部５０が使用するプログラム４２が保存されている。

　また、本実施形態においては、記憶部４０が図３に示すようなユーザーリストを保存しており、このユーザーリストには、後述するユーザー判別結果表示部８０が、制御部５０により生成し、取得されたユーザー判別結果に基づいて表示するＬＥＤの発光色が記録されている。更に、記憶部４０には、このユーザーリストに記載されている各ユーザーの声紋などのユーザー固有情報が記憶されている。

［制御部５０］
　制御部５０はＣＰＵとメモリを含む。制御部５０は、記憶部４０に保存されたプログラム４２を用いて、収音部３０、記憶部４０、通信部６０、ユーザー判別結果表示部８０の動作を制御する。

　制御部５０は、収音部３０からのユーザーが発した音声情報を取得すると、その音声が持つ声紋などのユーザー固有情報と、記憶部４０に記憶された各ユーザーのユーザー固有情報とを比較する。制御部５０は、新たに取得した音声のユーザー固有情報に最も近いユーザー固有情報を、記憶部４０に記憶された複数のユーザー固有情報の中らから選択するなどしてユーザーを判別し、ユーザー判別結果を生成し、取得する。ユーザー固有情報が声紋である場合は、制御部５０は、声紋の波形を比較することでユーザー判別結果を生成する。このユーザー判別結果とは、例えば、音声を発したユーザーが、記憶部４０に記憶されているユーザーリストに記載されたユーザーＡ、ユーザーＢ、ユーザーＣの内の誰なのかを判別した結果を意味する。

　本実施形態においては、制御部５０は、記憶部４０に記憶されたユーザーリストから、例えばユーザーＡに対応するＬＥＤ発光色が赤色であることを認識し、ユーザー判別結果表示部８０に対して、ユーザー判別結果表示部８０が有する赤色ＬＥＤを発光させる旨の命令信号を送信する。

　更に、本実施の形態においては、制御部５０が、当該ユーザー判別結果の修正を受け付ける構成としている。例えば、実際にはユーザーＡが発言しているにも関わらず、制御部５０が誤ってユーザーＢが発言していると認識し、「発言者はユーザーＢである」というユーザー判別結果を生成し、取得したとする。そうすると、制御部５０は記憶部４０のユーザーリストから、ユーザーＢに対応するＬＥＤ発光色が緑色であることを認識し、ユーザー判別結果表示部８０に、緑色ＬＥＤを発光させる命令信号を送信する。この命令信号を受けたユーザー判別結果表示部８０が緑色ＬＥＤを発光させると、この緑色ＬＥＤの発光を見たユーザーＡは、収音機器１００が自分を正しく認識していないと判断し、収音機器１００に向けて発言を続ける。ユーザーＡからの発言が継続されると、制御部５０はユーザー判別を再度行い、「発言者はユーザーＡである」という新たなユーザー判別結果を生成し、当該ユーザー判別結果に基づいた赤色ＬＥＤの発光をユーザー判別結果表示部８０に指示する。ユーザー判別結果表示部８０が赤色ＬＥＤを発光させ、ユーザーＡが、収音機器１００が自分を正しく認識したと判断した時点で発言を止め、例えば２秒間の無音状態が続くと、制御部５０は最終的なユーザー判別結果を「発言者はユーザーＡである」に確定し、当該ユーザー判別結果を含むコマンド信号をコンテンツ再生機器２００に送信する。

　あるいは、例えば「ちがうちがう」等の特定ワードを、予め記憶部４０に記憶させておき、ユーザーが当該特定ワードを発言した場合には、記憶部４０に保存されているユーザーリストから、現時点で選択しているユーザー候補以外のユーザーが発言していると推定し、次に可能性が高いユーザーを選択するなど、現時点のユーザー判別結果を当該ユーザーリストに基づいて変更することも可能である。

　また、本実施形態においては、制御部５０は、収音部３０から受信した音声情報に含まれる動作指示情報から、上記ユーザー判別結果を含んだコマンド信号を生成する。例えば、ユーザーＡが動作指示情報として「プレイリスト１を再生」と発言した場合、制御部５０が「発言者はユーザーＡである」というユーザー判別結果を生成し、取得するとともに、受信した音声情報である「プレイリスト１を再生する。」にユーザー判別結果を追加して、「ユーザーＡのプレイリスト１を再生する。」というコマンド信号を生成する。そして、制御部５０は、ネットワーク１を経由して、コンテンツ再生機器２００にユーザー判別結果を含むコマンド信号を送信する。

　なお、予め制御部５０が音声認識を開始するトリガーワードを定めておき、制御部５０が、ユーザーが当該トリガーワードを発したと判断すると、トリガーワード以降の音声情報に基づきユーザー判別結果を生成し、取得するとともに、トリガーワード以降の音声情報に基づきコマンド信号を生成する構成としてもよい。トリガーワードとしては、例えば「開始」などの表現を設定すればよい。

　なお、予め上述したトリガーワードを定めている場合には、ユーザーが収音機器１００に向けて当該トリガーワードを継続して発言することにより、制御部５０に正しいユーザー認識を促す構成としてもよい。その場合、当該トリガーワードには具体的な動作遂行内容に関する動作指示情報が含まれていないため、収音機器１００がトリガーワードを後述するコンテンツ再生機器２００に対して送信しない構成とすることが望ましい。このような構成とすることにより、収音機器１００とコンテンツ再生機器２００との間における不要な通信の発生を抑制することが可能となる。

［通信部６０］
　通信部６０は、無線ＬＡＮ、有線ＬＡＮ、ＷＡＮ、赤外線、電波、Bluetooth（登録商標）などに対応しており、ネットワーク１を介して、コンテンツ再生機器２００との信号伝達を行う。

［ユーザー判別結果表示部８０］
　ユーザー判別結果表示部８０は、例えば、複数のＬＥＤを有しており、制御部５０からの指示に基づいて、該当する発光色を有するＬＥＤを発光させる。また、制御部５０から、ユーザー判別結果が変更された場合には、その変更に応じて発光させるＬＥＤを切り替える。

　なお、本実施形態においては、ＬＥＤの発光色を用いて、ユーザー判別結果の表示する構成を説明しているが、液晶表示部を有し、ユーザー名をテキスト形式で液晶に表示する構成など、ユーザー判別結果を表示する構成は、これらの構成に限定されない。

［コンテンツ再生機器２００］
　図４は、本実施形態に係るコンテンツ再生機器２００のブロック図である。本実施形態において、コンテンツ再生機器２００は、オーディオを再生するオーディオ機器や、動画等の映像コンテンツを再生する映像再生機器などである。コンテンツ再生機器２００は、記憶部１４０、制御部１５０、通信部１６０等を有しており、制御部１５０がコンテンツ出力部１８０に接続されている。なお、コンテンツ再生機器２００がコンテンツ出力部１８０を含む構成としてもよい。コンテンツ再生機器２００は、記憶部１４０に保存されたプログラム１４２に基づいて、後述するコンテンツ再生ステップＳ７などを実行するコンピュータである。当該プログラム１４２は、光学的、磁気的等の種類を問わず、様々な記録媒体からインストールされてよく、インターネットを介してダウンロードされてもよい。

［記憶部１４０］
　記憶部１４０は、例えばＨＤＤ(Hard Disc Drive)として実現される。記録媒体としては、フラッシュメモリ等の固体メモリ、固体メモリを内蔵したメモリカード、光ディスク、光磁気ディスク、ホログラムメモリなど各種考えられ、記憶部１４０としては採用する記録媒体に応じて記録再生を実行できる構成とされればよい。記憶部１４０には、制御部１５０が使用するプログラム１４２が保存されている。

　また、記憶部１４０には、各ユーザーの再生リストと、当該再生リストに対応する各種コンテンツが保存されており、制御部１５０の指示に応じてコンテンツのデータを制御部１５０に送信する。

［制御部１５０］
　制御部１５０はＣＰＵとメモリを含む。制御部１５０は、記憶部１４０に保存されたプログラム１４２により、記憶部１４０、通信部１６０、コンテンツ出力部１８０の動作を制御する。

　制御部１５０は、ネットワーク１を経由して、収音機器１００との信号の送受信を行うことが可能である。制御部１５０は、収音機器１００からのコマンド信号に基づいてコンテンツ再生を行う。制御部１５０がコンテンツ再生を行う際には、制御部１５０に接続されたコンテンツ出力部１８０から映像、音声、テキストなどのコンテンツを出力する。

　例えば、本実施形態において制御部１５０が、ネットワーク１を介して、収音機器１００から「ユーザーＡのプレイリスト１を再生する。」というコマンド信号を受信した場合、記憶部１４０に保存された複数のプレイリストの中から、ユーザーＡのプレイリスト１に対応するコンテンツを呼び出し、再生する。

［コンテンツ出力部１８０］
　コンテンツ出力部１８０は、スピーカやディスプレイ装置であり、制御部１５０の指示に応じて映像、音声、テキストなどのコンテンツを出力する。本実施形態においては、制御部１５０の指示に応じて、ユーザーＡのプレイリスト１を出力する。

［コンテンツ再生システム３００の動作例］
　次に、図５を用いて、本実施形態のコンテンツ再生システム３００の動作例について説明する。図５は、本実施形態におけるコンテンツ再生システム３００の動作例を示すフローチャートである。

［音声情報取得ステップＳ１］
　音声情報取得ステップＳ１において、収音機器１００の収音部３０は、ユーザーが発した音声を収音し、音声情報を取得する。音声情報には、ユーザーからの動作指示情報と、ユーザーの声紋などのユーザー固有情報が含まれる。

　本実施形態においては、収音機器１００に対して、ユーザーＡが動作指示情報として「プレイリスト１を再生」という音声を発した場合について説明する。

　収音部３０は、ユーザーＡが発した音声である「プレイリスト１を再生」を収音するとともに、当該音声に関する情報を制御部５０に送信する。当該音声情報には、例えば声紋などのユーザー固有情報が含まれている。音声情報を受け取った制御部５０は、記憶部４０に当該音声情報を保存する。

　なお、予めトリガーワードを定めて記憶部４０に保存しておき、制御部５０が、ユーザーが当該トリガーワードを発したと判断した以降の音声を、音声情報として記憶部４０に保存する方法としてもよい。

［ユーザー判別結果取得ステップＳ２］
　ユーザー判別結果取得ステップＳ２において、収音機器１００の制御部５０は、収音部３０から取得し、記憶部４０に保存した音声情報に含まれるユーザー固有情報からユーザー判別結果を生成し、取得する。なお、記憶部４０に保存した音声情報全てにおけるユーザー固有情報からユーザー判別結果を生成してもよく、トリガーワードを設定している場合は、音声情報における当該トリガーワードの部分のみのユーザー固有情報からユーザー判別結果を生成してもよい。ユーザー判別結果とは、例えば、音声を発したユーザーが、記憶部４０に記憶されているユーザーリストに記載されたユーザーＡ、ユーザーＢ、ユーザーＣの内の誰なのかを判別した結果を意味する。

　本実施形態においては、制御部５０は、収音部３０からのユーザーＡが発した音声情報を取得し、その音声が持つ声紋などのユーザー固有情報から、「発言者はユーザーＢである」という誤ったユーザー判別結果を生成し、取得した例について説明する。なお、本実施形態においては、ユーザー固有情報の例として声紋を用いて説明するが、その他のユーザー固有情報を用いてユーザー判別結果を生成してもかまわない。

　制御部５０は、記憶部４０に記憶されたユーザーリストから、ユーザーにＢに対応するＬＥＤ発光色が緑色であることを認識し、収音機器１００に含まれるユーザー判別結果表示部８０に対して、ユーザー判別結果表示部８０が有する緑色ＬＥＤを発光させる命令信号を送信する。

［ユーザー判別結果表示ステップＳ３］
　ユーザー判別結果表示ステップＳ３において、上記命令信号を受信したユーザー判別結果表示部８０は、当該命令信号に基づき、緑色ＬＥＤを発光する。

［発話継続の有無判定ステップＳ４］
　発話継続の有無判定ステップＳ４において、制御部５０は、ユーザー判別結果表示ステップＳ３の後も、ユーザーが発話を継続しているか否かを判定する。

　ここで、本実施形態においては、ユーザーＡが、ユーザー判別結果表示部８０の表示結果が緑色ＬＥＤの発光であり、自分を正しく認識していないと判断したため、「ちがうちがう」等の発話を継続したとする。そのため、フローは音声情報取得ステップＳ１に戻る。なお、ユーザーＡが発話を継続しない場合には、音声情報取得ステップＳ１に戻ることなく、後述するユーザー判別結果確定ステップＳ５へと移る。

［音声情報取得ステップＳ１］
　音声情報取得ステップＳ１において、収音機器１００の収音部３０は、再度ユーザーが発した音声を収音し、音声情報を取得する。

　本実施形態においては、収音機器１００に対して、ユーザーＡが「ちがうちがう」という音声を発した場合について説明する。

　収音部３０は、ユーザーＡが発した音声である「ちがうちがう」を収音するとともに、当該音声に関する情報を制御部５０に送信する。当該音声情報には、例えば声紋などのユーザー固有情報が含まれている。音声情報を受け取った制御部５０は、記憶部４０に当該音声情報を保存する。

［ユーザー判別結果取得ステップＳ２］
　ユーザー判別結果取得ステップＳ２において、収音機器１００の制御部５０は、収音部３０から取得し、記憶部４０に保存した音声情報に含まれるユーザー固有情報からユーザー判別結果を再生成する。即ち、制御部５０は、ユーザー判別結果の修正を受け付ける。

　上述したとおり、本実施の形態においては、ユーザー判別結果表示部８０の表示内容を見たユーザーＡが、収音機器１００が自分を正しく認識していないと判断し、発言を継続している。そのため、制御部５０は、収音部３０から入力される音声情報から新たにユーザー判別を行う。今回は、制御部５０が、収音した音声の声紋等のユーザー固有情報から、正しくユーザーＡが発言していることを認識し、「発言者はユーザーＡである」というユーザー判別結果をユーザー判別結果表示部８０へと送信する。

　なお、「ちがうちがう」等の特定ワードを記憶部４０に記憶させておき、ユーザーが当該特定ワードを発言した場合には、記憶部４０に保存されているユーザーリストから、現時点で選択しているユーザー候補であるユーザーＢ以外のユーザーが発言していると推定し、次に可能性が高いユーザーを、ユーザーリストに含まれるユーザーＡ、ユーザーＣのいずれかから選択するなどの方法により、ユーザー判別結果を切り替える方法としてもよい。

[ユーザー判別結果表示ステップＳ３]
　上記ユーザー判別結果取得ステップＳ２を経た後、フローは再度、ユーザー判別結果表示ステップＳ３に移る。

　ユーザー判別結果表示ステップＳ３において、ユーザー判別結果表示部８０は、上述したユーザー判別結果取得ステップＳ２において再生成されたユーザー判別結果に基づいて、発光させるＬＥＤを選択する。本実施形態においては、前のユーザー判別結果に基づいて発光させていた緑色ＬＥＤを消灯するとともに、今回の「発言者はユーザーＡである」というユーザー判別結果に基づいて赤色ＬＥＤを発光させる。

　なお、本実施形態においては、ＬＥＤの発光色を用いて、ユーザー判別結果の表示する方法を説明しているが、液晶表示部を有し、ユーザー名をテキスト形式で液晶に表示する方法など、ユーザー判別結果の表示方法は、これらの方法に限定されない。

　ここで、本実施形態においては、ユーザーＡが、ユーザー判別結果表示部８０の表示結果が赤色ＬＥＤ発光であり、自分を正しく認識していると判断したため、それ以降の発言を継続せず、例えば２秒間、収音部３０がなんらの発言も収音しなかったとする。収音機器１００がこの無音状態を受けて、フローは、ユーザー判別結果確定ステップＳ５へと移る。

［ユーザー判別結果確定ステップＳ５］
　ユーザー判別結果確定ステップＳ５において、制御部５０は、ユーザー判別結果を確定する。

　本実施形態においては、上記ユーザー判別結果表示ステップＳ３において、ユーザー判別結果表示部８０が赤色ＬＥＤを発光させている時点で、ユーザーからの発言の収音が止まったため、制御部５０は、記憶部４０のユーザーリストに基づき、「発言者はユーザーＡである」とのユーザー判別結果を確定する。

［ユーザー判別結果送信ステップＳ６］
　ユーザー判別結果送信ステップＳ６において、収音機器１００の制御部５０は、上記ユーザー判別結果確定ステップＳ５において確定されたユーザー判別結果を、ネットワーク１を介して、コンテンツ再生機器２００に送信する。

　なお、本実施形態においては、制御部５０は、ユーザー判別結果のみならず、当該ユーザー判別結果を含むコマンド信号を生成し、当該コマンド信号をコンテンツ再生機器２００に送信する。具体的には、本実施形態において確定したユーザー判別結果は「発言者はユーザーＡである」であり、収音部３０が収音した発言内容は「プレイリスト１を再生」という動作指示情報であったため、制御部５０は、「ユーザーＡのプレイリスト１を再生する。」というコマンド信号を生成する。そして、制御部５０は、ネットワーク１を経由して、コンテンツ再生機器２００にユーザー判別結果を含むコマンド信号を送信する。即ち、このコマンド信号の送信は、ユーザー判別結果送信ステップＳ６であると同時に、動作指示情報送信ステップでもある。

［コンテンツ再生ステップＳ７］
　コンテンツ再生ステップＳ７において、コンテンツ再生機器２００の制御部１５０は、ネットワーク１を介して受信したコマンド信号に基づき、記憶部１４０に保存されたコンテンツを再生する。

　本実施形態においては、収音機器１００が送信した「ユーザーＡのプレイリスト１を再生する。」というコマンド信号を、コンテンツ再生機器２００が受信し、コンテンツ再生機器２００の制御部１５０が、記憶部１４０に保存された複数のプレイリストの中から、ユーザーＡのプレイリスト１に対応するコンテンツを呼び出し、再生する。そして、制御部１５０によるプレイリストの再生を受け、コンテンツ出力部１８０が、ユーザーＡのプレイリスト１を出力する。

　なお、本実施形態においては、ユーザー判別結果送信ステップＳ６において、収音機器１００の制御部５０が、ユーザー判別結果とコマンド信号を直接、コンテンツ再生機器２００に送信する例を説明したが、コンテンツ再生システム３００が更にサーバーを含み、収音機器１００が、当該サーバーを介して、ユーザー判別結果とコマンド信号を間接的にコンテンツ再生機器２００に送信する構成としてもかまわない。

　なお、コンテンツ再生システム３００がサーバーを含む場合は、当該サーバーに上述したユーザーリスト、特定ワード、トリガーワード等を記憶させておき、当該サーバーが、収音機器１００により収音され、送信されたユーザーの音声情報に含まれるユーザー固有情報を用いてユーザー判別結果を生成し、当該ユーザー判別結果を収音機器１００に送信する構成としてもかまわない。そして、サーバーにより生成されたユーザー判別結果を収音機器１００が受信し、収音機器１００の制御部５０が当該ユーザー判別結果を取得し、収音機器１００のユーザー判別結果表示部８０が、このユーザー判別結果に基づき、発光させるＬＥＤを選択する構成としてもよい。

［第２の実施形態］
　第２の実施形態について、図面を用いて以下に説明する。なお、第１の実施形態と共通する構成要素については、同一の符号を付して、その説明を省略することがある。

［コンテンツ再生システム３００Ｂ］
　図６は、本実施形態に係るコンテンツ再生システム３００Ｂの概念図である。本実施形態において、コンテンツ再生システム３００Ｂは、収音機器１００Ｂ、コンテンツ再生機器２００Ｂ、及びサーバー２５０を有している。収音機器１００Ｂ、コンテンツ再生機器２００Ｂ、及びサーバー２５０は、それぞれネットワーク１を介して、互いに接続されている。なお、本開示におけるコンテンツとは、例えば音声や映像などを含む。

［ネットワーク１］
　ネットワーク１は、第１の実施形態と共通する構成のため、その説明を省略する。

［収音機器１００Ｂ］
　収音機器１００Ｂは、例えば、無線ＬＡＮ、有線ＬＡＮ、ＷＡＮ、赤外線、電波、Bluetooth（登録商標）などに対応した通信部を有し、ネットワーク１を介して、サーバー２５０、及びコンテンツ再生機器２００Ｂとの信号伝達を行う。

　図７は、本実施形態に係る収音機器１００Ｂのブロック図である。本実施形態において、収音機器１００Ｂは、収音部３０、記憶部４０Ｂ、制御部５０Ｂ、通信部６０、ユーザー判別結果表示部８０を有している。収音機器１００Ｂは、記憶部４０Ｂに保存されたプログラム４２Ｂに基づいて、後述する音声情報取得ステップＳ１、ユーザー判別結果取得ステップＳ２、ユーザー判別結果表示ステップＳ３、発話継続の有無判定ステップＳ４、ユーザー判別結果確定ステップＳ５、ユーザー判別結果送信ステップＳ６Ｂ、音声情報送信ステップＳ８などを実行するコンピュータである。当該プログラム４２Ｂは、光学的、磁気的等の種類を問わず、様々な記録媒体からインストールされてよく、インターネットを介してダウンロードされてもよい。

［収音部３０］
　収音部３０は、第１の実施形態と共通する構成のため、その説明を省略する。

［記憶部４０Ｂ］
　記憶部４０Ｂは、制御部５０Ｂが使用するプログラム４２Ｂが保存されている点を除き、第１の実施形態と共通する構成のため、その説明を省略する。

［制御部５０Ｂ］
　制御部５０ＢはＣＰＵとメモリを含む。制御部５０Ｂは、記憶部４０Ｂに保存されたプログラム４２Ｂを用いて、収音部３０、記憶部４０Ｂ、通信部６０、ユーザー判別結果表示部８０の動作を制御する。

　制御部５０Ｂは、収音部３０からのユーザーが発した音声情報を取得すると、その音声が持つ声紋などのユーザー固有情報から、ユーザーを判別し、ユーザー判別結果を生成し、取得する。このユーザー判別結果の定義は、第１の実施形態と同様である。

　本実施形態においては、制御部５０Ｂは、ネットワーク１を経由して、収音部３０から受信した動作指示情報を含む音声情報をサーバー２５０に送信し、ユーザー判別結果をコンテンツ再生機器２００Ｂに送信する。その際、制御部５０Ｂは、サーバー２５０へ送信する音声情報に含まれた動作指示情報に第１の信号識別情報を付加し、コンテンツ再生機器２００Ｂに送信するユーザー判別結果には第１の信号識別情報に対応する第２の信号識別情報を付加する。ここで、第１の信号識別情報と第２の信号識別情報とは同一でもよく、あるいは異なってもよいが、後述するコンテンツ再生機器２００Ｂが、サーバー２５０が音声情報に含まれた動作指示情報に基づき生成するコマンド信号と、収音機器１００Ｂより受信するユーザー判別結果とを対応付けることができる構成であればよい。

　制御部５０Ｂは、第１の実施形態と同様、記憶部４０Ｂに記憶されたユーザーリストから、例えばユーザーＡに対応するＬＥＤ発光色が赤色であることを認識し、ユーザー判別結果表示部８０に対して、ユーザー判別結果表示部８０が有する赤色ＬＥＤを発光させる旨の命令信号を送信する。

　また、制御部５０Ｂは、第１の実施形態と同様、ユーザー判別結果の修正を受け付ける構成としている。詳細の説明については、第１の実施形態と同様のため省略する。

［通信部６０］
　通信部６０は、第１の実施形態と共通する構成のため、その説明を省略する。

［ユーザー判別結果表示部８０］
　ユーザー判別結果表示部８０は、第１の実施形態と共通する構成のため、その説明を省略する。

［サーバー２５０］
　サーバー２５０は、ネットワーク１を介して、収音機器１００からの音声情報を受信する。サーバー２５０は、受信した音声情報に含まれた動作指示情報に基づきコマンド信号を作成し、ネットワーク１を介して、コマンド信号をコンテンツ再生機器２００に送信する。サーバー２５０は、サーバー２５０内に保存されたプログラムに基づいて、後述するコマンド信号生成ステップＳ９、コマンド信号送信ステップＳ１０などを実行するコンピュータである。当該プログラムは、光学的、磁気的等の種類を問わず、様々な記録媒体からインストールされてよく、インターネットを介してダウンロードされてもよい。

　本実施形態において、サーバー２５０は、収音機器１００から受信した「プレイリスト１を再生する」との動作指示情報からコマンド信号生成する。また、本実施形態においては、収音機器１００が当該動作指示情報に第１の信号識別情報を付加しているため、サーバー２５０が生成したコマンド信号が、この第１の信号識別情報が含んでいる。

［コンテンツ再生機器２００］
　図８は、本実施形態に係るコンテンツ再生機器２００Ｂのブロック図である。本実施形態において、コンテンツ再生機器２００Ｂは、オーディオを再生するオーディオ機器や、動画等の映像コンテンツを再生する映像再生機器などである。コンテンツ再生機器２００Ｂは、記憶部１４０Ｂ、制御部１５０Ｂ、通信部１６０等を有しており、制御部１５０Ｂがコンテンツ出力部１８０に接続されている。なお、コンテンツ再生機器２００Ｂがコンテンツ出力部１８０を含む構成としてもよい。コンテンツ再生機器２００Ｂは、記憶部１４０Ｂに保存されたプログラム１４２Ｂに基づいて、後述するコンテンツ再生ステップＳ７Ｂなどを実行するコンピュータである。当該プログラム１４２Ｂは、光学的、磁気的等の種類を問わず、様々な記録媒体からインストールされてよく、インターネットを介してダウンロードされてもよい。

［記憶部１４０Ｂ］
　記憶部１４０Ｂは、制御部１５０Ｂが使用するプログラム１４２Ｂが保存されている点を除き、第１の実施形態と基本的に共通する構成のため、その説明を省略する。

　なお、本実施形態において、記憶部１４０Ｂは各種コンテンツのデータを記憶していても、記憶していなくてもよいが、本実施形態においては記憶部１４０Ｂがコンテンツのデータを記憶している例を説明する。

［制御部１５０Ｂ］
　制御部１５０ＢはＣＰＵとメモリを含む。制御部１５０Ｂは、記憶部１４０Ｂに保存されたプログラム１４２Ｂにより、記憶部１４０Ｂ、通信部１６０、コンテンツ出力部１８０の動作を制御する。

　制御部１５０Ｂは、ネットワーク１を経由して、収音機器１００Ｂ、及びサーバー２５０との信号の送受信を行うことが可能である。制御部１５０Ｂは、収音機器１００Ｂからのユーザー判別結果と、サーバー２５０からのコマンド信号に基づいてコンテンツ再生を行う。制御部１５０Ｂがコンテンツ再生を行う際には、制御部１５０Ｂに接続されたコンテンツ出力部１８０から映像、音声、テキストなどのコンテンツを出力する。

　具体的には、例えば制御部１５０Ｂが、ネットワーク１を介して、収音機器１００Ｂから「発言者はユーザーＡである」とのユーザー判別結果と、サーバー２５０からの「プレイリスト１を再生する」というコマンド信号を受信した場合、コマンド信号に含まれる第１の信号識別情報と、ユーザー判別結果に含まれる第２の信号識別情報との対応関係を確認することにより、「発言者はユーザーＡである」とのユーザー判別結果と、「プレイリスト１を再生する」とのコマンド信号とを対応付ける。そして、対応付けられたユーザー判別結果と、コマンド信号に基づき、記憶部１４０Ｂに保存された複数のプレイリストの中から、ユーザーＡのプレイリスト１に対応するコンテンツを呼び出し、再生する。

　なお、記憶部１４０Ｂが各種コンテンツを記憶していない、あるいは、ユーザーによって記憶部１４０Ｂが記憶していないコンテンツの再生を指示された場合、サーバー２５０が当該コンテンツソースをコンテンツ再生機器２００Ｂに送信し、当該コンテンツソースを受信したコンテンツ再生機器２００Ｂが当該コンテンツを再生する構成としてもかまわない。

［コンテンツ出力部１８０］
　コンテンツ出力部１８０は、スピーカやディスプレイ装置であり、制御部１５０Ｂの指示に応じて映像、音声、テキストなどのコンテンツを出力する。本実施形態においては、制御部１５０Ｂの指示に応じて、ユーザーＡのプレイリスト１を出力する。

［コンテンツ再生システム３００Ｂの動作例］
　次に、図９を用いて、本実施形態のコンテンツ再生システム３００Ｂの動作例について説明する。図９は、本実施形態におけるコンテンツ再生システム３００Ｂの動作例を示すフローチャートである。

［音声情報取得ステップＳ１～ユーザー判別結果確定ステップＳ５］
　音声情報取得ステップＳ１からユーザー判別結果確定ステップＳ５までのステップは、第１の実施形態と共通する方法であるため、その説明を省略する。

［ユーザー判別結果送信ステップＳ６Ｂ］
　ユーザー判別結果送信ステップＳ６Ｂにおいて、収音機器１００の制御部５０は、上記ユーザー判別結果確定ステップＳ５において確定されたユーザー判別結果を、ネットワーク１を介して、コンテンツ再生機器２００に送信する。

　なお、本実施形態においては、制御部５０Ｂは、第１の実施形態と異なり、コンテンツ再生機器２００に対してコマンド信号を送信しない。

　また、本実施形態においては、制御部５０Ｂは、第２の信号識別情報をユーザー判別結果に付加して、コンテンツ再生機器２００に送信する。この第２の信号識別情報は上述したとおり、第１の信号識別情報に対応する情報であり、第１の信号識別情報と第２の信号識別情報とは同一でもよく、あるいは異なってもよい。後述するコンテンツ再生ステップＳ７Ｂにおいて、コンテンツ再生機器２００Ｂが、サーバー２５０より受信するコマンド信号と、収音機器１００Ｂより受信するユーザー判別結果とを対応付けることができればよい。

［音声情報送信ステップＳ８］
　音声情報送信ステップＳ８において、収音機器１００Ｂの制御部５０Ｂは、収音部３０が取得した音声情報を、サーバー２５０に送信する。この音声情報には、ユーザーからの動作指示情報が含まれている。即ち、本実施形態においては、この音声情報送信ステップＳ９が動作指示情報送信ステップに該当する。なお、この音声情報送信ステップＳ８から、後述するコマンド信号送信ステップＳ１０までのフローは、上述したユーザー判別結果取得ステップＳ２からユーザー判別結果送信ステップＳ６Ｂまでのフローと並行して行うことが可能である。

　本実施形態においては、収音機器１００Ｂの制御部５０Ｂは、「プレイリスト１を再生する」という動作指示情報が含まれた音声情報をサーバー２５０に送信する。

　なお、予めトリガーワードを定めておき、制御部５０Ｂが、ユーザーが当該トリガーワードを発したと判断した以降の音声情報を、収音機器１００Ｂがサーバー２５０に送信する方法としてもよい。

　また、本実施形態においては、収音機器１００Ｂの制御部５０Ｂが、この動作指示情報が含まれた音声情報に第１の信号識別情報を付加してサーバー２５０に送信する。サーバー２５０が音声信号のみに基づきコマンド信号を生成する場合には、収音機器１００Ｂの制御部５０Ｂが当該第１の信号識別情報を音声信号に変換した上で、音声情報に付加してサーバー２５０に送信すればよい。

［コマンド信号生成ステップＳ９］
　コマンド信号生成ステップＳ９において、サーバー２５０は、収音機器１００Ｂから受信した音声情報に含まれる動作指示情報に基づき、コマンド信号を生成する。

　本実施形態においては、サーバー２５０は、「プレイリスト１を再生する」旨のコマンド信号を生成する。なお、このコマンド信号には上述した第１の信号識別情報が含まれている。

［コマンド信号送信ステップＳ１０］
　コマンド信号送信ステップＳ１０において、サーバー２５０は、コマンド信号生成ステップＳ９において生成したコマンド信号を、コンテンツ再生機器２００Ｂに送信する。

［コンテンツ再生ステップＳ７Ｂ］
　コンテンツ再生ステップＳ７Ｂにおいて、コンテンツ再生機器２００Ｂの制御部１５０Ｂは、ネットワーク１を介して受信したユーザー判別結果とコマンド信号とに基づき、記憶部１４０Ｂに保存されたコンテンツを再生する。

　本実施形態において、コンテンツ再生機器２００Ｂは、第１の信号識別情報が含まれた、「プレイリスト１を再生する」旨のコマンド信号をサーバー２５０より受信するとともに、第２の信号識別情報が含まれた「発言者はユーザーＡである」旨のユーザー判別結果を収音機器１００Ｂより受信する。

　コンテンツ再生機器２００Ｂの制御部１５０Ｂは、第１の信号識別情報と第２の信号識別情報との対応関係を確認することにより、「発言者はユーザーＡである」とのユーザー判別結果と、「プレイリスト１を再生する」とのコマンド信号とを対応付ける。そして、対応付けられたユーザー判別結果と、コマンド信号に基づき、記憶部１４０Ｂに保存された複数のプレイリストの中から、ユーザーＡのプレイリスト１に対応するコンテンツを呼び出し、再生する。

　このような方法とすることにより、収音機器１００Ｂがユーザー判別をしている時間を用いて、サーバー２５０が動作指示情報からコマンド信号を生成し、コンテンツ再生機器２００Ｂに送信することが可能となり、ユーザーによる音声発生から、コンテンツ再生機器２００Ｂによるコンテンツ再生までの時間を短縮することが可能となる。

　なお、記憶部１４０Ｂが各種コンテンツを記憶していない場合、あるいは、ユーザーから記憶部１４０Ｂが記憶していないコンテンツの再生を指示された場合、サーバー２５０が当該コンテンツソースをコンテンツ再生機器２００Ｂに送信し、当該コンテンツソースを受信したコンテンツ再生機器２００Ｂが当該コンテンツを再生する方法としてもかまわない。

　なお、本実施形態においては、収音機器１００Ｂが、ユーザー判別結果をコンテンツ再生機器２００Ｂに送信し、動作指示情報をサーバー２５０に送信する構成とすることにより、収音機器１００Ｂがユーザー判別をしている時間を用いて、サーバー２５０が動作指示情報からコマンド信号を生成することが可能となり、コンテンツ再生機器２００Ｂによるコンテンツ再生までの時間を短縮することが可能となる例を示した。しかし、収音機器１００Ｂが動作指示情報及びユーザー判別結果の双方をサーバー２５０に送信し、サーバー２５０が、これらに基づきユーザー判別結果を含むコマンド信号を生成し、当該コマンド信号をコンテンツ再生機器２００Ｂに送信する例も考えられる。その場合においては、収音機器１００Ｂが、上述したトリガーワードのみを用いてユーザー判別結果を生成し、ユーザーからの動作指示情報をサーバー２５０に送信するよりも先に、サーバー２５０に当該ユーザー判別結果を送信することが望ましい。このような構成とすることにより、サーバー２５０がコマンド信号を生成するまでの時間を短縮することが可能となり、その結果として、ユーザーによる音声発生から、コンテンツ再生機器２００Ｂによるコンテンツ再生までの時間を短縮することが可能となる。

Claims

　動作指示情報とユーザー固有情報とを含む音声情報を取得する収音部と、
　前記ユーザー固有情報に関するユーザー判別結果を取得する制御部と、
　前記ユーザー判別結果をコンテンツ再生機器に送信し、且つ前記動作指示情報を直接的又は間接的にコンテンツ再生機器に送信する通信部と、
　を含む、収音機器。
　前記通信部が、前記動作指示情報を、サーバーを介して前記コンテンツ再生機器に送信する、
　請求項１に記載の収音機器。
　前記動作指示情報に第１の信号識別情報を付加し、前記ユーザー判別結果に前記第１の信号識別情報に対応する第２の信号識別情報を付加する、
　請求項１又は２に記載の収音機器。
　前記制御部が、前記ユーザー判別結果の修正を受け付ける、
　請求項１乃至３のいずれか一つに記載の収音機器。
　前記収音部が音声情報を取得している間、
　前記制御部が前記ユーザー判別結果の再生成を繰り返し行うことにより、前記ユーザー判別結果の修正を受け付ける、
　請求項４に記載の収音機器。
　複数のユーザー情報と特定ワードを記憶する記憶部を更に備え、
　前記収音部が、前記特定ワードを収音した場合には、
　前記制御部が、前記ユーザー判別結果を前記複数のユーザー情報に基づき変更する、
　請求項４に記載の収音機器。
　前記ユーザー判別結果を表示するユーザー判別結果表示部を更に含む、
　請求項４乃至６のいずれか一つに記載の収音機器。
　前記制御部が、前記ユーザー判別結果の修正を受け付けた場合には、
　前記ユーザー判別結果表示部が、前記ユーザー判別結果の表示を変更する、
　請求項７に記載の収音機器。
　収音機器からユーザー判別結果を受信し、サーバーからコマンド信号を受信する通信部と、
　前記ユーザー判別結果と前記コマンド信号を用いて動作遂行する制御部と、
　を含む、コンテンツ再生機器。
　前記コマンド信号が、第１の信号識別情報を含み、
　前記ユーザー判別結果が、前記第１の信号識別情報に対応した第２の信号識別情報を含む、
　請求項９に記載のコンテンツ再生機器。
　動作指示情報とユーザー固有情報とを含む音声情報を取得し、前記ユーザー固有情報に関するユーザー判別結果を取得し、前記ユーザー判別結果を送信する収音機器と、
　前記収音機器からの前記ユーザー判別結果を受信し、前記ユーザー判別結果を用いて動作遂行するコンテンツ再生機器と、
　を含む、コンテンツ再生システム。
　前記収音機器が前記動作指示情報を送信し、
　前記動作指示情報を受信して、前記動作指示情報からコマンド信号を生成し、前記コマンド信号を送信するサーバーを更に備え、
　前記コンテンツ再生機器が、前記サーバーからの前記コマンド信号を受信し、前記ユーザー判別結果と前記コマンド信号とを用いて動作遂行を行う、
　請求項１１に記載のコンテンツ再生システム。
　複数のユーザー情報と特定ワードを記憶するサーバーを更に備え、
　前記収音機器が、前記特定ワードを収音した場合には、
　前記サーバーが、前記ユーザー判別結果を前記複数のユーザー情報に基づき変更する、
　請求項１１に記載のコンテンツ再生システム。
　動作指示情報とユーザー固有情報とを含む音声情報を取得するステップと、
　前記ユーザー固有情報に関するユーザー判別結果を取得するステップと、
　前記ユーザー判別結果をコンテンツ再生機器に送信するステップと、
　前記動作指示情報を直接的又は間接的にコンテンツ再生機器に送信するステップと、
　を含む、収音機器の制御方法。
　前記動作指示情報を前記コンテンツ再生機器に送信するステップにおいて、前記動作指示情報は、サーバーを介して前記コンテンツ再生機器に送信する、
　請求項１４に記載の収音機器の制御方法。
　前記動作指示情報に第１の信号識別情報を付加するステップと、
　前記ユーザー判別結果に前記第１の信号識別情報に対応する第２の信号識別情報を付加するステップと、
　を更に含む、請求項１４又は１５に記載の収音機器の制御方法。
　前記ユーザー判別結果の修正を受け付けるステップを更に含む、
　請求項１４乃至１６のいずれか一つに記載の収音機器の制御方法。
　前記音声情報を取得するステップにおいて、特定ワードを収音した場合には、前記ユーザー判別結果を複数のユーザー情報に基づき変更するステップを更に含む、
　請求項１７に記載の収音機器の制御方法。
　前記ユーザー判別結果を表示するステップを更に含む、
　請求項１７又は１８に記載の収音機器の制御方法。
　前記ユーザー判別結果の修正を受け付けた場合には、前記ユーザー判別結果の表示を変更するステップを更に含む、
　請求項１９に記載の収音機器の制御方法。