WO2022054321A1

WO2022054321A1 - オーディオ装置

Info

Publication number: WO2022054321A1
Application number: PCT/JP2021/012843
Authority: WO
Inventors: 悠児大田
Original assignee: 株式会社ディーアンドエムホールディングス
Priority date: 2020-09-10
Filing date: 2021-03-26
Publication date: 2022-03-17
Also published as: US20230333807A1; JP2022046108A; EP4213503A1

Abstract

【課題】オーディオ出力中でもリモートコントローラを用いることなく遠隔操作が可能なオーディオ装置を提供する。　【解決手段】ワイヤレススピーカ１は、マイク１１に入力された音声信号に対して音声認識処理を実施してリスナーの発話を認識し、その認識結果からリスナーの音声コマンドを検出する音声コマンド認識部１７に加えて、カメラ１２で撮像された映像信号に対してモーション認識処理を実施してリスナーのジェスチャーを認識し、その認識結果からリスナーのモーションコマンドを検出するモーションコマンド認識部１８と、音声コマンド認識部１７により認識された音声コマンドおよびモーションコマンド認識部１８により認識されたモーションコマンドに基づいてワイヤレススピーカ１の各種制御を実施する主制御部２０と、を備えている。

Description

オーディオ装置

　本発明は、オーディオプレーヤ、ワイヤレススピーカ等のオーディオ装置の遠隔操作技術に関する。

　近年、オーディオデータの再生、停止、音量レベルの増減等の各種操作を音声で受け付けることができる音声操作受付機能を有するオーディオ装置が普及している（例えば、特許文献１、２）。

　この種のオーディオ装置では、マイクに入力された音声信号からユーザの音声コマンドを認識し、認識した音声コマンドに基づいてオーディオ装置の各種制御を実施する。これにより、リモートコントローラを用いることなくオーディオ装置を遠隔操作することができる。

特開２０１４－２１９６１４号公報特開２０１４－０２６６０３号公報

　しかしながら、従来の音声操作受付機能を有するオーディオ装置では、オーディオの出力音量が大きいと、オーディオ出力中にマイクに入力された音声信号からユーザの音声コマンドを正しく認識できず、音声操作の受付に失敗することがある。このような場合、ユーザは、オーディオ装置の設置場所まで移動して、オーディオ装置の操作パネルを操作して指示を直接入力しなければならず煩雑である。

　本発明は上記事情に鑑みてなされたものであり、その目的は、オーディオ出力中でもリモートコントローラを用いることなく遠隔操作が可能なオーディオ装置を提供することにある。

　上記課題を解決するために、本発明のオーディオ装置は、マイクに入力された音声信号からユーザの音声コマンドを認識する音声コマンド認識機能に加えて、カメラで撮像された映像信号からユーザのモーションコマンドを認識するモーションコマンド認識機能を搭載し、音声コマンド認識機能により認識されたユーザの音声コマンドおよびモーションコマンド認識機能により認識されたモーションコマンドに基づいて、自装置の各種制御を実施する。

　例えば、本発明は、
　オーディオデータを出力するオーディオ装置であって、
　マイクと、
　カメラと、
　前記マイクに入力された音声信号からユーザの音声コマンドを認識する音声コマンド認識手段と、
　前記カメラで撮像された映像信号からユーザのモーションコマンドを認識するモーションコマンド認識手段と、
　前記音声コマンド認識手段により認識された音声コマンドおよび前記モーションコマンド認識手段により認識されたモーションコマンドに基づいて自装置の各種制御を実施する制御手段と、を備えている。

　本発明のオーディオ装置は、マイクに入力された音声信号からユーザの音声コマンドを認識する音声コマンド認識機能に加えて、カメラで撮像された映像信号からユーザのモーションコマンドを認識するモーションコマンド認識機能を搭載している。このため、オーディオ出力中に、オーディオの出力音量が大きくて、マイクに入力された音声信号からユーザの音声コマンドを正しく認識できない場合でも、ジェスチャーによりユーザから遠隔操作を受け付けることができる。したがって、本発明のオーディオ装置によれば、オーディオ出力中でもリモートコントローラを用いることなく遠隔操作が可能となる。

図１は、本発明の一実施の形態に係るワイヤレススピーカ１を備えたオーディオシステムの概略構成図である。図２は、ワイヤレススピーカ１の概略機能構成図である。図３は、図２に示すワイヤレススピーカ１の動作モード設定処理を説明するためのフロー図である。

　以下に、本発明の一実施の形態について、図面を参照して説明する。

　図１は、本実施の形態に係るワイヤレススピーカ１を備えたオーディオシステムの概略構成図である。

　図示するように、本実施の形態に係るワイヤレススピーカ１は、アクセスポイント３およびＷＡＮ、ＬＡＮ等のネットワーク４を介してメディアサーバ２に接続されており、メディアサーバ２からオーディオデータをダウンロードして再生・出力する。

　図２は、ワイヤレススピーカ１の概略機能構成図である。

　図示するように、ワイヤレススピーカ１は、スピーカ１０と、マイク１１と、カメラ１２と、複数のＬＥＤで構成されたＬＥＤアレイ１３と、無線ネットワークインターフェース部１４と、オーディオデータ記憶部１５と、オーディオ再生部１６と、音声コマンド認識部１７と、モーションコマンド認識部１８と、ＬＥＤ起動部１９と、主制御部２０と、を備えている。

　スピーカ１０、マイク１１、カメラ１２、およびＬＥＤアレイ１３は、図１に示すように、ワイヤレススピーカ１の前面に設けられ、マイク１１は、スピーカ１０のリスニングポイントにいるリスナーの音声を集音し、カメラ１２は、スピーカ１０のリスニングポイントにいるリスナーを撮像する。また、ＬＥＤアレイ１３は、複数のＬＥＤの表示形態によりワイヤレススピーカ１の動作モード（後述の音声コマンド認識モードおよびモーションコマンド認識モードのいずれか）をリスナーに知らせる。

　無線ネットワークインターフェース部１４は、アクセスポイント３に無線接続するためのインターフェースである。

　オーディオデータ記憶部１５には、メディアサーバ２からダウンロードしたオーディオデータが記憶される。

　オーディオ再生部１６は、オーディオデータ記憶部１５に記憶されているオーディオデータを再生して、その再生信号をスピーカ１０から出力する。

　音声コマンド認識部１７は、マイク１１に入力された音声信号に対する音声認識処理を実施して、リスナーの発話内容を認識する。そして、その認識結果からリスナーの音声コマンドを検出する。例えば、オーディオデータの再生開始を指示する「再生開始」、オーディオデータの再生停止を指示する「再生停止」、再生するオーディオデータの切替えを指示する「選曲切替」、再生音の音量アップを指示する「音量アップ」、再生音の音量ダウンを指示する「音量ダウン」等の音声コマンドを検出する。音声コマンド認識部１７には、例えば、上述の特許文献１、２等に記載の技術を利用することができる。

　モーションコマンド認識部１８は、カメラ１２で撮像された映像信号に対するモーション認識処理を実施して、リスナーのジェスチャーを認識する。そして、その認識結果からリスナーのモーションコマンドを検出する。例えば、再生するオーディオデータの切替えを指示する「片手を上げた状態からその手を回すジェスチャー」、オーディオデータの再生停止を指示する「両手を上げた状態から左右に振るジェスチャー」、再生音の音量アップを指示する「片手を下げて停止した状態からその手を上げるジェスチャー」、再生音の音量ダウンを指示する「片手を上げて停止した状態からその手を下げるジェスチャー」等を検出する。モーションコマンド認識部１８には、例えば、国際公開ＷＯ２０１６／０５１５２１号、特表２０１３－５１７０５１号等に記載の技術を利用することができる。

　ＬＥＤ起動部１９は、ＬＥＤアレイ１３を構成する各ＬＥＤの駆動を制御する。

　そして、主制御部２０は、ワイヤレススピーカ１の各部１０～１９を統括的に制御する。例えば、主制御部２０は、動作モードが音声コマンド認識モードである場合、音声コマンド認識部１７により検出された音声コマンドに基づいて、ワイヤレススピーカ１の各種制御を実施し、動作モードがモーションコマンド認識モードである場合、モーションコマンド認識部１８により検出されたモーションコマンドに基づいて、ワイヤレススピーカ１の各種制御を実施する。また、主制御部２０は、オーディオデータの再生状態に基づいて動作モードを設定するとともに、ＬＥＤ駆動部１９に、動作モードに応じた表示形態でＬＥＤアレイ１３を駆動させる。

　なお、図２に示すワイヤレススピーカ１の機能構成は、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の集積ロジックＩＣによりハード的に実現されるものでもよいし、あるいはＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）等の計算機によりソフトウエア的に実現されるものでもよい。または、ＣＰＵと、メモリと、フラッシュメモリ、ハードディスクドライブ等の補助記憶装置と、無線ＬＡＮアダプタ等の無線通信装置と、を備えたコンピュータシステムにおいて、ＣＰＵが所定のプログラムを補助記憶装置からメモリ上にロードして実行することにより実現されるものでもよい。

　図３は、図２に示すワイヤレススピーカ１の動作モード設定処理を説明するためのフロー図である。

　主制御部２０は、オーディオ再生部１６がオーディオデータを再生中でない場合（Ｓ１００でＮＯ）、あるいはオーディオデータを再生中であるが（Ｓ１００でＹＥＳ）、その出力音量が所定の閾値未満である場合（Ｓ１０１でＮＯ）、ワイヤレススピーカ１の動作モードを音声コマンド認識モードに設定する（Ｓ１０２）。これにより、主制御部２０は、音声コマンド認識部１７により検出された音声コマンドに基づいて、ワイヤレススピーカ１の各種制御を実施する。また、主制御部２０は、ＬＥＤ起動部１９に音声コマンド認識モード表示を指示する。これを受けて、ＬＥＤ起動部１９は、音声コマンド認識モードの表示形態によりＬＥＤアレイ１３を点灯表示させる（Ｓ１０３）。例えば、ＬＥＤアレイ１３を構成するＬＥＤをすべて点灯させる。

　また、主制御部２０は、オーディオ再生部１６が所定の閾値以上の出力音量でオーディオデータを再生中である場合（Ｓ１００、Ｓ１０１でともにＹＥＳ）、ワイヤレススピーカ１の動作モードをモーションコマンド認識モードに設定する（Ｓ１０４）。これにより、主制御部２０は、モーションコマンド認識部１８により検出されたモーションコマンドに基づいて、ワイヤレススピーカ１の各種制御を実施する。また、主制御部２０は、ＬＥＤ起動部１９にモーションコマンド認識モード表示を指示する。これを受けて、ＬＥＤ起動部１９は、モーションコマンド認識モードの表示形態によりＬＥＤアレイ１３を点灯表示させる（Ｓ１０５）。例えば、ＬＥＤアレイ１３を構成するＬＥＤを繰り返し所定の順番で点滅させる。

　以上、本発明の一実施の形態について説明した。

　本実施の形態のワイヤレススピーカ１は、マイク１１に入力された音声信号に対して音声認識処理を実施してリスナーの発話を認識し、その認識結果からリスナーの音声コマンドを検出する音声コマンド認識部１７に加えて、カメラ１２で撮像された映像信号に対してモーション認識処理を実施してリスナーのジェスチャーを認識し、その認識結果からリスナーのモーションコマンドを検出するモーションコマンド認識部１８と、を備えている。このため、オーディオデータの再生中において、オーディオデータの出力音量が大きくて、マイク１１に入力された音声信号からリスナーの音声コマンドを正しく認識できない場合でも、ジェスチャーによりリスナーから遠隔操作を受け付けることができる。したがって、本実施の形態によれば、オーディオデータの再生中でもリモートコントローラを用いることなく遠隔操作が可能となる。

　また、本実施の形態のワイヤレススピーカ１は、オーディオデータの再生停止中、あるいはオーディオデータの再生中であってもその出力音量が所定の閾値未満の場合には音声コマンド認識モードで動作し、オーディオデータの再生中においてその出力音量が所定の閾値以上の場合に、すなわち、音声コマンドを正しく認識できない可能性が高い場合にモーションコマンド認識モードで動作する。音声コマンド認識モードの場合は、カメラ１２およびモーションコマンド認識部１８の動作を停止し、モーションコマンド認識モードの場合は、マイク１１および音声コマンド認識部１７の動作を停止することにより、不要な電力消費を削減して省電力化を図ることができる。

　また、本実施の形態のワイヤレススピーカ１は、動作モードに応じてＬＥＤアレイ１３の表示形態を変えることにより、現在の動作モードをリスナーに知らせることができるので、リスナーは、動作モードに応じた適切な方法（音声コマンドの発話、モーションコマンドに応じたジェスチャー）によりワイヤレススピーカ１を遠隔操作することができる。

　なお、本発明は上記の実施の形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。

　例えば、上記の実施の形態では、複数のＬＥＤで構成されたＬＥＤアレイ１３の表示形態を変えることによりリスナーに動作モードを知らせているが、単一のＬＥＤの表示形態（点灯、点滅等）によりリスナーに動作モードを知らせるようにしてもよい。また、ＬＥＤアレイ１３に代えてＬＣＤ等の表示パネルに動作モードを表示してもよい。さらには、ＬＥＤアレイ１３による点灯表示に代えて、あるいは、ＬＥＤアレイ１３よる点灯表示とともに、動作モードが変更された場合にその旨の音声メッセージをスピーカ１０から出力するようにしてもよい。すなわち、主制御部２０は、動作モードが変更されると、オーディオ再生部１６に変更後の動作モードを通知して音声メッセージ出力を指示する。これを受けて、オーディオ再生部１６は、通知された動作モードに対応する音源を再生して、通知された動作モードに変更されたことを示す音声メッセージをスピーカ１０から出力する。

　また、上記の実施の形態において、動作モードが音声コマンド認識モードからモーションコマンド認識モードに変更された場合に、リスナーに対して、カメラ１２に向かってジェスチャーするように促す音声メッセージを出力するようにしてもよい。すなわち、主制御部２０は、動作モードが音声コマンド認識モードからモーションコマンド認識モードに変更されると、オーディオ再生部１６にモーションコマンド認識モードへの変更を通知して音声メッセージ出力を指示する。これを受けて、オーディオ再生部１６は、モーション認識作モードに対応する音源を再生して、リスナーに対して、動作モードがモーション認識作モードに変更されたのでカメラ１２に向かってジェスチャーするように促す音声メッセージをスピーカ１０から出力する。

　また、上記の実施の形態は、オーディオデータの再生停止中、あるいはオーディオデータの再生中であってもその出力音量が所定の閾値未満の場合に、音声コマンド認識モードで動作し、オーディオデータの再生中においてその出力音量が所定の閾値以上の場合に、すなわち、音声コマンドを正しく認識できない可能性が高い場合に、モーションコマンド認識モードで動作する。しかし、本発明はこれに限定されない。

　例えば、マイク１１に入力された音声信号に含まれる環境ノイズ成分の音量レベルを監視し、環境ノイズ成分の音量レベルが所定の閾値未満の場合に、音声コマンド認識モードで動作し、所定の閾値以上の場合に、すなわち、音声コマンドを正しく認識できない可能性が高い場合に、モーションコマンド認識モードで動作するようにしてもよい。

　あるいは、音声コマンド認識モードおよびモーションコマンド認識モードの両方を同時に稼働させてもよい。すなわち、マイク１１および音声コマンド認識部１７と、カメラ１２およびモーションコマンド認識部１８と、を同時に稼働させ、音声コマンド認識部１７により音声コマンドが認識された場合は、この音声コマンドに従ってワイヤレススピーカ１の各種制御を実施し、モーションコマンド認識部１８によりモーションコマンドが認識された場合は、このモーションコマンドに従ってワイヤレススピーカ１の各種制御を実施してもよい。

　また、上記の実施の形態では、手によるジェスチャーにコマンドを割り当てた場合を例として挙げているが、例えば、指、顔（目、眼球、口等）等の手以外の部位によるジェスチャー、複数の部位によるジェスチャーの組合せにコマンドを割り当ててもよい。

　また、上記の実施の形態では、あらかじめ定められたジェスチャーにコマンドを割り当てているが、リスナーが定めたジェスチャーにコマンドを割り当てるようにしてもよい。または、ジェスチャーによるコマンド入力を採用している他の電子機器（スマートフォン、タブレットＰＣ、ポータブルオーディオプレーヤ等）ごとに、コマンドとジェスチャーとの対応情報をワイヤレススピーカ１に記憶しておき、これらの対応情報のなかからリスナーが選択した対応情報に従ってワイヤレススピーカ１がリスナーのジェスチャーからコマンドを認識するようにしてもよい。これにより、リスナーは、自身が使用している他の電子機器と同じジェスチャーでワイヤレススピーカ１を操作することができる。

　また、上記の実施の形態では、ワイヤレススピーカ１を例にとり説明したが、本発明は、オーディオプレーヤ、オーディオアンプ等のオーディオデータを出力するオーディオ装置に広く適用することができる。

　１：ワイヤレススピーカ　　２：メディアサーバ　　３：アクセスポイント
　４：ネットワーク　　１０：スピーカ　　１１：マイク　　１２：カメラ
　１３：ＬＥＤアレイ　　１４：無線ネットワークインターフェース部
　１５：オーディオデータ記憶部　　１６：オーディオ再生部
　１７：音声コマンド認識部　　１８：モーションコマンド認識部
　１９：ＬＥＤ駆動部　　２０：主制御部

Claims

　オーディオデータを出力するオーディオ装置であって、
　マイクと、
　カメラと、
　前記マイクに入力された音声信号からユーザの音声コマンドを認識する音声コマンド認識手段と、
　前記カメラで撮像された映像信号からユーザのモーションコマンドを認識するモーションコマンド認識手段と、
　前記音声コマンド認識手段により認識された音声コマンドおよび前記モーションコマンド認識手段により認識されたモーションコマンドに基づいて自装置の制御を実施する制御手段と、を備えている
　ことを特徴とするオーディオ装置。
　請求項１に記載のオーディオ装置であって、
　前記制御手段は、
　オーディオデータの出力停止中、あるいはオーディオデータの出力中において当該オーディオデータの出力音量が所定値未満の場合に、前記音声コマンド認識手段により認識された音声コマンドに基づいて自装置の制御を実施する音声コマンド認識モードで動作し、オーディオデータの出力中において当該オーディオデータの出力音量が前記所定値以上の場合に、前記モーションコマンド認識手段により認識されたモーションコマンドに基づいて自装置の制御を実施するモーショ認識モードで動作する
　ことを特徴とするオーディオ装置。
　請求項２に記載のオーディオ装置であって、
　前記制御手段の動作モードが前記音声コマンド認識モードであるか、それとも前記モーションコマンド認識モードであるかをユーザに通知する動作モード通知手段をさらに備えている
　ことを特徴とするオーディオ装置。
　請求項３に記載のオーディオ装置であって、
　前記動作モード通知手段は、
　少なくとも一つの発光ダイオードを備え、前記発光ダイオードの表示形態により前記制御手段の動作モードをユーザに通知する
　ことを特徴とするオーディオ装置。
　請求項３または４に記載のオーディオ装置であって、
　前記動作モード通知手段は、
　前記制御手段の動作モードが変更された場合に、その旨の音声メッセージを出力する
　ことを特徴とするオーディオ装置。
　請求項３ないし５のいずれか一項に記載のオーディオ装置であって、
　前記動作モード通知手段は、
　前記制御手段の動作モードが前記音声コマンド認識モードから前記モーションコマンド認識モードに変更された場合に、前記カメラに向かってジェスチャーするように促す音声メッセージを出力する
　ことを特徴とするオーディオ装置。