WO2022054321A1 - オーディオ装置 - Google Patents

オーディオ装置 Download PDF

Info

Publication number
WO2022054321A1
WO2022054321A1 PCT/JP2021/012843 JP2021012843W WO2022054321A1 WO 2022054321 A1 WO2022054321 A1 WO 2022054321A1 JP 2021012843 W JP2021012843 W JP 2021012843W WO 2022054321 A1 WO2022054321 A1 WO 2022054321A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
command recognition
motion
audio device
audio
Prior art date
Application number
PCT/JP2021/012843
Other languages
English (en)
French (fr)
Inventor
悠児 大田
Original Assignee
株式会社ディーアンドエムホールディングス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ディーアンドエムホールディングス filed Critical 株式会社ディーアンドエムホールディングス
Priority to EP21866283.1A priority Critical patent/EP4213503A1/en
Priority to US18/044,238 priority patent/US20230333807A1/en
Publication of WO2022054321A1 publication Critical patent/WO2022054321A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/02Details casings, cabinets or mounting therein for transducers covered by H04R1/02 but not provided for in any of its subgroups
    • H04R2201/028Structural combinations of loudspeakers with built-in power amplifiers, e.g. in the same acoustic enclosure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems

Definitions

  • the present invention relates to a remote control technique for an audio device such as an audio player and a wireless speaker.
  • Patent Documents 1 and 2 In recent years, audio devices having a voice operation reception function capable of receiving various operations such as playing, stopping, and increasing / decreasing the volume level of audio data have become widespread (for example, Patent Documents 1 and 2).
  • the user's voice command is recognized from the voice signal input to the microphone, and various controls of the audio device are performed based on the recognized voice command. This makes it possible to remotely control the audio device without using a remote controller.
  • the present invention has been made in view of the above circumstances, and an object of the present invention is to provide an audio device capable of remote control without using a remote controller even during audio output.
  • the audio device of the present invention has a voice command recognition function for recognizing a user's voice command from a voice signal input to a microphone, and a user's motion command from a video signal captured by a camera. It is equipped with a motion command recognition function that recognizes, and performs various controls of its own device based on the user's voice command recognized by the voice command recognition function and the motion command recognized by the motion command recognition function.
  • the present invention An audio device that outputs audio data With Mike With the camera
  • a voice command recognition means that recognizes a user's voice command from the voice signal input to the microphone
  • a motion command recognition means for recognizing a user's motion command from a video signal captured by the camera, It includes a voice command recognized by the voice command recognition means and a control means for performing various controls of the own device based on the motion command recognized by the motion command recognition means.
  • the audio device of the present invention has a motion command recognition function for recognizing a user's motion command from a video signal captured by a camera, in addition to a voice command recognition function for recognizing a user's voice command from a voice signal input to a microphone. It is installed. Therefore, even if the output volume of the audio is so loud that the user's voice command cannot be correctly recognized from the voice signal input to the microphone during the audio output, the remote control can be accepted from the user by the gesture. Therefore, according to the audio device of the present invention, remote control is possible without using a remote controller even during audio output.
  • FIG. 1 is a schematic configuration diagram of an audio system including a wireless speaker 1 according to an embodiment of the present invention.
  • FIG. 2 is a schematic functional configuration diagram of the wireless speaker 1.
  • FIG. 3 is a flow chart for explaining the operation mode setting process of the wireless speaker 1 shown in FIG.
  • FIG. 1 is a schematic configuration diagram of an audio system including the wireless speaker 1 according to the present embodiment.
  • the wireless speaker 1 is connected to the media server 2 via the access point 3 and the network 4 such as WAN and LAN, and the audio data is downloaded from the media server 2 and played back. ⁇ Output.
  • FIG. 2 is a schematic functional configuration diagram of the wireless speaker 1.
  • the wireless speaker 1 includes a speaker 10, a microphone 11, a camera 12, an LED array 13 composed of a plurality of LEDs, a wireless network interface unit 14, an audio data storage unit 15, and audio reproduction. It includes a unit 16, a voice command recognition unit 17, a motion command recognition unit 18, an LED activation unit 19, and a main control unit 20.
  • the speaker 10, the microphone 11, the camera 12, and the LED array 13 are provided in front of the wireless speaker 1, and the microphone 11 collects the sound of the listener at the listening point of the speaker 10.
  • the camera 12 takes an image of the listener at the listening point of the speaker 10.
  • the LED array 13 informs the listener of the operation mode of the wireless speaker 1 (either the voice command recognition mode or the motion command recognition mode described later) by the display form of the plurality of LEDs.
  • the wireless network interface unit 14 is an interface for wirelessly connecting to the access point 3.
  • the audio data storage unit 15 stores the audio data downloaded from the media server 2.
  • the audio reproduction unit 16 reproduces the audio data stored in the audio data storage unit 15 and outputs the reproduction signal from the speaker 10.
  • the voice command recognition unit 17 performs voice recognition processing on the voice signal input to the microphone 11 and recognizes the utterance content of the listener. Then, the listener's voice command is detected from the recognition result. For example, “start playback” to instruct to start playback of audio data, “stop playback” to instruct to stop playback of audio data, "switch music selection” to instruct switching of audio data to be played, and instruct to increase the volume of playback sound. Detects voice commands such as “volume up” and "volume down” that instructs the volume down of the playback sound.
  • the techniques described in the above-mentioned Patent Documents 1, 2, and the like can be used.
  • the motion command recognition unit 18 performs motion recognition processing on the video signal captured by the camera 12 and recognizes the gesture of the listener. Then, the motion command of the listener is detected from the recognition result. For example, “gesture to turn one hand from the raised state” to instruct to switch the audio data to be played, “gesture to shake left and right from the raised state to the left and right” to stop the playback of audio data, and the volume of the playback sound. It detects a “gesture that lowers one hand and raises the hand from a stopped state” that instructs to raise, a “gesture that raises one hand and lowers the hand from a stopped state” that instructs the volume down of the playback sound, and the like.
  • the motion command recognition unit 18 for example, the techniques described in International Publication WO2016 / 051521, Special Table 2013-517501, and the like can be used.
  • the LED activation unit 19 controls the drive of each LED constituting the LED array 13.
  • the main control unit 20 comprehensively controls each unit 10 to 19 of the wireless speaker 1.
  • the operation mode is the voice command recognition mode
  • the main control unit 20 performs various controls of the wireless speaker 1 based on the voice command detected by the voice command recognition unit 17, and the operation mode is motion command recognition.
  • various controls of the wireless speaker 1 are performed based on the motion command detected by the motion command recognition unit 18.
  • the main control unit 20 sets the operation mode based on the reproduction state of the audio data, and causes the LED drive unit 19 to drive the LED array 13 in a display form according to the operation mode.
  • the functional configuration of the wireless speaker 1 shown in FIG. 2 may be realized by an integrated logic IC such as an ASIC (Application Specific Integrated Circuit), an FPGA (Field Programmable Gate Array), or a DSP (Digital). It may be realized by software by a computer such as Signal Processor). Alternatively, in a computer system including a CPU, a memory, an auxiliary storage device such as a flash memory and a hard disk drive, and a wireless communication device such as a wireless LAN adapter, the CPU transfers a predetermined program from the auxiliary storage device to the memory. It may be realized by loading and executing.
  • an integrated logic IC such as an ASIC (Application Specific Integrated Circuit), an FPGA (Field Programmable Gate Array), or a DSP (Digital). It may be realized by software by a computer such as Signal Processor).
  • a computer system including a CPU, a memory, an auxiliary storage device such as a flash memory and a hard disk drive, and a wireless communication device such as a wireless LAN
  • FIG. 3 is a flow diagram for explaining the operation mode setting process of the wireless speaker 1 shown in FIG.
  • the main control unit 20 is when the audio reproduction unit 16 is not playing audio data (NO in S100) or is playing audio data (YES in S100), but the output volume is less than a predetermined threshold value. (NO in S101), the operation mode of the wireless speaker 1 is set to the voice command recognition mode (S102). As a result, the main control unit 20 performs various controls of the wireless speaker 1 based on the voice command detected by the voice command recognition unit 17. Further, the main control unit 20 instructs the LED activation unit 19 to display the voice command recognition mode. In response to this, the LED activation unit 19 lights and displays the LED array 13 according to the display mode of the voice command recognition mode (S103). For example, all the LEDs constituting the LED array 13 are turned on.
  • the main control unit 20 sets the operation mode of the wireless speaker 1 to the motion command recognition mode. Set (S104). As a result, the main control unit 20 performs various controls of the wireless speaker 1 based on the motion command detected by the motion command recognition unit 18. Further, the main control unit 20 instructs the LED activation unit 19 to display the motion command recognition mode. In response to this, the LED activation unit 19 lights and displays the LED array 13 according to the display mode of the motion command recognition mode (S105). For example, the LEDs constituting the LED array 13 are repeatedly blinked in a predetermined order.
  • the wireless speaker 1 of the present embodiment performs voice recognition processing on the voice signal input to the microphone 11, recognizes the listener's utterance, and detects the listener's voice command from the recognition result.
  • a motion command recognition unit 18 that performs motion recognition processing on the video signal captured by the camera 12 to recognize the listener's gesture and detects the listener's motion command from the recognition result is provided. ing. Therefore, even if the output volume of the audio data is so loud that the listener's voice command cannot be correctly recognized from the voice signal input to the microphone 11 during the reproduction of the audio data, the remote control can be accepted from the listener by the gesture. .. Therefore, according to the present embodiment, remote control is possible without using a remote controller even during playback of audio data.
  • the wireless speaker 1 of the present embodiment operates in the voice command recognition mode when the output volume is less than a predetermined threshold even when the playback of the audio data is stopped or the playback of the audio data is being played, and the audio It operates in the motion command recognition mode when the output volume is equal to or higher than a predetermined threshold during data reproduction, that is, when there is a high possibility that the voice command cannot be recognized correctly.
  • the voice command recognition mode the operation of the camera 12 and the motion command recognition unit 18 is stopped, and in the motion command recognition mode, the operation of the microphone 11 and the voice command recognition unit 17 is stopped, so that unnecessary power consumption is consumed. Can be reduced to save power.
  • the wireless speaker 1 of the present embodiment can inform the listener of the current operation mode by changing the display form of the LED array 13 according to the operation mode, the listener is appropriate according to the operation mode.
  • the wireless speaker 1 can be remotely controlled by various methods (speech of voice command, gesture corresponding to motion command).
  • the present invention is not limited to the above embodiment, and many modifications can be made within the scope of the gist thereof.
  • the listener is notified of the operation mode by changing the display form of the LED array 13 composed of a plurality of LEDs, but the display form (lighting, blinking, etc.) of a single LED is used.
  • the listener may be informed of the operating mode.
  • the operation mode may be displayed on a display panel such as an LCD.
  • a voice message to that effect may be output from the speaker 10 when the operation mode is changed. That is, when the operation mode is changed, the main control unit 20 notifies the audio reproduction unit 16 of the changed operation mode and instructs the voice message output. In response to this, the audio reproduction unit 16 reproduces the sound source corresponding to the notified operation mode, and outputs a voice message indicating that the notified operation mode has been changed from the speaker 10.
  • a voice message prompting the listener to make a gesture toward the camera 12 is output.
  • the main control unit 20 notifies the audio reproduction unit 16 of the change to the motion command recognition mode and instructs the voice message output.
  • the audio reproduction unit 16 reproduces the sound source corresponding to the motion recognition operation mode, and causes the listener to make a gesture toward the camera 12 because the operation mode has been changed to the motion recognition operation mode.
  • a urging voice message is output from the speaker 10.
  • the above embodiment operates in the voice command recognition mode when the output volume is less than a predetermined threshold even when the playback of the audio data is stopped or the playback of the audio data is being played, and the playback of the audio data is performed. It operates in the motion command recognition mode when the output volume is equal to or higher than a predetermined threshold, that is, when there is a high possibility that the voice command cannot be recognized correctly.
  • the present invention is not limited to this.
  • the volume level of the environmental noise component included in the voice signal input to the microphone 11 is monitored, and when the volume level of the environmental noise component is less than a predetermined threshold value, the operation is performed in the voice command recognition mode and the threshold value is equal to or higher than the predetermined threshold value.
  • the motion command recognition mode may be operated.
  • both the voice command recognition mode and the motion command recognition mode may be operated at the same time. That is, when the microphone 11 and the voice command recognition unit 17 and the camera 12 and the motion command recognition unit 18 are operated at the same time and the voice command recognition unit 17 recognizes the voice command, the wireless speaker 1 follows the voice command. When various controls are performed and the motion command is recognized by the motion command recognition unit 18, various controls of the wireless speaker 1 may be performed according to the motion commands.
  • a case where a command is assigned to a gesture by a hand is given as an example, but for example, a gesture by a part other than the hand such as a finger, a face (eyes, eyes, mouth, etc.), or a plurality of gestures. Commands may be assigned to the combination of gestures by part.
  • the command is assigned to the predetermined gesture, but the command may be assigned to the gesture defined by the listener.
  • the correspondence information between the command and the gesture is stored in the wireless speaker 1, and these correspondence information is stored.
  • the wireless speaker 1 may recognize the command from the listener's gesture according to the correspondence information selected by the listener. As a result, the listener can operate the wireless speaker 1 with the same gesture as other electronic devices used by the listener.
  • the wireless speaker 1 has been described as an example, but the present invention can be widely applied to an audio device that outputs audio data such as an audio player and an audio amplifier.
  • Wireless speaker 2 Media server 3: Access point 4: Network 10: Speaker 11: Microphone 12: Camera 13: LED array 14: Wireless network interface unit 15: Audio data storage unit 16: Audio playback unit 17: Voice command recognition Unit 18: Motion command recognition unit 19: LED drive unit 20: Main control unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】オーディオ出力中でもリモートコントローラを用いることなく遠隔操作が可能なオーディオ装置を提供する。 【解決手段】ワイヤレススピーカ1は、マイク11に入力された音声信号に対して音声認識処理を実施してリスナーの発話を認識し、その認識結果からリスナーの音声コマンドを検出する音声コマンド認識部17に加えて、カメラ12で撮像された映像信号に対してモーション認識処理を実施してリスナーのジェスチャーを認識し、その認識結果からリスナーのモーションコマンドを検出するモーションコマンド認識部18と、音声コマンド認識部17により認識された音声コマンドおよびモーションコマンド認識部18により認識されたモーションコマンドに基づいてワイヤレススピーカ1の各種制御を実施する主制御部20と、を備えている。

Description

オーディオ装置
 本発明は、オーディオプレーヤ、ワイヤレススピーカ等のオーディオ装置の遠隔操作技術に関する。
 近年、オーディオデータの再生、停止、音量レベルの増減等の各種操作を音声で受け付けることができる音声操作受付機能を有するオーディオ装置が普及している(例えば、特許文献1、2)。
 この種のオーディオ装置では、マイクに入力された音声信号からユーザの音声コマンドを認識し、認識した音声コマンドに基づいてオーディオ装置の各種制御を実施する。これにより、リモートコントローラを用いることなくオーディオ装置を遠隔操作することができる。
特開2014-219614号公報 特開2014-026603号公報
 しかしながら、従来の音声操作受付機能を有するオーディオ装置では、オーディオの出力音量が大きいと、オーディオ出力中にマイクに入力された音声信号からユーザの音声コマンドを正しく認識できず、音声操作の受付に失敗することがある。このような場合、ユーザは、オーディオ装置の設置場所まで移動して、オーディオ装置の操作パネルを操作して指示を直接入力しなければならず煩雑である。
 本発明は上記事情に鑑みてなされたものであり、その目的は、オーディオ出力中でもリモートコントローラを用いることなく遠隔操作が可能なオーディオ装置を提供することにある。
 上記課題を解決するために、本発明のオーディオ装置は、マイクに入力された音声信号からユーザの音声コマンドを認識する音声コマンド認識機能に加えて、カメラで撮像された映像信号からユーザのモーションコマンドを認識するモーションコマンド認識機能を搭載し、音声コマンド認識機能により認識されたユーザの音声コマンドおよびモーションコマンド認識機能により認識されたモーションコマンドに基づいて、自装置の各種制御を実施する。
 例えば、本発明は、
 オーディオデータを出力するオーディオ装置であって、
 マイクと、
 カメラと、
 前記マイクに入力された音声信号からユーザの音声コマンドを認識する音声コマンド認識手段と、
 前記カメラで撮像された映像信号からユーザのモーションコマンドを認識するモーションコマンド認識手段と、
 前記音声コマンド認識手段により認識された音声コマンドおよび前記モーションコマンド認識手段により認識されたモーションコマンドに基づいて自装置の各種制御を実施する制御手段と、を備えている。
 本発明のオーディオ装置は、マイクに入力された音声信号からユーザの音声コマンドを認識する音声コマンド認識機能に加えて、カメラで撮像された映像信号からユーザのモーションコマンドを認識するモーションコマンド認識機能を搭載している。このため、オーディオ出力中に、オーディオの出力音量が大きくて、マイクに入力された音声信号からユーザの音声コマンドを正しく認識できない場合でも、ジェスチャーによりユーザから遠隔操作を受け付けることができる。したがって、本発明のオーディオ装置によれば、オーディオ出力中でもリモートコントローラを用いることなく遠隔操作が可能となる。
図1は、本発明の一実施の形態に係るワイヤレススピーカ1を備えたオーディオシステムの概略構成図である。 図2は、ワイヤレススピーカ1の概略機能構成図である。 図3は、図2に示すワイヤレススピーカ1の動作モード設定処理を説明するためのフロー図である。
 以下に、本発明の一実施の形態について、図面を参照して説明する。
 図1は、本実施の形態に係るワイヤレススピーカ1を備えたオーディオシステムの概略構成図である。
 図示するように、本実施の形態に係るワイヤレススピーカ1は、アクセスポイント3およびWAN、LAN等のネットワーク4を介してメディアサーバ2に接続されており、メディアサーバ2からオーディオデータをダウンロードして再生・出力する。
 図2は、ワイヤレススピーカ1の概略機能構成図である。
 図示するように、ワイヤレススピーカ1は、スピーカ10と、マイク11と、カメラ12と、複数のLEDで構成されたLEDアレイ13と、無線ネットワークインターフェース部14と、オーディオデータ記憶部15と、オーディオ再生部16と、音声コマンド認識部17と、モーションコマンド認識部18と、LED起動部19と、主制御部20と、を備えている。
 スピーカ10、マイク11、カメラ12、およびLEDアレイ13は、図1に示すように、ワイヤレススピーカ1の前面に設けられ、マイク11は、スピーカ10のリスニングポイントにいるリスナーの音声を集音し、カメラ12は、スピーカ10のリスニングポイントにいるリスナーを撮像する。また、LEDアレイ13は、複数のLEDの表示形態によりワイヤレススピーカ1の動作モード(後述の音声コマンド認識モードおよびモーションコマンド認識モードのいずれか)をリスナーに知らせる。
 無線ネットワークインターフェース部14は、アクセスポイント3に無線接続するためのインターフェースである。
 オーディオデータ記憶部15には、メディアサーバ2からダウンロードしたオーディオデータが記憶される。
 オーディオ再生部16は、オーディオデータ記憶部15に記憶されているオーディオデータを再生して、その再生信号をスピーカ10から出力する。
 音声コマンド認識部17は、マイク11に入力された音声信号に対する音声認識処理を実施して、リスナーの発話内容を認識する。そして、その認識結果からリスナーの音声コマンドを検出する。例えば、オーディオデータの再生開始を指示する「再生開始」、オーディオデータの再生停止を指示する「再生停止」、再生するオーディオデータの切替えを指示する「選曲切替」、再生音の音量アップを指示する「音量アップ」、再生音の音量ダウンを指示する「音量ダウン」等の音声コマンドを検出する。音声コマンド認識部17には、例えば、上述の特許文献1、2等に記載の技術を利用することができる。
 モーションコマンド認識部18は、カメラ12で撮像された映像信号に対するモーション認識処理を実施して、リスナーのジェスチャーを認識する。そして、その認識結果からリスナーのモーションコマンドを検出する。例えば、再生するオーディオデータの切替えを指示する「片手を上げた状態からその手を回すジェスチャー」、オーディオデータの再生停止を指示する「両手を上げた状態から左右に振るジェスチャー」、再生音の音量アップを指示する「片手を下げて停止した状態からその手を上げるジェスチャー」、再生音の音量ダウンを指示する「片手を上げて停止した状態からその手を下げるジェスチャー」等を検出する。モーションコマンド認識部18には、例えば、国際公開WO2016/051521号、特表2013-517051号等に記載の技術を利用することができる。
 LED起動部19は、LEDアレイ13を構成する各LEDの駆動を制御する。
 そして、主制御部20は、ワイヤレススピーカ1の各部10~19を統括的に制御する。例えば、主制御部20は、動作モードが音声コマンド認識モードである場合、音声コマンド認識部17により検出された音声コマンドに基づいて、ワイヤレススピーカ1の各種制御を実施し、動作モードがモーションコマンド認識モードである場合、モーションコマンド認識部18により検出されたモーションコマンドに基づいて、ワイヤレススピーカ1の各種制御を実施する。また、主制御部20は、オーディオデータの再生状態に基づいて動作モードを設定するとともに、LED駆動部19に、動作モードに応じた表示形態でLEDアレイ13を駆動させる。
 なお、図2に示すワイヤレススピーカ1の機能構成は、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の集積ロジックICによりハード的に実現されるものでもよいし、あるいはDSP(Digital Signal Processor)等の計算機によりソフトウエア的に実現されるものでもよい。または、CPUと、メモリと、フラッシュメモリ、ハードディスクドライブ等の補助記憶装置と、無線LANアダプタ等の無線通信装置と、を備えたコンピュータシステムにおいて、CPUが所定のプログラムを補助記憶装置からメモリ上にロードして実行することにより実現されるものでもよい。
 図3は、図2に示すワイヤレススピーカ1の動作モード設定処理を説明するためのフロー図である。
 主制御部20は、オーディオ再生部16がオーディオデータを再生中でない場合(S100でNO)、あるいはオーディオデータを再生中であるが(S100でYES)、その出力音量が所定の閾値未満である場合(S101でNO)、ワイヤレススピーカ1の動作モードを音声コマンド認識モードに設定する(S102)。これにより、主制御部20は、音声コマンド認識部17により検出された音声コマンドに基づいて、ワイヤレススピーカ1の各種制御を実施する。また、主制御部20は、LED起動部19に音声コマンド認識モード表示を指示する。これを受けて、LED起動部19は、音声コマンド認識モードの表示形態によりLEDアレイ13を点灯表示させる(S103)。例えば、LEDアレイ13を構成するLEDをすべて点灯させる。
 また、主制御部20は、オーディオ再生部16が所定の閾値以上の出力音量でオーディオデータを再生中である場合(S100、S101でともにYES)、ワイヤレススピーカ1の動作モードをモーションコマンド認識モードに設定する(S104)。これにより、主制御部20は、モーションコマンド認識部18により検出されたモーションコマンドに基づいて、ワイヤレススピーカ1の各種制御を実施する。また、主制御部20は、LED起動部19にモーションコマンド認識モード表示を指示する。これを受けて、LED起動部19は、モーションコマンド認識モードの表示形態によりLEDアレイ13を点灯表示させる(S105)。例えば、LEDアレイ13を構成するLEDを繰り返し所定の順番で点滅させる。
 以上、本発明の一実施の形態について説明した。
 本実施の形態のワイヤレススピーカ1は、マイク11に入力された音声信号に対して音声認識処理を実施してリスナーの発話を認識し、その認識結果からリスナーの音声コマンドを検出する音声コマンド認識部17に加えて、カメラ12で撮像された映像信号に対してモーション認識処理を実施してリスナーのジェスチャーを認識し、その認識結果からリスナーのモーションコマンドを検出するモーションコマンド認識部18と、を備えている。このため、オーディオデータの再生中において、オーディオデータの出力音量が大きくて、マイク11に入力された音声信号からリスナーの音声コマンドを正しく認識できない場合でも、ジェスチャーによりリスナーから遠隔操作を受け付けることができる。したがって、本実施の形態によれば、オーディオデータの再生中でもリモートコントローラを用いることなく遠隔操作が可能となる。
 また、本実施の形態のワイヤレススピーカ1は、オーディオデータの再生停止中、あるいはオーディオデータの再生中であってもその出力音量が所定の閾値未満の場合には音声コマンド認識モードで動作し、オーディオデータの再生中においてその出力音量が所定の閾値以上の場合に、すなわち、音声コマンドを正しく認識できない可能性が高い場合にモーションコマンド認識モードで動作する。音声コマンド認識モードの場合は、カメラ12およびモーションコマンド認識部18の動作を停止し、モーションコマンド認識モードの場合は、マイク11および音声コマンド認識部17の動作を停止することにより、不要な電力消費を削減して省電力化を図ることができる。
 また、本実施の形態のワイヤレススピーカ1は、動作モードに応じてLEDアレイ13の表示形態を変えることにより、現在の動作モードをリスナーに知らせることができるので、リスナーは、動作モードに応じた適切な方法(音声コマンドの発話、モーションコマンドに応じたジェスチャー)によりワイヤレススピーカ1を遠隔操作することができる。
 なお、本発明は上記の実施の形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。
 例えば、上記の実施の形態では、複数のLEDで構成されたLEDアレイ13の表示形態を変えることによりリスナーに動作モードを知らせているが、単一のLEDの表示形態(点灯、点滅等)によりリスナーに動作モードを知らせるようにしてもよい。また、LEDアレイ13に代えてLCD等の表示パネルに動作モードを表示してもよい。さらには、LEDアレイ13による点灯表示に代えて、あるいは、LEDアレイ13よる点灯表示とともに、動作モードが変更された場合にその旨の音声メッセージをスピーカ10から出力するようにしてもよい。すなわち、主制御部20は、動作モードが変更されると、オーディオ再生部16に変更後の動作モードを通知して音声メッセージ出力を指示する。これを受けて、オーディオ再生部16は、通知された動作モードに対応する音源を再生して、通知された動作モードに変更されたことを示す音声メッセージをスピーカ10から出力する。
 また、上記の実施の形態において、動作モードが音声コマンド認識モードからモーションコマンド認識モードに変更された場合に、リスナーに対して、カメラ12に向かってジェスチャーするように促す音声メッセージを出力するようにしてもよい。すなわち、主制御部20は、動作モードが音声コマンド認識モードからモーションコマンド認識モードに変更されると、オーディオ再生部16にモーションコマンド認識モードへの変更を通知して音声メッセージ出力を指示する。これを受けて、オーディオ再生部16は、モーション認識作モードに対応する音源を再生して、リスナーに対して、動作モードがモーション認識作モードに変更されたのでカメラ12に向かってジェスチャーするように促す音声メッセージをスピーカ10から出力する。
 また、上記の実施の形態は、オーディオデータの再生停止中、あるいはオーディオデータの再生中であってもその出力音量が所定の閾値未満の場合に、音声コマンド認識モードで動作し、オーディオデータの再生中においてその出力音量が所定の閾値以上の場合に、すなわち、音声コマンドを正しく認識できない可能性が高い場合に、モーションコマンド認識モードで動作する。しかし、本発明はこれに限定されない。
 例えば、マイク11に入力された音声信号に含まれる環境ノイズ成分の音量レベルを監視し、環境ノイズ成分の音量レベルが所定の閾値未満の場合に、音声コマンド認識モードで動作し、所定の閾値以上の場合に、すなわち、音声コマンドを正しく認識できない可能性が高い場合に、モーションコマンド認識モードで動作するようにしてもよい。
 あるいは、音声コマンド認識モードおよびモーションコマンド認識モードの両方を同時に稼働させてもよい。すなわち、マイク11および音声コマンド認識部17と、カメラ12およびモーションコマンド認識部18と、を同時に稼働させ、音声コマンド認識部17により音声コマンドが認識された場合は、この音声コマンドに従ってワイヤレススピーカ1の各種制御を実施し、モーションコマンド認識部18によりモーションコマンドが認識された場合は、このモーションコマンドに従ってワイヤレススピーカ1の各種制御を実施してもよい。
 また、上記の実施の形態では、手によるジェスチャーにコマンドを割り当てた場合を例として挙げているが、例えば、指、顔(目、眼球、口等)等の手以外の部位によるジェスチャー、複数の部位によるジェスチャーの組合せにコマンドを割り当ててもよい。
 また、上記の実施の形態では、あらかじめ定められたジェスチャーにコマンドを割り当てているが、リスナーが定めたジェスチャーにコマンドを割り当てるようにしてもよい。または、ジェスチャーによるコマンド入力を採用している他の電子機器(スマートフォン、タブレットPC、ポータブルオーディオプレーヤ等)ごとに、コマンドとジェスチャーとの対応情報をワイヤレススピーカ1に記憶しておき、これらの対応情報のなかからリスナーが選択した対応情報に従ってワイヤレススピーカ1がリスナーのジェスチャーからコマンドを認識するようにしてもよい。これにより、リスナーは、自身が使用している他の電子機器と同じジェスチャーでワイヤレススピーカ1を操作することができる。
 また、上記の実施の形態では、ワイヤレススピーカ1を例にとり説明したが、本発明は、オーディオプレーヤ、オーディオアンプ等のオーディオデータを出力するオーディオ装置に広く適用することができる。
 1:ワイヤレススピーカ  2:メディアサーバ  3:アクセスポイント
 4:ネットワーク  10:スピーカ  11:マイク  12:カメラ
 13:LEDアレイ  14:無線ネットワークインターフェース部
 15:オーディオデータ記憶部  16:オーディオ再生部
 17:音声コマンド認識部  18:モーションコマンド認識部
 19:LED駆動部  20:主制御部

Claims (6)

  1.  オーディオデータを出力するオーディオ装置であって、
     マイクと、
     カメラと、
     前記マイクに入力された音声信号からユーザの音声コマンドを認識する音声コマンド認識手段と、
     前記カメラで撮像された映像信号からユーザのモーションコマンドを認識するモーションコマンド認識手段と、
     前記音声コマンド認識手段により認識された音声コマンドおよび前記モーションコマンド認識手段により認識されたモーションコマンドに基づいて自装置の制御を実施する制御手段と、を備えている
     ことを特徴とするオーディオ装置。
  2.  請求項1に記載のオーディオ装置であって、
     前記制御手段は、
     オーディオデータの出力停止中、あるいはオーディオデータの出力中において当該オーディオデータの出力音量が所定値未満の場合に、前記音声コマンド認識手段により認識された音声コマンドに基づいて自装置の制御を実施する音声コマンド認識モードで動作し、オーディオデータの出力中において当該オーディオデータの出力音量が前記所定値以上の場合に、前記モーションコマンド認識手段により認識されたモーションコマンドに基づいて自装置の制御を実施するモーショ認識モードで動作する
     ことを特徴とするオーディオ装置。
  3.  請求項2に記載のオーディオ装置であって、
     前記制御手段の動作モードが前記音声コマンド認識モードであるか、それとも前記モーションコマンド認識モードであるかをユーザに通知する動作モード通知手段をさらに備えている
     ことを特徴とするオーディオ装置。
  4.  請求項3に記載のオーディオ装置であって、
     前記動作モード通知手段は、
     少なくとも一つの発光ダイオードを備え、前記発光ダイオードの表示形態により前記制御手段の動作モードをユーザに通知する
     ことを特徴とするオーディオ装置。
  5.  請求項3または4に記載のオーディオ装置であって、
     前記動作モード通知手段は、
     前記制御手段の動作モードが変更された場合に、その旨の音声メッセージを出力する
     ことを特徴とするオーディオ装置。
  6.  請求項3ないし5のいずれか一項に記載のオーディオ装置であって、
     前記動作モード通知手段は、
     前記制御手段の動作モードが前記音声コマンド認識モードから前記モーションコマンド認識モードに変更された場合に、前記カメラに向かってジェスチャーするように促す音声メッセージを出力する
     ことを特徴とするオーディオ装置。
PCT/JP2021/012843 2020-09-10 2021-03-26 オーディオ装置 WO2022054321A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP21866283.1A EP4213503A1 (en) 2020-09-10 2021-03-26 Audio device
US18/044,238 US20230333807A1 (en) 2020-09-10 2021-03-26 Audio device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-151986 2020-09-10
JP2020151986A JP2022046108A (ja) 2020-09-10 2020-09-10 オーディオ装置

Publications (1)

Publication Number Publication Date
WO2022054321A1 true WO2022054321A1 (ja) 2022-03-17

Family

ID=80631505

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/012843 WO2022054321A1 (ja) 2020-09-10 2021-03-26 オーディオ装置

Country Status (4)

Country Link
US (1) US20230333807A1 (ja)
EP (1) EP4213503A1 (ja)
JP (1) JP2022046108A (ja)
WO (1) WO2022054321A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013517051A (ja) 2010-01-15 2013-05-16 マイクロソフト コーポレーション モーション・キャプチャー・システムにおけるユーザー意図の認識
WO2016051521A1 (ja) 2014-09-30 2016-04-07 三菱電機エンジニアリング株式会社 画面操作装置及び画面操作方法
US20190371334A1 (en) * 2014-11-26 2019-12-05 Panasonic Intellectual Property Corporation of Ame Method and apparatus for recognizing speech by lip reading
US20190394602A1 (en) * 2018-06-22 2019-12-26 EVA Automation, Inc. Active Room Shaping and Noise Control
WO2020079941A1 (ja) * 2018-10-15 2020-04-23 ソニー株式会社 情報処理装置及び情報処理方法、並びにコンピュータプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013517051A (ja) 2010-01-15 2013-05-16 マイクロソフト コーポレーション モーション・キャプチャー・システムにおけるユーザー意図の認識
WO2016051521A1 (ja) 2014-09-30 2016-04-07 三菱電機エンジニアリング株式会社 画面操作装置及び画面操作方法
US20190371334A1 (en) * 2014-11-26 2019-12-05 Panasonic Intellectual Property Corporation of Ame Method and apparatus for recognizing speech by lip reading
US20190394602A1 (en) * 2018-06-22 2019-12-26 EVA Automation, Inc. Active Room Shaping and Noise Control
WO2020079941A1 (ja) * 2018-10-15 2020-04-23 ソニー株式会社 情報処理装置及び情報処理方法、並びにコンピュータプログラム

Also Published As

Publication number Publication date
US20230333807A1 (en) 2023-10-19
JP2022046108A (ja) 2022-03-23
EP4213503A1 (en) 2023-07-19

Similar Documents

Publication Publication Date Title
KR102016690B1 (ko) 애플리케이션 프로그램 제어 방법 및 장치, 그리고 전자 장치
CN111177453B (zh) 控制音频播放的方法、装置、设备及计算机可读存储介质
JP7114531B2 (ja) イヤーセット制御方法およびシステム
KR20140021115A (ko) 단말기 상태 전환 제어 방법 및 이를 지원하는 단말기
US8244313B2 (en) Method and electronic device capable of saving power
WO2015131550A1 (zh) 一种控制播放器进入睡眠模式的方法、装置及终端设备
CN105760154A (zh) 一种音频控制方法和装置
JP4772901B2 (ja) 電子機器
US20210151044A1 (en) Audio Device and Computer Readable Program
CN102598698A (zh) 用于会议室的显示系统及其控制方法
JP4880245B2 (ja) プロジェクタおよびその制御方法
WO2022054321A1 (ja) オーディオ装置
WO2020203208A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP6919710B2 (ja) 電子機器制御システム、音声出力装置及びそれらの方法
CN106233247B (zh) 音频装置、音频系统和音量值控制方法
JP5262526B2 (ja) 映像音声再生システム、av増幅装置およびプログラム
KR102407275B1 (ko) 이어셋 제어 방법 및 시스템
JP6341047B2 (ja) オーディオ装置
CN103945305A (zh) 一种信息处理的方法及电子设备
JP2004233794A (ja) 音声認識装置、及び音声認識方法
JP2022046108A5 (ja)
WO2023159717A1 (zh) 耳机的运行控制方法、指环耳机及存储介质
CN114828171A (zh) 电源管理方法、电源管理装置及存储介质
KR20170024393A (ko) 빔 프로젝터 일체형 도킹 스피커
JP2009032351A (ja) 記録再生装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21866283

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021866283

Country of ref document: EP

Effective date: 20230411