WO2023136385A1 - 발화인지를 지원하는 이어버드 및 관련 방법 - Google Patents

발화인지를 지원하는 이어버드 및 관련 방법 Download PDF

Info

Publication number
WO2023136385A1
WO2023136385A1 PCT/KR2022/000825 KR2022000825W WO2023136385A1 WO 2023136385 A1 WO2023136385 A1 WO 2023136385A1 KR 2022000825 W KR2022000825 W KR 2022000825W WO 2023136385 A1 WO2023136385 A1 WO 2023136385A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
vad
earbud
detection result
signal
Prior art date
Application number
PCT/KR2022/000825
Other languages
English (en)
French (fr)
Inventor
이상원
신동성
안예한
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to PCT/KR2022/000825 priority Critical patent/WO2023136385A1/ko
Publication of WO2023136385A1 publication Critical patent/WO2023136385A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback

Definitions

  • the following description is an earbud and related method for supporting speech recognition with improved noise and malfunction due to noise.
  • Earbuds are devices that are wired or wirelessly connected to various types of electronic devices, such as portable media players, smartphones, tablet computers, laptop computers, stereo systems, and other types of devices, to provide users with sound output from the electronic devices. am.
  • a wired earbud includes one or more small speakers configured to be placed over, in, or near a user's ear, structural components that hold the speaker in place, and a cable that electrically connects the earbud to an electronic device.
  • a wireless earbud may be a wireless device that does not include a cable and instead wirelessly receives a stream of audio data from a wireless sound source.
  • Embodiment(s) makes an earbud, a head mounted display (HMD), and a method related thereto for performing speech recognition by simultaneously using a VPU sensor and an earbud internal microphone as technical challenges.
  • HMD head mounted display
  • an earbud supporting voice activity detection includes: a first filter unit filtering a first signal input through a microphone; a first VAD unit performing speech recognition on the signal that has passed through the first filter unit; a second filter unit filtering a second signal input through a bone conduction VPU (Voice Pick Up) sensor; a second VAD unit performing speech recognition on the signal that has passed through the second filter unit; and a determining unit that compares a detection result of the first VAD unit and a detection result of the second VAD unit to determine whether or not to ignite.
  • VPU Voice Pick Up
  • a voice activity detection (VAD) determining method includes filtering a first signal input through a microphone; performing speech recognition on the filtered first signal; Filtering the second signal input through the bone conduction VPU (Voice Pick Up) sensor; performing speech recognition on the filtered second signal; and comparing a speech recognition detection result related to the first signal and a speech recognition detection result related to the second signal to determine whether speech occurs.
  • VPU Voice Pick Up
  • the first VAD unit and the second VAD unit may simultaneously detect whether speech is spoken.
  • the determination unit determines that both the detection result of the first VAD unit and the detection result of the second VAD unit are ignition detection. , can be judged by ignition.
  • the first filter unit and the second filter unit may each correspond to a high pass filter (HPF).
  • HPF high pass filter
  • the microphone may be muted.
  • playback of content being played in the earbuds may be stopped.
  • the volume of the earbud may be lowered to a preset level.
  • the first filter unit, the second filter unit, the first VAD unit, the second VAD unit, and the determination unit may be included in a DSP (Digital Signal Processor) unit, and the DSP may be included in the earbud. there is.
  • DSP Digital Signal Processor
  • the microphone and the bone conduction VPU (Voice Pick Up) sensor may be included in the earbud.
  • the first signal is a digital signal obtained by passing an analog signal input through the microphone through a first ADC
  • the second signal is a digital signal obtained by passing an analog signal input through the bone conduction VPU sensor through a first ADC.
  • a head mounted display (HMD) supporting voice activity detection (VAD) includes: a display unit providing an image to a user; a wearing unit for providing the display unit to be worn on the user's head; an earbud that provides sound related to the image to the user; A first filter unit for filtering the first signal input through the microphone; a first VAD unit performing speech recognition on the signal that has passed through the first filter unit; a second filter unit filtering a second signal input through a bone conduction VPU (Voice Pick Up) sensor; a second VAD unit performing speech recognition on the signal that has passed through the second filter unit; and a determining unit that compares a detection result of the first VAD unit and a detection result of the second VAD unit to determine whether or not to ignite.
  • VPU Voice Pick Up
  • the first filter unit, the second filter unit, the first VAD unit, the second VAD unit, and the determination unit may be included in a DSP unit, and the DSP unit may be included in one of the HMD or the earbuds. there is.
  • the microphone and the bone conduction VPU (Voice Pick Up) sensor may be included in the earbud.
  • the first VAD unit and the second VAD unit may simultaneously detect whether speech is spoken.
  • the determination unit determines that both the detection result of the first VAD unit and the detection result of the second VAD unit are ignition detection. , can be judged by ignition.
  • playback of content being played in the earbuds may be stopped.
  • the microphone may be muted.
  • playback of content being played in the earbuds may be stopped.
  • the volume of the earbud may be lowered to a preset level.
  • a voice activity detection (VAD) determining method includes filtering a first signal input through a microphone; performing speech recognition on the filtered first signal; Filtering the second signal input through the bone conduction VPU (Voice Pick Up) sensor; performing speech recognition on the filtered second signal; and comparing a speech recognition detection result related to the first signal and a speech recognition detection result related to the second signal to determine whether speech occurs.
  • VPU Voice Pick Up
  • FIG. 1 shows a DSP block according to an embodiment.
  • 2 to 4 are diagrams for explaining whether it is utterance according to an embodiment.
  • FIG. 5 shows an earbud configuration according to one embodiment.
  • FIG. 6 is a view for explaining the arrangement of each part according to an embodiment.
  • FIG. 7 is a flowchart illustrating a speech recognition method according to an exemplary embodiment.
  • FIG. 8 is a diagram for explaining an example of an XR device that can be applied to an embodiment.
  • “/” and “,” should be interpreted as indicating “and/or”.
  • “A/B” may mean “A and/or B”.
  • “B” may mean “A and/or B”.
  • “” may mean “at least one of A, B and/or C”.
  • “B, C” may mean “at least one of A, B and/or C”.
  • “or” should be interpreted as indicating “and/or”.
  • “A or B” may include “only A,” “only B,” and/or “both A and B.”
  • “or” should be interpreted as indicating "in addition or alternatively.”
  • Earbuds generally have a structure that is relatively vulnerable to noise environments because the distance between the mouth and the microphone is far. In an effort to overcome this, there is a recent trend in premium products to be equipped with bone conduction VPU sensors (Voice Pick Up sensors, bone conduction voice sensors).
  • bone conduction VPU sensors Vehicle Pick Up sensors, bone conduction voice sensors.
  • VPU sensor since the VPU sensor has a structure that collects the user's voice through bone conduction, it can block most of the external noise, which is very advantageous for voice activity detection (VAD).
  • VAD voice activity detection
  • the earbuds are sensitive to vibrations generated by touch, rubbing, and violent movements of the user (running or walking with a stomp), it is easy to cause malfunctions.
  • a VAD unit/module receiving a VPU sensor as an input and a VAD unit/module receiving an internal microphone as an input can be used simultaneously.
  • the VPU and Mic input signals have similar characteristics, but for external stimuli, we intend to apply a technology to reduce speech recognition malfunction by using the fact that they have different characteristics.
  • Various embodiments of the present invention will be described in detail below. .
  • an earbud supporting voice activity detection includes a first filter unit 105 filtering a first signal input through a microphone; a first VAD unit 107 that performs speech recognition on the signal that has passed through the first filter unit 105; a second filter unit 205 filtering a second signal input through a bone conduction VPU (Voice Pick Up) sensor; a second VAD unit 207 that performs speech recognition on the signal that has passed through the second filter unit; and a determination unit 300 that compares a detection result of the first VAD unit 107 and a detection result of the second VAD unit 207 to determine whether or not ignition has occurred.
  • VPU Voice Pick Up
  • the first VAD unit and the second VAD unit may simultaneously detect whether or not speech is utterance.
  • the detection result of the first VAD unit and the second VAD unit input to the determination unit may be a result of the first VAD unit and the second VAD unit simultaneously determining the detection result for the same (or within a preset error range) time interval.
  • Simultaneous here may mean including a preset (tolerable) error.
  • the first signal is an analog signal input through the microphone and is a digital signal that has passed through the first ADC 103
  • the second signal is an analog signal input through the bone conduction VPU sensor and is a digital signal that has passed through the second ADC (203). ) is a digital signal that has passed through.
  • each of the first filter unit and the second filter unit may be a high pass filter (HPF).
  • the HPF can remove noise (eg, sound generated by the user's movement, sound generated by contact with the earbud (sound of the user rubbing the earbud, etc.)) other than the frequency band corresponding to the user's speech.
  • the Mic HPF may be set to remove frequencies below 600 Hz and the VPU HPF may be set to remove frequencies below 100 Hz.
  • embodiments of the present invention are not necessarily limited to specific frequency values such as 600 Hz and 100 Hz, and other values may be used.
  • the determination unit determines that both the detection result of the first VAD unit and the detection result of the second VAD unit are ignition detection. , can be judged by ignition.
  • the determination unit determines that the detection results of the two VAD units are Since all of them are utterance detection, it is possible to determine whether utterance is T (True)/utterance through logical sum operation. 2 shows an example related to this.
  • a user wearing an earbud speaks, it is simultaneously input to the earbud's MIC and VPU respectively, and most of the voice signals exist even through the HPF. Accordingly, both the first VAD unit and the second VAD unit output the ignition detection result as True, and the determination unit receiving the input outputs the final ignition determination result as True.
  • the determination unit determines whether the ignition detection result is not all T, so whether or not the ignition is detected. can be determined as F.
  • FIG. 3 illustrates a case in which input signals are generated in the VPU and the microphone due to vibration caused by an impact generated while the user of the earbud runs.
  • the signal input to the microphone is removed after passing through the HPF, and the first VAD unit determines that the ignition detection result is F (False).
  • the determination unit outputs the utterance determination result as F since it is the case where all utterance detection results are not T.
  • the determination unit outputs the utterance determination result as F since it is the case where all utterance detection results are not T.
  • playback of the content being played in the earbud may be stopped. If the user speaks while listening to music through the earbuds, the music is automatically paused and the external sound listening mode is turned on, and if there is no sound for a while, the ambient sound listening mode is automatically turned off and the music is resumed. means When this function is performed, it is important to accurately determine whether the user speaks. This is because if the user does not speak and misrecognizes other noise as speech and stops the music repeatedly, the user experiences an unpleasant user experience and does not trust or use the corresponding function.
  • 5 shows an example of a configuration included in an earbud in this regard. Referring to FIG.
  • the earbud includes a DSP Block 400 and an AP Block 500, and most of the descriptions of the DSP Block 400 are replaced with those previously described in FIG. 1.
  • the decision result (VAD result) is output from the decision unit 300, it is input to another processing block in the DSP and/or to the AP block 500.
  • the decision result (VAD result) input to the AP block 500 is input to the content playback stop controller, and the above-described playback stop function can be started.
  • the AP block 500 may include an ambient mode controller and a mute function controller during a call.
  • the microphone may be muted based on what the decision unit determines to be utterance. This is about a function that mutes the microphone when the user does not speak so that the sound is not transmitted to the other party from the surrounding noise. It is also important to accurately determine the user's utterance as described above when performing these functions, which can be achieved through the above-described embodiments of the present invention.
  • the volume of the earbud may be lowered to a preset level based on what the determination unit has determined to be an ignition.
  • This is an ANC (Ambient Mode Control) function, for example, a function related to gradually reducing the volume of content being played when a user's speech is detected.
  • This ANC function also only provides a bad user experience if the user's utterance cannot be accurately determined. However, the utterance determination can be accurately performed through the above-described embodiment of the present invention.
  • the first filter unit, the second filter unit, the first VAD unit, the second VAD unit, and the determination unit may be included in a DSP (Digital Signal Processor) unit, and the DSP may be included in the earbud. there is. Also, the microphone and the bone conduction VPU (Voice Pick Up) sensor may be included in the earbud.
  • DSP Digital Signal Processor
  • a head mounted display (HMD) supporting voice activity detection (VAD) includes a display unit providing an image to a user; a wearing unit for providing the display unit to be worn on the user's head; an earbud that provides sound related to the image to the user; A first filter unit for filtering the first signal input through the microphone; a first VAD unit performing speech recognition on the signal that has passed through the first filter unit; a second filter unit filtering a second signal input through a bone conduction VPU (Voice Pick Up) sensor; a second VAD unit performing speech recognition on the signal that has passed through the second filter unit; and a determination unit that compares a detection result of the first VAD unit and a detection result of the second VAD unit to determine whether ignition has occurred.
  • VPU Voice Pick Up
  • the first filter unit, the second filter unit, the first VAD unit, the second VAD unit, and the determination unit may be included in a DSP unit as illustrated in FIGS. 1 to 5, and the DSP unit may be included in FIG. 6 It may be included in one of the HMD 610 shown in or the earbud 630.
  • the microphone and/or the bone conduction VPU (Voice Pick Up) sensor may be included in the earbud 630 or may be included in a distributed manner between the HMD 610 and the earbud 630 . If necessary, functions/units related to some embodiments may be included in the portable device 650 .
  • each of the above-described parts/modules must be embedded in the earbud, but since the HMD is relatively bulky and has less spatial restrictions, various arrangements other than the above-exemplified built-in arrangement can be applied, and each of the above Various arrangement combinations of parts/modules fall within the scope of the present invention.
  • a voice activity detection (VAD) determining method includes filtering a first signal input through a microphone (S701); performing speech recognition on the filtered first signal (S702); filtering the second signal input through the bone conduction VPU (Voice Pick Up) sensor (S703); performing speech recognition on the filtered second signal (S704); and comparing a speech recognition detection result related to the first signal and a speech recognition detection result related to the second signal to determine whether speech occurs ( S705 ).
  • the detailed description related to the method for determining whether it is an utterance is replaced with the description related to the earbud according to an embodiment of the present invention.
  • HMDs Head-Mounted Devices
  • HUDs Head-Up Displays
  • the XR device 100a may include a communication unit 110, a control unit 120, a memory unit 130, an input/output unit 140a, a sensor unit 140b, and a power supply unit 140c. .
  • the communication unit 110 may transmit/receive signals (eg, media data, control signals, etc.) with external devices such as other wireless devices, portable devices, or media servers.
  • Media data may include video, image, sound, and the like.
  • the controller 120 may perform various operations by controlling components of the XR device 100a.
  • the controller 120 may be configured to control and/or perform procedures such as video/image acquisition, (video/image) encoding, and metadata generation and processing.
  • the memory unit 130 may store data/parameters/programs/codes/commands necessary for driving the XR device 100a/creating an XR object.
  • the input/output unit 140a may obtain control information, data, etc. from the outside and output the created XR object.
  • the input/output unit 140a may include a camera, a microphone, a user input unit, a display unit, a speaker, and/or a haptic module.
  • the sensor unit 140b may obtain XR device status, surrounding environment information, user information, and the like.
  • the sensor unit 140b may include a proximity sensor, an illuminance sensor, an acceleration sensor, a magnetic sensor, a gyro sensor, an inertial sensor, an RGB sensor, an IR sensor, a fingerprint recognition sensor, an ultrasonic sensor, an optical sensor, a microphone, and/or a radar. there is.
  • the power supply unit 140c supplies power to the XR device 100a and may include a wired/wireless charging circuit, a battery, and the like.
  • the memory unit 130 of the XR device 100a may include information (eg, data, etc.) necessary for generating an XR object (eg, AR/VR/MR object).
  • the input/output unit 140a may obtain a command to operate the XR device 100a from a user, and the control unit 120 may drive the XR device 100a according to the user's driving command. For example, when a user tries to watch a movie, news, etc. through the XR device 100a, the control unit 120 transmits content request information to another device (eg, the mobile device 100b) or through the communication unit 130. can be transmitted to the media server.
  • another device eg, the mobile device 100b
  • the communication unit 130 can be transmitted to the media server.
  • the communication unit 130 may download/stream content such as movies and news from another device (eg, the portable device 100b) or a media server to the memory unit 130 .
  • the control unit 120 controls and/or performs procedures such as video/image acquisition, (video/image) encoding, metadata generation/processing, etc. for content, and acquisition through the input/output unit 140a/sensor unit 140b.
  • An XR object may be created/output based on information about a surrounding space or a real object.
  • the XR device 100a is wirelessly connected to the portable device 100b through the communication unit 110, and the operation of the XR device 100a may be controlled by the portable device 100b.
  • the mobile device 100b may operate as a controller for the XR device 100a.
  • the XR device 100a may acquire 3D location information of the portable device 100b and then generate and output an XR object corresponding to the portable device 100b.
  • Embodiments as described above can be applied to various mobile communication systems.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Optics & Photonics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

일 실시예는, 발화인지 (VAD, Voice activity detection)를 지원하는 이어버드(earbud)에 있어서, 마이크를 통해 입력된 제1 신호를 필터링하는 제1 필터부; 상기 제1 필터부를 통과한 신호에 대해 발화인지를 수행하는 제1 VAD부; 골전도 VPU(Voice Pick Up) 센서를 통해 입력된 제2 신호를 필터링하는 제2 필터부; 상기 제2 필터부를 통과한 신호에 대해 발화인지를 수행하는 제2 VAD부; 및 상기 제1 VAD부의 검출 결과 및 상기 제2 VAD부의 검출 결과를 비교하여 발화 여부를 판정하는 판정부를 포함하는, 이어버드이다.

Description

발화인지를 지원하는 이어버드 및 관련 방법
이하의 설명은 잡음, 소음으로 인한 오작동을 개선한 발화인지를 지원하는 이어버드 및 관련 방법이다.
이어버드는 휴대용 미디어 재생기, 스마트폰, 태블릿 컴퓨터, 랩톱 컴퓨터, 스테레오 시스템 및 다른 유형의 디바이스와 같은 다양한 종류의 전자 장치에 유선 또는 무선 연결되어, 해당 전자 장치에서 출력되는 소리를 사용자에게 제공하는 장치이다.
유선 이어버드는 사용자의 귀 상부, 내부, 또는 근처에 위치되도록 구성된 하나 이상의 소형 스피커, 스피커를 위치에 유지시키는 구조적 컴포넌트들, 및 이어버드를 전자 장치에 전기적으로 연결시키는 케이블을 포함한다. 무선 이어버드는 케이블을 포함하지 않는 대신 무선 음원으로부터 오디오 데이터의 스트림을 무선으로 수신하는 무선 장치일 수 있다.
실시예(들)은 VPU Sensor 와 이어버드 내부마이크를 동시에 사용하여 발화인지를 수행하는 이어버드, HMD(Head mounted Display) 및 이에 관련된 방법을 기술적 과제로 한다.
일 실시예는, 발화인지 (VAD, Voice activity detection)를 지원하는 이어버드(earbud)에 있어서, 마이크를 통해 입력된 제1 신호를 필터링하는 제1 필터부; 상기 제1 필터부를 통과한 신호에 대해 발화인지를 수행하는 제1 VAD부; 골전도 VPU(Voice Pick Up) 센서를 통해 입력된 제2 신호를 필터링하는 제2 필터부; 상기 제2 필터부를 통과한 신호에 대해 발화인지를 수행하는 제2 VAD부; 및 상기 제1 VAD부의 검출 결과 및 상기 제2 VAD부의 검출 결과를 비교하여 발화 여부를 판정하는 판정부를 포함하는, 이어버드이다.
일 실시예는, 발화인지 (VAD, Voice activity detection) 판정 방법에 있어서, 마이크를 통해 입력된 제1 신호를 필터링; 상기 필터링된 제1 신호에 대해 발화인지를 수행; 골전도 VPU(Voice Pick Up) 센서를 통해 입력된 제2 신호를 필터링; 상기 필터링된 제2 신호에 대해 발화인지를 수행; 및 상기 제1 신호에 관련된 발화 인지 검출 결과 및 상기 제2 신호에 관련된 발화 인지 검출 결과를 비교하여 발화 여부를 판정를 포함하는, 방법이다.
상기 제1 VAD부 및 상기 제2 VAD부는 발화인지를 동시에 검출할 수 있다.
상기 제1 VAD부의 검출 결과 및 상기 제2 VAD부의 검출 결과는 발화 검출 또는 발화 미검출 중 하나이며, 상기 판정부는 상기 제1 VAD부의 검출 결과 및 상기 제2 VAD부의 검출 결과가 전부 발화 검출인 경우, 발화로 판정할 수 있다.
상기 제1 필터부와 상기 제2 필터부는 각각 HPF(High Pass Filter)에 해당하는 것일 수 있다.
상기 판정부가 발화로 판정한 것이 기초하여, 상기 마이크는 Mute 될 수 있다.
상기 판정부가 발화로 판정한 것이 기초하여, 상기 이어버드에서 재생 중인 컨텐츠는 재생이 중단될 수 있다.
상기 판정부가 발화로 판정한 것이 기초하여, 상기 이어버드의 볼륨은 미리 설정된 레벨로 낮아질 수 있다.
상기 제1 필터부, 상기 제2 필터부, 상기 제1 VAD부, 상기 제2 VAD부 및 상기 판정부는 DSP(Digital Signal Processor)부에 포함되는 것이며, 상기 DSP는 상기 이어버드에 포함된 것일 수 있다.
상기 마이크와 상기 골전도 VPU(Voice Pick Up) 센서는 상기 이어버드에 포함된 것일 수 있다.
상기 제1 신호는, 상기 마이크를 통해 입력된 아날로그 신호가 제1 ADC를 통과한 디지털 신호이며, 상기 제2 신호는, 상기 골전도 VPU 센서를 통해 입력된 아날로그 신호가 제1 ADC를 통과한 디지털 신호일 수 있다.
일 실시예는, 발화인지 (VAD, Voice activity detection)를 지원하는 HMD(Head mounted Display)에 있어서, 사용자에게 영상을 제공하는 디스플레이부; 상기 디스플레이부가 사용자의 머리 착용을 제공하는 착용부; 상기 사용자에게 상기 영상에 관련된 소리를 제공하는 이어버드; 마이크를 통해 입력된 제1 신호를 필터링하는 제1 필터부; 상기 제1 필터부를 통과한 신호에 대해 발화인지를 수행하는 제1 VAD부; 골전도 VPU(Voice Pick Up) 센서를 통해 입력된 제2 신호를 필터링하는 제2 필터부; 상기 제2 필터부를 통과한 신호에 대해 발화인지를 수행하는 제2 VAD부; 및 상기 제1 VAD부의 검출 결과 및 상기 제2 VAD부의 검출 결과를 비교하여 발화 여부를 판정하는 판정부를 포함하는, HMD이다.
상기 제1 필터부, 상기 제2 필터부, 상기 제1 VAD부, 상기 제2 VAD부 및 상기 판정부는 DSP부에 포함되며, 상기 DSP부는, 상기 HMD 또는 상기 이어버드 중 하나에 포함된 것일 수 있다.
상기 마이크와 상기 골전도 VPU(Voice Pick Up) 센서는 상기 이어버드에 포함된 것일 수 있다.
상기 제1 VAD부 및 상기 제2 VAD부는 발화인지를 동시에 검출할 수 있다.
상기 제1 VAD부의 검출 결과 및 상기 제2 VAD부의 검출 결과는 발화 검출 또는 발화 미검출 중 하나이며, 상기 판정부는 상기 제1 VAD부의 검출 결과 및 상기 제2 VAD부의 검출 결과가 전부 발화 검출인 경우, 발화로 판정할 수 있다.
상기 판정부가 발화로 판정한 것이 기초하여, 상기 이어버드에서 재생 중인 컨텐츠는 재생이 중단될 수 있다.
상기 판정부가 발화로 판정한 것이 기초하여, 상기 마이크는 Mute 될 수 있다.
상기 판정부가 발화로 판정한 것이 기초하여, 상기 이어버드에서 재생 중인 컨텐츠는 재생이 중단될 수 있다.
상기 판정부가 발화로 판정한 것이 기초하여, 상기 이어버드의 볼륨은 미리 설정된 레벨로 낮아질 수 있다.
일 실시예는, 발화인지 (VAD, Voice activity detection) 판정 방법에 있어서, 마이크를 통해 입력된 제1 신호를 필터링; 상기 필터링된 제1 신호에 대해 발화인지를 수행; 골전도 VPU(Voice Pick Up) 센서를 통해 입력된 제2 신호를 필터링; 상기 필터링된 제2 신호에 대해 발화인지를 수행; 및 상기 제1 신호에 관련된 발화 인지 검출 결과 및 상기 제2 신호에 관련된 발화 인지 검출 결과를 비교하여 발화 여부를 판정를 포함하는, 방법이다.
일 실시예에 의하면, 마이크와 골전도 VPU를 동시에 사용하여 발화 여부를 정확하게 판단할 수 있다.
또한, 발화인지를 정확하게 수행함으로써, 재생중인 컨텐츠의 발화인지시 중단, 통화중 mute 기능, ANC(Ambient mode control) 기능을 오동작 없이 제공함으로써, 사용자 경험을 증대시킬 수 있다.
본 명세서에 첨부되는 도면은 실시예(들)에 대한 이해를 제공하기 위한 것으로서 다양한 실시형태들을 나타내고 명세서의 기재와 함께 원리를 설명하기 위한 것이다.
도 1에는 일 실시예에 의한 DSP 블록이 도시되어 있다.
도 2 내지 4는 실시예에 의한 발화인지를 설명하기 위한 도면이다.
도 5는 일 실시예에 의한 이어버드 구성이 도시되어 있다.
도 6은 일 실시예에 의한 각 부의 배치를 설명하기 위한 도면이다.
도 7은 일 실시예에 의한 발화인지 방법을 설명하기 위한 순서도이다.
도 8은 일 실시예에 적용될 수 있는 XR 장치의 예시를 설명하기 위한 도면이다.
본 개시의 다양한 실시 예에서, “/”및 “,”는 “및/또는”을 나타내는 것으로 해석되어야 한다. 예를 들어, “A/B”는 “A 및/또는 B”를 의미할 수 있다. 나아가, “B”는 “A 및/또는 B”를 의미할 수 있다. 나아가, “”는 “A, B 및/또는 C 중 적어도 어느 하나”를 의미할 수 있다. 나아가, “B, C”는 “A, B 및/또는 C 중 적어도 어느 하나”를 의미할 수 있다.
본 개시의 다양한 실시 예에서, “또는”은 “및/또는”을 나타내는 것으로 해석되어야 한다. 예를 들어, “A 또는 B”는 “오직 A”“오직 B”및/또는 “A 및 B 모두”를 포함할 수 있다. 다시 말해, “또는”은 “부가적으로 또는 대안적으로”를 나타내는 것으로 해석되어야 한다.
이하, 본 발명에 따른 바람직한 실시 형태를 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다. 이하의 상세한 설명은 본 발명의 완전한 이해를 제공하기 위해서 구체적 세부사항을 포함한다. 그러나, 당업자는 본 발명이 이러한 구체적 세부사항 없이도 실시될 수 있음을 안다.
몇몇 경우, 본 발명의 개념이 모호해지는 것을 피하기 위하여 공지의 구조 및 장치는 생략되거나, 각 구조 및 장치의 핵심기능을 중심으로 한 블록도 형식으로 도시될 수 있다.
이하의 설명에서 사용되는 특정 용어들은 본 발명의 이해를 돕기 위해서 제공된 것이며, 이러한 특정 용어의 사용은 본 발명의 기술적 사상을 벗어나지 않는 범위에서 다른 형태로 변경될 수 있다.
이어버드는 일반적으로 입과 마이크의 거리가 멀어서 상대적으로 잡음환경에 취약한 구조를 갖게 된다. 이를 극복하기 위한 노력으로 최근 프리미엄 제품을 중심으로 골전도 VPU Sensor(Voice Pick Up sensor, 골전도 음성 센서)가 탑재되는 추세이다.
그런데 VPU Sensor 는 사용자의 음성을 골전도를 통해서 수음하는 구조이기 때문에 외부 소음을 대부분 차단할 수 있어서 발화인지(VAD, Voice Activity Detection) 에 매우 유리하다. 그러나 이어버드 장치/기구물의 터치, 문지름, 사용자의 격한 움직임(달리기나 쿵쿵거리며 걷기) 등으로 인해 발생되는 진동에도 민감하기 때문에 오동작을 유발하기 쉽다.
이러한 단점을 보완하기 위하여 본 발명의 일 실시예에서는, VPU Sensor 를 입력으로 받는 VAD 부/module과 내부마이크를 입력으로 받는 VAD 부/module을 동시에 사용할 수 있다. 음성에 대해서는 VPU와 Mic 의 입력신호가 유사한 특성을 갖지만 외부 자극에 대해서는 다른 특성을 갖는 점을 이용하여 발화인지 오동작을 줄이는 기술을 적용하고자 하며, 이하에서 본 발명의 다양한 실시예에 대해 상세히 설명한다.
도 1을 참조하면, 일 실시예에 의한 발화인지 (VAD, Voice activity detection)를 지원하는 이어버드(earbud)는, 마이크를 통해 입력된 제1 신호를 필터링하는 제1 필터부(105); 상기 제1 필터부(105)를 통과한 신호에 대해 발화인지를 수행하는 제1 VAD부(107); 골전도 VPU(Voice Pick Up) 센서를 통해 입력된 제2 신호를 필터링하는 제2 필터부(205); 상기 제2 필터부를 통과한 신호에 대해 발화인지를 수행하는 제2 VAD부(207); 및 상기 제1 VAD부(107)의 검출 결과 및 상기 제2 VAD부(207)의 검출 결과를 비교하여 발화 여부를 판정하는 판정부(300)을 포함할 수 있다.
여기서, 상기 제1 VAD부 및 상기 제2 VAD부는 발화인지를 동시에 검출할 수 있다. 다시 말해, 판정부에 입력되는 제1 VAD부와 제2 VAD부의 검출 결과는 동일 (또는 미리 설정된 오차 범위 내) 시간 구간에 대해, 제1 VAD부와 제2 VAD부가 동시에 검출 결과를 결정한 것일 수 있다. 여기서 동시라고 함은 미리 설정된 (허용) 오차는 포함하는 것일 수 있다.
상기 제1 신호는, 상기 마이크를 통해 입력된 아날로그 신호가 제1 ADC(103)를 통과한 디지털 신호이며, 상기 제2 신호는, 골전도 VPU 센서를 통해 입력된 아날로그 신호가 제2 ADC(203)를 통과한 디지털 신호이다. 또한, 상기 제1 필터부와 상기 제2 필터부는 각각 HPF(High Pass Filter)일 수 있다. 여기서 HPF는 사용자의 발화에 해당하는 주파수 대역 이외의 잡음(예를 들어, 사용자의 움직임에 의해 발생한 소리, 이어버드에 접촉으로 발생하는 소리(사용자가 이어버드를 문지르는 소리 등) 등)을 제거할 수 있다. 일 예시로 Mic HPF 는 600Hz 이하의 주파수를 제거하도록 설정하고 VPU HPF 는 100 Hz 이하의 주파수를 제거하도록 설정될 수 있다. 다만, 본 발명의 실시예가 반드시 600Hz, 100Hz 라는 특정 주파수 값에 한정되는 것은 아니며, 다른 값이 사용될 수도 있다.
상기 제1 VAD부의 검출 결과 및 상기 제2 VAD부의 검출 결과는 발화 검출 또는 발화 미검출 중 하나이며, 상기 판정부는 상기 제1 VAD부의 검출 결과 및 상기 제2 VAD부의 검출 결과가 전부 발화 검출인 경우, 발화로 판정할 수 있다.
예를 들어, 상기 제1 VAD부는 발화 검출 결과를 T(True), 제2 VAD부는 발화검출 결과 T(True)로 판단하고 이를 판정부에 제공하면, 판정부는 두 개의 VAD 부에서의 검출 결과가 전부 발화 검출이므로, 논리합 연산을 통해 발화 여부를 T(True)/발화로 판정할 수 있다. 도 2에는 이와 관련된 예가 도시되어 있다. 이어버드를 착용한 사용자가 발화한 경우, 이는 이어버드의 마이크(MIC)와 VPU 각각으로 동시에 입력되며, HPF를 거쳐도 대부분의 음성 신호가 존재한다. 따라서, 제1 VAD부 및 제2 VAD부 모두 발화 검출 결과를 True로 출력하고, 이를 입력받은 판정부는 최종 발화 판정 결과를 True로 출력하게 된다.
이와 달리, 제1 VAD부 및 제2 VAD부 중 어느 하나의 VAD 부에서 발화 검출 결과를 F(False)로 판단하여 이를 판정부에 제공하면, 판정부는 발화 검출 결과가 전부 T가 아니므로 발화 여부를 F로 판정할 수 있다.
도 3 내지 도 4에 이러한 예가 도시되어 있다. 도 3은 이어버드의 사용자가 달리면서 발생되는 충격에 의해 진동이 발생하여 VPU와 마이크에 입력신호가 발생하는 경우이다. 도 3을 참조하면, 이와 같이 입력된 신호 중, 마이크에 입력된 신호는 HPF를 통과하면 제거되어, 제1 VAD부는 발화 검출 결과를 F(False)로 판정한다. 그리고, 골전도 VPU 센서를 통해 입력된 신호는 HPF를 통과하더라도 신호가 존재하여 발화 검출 결과가 T가 된다. 따라서, 판정부는 발화 검출 결과가 전부 T가 아닌 경우이므로, 발화 판정 결과를 F로 출력한다.
도 4는 이어버드의 사용자가 이어버드를 만지거나 문질러 발생한 소리에 대한 경우이다. 이러한 소리는 마이크로 입력되는 신호는 HPF를 통과하여도 존재하지만 골전도 VPU 센서로 입력된 신호는 HPF에서 제거될 수 있다. 따라서, 판정부는 발화 검출 결과가 전부 T가 아닌 경우이므로, 발화 판정 결과를 F로 출력한다.
한편, 상기 판정부가 발화로 판정한 것이 기초하여, 상기 이어버드에서 재생 중인 컨텐츠는 재생이 중단될 수 있다. 이는 사용자가 이어버드를 통해 음악을 듣고 있다가 말을 하는 경우 자동으로 음악을 pause 하고 외부소리 듣기 모드를 켜주고, 한동안 말이 없으면 자동으로 주변소리 듣기 모드를 끄고 음악을 resume 해주는 기능이 지원되는 경우를 의미한다. 이러한 기능이 수행될 때 중요한 것은 사용자가 발화를 하는지를 정확히 판정해 내는 것이다. 만약 사용자가 발화하지 않고 기타 잡음을 발화로 오인식하여 음악을 중단하는 경우가 반복되면, 사용자는 불쾌한 사용자 경험을 하게 되어 해당 기능을 신뢰 또는 사용하지 않게 되기 때문이다. 도 5에는 이와 관련하여 이어버드에 포함된 구성의 예가 도시되어 있다. 도 5를 참조하면, 이어버드는 DSP Block (400), AP Block (500)을 포함하는데, DSP Block (400)에 대한 대부분의 설명은 앞서 도 1에서 설명된 내용으로 대체한다. 판정부(300)에서 판정 결과(VAD result)가 나오면, 이는 DSP 내 다른 프로세싱 블록으로 입력 및/또는 AP block(500)으로 입력된다. AP block(500)으로 입력된 판정결과(VAD result)는 컨텐츠 재생 중단 Controller 에 입력되어, 상술한 재생 중단 기능이 개시될 수 있다. 도시된 바와 같이, AP block(500)은, Ambient Mode Controller, 통화 중 mute 기능 Controller 를 포함할 수 도 있다.
통화 중 mute 기능 Controller 와 관련해서는, 판정부가 발화로 판정한 것이 기초하여, 상기 마이크는 Mute 될 수 있다. 이는 사용자가 말을 하지 않으면 마이크를 뮤트시켜 상대방에게 소리가 주변 잡음이 전달되지 않도록 하는 기능에 대한 것이다. 이러한 기능이 수행 역시 상술한 바와 같이 사용자의 발화를 정확히 판정하는 것이 중요한데, 상술한 본 발명의 실시예를 통해 달성이 가능하다.
Ambient Mode Controller 관련해서는, 상기 판정부가 발화로 판정한 것이 기초하여, 상기 이어버드의 볼륨은 미리 설정된 레벨로 낮아질 수 있다. 이는, ANC(Ambient mode control) 기능, 예를 들어 사용자 발화가 감지되면 재생중인 컨텐츠의 볼륨을 점진적으로 줄이는 것에 관련된 기능이다. 이런 ANC 기능 역시 사용자의 발화를 정확히 판정하지 못하면 나쁜 사용자 경험만 제공할 뿐인데, 상술한 본 발명의 일 실시예를 통해 발화 판정을 정확히 수행할 수 있다.
상기 제1 필터부, 상기 제2 필터부, 상기 제1 VAD부, 상기 제2 VAD부 및 상기 판정부는 DSP(Digital Signal Processor)부에 포함되는 것이며, 상기 DSP는 상기 이어버드에 포함된 것일 수 있다. 또한, 상기 마이크와 상기 골전도 VPU(Voice Pick Up) 센서는 상기 이어버드에 포함될 수 있다.
또 다른 실시예에서는, 발화인지 (VAD, Voice activity detection)를 지원하는 HMD(Head mounted Display)가 개시된다. 본 발명의 일 실시예에 의한 HMD는, 사용자에게 영상을 제공하는 디스플레이부; 상기 디스플레이부가 사용자의 머리 착용을 제공하는 착용부; 상기 사용자에게 상기 영상에 관련된 소리를 제공하는 이어버드; 마이크를 통해 입력된 제1 신호를 필터링하는 제1 필터부; 상기 제1 필터부를 통과한 신호에 대해 발화인지를 수행하는 제1 VAD부; 골전도 VPU(Voice Pick Up) 센서를 통해 입력된 제2 신호를 필터링하는 제2 필터부; 상기 제2 필터부를 통과한 신호에 대해 발화인지를 수행하는 제2 VAD부; 및 상기 제1 VAD부의 검출 결과 및 상기 제2 VAD부의 검출 결과를 비교하여 발화 여부를 판정하는 판정부를 포함할 수 있다.
상기 제1 필터부, 상기 제2 필터부, 상기 제1 VAD부, 상기 제2 VAD부 및 상기 판정부는 도 1 내지 도 5에 예시된 바와 같은 DSP부에 포함될 수 있으며, 상기 DSP부는, 도 6에 도시된 HMD(610) 또는 상기 이어버드(630) 중 하나에 포함될 수 있다. 또한, 상기 마이크 및/또는 상기 골전도 VPU(Voice Pick Up) 센서는 상기 이어버드(630)에 포함되거나 또는 HMD(610)와 이어버드(630) 분산되어 포함될 수도 있다. 필요한 경우, 일부 실시예에 관련된 기능/부는 휴대 기기(650)에 포함될 수도 있다.
앞선 이어버드 관련 실시예에서는 이어버드에서 상술한 각 부/모듈이 내장되어야 하지만, HMD는 상대적으로 부피가 크고 공간적 제약이 덜하므로, 상기 예시된 내장 배치 이외의 다양한 배치가 적용될 수 있으며, 상기 각 부/모듈의 다양한 배치 조합은 본 발명의 범주에 포함된다.
상기 HMD의 발화인지에 관련된 구체적인 설명은 상술한 발화인지 이어버드에 대한 설명으로 대체한다.
한편, 본 발명의 일 실시예에 의한 발화인지 (VAD, Voice activity detection) 판정 방법은, 마이크를 통해 입력된 제1 신호를 필터링(S701); 상기 필터링된 제1 신호에 대해 발화인지를 수행(S702); 골전도 VPU(Voice Pick Up) 센서를 통해 입력된 제2 신호를 필터링(S703); 상기 필터링된 제2 신호에 대해 발화인지를 수행(S704); 및 상기 제1 신호에 관련된 발화 인지 검출 결과 및 상기 제2 신호에 관련된 발화 인지 검출 결과를 비교하여 발화 여부를 판정(S705)을 포함할 수 있다. 발화인지 판정 방법과 관련된 상세한 설명은 상기 본 발명의 일 실시예에 의한 이어버드에 관련된 설명으로 대체한다.
본 발명이 적용되는 XR 기기 예
도 8은 본 발명에 적용되는 XR 기기를 예시한다. XR 기기는 HMD(Head-Mounted Device), 차량에 구비된 HUD(Head-Up Display), 텔레비전, 스마트폰, 컴퓨터, 웨어러블 디바이스, 가전 기기, 디지털 사이니지(signage), 차량, 로봇 등으로 구현될 수 있다.
도 8을 참조하면, XR 기기(100a)는 통신부(110), 제어부(120), 메모리부(130), 입출력부(140a), 센서부(140b) 및 전원공급부(140c)를 포함할 수 있다.
통신부(110)는 다른 무선 기기, 휴대 기기, 또는 미디어 서버 등의 외부 기기들과 신호(예, 미디어 데이터, 제어 신호 등)를 송수신할 수 있다. 미디어 데이터는 영상, 이미지, 소리 등을 포함할 수 있다. 제어부(120)는 XR 기기(100a)의 구성 요소들을 제어하여 다양한 동작을 수행할 수 있다. 예를 들어, 제어부(120)는 비디오/이미지 획득, (비디오/이미지) 인코딩, 메타데이터 생성 및 처리 등의 절차를 제어 및/또는 수행하도록 구성될 수 있다. 메모리부(130)는 XR 기기(100a)의 구동/XR 오브젝트의 생성에 필요한 데이터/파라미터/프로그램/코드/명령을 저장할 수 있다. 입출력부(140a)는 외부로부터 제어 정보, 데이터 등을 획득하며, 생성된 XR 오브젝트를 출력할 수 있다. 입출력부(140a)는 카메라, 마이크로폰, 사용자 입력부, 디스플레이부, 스피커 및/또는 햅틱 모듈 등을 포함할 수 있다. 센서부(140b)는 XR 기기 상태, 주변 환경 정보, 사용자 정보 등을 얻을 수 있다. 센서부(140b)는 근접 센서, 조도 센서, 가속도 센서, 자기 센서, 자이로 센서, 관성 센서, RGB 센서, IR 센서, 지문 인식 센서, 초음파 센서, 광 센서, 마이크로폰 및/또는 레이더 등을 포함할 수 있다. 전원공급부(140c)는 XR 기기(100a)에게 전원을 공급하며, 유/무선 충전 회로, 배터리 등을 포함할 수 있다.
일 예로, XR 기기(100a)의 메모리부(130)는 XR 오브젝트(예, AR/VR/MR 오브젝트)의 생성에 필요한 정보(예, 데이터 등)를 포함할 수 있다. 입출력부(140a)는 사용자로부터 XR 기기(100a)를 조작하는 명령을 회득할 수 있으며, 제어부(120)는 사용자의 구동 명령에 따라 XR 기기(100a)를 구동시킬 수 있다. 예를 들어, 사용자가 XR 기기(100a)를 통해 영화, 뉴스 등을 시청하려고 하는 경우, 제어부(120)는 통신부(130)를 통해 컨텐츠 요청 정보를 다른 기기(예, 휴대 기기(100b)) 또는 미디어 서버에 전송할 수 있다. 통신부(130)는 다른 기기(예, 휴대 기기(100b)) 또는 미디어 서버로부터 영화, 뉴스 등의 컨텐츠를 메모리부(130)로 다운로드/스트리밍 받을 수 있다. 제어부(120)는 컨텐츠에 대해 비디오/이미지 획득, (비디오/이미지) 인코딩, 메타데이터 생성/처리 등의 절차를 제어 및/또는 수행하며, 입출력부(140a)/센서부(140b)를 통해 획득한 주변 공간 또는 현실 오브젝트에 대한 정보에 기반하여 XR 오브젝트를 생성/출력할 수 있다.
또한, XR 기기(100a)는 통신부(110)를 통해 휴대 기기(100b)와 무선으로 연결되며, XR 기기(100a)의 동작은 휴대 기기(100b)에 의해 제어될 수 있다. 예를 들어, 휴대 기기(100b)는 XR 기기(100a)에 대한 콘트롤러로 동작할 수 있다. 이를 위해, XR 기기(100a)는 휴대 기기(100b)의 3차원 위치 정보를 획득한 뒤, 휴대 기기(100b)에 대응하는 XR 개체를 생성하여 출력할 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.
따라서, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
상술한 바와 같은 실시형태들은 다양한 이동통신 시스템에 적용될 수 있다.

Claims (20)

  1. 발화인지 (VAD, Voice activity detection)를 지원하는 이어버드(earbud)에 있어서,
    마이크를 통해 입력된 제1 신호를 필터링하는 제1 필터부;
    상기 제1 필터부를 통과한 신호에 대해 발화인지를 수행하는 제1 VAD부;
    골전도 VPU(Voice Pick Up) 센서를 통해 입력된 제2 신호를 필터링하는 제2 필터부;
    상기 제2 필터부를 통과한 신호에 대해 발화인지를 수행하는 제2 VAD부; 및
    상기 제1 VAD부의 검출 결과 및 상기 제2 VAD부의 검출 결과를 비교하여 발화 여부를 판정하는 판정부;
    를 포함하는, 이어버드.
  2. 제1항에 있어서,
    상기 제1 VAD부 및 상기 제2 VAD부는 발화인지를 동시에 검출하는, 이어버드.
  3. 제1항에 있어서,
    상기 제1 VAD부의 검출 결과 및 상기 제2 VAD부의 검출 결과는 발화 검출 또는 발화 미검출 중 하나이며,
    상기 판정부는 상기 제1 VAD부의 검출 결과 및 상기 제2 VAD부의 검출 결과가 전부 발화 검출인 경우, 발화로 판정하는, 이어버드.
  4. 제1항에 있어서,
    상기 제1 필터부와 상기 제2 필터부는 각각 HPF(High Pass Filter)에 해당하는 것인, 이어버드.
  5. 제1항에 있어서,
    상기 판정부가 발화로 판정한 것이 기초하여, 상기 마이크는 Mute 되는, 이어버드.
  6. 제1항에 있어서,
    상기 판정부가 발화로 판정한 것이 기초하여, 상기 이어버드에서 재생 중인 컨텐츠는 재생이 중단되는, 이어버드.
  7. 제1항에 있어서,
    상기 판정부가 발화로 판정한 것이 기초하여, 상기 이어버드의 볼륨은 미리 설정된 레벨로 낮아지는, 이어버드.
  8. 제1항에 있어서,
    상기 제1 필터부, 상기 제2 필터부, 상기 제1 VAD부, 상기 제2 VAD부 및 상기 판정부는 DSP(Digital Signal Processor)부에 포함되는 것이며,
    상기 DSP는 상기 이어버드에 포함된 것인, 이어버드.
  9. 제1항에 있어서,
    상기 마이크와 상기 골전도 VPU(Voice Pick Up) 센서는 상기 이어버드에 포함된 것인, 이어버드.
  10. 제1항에 있어서,
    상기 제1 신호는, 상기 마이크를 통해 입력된 아날로그 신호가 제1 ADC를 통과한 디지털 신호이며,
    상기 제2 신호는, 상기 골전도 VPU 센서를 통해 입력된 아날로그 신호가 제1 ADC를 통과한 디지털 신호인, 이어버드.
  11. 발화인지 (VAD, Voice activity detection)를 지원하는 HMD(Head mounted Display)에 있어서,
    사용자에게 영상을 제공하는 디스플레이부;
    상기 디스플레이부가 사용자의 머리 착용을 제공하는 착용부;
    상기 사용자에게 상기 영상에 관련된 소리를 제공하는 이어버드;
    마이크를 통해 입력된 제1 신호를 필터링하는 제1 필터부;
    상기 제1 필터부를 통과한 신호에 대해 발화인지를 수행하는 제1 VAD부;
    골전도 VPU(Voice Pick Up) 센서를 통해 입력된 제2 신호를 필터링하는 제2 필터부;
    상기 제2 필터부를 통과한 신호에 대해 발화인지를 수행하는 제2 VAD부; 및
    상기 제1 VAD부의 검출 결과 및 상기 제2 VAD부의 검출 결과를 비교하여 발화 여부를 판정하는 판정부;
    를 포함하는, HMD.
  12. 제11항에 있어서,
    상기 제1 필터부, 상기 제2 필터부, 상기 제1 VAD부, 상기 제2 VAD부 및 상기 판정부는 DSP부에 포함되며,
    상기 DSP부는, 상기 HMD 또는 상기 이어버드 중 하나에 포함된 것인, HMD.
  13. 제12항에 있어서,
    상기 마이크와 상기 골전도 VPU(Voice Pick Up) 센서는 상기 이어버드에 포함된 것인, HMD.
  14. 제11항에 있어서,
    상기 제1 VAD부 및 상기 제2 VAD부는 발화인지를 동시에 검출하는, HMD.
  15. 제11항에 있어서,
    상기 제1 VAD부의 검출 결과 및 상기 제2 VAD부의 검출 결과는 발화 검출 또는 발화 미검출 중 하나이며,
    상기 판정부는 상기 제1 VAD부의 검출 결과 및 상기 제2 VAD부의 검출 결과가 전부 발화 검출인 경우, 발화로 판정하는, HMD.
  16. 제11항에 있어서,
    상기 판정부가 발화로 판정한 것이 기초하여, 상기 이어버드에서 재생 중인 컨텐츠는 재생이 중단되는, HMD.
  17. 제11항에 있어서,
    상기 판정부가 발화로 판정한 것이 기초하여, 상기 마이크는 Mute 되는, HMD.
  18. 제11항에 있어서,
    상기 판정부가 발화로 판정한 것이 기초하여, 상기 이어버드에서 재생 중인 컨텐츠는 재생이 중단되는, HMD.
  19. 제11항에 있어서,
    상기 판정부가 발화로 판정한 것이 기초하여, 상기 이어버드의 볼륨은 미리 설정된 레벨로 낮아지는, HMD.
  20. 발화인지 (VAD, Voice activity detection) 판정 방법에 있어서,
    마이크를 통해 입력된 제1 신호를 필터링;
    상기 필터링된 제1 신호에 대해 발화인지를 수행;
    골전도 VPU(Voice Pick Up) 센서를 통해 입력된 제2 신호를 필터링;
    상기 필터링된 제2 신호에 대해 발화인지를 수행; 및
    상기 제1 신호에 관련된 발화 인지 검출 결과 및 상기 제2 신호에 관련된 발화 인지 검출 결과를 비교하여 발화 여부를 판정;
    를 포함하는, 방법.
PCT/KR2022/000825 2022-01-17 2022-01-17 발화인지를 지원하는 이어버드 및 관련 방법 WO2023136385A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2022/000825 WO2023136385A1 (ko) 2022-01-17 2022-01-17 발화인지를 지원하는 이어버드 및 관련 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2022/000825 WO2023136385A1 (ko) 2022-01-17 2022-01-17 발화인지를 지원하는 이어버드 및 관련 방법

Publications (1)

Publication Number Publication Date
WO2023136385A1 true WO2023136385A1 (ko) 2023-07-20

Family

ID=87279219

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/000825 WO2023136385A1 (ko) 2022-01-17 2022-01-17 발화인지를 지원하는 이어버드 및 관련 방법

Country Status (1)

Country Link
WO (1) WO2023136385A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090264161A1 (en) * 2008-01-11 2009-10-22 Personics Holdings Inc. Method and Earpiece for Visual Operational Status Indication
KR20120125986A (ko) * 2010-02-24 2012-11-19 퀄컴 인코포레이티드 복수의 음성 활성도 검출기들에 기초한 음성 활성도 검출
KR20150080645A (ko) * 2010-05-20 2015-07-09 퀄컴 인코포레이티드 두부 장착형 마이크로폰 쌍을 이용하여 스피치 신호들을 프로세싱하는 방법들, 장치 및 컴퓨터 판독가능 매체들
KR20190094131A (ko) * 2019-07-23 2019-08-12 엘지전자 주식회사 헤드셋 및 그의 구동 방법
US20190295554A1 (en) * 2018-03-21 2019-09-26 Cirrus Logic International Semiconductor Ltd. Biometric processes

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090264161A1 (en) * 2008-01-11 2009-10-22 Personics Holdings Inc. Method and Earpiece for Visual Operational Status Indication
KR20120125986A (ko) * 2010-02-24 2012-11-19 퀄컴 인코포레이티드 복수의 음성 활성도 검출기들에 기초한 음성 활성도 검출
KR20150080645A (ko) * 2010-05-20 2015-07-09 퀄컴 인코포레이티드 두부 장착형 마이크로폰 쌍을 이용하여 스피치 신호들을 프로세싱하는 방법들, 장치 및 컴퓨터 판독가능 매체들
US20190295554A1 (en) * 2018-03-21 2019-09-26 Cirrus Logic International Semiconductor Ltd. Biometric processes
KR20190094131A (ko) * 2019-07-23 2019-08-12 엘지전자 주식회사 헤드셋 및 그의 구동 방법

Similar Documents

Publication Publication Date Title
WO2020071712A1 (en) Method for controlling plurality of voice recognizing devices and electronic device supporting the same
CN105323648B (zh) 字幕隐藏方法和电子装置
US20180373493A1 (en) Changing companion communication device behavior based on status of wearable device
WO2016045088A1 (zh) 控制应用程序的方法、装置和电子设备
WO2017039255A1 (ko) 이어셋, 이어셋 시스템 및 이어셋 제어방법
WO2017052056A1 (en) Electronic device and method of audio processing thereof
WO2014196769A1 (ko) 음성 향상 방법 및 그 장치
WO2017026568A1 (ko) 음질 개선을 위한 방법 및 헤드셋
EP3909259A1 (en) Method for detecting wearing of acoustic device and acoustic device supporting the same
WO2020155088A1 (zh) 耳机降噪方法、智能蓝牙耳机及计算机可读存储介质
WO2015190641A1 (ko) 무선 리시버 및 그 제어 방법
WO2019216579A1 (ko) 스피커 모듈을 이용한 발수 구조를 가진 웨어러블 전자 장치 및 그의 수분 침투 감지 방법
CN110471180A (zh) 具有设备安装件音频模式的系统
WO2017018552A1 (ko) 이어셋 및 그 제어 방법
WO2020080835A1 (ko) 차량용 독립 음장 형성 장치 및 차량용 독립 음장 형성 방법
KR102386110B1 (ko) 휴대용 음향기기
WO2021020686A1 (ko) 헤드셋 전자 장치 및 그와 연결되는 전자 장치
WO2020080638A1 (ko) 전자장치 및 그 제어방법
WO2020262835A1 (ko) 전자 장치 및 이를 이용한 오디오 신호를 처리하기 위한 음향 장치를 결정하는 방법
WO2019147034A1 (ko) 사운드를 제어하는 전자 장치 및 그 동작 방법
WO2023136385A1 (ko) 발화인지를 지원하는 이어버드 및 관련 방법
WO2019004762A1 (ko) 이어셋을 이용한 통역기능 제공 방법 및 장치
WO2021246795A1 (ko) 제스처를 인식하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
WO2020080829A1 (en) Electronic device including a plurality of speakers
WO2021162337A1 (ko) 음질 개선 방법 및 이어 웨어러블 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22920718

Country of ref document: EP

Kind code of ref document: A1