WO2018038381A1 - 외부 기기를 제어하는 휴대 기기 및 이의 오디오 신호 처리 방법 - Google Patents

외부 기기를 제어하는 휴대 기기 및 이의 오디오 신호 처리 방법 Download PDF

Info

Publication number
WO2018038381A1
WO2018038381A1 PCT/KR2017/006822 KR2017006822W WO2018038381A1 WO 2018038381 A1 WO2018038381 A1 WO 2018038381A1 KR 2017006822 W KR2017006822 W KR 2017006822W WO 2018038381 A1 WO2018038381 A1 WO 2018038381A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
audio signal
distance
speech
microphone
Prior art date
Application number
PCT/KR2017/006822
Other languages
English (en)
French (fr)
Inventor
김동완
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to US16/325,938 priority Critical patent/US11170767B2/en
Priority to EP17843801.6A priority patent/EP3480812B1/en
Publication of WO2018038381A1 publication Critical patent/WO2018038381A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Definitions

  • the present disclosure relates to a portable device and a method of processing an audio signal thereof, and more particularly, to a portable device and an audio signal processing method thereof for controlling an external device through a user voice.
  • a voice recognition service for controlling a TV operation through a remote control by embedding a microphone in a TV remote control has been commercialized.
  • a microphone carrying a user's voice signal is essential, and an effective voice processing system is required for smooth voice recognition.
  • the noise removal process is fixed without considering the user's speech distance, in some cases, the user's voice may be distorted, which hinders smooth speech recognition.
  • the present disclosure has been made to solve the above-described problem, and an object of the present disclosure is to provide a portable device and an audio signal processing method thereof, which process an audio signal according to a user speech distance.
  • a portable device for controlling an external device is disposed on one surface of the portable device and receives an audio signal including a user voice spoken by a user.
  • the user utterance distance is determined between the portable device and the user based on the audio signals input through the first and second microphones, and when the user utterance distance is determined to be near-field speech, the user among the first and second microphones
  • the signal processor to process only an audio signal input through a microphone disposed at a relatively far distance from the And a processor for controlling the communication unit to transmit the processed audio signal to the external device.
  • the signal processor may perform signal processing of at least one of noise reduction and amplitude correction on the audio signals input through the first and second microphones.
  • the processor may control the signal processor to perform only the size correction on the audio signal input through the microphone disposed at a farther distance when the user speech distance is determined to be the near speech. .
  • the processor controls the signal processor to perform the noise removing and the magnitude correction on the audio signals input through the first and second microphones.
  • the controller may control the communication unit to transmit the processed audio signal to the external device.
  • the processor may determine the user speech distance based on whether the user's breath is detected from the audio signals input through the first and second microphones.
  • the processor compares the MFCC characteristic of the audio signals input through the first and second microphones with the MFCC characteristic of a preset breath sound template, and when the similarity is greater than or equal to a preset threshold.
  • the speech distance may be determined as the near speech.
  • the processor may determine the user speech distance as the near speech when the magnitudes of the audio signals input through the first and second microphones are greater than or equal to a preset threshold.
  • the processor may determine the user speech distance as the near speech when the difference between the magnitude of the audio signal input through the first microphone and the magnitude of the audio signal input through the second microphone is greater than or equal to a preset threshold. can do.
  • an audio signal processing method of a portable device for controlling an external device may include a first microphone disposed on one surface of the portable device and another surface opposite to one surface of the portable device.
  • At least one signal processing of noise reduction and amplitude correction may be performed on the audio signals received through the first and second microphones.
  • the audio signal received through the microphone disposed at a relatively far distance may perform only the size correction.
  • the noise cancellation and the size correction may be performed on the audio signals received through the first and second microphone microphones. Can be.
  • the determining may include detecting a breath of the user from the audio signals received through the first and second microphones and determining the user utterance distance according to whether the breath is detected. .
  • the detecting of the breath sounds may include determining a degree of similarity by comparing a MFCC characteristic of an audio signal received through the first and second microphones with a MFCC characteristic of a preset breath template.
  • the determining of the user speech distance may include determining the user speech distance as the near speech when the similarity is greater than or equal to a preset threshold.
  • the determining may include determining the user speech distance as the near speech when the magnitudes of the audio signals input through the first and second microphones are greater than or equal to a preset threshold.
  • the determining may include comparing the magnitude of the audio signal received through the first microphone with the magnitude of the audio signal received through the second microphone, and when the magnitude difference of the audio signal is greater than or equal to a preset threshold. And determining the user speech distance as a near speech.
  • the portable device for controlling the external device may flexibly process the audio signal according to the utterance distance of the user. Accordingly, the external device can smoothly recognize the voice regardless of the distance spoken by the user.
  • FIG. 1 is a diagram illustrating an example of a system for controlling an external device through a portable device and problems of the related art.
  • FIG. 2 is a block diagram illustrating a configuration of a portable device according to an embodiment of the present disclosure.
  • FIG. 3 is a block diagram illustrating a detailed configuration of a signal processor according to an exemplary embodiment.
  • FIG. 4 is a block diagram illustrating a configuration of a portable device according to another exemplary embodiment of the present disclosure.
  • FIG. 5 is a diagram illustrating an arrangement of a first microphone and a second microphone according to various embodiments of the present disclosure.
  • FIG. 6 is a flowchart of an audio signal processing method of a portable device according to an exemplary embodiment.
  • FIG. 7 is a detailed flowchart of an audio signal processing method of a portable device according to an exemplary embodiment.
  • first component may be referred to as a second component.
  • second component may be referred to as a first component.
  • FIG. 1A illustrates an example of a system for controlling an external device through a portable device.
  • a user may control the TV 20 through the remote controller 10.
  • the user may control the TV 20 by uttering a user command for controlling the TV 20 through the remote controller 10.
  • the remote controller 10 receives an audio signal including a voice corresponding to the user command and performs necessary processing, and then the TV 20 is sent to the TV 20.
  • the TV 20 may recognize a user command included in the received audio signal and perform a user operation corresponding to the recognized user command.
  • the microphone 10 needs to be provided.
  • FIG. 1B illustrates the remote controller 10 of FIG. 1A in more detail.
  • 1B illustrates a front surface of the remote controller 10
  • FIG. 1B illustrates a rear surface of the remote controller 10.
  • the remote controller 10 may include microphones 11 and 12 on the front and rear surfaces, respectively, in order to obtain an audio signal including a voice of a user.
  • the two microphones 11 and 12 are provided in the remote controller 10
  • the TV 20 may be controlled through the user voice even when the speech is not near.
  • the remote controller 10 may remove noise by performing signal processing such as beamforming on the audio signal introduced with the phase difference by the distance between the two microphones 11 and 12 and transmitting the signal to the TV 20. Will be.
  • the speech recognition is possible by removing noise even when the user speaks instead of the near speech.
  • the noise reduction process is fixed, the user's voice may be distorted in some cases.
  • FIG. 1C is a diagram for explaining such a problem.
  • (A) and (b) of FIG. 1C show the front microphone 11 and the rear microphone 12 signals, respectively, when the user has near-field speech.
  • the left figure of (a) and (b) of FIG. 1c shows the microphone signal waveform in the time domain
  • the right figure shows the spectrum in the frequency domain.
  • the front microphone 11 When there is a near speech of the user, as shown in (a) of FIG. 1C, the front microphone 11 is very close to the sound source (user's mouth) and the signal is saturated due to the possibility of the user's breath being introduced. It can be seen that the distortion (such as 1, 2 of Fig. 1c). On the other hand, the rear microphone 12 signal, as shown in (a) of Figure 1c can be seen that there is no breathing noise or signal distortion.
  • FIG. 2 is a block diagram illustrating a configuration of a portable device for controlling an external device according to an embodiment of the present disclosure.
  • the mobile device 100 is a variety of devices that can control the external device, it is possible to control the external device 20 by receiving the user's voice in the system as shown in Figure 1a and transmits to the external device 20
  • It can be any electronic device.
  • it may be a device that can be held by the user, such as a remote control, a smart phone, a PDA having two or more microphones, but is not limited thereto.
  • the external device 20 may be various devices that perform operations under the control of the mobile device 100, and may be a TV 20 that is controlled by the remote controller 10 as illustrated in FIG. 1A, but is not limited thereto.
  • the electronic device may be any electronic device capable of recognizing a user voice from an audio signal received through the various portable devices 100 and performing a user command corresponding to the recognized user voice. For example, it may be a set-top box, a sound bar, an electronic frame, an electronic blackboard, an electronic table, a large format display (LFD), a desktop PC, a laptop, various smart home appliances, and the like.
  • the portable device 100 controlling the external device 20 includes a first microphone 110-1, a second microphone 110-2, a signal processor 120, a communication unit 130, and a processor ( 140).
  • the first microphone 110-1 and the second microphone 110-2 convert an external sound into an electrical signal and output the electrical signal.
  • the first microphone 110-1 and the second microphone 110-2 receive an audio signal including a user's voice spoken by the user, convert the audio signal into an electrical signal, and then process the signal processor 120 and the processor 140.
  • the first microphone 110-1 may be disposed on one surface of the mobile device 100, and the second microphone 110-2 may face the surface on which the first microphone 110-1 is disposed. Can be placed in.
  • the signal processor 120 processes an audio signal provided from the first microphone 110-1 and the second microphone 110-2.
  • the signal processor 120 is controlled by the processor 140 to remove noise from the audio signals provided by the first microphone 110-1 and the second microphone 110-2, except for the user's voice. At least one of the removal processing and the size correction processing for correcting the magnitude of the audio signal can be performed.
  • the noise removing process is a beamforming process for removing the sound flowing into the microphone in a direction deviating from a predetermined angle with respect to the user's direction as described later with reference to FIG. It may include a non-voice removal process for removing the voice.
  • the signal processor 120 may be implemented with hardware such as Application Specific Integrated Circuits (ASICs), Digital Signal Processors (DSPs), Digital Signal Processing Devices (DSPDs), Programmable Logic Devices (PLDs), and the like. It is not.
  • ASICs Application Specific Integrated Circuits
  • DSPs Digital Signal Processors
  • DSPDs Digital Signal Processing Devices
  • PLDs Programmable Logic Devices
  • the communicator 130 communicates with the external device 20.
  • the communication unit 130 may transmit the audio signal processed by the signal processing unit 120 to the external device 20 under the control of the processor 140.
  • the external device 20 may receive an audio signal transmitted from the portable device 100 to recognize a user voice and perform a control operation corresponding to the recognized user voice.
  • the communication unit 130 may include a short range wireless communication module or a wireless LAN communication module.
  • the short range wireless communication module is a communication module for wirelessly performing data communication with an external device 20 located in a short range, for example, a Bluetooth module, a ZigBee module, an NFC module, and an IR transmission / reception. Module or the like.
  • the WLAN communication module is a module connected to an external network according to a wireless communication protocol such as Wi-Fi, IEEE, etc. to perform communication.
  • the communication unit 130 further includes a mobile communication module for accessing and communicating with a mobile communication network according to various mobile communication standards such as 3rd generation (3G), 3rd generation partnership project (3GPP), long term evolution (LTE), and the like. You may.
  • 3G 3rd generation
  • 3GPP 3rd generation partnership project
  • LTE long term evolution
  • the processor 140 controls the overall operation of the portable device 100.
  • the processor 140 may determine the user speech distance based on the audio signals received through the first and second microphones 110-1 and 110-2.
  • the user utterance distance means the distance between the portable device 100 and the user.
  • the processor 140 may determine the user speech distance based on whether the user's breath is detected from the audio signals input through the first and second microphones 110-1 and 110-2. have.
  • the processor 140 compares the MFCC characteristics of the audio signals received through the first and second microphones 110-1 and 110-2 with the MFCC characteristics of a preset breath template. When the similarity is greater than or equal to a preset threshold, the user speech distance may be determined as near speech. In this case, the preset breath sound template may be stored in a storage unit (not shown) of the mobile device 100.
  • the processor 140 extracts the MFCC feature for every frame of the audio signal received through the first and second microphones 110-1 and 110-2, and extracts the MFCC feature and the preset breath template. After comparing the MFCC features to obtain similarity, the count value may be increased when the similarity value is greater than or equal to a preset threshold.
  • the processor 140 may determine that the frame includes breath sounds, and when the number of frames determined as the breath sounds exceeds the reference value, the processor 140 may determine the user's speech as a near speech.
  • the processor 140 may determine the user speech distance based on whether the audio signals received through the first and second microphones 110-1 and 110-2 are saturated.
  • the processor 140 may determine the user speech distance as the near speech when the magnitudes of the audio signals input through the first and second microphones 110-1 and 110-2 are greater than or equal to a preset threshold.
  • the processor 140 obtains amplitudes of a plurality of sample data for every frame of the audio signal received through the first and second microphones 110-1 and 110-2, and then calculates the amplitude of each sample data.
  • the count value may be increased when the size of the sample data exceeds the reference value by determining whether the size reference value is exceeded.
  • the processor 140 may determine that the frame is a saturated frame, and when the number of saturated frames exceeds the reference value, the processor 140 may determine the user's speech as a near speech.
  • the processor 140 determines a user utterance distance by comparing the difference between the magnitudes of the audio signals received through the first microphone 110-1 and the second microphone 110-2. can do.
  • the user speech distance may be determined as near speech.
  • the processor 140 obtains an amplitude of sample data every frame of an audio signal received through the first and second microphones 110-1 and 110-2, and then calculates the amplitude of the sample data.
  • the size of the audio signal inputted through 1) and the audio signal inputted through the second microphone 110-2 may be compared.
  • first microphone 110-1 and the second microphone 110-2 are disposed on opposite surfaces (eg, the front and the rear) of the mobile device 100, respectively, as described above in the case of the near-field speech of the user. Likewise, the difference in magnitude of the audio signal received through the first microphone 110-1 and the second microphone 110-2 is apparent.
  • the processor 140 determines the corresponding frame as a near speech frame, When the number of speech frames is greater than or equal to the reference value, the user speech may be determined as near speech.
  • the processor 140 may determine the user speech distance by combining the above-described embodiments.
  • the processor 140 may control the signal processor 120 to process the audio signal according to the determined user speech distance.
  • the processor 140 may receive audio input through a microphone disposed at a distance farther from the user among the first and second microphones 110-1 and 110-2.
  • the signal processor 120 may be controlled to process only a signal.
  • the processor 140 may determine one of the first and second microphones 110-1 and 110-2 disposed at a relatively far distance from the user. For example, the user's voice is input to each microphone with a phase difference by the distance between the first microphone 110-1 and the second microphone 110-2 disposed on the mobile device 100, and thus the processor 140. Determining which microphone is located at a relatively far distance from the user (exactly the user's mouth) is based on the phase difference of the audio signals input to the microphones 110-1 and 110-2.
  • the present invention is not limited thereto, and the processor 140 may compare the magnitudes of the audio signals input to the first microphone 110-1 and the second microphone 110-2, or determine whether each microphone signal is saturated or the MFCC feature. In comparison, one may determine a microphone placed relatively farther from the user.
  • the processor 140 may perform only a size correction on the audio signal input through the microphone disposed at a relatively far distance from the user among the first and second microphones 110-1 and 110-2. 120 may be controlled.
  • the processor 140 may remove noise and correct size of each audio signal input through the first and second microphones 110-1 and 110-2.
  • the signal processor 120 may be controlled to perform all of them.
  • the processor 140 may control the communicator 130 to transmit the audio signal processed as described above to the external device 20.
  • the processor 140 may perform the second microphone 110-2.
  • the signal processor 120 may be controlled to only perform size correction on the audio signal input through the first audio signal. In this case, the audio signal input through the first microphone 110-1 is not blocked or discarded. Therefore, in this case, only the audio signal received through the second microphone 110-2 is size-corrected and transmitted to the external device 20 through the communication unit 130.
  • the processor 140 may perform noise reduction and size correction on each of the audio signals input through the first and second microphones 110-1 and 110-2.
  • the signal processing unit 120 is controlled, and each processed audio signal is transmitted to the external device 20 through the communication unit 130.
  • the audio signal is flexibly processed according to the user's speech distance in the external device 20 control voice recognition system through the portable device 100 having two microphones.
  • voice distortion that may occur may be prevented.
  • smooth speech recognition is possible in any case regardless of whether the user's speech is a near speech or not.
  • the user utterance distance is determined using the audio signals input through the first and second microphones 110-1 and 110-2, but the example of determining the user utterance distance is not limited thereto.
  • the portable device 100 includes a separate sensor such as a temperature sensor, a humidity sensor, a vibration sensor, a motion sensor, an IR sensor, an image sensor, and the like, and determines a user's utterance distance using information obtained through such various sensors. You could do it.
  • the first microphone 110-1 is a front microphone disposed at the front of the mobile device 100
  • the second microphone 110-2 is disposed at the rear of the mobile device 100. It is assumed that it is a rear microphone.
  • the signal processor 120 is controlled by the processor 140 and receives an audio signal received through the front microphone 110-1 and the rear microphone 110-2. Noise reduction and size correction can be performed.
  • the signal processor 120 may include a noise remover 121 and a size corrector 122, as shown in FIG. 3.
  • the noise removing unit 121 is configured to remove noise except for a user's voice, and may include a beam forming unit 121-1 and a non-voice removing unit 121-2.
  • the beamformer 121-1 may perform beamforming by using a stereo audio signal input to the front microphone 110-1 and the rear microphone 110-2.
  • the user in order to control the external device 20 through voice, the user utters the voice toward the front of the mobile device 100 while holding the mobile device 100, and thus, the front microphone 110-1 and the front microphone 110-1.
  • a phase difference exists in audio signals corresponding to user voices input to the rear microphones 110-2, respectively.
  • audio signals input to the front and rear microphones 110-1 and 110-2 in the lateral direction of the portable device 100 have little phase difference.
  • the beamformer 121-1 may perform the user direction beamforming by removing and processing the remaining audio signals except for the audio signal in the user direction by using the phase difference as noise. Accordingly, the audio signal corresponding to the noise input to the microphones 110-1 and 110-2 in the lateral direction may be weakened or eliminated.
  • the beamformer 121-1 may perform beamforming to remove or attenuate the side signal, and then convert the stereo signal into a mono signal to provide the non-voice remover 121.
  • the non-voice removal unit 121-2 may remove the non-voice signal other than the user's voice from the audio signals input through the microphones 110-1 and 110-2.
  • the non-voice remover 121-2 may remove the non-voice signal from the audio signal processed by the beamformer 121-1 using a voice / non-voice classification module. Since the voice / non-voice module and specific details of removing the non-voice using the same are outside the gist of the present disclosure, a detailed description thereof will be omitted.
  • FIG. 3 illustrates an example in which a non-voice removal process is performed on an audio signal on which the beamforming process is performed, it may be possible to perform the beamforming process after first removing the non-voice.
  • the size correcting unit 122 corrects the size of the audio signal received through the microphones 110-1 and 110-2.
  • the size corrector 122 may correct the size of the audio signal to be suitable for recognizing a user's voice in the external device 20.
  • the size corrector 122 may attenuate a large signal and amplify a small signal.
  • the size corrector 122 may correct the signal size by applying a preset gain curve to the audio signal from which the noise is removed through the noise remover 121, but is not limited thereto.
  • the processor 140 may perform noise reduction and size correction processing on the audio signal received through the front microphone 110-1 and the rear microphone 110-2.
  • the signal processor 120 may be controlled, and the communicator 130 may be controlled to transmit the audio signal, which has been subjected to noise removal and size correction, to the external device 20.
  • the processor 140 when the user speaks with the front of the mobile device 100 close to his or her mouth, that is, in the case of a near-field speech of the user, the processor 140 has a rear microphone 110 that is farther away from the user's mouth.
  • the signal processor 120 may be controlled to process only the audio signal input through -2). In this case, the signal received through the front microphone 110-1 is not transmitted to the signal processor 120.
  • the processor 140 controls the signal processor 120 to perform size correction only on a signal received through the rear microphone 110-2, without noise canceling such as beamforming or non-voice cancellation.
  • the audio signal input through the front microphone 110-1 may have distortion due to inflow of breath or saturation of the signal. Only the audio signal received through the rear microphone 110-2 is used.
  • performing the noise canceling process performed on the rear microphone 110-2 without distortion during the near-field utterance of the user for the non-short-range utterance results in distortion of the signal, and thus the size without the noise canceling process. Only the correction process can be performed to solve the problems of the prior art.
  • the portable device 400 may include a first microphone 410-1, a second microphone 410-2, a communication unit 430, and a processor 440.
  • the first and second microphones 410-1 and 410-2 of the mobile device 400 and the communication unit 430 are the first and second microphones 110-1 and 110 of the mobile device 100 described above with reference to FIG. 2. -2) Since it is the same structure as the communication part 130, duplication description is abbreviate
  • the portable device 400 can be seen that there is no signal processor 120, unlike the portable device 100 shown in FIG. Through the portable device 400 having such a configuration, the technical spirit of the present disclosure may be applied as described below.
  • the configuration of the signal processor 120 may also be implemented in software. That is, the functions of the beamforming unit 121-1, the non-voice removing unit 121-2, and the size correcting unit 122 described with reference to FIG.
  • the code may be implemented and stored in a storage unit (not shown), and the processor 440 may execute the above-described signal processing unit by executing the module stored in the storage unit (not shown).
  • the configuration of the signal processor 120 may be implemented in the external device 20.
  • the processor 440 may determine a user utterance distance between the mobile device 400 and the user based on an audio signal received through the first microphone 410-1 and the second microphone 410-2, and then speak the user.
  • the first microphone 410-1 and the second microphone 420-2 are disposed at a relatively far distance from the user, and only an audio signal input through the microphone is transmitted to the external device 20.
  • the communication unit 430 may be controlled to transmit.
  • the external device 20 may only perform size correction on the audio signal received from the portable device 400 and analyze the audio signal on which the size correction has been performed to recognize the user's voice.
  • the processor 440 sends all of the audio signals input through the first microphone 410-1 and the second microphone 410-2 to the external device 20.
  • the communication unit 430 may be controlled to transmit.
  • the external device 20 may perform noise reduction processing and size correction processing on the stereo audio signal received from the portable device 400, and analyze the processed audio signal to recognize the user's voice.
  • the portable devices 100 and 400 may include a voice recognition engine or a module.
  • the mobile device (100, 400) directly recognizes the user's voice by analyzing the audio signal subjected to noise removal or size correction through the signal processor 120, and transmits a control signal corresponding to the recognized user's voice to an external device ( 20) may be sent directly.
  • 5 is a diagram illustrating an arrangement of a first microphone and a second microphone according to various embodiments of the present disclosure.
  • 5 illustrates an example in which the mobile devices 100 and 400 are remote controllers 500, and the remote controller 500 includes a front surface 510, a rear surface 520, a left surface 530, a right surface 540, and an upper surface ( Six surfaces, such as 550 and a lower surface 560.
  • the remote control 500 When the user grips the remote control 500 and utters a voice, two microphones are required to perform a noise removing process such as user-direction beamforming on the audio signal input through the microphone, and at this time, The audio signal should be out of phase.
  • the remote control 500 is preferably provided with microphones 510-1 and 510-2, respectively, on the front surface 510 and the rear surface 520 opposite to the front surface, as shown in (b) of FIG. can do.
  • the position where the microphone is disposed is not limited to the upper side of the front, rear, 510, 520 as shown in (b) of FIG.
  • it may be arranged to face each other in the front, rear, 510, 520, other areas, such as the lower side or the center portion.
  • the microphones 510-1 and 510-2 may be disposed on the left side 530 and the right side 540 opposite thereto, respectively.
  • the microphones 510-1 and 510-2 may be disposed on the upper surface 550 and the lower surface 560 opposite to each other.
  • the portable devices 100 and 400 for controlling an external device may have a first microphone disposed on one surface of the portable devices 100 and 400 and the other surface facing one surface of the portable devices 100 and 400.
  • the audio signal including the user's voice spoken by the user is received through the second microphone disposed at the step S610.
  • the mobile devices 100 and 400 may determine a user speech distance (S620).
  • the portable devices 100 and 400 may determine the user speech distance based on the audio signals input through the first microphone and the second microphone.
  • the portable devices 100 and 400 may detect a user's breath from the audio signals input through the first and second microphones, and determine the user's speech distance according to whether the breath is detected.
  • the mobile apparatus 100 or 400 compares the MFCC characteristics of the audio signals received through the first and second microphones with the MFCC characteristics of the preset breath sound template, and determines the similarity. When the similarity degree is greater than or equal to a preset threshold, the user speech distance may be determined as near speech.
  • the portable devices 100 and 400 may determine the user speech distance as the near speech.
  • the mobile device 100 or 400 compares the magnitude of the audio signal input through the first microphone with the magnitude of the audio signal input through the second microphone, and if the difference in magnitude of the audio signal is greater than or equal to a preset threshold, The speech distance may be determined as near speech.
  • the portable devices 100 and 400 process the audio signals input through the first microphone and the second microphone (S630).
  • the portable apparatus 100 or 400 processes only an audio signal input through a microphone disposed at a relatively far distance from the user among the first and second microphones. If it is determined that the speech distance is not a near speech, both audio signals input through the first and second microphones may be processed.
  • the portable devices 100 and 400 may determine a microphone disposed at a relatively far distance from the user by comparing the phase difference of each audio signal input to the first and second microphones or comparing the magnitude of the audio signal. . In addition, the portable devices 100 and 400 may determine whether the microphone is disposed at a relatively longer distance from the user by comparing the saturation of each microphone signal or the MFCC characteristic.
  • the portable devices 100 and 400 may transmit the processed audio signal to the external device 20 (S640).
  • FIG. 7 is a detailed flowchart of an audio signal processing method of the portable device 100 or 400 according to an exemplary embodiment.
  • the portable devices 100 and 400 may determine a user speech distance as described above (S720).
  • the mobile apparatus 100, 400 inputs the microphone through a microphone disposed at a distance farther from the user among the first microphone and the second microphone. Only signal amplitude correction may be performed on the received mono audio signal (S750), and the processed audio signal may be transmitted to the external device 20 (S760). In this case, the audio signal received through the other microphone is not corrected in size, and is not transmitted to the external device 20.
  • the mobile apparatus 100, 400 performs beamforming on the stereo audio signals input through the first and second microphone microphones (S730). ).
  • the portable devices 100 and 400 may perform beamforming in a user direction by using a phase difference of each audio signal input through the first microphone and the second microphone. Accordingly, the audio signal (i.e., the side signal) input to the microphone in a direction out of a predetermined angle from the user direction is removed or attenuated, and as a result of the beamforming, the mono audio signal may be provided for non-voice removal processing.
  • the audio signal i.e., the side signal
  • the mono audio signal may be provided for non-voice removal processing.
  • the portable devices 100 and 400 may remove non-voice from the beamformed mono audio signal (S740).
  • the portable devices 100 and 400 may remove the non-voice signal by using the voice / non-voice classification module.
  • the mobile devices 100 and 400 perform a signal magnitude correction process by applying a gain curve to the mono audio signal that has been performed until the non-voice removal process (S750), and then transmits the processed audio signal to the external device 20. It may be (S760).
  • the portable device for controlling the external device can flexibly process the audio signal according to the utterance distance of the user. Accordingly, the external device can smoothly recognize the voice regardless of the distance spoken by the user.
  • operations of the processors 140 and 440 of the portable devices 100 and 400 and audio signal processing methods of the portable devices 100 and 400 according to various embodiments of the present disclosure may be generated by software. And may be mounted on the portable devices 100 and 400.
  • audio including a user's voice spoken by a user through a first microphone disposed on one side of the mobile apparatuses 100 and 400 and a second microphone disposed on the other side of the portable apparatus.
  • a non-transitory program storing an audio signal processing method for processing only an audio signal input through a microphone disposed at a relatively far distance from the user among the first and second microphones is stored.
  • a non-transitory computer readable medium may be installed.
  • the non-transitory readable medium refers to a medium that stores data semi-permanently rather than a medium storing data for a short time such as a register, a cache, a memory, and the like, and can be read by the device.
  • the above-described various middleware or programs may be stored and provided in a non-transitory readable medium such as a CD, a DVD, a hard disk, a Blu-ray disk, a USB, a memory card, a ROM, or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

외부 기기를 제어하는 휴대 기기가 개시된다. 본 휴대 기기는, 휴대 기기의 일 면에 배치되어, 사용자가 발화한 사용자 음성을 포함하는 오디오 신호를 입력받는 제 1 마이크, 휴대 기기의 일 면에 대향하는 타 면에 배치되어, 사용자 음성을 포함하는 오디오 신호를 입력받는 제 2 마이크, 오디오 신호를 처리하는 신호 처리부, 외부 기기와 통신하는 통신부 및 제 1 및 제 2 마이크를 통해 입력받은 오디오 신호에 기초하여 휴대 기기와 사용자 간의 사용자 발화 거리를 판단하고, 사용자 발화 거리가 근거리 발화로 판단되면, 제 1 및 제 2 마이크 중 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호만을 처리하도록 신호 처리부를 제어하며, 처리된 오디오 신호를 외부 기기로 전송하도록 통신부를 제어하는 프로세서를 포함한다.

Description

외부 기기를 제어하는 휴대 기기 및 이의 오디오 신호 처리 방법
본 개시는 휴대 기기 및 이의 오디오 신호 처리 방법에 관한 것으로, 보다 상세하게는, 사용자 음성을 통해 외부 기기를 제어하는 휴대 기기 및 이의 오디오 신호 처리 방법에 관한 것이다.
전자 기술의 발달에 힘입어 사용자 음성을 통해 전자 장치의 동작을 제어하는 기술이 개발 및 보급되고 있다. 이에 따라, 사용자들은 음성을 발화하는 것만으로 각종 전자 장치를 조작할 수 있게 되었다.
특히, 최근에는 TV 리모컨에 마이크를 내장하여 리모컨을 통해 TV의 동작을 제어하는 음성인식 서비스가 상용화되고 있다. 이러한 서비스를 위해서는 사용자의 음성신호를 운반하는 마이크가 필수적이며, 원활한 음성 인식을 위해 효과적인 음성처리 시스템이 필요하다.
상용화 초기에는 사용자가 리모컨을 입에 대고 음성을 발화하는 시나리오를 가정하여 리모컨에 하나의 마이크만을 내장하여 설계하는 것이 일반적이었다. 이러한 사용자의 근거리 발화시에는 복잡한 음성 처리가 필요 없기 때문이다.
최근에는 사용자가 리모컨을 파지하고 있는 일반적인 상태(예를 들어, 채널 재핑을 위해 TV를 향해 리모컨을 가리키는 정도로 리모컨과 사용자의 입 사이의 거리가 있는 상태)에서의 사용자 발화까지 고려하여, 2개의 마이크가 내장된 리모컨이 개발되고 있다. 이 경우, 전술한 근거리 발화보다 많은 주변 잡음이 마이크로 유입되므로, 원활한 음성 인식을 위해서는 마이크를 통해 유입된 오디오 신호에서 주변 잡음을 제거하는 등의 신호 처리가 필요하게 된다.
이때, 사용자의 발화 거리를 고려하지 않고 고정적으로 잡음 제거 처리를 하는 경우, 경우에 따라 오히려 사용자의 음성이 왜곡되는 현상이 발생할 수 있으며, 이는 원활한 음성 인식을 저해하게 된다.
본 개시는 상술한 문제점을 해결하기 위해 안출된 것으로, 본 개시의 목적은 사용자 발화 거리에 따라 유동적으로 오디오 신호를 처리하는 휴대 기기 및 이의 오디오 신호 처리 방법을 제공함에 있다.
상술한 목적을 달성하기 위한 본 개시의 일 실시 예에 따른 외부 기기를 제어하는 휴대 기기는, 상기 휴대 기기의 일 면에 배치되어, 사용자가 발화한 사용자 음성을 포함하는 오디오 신호를 입력받는 제1 마이크, 상기 휴대 기기의 일 면에 대향하는 타 면에 배치되어, 상기 사용자 음성을 포함하는 오디오 신호를 입력받는 제2 마이크, 상기 오디오 신호를 처리하는 신호 처리부, 상기 외부 기기와 통신하는 통신부 및 상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호에 기초하여 상기 휴대 기기와 상기 사용자 간의 사용자 발화 거리를 판단하고, 상기 사용자 발화 거리가 근거리 발화로 판단되면, 상기 제1 및 제2 마이크 중 상기 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호만을 처리하도록 상기 신호 처리부를 제어하며, 상기 처리된 오디오 신호를 상기 외부 기기로 전송하도록 상기 통신부를 제어하는 프로세서를 포함한다.
또한, 상기 신호 처리부는, 상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호에 대해 잡음 제거 및 크기 보정 중 적어도 하나의 신호 처리를 수행할 수 있다.
또한, 상기 프로세서는, 상기 사용자 발화 거리가 상기 근거리 발화로 판단되면, 상기 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호에 대해 상기 크기 보정만을 수행하도록 상기 신호 처리부를 제어할 수 있다.
또한, 상기 프로세서는, 상기 발화 거리가 상기 근거리 발화가 아닌 것으로 판단되면, 상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호에 대해 상기 잡음 제거 및 상기 크기 보정을 수행하도록 상기 신호 처리부를 제어하고, 상기 처리된 오디오 신호를 상기 외부 기기로 전송하도록 상기 통신부를 제어할 수 있다.
또한, 상기 프로세서는, 상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호에서 상기 사용자의 숨소리 검출 여부를 통해 상기 사용자 발화 거리를 판단할 수 있다.
또한, 상기 프로세서는, 상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호의 MFCC(Mel-frequency cepstral coefficients) 특징과 기설정된 숨소리 템플릿의 MFCC 특징을 비교하여 유사도가 기설정된 임계치 이상인 경우, 상기 사용자 발화 거리를 상기 근거리 발화로 판단할 수 있다.
또한, 상기 프로세서는, 상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호의 크기가 기설정된 임계치 이상인 경우, 상기 사용자 발화 거리를 상기 근거리 발화로 판단할 수 있다.
또한, 상기 프로세서는, 상기 제1 마이크를 통해 입력받은 오디오 신호의 크기와 상기 제2 마이크를 통해 입력받은 오디오 신호의 크기의 차이가 기설정된 임계치 이상인 경우, 상기 사용자 발화 거리를 상기 근거리 발화로 판단할 수 있다.
한편, 본 개시의 일 실시 예에 따른, 외부 기기를 제어하는 휴대 기기의 오디오 신호 처리 방법은, 상기 휴대 기기의 일 면에 배치된 제1 마이크 및 상기 휴대 기기의 일 면에 대향하는 타 면에 배치된 제2 마이크를 통해, 사용자가 발화한 사용자 음성을 포함하는 오디오 신호를 입력받는 단계, 상기 휴대 기기와 상기 사용자 간의 사용자 발화 거리를 판단하는 단계, 상기 입력받은 오디오 신호를 처리하는 단계 및 상기 처리된 오디오 신호를 상기 외부 기기로 전송하는 단계를 포함하며, 상기 오디오 신호를 처리하는 단계는, 상기 사용자 발화 거리가 근거리 발화로 판단되면, 상기 제1 및 제2 마이크 중 상기 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호만을 처리한다.
또한, 상기 오디오 신호를 처리하는 단계는, 상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호에 대해 잡음 제거 및 크기 보정 중 적어도 하나의 신호 처리를 수행할 수 있다.
또한, 상기 오디오 신호를 처리하는 단계는, 상기 사용자 발화 거리가 상기 근거리 발화로 판단되면, 상기 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호에 대해 상기 크기 보정만을 수행할 수 있다.
또한, 상기 오디오 신호를 처리하는 단계는, 상기 발화 거리가 상기 근거리 발화가 아닌 것으로 판단되면, 상기 제1 및 제2 마이크 마이크를 통해 입력받은 오디오 신호에 대해 상기 잡음 제거 및 상기 크기 보정을 수행할 수 있다.
또한, 상기 판단하는 단계는, 상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호에서 상기 사용자의 숨소리를 검출하는 단계 및 상기 숨소리 검출 여부에 따라 상기 사용자 발화 거리를 판단하는 단계를 포함할 수 있다.
또한, 상기 숨소리를 검출하는 단계는, 상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호의 MFCC(Mel-frequency cepstral coefficients) 특징과 기설정된 숨소리 템플릿의 MFCC 특징을 비교하여 유사도를 판단하는 단계를 포함하고, 상기 사용자 발화 거리를 판단하는 단계는, 상기 유사도가 기설정된 임계치 이상인 경우, 상기 사용자 발화 거리를 상기 근거리 발화로 판단하는 단계를 포함할 수 있다.
또한, 상기 판단하는 단계는, 상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호의 크기가 기설정된 임계치 이상인 경우, 상기 사용자 발화 거리를 상기 근거리 발화로 판단할 수 있다.
또한, 상기 판단하는 단계는, 상기 제1 마이크를 통해 입력받은 오디오 신호의 크기와 상기 제2 마이크를 통해 입력받은 오디오 신호의 크기를 비교하는 단계 및 상기 오디오 신호의 크기 차이가 기설정된 임계치 이상인 경우, 상기 사용자 발화 거리를 근거리 발화로 판단하는 단계를 포함할 수 있다.
이상과 같은 본 개시의 다양한 실시 예들에 따르면, 외부 기기를 제어하는 휴대 기기는 사용자의 발화 거리에 따라 유동적으로 오디오 신호를 처리할 수 있다. 이에 따라, 외부 기기는 사용자 발화 거리와 무관하게 원활한 음성 인식이 가능해 진다.
도 1은 휴대 기기를 통해 외부 기기를 제어하는 시스템의 일 예 및 종래 기술의 문제점을 설명하기 위한 도면이다.
도 2는 본 개시의 일 실시 예에 따른 휴대 기기의 구성을 나타내는 블럭도이다.
도 3은 본 개시의 일 실시 예에 따른 신호 처리부의 상세 구성을 나타내는 블럭도이다.
도 4는 본 개시의 다른 일 실시 예에 따른 휴대 기기의 구성을 나타내는 블럭도이다.
도 5는 본 개시의 다양한 실시 예에 따른 제1 마이크 및 제2 마이크의 배치를 나타내는 도면이다.
도 6은 본 개시의 일 실시 예에 따른 휴대 기기의 오디오 신호 처리 방법의 흐름도이다.
도 7은 본 개시의 일 실시 예에 따른 휴대 기기의 오디오 신호 처리 방법의 상세 흐름도이다.
본 개시를 설명함에 있어, 관련된 공지 기술에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 이하의 설명에서 사용되는 구성요소에 대한 접미사 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.
'제1', '제2' 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있으며, 상술된 구성 요소들은 상술된 용어들에 의해 한정되지 않는다. 상술된 용어들은 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위에서 제1 구성 요소는 제2 구성 요소로 명명될 수 있다. 또한, 제2 구성 요소는 제1 구성 요소로 명명될 수도 있다.
본 명세서에서 사용한 용어는 실시 예를 설명하기 위해 사용된 것으로, 본 개시를 제한 및/또는 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 명세서에서, '포함하다' 또는 '가지다' 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하에서 첨부된 도면을 참조하여 본 개시의 다양한 실시 예를 상세히 설명한다. 도 1a는 휴대 기기를 통해 외부 기기를 제어하는 시스템의 일 예를 도시하고 있다. 도 1a의 예에 따르면, 사용자는 리모컨(10)을 통해 TV(20)를 제어할 수 있다. 특히, 사용자는 리모컨(10)을 통해 TV(20)를 제어하기 위한 사용자 명령을 발화하여 TV(20)을 제어할 수 있다.
구체적으로, 사용자가 TV(20)를 제어하기 위한 사용자 명령을 발화하면, 리모컨(10)은 사용자 명령에 대응되는 음성을 포함하는 오디오 신호를 수신하여 필요한 처리를 수행한 후, TV(20)로 전송할 수 있다.
리모컨(10)으로부터 오디오 신호가 수신되면, TV(20)는 수신된 오디오 신호에 포함된 사용자 명령을 인식하고, 인식된 사용자 명령에 대응되는 사용자 동작을 수행할 수 있다.
이와 같이 리모컨(10)을 통해 사용자 음성을 수신하여 TV(20)를 제어하기 위해서는 리모컨(10)에 마이크가 구비될 필요가 있다.
도 1b는 도 1a의 리모컨(10)을 보다 자세히 도시한 도면이다. 도 1b의 (a)는 리모컨(10)의 전면을 나타내고, 도 1b의 (b)는 리모컨(10)의 후면을 나타낸다. 도 1b에 도시된 바와 같이, 리모컨(10)은 사용자의 음성을 포함하는 오디오 신호를 획득하기 위해, 전면 및 후면에 마이크(11, 12)를 각각 구비할 수 있다.
이와 같이, 리모컨(10)에 2개의 마이크(11, 12)가 구비된 경우에는, 도 1a의 (a)와 같이 사용자가 리모컨(10)을 입에 가까이 대고 음성을 발화하는 경우(이하, "근거리 발화"라 한다.)뿐만 아니라, 도 1a의 (b)와 같이 근거리 발화가 아닌 경우에도 사용자 음성을 통해 TV(20)를 제어할 수 있다.
구체적으로, 도 1a의 (b)와 같이, 근거리 발화가 아닌 사용자 발화가 있는 경우에는 사용자의 음성 외에 다양한 잡음이 함께 마이크(11, 12)로 유입되므로, 정확한 사용자 음성 인식을 위해서는 잡음 제거 등의 처리가 필수적이다. 이때, 리모컨(10)은 2개의 마이크(11, 12) 사이의 거리만큼 위상 차이를 가지고 유입되는 오디오 신호에 빔포밍 등과 같은 신호 처리를 수행하여 TV(20)로 전송함으로써, 잡음을 제거할 수 있게 된다.
이와 같이, 2개의 마이크(11, 12)를 구비한 리모컨(10)의 경우, 근거리 발화가 아닌 사용자의 발화가 있는 경우에도 잡음을 제거하여 음성 인식이 가능함은 별론, 사용자의 발화 거리를 고려하지 않고 고정적으로 잡음 제거 처리를 하는 경우, 경우에 따라 오히려 사용자의 음성이 왜곡되는 현상이 발생할 수 있다.
도 1c는 이러한 문제점을 설명하기 위한 도면이다. 도 1c의 (a) 및 (b)는 사용자의 근거리 발화가 있는 경우, 전면 마이크(11) 및 후면 마이크(12) 신호를 각각 나타낸다. 구체적으로, 도 1c의 (a) 및 (b)의 좌측 그림은 시간 도메인에서 마이크 신호 파형을 나타내며, 우측 그림은 주파수 도메인에서 스펙트럼을 도시하고 있다.
사용자의 근거리 발화가 있는 경우, 도 1c의 (a)에 도시된 바와 같이, 전면 마이크(11)는 음원(사용자 입)과의 거리가 매우 가깝고 또한 사용자의 숨소리가 유입될 가능성이 높아 신호가 포화하는 등 왜곡되는 것을 볼 수 있다(도 1c의 ①, ②). 이에 반해, 후면 마이크(12) 신호는, 도 1c의 (a)에 도시된 바와 같이 숨소리 유입이나 신호 왜곡이 없는 것을 볼 수 있다.
이때, 사용자의 발화 거리를 고려하지 않고 고정적으로 잡음 제거 처리를 하는 경우 즉, 사용자가 근거리 발화를 한 경우에도 근거리 발화가 아닌 경우와 동일하게 잡음 제거 처리를 하는 경우, 도 1c의 (c)에 도시된 스펙트럼 신호와 같이, 왜곡이 없던 후면 마이크(12) 신호를 오히려 왜곡시키는 결과를 초래하게 되는 것을 볼 수 있다(도 1c의 ③).
이에 따라, 사용자 음성을 통해 외부 기기를 제어하는 휴대 기기에 있어서, 사용자 발화 거리를 고려하여 유동적으로 오디오 신호를 처리하는 기술에 대한 필요성이 대두된다.
도 2는 본 개시의 일 실시 예에 따른 외부 기기를 제어하는 휴대 기기의 구성을 나타내는 블럭도이다.
여기서, 휴대 기기(100)는 외부 기기를 제어할 수 있는 각종 기기로서, 도 1a와 같은 시스템에서 사용자 음성을 수신하여 외부 기기(20)로 전송하는 것을 통해 외부 기기(20)를 제어할 수 있는 전자 장치면 어느 것이든 될 수 있다. 특히, 2 이상의 마이크를 구비한 리모컨, 스마트폰, PDA 등과 같이 사용자가 파지할 수 있는 기기일 수 있으나, 이에 한정되는 것은 아니다.
또한, 외부 기기(20)는 휴대 기기(100)의 제어를 받아 동작을 수행하는 각종 기기로서, 도 1a의 예와 같이, 리모컨(10)의 제어를 받는 TV(20)일 수 있으나, 이에 한정되는 것은 아니며, 전술한 각종 휴대 기기(100)를 통해 수신한 오디오 신호에서 사용자 음성을 인식하고, 인식된 사용자 음성에 대응되는 사용자 명령을 수행할 수 있는 전자 장치이면 어느 것이든 될 수 있다. 가령, 셋탑박스, 사운드 바, 전자 액자, 전자 칠판, 전자 테이블, LFD(Large Format Display), 데스크 탑 PC, 노트북, 각종 스마트 가전 기기 등일 수 있다.
도 2에 따르면, 외부 기기(20)를 제어하는 휴대 기기(100)는 제1 마이크(110-1), 제2 마이크(110-2), 신호처리부(120), 통신부(130) 및 프로세서(140)를 포함한다.
제1 마이크(110-1) 및 제2 마이크(110-2)는 외부의 소리를 전기적인 신호로 변환하여 출력한다. 특히, 제1 마이크(110-1) 및 제2 마이크(110-2)는 사용자가 발화한 사용자의 음성을 포함하는 오디오 신호를 입력받아 전기적 신호로 변환하여 신호 처리부(120) 및 프로세서(140)로 제공할 수 있다.
이때, 제1 마이크(110-1)는 휴대 기기(100)의 일 면에 배치될 수 있으며, 제2 마이크(110-2)는 제1 마이크(110-1)가 배치된 면에 대향하는 면에 배치될 수 있다.
신호 처리부(120)는 제1 마이크(110-1) 및 제2 마이크(110-2)로부터 제공되는 오디오 신호를 처리한다. 구체적으로, 신호 처리부(120)는 프로세서(140)의 제어를 받아, 제1 마이크(110-1) 및 제2 마이크(110-2)로부터 제공되는 오디오 신호에서 사용자 음성을 제외한 잡음을 제거하는 잡음 제거 처리 및 오디오 신호의 크기를 보정하는 크기 보정 처리 중 적어도 하나의 처리를 수행할 수 있다.
이때, 잡음 제거 처리는 도 3을 통해 후술할 바와 같이, 사용자 방향을 기준으로 일정 각도를 벗어나는 방향에서 마이크로 유입되는 소리를 제거하는 빔포밍 처리 또는 마이크로 유입되는 소리 중 음성과 비음성을 구분하여 비음성을 제거하는 비음성 제거 처리를 포함할 수 있다.
이를 위해, 신호 처리부(120)는 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices) 등과 같은 하드웨어로 구현될 수 있으나, 이에 한정되는 것은 아니다.
통신부(130)는 외부 기기(20)와 통신을 수행한다. 특히, 통신부(130)는 프로세서(140)의 제어를 받아 신호 처리부(120)에서 처리된 오디오 신호를 외부 기기(20)로 전송할 수 있다.
이에 따라, 외부 기기(20)는 휴대 기기(100)로부터 전송된 오디오 신호를 수신하여 사용자 음성을 인식하고, 인식된 사용자 음성에 대응되는 제어 동작을 수행할 수 있다.
이를 위해, 통신부(130)는 근거리 무선 통신 모듈이나 무선 랜 통신 모듈을 포함할 수 있다. 여기서, 근거리 무선 통신 모듈은 근거리에 위치한 외부 기기(20)와 무선으로 데이터 통신을 수행하는 통신 모듈로써, 예를 들어, 블루투스(Bluetooth) 모듈, 지그비(ZigBee) 모듈, NFC 모듈, IR 송/수신 모듈 등이 될 수 있다. 또한, 무선랜 통신 모듈은 와이파이(WiFi), IEEE 등과 같은 무선 통신 프로토콜에 따라 외부 네트워크에 연결되어 통신을 수행하는 모듈이다. 이 밖에 통신부(130)는 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evoloution) 등과 같은 다양한 이동 통신 규격에 따라 이동 통신망에 접속하여 통신을 수행하는 이동 통신 모듈을 더 포함할 수도 있다.
프로세서(140)는 휴대 기기(100)의 전반적인 동작을 제어한다.
특히, 프로세서(140)는 제1 및 제2 마이크(110-1, 110-2)를 통해 입력받은 오디오 신호에 기초하여 사용자 발화 거리를 판단할 수 있다. 여기서, 사용자 발화 거리는 휴대 기기(100)와 사용자 간의 거리를 의미한다.
본 개시의 일 실시 예에 따르면, 프로세서(140)는 제1 및 제2 마이크(110-1, 110-2)를 통해 입력받은 오디오 신호에서 사용자의 숨소리 검출 여부를 통해 사용자 발화 거리를 판단할 수 있다.
구체적으로, 프로세서(140)는 제1 및 제2 마이크(110-1, 110-2)를 통해 입력받은 오디오 신호의 MFCC(Mel-frequency cepstral coefficients) 특징과 기설정된 숨소리 템플릿의 MFCC 특징을 비교하여 유사도가 기설정된 임계치 이상인 경우, 사용자 발화 거리를 근거리 발화로 판단할 수 있다. 이때, 기설정된 숨소리 템플릿은 휴대 기기(100)의 저장부(미도시)에 저장되어 있을 수 있다.
예를 들어, 프로세서(140)는 제1 및 제2 마이크(110-1, 110-2)를 통해 입력받은 오디오 신호의 매 프레임마다 MFCC 특징을 추출하고, 추출된 MFCC 특징과 기설정된 숨소리 템플릿의 MFCC 특징을 비교하여 유사도를 구한 뒤 유사도의 값이 기설정된 임계치 이상이면 카운트 값을 증가시킬 수 있다.
이에 따라, 프로세서(140)는 카운트 값이 기준치보다 클 경우 숨소리가 포함된 프레임이라고 판단하고, 숨소리로 판단된 프레임의 개수가 기준치를 초과하는 경우 사용자의 발화를 근거리 발화로 판단할 수 있다.
본 개시의 다른 일 실시 예에 따르면, 프로세서(140)는 제1 및 제2 마이크(110-1, 110-2)를 통해 입력받은 오디오 신호의 포화 여부를 통해 사용자 발화 거리를 판단할 수 있다.
구체적으로, 프로세서(140)는 제1 및 제2 마이크(110-1, 110-2)를 통해 입력받은 오디오 신호의 크기가 기설정된 임계치 이상인 경우, 사용자 발화 거리를 근거리 발화로 판단할 수 있다.
예를 들어, 프로세서(140)는 제1 및 제2 마이크(110-1, 110-2)를 통해 입력받은 오디오 신호의 매 프레임마다 복수의 샘플 데이터의 크기(Amplitude)를 구한 뒤 각 샘플 데이터의 크기의 기준치를 초과 여부를 판단하여 샘플 데이터의 크기가 기준치를 초과하는 경우 카운트 값을 증가시킬 수 있다.
이에 따라, 프로세서(140)는 카운트 값이 기준치보다 클 경우 해당 프레임을 포화된 프레임으로 판단하고, 포화된 프레임의 개수가 기준치를 초과하는 경우 사용자의 발화를 근거리 발화로 판단할 수 있다.
본 개시의 또 다른 일 실시 예에 따르면, 프로세서(140)는 제1 마이크(110-1) 및 제2 마이크(110-2)를 통해 입력받은 오디오 신호의 크기 차이를 비교하여 사용자 발화 거리를 판단할 수 있다.
구체적으로, 프로세서(140)는 제1 마이크(110-1)를 통해 입력받은 오디오 신호의 크기와 제2 마이크(110-2)를 통해 입력받은 오디오 신호의 크기의 차이가 기설정된 임계치 이상인 경우, 사용자 발화 거리를 근거리 발화로 판단할 수 있다.
예를 들어, 프로세서(140)는 제1 및 제2 마이크(110-1, 110-2)를 통해 입력받은 오디오 신호의 매 프레임마다 샘플 데이터의 크기(Amplitude)를 구한 뒤 제1 마이크(110-1)를 통해 입력받은 오디오 신호와 제2 마이크(110-2)를 통해 입력받은 오디오 신호의 크기를 비교할 수 있다.
제1 마이크(110-1)와 제2 마이크(110-2)가 휴대 기기(100)의 대향하는 면(예를 들어, 전면과 후면)에 각각 배치되므로, 사용자의 근거리 발화의 경우 전술한 바와 같이, 제1 마이크(110-1)와 제2 마이크(110-2)를 통해 입력받은 오디오 신호의 크기 차이가 명확하다.
따라서, 프로세서(140)는 제1 및 제2 마이크(110-1, 110-2)를 통해 입력받은 오디오 신호의 각 샘플 데이터의 크기 차이가 기준치 이상인 경우 해당 프레임을 근거리 발화 프레임으로 판단하고, 근거리 발화 프레임의 개수가 기준치 이상인 경우 사용자 발화를 근거리 발화로 판단할 수 있다.
또한, 프로세서(140)가 상술한 실시 예들을 조합하여 사용자 발화 거리를 판단할 수도 있음은 당연하다.
전술한 바와 같이, 사용자 발화 거리가 판단되면, 프로세서(140)는 판단된 사용자 발화 거리에 따라 오디오 신호를 처리하도록 신호 처리부(120)를 제어할 수 있다.
구체적으로, 프로세서(140)는 사용자 발화 거리가 근거리 발화로 판단되면, 제1 및 제2 마이크(110-1, 110-2) 중 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호만 처리하도록 신호 처리부(120)를 제어할 수 있다.
프로세서(140)는 제1 및 제2 마이크(110-1, 110-2) 중 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 판단할 수 있다. 예를 들어, 사용자의 음성은 휴대 기기(100)상에 배치된 제1 마이크(110-1) 및 제2 마이크(110-2) 사이의 거리만큼 위상차를 가지고 각 마이크로 입력되므로, 프로세서(140)는 각 마이크(110-1, 110-2)로 입력되는 오디오 신호의 위상 차이를 통해 사용자(정확하게는 사용자의 입)로부터 어느 마이크가 상대적으로 더 먼 거리에 배치되어 있는지 판단할 수 있다. 그러나, 이에 한정되는 것은 아니며, 프로세서(140)는 제1 마이크(110-1) 및 제2 마이크(110-2)로 입력되는 오디오 신호의 크기를 비교하거나 각 마이크 신호의 포화 여부나 MFCC 특징을 비교하여 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 판단할 수도 있을 것이다.
이에 따라, 프로세서(140)는 제1 및 제2 마이크(110-1, 110-2) 중 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호에 대해 크기 보정만을 수행하도록 신호 처리부(120)를 제어할 수 있다.
한편, 프로세서(140)는 사용자 발화 거리가 근거리 발화가 아닌 경우로 판단되면, 제1 및 제2 마이크(110-1, 110-2)를 통해 입력받은 각 오디오 신호에 대해 잡음 제거 및 크기 보정을 모두 수행하도록 신호 처리부(120)를 제어할 수 있다.
프로세서(140)는 이와 같이 처리된 오디오 신호를 외부 기기(20)로 전송하도록 통신부(130)를 제어할 수 있다.
즉, 예를 들어, 사용자의 발화가 근거리 발화이고, 제2 마이크(110-2)가 사용자로부터 상대적으로 더 먼 거리에 배치된 것으로 판단되면, 프로세서(140)는 제2 마이크(110-2)를 통해 입력받은 오디오 신호에 대해서 크기 보정만을 수행하도록 신호 처리부(120)를 제어할 수 있다 이때, 제1 마이크(110-1)를 통해 입력받은 오디오 신호는 차단되거나 버려져 이용되지 않는다. 따라서, 이 경우에는 제2 마이크(110-2)를 통해 입력받은 오디오 신호만이 크기 보정 처리되어 통신부(130)를 통해 외부 기기(20)로 전송되게 된다.
만일, 사용자의 발화가 근거리 발화가 아닌 경우라면, 프로세서(140)는 제1 및 제2 마이크(110-1, 110-2)를 통해 입력받은 오디오 신호 각각에 대해 잡음 제거 및 크기 보정을 수행하도록 신호 처리부(120)를 제어하게 되며, 처리된 각 오디오 신호가 모두 통신부(130)를 통해 외부 기기(20)로 전송되게 된다.
이와 같이, 2개의 마이크를 구비한 휴대 기기(100)를 통한 외부 기기(20) 제어 음성 인식 시스템에서 사용자 발화 거리에 따라 유동적으로 오디오 신호를 처리함으로써, 종래 고정적인 잡음 제거 처리시 사용자의 근거리 발화의 경우 발생할 수 있는 음성 왜곡 현상을 막을 수 있다. 이에 따라, 사용자의 발화가 근거리 발화인지 아닌지와 무관하게 어느 경우에나 원활한 음성 인식이 가능해 진다.
이상에서는 제1 및 제2 마이크(110-1, 110-2)를 통해 입력받은 오디오 신호를 이용하여 사용자 발화 거리를 판단하는 것을 예로 들었으나, 사용자 발화 거리를 판단하는 예가 이에 한정되는 것은 아니다. 가령, 휴대 기기(100)가 온도 센서, 습도 센서, 진동 센서, 움직임 센서, IR 센서, 이미지 센서 등과 같은 별도의 센서를 구비하고, 이러한 각종 센서를 통해 획득되는 정보를 이용하여 사용자 발화 거리를 판단할 수도 있을 것이다.
이하에서는, 도 3을 통해 본 개시의 일 실시 예에 따른 신호 처리 과정을 보다 자세히 설명한다. 도 3에서는 설명의 편의를 위해 제1 마이크(110-1)가 휴대 기기(100)의 전면에 배치된 전면 마이크이고, 제2 마이크(110-2)가 휴대 기기(100)의 후면에 배치된 후면 마이크인 것으로 가정하여 설명한다.
전술한 바와 같이, 사용자의 발화가 근거리 발화가 아닌 경우, 신호 처리부(120)는 프로세서(140)의 제어를 받아 전면 마이크(110-1) 및 후면 마이크(110-2)를 통해 입력받은 오디오 신호에 대해 잡음 제거 처리 및 크기 보정을 수행할 수 있다. 이를 위해, 신호 처리부(120)는 도 3에 도시된 바와 같이, 잡음 제거부(121) 및 크기 보정부(122)를 포함할 수 있다.
잡음 제거부(121)는 사용자 음성을 제외한 잡음을 제거하는 구성으로써, 빔포밍부(121-1) 및 비음성 제거부(121-2)를 포함할 수 있다.
빔포밍부(121-1)는 전면 마이크(110-1) 및 후면 마이크(110-2)로 입력되는 스테레오 오디오 신호를 이용하여 빔포밍을 수행할 수 있다.
일반적으로, 사용자는 음성을 통해 외부 기기(20)를 제어하기 위해, 휴대 기기(100)를 파지한 상태에서 휴대 기기(100)의 전면을 향해 음성을 발화하므로, 전면 마이크(110-1)와 후면 마이크(110-2)로 각각 입력되는 사용자 음성에 대응되는 오디오 신호에는 위상 차이가 존재하게 된다. 이에 반해, 휴대 기기(100)의 측면 방향에서 전, 후면 마이크(110-1, 110-2)로 입력되는 오디오 신호들은 위상 차이가 거의 없게 된다.
빔포밍부(121-1)는 이러한 위상 차이를 이용하여 사용자 방향의 오디오 신호를 제외한 나머지 오디오 신호를 잡음으로 처리하여 제거함으로써, 사용자 방향 빔포밍을 수행할 수 있다. 이에 따라, 측면 방향에서 마이크(110-1, 110-2)로 입력되는 잡음에 대응되는 오디오 신호는 약화 또는 제거될 수 있다.
한편, 빔포밍부(121-1)는 상술한 바와 같이 빔포밍을 수행하여 측면 신호를 제거 또는 감쇄시킨 후 스테레오 신호를 모노 신호로 변환하여 비음성 제거부(121)로 제공할 수 있다.
비음성 제거부(121-2)는 마이크(110-1, 110-2)를 통해 입력되는 오디오 신호에서 사용자의 음성이 아닌 비음성 신호를 제거할 수 있다. 예를 들어, 비음성 제거부(121-2)는 빔포밍부(121-1)에서 빔포밍 처리된 오디오 신호에 대해 음성/비음성 구분 모듈을 이용하여 비음성 신호를 제거할 수 있다. 음성/비음성 모듈 및 이를 이용하여 비음성을 제거하는 구체적인 내용은 본 개시의 요지를 벗어나므로, 더 자세한 설명은 생략한다.
한편, 도 3에서는 빔포밍 처리가 수행된 오디오 신호에 대해 비음성 제거 처리를 수행하는 예를 도시하였으나, 실시 예에 따라, 먼저 비음성을 제거한 후, 빔포밍 처리를 수행하는 것도 가능할 것이다.
크기 보정부(122)는 마이크(110-1, 110-2)를 통해 입력받은 오디오 신호의 크기를 보정한다. 구체적으로, 크기 보정부(122)는 외부 기기(20)에서 사용자 음성을 인식하기에 적합하도록 오디오 신호의 크기를 보정할 수 있다.
예를 들어, 크기 보정부(122)는 크기가 큰 신호는 감쇄하고, 크기가 작은 신호는 증폭할 수 있다. 이때, 크기 보정부(122)는 잡음 제거부(121)를 통해 잡음이 제거된 오디오 신호에 기설정된 게인 커브를 적용하여 신호 크기를 보정할 수 있으나, 이에 한정되는 것은 아니다.
이와 같이, 근거리 발화가 아닌 사용자의 발화가 있는 경우, 프로세서(140)는 전면 마이크(110-1) 및 후면 마이크(110-2)를 통해 입력받은 오디오 신호에 잡음 제거 및 크기 보정 처리를 수행하도록 신호 처리부(120)를 제어하고, 잡음 제거 및 크기 보정 처리된 오디오 신호를 외부 기기(20)로 전송하도록 통신부(130)를 제어할 수 있다.
한편, 사용자가 휴대 기기(100)의 전면을 입에 가까이 대고 발화하는 경우, 즉, 사용자의 근거리 발화의 경우에는, 프로세서(140)는 사용자의 입과의 거리가 상대적으로 더 먼 후면 마이크(110-2)를 통해 입력받은 오디오 신호만을 처리하도록 신호 처리부(120)를 제어할 수 있다. 이때, 전면 마이크(110-1)를 통해 입력받은 신호는 신호 처리부(120)로 전달되지 않는다. 구체적으로, 프로세서(140)는 후면 마이크(110-2)를 통해 입력받은 신호에 대해서 빔포밍이나 비음성 제거와 같은 잡음 제거 처리 없이, 크기 보정만을 수행하도록 신호 처리부(120)를 제어하게 된다.
도 1c를 통해 전술한 바와 같이, 사용자의 근거리 발화시, 전면 마이크(110-1)를 통해 입력받은 오디오 신호는 숨소리가 유입되거나 신호가 포화하여 왜곡이 있으므로, 본 개시의 다양한 실시 예들은 왜곡 없는 후면 마이크(110-2)를 통해 입력받은 오디오 신호만을 이용한다.
또한, 사용자의 근거리 발화시, 근거리 발화가 아닌 경우에 수행하는 잡음 제거 처리를 왜곡 없는 후면 마이크(110-2) 신호에 대해 수행하는 것은 오히려 신호를 왜곡시키는 결과를 낳으므로, 잡음 제거 처리 없이 크기 보정 처리만을 수행하여 종래 기술의 문제점을 해결할 수 있게 된다.
도 4는 본 개시의 다른 일 실시 예에 따른 휴대 기기의 구성을 나타내는 블럭도이다. 도 4에 따르면, 휴대 기기(400)는 제1 마이크(410-1), 제2 마이크(410-2), 통신부(430) 및 프로세서(440)를 포함할 수 있다. 휴대 기기(400)의 제1 및 제2 마이크(410-1, 410-2), 통신부(430)는 도 2에서 전술한 휴대 기기(100)의 제1 및 제2 마이크(110-1, 110-2), 통신부(130)와 동일한 구성이므로, 중복 설명은 생략한다.
한편, 휴대 기기(400)는 도 2에 개시된 휴대 기기(100)와 달리 신호 처리부(120)가 없는 것을 볼 수 있다. 이와 같은 구성의 휴대 기기(400)를 통해서는 아래 설명하는 바와 같이 본 개시의 기술적 사상이 적용될 수 있을 것이다.
본 개시의 일 실시 예에 따르면, 신호 처리부(120)의 구성은 소프트웨어로도 구현될 수도 있다. 즉, 도 3을 통해 설명한 빔포밍부(121-1), 비음성 제거부(121-2) 및 크기 보정부(122)의 기능은 빔포밍 모듈, 비음성 제거 모듈 및 크기 보정 모듈과 같이 프로그램 코드로 구현되어 저장부(미도시)에 저장될 수 있으며, 프로세서(440)는 저장부(미도시)에 저장된 상기 모듈을 실행시켜 전술한 신호 처리부의 동작을 수행할 수 있다.
한편, 본 개시의 다른 일 실시 예에 따르면, 신호 처리부(120)의 구성은 외부 기기(20)에 구현될 수 있다.
경우, 프로세서(440)는 제1 마이크(410-1) 및 제2 마이크(410-2)를 통해 입력받은 오디오 신호에 기초하여 휴대 기기(400)와 사용자 가의 사용자 발화 거리를 판단하고, 사용자 발화 거리가 근거리 발화로 판단되면, 제1 마이크(410-1) 및 제2 마이크(420-2) 중 사용자로부터 상대적으로 더 먼 거리에 배치되 마이크를 통해 입력받은 오디오 신호만을 외부 기기(20)로 전송하도록 통신부(430)를 제어할 수 있다.
이에 따라, 외부 기기(20)는 휴대 기기(400)로부터 수신된 오디오 신호에 크기 보정만을 수행하고, 크기 보정이 수행된 오디오 신호를 분석하여 사용자 음성을 인식할 수 있다.
또한, 프로세서(440)는 사용자 발화 거리가 근거리 발화가 아닌 것으로 판단되면, 제1 마이크(410-1) 및 제2 마이크(410-2)를 통해 입력받은 오디오 신호를 모두 외부 기기(20)로 전송하도록 통신부(430)를 제어할 수 있다.
이에 따라, 외부 기기(20)는 휴대 기기(400)로부터 수신된 스테레오 오디오 신호에 잡음 제거 처리 및 크기 보정 처리를 수행하고, 처리된 오디오 신호를 분석하여 사용자 음성을 인식할 수 있다.
한편, 도 2 내지 도 4의 예를 통해서는 사용자 음성 인식이 자체는 외부 기기(20)에서 이루어지는 것을 예로 들어 설명하였다. 이는 음성 인식 엔진은 보통 그 크기가 크므로, 휴대 기기(100, 400)보다는 외부 기기(20)에 구비되는 것이 바람직하기 때문이다.
그러나, 이에 한정되는 것은 아니며, 실시 예에 따라, 휴대 기기(100, 400)가 음성 인식 엔진 또는 모듈을 구비할 수도 있다. 이 경우에는 신호 처리부(120)를 통해 잡음 제거나 크기 보정 처리된 오디오 신호를 분석하여 휴대 기기(100, 400)가 직접 사용자 음성을 인식하고, 인식된 사용자 음성에 대응되는 제어 신호를 외부 기기(20)로 바로 전송할 수도 있을 것이다.
도 5는 본 개시의 다양한 실시 예에 따른 제1 마이크 및 제2 마이크의 배치를 나타내는 도면이다. 도 5는 휴대 기기(100, 400)가 리모컨(500)인 경우를 예로 들고 있으며, 리모컨(500)은 전면(510), 후면(520), 좌측면(530), 우측면(540), 상면(550) 및 하면(560)과 같은 6개의 면을 포함한다.
사용자가 리모컨(500)을 파지하고 음성을 발화하는 경우, 마이크를 통해 입력되는 오디오 신호에 사용자 방향 빔포밍 등과 같은 잡음 제거 처리를 하기 위해서는 2개의 마이크가 필요하며, 이때, 각 마이크를 통해 획득되는 오디오 신호는 위상 차이가 나야한다.
이를 위해, 리모컨(500)은 도 5의 (b)에 도시된 바와 같이, 전면(510) 및 전면에 대향하는 후면(520)에 각각 마이크(510-1, 510-2)를 구비하는 것이 바람직할 수 있다. 한편, 마이크가 배치되는 위치는 도 5의 (b)와 같이 전, 후면(510, 520)의 상측에 한정되지는 않음은 물론이다. 가령, 하측이나 중앙부분 등 전, 후면(510, 520)의 다른 영역에 서로 대향하도록 배치될 수도 있다.
한편, 실시 예에 따라, 도 5의 (b)나 (c)와 같이, 좌측면(530)과 이에 대향하는 우측면(540)에 각각 마이크(510-1, 510-2)가 배치될 수도 있고, 상면(550) 및 이에 대향하는 하면(560)에 각각 마이크(510-1, 510-2)가 배치될 수도 있을 것이다.
도 6은 본 개시의 일 실시 예에 따른 휴대 기기의 오디오 신호 처리 방법의 흐름도이다. 도 6에 따르면, 외부 기기를 제어하는 휴대 기기(100, 400)는 휴대 기기(100, 400)의 일 면에 배치된 제1 마이크 및 휴대 기기(100, 400)의 일 면에 대향하는 타 면에 배치된 제2 마이크를 통해, 사용자가 발화한 사용자 음성을 포함하는 오디오 신호를 입력받는다(S610).
이에 따라, 휴대 기기(100, 400)는 사용자 발화 거리를 판단할 수 있다(S620). 이때, 휴대 기기(100, 400)는 제1 마이크 및 제2 마이크를 통해 입력받은 오디오 신호에 기초하여 사용자 발화 거리를 판단할 수 있다.
예를 들어, 휴대 기기(100, 400)는 제1 및 제2 마이크를 통해 입력받은 오디오 신호에서 사용자의 숨소리를 검출하고, 숨소리 검출 여부에 따라 사용자 발화 거리를 판단할 수 있다. 구체적으로, 휴대 기기(100, 400)는 제1 및 제2 마이크를 통해 입력받은 오디오 신호의 MFCC(Mel-frequency cepstral coefficients) 특징과 기설정된 숨소리 템플릿의 MFCC 특징을 비교하여 유사도를 판단하고, 판단된 유사도가 기설정된 임계치 이상인 경우, 사용자 발화 거리를 근거리 발화로 판단할 수 있다.
또한, 휴대 기기(100, 400)는 제1 및 제2 마이크를 통해 입력받은 오디오 신호의 크기가 기설정된 임계치 이상인 경우, 사용자 발화 거리를 근거리 발화로 판단할 수 있다.
또한, 휴대 기기(100, 400)는 제1 마이크를 통해 입력받은 오디오 신호의 크기와 제2 마이크를 통해 입력받은 오디오 신호의 크기를 비교하고, 오디오 신호의 크기 차이가 기설정된 임계치 이상인 경우, 사용자 발화 거리를 근거리 발화로 판단할 수도 있다.
이와 같이, 사용자 발화 거리가 판단되면, 휴대 기기(100, 400)는 제1 마이크 및 제2 마이크를 통해 입력받은 오디오 신호를 처리한다(S630).
구체적으로, 휴대 기기(100, 400)는 사용자 발화 거리가 근거리 발화로 판단되면, 제1 및 제2 마이크 중 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호만을 처리하고, 사용자 발화 거리가 근거리 발화가 아닌 것으로 판단되면, 제1 및 제2 마이크를 통해 입력받은 오디오 신호를 모두 처리할 수 있다.
이때, 휴대 기기(100, 400)는 제1 및 제2 마이크로 입력되는 각 오디오 신호의 위상 차이를 비교하거나 오디오 신호의 크기를 비교하여 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 판단할 수 있다. 또한, 휴대 기기(100, 400)는 각 마이크 신호의 포화 여부나 MFCC 특징을 비교하여 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 판단할 수도 있을 것이다.
이에 따라, 휴대 기기(100, 400)는 처리된 오디오 신호를 외부 기기(20)로 전송할 수 있다(S640).
도 7은 본 개시의 일 실시 예에 따른 휴대 기기(100, 400)의 오디오 신호 처리 방법의 상세 흐름도이다.
도 7에 따르면, 휴대 기기(100, 400)는 제1 및 제2 마이크를 통해 오디오 신호가 입력되면(S710), 전술한 바와 같이, 사용자 발화거리를 판단할 수 있다(S720).
이에 따라, 사용자 발화가 근거리 발화로 판단되면(S720, Y), 휴대 기기(100, 400)는 제1 마이크 및 제2 마이크 중 사용자로부터의 거리가 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 모노 오디오 신호에 대해 신호 크기 보정만을 수행하고(S750), 처리된 오디오 신호를 외부 기기(20)로 전송할 수 있다(S760). 이때, 나머지 다른 마이크를 통해 입력받은 오디오 신호는 크기 보정되지 않으며, 외부 기기(20)로 전송되지도 않는다.
만일, 사용자 발화 거리가 근거리 발화가 아닌 것으로 판단되면(S720, N), 휴대 기기(100, 400)는 제1 및 제2 마이크 마이크를 통해 입력받은 스테레오 오디오 신호에 대해 빔포밍을 수행한다(S730).
구체적으로, 휴대 기기(100, 400)는 제1 마이크 및 제2 마이크를 통해 입력받은 각 오디오 신호의 위상 차이를 이용하여 사용자 방향의 빔포밍을 수행할 수 있다. 이에 따라, 사용자 방향에서 소정의 각도를 벗어난 방향에서 마이크로 입력되는 오디오 신호(즉, 측면 신호)는 제거 또는 감쇄되며, 빔포밍 결과 모노 오디오 신호가 비음성 제거 처리를 위해 제공될 수 있다.
이에 따라, 휴대 기기(100, 400)는 빔포밍 처리된 모노 오디오 신호에서 비음성을 제거할 수 있다(S740). 이때, 휴대 기기(100, 400)는 음성/비음성 구분 모듈을 이용하여 비음성 신호를 제거할 수 있다.
이후, 휴대 기기(100, 400)는 비음성 제거 처리까지 수행된 모노 오디오 신호에 게인 커브를 적용하여 신호 크기 보정 처리를 수행한 후(S750), 처리된 오디오 신호를 외부 기기(20)로 전송할 수 있다(S760).
이상과 같은 본 개시의 다양한 실시 예들에 따르면, 외부 기기를 제어하는 휴대 기기는 사용자의 발화 거리에 따라 유동적으로 오디오 신호를 처리할 수 있게 된다. 이에 따라, 외부 기기는 사용자 발화 거리와 무관하게 원활한 음성 인식이 가능해 진다.
한편, 상술한 다양한 실시 예들에 따른 외부 기기(20)를 제어하는 휴대 기기(100, 400)의 프로세서(140, 440)의 동작이나 휴대 기기(100, 400)의 오디오 신호 처리 방법들은 소프트웨어로 생성되어 휴대 기기(100, 400)에 탑재될 수 있다.
예를 들어, 휴대 기기(100, 400)의 일 면에 배치된 제1 마이크 및 휴대 기기의 일 면에 대향하는 타 면에 배치된 제2 마이크를 통해, 사용자가 발화한 사용자 음성을 포함하는 오디오 신호를 입력받는 단계, 휴대 기기와 사용자 간의 사용자 발화 거리를 판단하는 단계, 입력받은 오디오 신호를 처리하는 단계 및 처리된 오디오 신호를 외부 기기로 전송하는 단계를 포함하며, 오디오 신호를 처리하는 단계는, 사용자 발화 거리가 근거리 발화로 판단되면, 제1 및 제2 마이크 중 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호만을 처리하는 오디오 신호 처리 방법을 수행하는 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)가 설치될 수 있다.
여기서, 비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 미들웨어 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 또한, 본 발명에 개시된 실시 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 한 것이고, 이러한 실시 예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 따라서, 본 발명의 호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (15)

  1. 외부 기기를 제어하는 휴대 기기에 있어서,
    상기 휴대 기기의 일 면에 배치되어, 사용자가 발화한 사용자 음성을 포함하는 오디오 신호를 입력받는 제1 마이크;
    상기 휴대 기기의 일 면에 대향하는 타 면에 배치되어, 상기 사용자 음성을 포함하는 오디오 신호를 입력받는 제2 마이크;
    상기 오디오 신호를 처리하는 신호 처리부;
    상기 외부 기기와 통신하는 통신부; 및
    상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호에 기초하여 상기 휴대 기기와 상기 사용자 간의 사용자 발화 거리를 판단하고, 상기 사용자 발화 거리가 근거리 발화로 판단되면, 상기 제1 및 제2 마이크 중 상기 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호만을 처리하도록 상기 신호 처리부를 제어하며, 상기 처리된 오디오 신호를 상기 외부 기기로 전송하도록 상기 통신부를 제어하는 프로세서;를 포함하는 휴대 기기
  2. 제 1 항에 있어서,
    상기 신호 처리부는,
    상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호에 대해 잡음 제거 및 크기 보정 중 적어도 하나의 신호 처리를 수행하는 것을 특징으로 하는 휴대기기.
  3. 제 2 항에 있어서,
    상기 프로세서는,
    상기 사용자 발화 거리가 상기 근거리 발화로 판단되면, 상기 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호에 대해 상기 크기 보정만을 수행하도록 상기 신호 처리부를 제어하는 것을 특징으로 하는 휴대 기기.
  4. 제 2 항에 있어서,
    상기 프로세서는,
    상기 발화 거리가 상기 근거리 발화가 아닌 것으로 판단되면, 상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호에 대해 상기 잡음 제거 및 상기 크기 보정을 수행하도록 상기 신호 처리부를 제어하고, 상기 처리된 오디오 신호를 상기 외부 기기로 전송하도록 상기 통신부를 제어하는 것을 특징으로 하는 휴대 기기.
  5. 제 1 항에 있어서,
    상기 프로세서는,
    상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호에서 상기 사용자의 숨소리 검출 여부를 통해 상기 사용자 발화 거리를 판단하는 것을 특징으로 하는 휴대 기기.
  6. 제 5 항에 있어서,
    상기 프로세서는,
    상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호의 MFCC(Mel-frequency cepstral coefficients) 특징과 기설정된 숨소리 템플릿의 MFCC 특징을 비교하여 유사도가 기설정된 임계치 이상인 경우, 상기 사용자 발화 거리를 상기 근거리 발화로 판단하는 것을 특징으로 하는 휴대 기기.
  7. 제 1 항에 있어서,
    상기 프로세서는,
    상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호의 크기가 기설정된 임계치 이상인 경우, 상기 사용자 발화 거리를 상기 근거리 발화로 판단하는 것을 특징으로 하는 휴대 기기.
  8. 제 1 항에 있어서,
    상기 프로세서는,
    상기 제1 마이크를 통해 입력받은 오디오 신호의 크기와 상기 제2 마이크를 통해 입력받은 오디오 신호의 크기의 차이가 기설정된 임계치 이상인 경우, 상기 사용자 발화 거리를 상기 근거리 발화로 판단하는 것을 특징으로 하는 휴대 기기.
  9. 외부 기기를 제어하는 휴대 기기의 오디오 신호 처리 방법에 있어서,
    상기 휴대 기기의 일 면에 배치된 제1 마이크 및 상기 휴대 기기의 일 면에 대향하는 타 면에 배치된 제2 마이크를 통해, 사용자가 발화한 사용자 음성을 포함하는 오디오 신호를 입력받는 단계;
    상기 휴대 기기와 상기 사용자 간의 사용자 발화 거리를 판단하는 단계;
    상기 입력받은 오디오 신호를 처리하는 단계; 및
    상기 처리된 오디오 신호를 상기 외부 기기로 전송하는 단계;를 포함하며,
    상기 오디오 신호를 처리하는 단계는,
    상기 사용자 발화 거리가 근거리 발화로 판단되면, 상기 제1 및 제2 마이크 중 상기 사용자로부터 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호만을 처리하는 오디오 신호 처리 방법.
  10. 제 9 항에 있어서,
    상기 오디오 신호를 처리하는 단계는,
    상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호에 대해 잡음 제거 및 크기 보정 중 적어도 하나의 신호 처리를 수행하는 것을 특징으로 하는 오디오 신호 처리 방법.
  11. 제 10 항에 있어서,
    상기 오디오 신호를 처리하는 단계는,
    상기 사용자 발화 거리가 상기 근거리 발화로 판단되면, 상기 상대적으로 더 먼 거리에 배치된 마이크를 통해 입력받은 오디오 신호에 대해 상기 크기 보정만을 수행하는 것을 특징으로 하는 오디오 신호 처리 방법.
  12. 제 10 항에 있어서,
    상기 오디오 신호를 처리하는 단계는,
    상기 발화 거리가 상기 근거리 발화가 아닌 것으로 판단되면, 상기 제1 및 제2 마이크 마이크를 통해 입력받은 오디오 신호에 대해 상기 잡음 제거 및 상기 크기 보정을 수행하는 것을 특징으로 하는 오디오 신호 처리 방법.
  13. 제 9 항에 있어서,
    상기 판단하는 단계는,
    상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호에서 상기 사용자의 숨소리를 검출하는 단계; 및
    상기 숨소리 검출 여부에 따라 상기 사용자 발화 거리를 판단하는 단계;를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  14. 제 13 항에 있어서,
    상기 숨소리를 검출하는 단계는,
    상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호의 MFCC(Mel-frequency cepstral coefficients) 특징과 기설정된 숨소리 템플릿의 MFCC 특징을 비교하여 유사도를 판단하는 단계;를 포함하고,
    상기 사용자 발화 거리를 판단하는 단계는,
    상기 유사도가 기설정된 임계치 이상인 경우, 상기 사용자 발화 거리를 상기 근거리 발화로 판단하는 단계;를 포함하는 것을 특징으로 하는 오디오 신호 처리 방법.
  15. 제 9 항에 있어서,
    상기 판단하는 단계는,
    상기 제1 및 제2 마이크를 통해 입력받은 오디오 신호의 크기가 기설정된 임계치 이상인 경우, 상기 사용자 발화 거리를 상기 근거리 발화로 판단하는 것을 특징으로 하는 오디오 신호 처리 방법.
PCT/KR2017/006822 2016-08-26 2017-06-28 외부 기기를 제어하는 휴대 기기 및 이의 오디오 신호 처리 방법 WO2018038381A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US16/325,938 US11170767B2 (en) 2016-08-26 2017-06-28 Portable device for controlling external device, and audio signal processing method therefor
EP17843801.6A EP3480812B1 (en) 2016-08-26 2017-06-28 Portable device for controlling external device, and audio signal processing method therefor

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2016-0109238 2016-08-26
KR1020160109238A KR20180023617A (ko) 2016-08-26 2016-08-26 외부 기기를 제어하는 휴대 기기 및 이의 오디오 신호 처리 방법

Publications (1)

Publication Number Publication Date
WO2018038381A1 true WO2018038381A1 (ko) 2018-03-01

Family

ID=61246133

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/006822 WO2018038381A1 (ko) 2016-08-26 2017-06-28 외부 기기를 제어하는 휴대 기기 및 이의 오디오 신호 처리 방법

Country Status (4)

Country Link
US (1) US11170767B2 (ko)
EP (1) EP3480812B1 (ko)
KR (1) KR20180023617A (ko)
WO (1) WO2018038381A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107135443B (zh) * 2017-03-29 2020-06-23 联想(北京)有限公司 一种信号处理方法及电子设备
KR20200015267A (ko) * 2018-08-03 2020-02-12 삼성전자주식회사 음성 인식을 수행할 전자 장치를 결정하는 전자 장치 및 전자 장치의 동작 방법
GB2583117B (en) * 2019-04-17 2021-06-30 Sonocent Ltd Processing and visualising audio signals
CN110428806B (zh) * 2019-06-03 2023-02-24 交互未来(北京)科技有限公司 基于麦克风信号的语音交互唤醒电子设备、方法和介质
CN113014460B (zh) * 2019-12-20 2023-03-14 佛山市云米电器科技有限公司 语音处理方法、家居主控设备、语音系统及存储介质
CN114979734B (zh) * 2022-05-17 2024-04-02 歌尔科技有限公司 一种语音控制遥控器及其降噪方法和电视机

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000276191A (ja) * 1999-03-23 2000-10-06 Oki Electric Ind Co Ltd 音声認識方法
JP2002108391A (ja) * 2000-09-29 2002-04-10 Nissan Motor Co Ltd 音声入力装置
KR200295601Y1 (ko) * 2002-08-22 2002-11-18 주식회사 리얼스페이스 마이크가 설치된 리모콘
KR20140028713A (ko) * 2012-08-30 2014-03-10 (주)인프라칩 데이터 전송 및 음성 통화가 가능한 스마트 리모컨
US20140192998A1 (en) * 2007-05-23 2014-07-10 Aliphcom Advanced speech encoding dual microphone configuration (dmc)

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5267323A (en) 1989-12-29 1993-11-30 Pioneer Electronic Corporation Voice-operated remote control system
US20090066648A1 (en) 2007-09-07 2009-03-12 Apple Inc. Gui applications for use with 3d remote controller
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
US8391507B2 (en) * 2008-08-22 2013-03-05 Qualcomm Incorporated Systems, methods, and apparatus for detection of uncorrelated component
CN102782459A (zh) 2009-09-11 2012-11-14 诺沃迪吉特公司 使用人类呼吸控制设备的用户界面的方法和系统
EP2505001A1 (en) * 2009-11-24 2012-10-03 Nokia Corp. An apparatus
CN102376309B (zh) * 2010-08-17 2013-12-04 骅讯电子企业股份有限公司 降低环境噪音的系统、方法与应用的装置
US8874441B2 (en) * 2011-01-19 2014-10-28 Broadcom Corporation Noise suppression using multiple sensors of a communication device
US20130163781A1 (en) * 2011-12-22 2013-06-27 Broadcom Corporation Breathing noise suppression for audio signals
US8831686B2 (en) * 2012-01-30 2014-09-09 Blackberry Limited Adjusted noise suppression and voice activity detection
US20130332156A1 (en) * 2012-06-11 2013-12-12 Apple Inc. Sensor Fusion to Improve Speech/Audio Processing in a Mobile Device
CN102801861B (zh) * 2012-08-07 2015-08-19 歌尔声学股份有限公司 一种应用于手机的语音增强方法和装置
US9685171B1 (en) * 2012-11-20 2017-06-20 Amazon Technologies, Inc. Multiple-stage adaptive filtering of audio signals
KR20140127508A (ko) 2013-04-25 2014-11-04 삼성전자주식회사 음성처리장치 및 음성처리방법
KR101540262B1 (ko) 2014-06-13 2015-07-30 경북대학교 산학협력단 원격제어장치 및 그 장치의 구동방법
US9607610B2 (en) 2014-07-03 2017-03-28 Google Inc. Devices and methods for noise modulation in a universal vocoder synthesizer
KR101888391B1 (ko) 2014-09-01 2018-08-14 삼성전자 주식회사 음성 신호 관리 방법 및 이를 제공하는 전자 장치
US20160275961A1 (en) * 2015-03-18 2016-09-22 Qualcomm Technologies International, Ltd. Structure for multi-microphone speech enhancement system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000276191A (ja) * 1999-03-23 2000-10-06 Oki Electric Ind Co Ltd 音声認識方法
JP2002108391A (ja) * 2000-09-29 2002-04-10 Nissan Motor Co Ltd 音声入力装置
KR200295601Y1 (ko) * 2002-08-22 2002-11-18 주식회사 리얼스페이스 마이크가 설치된 리모콘
US20140192998A1 (en) * 2007-05-23 2014-07-10 Aliphcom Advanced speech encoding dual microphone configuration (dmc)
KR20140028713A (ko) * 2012-08-30 2014-03-10 (주)인프라칩 데이터 전송 및 음성 통화가 가능한 스마트 리모컨

Also Published As

Publication number Publication date
EP3480812B1 (en) 2020-06-10
KR20180023617A (ko) 2018-03-07
EP3480812A4 (en) 2019-07-31
US11170767B2 (en) 2021-11-09
US20190180738A1 (en) 2019-06-13
EP3480812A1 (en) 2019-05-08

Similar Documents

Publication Publication Date Title
WO2018038381A1 (ko) 외부 기기를 제어하는 휴대 기기 및 이의 오디오 신호 처리 방법
WO2018008885A1 (ko) 영상처리장치, 영상처리장치의 구동방법 및 컴퓨터 판독가능 기록매체
WO2018070639A1 (ko) 전자 장치 및 전자 장치의 오디오 신호 처리 방법
WO2018174437A1 (en) Electronic device and controlling method thereof
WO2018038379A1 (ko) 음성 인식을 위한 전자 장치 및 이의 제어 방법
WO2021003955A1 (zh) 耳机播放状态的控制方法、装置、移动终端及存储介质
WO2017069556A1 (ko) 전자 장치, 그의 음성 인식 방법 및 비일시적 컴퓨터 판독가능 기록매체
WO2019037732A1 (zh) 麦克风阵列的电视机及电视系统
WO2020166944A1 (en) Sound outputting device including plurality of microphones and method for processing sound signal using plurality of microphones
WO2019156339A1 (ko) 오디오 신호의 주파수의 변화에 따른 위상 변화율에 기반하여 노이즈가 감쇠된 오디오 신호를 생성하는 장치 및 방법
EP3673467A1 (en) Electronic device and method of controlling electronic device
WO2019098499A1 (ko) 전자 장치, 외부 전자 장치 및 이를 포함하는 음향 시스템
WO2020189837A1 (ko) 웨어러블 디바이스를 동작하기 위한 장치 및 방법
WO2017057866A1 (ko) 오디오 출력 장치 및 오디오 출력 장치의 제어 방법
WO2020101174A1 (ko) 개인화 립 리딩 모델 생성 방법 및 장치
WO2019107973A1 (ko) 오디오 신호의 음량에 따라 설정된 해상도에 기반하여, 오디오 신호를 처리하는 방법 및 그 전자 장치
WO2020145417A1 (ko) 로봇
WO2021080362A1 (ko) 이어셋을 이용한 언어 처리 시스템
WO2021162403A1 (en) Method for improving sound quality and electronic device using same
WO2020075998A1 (ko) 전자 장치 및 그 제어 방법
WO2021112391A1 (ko) 전자장치 및 그 제어방법
WO2021157862A1 (en) Electronic device and control method thereof
WO2018030687A1 (ko) 오디오 신호를 처리하기 위한 장치 및 방법
WO2020009261A1 (ko) 음성 인식이 가능한 디지털 디바이스 및 그 제어 방법
WO2023182718A1 (en) Systems and methods for dynamically adjusting a listening time of a voice assistant device

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17843801

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017843801

Country of ref document: EP

Effective date: 20190129

NENP Non-entry into the national phase

Ref country code: DE