WO2022139177A1 - Electronic device and control method thereof - Google Patents

Electronic device and control method thereof Download PDF

Info

Publication number
WO2022139177A1
WO2022139177A1 PCT/KR2021/016653 KR2021016653W WO2022139177A1 WO 2022139177 A1 WO2022139177 A1 WO 2022139177A1 KR 2021016653 W KR2021016653 W KR 2021016653W WO 2022139177 A1 WO2022139177 A1 WO 2022139177A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound signal
electronic device
processor
time difference
similarity
Prior art date
Application number
PCT/KR2021/016653
Other languages
French (fr)
Korean (ko)
Inventor
박민규
이형선
김호연
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020210040682A external-priority patent/KR20220092334A/en
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of WO2022139177A1 publication Critical patent/WO2022139177A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response

Definitions

  • the present disclosure relates to an electronic device and a control method thereof, and more particularly, to an electronic device for performing synchronization between an output sound signal and a sound signal input to a microphone, and a control method thereof.
  • electronic devices include a speaker for outputting a sound signal of content, an input/output interface for connecting an external speaker, and a microphone for receiving a user's voice command. Accordingly, an echo phenomenon in which a sound signal output to a speaker is input through a microphone occurs.
  • the electronic device removes an echo component by applying an acoustic echo cancellation (AEC) algorithm.
  • AEC acoustic echo cancellation
  • the microphone When the electronic device is a TV, the microphone is fixed at a specific position on the TV.
  • the speaker may be output as an internal speaker or an external speaker according to a user setting.
  • the TV and the external speaker may be connected in a way such as HDMI, Wi-Fi, Bluetooth, Aux.
  • the manufacturer can solve the problem of time delay between the internal speaker output signal and the microphone input signal by applying an algorithm that compensates for a certain time.
  • an output signal of content is output to an external speaker, synchronization between the speaker output signal and the microphone input signal is very difficult.
  • the existing TV voice recognition service also performs synchronization only when a sound signal is output through an internal speaker.
  • the present disclosure is to solve the above-described problems, and an object of the present disclosure is to synchronize a sound signal output to a speaker and a sound signal input to a microphone to remove an echo component, regardless of the position of the speaker, thereby improving voice recognition performance. To provide an apparatus and a method for controlling the same.
  • An electronic device includes a microphone and a processor, wherein the processor based on one of an external sound signal input into the microphone converted into a frequency band and a reference sound signal converted into a frequency band Acquire a plurality of similarities between phases of two sound signals, identify delay times of the external sound signals based on reliability of the obtained plurality of similarities, and based on the identified delay times Time delay compensation is performed between the external sound signal and the reference sound signal.
  • a method of controlling an electronic device provides a plurality of phases between two sound signals based on one of an external sound signal converted to a frequency band and a reference sound signal converted to a frequency band. obtaining a degree of similarity of , identifying a delay time of the external sound signal based on reliability of the plurality of obtained degrees of similarity, and based on the identified delay time, the external sound signal and the reference sound signal and performing time delay compensation.
  • FIG. 1 is a diagram illustrating an electronic device connected to an external speaker according to an embodiment of the present disclosure.
  • FIG. 2 is a block diagram illustrating a configuration of an electronic device according to an embodiment of the present disclosure.
  • FIG. 3 is a block diagram illustrating a detailed configuration of an electronic device according to an embodiment of the present disclosure.
  • FIG. 4 is a view for explaining a process of removing an echo component according to an embodiment of the present disclosure.
  • 5 is an embodiment of determining reliability of a time delay when phase information is insufficient in a sound signal input into a microphone.
  • 6 is an embodiment of determining reliability of a time delay for a sound signal inputted after being echoed.
  • 7 is an embodiment of determining reliability of a time delay with respect to a sound signal input with external noise.
  • FIG. 8 is a view for explaining an operation of an electronic device according to an embodiment of the present disclosure.
  • FIG. 9 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present disclosure.
  • FIG. 10 is a flowchart illustrating a specific electronic device control process according to an embodiment of the present disclosure.
  • a “module” or “unit” for a component performs at least one function or operation.
  • a “module” or “unit” may perform a function or operation by hardware, software, or a combination of hardware and software.
  • a plurality of “modules” or a plurality of “units” other than a “module” or “unit” to be performed in specific hardware or to be executed in at least one processor may be integrated into at least one module.
  • the singular expression includes the plural expression unless the context clearly dictates otherwise.
  • FIG. 1 is a diagram illustrating an electronic device connected to an external speaker according to an embodiment of the present disclosure.
  • the electronic device 100 may include a digital TV, a desktop computer, a laptop computer, a smart phone, a tablet PC, a navigation system, a slate PC, a wearable device, a set-top box, a kiosk, and the like. That is, the electronic device 100 may include an internal display such as a TV or a laptop computer, but may include a device that transmits an image signal to an external display device such as a desktop computer or a set-top box. Also, in the case of the electronic device 100 including a display, an image signal may be transmitted to the external display device by being connected to the external display device using various wired/wireless methods.
  • the electronic device 100 may include a microphone and an internal (or built-in) speaker. Even if the electronic device 100 includes an internal speaker, it may be connected to the external speaker 10 to output a sound signal through the external speaker 10 . Although an embodiment in which the electronic device 100 is wirelessly connected to the external speaker 10 is illustrated in FIG. 1 , the electronic device 100 may be connected to the external speaker 10 in various wired and wireless methods. For example, the electronic device 100 may be connected to the external speaker 10 in a manner such as HDMI, Wi-Fi, Bluetooth, or Aux.
  • a sound signal may be output through the external speaker 10 .
  • a sound signal output through the external speaker 10 may be input into a microphone of the electronic device 100 .
  • the sound signal input into the microphone may be an echo component.
  • the echo component input to the electronic device 100 may interfere with recognizing the voice input through the microphone by the electronic device 100 .
  • the electronic device 100 may perform a voice recognition function.
  • the electronic device 100 may recognize the user's voice input through the microphone and perform an operation corresponding to the recognized voice.
  • an echo component or a sound signal output through a speaker
  • the electronic device 100 may not accurately recognize the user's voice due to the input echo component. Accordingly, the electronic device 100 should include a function of removing an echo component.
  • the algorithm for canceling the echo component may be referred to as Acoustic Echo Cancellation (AEC).
  • AEC Acoustic Echo Cancellation
  • synchronization between a sound signal input to a microphone and a sound signal output to a speaker is essential.
  • the positions of the microphone and the internal speaker of the electronic device 100 are fixed. Accordingly, when the electronic device 100 outputs a sound signal through the internal speaker, a predetermined time difference may occur between the sound signal input into the microphone and the sound signal output through the speaker. Since a certain time difference is generated between the input sound signal and the output sound signal, synchronization between the input sound signal and the output sound signal is possible.
  • the electronic device 100 outputs a sound signal through the external speaker 10
  • the position of the external speaker 10 is variable, and the input sound signal and the output sound according to a communication method connected to the external speaker 10 .
  • the time difference between signals may be variously changed.
  • the present disclosure describes a method and apparatus for synchronizing an output sound signal with an input sound signal.
  • the electronic device 100 receives the sound signal output through the speaker.
  • the speaker may be the external speaker 10 .
  • the electronic device 100 converts the external sound signal input into the microphone and the reference sound signal into a frequency band.
  • the reference sound signal may be an output sound signal.
  • the electronic device 100 shifts the other sound signal based on one of the converted external sound signal and the reference sound signal.
  • the electronic device 100 acquires a similarity between phases of two sound signals by shifting another sound signal based on one sound signal.
  • the electronic device 100 may obtain similarity by performing a convolution operation on two sound signals.
  • the electronic device 100 may shift one sound signal to a plurality of different times and acquire a plurality of similarities according to each time. Meanwhile, the electronic device 100 may obtain a preset value by applying a preset weight to a similarity in which the largest value among the plurality of acquired similarities appears. For example, the preset weight may be a value between 0 and 1.
  • the electronic device 100 estimates a time difference at which a similarity greater than or equal to a preset value among the plurality of obtained similarities appears as a candidate group of the time difference between the external sound signal and the reference sound signal, and determines reliability.
  • the electronic device 100 determines that the reliability of the estimated candidate group is not recognized when the interval between the time difference at which the maximum similarity value appears and the time difference at which the minimum similarity value appears among the estimated candidate groups exceeds a preset value. can judge In this case, the electronic device 100 may ignore the data of the time difference of the estimated candidate group.
  • the electronic device 100 may identify a time difference at which the degree of similarity equal to or greater than a preset value first appears as a time difference for which reliability is recognized.
  • the electronic device 100 may estimate a time difference at which the greatest similarity appears as a delay time, and obtain the variance of the estimated delay times for each of a plurality of preset time units. have. When the obtained variance is equal to or less than a preset value, the electronic device 100 may identify a time difference for which reliability is recognized. If the obtained variance exceeds a preset value, the electronic device 100 may determine that the reliability of the estimated delay time is not recognized and ignore the data of the estimated delay time.
  • the electronic device 100 may repeat the above-described process at regular time intervals. For example, the electronic device 100 may repeat the above-described process in units of blocks of a sound signal with an interval of 1 second. Accordingly, if the electronic device 100 determines that the reliability of the time difference is not recognized in one block, it may identify the time difference in which the reliability is recognized by repeating the above-described process in the next block.
  • the electronic device 100 When reliability is recognized, the electronic device 100 identifies a time difference between one of the candidate groups as a delay time of an external sound signal. Then, the electronic device 100 performs time delay compensation between the external sound signal and the reference sound signal based on the identified delay time. That is, the electronic device 100 may perform synchronization between the external sound signal input into the microphone and the reference sound signal and execute an algorithm for removing the echo component.
  • FIG. 2 is a block diagram illustrating a configuration of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 includes a microphone 110 and a processor 120 .
  • the microphone 110 receives the sound signal output through the speaker.
  • the speaker may be an internal speaker of the electronic device 100 or an external speaker separate from the electronic device 100 .
  • the microphone 110 may receive a user's voice.
  • the processor 120 may recognize a control command based on the input voice and perform a control operation corresponding to the recognized control command.
  • the processor 120 controls each configuration of the electronic device 100 .
  • the processor 120 may perform synchronization by acquiring a time difference between the sound signal input into the microphone and the sound signal output through the speaker.
  • the processor 120 may perform an echo cancellation algorithm for removing an echo component after performing synchronization between the input sound signal and the output sound signal.
  • the processor 120 converts the sound signal input into the microphone and the output sound signal into a frequency band. Since the output sound signal is a basic sound signal output from the electronic device 100 , it may be referred to as a reference sound signal. That is, the electronic device 100 converts the input sound signal and the reference sound signal into a frequency band.
  • the processor 120 acquires a similarity between the phases of the two sound signals by shifting the other sound signal based on one of the converted input sound signal and the reference sound signal. For example, the processor 120 may shift the input sound signal with respect to the reference sound signal. The processor 120 may perform the above-described process in units of blocks of the sound signal. In addition, the processor 120 may sample the input sound signal and the reference sound signal, and may shift the sample in units of samples. As an embodiment, the block unit of the sound signal may be a sound signal for 1 second. In addition, the processor 120 may sample in units of 62.5 us. In this case, the processor 120 may acquire 16000 samples of the input sound signal and the reference sound signal, respectively. In addition, the processor 120 may shift the input sound signal by one sample.
  • the processor 120 may acquire the similarity between the input sound signal and the reference sound signal every time one sample is shifted. For example, the processor 120 may obtain the similarity by performing a convolution operation on the input sound signal and the reference sound signal. Accordingly, the processor 120 may acquire a plurality of similarities.
  • the time difference between the respective similarities may be 62.5 us. That is, when shifted by one sample interval, the time difference may be 62.5 us, and when shifted by two sample intervals, the time difference may be 125 us.
  • the processor 120 may obtain a preset value by applying a preset weight to the similarity in which the largest value appears among the plurality of acquired similarities.
  • the preset weight may be a value between 0 and 1.
  • the processor 120 applies a weight to the similarity of the largest value, but since the weight is between 0 and 1, the weighted similarity may be smaller than the original value. Accordingly, a similarity of a value greater than a preset value to which a weight is applied to the similarity may exist.
  • the processor 120 estimates a time difference at which a similarity greater than or equal to a preset value among the plurality of obtained similarities appears as a candidate group of the time difference between the external sound signal and the reference sound signal, and determines reliability.
  • the input sound signal may be input in various forms according to the external environment. Accordingly, the processor 120 may determine reliability according to characteristics of input sound signals input in various forms. As an embodiment, the processor 120 determines that the reliability of the estimated candidate group is not recognized when the interval between the time difference at which the maximum similarity appears and the time difference at which the minimum similarity appears among the estimated candidate groups exceeds a preset value. can do. In this case, the processor 120 may ignore the data of the time difference of the estimated candidate group. Alternatively, when a degree of similarity equal to or greater than a preset value periodically appears among the estimated candidate groups, the processor 120 may identify a time difference at which the degree of similarity equal to or greater than a preset value first appears as a time difference for which reliability is recognized.
  • the processor 120 may estimate a time difference at which the greatest similarity appears as a delay time, and obtain a variance of the estimated delay time for each of a plurality of preset time units. . When the obtained variance is less than or equal to a preset value, the processor 120 may identify a time difference for which reliability is recognized. If the obtained variance exceeds a preset value, the processor 120 may determine that the reliability of the estimated delay time is not recognized and ignore the data of the estimated delay time. The processor 120 may repeat the above-described process in units of blocks of the sound signal. Accordingly, if the electronic device 100 determines that the reliability of the time difference is not recognized in one block, it may identify the time difference in which the reliability is recognized by repeating the above-described process in the next block.
  • the processor 120 identifies a time difference between one of the candidate groups as a delay time of the external sound signal. Then, the processor 120 may cancel the echo component based on the identified delay time.
  • FIG. 3 is a block diagram illustrating a detailed configuration of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100a includes a microphone 110 , a processor 120 , an input interface 130 , a communication interface 140 , a camera 150 , a sensor 160 , a display 170 , and a speaker. 180 and a memory 190 . Since the microphone 110 is the same as described in FIG. 2 , a detailed description thereof will be omitted.
  • the input interface 130 may receive a command input from the user. Alternatively, the input interface 130 may receive or output data including an input/output port. For example, the input interface 130 may be connected to an external speaker and output a sound signal to the external speaker.
  • the input/output port is HDMI (High-Definition Multimedia Interface), DP (DisplayPort), RGB, DVI (Digital Visual Interface), USB (Universal Serial Bus), Thunderbolt, LAN , and may include ports such as AUX.
  • the input interface 130 performs a function of receiving a command or data from the outside, and may be referred to as an input unit, an input module, or the like.
  • the input interface 130 performs an input/output function, it may be referred to as an input/output unit, an input/output module, or the like.
  • the communication interface 140 may communicate with an external device.
  • the communication interface 140 may transmit/receive data to and from an external device using a wired/wireless communication method.
  • the communication interface 140 may include 3G, Long Term Evolution (LTE), 5G, Wi-Fi, Bluetooth, Digital Multimedia Broadcasting (DMB), Advanced Television Systems Committee (ATSC), Digital Video Broadcasting (DVB), and Local Area Network (LAN). It may include a module capable of performing communication in a manner such as an area network).
  • the communication interface 140 performing communication with an external device may be referred to as a communication unit, a communication module, a transceiver, or the like.
  • the communication interface 140 may receive content or data from an external device.
  • the camera 150 may photograph the surrounding environment of the electronic device 100a. Alternatively, the camera 150 may photograph the user's facial expression or motion.
  • the processor 120 may recognize a control command based on the captured user's facial expression or motion, and perform a control operation corresponding to the recognized control command.
  • the camera 150 may include a CCD sensor or a CMOS sensor.
  • the camera 140 may include an RGB camera and a depth camera.
  • the sensor 160 may detect an object around the electronic device 100a.
  • the processor 120 may recognize a control command based on the sensed signal and perform a control operation corresponding to the recognized control command.
  • the sensor 160 may sense surrounding environment information of the electronic device 100a.
  • the processor 120 may perform a corresponding control operation based on the surrounding environment information sensed by the sensor 160 .
  • the sensor 160 may include an acceleration sensor, a gravity sensor, a gyro sensor, a geomagnetic sensor, a direction sensor, a motion recognition sensor, a proximity sensor, a voltmeter, an ammeter, a barometer, a hygrometer, a thermometer, an illuminance sensor, a heat sensor, and a touch sensor. , an infrared sensor, an ultrasonic sensor, and the like.
  • the display 170 may output the data processed by the processor 120 as an image.
  • the display 170 may be implemented as a liquid crystal display (LCD), an organic light emitting diode (OLED), a quantum dot light emitting diode (QLED), a micro LED, a flexible display, a touch screen, etc. have.
  • the display 170 may be classified into an AM (Active Matrix) (e.g. AM-OLED) method or a PM (Passive Matrix) (e.g. PM-OLED) method according to a driving method.
  • AM-OLED Active Matrix
  • PM-OLED Passive Matrix
  • the electronic device 100a may receive a control command through the touch screen.
  • the speaker 180 (internal speaker) outputs an audio signal on which audio processing has been performed.
  • the present disclosure describes an embodiment in which the electronic device 100a and an external speaker are connected, the present disclosure may also be applied to outputting a sound signal through the internal speaker. Meanwhile, the speaker 180 may output a user's input command, status-related information or operation-related information of the electronic device 100a as a voice or a notification sound.
  • the memory 190 may store data, algorithms, etc. that perform a function of the electronic device 100a , and may store programs and commands driven by the electronic device 100a .
  • the algorithm stored in the memory 190 may be loaded into the processor 120 under the control of the processor 120 to identify a delay time between the input sound signal and the reference sound signal, and to remove the echo component.
  • the memory 190 may be implemented as a type of ROM, RAM, HDD, SSD, memory card, or the like.
  • the electronic device 100a may include all of the above-described components or may include only some components. In addition, the electronic device 100a may further include other components that perform various functions in addition to the above-described components. So far, the configuration of the electronic device 100a has been described. Hereinafter, a method of determining the reliability of the estimated delay time will be described.
  • FIG. 4 is a view for explaining a process of removing an echo component according to an embodiment of the present disclosure.
  • the processor may receive a sound signal input through a microphone and a reference sound signal ( S410 and S420 ).
  • the processor may estimate the delay time based on the input sound signal and the reference sound signal (S430).
  • the processor may convert the input sound signal and the reference sound signal into a frequency band.
  • the processor may obtain similarity by shifting another sound signal based on one sound signal.
  • the processor may obtain a preset value by applying a weight to the degree of similarity in which the largest value appears. For example, the weight may be a value between 0 and 1.
  • the processor may estimate a similarity of a value greater than the obtained preset value as a candidate group for the time difference.
  • the processor may convert to a time band for the candidate group and identify peak values.
  • the processor may estimate a time difference of one of the candidate groups as a delay time between the input sound signal and the output sound signal, and determine reliability of the estimated delay time. If the processor determines that the reliability of the estimated delay time is not acceptable, it may ignore the data. On the other hand, if the processor determines that reliability of the estimated delay time is recognized, it may store the value in the buffer of the delay time compensation module (S440).
  • the processor may perform an echo component cancellation process based on the delay time for which reliability is recognized ( S450 ).
  • 5 is an embodiment of determining reliability of a time delay when phase information is insufficient in a sound signal input into a microphone.
  • the sound signal input to the microphone may not include enough phase information to calculate the delay time. For example, when the output volume of the speaker is small or the external noise is greater than the output of the speaker, sufficient phase information may not be included in the input sound signal. If the input sound signal does not have sufficient phase information, the highest similarity may not represent a high value compared to other similarities. Accordingly, when a preset value is obtained by applying the above-described weight to the similarity of the largest value, a greater degree of similarity than the preset value may appear. That is, there is no clear similarity between the input sound signal and the reference sound signal, and a similarity greater than a preset value may frequently appear as shown in FIG. 5 .
  • the interval between the time difference at which the maximum degree of similarity appears and the time difference at which the minimum degree of similarity appears among similarities greater than or equal to a preset value may be very wide. Accordingly, when the interval between the time difference at which the maximum degree of similarity appears and the time difference at which the minimum level of similarity appears exceeds a preset value, the electronic device determines that sufficient phase information is not included in the input sound signal, and the estimated delay time can be judged to be unreliable. The electronic device may ignore data determined to be unreliable.
  • the electronic device may estimate the delay time in units of blocks of a predetermined sound signal and determine reliability. Accordingly, even if the electronic device determines that there is no reliability in the corresponding block and ignores the data, the electronic device may determine the reliability in the next block and calculate the delay time.
  • 6 is an embodiment of determining reliability of a time delay for a sound signal inputted after being echoed.
  • a sound signal output from the speaker may be reflected on a wall or the like and input into a microphone. That is, when the electronic device is located in a space having a large reverberation effect, the sound signal output to the speaker may be periodically input through the microphone.
  • the electronic device may estimate an erroneous delay time. Accordingly, in the present disclosure, when the echo input sound signal is input based on the input sound shape, the initial input sound signal may be identified as a delay time.
  • the electronic device may obtain a preset value in the same manner as described above, and identify a time difference in which a similarity greater than the preset value appears as a candidate group for delay time.
  • the echoed sound signal may appear with a high degree of similarity at regular intervals. Accordingly, when a similarity greater than a preset value periodically appears, as shown in FIG. 6 , the electronic device may identify a time difference ⁇ at which the earliest similarity appears as a delay time.
  • 7 is an embodiment of determining reliability of a time delay with respect to a sound signal input with external noise.
  • the electronic device may calculate the variance of the delay times measured in each sound block. And, when the calculated variance is equal to or less than a certain value, the electronic device may determine the delay time between the input sound signal and the reference sound signal. That is, the electronic device may recognize reliability of the estimated delay time only when the delay times between the input sound signal and the reference sound signal converge.
  • the echoed sound signal may also be periodically input into the microphone.
  • the electronic device may identify a time difference in which a similarity greater than a preset value appears as a delay time.
  • the external sound signal may appear independent of the reference sound signal.
  • the similarity of a large value every 0.7 sec, 1.4 sec, and 2.1 sec of the reference sound signal may appear. That is, in the case of FIG. 7 , a similarity of a large value may appear aperiodically with respect to the reference sound signal. Accordingly, when a similarity equal to or greater than a preset value is repeatedly displayed, the electronic device may estimate a time difference at which the greatest similarity appears as a delay time, and may obtain a variance of the estimated delay time for each of a plurality of preset time units.
  • the electronic device may identify a time difference for which reliability is recognized. Alternatively, when the obtained variance exceeds a preset value, the electronic device may determine that the reliability of the estimated delay time is not recognized and ignore the data of the estimated delay time. Through the above-described process, the electronic device may acquire an accurate delay time regardless of a connection method or location of an external speaker.
  • FIG. 8 is a view for explaining an operation of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 connected to the external speaker 10 may output a sound signal through the external speaker 10 .
  • the sound signal output to the external speaker 10 may be input to the microphone of the electronic device 100 .
  • the electronic device 100 may identify a delay time between the reference sound signal and the input sound signal.
  • the electronic device 100 may acquire a plurality of similarities between phases of the two sound signals by shifting the other sound signal based on one of the reference sound signal and the input sound signal.
  • the electronic device 100 may estimate a time difference at which a similarity greater than or equal to a preset value among the plurality of obtained similarities appears as a candidate group of the time difference between the input sound signal and the reference sound signal.
  • the electronic device 100 may determine the reliability of the estimated candidate group, and when the reliability is recognized, the electronic device 100 may identify a time difference between one of the candidate groups as a delay time.
  • the electronic device 100 determines that there is no reliability and collects data related to the time difference. can be ignored
  • the input sound signal may exhibit periodicity based on the reference sound signal.
  • the electronic device may identify a time difference at which a similarity greater than a preset value first appears as a delay time.
  • the electronic device 100 may estimate a time difference in which the greatest similarity occurs as a delay time, and may obtain a variance of the estimated delay times for each block of a plurality of sound signals. When it is determined that the estimated delay time converges, the electronic device 100 may determine a time difference for which reliability is recognized and obtain the delay time. Alternatively, when determining that the estimated delay time diverges, the electronic device 100 may determine that reliability of the estimated delay time is not recognized and ignore data related to the estimated time difference. The electronic device 100 may perform time delay compensation between the reference sound signal and the input sound signal based on the identified delay time.
  • the electronic device 100 may receive a voice command from the user (S810).
  • the electronic device 100 may remove the input sound signal (echo component) through the above-described process (S820). That is, since the electronic device 100 receives the user's voice signal and the input sound signal and removes the input sound signal, the electronic device 100 may accurately recognize the user's voice command.
  • the electronic device 100 may perform an operation corresponding to the recognized user's voice command.
  • FIG. 9 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present disclosure.
  • the electronic device acquires a plurality of similarities between phases of two sound signals based on one of an external sound signal converted to a frequency band and a reference sound signal converted to a frequency band ( S910 ) .
  • the electronic device may sample the converted external sound signal and the converted reference sound signal.
  • the electronic device may shift the other sound signal based on one of the converted external sound signal and the converted reference sound signal.
  • the electronic device may obtain a similarity between phases of the two sound signals by performing a convolution operation on the two sound signals.
  • the electronic device may shift one sound signal to a plurality of different times and acquire a plurality of similarities according to each time.
  • the electronic device identifies the delay time of the external sound signal based on the obtained reliability of the plurality of similarities ( S920 ). For example, the electronic device may estimate a time difference at which a similarity greater than or equal to a preset value among the plurality of obtained similarities appears as a candidate group of the time difference between the external sound signal and the reference sound signal. The electronic device may acquire a preset value by applying a preset weight to a similarity in which the largest value appears among the plurality of acquired similarities. As an embodiment, the preset weight may be a value between 0 and 1.
  • the electronic device may determine the reliability of the estimated candidate group. For example, the electronic device may determine an interval between a time difference in which a maximum value of similarity appears and a time difference in which a minimum value of similarity appears among the estimated candidate groups. When the determined interval exceeds a preset value, the electronic device may determine that the reliability of the estimated candidate group is not recognized, and ignore data of the time difference of the estimated candidate group. Alternatively, when the degree of similarity equal to or greater than a preset value periodically appears among the estimated candidate groups, the electronic device may identify a time difference at which the degree of similarity equal to or greater than the preset value first appears as a time difference for which reliability is recognized.
  • the electronic device may acquire a plurality of similarities based on a preset time unit.
  • the preset time unit may be a block of a sound signal of a constant time.
  • the electronic device may estimate a time difference at which the greatest degree of similarity appears as a delay time.
  • the electronic device may obtain a variance of the estimated delay time for each of a plurality of preset time units. When the obtained variance is less than or equal to a preset value, the electronic device may identify a time difference for which reliability is recognized. On the other hand, when the obtained variance exceeds a preset value, the electronic device may determine that the reliability of the estimated delay time is not recognized and ignore the data of the estimated delay time.
  • the electronic device may identify a delay time for which reliability is recognized.
  • the electronic device performs time delay compensation between the external sound signal and the reference sound signal based on the identified delay time (S930).
  • FIG. 10 is a flowchart illustrating a specific electronic device control process according to an embodiment of the present disclosure.
  • the electronic device may receive an external sound signal through a microphone ( S1010 ).
  • the external sound signal input through the microphone may be a sound signal output through the speaker.
  • the electronic device may convert the external sound signal and the reference sound signal into a frequency band for each preset time unit (S1020).
  • the reference sound signal may be a sound signal output from the electronic device. That is, the external sound signal and the reference sound signal may be the same sound signal having a difference in magnitude or time.
  • the electronic device may convert the external sound signal and the reference sound signal into a frequency band in units of blocks of the sound signal. And, the block of the sound signal may be set at an interval of 1 second.
  • the electronic device may acquire a plurality of similarities between the phases of the two sound signals converted to the frequency band ( S1030 ).
  • the electronic device may obtain similarity by shifting one sound signal and convolving the two sound signals. As described above, since two sound signals are the same signal having a time difference, when the time difference is 0, the two sound signals may have the greatest similarity.
  • the electronic device may estimate a time difference at which a similarity greater than or equal to a preset value among the plurality of obtained similarities appears as a candidate group of the time difference between the external sound signal and the reference sound signal (S1040), and determine the reliability of the estimated candidate group (S1050) ). As described above, the electronic device may determine reliability based on the interval between the time difference at which the maximum similarity appears and the time difference at which the minimum similarity appears. Alternatively, the electronic device may determine reliability based on the periodicity or repeatability of a similarity greater than or equal to a preset value among the estimated candidate groups.
  • the electronic device may ignore (or remove) the data of the estimated candidate group (S1060).
  • the electronic device may perform the delay time identification process by repeating the above-described process for the sound signal of the next preset time unit.
  • Time delay compensation may refer to synchronization between an external sound signal and a reference sound signal. That is, the electronic device may execute an algorithm for performing synchronization between the external sound signal and the reference sound signal and removing the echo component.
  • the method for controlling an electronic device may be provided as a computer program product.
  • the computer program product may include the S/W program itself or a non-transitory computer readable medium in which the S/W program is stored.
  • the non-transitory readable medium refers to a medium that stores data semi-permanently, rather than a medium that stores data for a short moment, such as a register, cache, memory, and the like, and can be read by a device.
  • a non-transitory readable medium such as a CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM, and the like.

Abstract

An electronic device and a control method are disclosed. The electronic device comprises a microphone and a processor, and the processor obtains multiple similarities between the phase of an external sound signal input to the microphone and converted to have a frequency band and the phase of a reference sound signal converted to have a frequency band on the basis of one sound signal of the two sound signals, identifies a delay time of the external sound signal on the basis of the reliability of the obtained multiple similarities, and performs compensation for the time delay between the external sound signal and the reference sound signal on the basis of the identified delay time.

Description

전자 장치 및 그 제어 방법Electronic device and its control method
본 개시는 전자 장치 및 그 제어 방법에 관한 것으로, 더욱 상세하게는 출력 사운드 신호와 마이크로 입력되는 사운드 신호 간의 동기화를 수행하는 전자 장치 및 그 제어 방법에 관한 것이다.The present disclosure relates to an electronic device and a control method thereof, and more particularly, to an electronic device for performing synchronization between an output sound signal and a sound signal input to a microphone, and a control method thereof.
최근 전자 장치는 컨텐츠의 사운드 신호를 출력하는 스피커, 외부 스피커를 연결할 수 있는 입출력 인터페이스와 함께 사용자의 음성 명령을 입력받는 마이크를 포함하고 있다. 이에 따라, 스피커로 출력되는 사운드 신호가 마이크를 통해 입력되는 에코 현상이 발생한다. 전자 장치는 AEC(Acoustic Echo Cancellation) 알고리즘을 적용하여 에코 성분을 제거한다. 그러나, AEC 알고리즘을 적용하기 위해서는 마이크로 입력되는 사운드 신호와 스피커로 출력되는 사운드 신호 간의 동기화가 반드시 필요하다.Recently, electronic devices include a speaker for outputting a sound signal of content, an input/output interface for connecting an external speaker, and a microphone for receiving a user's voice command. Accordingly, an echo phenomenon in which a sound signal output to a speaker is input through a microphone occurs. The electronic device removes an echo component by applying an acoustic echo cancellation (AEC) algorithm. However, in order to apply the AEC algorithm, synchronization between the sound signal input to the microphone and the sound signal output to the speaker is absolutely necessary.
전자 장치가 TV인 경우, 마이크는 TV의 특정 위치에 고정되어 있다. 반면, 스피커는 사용자 설정에 따라 내부 스피커 또는 외부 스피커로 출력될 수 있다. 또한, TV와 외부 스피커는 HDMI, Wi-Fi, Bluetooth, Aux 등의 방식으로 연결될 수 있다.When the electronic device is a TV, the microphone is fixed at a specific position on the TV. On the other hand, the speaker may be output as an internal speaker or an external speaker according to a user setting. In addition, the TV and the external speaker may be connected in a way such as HDMI, Wi-Fi, Bluetooth, Aux.
컨텐츠의 사운드 신호가 내부 스피커로 출력되는 경우, 내부 스피커와 마이크의 간격은 고정되어 있으므로 스피커의 출력 신호가 마이크로 입력되기 까지 일정한 시간 차이가 발생된다. 그러나, 컨텐츠의 사운드 신호가 외부 스피커로 출력되는 경우, 외부 스피커와 마이크의 간격은 변경될 수 있어 스피커의 출력 신호가 마이크로 입력되기 까지 다양한 시간 차이가 발생될 수 있다. 또한, TV와 외부 스피커 간의 연결 방식에 따라 네트워크 환경 등의 영향으로 인해 디지털 음성 신호에 샘플 단위 차이가 발생될 수 있다. 뿐만 아니라, TV와 외부 스피커의 프로세서 클럭 주파수 등의 차이로 인해 샘플 드리프트 현상이 발생될 수 있다. 이와 같이, 다양한 이유로 TV와 외부 스피커가 연결된 경우, 스피커 출력 신호와 마이크 입력 신호 간에는 지속적으로 시간 차이가 발생될 수 있다.When the sound signal of the content is output to the internal speaker, since the interval between the internal speaker and the microphone is fixed, a certain time difference occurs until the output signal of the speaker is input into the microphone. However, when the sound signal of the content is output to the external speaker, the distance between the external speaker and the microphone may be changed, so that various time differences may occur until the output signal of the speaker is input into the microphone. Also, depending on the connection method between the TV and the external speaker, a sample unit difference may occur in the digital audio signal due to the influence of a network environment, etc. FIG. In addition, a sample drift phenomenon may occur due to a difference between the processor clock frequency of the TV and the external speaker. As such, when the TV and an external speaker are connected for various reasons, a time difference may continuously occur between the speaker output signal and the microphone input signal.
컨텐츠의 출력 신호가 내부 스피커로 출력되는 경우, 제조사는 일정 시간을 보상하는 알고리즘을 적용하여 내부 스피커 출력 신호와 마이크 입력 신호 간의 시간 지연 문제를 해결할 수 있다. 그러나, 컨텐츠의 출력 신호가 외부 스피커로 출력되는 경우, 스피커 출력 신호와 마이크 입력 신호 간의 동기화는 매우 어려운 문제이다. 기존 TV 음성 인식 서비스도 내부 스피커로 사운드 신호가 출력되는 상황에서만 동기화를 수행하고 있는 실정이다.When the output signal of the content is output to the internal speaker, the manufacturer can solve the problem of time delay between the internal speaker output signal and the microphone input signal by applying an algorithm that compensates for a certain time. However, when an output signal of content is output to an external speaker, synchronization between the speaker output signal and the microphone input signal is very difficult. The existing TV voice recognition service also performs synchronization only when a sound signal is output through an internal speaker.
따라서, 사운드 신호가 내부 스피커 또는 외부 스피커 중 어느 장치로 출력되더라도 출력 사운드 신호와 입력 사운드 신호 간의 동기화를 수행할 수 있는 기술이 필요하다.Accordingly, there is a need for a technique capable of performing synchronization between an output sound signal and an input sound signal even if the sound signal is output to either an internal speaker or an external speaker.
본 개시는 상술한 문제점을 해결하기 위한 것으로, 본 개시의 목적은 스피커의 위치에 상관없이 스피커로 출력되는 사운드 신호와 마이크로 입력되는 사운드 신호를 동기화하여 에코 성분을 제거함으로써 음성 인식 성능을 향상시키는 전자 장치 및 그 제어 방법을 제공함에 있다.The present disclosure is to solve the above-described problems, and an object of the present disclosure is to synchronize a sound signal output to a speaker and a sound signal input to a microphone to remove an echo component, regardless of the position of the speaker, thereby improving voice recognition performance. To provide an apparatus and a method for controlling the same.
본 개시의 일 실시 예에 따른 전자 장치는 마이크 및 프로세서를 포함하고, 상기 프로세서는 주파수 대역으로 변환된 상기 마이크로 입력된 외부 사운드 신호 및 주파수 대역으로 변환된 기준 사운드 신호 중 하나의 사운드 신호를 기초로 두 개의 사운드 신호의 위상(phase) 간의 복수의 유사도를 획득하고, 상기 획득된 복수의 유사도의 신뢰성(reliability)에 기초하여 상기 외부 사운드 신호의 지연 시간을 식별하며, 상기 식별된 지연 시간에 기초하여 상기 외부 사운드 신호와 상기 기준 사운드 신호 간의 시간 지연 보상을 수행한다.An electronic device according to an embodiment of the present disclosure includes a microphone and a processor, wherein the processor based on one of an external sound signal input into the microphone converted into a frequency band and a reference sound signal converted into a frequency band Acquire a plurality of similarities between phases of two sound signals, identify delay times of the external sound signals based on reliability of the obtained plurality of similarities, and based on the identified delay times Time delay compensation is performed between the external sound signal and the reference sound signal.
본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은 주파수 대역으로 변환된 외부 사운드 신호 및 주파수 대역으로 변환된 기준 사운드 신호 중 하나의 사운드 신호를 기초로 두 개의 사운드 신호의 위상(phase) 간의 복수의 유사도를 획득하는 단계, 상기 획득된 복수의 유사도의 신뢰성(reliability)에 기초하여 상기 외부 사운드 신호의 지연 시간을 식별하는 단계 및 상기 식별된 지연 시간에 기초하여 상기 외부 사운드 신호와 상기 기준 사운드 신호 간의 시간 지연 보상을 수행하는 단계를 포함한다.A method of controlling an electronic device according to an embodiment of the present disclosure provides a plurality of phases between two sound signals based on one of an external sound signal converted to a frequency band and a reference sound signal converted to a frequency band. obtaining a degree of similarity of , identifying a delay time of the external sound signal based on reliability of the plurality of obtained degrees of similarity, and based on the identified delay time, the external sound signal and the reference sound signal and performing time delay compensation.
도 1은 본 개시의 일 실시 예에 따른 외부 스피커와 연결된 전자 장치를 도시한 도면이다.1 is a diagram illustrating an electronic device connected to an external speaker according to an embodiment of the present disclosure.
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하는 블록도이다.2 is a block diagram illustrating a configuration of an electronic device according to an embodiment of the present disclosure.
도 3은 본 개시의 일 실시 예에 따른 전자 장치의 구체적인 구성을 설명하는 블록도이다.3 is a block diagram illustrating a detailed configuration of an electronic device according to an embodiment of the present disclosure.
도 4는 본 개시의 일 실시 예에 따른 에코 성분을 제거하는 과정을 설명하는 도면이다.4 is a view for explaining a process of removing an echo component according to an embodiment of the present disclosure.
도 5는 마이크로 입력된 사운드 신호에 위상 정보가 불충분할 때 시간 지연의 신뢰성을 판단하는 일 실시 예이다.5 is an embodiment of determining reliability of a time delay when phase information is insufficient in a sound signal input into a microphone.
도 6은 반향되어 입력된 사운드 신호에 대한 시간 지연의 신뢰성을 판단하는 일 실시 예이다.6 is an embodiment of determining reliability of a time delay for a sound signal inputted after being echoed.
도 7은 외부 노이즈가 함께 입력된 사운드 신호에 대한 시간 지연의 신뢰성을 판단하는 일 실시 예이다.7 is an embodiment of determining reliability of a time delay with respect to a sound signal input with external noise.
도 8은 본 개시의 일 실시 예에 따른 전자 장치의 동작을 설명하는 도면이다.8 is a view for explaining an operation of an electronic device according to an embodiment of the present disclosure.
도 9는 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하는 흐름도이다.9 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present disclosure.
도 10은 본 개시의 일 실시 예에 따른 구체적인 전자 장치의 제어 과정을 설명하는 흐름도이다.10 is a flowchart illustrating a specific electronic device control process according to an embodiment of the present disclosure.
이하에서는 첨부된 도면을 참조하여 다양한 실시 예를 보다 상세하게 설명한다. 본 명세서에 기재된 실시 예는 다양하게 변형될 수 있다. 특정한 실시 예가 도면에서 묘사되고 상세한 설명에서 자세하게 설명될 수 있다. 그러나, 첨부된 도면에 개시된 특정한 실시 예는 다양한 실시 예를 쉽게 이해하도록 하기 위한 것일 뿐이다. 따라서, 첨부된 도면에 개시된 특정 실시 예에 의해 기술적 사상이 제한되는 것은 아니며, 개시의 사상 및 기술 범위에 포함되는 모든 균등물 또는 대체물을 포함하는 것으로 이해되어야 한다.Hereinafter, various embodiments will be described in more detail with reference to the accompanying drawings. The embodiments described herein may be variously modified. Certain embodiments may be depicted in the drawings and described in detail in the detailed description. However, the specific embodiments disclosed in the accompanying drawings are only provided to facilitate understanding of the various embodiments. Accordingly, the technical spirit is not limited by the specific embodiments disclosed in the accompanying drawings, and it should be understood to include all equivalents or substitutes included in the spirit and scope of the disclosure.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이러한 구성요소들은 상술한 용어에 의해 한정되지는 않는다. 상술한 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. Terms including an ordinal number such as 1st, 2nd, etc. may be used to describe various components, but these components are not limited by the above-mentioned terms. The above terminology is used only for the purpose of distinguishing one component from another component.
본 명세서에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.In this specification, terms such as "comprises" or "have" are intended to designate that the features, numbers, steps, operations, components, parts, or combinations thereof described in the specification exist, but one or more other features It should be understood that this does not preclude the existence or addition of numbers, steps, operations, components, parts, or combinations thereof. When an element is referred to as being “connected” or “connected” to another element, it is understood that it may be directly connected or connected to the other element, but other elements may exist in between. it should be On the other hand, when it is said that a certain element is "directly connected" or "directly connected" to another element, it should be understood that the other element does not exist in the middle.
한편, 본 명세서에서 사용되는 구성요소에 대한 "모듈" 또는 "부"는 적어도 하나의 기능 또는 동작을 수행한다. 그리고, "모듈" 또는 "부"는 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합에 의해 기능 또는 동작을 수행할 수 있다. 또한, 특정 하드웨어에서 수행되어야 하거나 적어도 하나의 프로세서에서 수행되는 "모듈" 또는 "부"를 제외한 복수의 "모듈들" 또는 복수의 "부들"은 적어도 하나의 모듈로 통합될 수도 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.Meanwhile, as used herein, a “module” or “unit” for a component performs at least one function or operation. In addition, a “module” or “unit” may perform a function or operation by hardware, software, or a combination of hardware and software. In addition, a plurality of “modules” or a plurality of “units” other than a “module” or “unit” to be performed in specific hardware or to be executed in at least one processor may be integrated into at least one module. The singular expression includes the plural expression unless the context clearly dictates otherwise.
본 개시의 설명에 있어서 각 단계의 순서는 선행 단계가 논리적 및 시간적으로 반드시 후행 단계에 앞서서 수행되어야 하는 경우가 아니라면 각 단계의 순서는 비제한적으로 이해되어야 한다. 즉, 위와 같은 예외적인 경우를 제외하고는 후행 단계로 설명된 과정이 선행단계로 설명된 과정보다 앞서서 수행되더라도 개시의 본질에는 영향이 없으며 권리범위 역시 단계의 순서에 관계없이 정의되어야 한다. 그리고 본 명세서에서 "A 또는 B"라고 기재한 것은 A와 B 중 어느 하나를 선택적으로 가리키는 것뿐만 아니라 A와 B 모두를 포함하는 것도 의미하는 것으로 정의된다. 또한, 본 명세서에서 "포함"이라는 용어는 포함하는 것으로 나열된 요소 이외에 추가로 다른 구성요소를 더 포함하는 것도 포괄하는 의미를 가진다.In the description of the present disclosure, the order of each step should be understood as non-limiting unless the preceding step must be logically and temporally performed before the subsequent step. In other words, except for the above exceptional cases, even if the process described as the subsequent step is performed before the process described as the preceding step, the essence of the disclosure is not affected, and the scope of rights should also be defined regardless of the order of the steps. And, in the present specification, "A or B" is defined as meaning not only selectively pointing to any one of A and B, but also including both A and B. In addition, in the present specification, the term "comprising" has the meaning of encompassing the inclusion of other components in addition to the elements listed as being included.
본 명세서에서는 본 개시의 설명에 필요한 필수적인 구성요소만을 설명하며, 본 개시의 본질과 관계가 없는 구성요소는 언급하지 아니한다. 그리고 언급되는 구성요소만을 포함하는 배타적인 의미로 해석되어서는 아니되며 다른 구성요소도 포함할 수 있는 비배타적인 의미로 해석되어야 한다.In this specification, only essential components necessary for the description of the present disclosure are described, and components not related to the essence of the present disclosure are not mentioned. And it should not be construed in an exclusive meaning including only the mentioned components, but should be interpreted in a non-exclusive meaning that may also include other components.
그 밖에도, 본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그에 대한 상세한 설명은 축약하거나 생략한다. 한편, 각 실시 예는 독립적으로 구현되거나 동작될 수도 있지만, 각 실시 예는 조합되어 구현되거나 동작될 수도 있다.In addition, in describing the present disclosure, if it is determined that a detailed description of a related known function or configuration may unnecessarily obscure the subject matter of the present disclosure, the detailed description thereof will be abbreviated or omitted. Meanwhile, each embodiment may be implemented or operated independently, but each embodiment may be implemented or operated in combination.
도 1은 본 개시의 일 실시 예에 따른 외부 스피커와 연결된 전자 장치를 도시한 도면이다.1 is a diagram illustrating an electronic device connected to an external speaker according to an embodiment of the present disclosure.
도 1을 참조하면, 전자 장치(100)와 외부 스피커(10)가 도시되어 있다. 예를 들어, 전자 장치(100)는 디지털 TV, 데스크탑 컴퓨터, 랩탑 컴퓨터, 스마트폰, 태블릿 PC, 네비게이션, 슬레이트 PC, 웨어러블 디바이스, 셋탑박스, 키오스크 등을 포함할 수 있다. 즉, 전자 장치(100)는 TV 또는 랩탑 컴퓨터 등과 같이 내부 디스플레이를 포함할 수 있으나, 데스크탑 컴퓨터 또는 셋탑박스 등과 같이 외부 디스플레이 장치로 영상 신호를 전송하는 장치를 포함할 수 있다. 또한, 디스플레이를 포함하는 전자 장치(100)의 경우에도 다양한 유무선 방식을 이용하여 외부 디스플레이 장치와 연결되어 외부 디스플레이 장치로 영상 신호를 전송할 수도 있다. Referring to FIG. 1 , an electronic device 100 and an external speaker 10 are illustrated. For example, the electronic device 100 may include a digital TV, a desktop computer, a laptop computer, a smart phone, a tablet PC, a navigation system, a slate PC, a wearable device, a set-top box, a kiosk, and the like. That is, the electronic device 100 may include an internal display such as a TV or a laptop computer, but may include a device that transmits an image signal to an external display device such as a desktop computer or a set-top box. Also, in the case of the electronic device 100 including a display, an image signal may be transmitted to the external display device by being connected to the external display device using various wired/wireless methods.
전자 장치(100)는 마이크를 포함하고, 내부(또는, 내장형) 스피커를 포함할 수 있다. 전자 장치(100)는 내부 스피커를 포함하는 경우에도 외부 스피커(10)와 연결되어 외부 스피커(10)를 통해 사운드 신호를 출력할 수 있다. 도 1에서는 전자 장치(100)가 외부 스피커(10)와 무선으로 연결된 실시 예가 도시되어 있으나, 전자 장치(100)는 다양한 유무선 방식으로 외부 스피커(10)와 연결될 수 있다. 예를 들어, 전자 장치(100)는 HDMI, Wi-Fi, Bluetooth, Aux 등의 방식으로 외부 스피커(10)와 연결될 수 있다.The electronic device 100 may include a microphone and an internal (or built-in) speaker. Even if the electronic device 100 includes an internal speaker, it may be connected to the external speaker 10 to output a sound signal through the external speaker 10 . Although an embodiment in which the electronic device 100 is wirelessly connected to the external speaker 10 is illustrated in FIG. 1 , the electronic device 100 may be connected to the external speaker 10 in various wired and wireless methods. For example, the electronic device 100 may be connected to the external speaker 10 in a manner such as HDMI, Wi-Fi, Bluetooth, or Aux.
전자 장치(100)가 외부 스피커(10)와 연결된 경우, 외부 스피커(10)를 통해 사운드 신호를 출력할 수 있다. 외부 스피커(10)를 통해 출력된 사운드 신호는 전자 장치(100)의 마이크로 입력될 수 있다. 마이크로 입력된 사운드 신호는 에코 성분일 수 있다. 전자 장치(100)로 입력된 에코 성분은 전자 장치(100)가 마이크를 통해 입력받은 음성을 인식하는 데 방해가 될 수 있다. 일 실시 예로서, 전자 장치(100)는 음성 인식 기능을 수행할 수 있다. 전자 장치(100)는 마이크를 통해 입력된 사용자의 음성을 인식하고, 인식된 음성에 대응되는 동작을 수행할 수 있다. 전자 장치(100)가 사용자의 음성을 입력받을 때, 상술한 바와 같이, 에코 성분(또는, 스피커를 통해 출력된 사운드 신호)이 함께 입력될 수 있다. 전자 장치(100)는 입력된 에코 성분 때문에 사용자의 음성을 정확히 인식하지 못할 수 있다. 따라서, 전자 장치(100)에는 에코 성분을 제거하는 기능이 포함되어야 한다.When the electronic device 100 is connected to the external speaker 10 , a sound signal may be output through the external speaker 10 . A sound signal output through the external speaker 10 may be input into a microphone of the electronic device 100 . The sound signal input into the microphone may be an echo component. The echo component input to the electronic device 100 may interfere with recognizing the voice input through the microphone by the electronic device 100 . As an embodiment, the electronic device 100 may perform a voice recognition function. The electronic device 100 may recognize the user's voice input through the microphone and perform an operation corresponding to the recognized voice. When the electronic device 100 receives a user's voice, as described above, an echo component (or a sound signal output through a speaker) may be input together. The electronic device 100 may not accurately recognize the user's voice due to the input echo component. Accordingly, the electronic device 100 should include a function of removing an echo component.
에코 성분을 제거하는 알고리즘은 Acoustic Echo Cancellation(AEC)이라고 칭할 수 있다. 전자 장치(100)에서 AEC가 적용되기 위해서는 마이크로 입력된 사운드 신호와 스피커로 출력되는 사운드 신호 간의 동기화가 필수적이다.The algorithm for canceling the echo component may be referred to as Acoustic Echo Cancellation (AEC). In order to apply AEC in the electronic device 100 , synchronization between a sound signal input to a microphone and a sound signal output to a speaker is essential.
전자 장치(100)의 마이크와 내부 스피커의 위치는 고정적이다. 따라서, 전자 장치(100)가 내부 스피커를 통해 사운드 신호를 출력하는 경우, 마이크로 입력되는 사운드 신호는 스피커로 출력되는 사운드 신호와 일정한 시간 차가 발생될 수 있다. 입력 사운드 신호와 출력 사운드 신호 간에 일정한 시간 차가 발생되기 때문에 입력 사운드 신호와 출력 사운드 신호 간의 동기화가 가능하다.The positions of the microphone and the internal speaker of the electronic device 100 are fixed. Accordingly, when the electronic device 100 outputs a sound signal through the internal speaker, a predetermined time difference may occur between the sound signal input into the microphone and the sound signal output through the speaker. Since a certain time difference is generated between the input sound signal and the output sound signal, synchronization between the input sound signal and the output sound signal is possible.
그러나, 전자 장치(100)가 외부 스피커(10)를 통해 사운드 신호를 출력하는 경우, 외부 스피커(10)의 위치는 가변적이고, 외부 스피커(10)와 연결된 통신 방식에 따라 입력 사운드 신호와 출력 사운드 신호 간의 시간 차는 다양하게 변화될 수 있다.However, when the electronic device 100 outputs a sound signal through the external speaker 10 , the position of the external speaker 10 is variable, and the input sound signal and the output sound according to a communication method connected to the external speaker 10 . The time difference between signals may be variously changed.
본 개시에서는 출력 사운드 신호를 입력 사운드 신호와 동기화를 수행하는 방법 및 장치를 설명한다. 전자 장치(100)는 스피커로 출력된 사운드 신호를 입력받는다. 예를 들어, 스피커는 외부 스피커(10)일 수 있다. 전자 장치(100)는 마이크로 입력된 외부 사운드 신호 및 기준 사운드 신호를 주파수 대역으로 변환한다. 예를 들어 기준 사운드 신호는 출력 사운드 신호일 수 있다. 전자 장치(100)는 변환된 외부 사운드 신호 및 기준 사운드 신호 중 하나의 사운드 신호를 기준으로 다른 하나의 사운드 신호를 시프트한다. 전자 장치(100)는 하나의 사운드 신호를 기준으로 다른 사운드 신호를 시프트하여 두 개의 사운드 신호의 위상(phase) 간의 유사도를 획득한다. 예를 들어, 전자 장치(100)는 두 개의 사운드 신호를 컨벌루션 연산하여 유사도를 획득할 수 있다. 전자 장치(100)는 하나의 사운드 신호를 복수의 다른 시간으로 시프트하고, 각 시간에 따른 복수의 유사도를 획득할 수 있다. 한편, 전자 장치(100)는 획득된 복수의 유사도 중 가장 큰 값이 나타나는 유사도에 기 설정된 가중치를 적용하여 기 설정된 값을 획득할 수 있다. 예를 들어, 기 설정된 가중치는 0에서 1사이의 값일 수 있다. 전자 장치(100)는 획득된 복수의 유사도 중 기 설정된 값 이상의 유사도가 나타나는 시간 차를 외부 사운드 신호와 기준 사운드 신호의 시간 차의 후보군으로 추정하고, 신뢰성(reliability)을 판단한다.The present disclosure describes a method and apparatus for synchronizing an output sound signal with an input sound signal. The electronic device 100 receives the sound signal output through the speaker. For example, the speaker may be the external speaker 10 . The electronic device 100 converts the external sound signal input into the microphone and the reference sound signal into a frequency band. For example, the reference sound signal may be an output sound signal. The electronic device 100 shifts the other sound signal based on one of the converted external sound signal and the reference sound signal. The electronic device 100 acquires a similarity between phases of two sound signals by shifting another sound signal based on one sound signal. For example, the electronic device 100 may obtain similarity by performing a convolution operation on two sound signals. The electronic device 100 may shift one sound signal to a plurality of different times and acquire a plurality of similarities according to each time. Meanwhile, the electronic device 100 may obtain a preset value by applying a preset weight to a similarity in which the largest value among the plurality of acquired similarities appears. For example, the preset weight may be a value between 0 and 1. The electronic device 100 estimates a time difference at which a similarity greater than or equal to a preset value among the plurality of obtained similarities appears as a candidate group of the time difference between the external sound signal and the reference sound signal, and determines reliability.
일 실시 예로서, 전자 장치(100)는 추정된 후보군 중 유사도의 최대치가 나타나는 시간 차와 유사도의 최소치가 나타나는 시간 차의 간격이 기 설정된 값을 초과하는 경우, 추정된 후보군의 신뢰성이 인정되지 않는다고 판단할 수 있다. 이 경우, 전자 장치(100)는 추정된 후보군의 시간 차의 데이터를 무시할 수 있다. 또는, 전자 장치(100)는 추정된 후보군 중 기 설정된 값 이상의 유사도가 주기적으로 나타나는 경우, 기 설정된 값 이상의 유사도가 최초로 나타나는 시간 차를 신뢰성이 인정되는 시간 차로 식별할 수 있다. 또는, 전자 장치(100)는 기 설정된 값 이상의 유사도가 반복적으로 나타나는 경우, 가장 큰 유사도가 나타나는 시간 차를 지연 시간으로 추정하고, 복수의 기 설정된 시간 단위마다 추정된 지연 시간의 분산을 획득할 수 있다. 전자 장치(100)는 획득된 분산이 기 설정된 값 이하인 경우, 신뢰성이 인정되는 시간 차로 식별할 수 있다. 만일, 획득된 분산이 기 설정된 값을 초과하는 경우, 전자 장치(100)는 추정된 지연 시간의 신뢰성이 인정되지 않는다고 판단하고 추정된 지연 시간의 데이터를 무시할 수 있다. 전자 장치(100)는 일정한 시간 간격으로 상술한 과정을 반복할 수 있다. 예를 들어, 전자 장치(100)는 1초 간격의 사운드 신호의 블록 단위로 상술한 과정을 반복할 수 있다. 따라서, 전자 장치(100)가 하나의 블록에서 시간 차의 신뢰성이 인정되지 않는다고 판단하면, 다음 블록에서 상술한 과정을 반복하여 신뢰성이 인정되는 시간 차를 식별할 수 있다.As an embodiment, the electronic device 100 determines that the reliability of the estimated candidate group is not recognized when the interval between the time difference at which the maximum similarity value appears and the time difference at which the minimum similarity value appears among the estimated candidate groups exceeds a preset value. can judge In this case, the electronic device 100 may ignore the data of the time difference of the estimated candidate group. Alternatively, when a degree of similarity equal to or greater than a preset value appears periodically among the estimated candidate groups, the electronic device 100 may identify a time difference at which the degree of similarity equal to or greater than a preset value first appears as a time difference for which reliability is recognized. Alternatively, when the degree of similarity equal to or greater than a preset value repeatedly appears, the electronic device 100 may estimate a time difference at which the greatest similarity appears as a delay time, and obtain the variance of the estimated delay times for each of a plurality of preset time units. have. When the obtained variance is equal to or less than a preset value, the electronic device 100 may identify a time difference for which reliability is recognized. If the obtained variance exceeds a preset value, the electronic device 100 may determine that the reliability of the estimated delay time is not recognized and ignore the data of the estimated delay time. The electronic device 100 may repeat the above-described process at regular time intervals. For example, the electronic device 100 may repeat the above-described process in units of blocks of a sound signal with an interval of 1 second. Accordingly, if the electronic device 100 determines that the reliability of the time difference is not recognized in one block, it may identify the time difference in which the reliability is recognized by repeating the above-described process in the next block.
전자 장치(100)는 신뢰성이 인정되는 경우, 후보군 중 하나의 시간 차를 외부 사운드 신호의 지연 시간으로 식별한다. 그리고, 전자 장치(100)는 식별된 지연 시간에 기초하여 외부 사운드 신호와 기준 사운드 신호 간의 시간 지연 보상을 수행한다. 즉, 전자 장치(100)는 마이크로 입력된 외부 사운드 신호와 기준 사운드 신호 간에 동기화를 수행하고 에코 성분을 제거하기 위한 알고리즘을 실행할 수 있다.When reliability is recognized, the electronic device 100 identifies a time difference between one of the candidate groups as a delay time of an external sound signal. Then, the electronic device 100 performs time delay compensation between the external sound signal and the reference sound signal based on the identified delay time. That is, the electronic device 100 may perform synchronization between the external sound signal input into the microphone and the reference sound signal and execute an algorithm for removing the echo component.
아래에서는 전자 장치(100)의 구성에 대해 설명한다.Hereinafter, the configuration of the electronic device 100 will be described.
도 2는 본 개시의 일 실시 예에 따른 전자 장치의 구성을 설명하는 블록도이다.2 is a block diagram illustrating a configuration of an electronic device according to an embodiment of the present disclosure.
도 2를 참조하면, 전자 장치(100)는 마이크(110) 및 프로세서(120)를 포함한다.Referring to FIG. 2 , the electronic device 100 includes a microphone 110 and a processor 120 .
마이크(110)는 스피커로 출력된 사운드 신호를 입력받는다. 예를 들어, 스피커는 전자 장치(100) 내부의 스피커일 수 있고, 전자 장치(100)와 별개의 외부 스피커일 수 있다. 또한, 마이크(110)는 사용자의 음성을 입력받을 수 있다. 프로세서(120)는 입력된 음성에 기초하여 제어 명령을 인식하고, 인식된 제어 명령에 대응되는 제어 동작을 수행할 수 있다.The microphone 110 receives the sound signal output through the speaker. For example, the speaker may be an internal speaker of the electronic device 100 or an external speaker separate from the electronic device 100 . Also, the microphone 110 may receive a user's voice. The processor 120 may recognize a control command based on the input voice and perform a control operation corresponding to the recognized control command.
프로세서(120)는 전자 장치(100)의 각 구성을 제어한다. 그리고, 프로세서(120)는 마이크로 입력된 사운드 신호와 스피커로 출력된 사운드 신호 간의 시간 차를 획득하여 동기화를 수행할 수 있다. 프로세서(120)는 입력 사운드 신호와 출력 사운드 신호 간에 동기화를 수행한 후 에코 성분을 제거하기 위한 에코 제거 알고리즘을 수행할 수 있다. 구체적으로, 프로세서(120)는 마이크로 입력된 사운드 신호와 출력 사운드 신호를 주파수 대역으로 변환한다. 출력 사운드 신호는 전자 장치(100)에서 출력된 기본 사운드 신호이므로 기준 사운드 신호라고 칭할 수 있다. 즉, 전자 장치(100)는 입력 사운드 신호와 기준 사운드 신호를 주파수 대역으로 변환한다.The processor 120 controls each configuration of the electronic device 100 . In addition, the processor 120 may perform synchronization by acquiring a time difference between the sound signal input into the microphone and the sound signal output through the speaker. The processor 120 may perform an echo cancellation algorithm for removing an echo component after performing synchronization between the input sound signal and the output sound signal. Specifically, the processor 120 converts the sound signal input into the microphone and the output sound signal into a frequency band. Since the output sound signal is a basic sound signal output from the electronic device 100 , it may be referred to as a reference sound signal. That is, the electronic device 100 converts the input sound signal and the reference sound signal into a frequency band.
프로세서(120)는 변환된 입력 사운드 신호 및 기준 사운드 신호 중 하나의 사운드 신호를 기준으로 다른 하나의 사운드 신호를 시프트하여 두 개의 사운드 신호의 위상 간의 유사도를 획득한다. 예를 들어, 프로세서(120)는 기준 사운드 신호를 기준으로 하여 입력 사운드 신호를 시프트할 수 있다. 프로세서(120)는 사운드 신호의 블록 단위로 상술한 과정을 수행할 수 있다. 그리고, 프로세서(120)는 입력 사운드 신호와 기준 사운드 신호를 샘플링하고, 샘플 단위로 시프트할 수 있다. 일 실시 예로서, 사운드 신호의 블록 단위는 1초 간의 사운드 신호일 수 있다. 그리고, 프로세서(120)는 62.5us 단위로 샘플링할 수 있다. 이 경우, 프로세서(120)는 각각 16000개의 입력 사운드 신호 및 기준 사운드 신호의 샘플을 획득할 수 있다. 그리고, 프로세서(120)는 입력 사운드 신호를 한 샘플씩 시프트할 수 있다. 프로세서(120)는 한 샘플씩 시프트할 때마다 입력 사운드 신호와 기준 사운드 신호의 유사도를 획득할 수 있다. 예를 들어, 프로세서(120)는 입력 사운드 신호와 기준 사운드 신호를 컨벌루션 연산하여 유사도를 획득할 수 있다. 따라서, 프로세서(120)는 복수의 유사도를 획득할 수 있다. 그리고, 각 유사도 간의 시간 차는 62.5us일 수 있다. 즉, 한 샘플 간격만큼 시프트된 경우, 시간 차는 62.5us, 두 샘플 간격만큼 시프트된 경우, 시간 차는 125us일 수 있다.The processor 120 acquires a similarity between the phases of the two sound signals by shifting the other sound signal based on one of the converted input sound signal and the reference sound signal. For example, the processor 120 may shift the input sound signal with respect to the reference sound signal. The processor 120 may perform the above-described process in units of blocks of the sound signal. In addition, the processor 120 may sample the input sound signal and the reference sound signal, and may shift the sample in units of samples. As an embodiment, the block unit of the sound signal may be a sound signal for 1 second. In addition, the processor 120 may sample in units of 62.5 us. In this case, the processor 120 may acquire 16000 samples of the input sound signal and the reference sound signal, respectively. In addition, the processor 120 may shift the input sound signal by one sample. The processor 120 may acquire the similarity between the input sound signal and the reference sound signal every time one sample is shifted. For example, the processor 120 may obtain the similarity by performing a convolution operation on the input sound signal and the reference sound signal. Accordingly, the processor 120 may acquire a plurality of similarities. In addition, the time difference between the respective similarities may be 62.5 us. That is, when shifted by one sample interval, the time difference may be 62.5 us, and when shifted by two sample intervals, the time difference may be 125 us.
프로세서(120)는 획득된 복수의 유사도 중 가장 큰 값이 나타나는 유사도에 기 설정된 가중치를 적용하여 기 설정된 값을 획득할 수 있다. 예를 들어, 기 설정된 가중치는 0에서 1사이의 값일 수 있다. 프로세서(120)는 가장 큰 값의 유사도에 가중치를 적용하였지만, 가중치가 0에서 1사이이므로 가중치가 적용된 유사도는 원래 값보다 작아질 수 있다. 따라서, 유사도에 가중치가 적용된 기 설정된 값보다 큰 값의 유사도가 존재할 수 있다. 프로세서(120)는 획득된 복수의 유사도 중 기 설정된 값 이상의 유사도가 나타나는 시간 차를 외부 사운드 신호와 기준 사운드 신호의 시간 차의 후보군으로 추정하고, 신뢰성을 판단한다.The processor 120 may obtain a preset value by applying a preset weight to the similarity in which the largest value appears among the plurality of acquired similarities. For example, the preset weight may be a value between 0 and 1. The processor 120 applies a weight to the similarity of the largest value, but since the weight is between 0 and 1, the weighted similarity may be smaller than the original value. Accordingly, a similarity of a value greater than a preset value to which a weight is applied to the similarity may exist. The processor 120 estimates a time difference at which a similarity greater than or equal to a preset value among the plurality of obtained similarities appears as a candidate group of the time difference between the external sound signal and the reference sound signal, and determines reliability.
외부 환경에 따라 입력 사운드 신호는 다양한 형태로 입력될 수 있다. 따라서, 프로세서(120)는 다양한 형태로 입력된 입력 사운드 신호의 특성에 따라 신뢰성을 판단할 수 있다. 일 실시 예로서, 프로세서(120)는 추정된 후보군 중 유사도의 최대치가 나타나는 시간 차와 유사도의 최소치가 나타나는 시간 차의 간격이 기 설정된 값을 초과하는 경우, 추정된 후보군의 신뢰성이 인정되지 않는다고 판단할 수 있다. 이 경우, 프로세서(120)는 추정된 후보군의 시간 차의 데이터를 무시할 수 있다. 또는, 프로세서(120)는 추정된 후보군 중 기 설정된 값 이상의 유사도가 주기적으로 나타나는 경우, 기 설정된 값 이상의 유사도가 최초로 나타나는 시간 차를 신뢰성이 인정되는 시간 차로 식별할 수 있다. 또는, 프로세서(120)는 기 설정된 값 이상의 유사도가 반복적으로 나타나는 경우, 가장 큰 유사도가 나타나는 시간 차를 지연 시간으로 추정하고, 복수의 기 설정된 시간 단위마다 추정된 지연 시간의 분산을 획득할 수 있다. 프로세서(120)는 획득된 분산이 기 설정된 값 이하인 경우, 신뢰성이 인정되는 시간 차로 식별할 수 있다. 만일, 획득된 분산이 기 설정된 값을 초과하는 경우, 프로세서(120)는 추정된 지연 시간의 신뢰성이 인정되지 않는다고 판단하고 추정된 지연 시간의 데이터를 무시할 수 있다. 프로세서(120)는 사운드 신호의 블록 단위로 상술한 과정을 반복할 수 있다. 따라서, 전자 장치(100)가 하나의 블록에서 시간 차의 신뢰성이 인정되지 않는다고 판단하면, 다음 블록에서 상술한 과정을 반복하여 신뢰성이 인정되는 시간 차를 식별할 수 있다.The input sound signal may be input in various forms according to the external environment. Accordingly, the processor 120 may determine reliability according to characteristics of input sound signals input in various forms. As an embodiment, the processor 120 determines that the reliability of the estimated candidate group is not recognized when the interval between the time difference at which the maximum similarity appears and the time difference at which the minimum similarity appears among the estimated candidate groups exceeds a preset value. can do. In this case, the processor 120 may ignore the data of the time difference of the estimated candidate group. Alternatively, when a degree of similarity equal to or greater than a preset value periodically appears among the estimated candidate groups, the processor 120 may identify a time difference at which the degree of similarity equal to or greater than a preset value first appears as a time difference for which reliability is recognized. Alternatively, when a degree of similarity equal to or greater than a preset value repeatedly appears, the processor 120 may estimate a time difference at which the greatest similarity appears as a delay time, and obtain a variance of the estimated delay time for each of a plurality of preset time units. . When the obtained variance is less than or equal to a preset value, the processor 120 may identify a time difference for which reliability is recognized. If the obtained variance exceeds a preset value, the processor 120 may determine that the reliability of the estimated delay time is not recognized and ignore the data of the estimated delay time. The processor 120 may repeat the above-described process in units of blocks of the sound signal. Accordingly, if the electronic device 100 determines that the reliability of the time difference is not recognized in one block, it may identify the time difference in which the reliability is recognized by repeating the above-described process in the next block.
프로세서(120)는 신뢰성이 인정되는 경우, 후보군 중 하나의 시간 차를 외부 사운드 신호의 지연 시간으로 식별한다. 그리고, 프로세서(120)는 식별된 지연 시간에 기초하여 에코 성분을 제거할 수 있다.If the reliability is recognized, the processor 120 identifies a time difference between one of the candidate groups as a delay time of the external sound signal. Then, the processor 120 may cancel the echo component based on the identified delay time.
도 3은 본 개시의 일 실시 예에 따른 전자 장치의 구체적인 구성을 설명하는 블록도이다.3 is a block diagram illustrating a detailed configuration of an electronic device according to an embodiment of the present disclosure.
도 3을 참조하면, 전자 장치(100a)는 마이크(110), 프로세서(120), 입력 인터페이스(130), 통신 인터페이스(140), 카메라(150), 센서(160), 디스플레이(170), 스피커(180) 및 메모리(190)를 포함할 수 있다. 마이크(110)는 도 2에서 설명한 바와 동일하므로 구체적인 설명은 생략한다.Referring to FIG. 3 , the electronic device 100a includes a microphone 110 , a processor 120 , an input interface 130 , a communication interface 140 , a camera 150 , a sensor 160 , a display 170 , and a speaker. 180 and a memory 190 . Since the microphone 110 is the same as described in FIG. 2 , a detailed description thereof will be omitted.
입력 인터페이스(130)는 입력 인터페이스(130)는 사용자로부터 명령을 입력받을 수 있다. 또는, 입력 인터페이스(130)는 입출력 포트를 포함하여 데이터를 입력받거나 출력할 수 있다. 예를 들면, 입력 인터페이스(130)는 외부 스피커와 연결되고, 외부 스피커로 사운드 신호를 출력할 수 있다. 입력 인터페이스(130)가 입출력 포트를 포함하는 경우, 입출력 포트는 HDMI(High-Definition Multimedia Interface), DP(DisplayPort), RGB, DVI(Digital Visual Interface), USB(Universal Serial Bus), 썬더볼트, LAN, AUX 등의 포트를 포함할 수 있다. 입력 인터페이스(130)는 외부로부터 명령이나 데이터를 입력받는 기능을 수행하고, 입력부, 입력 모듈 등으로 불릴 수도 있다. 입력 인터페이스(130)가 입출력 기능을 수행하는 경우, 입출력부, 입출력 모듈 등으로 불릴 수도 있다.The input interface 130 may receive a command input from the user. Alternatively, the input interface 130 may receive or output data including an input/output port. For example, the input interface 130 may be connected to an external speaker and output a sound signal to the external speaker. When the input interface 130 includes an input/output port, the input/output port is HDMI (High-Definition Multimedia Interface), DP (DisplayPort), RGB, DVI (Digital Visual Interface), USB (Universal Serial Bus), Thunderbolt, LAN , and may include ports such as AUX. The input interface 130 performs a function of receiving a command or data from the outside, and may be referred to as an input unit, an input module, or the like. When the input interface 130 performs an input/output function, it may be referred to as an input/output unit, an input/output module, or the like.
통신 인터페이스(140)는 통신 인터페이스(140)는 외부 장치와 통신을 수행할 수 있다. 통신 인터페이스(140)는 외부 장치와 유무선 통신 방식을 이용하여 데이터를 송수신할 수 있다. 예를 들어, 통신 인터페이스(140)는 3G, LTE(Long Term Evolution), 5G, 와이파이, 블루투스, DMB(Digital Multimedia Broadcasting), ATSC(Advanced Television Systems Committee), DVB(Digital Video Broadcasting), LAN(Local Area Network) 등의 방식으로 통신을 수행할 수 있는 모듈을 포함할 수 있다. 외부 장치와 통신을 수행하는 통신 인터페이스(140)는 통신부, 통신 모듈, 송수신부 등으로 불릴 수도 있다. 통신 인터페이스(140)는 외부 장치로부터 컨텐츠 또는 데이터 등을 수신할 수 있다.The communication interface 140 may communicate with an external device. The communication interface 140 may transmit/receive data to and from an external device using a wired/wireless communication method. For example, the communication interface 140 may include 3G, Long Term Evolution (LTE), 5G, Wi-Fi, Bluetooth, Digital Multimedia Broadcasting (DMB), Advanced Television Systems Committee (ATSC), Digital Video Broadcasting (DVB), and Local Area Network (LAN). It may include a module capable of performing communication in a manner such as an area network). The communication interface 140 performing communication with an external device may be referred to as a communication unit, a communication module, a transceiver, or the like. The communication interface 140 may receive content or data from an external device.
카메라(150)는 전자 장치(100a)의 주변 환경을 촬영할 수 있다. 또는, 카메라(150)는 사용자의 표정이나 동작 등을 촬영할 수 있다. 프로세서(120)는 촬영된 사용자의 표정이나 동작에 기초하여 제어 명령을 인식하고, 인식된 제어 명령에 대응되는 제어 동작을 수행할 수 있다. 예를 들어, 카메라(150)는 CCD 센서, CMOS 센서를 포함할 수 있다. 또한, 카메라(140)는 RGB 카메라, 뎁스 카메라를 포함할 수도 있다.The camera 150 may photograph the surrounding environment of the electronic device 100a. Alternatively, the camera 150 may photograph the user's facial expression or motion. The processor 120 may recognize a control command based on the captured user's facial expression or motion, and perform a control operation corresponding to the recognized control command. For example, the camera 150 may include a CCD sensor or a CMOS sensor. Also, the camera 140 may include an RGB camera and a depth camera.
센서(160)는 전자 장치(100a) 주변의 물체를 감지할 수 있다. 프로세서(120)는 감지된 신호에 기초하여 제어 명령을 인식하고, 인식된 제어 명령에 대응되는 제어 동작을 수행할 수 있다. 또한, 센서(160)는 전자 장치(100a)의 주변 환경 정보를 감지할 수 있다. 프로세서(120)는 센서(160)에서 감지된 주변 환경 정보에 기초하여 대응되는 제어 동작을 수행할 수 있다. 예를 들어, 센서(160)는 가속도 센서, 중력 센서, 자이로 센서, 지자기 센서, 방향 센서, 모션 인식 센서, 근접 센서, 전압계, 전류계, 기압계, 습도계, 온도계, 조도 센서, 열 감지 센서, 터치 센서, 적외선 센서, 초음파 센서 등을 포함할 수 있다.The sensor 160 may detect an object around the electronic device 100a. The processor 120 may recognize a control command based on the sensed signal and perform a control operation corresponding to the recognized control command. In addition, the sensor 160 may sense surrounding environment information of the electronic device 100a. The processor 120 may perform a corresponding control operation based on the surrounding environment information sensed by the sensor 160 . For example, the sensor 160 may include an acceleration sensor, a gravity sensor, a gyro sensor, a geomagnetic sensor, a direction sensor, a motion recognition sensor, a proximity sensor, a voltmeter, an ammeter, a barometer, a hygrometer, a thermometer, an illuminance sensor, a heat sensor, and a touch sensor. , an infrared sensor, an ultrasonic sensor, and the like.
디스플레이(170)는 프로세서(120)에서 처리된 데이터를 영상으로 출력할 수 있다. 예를 들어, 디스플레이(170)는 LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diode), QLED(Quantum dot Light Emitting Diode), 마이크로 LED(Micro LED), 플렉서블 디스플레이, 터치 스크린 등으로 구현될 수 있다. 한편, 디스플레이(170)는 구동 방식에 따라 AM(Active Matrix)(e.g. AM-OLED) 방식 또는 PM(Passive Matrix)(e.g. PM-OLED) 방식으로 분류될 수 있다.The display 170 may output the data processed by the processor 120 as an image. For example, the display 170 may be implemented as a liquid crystal display (LCD), an organic light emitting diode (OLED), a quantum dot light emitting diode (QLED), a micro LED, a flexible display, a touch screen, etc. have. Meanwhile, the display 170 may be classified into an AM (Active Matrix) (e.g. AM-OLED) method or a PM (Passive Matrix) (e.g. PM-OLED) method according to a driving method.
디스플레이(170)가 터치 스크린으로 구현되는 경우, 전자 장치(100a)는 터치 스크린을 통해 제어 명령을 입력받을 수 있다.When the display 170 is implemented as a touch screen, the electronic device 100a may receive a control command through the touch screen.
스피커(180)(내부 스피커)는 음성 처리가 수행된 음성 신호를 출력한다. 본 개시는 전자 장치(100a)와 외부 스피커가 연결된 실시 예를 설명하고 있으나, 내부 스피커로 사운드 신호를 출력할 때에도 적용될 수 있다. 한편, 스피커(180)는 사용자의 입력 명령, 전자 장치(100a)의 상태 관련 정보 또는 동작 관련 정보 등을 음성이나 알림음으로 출력할 수 있다.The speaker 180 (internal speaker) outputs an audio signal on which audio processing has been performed. Although the present disclosure describes an embodiment in which the electronic device 100a and an external speaker are connected, the present disclosure may also be applied to outputting a sound signal through the internal speaker. Meanwhile, the speaker 180 may output a user's input command, status-related information or operation-related information of the electronic device 100a as a voice or a notification sound.
메모리(190)는 전자 장치(100a)의 기능을 수행하는 데이터, 알고리즘 등을 저장하고, 전자 장치(100a)에서 구동되는 프로그램, 명령어 등을 저장할 수 있다. 메모리(190)에 저장된 알고리즘은 프로세서(120)의 제어에 의해 프로세서(120)에 로딩되어 입력 사운드 신호와 기준 사운드 신호 간의 지연 시간을 식별하고, 에코 성분을 제거할 수 있다. 예를 들어, 메모리(190)는 롬, 램, HDD, SSD, 메모리 카드 등의 타입으로 구현될 수 있다.The memory 190 may store data, algorithms, etc. that perform a function of the electronic device 100a , and may store programs and commands driven by the electronic device 100a . The algorithm stored in the memory 190 may be loaded into the processor 120 under the control of the processor 120 to identify a delay time between the input sound signal and the reference sound signal, and to remove the echo component. For example, the memory 190 may be implemented as a type of ROM, RAM, HDD, SSD, memory card, or the like.
전자 장치(100a)는 상술한 구성을 모두 포함할 수 있고, 일부 구성만을 포함할 수도 있다. 또한, 전자 장치(100a)는 상술한 구성 이외에도 다양한 기능을 수행하는 다른 구성을 더 포함할 수도 있다. 지금까지 전자 장치(100a)의 구성을 설명하였다. 아래에서는 추정된 지연 시간의 신뢰성을 판단하는 방법을 설명한다.The electronic device 100a may include all of the above-described components or may include only some components. In addition, the electronic device 100a may further include other components that perform various functions in addition to the above-described components. So far, the configuration of the electronic device 100a has been described. Hereinafter, a method of determining the reliability of the estimated delay time will be described.
도 4는 본 개시의 일 실시 예에 따른 에코 성분을 제거하는 과정을 설명하는 도면이다.4 is a view for explaining a process of removing an echo component according to an embodiment of the present disclosure.
도 4를 참조하면, 프로세서는 마이크로 입력된 사운드 신호 및 기준 사운드 신호를 입력받을 수 있다(S410, S420). 프로세서는 입력 사운드 신호와 기준 사운드 신호에 기초하여 지연 시간을 추정할 수 있다(S430). 구체적으로, 프로세서는 입력 사운드 신호와 기준 사운드 신호를 주파수 대역으로 변환할 수 있다. 그리고, 프로세서는 하나의 사운드 신호를 기준으로 다른 사운드 신호를 시프트하여 유사도를 획득할 수 있다. 프로세서는 가장 큰 값이 나타나는 유사도에 가중치를 적용하여 기 설정된 값을 획득할 수 있다. 예를 들어, 가중치는 0에서 1사이의 값일 수 있다. 프로세서는 획득된 기 설정된 값보다 큰 값의 유사도를 시간 차의 후보군으로 추정할 수 있다. 프로세서는 후보군에 대해 시간 대역으로 변환하고 피크치를 식별할 수 있다. 프로세서는 후보군 중 하나의 시간 차를 입력 사운드 신호와 출력 사운드 신호의 지연 시간으로 추정하고 추정된 지연 시간에 대한 신뢰성을 판단할 수 있다. 프로세서는 추정된 지연 시간에 대해 신뢰성이 인정되지 않는다고 판단하면, 데이터를 무시할 수 있다. 반면에, 프로세서는 추정된 지연 시간에 대해 신뢰성이 인정된다고 판단하면, 지연 시간 보상 모듈의 버퍼에 저장할 수 있다(S440).Referring to FIG. 4 , the processor may receive a sound signal input through a microphone and a reference sound signal ( S410 and S420 ). The processor may estimate the delay time based on the input sound signal and the reference sound signal (S430). Specifically, the processor may convert the input sound signal and the reference sound signal into a frequency band. In addition, the processor may obtain similarity by shifting another sound signal based on one sound signal. The processor may obtain a preset value by applying a weight to the degree of similarity in which the largest value appears. For example, the weight may be a value between 0 and 1. The processor may estimate a similarity of a value greater than the obtained preset value as a candidate group for the time difference. The processor may convert to a time band for the candidate group and identify peak values. The processor may estimate a time difference of one of the candidate groups as a delay time between the input sound signal and the output sound signal, and determine reliability of the estimated delay time. If the processor determines that the reliability of the estimated delay time is not acceptable, it may ignore the data. On the other hand, if the processor determines that reliability of the estimated delay time is recognized, it may store the value in the buffer of the delay time compensation module (S440).
프로세서는 신뢰성이 인정된 지연 시간에 기초하여 에코 성분 제거 과정을 수행할 수 있다(S450).The processor may perform an echo component cancellation process based on the delay time for which reliability is recognized ( S450 ).
도 5는 마이크로 입력된 사운드 신호에 위상 정보가 불충분할 때 시간 지연의 신뢰성을 판단하는 일 실시 예이다.5 is an embodiment of determining reliability of a time delay when phase information is insufficient in a sound signal input into a microphone.
마이크로 입력되는 사운드 신호에 지연 시간을 산출할 수 있을 정도의 충분한 위상 정보가 포함되지 않을 수 있다. 예를 들어, 스피커의 출력 볼륨이 작거나 스피커의 출력보다 외부 노이즈가 큰 경우, 입력 사운드 신호에 충분한 위상 정보가 포함되지 않을 수 있다. 입력 사운드 신호에 충분한 위상 정보가 없는 경우, 가장 큰 유사도가 다른 유사도에 비해 높은 값을 나타내지 못할 수 있다. 따라서, 가장 큰 값의 유사도에 상술한 가중치를 적용하여 기 설정된 값을 획득하는 경우, 기 설정된 값보다 큰 유사도가 많이 나타날 수 있다. 즉, 입력 사운드 신호와 기준 사운드 신호 간에 뚜렷한 유사도가 나타나지 않고, 도 5에 도시된 바와 같이 기 설정된 값보다 큰 유사도가 빈번히 나타날 수 있다. 이 경우, 기 설정된 값 이상의 유사도 중 최대값의 유사도가 나타나는 시간 차와 최소값의 유사도가 나타나는 시간 차의 간격은 매우 넓어질 수 있다. 따라서, 최대값의 유사도가 나타나는 시간 차와 최소값의 유사도가 나타나는 시간 차의 간격이 기 설정된 값을 초과하는 경우, 전자 장치는 입력 사운드 신호에 충분한 위상 정보가 포함되지 않았다고 판단하고, 추정된 지연 시간에 대해 신뢰성이 없다고 판단할 수 있다. 전자 장치는 신뢰성이 없다고 판단된 데이터를 무시할 수 있다.The sound signal input to the microphone may not include enough phase information to calculate the delay time. For example, when the output volume of the speaker is small or the external noise is greater than the output of the speaker, sufficient phase information may not be included in the input sound signal. If the input sound signal does not have sufficient phase information, the highest similarity may not represent a high value compared to other similarities. Accordingly, when a preset value is obtained by applying the above-described weight to the similarity of the largest value, a greater degree of similarity than the preset value may appear. That is, there is no clear similarity between the input sound signal and the reference sound signal, and a similarity greater than a preset value may frequently appear as shown in FIG. 5 . In this case, the interval between the time difference at which the maximum degree of similarity appears and the time difference at which the minimum degree of similarity appears among similarities greater than or equal to a preset value may be very wide. Accordingly, when the interval between the time difference at which the maximum degree of similarity appears and the time difference at which the minimum level of similarity appears exceeds a preset value, the electronic device determines that sufficient phase information is not included in the input sound signal, and the estimated delay time can be judged to be unreliable. The electronic device may ignore data determined to be unreliable.
상술한 바와 같이, 전자 장치는 일정한 사운드 신호의 블록 단위로 지연 시간을 추정하고 신뢰성을 판단할 수 있다. 따라서, 전자 장치는 해당 블록에서 신뢰성이 없다고 판단하여 데이터를 무시하더라도 다음 블록에서 신뢰성을 판단하고 지연 시간을 산출할 수 있다.As described above, the electronic device may estimate the delay time in units of blocks of a predetermined sound signal and determine reliability. Accordingly, even if the electronic device determines that there is no reliability in the corresponding block and ignores the data, the electronic device may determine the reliability in the next block and calculate the delay time.
도 6은 반향되어 입력된 사운드 신호에 대한 시간 지연의 신뢰성을 판단하는 일 실시 예이다.6 is an embodiment of determining reliability of a time delay for a sound signal inputted after being echoed.
전자 장치가 내부 공간에 위치하는 경우, 스피커로 출력된 사운드 신호는 벽면 등에 반사되어 마이크로 입력될 수 있다. 즉, 전자 장치가 반향 효과가 큰 공간에 위치하는 경우, 스피커로 출력된 사운드 신호는 주기적으로 마이크를 통해 입력될 수 있다. 반향된 입력 사운드 신호에 의해 유사도가 크게 측정되는 경우, 전자 장치는 잘못된 지연 시간을 추정할 수 있다. 따라서, 본 개시에서는 입력 사운드 형태에 기초하여 반향 입력 사운드 신호가 입력되는 경우, 최초 입력 사운드 신호를 지연 시간으로 식별할 수 있다.When the electronic device is located in the interior space, a sound signal output from the speaker may be reflected on a wall or the like and input into a microphone. That is, when the electronic device is located in a space having a large reverberation effect, the sound signal output to the speaker may be periodically input through the microphone. When the similarity is significantly measured by the reflected input sound signal, the electronic device may estimate an erroneous delay time. Accordingly, in the present disclosure, when the echo input sound signal is input based on the input sound shape, the initial input sound signal may be identified as a delay time.
전자 장치는 상술한 바와 동일하게 기 설정된 값을 획득하고, 기 설정된 값보다 큰 유사도가 나타나는 시간 차를 지연 시간의 후보군으로 식별할 수 있다. 반향된 사운드 신호는 일정한 주기로 큰 유사도로 나타난 수 있다. 따라서, 기 설정된 값 보다 큰 유사도가 주기적으로 나타나는 경우, 도 6에 도시된 바와 같이 전자 장치는 가장 빠른 유사도가 나타나는 시간 차(τ)를 지연 시간으로 식별할 수 있다.The electronic device may obtain a preset value in the same manner as described above, and identify a time difference in which a similarity greater than the preset value appears as a candidate group for delay time. The echoed sound signal may appear with a high degree of similarity at regular intervals. Accordingly, when a similarity greater than a preset value periodically appears, as shown in FIG. 6 , the electronic device may identify a time difference τ at which the earliest similarity appears as a delay time.
도 7은 외부 노이즈가 함께 입력된 사운드 신호에 대한 시간 지연의 신뢰성을 판단하는 일 실시 예이다.7 is an embodiment of determining reliability of a time delay with respect to a sound signal input with external noise.
마이크를 통해 사운드 신호와 함께 주기적인 외부 노이즈가 포함되는 경우, 산출된 유사도는 노이즈의 주기에 따라 상승될 수 있다. 그러나, 노이즈에 따라 상승된 유사도는 정확한 시간 지연이라고 할 수 없다. 따라서, 전자 장치는 각 사운드 블록에서 측정된 지연 시간의 분산을 산출할 수 있다. 그리고, 전자 장치는 산출된 분산이 일정한 값 이하인 경우, 입력 사운드 신호와 기준 사운드 신호 간의 지연 시간으로 판단할 수 있다. 즉, 전자 장치는 입력 사운드 신호와 기준 사운드 신호 간의 지연 시간이 수렴하는 경우에만 추정된 지연 시간에 신뢰성을 인정할 수 있다.When periodic external noise is included with the sound signal through the microphone, the calculated similarity may be increased according to the period of the noise. However, the similarity increased due to noise is not an accurate time delay. Accordingly, the electronic device may calculate the variance of the delay times measured in each sound block. And, when the calculated variance is equal to or less than a certain value, the electronic device may determine the delay time between the input sound signal and the reference sound signal. That is, the electronic device may recognize reliability of the estimated delay time only when the delay times between the input sound signal and the reference sound signal converge.
도 6과 도 7은 기준 사운드 신호를 기준으로 입력 사운드 신호가 주기적인지 여부에 차이가 있다. 예를 들어, 도 6의 경우, 반향된 사운드 신호도 주기적으로 마이크로 입력될 수 있다.6 and 7 are different in whether the input sound signal is periodic with respect to the reference sound signal. For example, in the case of FIG. 6 , the echoed sound signal may also be periodically input into the microphone.
그러나, 반향된 사운드 신호는 출력된 사운드 시점과 경로에 따라 주기적으로 입력되기 때문에 높은 유사도가 주기적으로 나타날 수 있다. 일 실시 예로서, 출력 사운드 신호가 0초, 1초, 2초에 출력되었고, 반향 사운드 신호가 0.7초 후에 마이크로 입력된다면, 기준 사운드 신호의 0.7초, 1.7초, 2.7초마다 큰 값의 유사도가 나타날 수 있다. 즉, 도 6의 경우 기준 사운드 신호를 기준으로 일정한 주기로 큰 값의 유사도가 나타날 수 있다. 따라서, 전자 장치는 기 설정된 값보다 큰 유사도가 나타나는 시간 차를 지연 시간으로 식별할 수 있다.However, since the reflected sound signal is periodically input according to the output sound time point and path, a high similarity may appear periodically. As an embodiment, if the output sound signal is output at 0 seconds, 1 second, and 2 seconds, and the echo sound signal is input to the microphone after 0.7 seconds, the similarity of a large value every 0.7 seconds, 1.7 seconds, and 2.7 seconds of the reference sound signal may appear That is, in the case of FIG. 6 , a large degree of similarity may appear at a constant period based on the reference sound signal. Accordingly, the electronic device may identify a time difference in which a similarity greater than a preset value appears as a delay time.
반면에, 외부 사운드 신호는 기준 사운드 신호와 무관하게 나타날 수 있다. 일 실시 예로서, 출력 사운드 신호가 0초, 1초, 2초에 출력되었고, 주기적인 외부 노이즈는 0.7초마다 마이크로 입력된다면, 기준 사운드 신호의 0.7초, 1.4초, 2.1초마다 큰 값의 유사도가 나타날 수 있다. 즉, 도 7의 경우 기준 사운드 신호를 기준으로 비주기적으로 큰 값의 유사도가 나타날 수 있다. 따라서, 기 설정된 값 이상의 유사도가 반복적으로 나타나는 경우, 전자 장치는 가장 큰 유사도가 나타나는 시간 차를 지연 시간으로 추정하고, 복수의 기 설정된 시간 단위마다 추정된 지연 시간의 분산을 획득할 수 있다. 그리고, 전자 장치는 획득된 분산이 기 설정된 값 이하인 경우 신뢰성이 인정되는 시간 차로 식별할 수 있다. 또는, 전자 장치는 획득된 분산이 기 설정된 값을 초과하는 경우, 추정된 지연 시간의 신뢰성이 인정되지 않는다고 판단하고 추정된 지연 시간의 데이터를 무시할 수 있다. 전자 장치는 상술한 과정을 통해 외 부 스피커의 연결 방식, 위치 등에 상관없이 정확한 지연 시간을 획득할 수 있다.On the other hand, the external sound signal may appear independent of the reference sound signal. As an embodiment, if the output sound signal is output at 0 sec, 1 sec, and 2 sec, and periodic external noise is input into the microphone every 0.7 sec, the similarity of a large value every 0.7 sec, 1.4 sec, and 2.1 sec of the reference sound signal may appear. That is, in the case of FIG. 7 , a similarity of a large value may appear aperiodically with respect to the reference sound signal. Accordingly, when a similarity equal to or greater than a preset value is repeatedly displayed, the electronic device may estimate a time difference at which the greatest similarity appears as a delay time, and may obtain a variance of the estimated delay time for each of a plurality of preset time units. And, when the obtained variance is less than or equal to a preset value, the electronic device may identify a time difference for which reliability is recognized. Alternatively, when the obtained variance exceeds a preset value, the electronic device may determine that the reliability of the estimated delay time is not recognized and ignore the data of the estimated delay time. Through the above-described process, the electronic device may acquire an accurate delay time regardless of a connection method or location of an external speaker.
도 8은 본 개시의 일 실시 예에 따른 전자 장치의 동작을 설명하는 도면이다.8 is a view for explaining an operation of an electronic device according to an embodiment of the present disclosure.
도 8을 참조하면, 외부 스피커(10)와 연결된 전자 장치(100)가 도시되어 있다. 전자 장치(100)는 외부 스피커(10)를 통해 사운드 신호를 출력할 수 있다. 외부 스피커(10)로 출력된 사운드 신호는 전자 장치(100)의 마이크로 입력될 수 있다. 전자 장치(100)는 기준 사운드 신호와 입력 사운드 신호 간의 지연 시간을 식별할 수 있다. 전자 장치(100)는 기준 사운드 신호와 입력 사운드 신호 중 하나의 사운드 신호를 기반으로 다른 하나의 사운드 신호를 시프트하여 두 개의 사운드 신호의 위상 간의 복수의 유사도를 획득할 수 있다. 전자 장치(100)는 획득된 복수의 유사도 중 기 설정된 값 이상의 유사도가 나타나는 시간 차를 입력 사운드 신호와 기준 사운드 신호의 시간 차의 후보군으로 추정할 수 있다. 전자 장치(100)는 추정된 후보군의 신뢰성을 판단하고, 신뢰성이 인정되는 경우 후보군 중 하나의 시간 차를 지연 시간으로 식별할 수 있다.Referring to FIG. 8 , the electronic device 100 connected to the external speaker 10 is illustrated. The electronic device 100 may output a sound signal through the external speaker 10 . The sound signal output to the external speaker 10 may be input to the microphone of the electronic device 100 . The electronic device 100 may identify a delay time between the reference sound signal and the input sound signal. The electronic device 100 may acquire a plurality of similarities between phases of the two sound signals by shifting the other sound signal based on one of the reference sound signal and the input sound signal. The electronic device 100 may estimate a time difference at which a similarity greater than or equal to a preset value among the plurality of obtained similarities appears as a candidate group of the time difference between the input sound signal and the reference sound signal. The electronic device 100 may determine the reliability of the estimated candidate group, and when the reliability is recognized, the electronic device 100 may identify a time difference between one of the candidate groups as a delay time.
만일, 입력 사운드 신호에 위상 정보가 충분히 포함되지 않는 경우, 기 설정된 값보다 큰 유사도가 빈번히 나타날 수 있다. 전자 장치(100)는 기 설정된 값 이상의 유사도 중 최대값의 유사도가 나타나는 시간 차와 최소값의 유사도가 나타나는 시간 차의 간격이 기 설정된 값을 초과하는 경우, 신뢰성이 없다고 판단하여 시간 차와 관련된 데이터를 무시할 수 있다.If the input sound signal does not sufficiently include phase information, a similarity greater than a preset value may frequently appear. When the interval between the time difference at which the maximum degree of similarity appears and the time difference at which the minimum degree of similarity appears among the similarities greater than or equal to a preset value exceeds a preset value, the electronic device 100 determines that there is no reliability and collects data related to the time difference. can be ignored
도 8에 도시된 바와 같이, 마이크를 통해 반향된 사운드 신호가 입력되는 경우, 기준 사운드 신호를 기준으로 입력 사운드 신호는 주기성을 나타낼 수 있다. 전자 장치는 기 설정된 값보다 큰 유사도가 최초로 나타나는 시간 차를 지연 시간으로 식별할 수 있다.As shown in FIG. 8 , when a sound signal reflected through a microphone is input, the input sound signal may exhibit periodicity based on the reference sound signal. The electronic device may identify a time difference at which a similarity greater than a preset value first appears as a delay time.
또는, 입력 사운드 신호와 함께 주기적인 노이즈가 포함되는 경우, 기 설정된 값 이상의 유사도가 반복적으로 나타날 수 있다. 전자 장치(100)는 가장 큰 유사도가 나타나는 시간 차를 지연 시간으로 추정하고, 복수의 사운드 신호의 블록 단위마다 추정된 지연 시간의 분산을 획득할 수 있다. 전자 장치(100)는 추정된 지연 시간이 수렴한다고 판단하는 경우, 신뢰성이 인정되는 시간 차로 판단하여 지연 시간으로 획득할 수 있다. 또는, 전자 장치(100)는 추정된 지연 시간이 발산한다고 판단하는 경우, 추정된 지연 시간의 신뢰성이 인정되지 않는다고 판단하여 추정된 시간 차와 관련된 데이터를 무시할 수 있다. 전자 장치(100)는 식별된 지연 시간에 기초하여 기준 사운드 신호와 입력 사운드 신호 간의 시간 지연 보상을 수행할 수 있다. Alternatively, when periodic noise is included with the input sound signal, a similarity greater than or equal to a preset value may repeatedly appear. The electronic device 100 may estimate a time difference in which the greatest similarity occurs as a delay time, and may obtain a variance of the estimated delay times for each block of a plurality of sound signals. When it is determined that the estimated delay time converges, the electronic device 100 may determine a time difference for which reliability is recognized and obtain the delay time. Alternatively, when determining that the estimated delay time diverges, the electronic device 100 may determine that reliability of the estimated delay time is not recognized and ignore data related to the estimated time difference. The electronic device 100 may perform time delay compensation between the reference sound signal and the input sound signal based on the identified delay time.
전자 장치(100)는 사용자로부터 음성 명령을 입력받을 수 있다(S810). 전자 장치(100)는 상술한 과정을 통해 입력 사운드 신호(에코 성분)를 제거할 수 있다(S820). 즉, 전자 장치(100)는 사용자의 음성 신호와 입력 사운드 신호를 입력받고, 입력 사운드 신호를 제거하기 때문에 사용자의 음성 명령을 정확하게 인식할 수 있다. 전자 장치(100)는 인식된 사용자의 음성 명령에 대응되는 동작을 수행할 수 있다.The electronic device 100 may receive a voice command from the user (S810). The electronic device 100 may remove the input sound signal (echo component) through the above-described process (S820). That is, since the electronic device 100 receives the user's voice signal and the input sound signal and removes the input sound signal, the electronic device 100 may accurately recognize the user's voice command. The electronic device 100 may perform an operation corresponding to the recognized user's voice command.
지금까지 에코 성분을 제거하는 다양한 실시 예를 설명하였다. 아래에서는 전자 장치의 제어 방법을 설명한다.So far, various examples of removing the echo component have been described. Hereinafter, a method of controlling the electronic device will be described.
도 9는 본 개시의 일 실시 예에 따른 전자 장치의 제어 방법을 설명하는 흐름도이다.9 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present disclosure.
도 9를 참조하면, 전자 장치는 주파수 대역으로 변환된 외부 사운드 신호 및 주파수 대역으로 변환된 기준 사운드 신호 중 하나의 사운드 신호를 기초로 두 개의 사운드 신호의 위상 간의 복수의 유사도를 획득한다(S910). 예를 들어, 전자 장치는 변환된 외부 사운드 신호 및 변환된 기준 사운드 신호를 샘플링할 수 있다. 그리고, 전자 장치는 변환된 외부 사운드 신호 및 변환된 기준 사운드 신호 중 하나의 사운드 신호를 기준으로 다른 하나의 사운드 신호를 시프트할 수 있다. 전자 장치는 두 개의 사운드 신호를 컨벌루션 연산하여 두 개의 사운드 신호의 위상 간의 유사도를 획득할 수 있다. 전자 장치는 하나의 사운드 신호를 복수의 다른 시간으로 시프트하고, 각 시간에 따른 복수의 유사도를 획득할 수 있다.Referring to FIG. 9 , the electronic device acquires a plurality of similarities between phases of two sound signals based on one of an external sound signal converted to a frequency band and a reference sound signal converted to a frequency band ( S910 ) . For example, the electronic device may sample the converted external sound signal and the converted reference sound signal. In addition, the electronic device may shift the other sound signal based on one of the converted external sound signal and the converted reference sound signal. The electronic device may obtain a similarity between phases of the two sound signals by performing a convolution operation on the two sound signals. The electronic device may shift one sound signal to a plurality of different times and acquire a plurality of similarities according to each time.
전자 장치는 획득된 복수의 유사도의 신뢰성에 기초하여 외부 사운드 신호의 지연 시간을 식별한다(S920). 예를 들어, 전자 장치는 획득된 복수의 유사도 중 기 설정된 값 이상의 유사도가 나타나는 시간 차를 외부 사운드 신호와 기준 사운드 신호의 시간 차의 후보군으로 추정할 수 있다. 전자 장치는 획득된 복수의 유사도 중 가장 큰 값이 나타나는 유사도에 기 설정된 가중치를 적용하여 기 설정된 값을 획득할 수 있다. 일 실시 예로서, 기 설정된 가중치는 0에서 1사이의 값일 수 있다.The electronic device identifies the delay time of the external sound signal based on the obtained reliability of the plurality of similarities ( S920 ). For example, the electronic device may estimate a time difference at which a similarity greater than or equal to a preset value among the plurality of obtained similarities appears as a candidate group of the time difference between the external sound signal and the reference sound signal. The electronic device may acquire a preset value by applying a preset weight to a similarity in which the largest value appears among the plurality of acquired similarities. As an embodiment, the preset weight may be a value between 0 and 1.
전자 장치는 추정된 후보군의 신뢰성을 판단할 수 있다. 예를 들어, 전자 장치는 추정된 후보군 중 유사도의 최대치가 나타나는 시간 차와 유사도의 최소치가 나타나는 시간 차의 간격을 판단할 수 있다. 판단된 간격이 기 설정된 값을 초과하는 경우, 전자 장치는 추정된 후보군의 신뢰성이 인정되지 않는다고 판단하고, 추정된 후보군의 시간 차의 데이터를 무시할 수 있다. 또는, 전자 장치는 추정된 후보군 중 기 설정된 값 이상의 유사도가 주기적으로 나타나는 경우, 기 설정된 값 이상의 유사도가 최초로 나타나는 시간 차를 신뢰성이 인정되는 시간 차로 식별할 수 있다.The electronic device may determine the reliability of the estimated candidate group. For example, the electronic device may determine an interval between a time difference in which a maximum value of similarity appears and a time difference in which a minimum value of similarity appears among the estimated candidate groups. When the determined interval exceeds a preset value, the electronic device may determine that the reliability of the estimated candidate group is not recognized, and ignore data of the time difference of the estimated candidate group. Alternatively, when the degree of similarity equal to or greater than a preset value periodically appears among the estimated candidate groups, the electronic device may identify a time difference at which the degree of similarity equal to or greater than the preset value first appears as a time difference for which reliability is recognized.
또는, 전자 장치는 기 설정된 시간 단위에 기초하여 복수의 유사도를 획득할 수 있다. 예를 들어, 기 설정된 시간 단위는 일정한 시간의 사운드 신호의 블록일 수 있다. 그리고, 전자 장치는 기 설정된 값 이상의 유사도가 반복적으로 나타나는 경우, 가장 큰 유사도가 나타나는 시간 차를 지연 시간으로 추정할 수 있다. 그리고, 전자 장치는 복수의 기 설정된 시간 단위마다 추정된 지연 시간의 분산을 획득할 수 있다. 전자 장치는 획득된 분산이 기 설정된 값 이하인 경우, 신뢰성이 인정되는 시간 차로 식별할 수 있다. 반면에, 전자 장치는 획득된 분산이 기 설정된 값을 초과하는 경우, 추정된 지연 시간의 신뢰성이 인정되지 않는다고 판단하고 추정된 지연 시간의 데이터를 무시할 수 있다. Alternatively, the electronic device may acquire a plurality of similarities based on a preset time unit. For example, the preset time unit may be a block of a sound signal of a constant time. In addition, when the degree of similarity equal to or greater than a preset value repeatedly appears, the electronic device may estimate a time difference at which the greatest degree of similarity appears as a delay time. In addition, the electronic device may obtain a variance of the estimated delay time for each of a plurality of preset time units. When the obtained variance is less than or equal to a preset value, the electronic device may identify a time difference for which reliability is recognized. On the other hand, when the obtained variance exceeds a preset value, the electronic device may determine that the reliability of the estimated delay time is not recognized and ignore the data of the estimated delay time.
상술한 과정을 통해 전자 장치는 신뢰성이 인정되는 지연 시간을 식별할 수 있다. 전자 장치는 식별된 지연 시간에 기초하여 외부 사운드 신호와 기준 사운드 신호 간의 시간 지연 보상을 수행한다(S930).Through the above-described process, the electronic device may identify a delay time for which reliability is recognized. The electronic device performs time delay compensation between the external sound signal and the reference sound signal based on the identified delay time (S930).
도 10은 본 개시의 일 실시 예에 따른 구체적인 전자 장치의 제어 과정을 설명하는 흐름도이다.10 is a flowchart illustrating a specific electronic device control process according to an embodiment of the present disclosure.
도 10을 참조하면, 전자 장치는 마이크를 통해 외부 사운드 신호를 입력받을 수 있다(S1010). 마이크를 통해 입력되는 외부 사운드 신호는 스피커를 통해 출력된 사운드 신호일 수 있다. 전자 장치는 기 설정된 시간 단위마다 외부 사운드 신호 및 기준 사운드 신호를 주파수 대역으로 변환할 수 있다(S1020). 기준 사운드 신호는 전자 장치에서 출력되는 사운드 신호일 수 있다. 즉, 외부 사운드 신호와 기준 사운드 신호는 크기 차이 또는 시간 차이가 존재하는 동일한 사운드 신호일 수 있다. 일 실시 예로서, 전자 장치는 사운드 신호의 블록 단위로 외부 사운드 신호와 기준 사운드 신호를 주파수 대역으로 변환할 수 있다. 그리고, 사운드 신호의 블록은 1초 간격으로 설정될 수 있다.Referring to FIG. 10 , the electronic device may receive an external sound signal through a microphone ( S1010 ). The external sound signal input through the microphone may be a sound signal output through the speaker. The electronic device may convert the external sound signal and the reference sound signal into a frequency band for each preset time unit (S1020). The reference sound signal may be a sound signal output from the electronic device. That is, the external sound signal and the reference sound signal may be the same sound signal having a difference in magnitude or time. As an embodiment, the electronic device may convert the external sound signal and the reference sound signal into a frequency band in units of blocks of the sound signal. And, the block of the sound signal may be set at an interval of 1 second.
전자 장치는 주파수 대역으로 변환된 두 개의 사운드 신호의 위상 간의 복수의 유사도를 획득할 수 있다(S1030). 전자 장치는 하나의 사운드 신호를 시프트하고, 두 개의 사운드 신호를 컨벌루션하여 유사도를 획득할 수 있다. 상술한 바와 같이, 두 개의 사운드 신호는 시간 차이를 가지는 동일한 신호이므로 시간 차가 0이 되는 경우 가장 큰 유사도를 가질 수 있다. The electronic device may acquire a plurality of similarities between the phases of the two sound signals converted to the frequency band ( S1030 ). The electronic device may obtain similarity by shifting one sound signal and convolving the two sound signals. As described above, since two sound signals are the same signal having a time difference, when the time difference is 0, the two sound signals may have the greatest similarity.
전자 장치는 획득된 복수의 유사도 중 기 설정된 값 이상의 유사도 가 나타나는 시간 차를 외부 사운드 신호와 기준 사운드 신호의 시간 차의 후보군으로 추정하고(S1040), 추정된 후보군의 신뢰성을 판단할 수 있다(S1050). 상술한 바와 같이, 전자 장치는 유사도의 최대치가 나타나는 시간 차와 유사도의 최소치가 나타나는 시간 차의 간격에 기초하여 신뢰성을 판단할 수 있다. 또는, 전자 장치는 추정된 후보군 중 기 설정된 값 이상의 유사도의 주기성이나 반복성에 기초하여 신뢰성을 판단할 수 있다.The electronic device may estimate a time difference at which a similarity greater than or equal to a preset value among the plurality of obtained similarities appears as a candidate group of the time difference between the external sound signal and the reference sound signal (S1040), and determine the reliability of the estimated candidate group (S1050) ). As described above, the electronic device may determine reliability based on the interval between the time difference at which the maximum similarity appears and the time difference at which the minimum similarity appears. Alternatively, the electronic device may determine reliability based on the periodicity or repeatability of a similarity greater than or equal to a preset value among the estimated candidate groups.
전자 장치는 신뢰성이 인정되지 않는다고 판단하면, 추정된 후보군의 데이터를 무시(또는, 제거)할 수 있다(S1060). 전자 장치는 다음 기 설정된 시간 단위의 사운드 신호에 대해 상술한 과정을 반복하여 지연 시간 식별 과정을 수행할 수 있다.If it is determined that the reliability is not recognized, the electronic device may ignore (or remove) the data of the estimated candidate group (S1060). The electronic device may perform the delay time identification process by repeating the above-described process for the sound signal of the next preset time unit.
전자 장치는 신뢰성이 인정된다고 판단하면, 후보군 중 하나의 시간 차를 외부 사운드 신호의 지연 시간으로 식별하고(S1070), 식별된 지연 시간에 기초하여 외부 사운드 신호와 기준 사운드 신호 간의 시간 지연 보상을 수행할 수 있다(S1080). 시간 지연 보상은 외부 사운드 신호와 기준 사운드 신호 간의 동기화를 의미할 수 있다. 즉, 전자 장치는 외부 사운드 신호와 기준 사운드 신호 간에 동기화를 수행하고 에코 성분을 제거하기 위한 알고리즘을 실행할 수 있다.When the electronic device determines that reliability is recognized, the electronic device identifies a time difference of one of the candidate groups as the delay time of the external sound signal (S1070), and performs time delay compensation between the external sound signal and the reference sound signal based on the identified delay time You can (S1080). Time delay compensation may refer to synchronization between an external sound signal and a reference sound signal. That is, the electronic device may execute an algorithm for performing synchronization between the external sound signal and the reference sound signal and removing the echo component.
상술한 다양한 실시 예에 따른 전자 장치의 제어 방법은 컴퓨터 프로그램 제품으로 제공될 수도 있다. 컴퓨터 프로그램 제품은 S/W 프로그램 자체 또는 S/W 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)를 포함할 수 있다.The method for controlling an electronic device according to the above-described various embodiments may be provided as a computer program product. The computer program product may include the S/W program itself or a non-transitory computer readable medium in which the S/W program is stored.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다. The non-transitory readable medium refers to a medium that stores data semi-permanently, rather than a medium that stores data for a short moment, such as a register, cache, memory, and the like, and can be read by a device. Specifically, the various applications or programs described above may be provided by being stored in a non-transitory readable medium such as a CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM, and the like.
또한, 이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시가 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.In addition, although preferred embodiments of the present disclosure have been illustrated and described above, the present disclosure is not limited to the specific embodiments described above, and the technical field to which the disclosure belongs without departing from the gist of the present disclosure as claimed in the claims Various modifications may be made by those of ordinary skill in the art, and these modifications should not be individually understood from the technical spirit or perspective of the present disclosure.

Claims (15)

  1. 마이크; 및MIC; and
    프로세서;를 포함하고,processor; including;
    상기 프로세서는,The processor is
    주파수 대역으로 변환된 상기 마이크로 입력된 외부 사운드 신호 및 주파수 대역으로 변환된 기준 사운드 신호 중 하나의 사운드 신호를 기초로 두 개의 사운드 신호의 위상(phase) 간의 복수의 유사도를 획득하고,obtaining a plurality of similarities between phases of two sound signals based on one of an external sound signal input into the microphone converted into a frequency band and a reference sound signal converted into a frequency band,
    상기 획득된 복수의 유사도의 신뢰성(reliability)에 기초하여 상기 외부 사운드 신호의 지연 시간을 식별하며,identify a delay time of the external sound signal based on the reliability of the obtained plurality of similarities;
    상기 식별된 지연 시간에 기초하여 상기 외부 사운드 신호와 상기 기준 사운드 신호 간의 시간 지연 보상을 수행하는, 전자 장치.and performing time delay compensation between the external sound signal and the reference sound signal based on the identified delay time.
  2. 제1항에 있어서,According to claim 1,
    상기 프로세서는,The processor is
    상기 변환된 외부 사운드 신호 및 상기 변환된 기준 사운드 신호 중 하나의 사운드 신호를 기준으로 다른 하나의 사운드 신호를 시프트하여 두 개의 사운드 신호의 위상 간의 복수의 유사도를 획득하는, 전자 장치.and shifting the other sound signal based on one of the converted external sound signal and the converted reference sound signal to obtain a plurality of similarities between phases of the two sound signals.
  3. 제1항에 있어서,According to claim 1,
    상기 프로세서는,The processor is
    상기 획득된 복수의 유사도 중 기 설정된 값 이상의 유사도가 나타나는 시간 차를 외부 사운드 신호와 기준 사운드 신호의 시간 차의 후보군으로 추정하고, 상기 추정된 후보군의 신뢰성을 판단하며, 상기 신뢰성이 인정되는 경우 상기 후보군 중 하나의 시간 차를 상기 외부 사운드 신호의 지연 시간으로 식별하는, 전자 장치.Estimating a time difference at which a similarity greater than or equal to a preset value among the obtained plurality of similarities appears as a candidate group for a time difference between an external sound signal and a reference sound signal, determining the reliability of the estimated candidate group, and if the reliability is recognized, the An electronic device for identifying a time difference of one of the candidate groups as a delay time of the external sound signal.
  4. 제3항에 있어서,4. The method of claim 3,
    상기 프로세서는,The processor is
    상기 획득된 복수의 유사도 중 가장 큰 값이 나타나는 유사도에 기 설정된 가중치를 적용하여 상기 기 설정된 값을 획득하는, 전자 장치.and obtaining the preset value by applying a preset weight to a degree of similarity in which a largest value appears among the plurality of obtained similarities.
  5. 제4항에 있어서,5. The method of claim 4,
    상기 기 설정된 가중치는 0에서 1사이인, 전자 장치.The preset weight is between 0 and 1, the electronic device.
  6. 제3항에 있어서,4. The method of claim 3,
    상기 프로세서는,The processor is
    상기 추정된 후보군 중 유사도의 최대치가 나타나는 시간 차와 유사도의 최소치가 나타나는 시간 차의 간격이 기 설정된 값을 초과하는 경우, 상기 추정된 후보군의 신뢰성이 인정되지 않는다고 판단하고 상기 추정된 후보군의 시간 차의 데이터를 무시하는, 전자 장치.When the interval between the time difference at which the maximum similarity value appears and the time difference at the minimum similarity level appears among the estimated candidate groups exceeds a preset value, it is determined that the reliability of the estimated candidate group is not recognized and the time difference of the estimated candidate group Ignoring the data of the electronic device.
  7. 제3항에 있어서,4. The method of claim 3,
    상기 프로세서는,The processor is
    상기 추정된 후보군 중 상기 기 설정된 값 이상의 유사도가 주기적으로 나타나는 경우, 기 설정된 값 이상의 유사도가 최초로 나타나는 시간 차를 신뢰성이 인정되는 시간 차로 식별하는, 전자 장치.When the degree of similarity equal to or greater than the preset value periodically appears among the estimated candidate group, a time difference in which the degree of similarity equal to or greater than the preset value first appears is identified as a time difference in which reliability is recognized.
  8. 제3항에 있어서,4. The method of claim 3,
    상기 프로세서는,The processor is
    기 설정된 시간 단위에 기초하여 상기 복수의 유사도를 획득하는, 전자 장치.The electronic device is configured to acquire the plurality of similarities based on a preset time unit.
  9. 제8항에 있어서,9. The method of claim 8,
    상기 프로세서는,The processor is
    상기 기 설정된 값 이상의 유사도가 반복적으로 나타나는 경우, 가장 큰 유사도가 나타나는 시간 차를 상기 지연 시간으로 추정하고, 복수의 기 설정된 시간 단위마다 추정된 지연 시간의 분산을 획득하며, 상기 획득된 분산이 기 설정된 값 이하인 경우, 신뢰성이 인정되는 시간 차로 식별하는, 전자 장치.When the degree of similarity equal to or greater than the preset value repeatedly appears, a time difference at which the greatest similarity appears is estimated as the delay time, and a variance of the estimated delay time is obtained for each of a plurality of preset time units, and the obtained variance is When the value is less than or equal to a set value, the electronic device identifies a time difference for which reliability is recognized.
  10. 제9항에 있어서,10. The method of claim 9,
    상기 프로세서는,The processor is
    상기 획득된 분산이 기 설정된 값을 초과하는 경우, 상기 추정된 지연 시간의 신뢰성이 인정되지 않는다고 판단하고 상기 추정된 지연 시간의 데이터를 무시하는, 전자 장치.When the obtained variance exceeds a preset value, it is determined that reliability of the estimated delay time is not recognized and the data of the estimated delay time is ignored.
  11. 제1항에 있어서,According to claim 1,
    상기 프로세서는,The processor is
    상기 변환된 외부 사운드 신호 및 상기 변환된 기준 사운드 신호를 샘플링하고, 상기 샘플링된 외부 사운드 신호 및 상기 샘플링된 기준 사운드 신호에 기초하여 상기 복수의 유사도를 획득하는, 전자 장치.Sample the converted external sound signal and the converted reference sound signal, and obtain the plurality of similarities based on the sampled external sound signal and the sampled reference sound signal.
  12. 제1항에 있어서,The method of claim 1,
    상기 프로세서는,The processor is
    스피커로 사운드 신호를 출력하고,output a sound signal to the speaker,
    상기 스피커는 상기 전자 장치 외부에 위치하는 외부 스피커를 포함하는, 전자 장치.and the speaker includes an external speaker located outside the electronic device.
  13. 주파수 대역으로 변환된 외부 사운드 신호 및 주파수 대역으로 변환된 기준 사운드 신호 중 하나의 사운드 신호를 기초로 두 개의 사운드 신호의 위상(phase) 간의 복수의 유사도를 획득하는 단계;obtaining a plurality of similarities between phases of two sound signals based on one of an external sound signal converted into a frequency band and a reference sound signal converted into a frequency band;
    상기 획득된 복수의 유사도의 신뢰성(reliability)에 기초하여 상기 외부 사운드 신호의 지연 시간을 식별하는 단계; 및identifying a delay time of the external sound signal based on the obtained reliability of the plurality of similarities; and
    상기 식별된 지연 시간에 기초하여 상기 외부 사운드 신호와 상기 기준 사운드 신호 간의 시간 지연 보상을 수행하는 단계;를 포함하는 전자 장치의 제어 방법.and performing time delay compensation between the external sound signal and the reference sound signal based on the identified delay time.
  14. 제13항에 있어서,14. The method of claim 13,
    상기 복수의 유사도를 획득하는 단계는,The step of obtaining the plurality of similarities includes:
    상기 변환된 외부 사운드 신호 및 상기 변환된 기준 사운드 신호 중 하나의 사운드 신호를 기준으로 다른 하나의 사운드 신호를 시프트하여 두 개의 사운드 신호의 위상 간의 복수의 유사도를 획득하는, 전자 장치의 제어 방법.and shifting the other sound signal based on one of the converted external sound signal and the converted reference sound signal to obtain a plurality of similarities between phases of the two sound signals.
  15. 제13항에 있어서,14. The method of claim 13,
    상기 외부 사운드 신호의 지연 시간을 식별하는 단계는,The step of identifying the delay time of the external sound signal comprises:
    상기 획득된 복수의 유사도 중 기 설정된 값 이상의 유사도가 나타나는 시간 차를 외부 사운드 신호와 기준 사운드 신호의 시간 차의 후보군으로 추정하고, 상기 추정된 후보군의 신뢰성을 판단하며, 상기 신뢰성이 인정되는 경우 상기 후보군 중 하나의 시간 차를 상기 외부 사운드 신호의 지연 시간으로 식별하는, 전자 장치의 제어 방법.Estimate a time difference at which a similarity greater than or equal to a preset value among the obtained plurality of similarities appears as a candidate group for the time difference between an external sound signal and a reference sound signal, determine the reliability of the estimated candidate group, and if the reliability is recognized, the A method for controlling an electronic device, wherein a time difference of one of the candidate groups is identified as a delay time of the external sound signal.
PCT/KR2021/016653 2020-12-24 2021-11-15 Electronic device and control method thereof WO2022139177A1 (en)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2020-0183910 2020-12-24
KR20200183910 2020-12-24
KR10-2021-0040682 2021-03-29
KR1020210040682A KR20220092334A (en) 2020-12-24 2021-03-29 Electronic apparatus and cotrol method thereof

Publications (1)

Publication Number Publication Date
WO2022139177A1 true WO2022139177A1 (en) 2022-06-30

Family

ID=82158177

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/016653 WO2022139177A1 (en) 2020-12-24 2021-11-15 Electronic device and control method thereof

Country Status (1)

Country Link
WO (1) WO2022139177A1 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002247679A (en) * 2001-02-16 2002-08-30 Fukuda Gakuen Assembled-type microphone
KR20060050991A (en) * 2004-09-03 2006-05-19 하만 베커 오토모티브 시스템즈 게엠베하 Speech signal processing with combined noise reduction and echo compensation
JP2009100182A (en) * 2007-10-16 2009-05-07 Panasonic Electric Works Co Ltd Loudspeaker call device
US20090252343A1 (en) * 2008-04-07 2009-10-08 Sony Computer Entertainment Inc. Integrated latency detection and echo cancellation
JP2016032129A (en) * 2014-07-25 2016-03-07 日本電信電話株式会社 Delay time adjusting device, method and program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002247679A (en) * 2001-02-16 2002-08-30 Fukuda Gakuen Assembled-type microphone
KR20060050991A (en) * 2004-09-03 2006-05-19 하만 베커 오토모티브 시스템즈 게엠베하 Speech signal processing with combined noise reduction and echo compensation
JP2009100182A (en) * 2007-10-16 2009-05-07 Panasonic Electric Works Co Ltd Loudspeaker call device
US20090252343A1 (en) * 2008-04-07 2009-10-08 Sony Computer Entertainment Inc. Integrated latency detection and echo cancellation
JP2016032129A (en) * 2014-07-25 2016-03-07 日本電信電話株式会社 Delay time adjusting device, method and program

Similar Documents

Publication Publication Date Title
WO2017078361A1 (en) Electronic device and method for recognizing speech
WO2011068362A2 (en) Power control method of device controllable by user's gesture
WO2015030307A1 (en) Head mounted display device and method for controlling the same
WO2016089004A1 (en) Video wall system
WO2014142557A1 (en) Electronic device and method for processing image
WO2014175520A1 (en) Display apparatus for providing recommendation information and method thereof
WO2016093656A1 (en) Sound output device, sound output system, and control method thereof
WO2018151503A2 (en) Method and apparatus for gesture recognition
CN102006426A (en) Synchronization method and device for splicing system
WO2021002681A1 (en) Electronic device for recognizing object, and operating method thereof
WO2018012729A1 (en) Display device and text recognition method for display device
WO2015119326A1 (en) Display device and method for controlling the same
WO2018131770A1 (en) Electronic device and control method thereof
WO2020017759A1 (en) Electronic device for speech recognition and control method thereof
WO2022139177A1 (en) Electronic device and control method thereof
WO2016072610A1 (en) Recognition method and recognition device
WO2020080638A1 (en) Electronic device and control method therefor
WO2022139182A1 (en) Electronic device and method for controlling same
WO2020138909A1 (en) Content sharing method and electronic device therefor
WO2013180354A1 (en) Method and home device for outputting response to user input
WO2022191424A1 (en) Electronic device and control method therefor
WO2021085882A1 (en) Electronic apparatus and control method thereof
WO2021256760A1 (en) Movable electronic device and method for controlling same
KR20220092334A (en) Electronic apparatus and cotrol method thereof
WO2022025630A1 (en) Electronic device including distance sensor, and autofocusing method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21911244

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21911244

Country of ref document: EP

Kind code of ref document: A1