WO2022103222A1 - 전자 장치 및 이의 제어 방법 - Google Patents

전자 장치 및 이의 제어 방법 Download PDF

Info

Publication number
WO2022103222A1
WO2022103222A1 PCT/KR2021/016635 KR2021016635W WO2022103222A1 WO 2022103222 A1 WO2022103222 A1 WO 2022103222A1 KR 2021016635 W KR2021016635 W KR 2021016635W WO 2022103222 A1 WO2022103222 A1 WO 2022103222A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
information
electronic device
correction value
spatial
Prior art date
Application number
PCT/KR2021/016635
Other languages
English (en)
French (fr)
Inventor
위호석
최석재
황인우
김선민
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to EP21892389.4A priority Critical patent/EP4203502A4/en
Priority to US17/665,060 priority patent/US11974116B2/en
Publication of WO2022103222A1 publication Critical patent/WO2022103222A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field

Definitions

  • the present disclosure relates to an electronic device and a method for controlling the same, and more particularly, to an electronic device for correcting sound output from a sound output device according to spatial characteristics in which the electronic device including the sound output device is disposed, and a method for controlling the same will be.
  • the volume of the low frequency band becomes higher than necessary, which may cause a booming phenomenon in which a specific sound may not be heard well or a phenomenon in which the intelligibility of sound is excessively decreased due to objects around the sound source. Therefore, there is a need to perform sound correction optimized for each indoor installation condition.
  • An object of the present disclosure is to solve the above problems, and an object of the present disclosure is to correct the sound output according to the characteristics of the space in which the electronic device is automatically arranged without user intervention as the content is reproduced, and a method for controlling the same is to provide.
  • an electronic device outputs a sound and, when a sound output device including a circuit, a microphone, and content are selected, using a sound correction value to correspond to the content and a processor for controlling the sound output device to output a sound signal, wherein the processor includes: when the sound corresponding to the content is output from the sound output device and input to the microphone, characteristic information from the sound input to the microphone , calculates a sound correction value based on the extracted feature information, and updates the sound correction value with the calculated sound correction value.
  • the electronic device further includes a memory for storing a plurality of spatial information and characteristic information for each of the plurality of spatial information, and the processor is configured to use the extracted characteristic information and the stored characteristic information in the plurality of spaces One of the information may be selected and the sound correction value may be updated with a sound correction value corresponding to the selected spatial information.
  • the electronic device further includes a memory for storing a learning model for identifying a spatial feature corresponding to the input when the feature information is input, the processor, the electronic device using the extracted feature information and the learning model
  • the located spatial feature may be identified, and the sound correction value may be updated using a sound correction value corresponding to the identified spatial feature.
  • the space feature may include at least one of information on an installation form of the electronic device in the space, distance information between the electronic device and the wall, and information on the sound absorption level of the space.
  • the processor may identify a spatial feature in which the electronic device is located based on at least one of signal pattern information for a frequency domain and signal pattern information for a time domain of the extracted feature information.
  • the processor may extract characteristic information from the sound input to the microphone based on a sound signal corresponding to the content and an output volume value of the sound output device.
  • the processor may extract feature information from the sound input to the microphone by applying at least one of an adaptive filter, an optimal filter, and blind audio source separation (BASS).
  • an adaptive filter an optimal filter
  • BASS blind audio source separation
  • the electronic device may further include a main body and a display disposed on the front surface of the main body and displaying an image corresponding to the content.
  • the method of controlling an electronic device includes, when content is selected, outputting a sound signal corresponding to the content through a sound output device by using a sound correction value, wherein the content corresponding to the content is output.
  • a sound correction value wherein the content corresponding to the content is output.
  • the method further includes the step of storing a plurality of spatial information and the characteristic information for each of the plurality of spatial information, and the updating includes: one of the plurality of spatial information using the extracted characteristic information and the stored characteristic information.
  • One may be selected and the sound correction value may be updated with a sound correction value corresponding to the selected spatial information.
  • the method further comprises the step of storing a learning model for identifying a spatial feature corresponding to the input of feature information, wherein the calculating of the correction value includes the electronic data using the extracted feature information and the learning model.
  • the method may further include identifying a spatial feature in which the device is located, wherein the updating may include updating the sound correction value using a sound correction value corresponding to the identified spatial feature.
  • the space feature may include at least one of information on an installation form of the electronic device in the space, distance information between the electronic device and the wall, and information on the sound absorption level of the space.
  • the identifying of the spatial feature may include identifying the spatial feature in which the electronic device is located based on at least one of signal pattern information for a frequency domain and signal pattern information for a time domain of the extracted feature information.
  • the extracting of the characteristic information may include extracting the characteristic information from the sound input to the microphone based on a sound signal corresponding to the content and an output volume value of the sound output device.
  • the extracting of the feature information may include extracting feature information from the sound input to the microphone by applying at least one of an adaptive filter, an optimal filter, and blind audio source separation (BASS).
  • an adaptive filter an optimal filter
  • BASS blind audio source separation
  • FIG. 1 is a diagram schematically illustrating an electronic device according to an embodiment of the present disclosure.
  • FIG. 2 is a block diagram illustrating an operation of an electronic device according to an embodiment of the present disclosure.
  • FIG. 3 is a block diagram illustrating a detailed configuration of an electronic device according to an embodiment of the present disclosure.
  • FIG. 4 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present disclosure.
  • FIG. 5 is a diagram for explaining an operation of extracting characteristic information from a sound input to a microphone by an electronic device according to an embodiment of the present disclosure
  • FIG. 6 is a diagram for explaining an operation of analyzing a signal pattern in a frequency domain of extracted feature information to confirm a spatial feature in which an electronic device is located, according to an embodiment of the present disclosure
  • FIG. 7 is a diagram for explaining an operation of analyzing a signal pattern in a frequency domain of extracted feature information to confirm a spatial feature in which an electronic device is located, according to an embodiment of the present disclosure
  • FIG. 8 is a diagram for explaining an operation of analyzing a signal pattern for a time domain of extracted feature information in order to confirm a spatial feature in which an electronic device is located, according to an embodiment of the present disclosure.
  • FIG. 9 is a diagram for explaining an operation of analyzing a signal pattern for a time domain of extracted feature information in order to confirm a spatial feature in which an electronic device is located, according to an embodiment of the present disclosure
  • FIG. 10 is a diagram for explaining an operation of analyzing a reverberation time of a signal pattern with respect to a time domain of extracted feature information in order to confirm a spatial feature in which an electronic device is located, according to an embodiment of the present disclosure.
  • FIG. 11 is a view for explaining an operation of analyzing a reverberation time of a signal pattern with respect to a time domain of extracted feature information in order to confirm a spatial feature in which an electronic device is located, according to an embodiment of the present disclosure.
  • each step should be understood as non-limiting unless the preceding step must be logically and temporally performed before the subsequent step. In other words, except for the above exceptional cases, even if the process described as the subsequent step is performed before the process described as the preceding step, the essence of the disclosure is not affected, and the scope of rights should also be defined regardless of the order of the steps.
  • expressions such as “have,” “may have,” “include,” or “may include” indicate the presence of a corresponding characteristic (eg, a numerical value, function, operation, or component such as a part). and does not exclude the presence of additional features.
  • first, second, etc. may be used to describe various elements, but the elements should not be limited by the terms. The above terms may be used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present disclosure, a first component may be referred to as a second component, and similarly, a second component may also be referred to as a first component.
  • the present specification describes components necessary for the description of each embodiment of the present disclosure, the present disclosure is not necessarily limited thereto. Accordingly, some components may be changed or omitted, and other components may be added. In addition, they may be distributed and arranged in different independent devices.
  • FIG. 1 is a diagram schematically illustrating an electronic device according to an embodiment of the present disclosure.
  • an electronic device 100 includes a main body 10 , a display 140 disposed on the front of the main body 10 , and a sound output device built in the main body 10 . (110, for example, may include various sound output circuits such as a speaker) and a microphone 120 may be included.
  • the electronic device 100 is illustrated as a display device, but the present invention is not limited thereto, and the electronic device 100 includes a variety of devices including a display, such as a TV, a smart phone, a tablet, and a computer, as well as a sound output function. It may be implemented as an electronic device.
  • a display such as a TV, a smart phone, a tablet, and a computer, as well as a sound output function. It may be implemented as an electronic device.
  • the sound output device 110 has a configuration capable of outputting various sounds, may be implemented as a device such as a speaker, and may include various sound output circuits.
  • the sound output device 110 may output a sound signal provided by the content reproduced by the electronic device 100 .
  • the electronic device 100 is a display device
  • the sound output device 110 may output a sound signal corresponding to the content image displayed through the display 140 .
  • the microphone 120 may receive sound information output from the electronic device 100 and sound information generated around the electronic device 100 , and may include various circuits.
  • the microphone 120 may receive a sound output from the sound output device 110 .
  • the microphone 120 may receive sound that is output from the sound output device 110 and is affected by the surrounding space and deteriorated.
  • the electronic device 100 may receive the sound affected by the surrounding space through the microphone 120 , check the spatial characteristic, and output the sound by performing sound correction optimized for the identified spatial characteristic. A detailed description related thereto will be described later with reference to the drawings.
  • the sound output device 110 and the microphone 120 may be accommodated in the main body 10 of the electronic device 100 , and may be invisible or partially visible. Accordingly, the user can focus on the image displayed on the display 140 disposed on the front of the electronic device 100 and improve aesthetics.
  • the sound output device 110 and the microphone 120 are accommodated inside the main body 10 , but the arrangement positions of the sound output device 110 and the microphone 120 are not limited thereto.
  • the sound output device 110 and the microphone 120 may be disposed outside the main body 10 .
  • the sound output device 110 and the microphone 120 may be implemented as separate devices from the main body 10 .
  • the sound output device 110 and the microphone 120 may be mounted on a control device (remote control, etc.).
  • the electronic device 100 may include a plurality of sound output devices 110 .
  • each sound output device 110 may play a plurality of channels, such as 2 channels, 2.1 channels, 3 channels, 3.1 channels, 5.1 channels, and 7.1 channels, respectively.
  • the sound output device 110 may be disposed on both sides, upper and lower sides of the main body 10 , in a front direction in which the display 140 displays an image, a rear direction opposite to the front direction, a lower direction, an upper direction, or The sound may be output in at least one of the lateral directions.
  • the number and arrangement positions of the sound output devices 110 are not limited thereto, and the sound output devices 110 may be disposed at various positions with respect to the main body 10 .
  • FIG. 2 is a block diagram illustrating an operation of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 may include a sound output device 110 , a microphone 120 , and a processor 130 (eg, including a processing circuit).
  • the processor 130 is electrically connected to the sound output device 110 and the microphone 120 , and may control the overall operation of the electronic device 100 .
  • the processor 130 may be implemented as a digital signal processor (DSP), a microprocessor, or a time controller (TCON) for processing a digital signal.
  • DSP digital signal processor
  • MCU micro controller unit
  • MPU micro processing unit
  • AP application processor
  • CP communication processor
  • ARM processor Artificial Intelligence
  • AI Artificial Intelligence
  • the processor 130 is a SoC (System on Chip) processing algorithm is embedded ), may be implemented in large scale integration (LSI), or implemented in the form of a field programmable gate array (FPGA)
  • the processor 130 executes computer executable instructions stored in the memory 150 . By doing so, various functions can be performed.
  • the processor 130 may control the sound output device 110 to output a sound signal corresponding to the content by using the sound correction value.
  • the sound correction value may be a preset value or a value based on a measurement value measured through the microphone 120 .
  • the sound output from the sound output device 110 may be input to the microphone 120 included in the electronic device 100 .
  • the recorded and sampled electroacoustic signal input to the microphone 120 is a signal including not only information related to spatial characteristics that will be required in a subsequent processing step, but also acoustic characteristics of an audio signal component of the reproduced content. Accordingly, an operation of extracting feature information necessary to confirm the spatial feature in which the electronic device 100 is disposed should be performed.
  • the processor 130 may extract characteristic information from the sound input to the microphone 120 .
  • the feature information to be extracted may be a room impulse response (RIR) signal.
  • the processor 130 applies at least one of an adaptive filter, an optimal filter, and a typical blind audio source separation (BASS) to independent component analysis to apply the sound input to the microphone 120 .
  • feature information can be extracted from
  • the processor 130 may generate the finally determined feature information by performing the feature information extraction operation a plurality of times.
  • the processor 130 performs verification on the feature information extracted by each extraction operation, and discards the feature information in which the distortion level deviates from the reference value or the cross-correlation level between the extracted feature information deviates from the reference value. can do. A detailed description related thereto will be described later with reference to FIG. 5 .
  • the processor 130 may calculate a sound correction value based on the extracted feature information.
  • the processor 130 may estimate the installation state of the electronic device 100 in the space based on the finally generated characteristic information. For example, when the electronic device 100 is a display device such as a TV, the processor 130 may estimate whether the electronic device 100 is a wall-mounted state or a table-mounted state based on the estimated RIR signal, and the electronic device Information on the distance between 100 and the wall or information on the sound absorption level of the space in which the electronic device is installed may be checked. A detailed description related thereto will be described later with reference to FIGS. 6 to 11 .
  • the processor 130 may calculate a sound correction value for performing sound correction in a manner optimized for a corresponding space, based on the identified spatial feature.
  • the spatial feature may include at least one of information on the installation form of the electronic device 100 in the space, information on the distance between the electronic device 100 and the wall, and information on the sound absorption level of the space.
  • the booming phenomenon is suppressed.
  • a sound correction value that performs frequency characteristic smoothing processing and harmonic enhancer processing to increase the level of the middle and high frequency bands to increase sound clarity.
  • the processor 130 may update the sound correction value applied to the content to the calculated sound correction value. That is, the sound output from the sound output device 110 may be corrected by reflecting the characteristics of the space in which the electronic device 100 is disposed in real time, and even when the spatial characteristics in which the electronic device 100 is disposed are changed, the microphone By periodically performing an operation of extracting feature information for the sound input in 120 and updating the sound correction value, sound correction reflecting automatically changed spatial features may be performed.
  • FIG. 3 is a block diagram illustrating a detailed configuration of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 includes a sound output device 110 , a microphone 120 , a processor 130 , a display 140 , a memory 150 , and a communication interface 160 , for example, a communication circuit. included), a sensor 170 , an input interface 180 (eg, including an input circuit), and an output interface 190 (eg, including an output circuit).
  • a sound output device 110 for example, a microphone 120 , a processor 130 , a display 140 , a memory 150 , and a communication interface 160 , for example, a communication circuit. included
  • a sensor 170 eg, including an input circuit
  • an output interface 190 eg, including an output circuit
  • the display 140 is a configuration for displaying an image of content, and includes a liquid crystal display (LCD), an organic light-emitting diode (OLED), a liquid crystal on silicon (LCoS), a digital light processing (DLP), and a quantum dot (QD). ) may be implemented in various forms, such as a display panel.
  • LCD liquid crystal display
  • OLED organic light-emitting diode
  • LCDoS liquid crystal on silicon
  • DLP digital light processing
  • QD quantum dot
  • the electronic device 100 may display various contents through the display 140 .
  • the content may be a concept including at least one of a still image or a moving image.
  • the memory 150 is electrically connected to the processor 130 and may store data necessary for various embodiments of the present disclosure.
  • the memory 150 may store a plurality of pieces of spatial information and feature information for each piece of spatial information.
  • the processor 130 selects one of a plurality of spatial information by using the characteristic information extracted from the sound input to the microphone 120 and the characteristic information stored in the memory 150 , and a sound correction value applied to the content. may be updated with a sound correction value corresponding to the selected spatial information.
  • the memory 150 may store a learning model for identifying spatial features corresponding to feature information input.
  • the processor 130 uses the feature information extracted from the sound input to the microphone 120 and the learning model stored in the memory 150 to determine the spatial feature in which the electronic device 100 is located, and the identified space
  • the sound correction value applied to the content may be updated by using the sound correction value corresponding to the feature.
  • the memory 150 may be implemented in the form of a memory embedded in the electronic device 100 or may be implemented in the form of a memory that is detachable from the electronic device 100 according to the purpose of data storage. For example, data for driving the electronic device 100 is stored in a memory embedded in the electronic device 100 , and data for an extended function of the electronic device 100 is detachable from the electronic device 100 . It can be stored in any available memory.
  • a volatile memory eg, dynamic RAM (DRAM), static RAM (SRAM), or synchronous dynamic RAM (SDRAM)
  • non-volatile memory Examples: one time programmable ROM (OTPROM), programmable ROM (PROM), erasable and programmable ROM (EPROM), electrically erasable and programmable ROM (EEPROM), mask ROM, flash ROM, flash memory (such as NAND flash or NOR flash, etc.) ), a hard drive, or a solid state drive (SSD), and in the case of a removable memory in the electronic device 100, a memory card (eg, compact flash (CF), SD ( secure digital), Micro-SD (micro secure digital), Mini-SD (mini secure digital), xD (extreme digital), MMC (multi-media card), etc.), external memory that can be connected to the USB port (e.g., USB memory) and the like.
  • CF compact flash
  • SD secure digital
  • Micro-SD micro secure digital
  • Mini-SD mini secure digital
  • xD
  • the communication interface 160 may be connected to other external devices and networks through various communication methods, and may include various communication circuits. Accordingly, the communication interface 160 may transmit/receive various data from other external devices.
  • the communication interface 160 including various communication circuits may refer to hardware capable of transmitting and receiving various information (or data) by performing communication using a wired communication method or a wireless communication method with various external devices.
  • the communication interface 160 is TCP/IP (Transmission Control Protocol/Internet Protocol), UDP (User Datagram Protocol), HTTP (Hyper Text Transfer Protocol), HTTPS (Secure Hyper Text Transfer Protocol), FTP (File Transfer Protocol) ), SFTP (Secure File Transfer Protocol), MQTT (Message Queuing Telemetry Transport), and other communication protocols (protocols) can be used to transmit and receive various information with various external devices.
  • TCP/IP Transmission Control Protocol/Internet Protocol
  • UDP User Datagram Protocol
  • HTTP Hyper Text Transfer Protocol
  • HTTPS Secure Hyper Text Transfer Protocol
  • FTP File Transfer Protocol
  • SFTP Secure File Transfer Protocol
  • MQTT Message Queuing Telemetry Transport
  • the sensor 170 may refer to a device that detects an amount or change of various physical signals (eg, temperature, light, sound, chemical, electricity, magnetism, pressure, etc.).
  • the sensed signal may be converted into data in a format that the processor 130 can interpret.
  • the sensor 170 may be implemented with various sensors such as a proximity sensor, an illuminance sensor, a motion sensor, a ToF sensor, and a GPS sensor.
  • the input interface 180 is configured to receive various user commands and information, and may include various input circuits.
  • the processor 130 may execute a function corresponding to a user command input through the input interface 180 or store information input through the input interface 180 in the memory 150 .
  • the input interface 180 may include a microphone 120 to receive a user command in the form of a voice, or may be implemented as a display (touch screen) for receiving a user command through a touch.
  • the output interface 190 may include at least one of a display and a speaker, and may include various output circuits.
  • the display is a device for outputting information in a visual form (eg, text, image, etc.).
  • the display may display the image frame in all or part of the display area.
  • the display area may refer to the entire area of a pixel unit in which information or data is visually displayed.
  • a speaker is a device that outputs information in an audible form (eg, voice).
  • the speaker may directly output various kinds of notification sounds or voice messages as well as various audio data on which various processing operations such as decoding, amplification, and noise filtering have been performed by the audio processing unit.
  • FIG. 4 is a flowchart illustrating a method of controlling an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 may output a sound signal corresponding to the content through the sound output device by using the sound correction value ( S410 ).
  • the electronic device 100 may extract characteristic information from the sound input into the microphone ( S420 ).
  • the electronic device 100 may calculate a sound correction value based on the extracted feature information ( S430 ).
  • the electronic device 100 may store a plurality of pieces of spatial information and characteristic information for each piece of spatial information. In this case, the electronic device 100 may select one of a plurality of spatial information using the extracted characteristic information and the stored characteristic information, and update the sound correction value to a sound correction value corresponding to the selected spatial information.
  • the electronic device 100 may pre-store a learning model for identifying spatial features corresponding thereto. In this case, the electronic device 100 may identify a spatial feature in which the electronic device 100 is located by using the extracted feature information and a pre-stored learning model.
  • the space feature may include at least one of information on an installation form of an electronic device in a space, information on a distance between the electronic device and a wall, and information on a sound absorption level in the space.
  • the electronic device 100 may identify a spatial feature in which the electronic device is located based on at least one of the signal pattern information for the frequency domain and the signal pattern information for the time domain of the extracted feature information. A detailed description related thereto will be described later with reference to FIGS. 6 to 11 .
  • the electronic device 100 may update the sound correction value to the calculated correction value ( S440 ).
  • the electronic device 100 may update the sound correction value by using the sound correction value corresponding to the spatial feature identified using the pre-stored learning model.
  • FIG. 5 is a diagram for explaining an operation of extracting feature information from a sound input to a microphone by an electronic device according to an embodiment of the present disclosure
  • the electronic device 100 extracts feature information including information for confirming spatial features from the sound input to the microphone 120 to generate final feature information (eg, an estimated RIR signal) and extracting and extracting a signal.
  • final feature information eg, an estimated RIR signal
  • a verification operation may be performed on the acquired signal. Accordingly, it is possible to increase the accuracy of the characteristic information estimated from the sound input to the microphone 120 .
  • the electronic device 100 extracts characteristic information from the sound input to the microphone 120 a plurality of times ( S510 ), and performs a first verification on each extracted characteristic information ( S520 ). there is.
  • the electronic device 100 checks the time of occurrence of the feature information extracted through the first verification, that is, the direct sound component of the extracted RIR signal ( S530 ), and a sample delay for each signal. delay) to determine the distortion level for each time domain section, and when the distortion level deviates from the reference value, the corresponding characteristic information can be discarded.
  • the corresponding characteristic information may be temporarily stored in the memory 150 .
  • the electronic device 100 may perform a second verification on the stored plurality of feature information ( S540 ).
  • the electronic device 100 may check a spatial feature using the finally generated feature information and calculate a sound correction value corresponding thereto.
  • 6 and 7 are diagrams for explaining an operation of analyzing a signal pattern in a frequency domain of extracted feature information to confirm a spatial feature in which an electronic device is located, according to an embodiment of the present disclosure.
  • FIG. 6 shows an example of a signal pattern for the RIR signal frequency domain of the finally generated feature information extracted from the sound input to the microphone 120
  • FIG. 7 is a space having a plurality of different spatial features. It shows the signal pattern for the frequency domain of the feature information appearing in .
  • the electronic device 100 is a TV as an example
  • the sound pressure is reinforced and canceled in the TV installation space according to conditions such as the distance between the TV and the wall and the presence or absence of a table on which the TV is mounted.
  • the phenomenon may occur differently.
  • each estimated RIR signal The frequency characteristic (power spectrum) of the power spectrum envelope with characteristic peak and dip shapes for each spatial characteristic within the band range of about 100 to 400 [Hz] can have For example, characteristics such as a frequency band of a peak characteristic, a frequency band of a dip characteristic, and a power level of the peak and dip characteristics may appear differently depending on spatial characteristics.
  • the correlation between the TV installation conditions and the power spectral envelope features that will appear in the band range of 100 to 400 [Hz] is obtained through characteristic data or simulations measured in advance for each spatial feature.
  • approximating and mapping the correlation between frequency characteristics of a low frequency band as a function parameter, approximation to a parametric function in the form of a cubic function, or a regression function or clustering By performing modeling using the same statistical technique, frequency characteristics and spatial characteristics of the estimated RIR signal can be matched.
  • Such a power spectral envelope pattern is representative of machine learning or deep neural networks such as a decision tree or a support vector machine based on various actual data. It is also possible to analyze using deep machine learning.
  • FIGS. 8 and 9 are diagrams for explaining an operation of analyzing a signal pattern for a time domain of extracted feature information in order to confirm a spatial feature in which an electronic device is located, according to an embodiment of the present disclosure.
  • the operation of analyzing through the time domain pattern of the RIR signal may be combined.
  • FIGS. 10 and 11 are diagrams for explaining an operation of analyzing a reverberation time of a signal pattern with respect to a time domain of extracted feature information in order to confirm a spatial feature in which an electronic device is located, according to an embodiment of the present disclosure; .
  • the reverberation time is a feature value that can be used to determine how the sound wave is reflected in the space when the sound wave is radiated to the space. For example, to attenuate the signal amplitude level to a certain level based on the amplitude of the direct sound (the component with the largest amplitude in the signal pattern) appearing in the signal pattern with respect to the time domain of the impulse response (IR) signal.
  • the time interval up to can be determined as the reverberation time of the corresponding space.
  • the electronic device 100 may estimate the degree of absorption of the space based on the reverberation time, and in the case of a space with a large degree of sound absorption, a phenomenon in which the clarity of the sound heard by the user is generally lowered occurs, which can be corrected. A sound correction value can be calculated.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

전자 장치가 개시된다. 본 전자 장치는 사운드를 출력하며 회로를 포함하는 음향 출력 장치, 마이크 및 컨텐츠가 선택되면, 사운드 보정 값을 이용하여 컨텐츠에 대응되는 음향 신호가 출력되도록 음향 출력 장치를 제어하는 프로세서를 포함하고, 프로세서는, 컨텐츠에 대응되는 사운드가 음향 출력 장치에서 출력되어 마이크에 입력되면, 마이크에 입력된 사운드에서 특징 정보를 추출하고, 추출된 특징 정보에 기초하여 사운드 보정 값을 산출하고, 사운드 보정 값을 산출된 사운드 보정 값으로 업데이트한다.

Description

전자 장치 및 이의 제어 방법
본 개시는 전자 장치 및 이의 제어 방법에 관한 것으로, 보다 상세하게는 음향 출력 장치를 포함하는 전자 장치가 배치된 공간 특성에 따라 음향 출력 장치에서 출력되는 사운드를 보정하는 전자 장치 및 이의 제어 방법에 관한 것이다.
전자 기술의 발달에 힘입어 다양한 유형의 전자기기가 개발 및 보급되고 있다. 특히, 가정, 사무실, 공공장소 등 다양한 장소에서 이용되는 디스플레이 장치는 최근 수년 간 지속적으로 발전하고 있으며, 디스플레이 장치의 형태에 있어서 플랫(flat)화, 슬림(slim)화가 지속적으로 진행됨에 따라 디스플레이 장치의 설치 위치의 자유도가 높아졌다.
다만, 디스플레이 장치가 설치되는 공간의 특징이 달라짐에 따라 디스플레이 장치에서 출력하는 사운드에 주는 영향이 상이하므로, 각각의 공간 특징에 맞는 사운드 보정을 수행할 필요성이 생겼다.
또한, 디스플레이 장치의 실내 설치 조건에 따라서 저주파 대역의 음량이 필요 이상으로 커져서 특정한 소리가 잘 들리지 않을 수 있는 부밍(Booming) 현상이나 음원 주변의 물체들에 의해 소리의 명료도가 지나치게 떨어지는 현상이 발생할 수 있어, 각각의 실내 설치 조건 별로 최적화된 사운드 보정을 수행할 필요성이 있다.
한편, 종래에는 사운드 보정을 위해 사용자가 일정한 보정 작업을 수행하여야 하였으므로, 사용자가 불편함을 느끼는 문제점이 있었다.
본 개시는 상술한 문제점을 해결하기 위한 것으로, 본 개시의 목적은 컨텐츠를 재생함에 따라 사용자의 개입 없이 자동으로 전자 장치가 배치된 공간의 특성에 따라 출력되는 사운드를 보정하는 전자 장치 및 이의 제어 방법을 제공함에 있다.
이상과 같은 목적을 달성하기 위해 본 개시의 일 실시예에 따른 전자 장치는, 사운드를 출력하며 회로를 포함하는 음향 출력 장치, 마이크 및 컨텐츠가 선택되면, 사운드 보정 값을 이용하여 상기 컨텐츠에 대응되는 음향 신호가 출력되도록 상기 음향 출력 장치를 제어하는 프로세서를 포함하고, 상기 프로세서는, 상기 컨텐츠에 대응되는 사운드가 상기 음향 출력 장치에서 출력되어 상기 마이크에 입력되면, 상기 마이크에 입력된 사운드에서 특징 정보를 추출하고, 상기 추출된 특징 정보에 기초하여 사운드 보정 값을 산출하고, 상기 사운드 보정 값을 상기 산출된 사운드 보정 값으로 업데이트한다.
이 경우, 상기 전자 장치는 복수의 공간 정보 및 상기 복수의 공간 정보별 특징 정보를 저장하는 메모리를 더 포함하고, 상기 프로세서는, 상기 추출된 특징 정보와 상기 저장된 특징 정보를 이용하여 상기 복수의 공간 정보 중 하나를 선택하고, 상기 사운드 보정 값을 상기 선택된 공간 정보에 대응되는 사운드 보정 값으로 업데이트할 수 있다.
한편, 상기 전자 장치는 특징 정보가 입력되면 그에 대응되는 공간 특징을 식별하는 학습 모델을 저장하는 메모리를 더 포함하고, 상기 프로세서는, 상기 추출된 특징 정보와 상기 학습 모델을 이용하여 상기 전자 장치가 위치하는 공간 특징을 확인하고, 상기 확인된 공간 특징에 대응되는 사운드 보정 값을 이용하여 상기 사운드 보정 값을 업데이트할 수 있다.
이 경우, 상기 공간 특징은, 공간 내의 전자 장치 설치 형태에 대한 정보, 전자 장치와 벽 사이의 거리 정보, 공간의 흡음 수준에 대한 정보 중 적어도 하나의 정보를 포함할 수 있다.
한편, 상기 프로세서는, 상기 추출된 특징 정보의 주파수 영역에 대한 신호 패턴 정보 및 시간 영역에 대한 신호 패턴 정보 중 적어도 하나에 기초하여 상기 전자 장치가 위치하는 공간 특징을 확인할 수 있다.
한편, 상기 프로세서는, 상기 컨텐츠에 대응되는 음향 신호 및 상기 음향 출력 장치의 출력 음량 값에 기초하여 상기 마이크에 입력된 사운드에서 특징 정보를 추출할 수 있다.
한편, 상기 프로세서는, 적응 필터, 최적 필터 및 블라인드 오디오 소스 분리(blind audio source separation, BASS) 중 적어도 하나를 적용하여 상기 마이크에 입력된 사운드에서 특징 정보를 추출할 수 있다.
한편, 상기 전자 장치는 본체 및 상기 본체의 전면에 배치되며, 상기 컨텐츠에 대응되는 영상을 표시하는 디스플레이를 더 포함할 수 있다.
한편, 본 개시의 일 실시예에 따른 전자 장치의 제어 방법은, 컨텐츠가 선택되면, 사운드 보정 값을 이용하여 상기 컨텐츠에 대응되는 음향 신호를 음향 출력 장치를 통해 출력하는 단계, 상기 컨텐츠에 대응되는 사운드가 상기 음향 출력 장치에서 출력되어 마이크에 입력되면, 상기 마이크에 입력된 사운드에서 특징 정보를 추출하는 단계, 상기 추출된 특징 정보에 기초하여 사운드 보정 값을 산출하는 단계 및 상기 사운드 보정 값을 상기 산출된 사운드 보정 값으로 업데이트하는 단계를 포함한다.
이 경우, 복수의 공간 정보 및 상기 복수의 공간 정보별 특징 정보를 저장하는 단계를 더 포함하고, 상기 업데이트하는 단계는, 상기 추출된 특징 정보와 상기 저장된 특징 정보를 이용하여 상기 복수의 공간 정보 중 하나를 선택하고, 상기 사운드 보정 값을 상기 선택된 공간 정보에 대응되는 사운드 보정 값으로 업데이트할 수 있다.
한편, 특징 정보가 입력되면 그에 대응되는 공간 특징을 식별하기 위한 학습 모델을 저장하는 단계를 더 포함하고, 상기 보정 값을 산출하는 단계는, 상기 추출된 특징 정보와 상기 학습 모델을 이용하여 상기 전자 장치가 위치하는 공간 특징을 확인하는 단계를 더 포함하고, 상기 업데이트하는 단계는, 상기 확인된 공간 특징에 대응되는 사운드 보정 값을 이용하여 상기 사운드 보정 값을 업데이트할 수 있다.
이 경우, 상기 공간 특징은, 공간 내의 전자 장치 설치 형태에 대한 정보, 전자 장치와 벽 사이의 거리 정보, 공간의 흡음 수준에 대한 정보 중 적어도 하나의 정보를 포함할 수 있다.
한편, 상기 공간 특징을 확인하는 단계는, 상기 추출된 특징 정보의 주파수 영역에 대한 신호 패턴 정보 및 시간 영역에 대한 신호 패턴 정보 중 적어도 하나에 기초하여 상기 전자 장치가 위치하는 공간 특징을 확인할 수 있다.
한편, 상기 특징 정보를 추출하는 단계는, 상기 컨텐츠에 대응되는 음향 신호 및 상기 음향 출력 장치의 출력 음량 값에 기초하여 상기 마이크에 입력된 사운드에서 특징 정보를 추출할 수 있다.
한편, 상기 특징 정보를 추출하는 단계는, 적응 필터, 최적 필터 및 블라인드 오디오 소스 분리(blind audio source separation, BASS) 중 적어도 하나를 적용하여 상기 마이크에 입력된 사운드에서 특징 정보를 추출할 수 있다.
도 1은 본 개시의 일 실시예에 따른 전자 장치를 개략적으로 설명하기 위한 도면이다.
도 2는 본 개시의 일 실시예에 따른 전자 장치의 동작을 설명하기 위한 블록도이다.
도 3은 본 개시의 일 실시예에 따른 전자 장치의 세부 구성을 설명하기 위한 블록도이다.
도 4는 본 개시의 일 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
도 5는 본 개시의 일 실시예에 따른 전자 장치가 마이크에 입력된 사운드에서 특징 정보를 추출하는 동작을 설명하기 위한 도면이다.
도 6은 본 개시의 일 실시예에 따른 전자 장치가 위치하는 공간 특징을 확인하기 위해, 추출된 특징 정보의 주파수 영역에 대한 신호 패턴을 분석하는 동작을 설명하기 위한 도면이다.
도 7은 본 개시의 일 실시예에 따른 전자 장치가 위치하는 공간 특징을 확인하기 위해, 추출된 특징 정보의 주파수 영역에 대한 신호 패턴을 분석하는 동작을 설명하기 위한 도면이다.
도 8은 본 개시의 일 실시예에 따른 전자 장치가 위치하는 공간 특징을 확인하기 위해, 추출된 특징 정보의 시간 영역에 대한 신호 패턴을 분석하는 동작을 설명하기 위한 도면이다.
도 9는 본 개시의 일 실시예에 따른 전자 장치가 위치하는 공간 특징을 확인하기 위해, 추출된 특징 정보의 시간 영역에 대한 신호 패턴을 분석하는 동작을 설명하기 위한 도면이다.
도 10은 본 개시의 일 실시예에 따른 전자 장치가 위치하는 공간 특징을 확인하기 위해, 추출된 특징 정보의 시간 영역에 대한 신호 패턴의 잔향 시간을 분석하는 동작을 설명하기 위한 도면이다.
도 11은 본 개시의 일 실시예에 따른 전자 장치가 위치하는 공간 특징을 확인하기 위해, 추출된 특징 정보의 시간 영역에 대한 신호 패턴의 잔향 시간을 분석하는 동작을 설명하기 위한 도면이다.
이하에서 설명되는 실시 예는 본 개시의 이해를 돕기 위하여 예시적으로 나타낸 것이며, 본 개시는 여기서 설명되는 실시 예들과 다르게, 다양하게 변형되어 실시될 수 있음이 이해되어야 할 것이다. 다만, 이하에서 본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성요소에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명 및 구체적인 도시를 생략한다. 또한, 첨부된 도면은 개시의 이해를 돕기 위하여 실제 축척대로 도시된 것이 아니라 일부 구성요소의 치수가 과장되게 도시될 수 있다.
본 명세서 및 청구범위에서 사용되는 용어는 본 개시의 기능을 고려하여 일반적인 용어들을 선택하였다. 하지만, 이러한 용어들은 당 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어도 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.
본 개시의 설명에 있어서 각 단계의 순서는 선행 단계가 논리적 및 시간적으로 반드시 후행 단계에 앞서서 수행되어야 하는 경우가 아니라면 각 단계의 순서는 비제한적으로 이해되어야 한다. 즉, 위와 같은 예외적인 경우를 제외하고는 후행 단계로 설명된 과정이 선행단계로 설명된 과정보다 앞서서 수행되더라도 개시의 본질에는 영향이 없으며 권리범위 역시 단계의 순서에 관계없이 정의되어야 한다.
본 명세서에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용될 수 있다. 예를 들어, 본 개시의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
그리고, 본 명세서에서는 본 개시의 각 실시 예의 설명에 필요한 구성요소를 설명한 것이므로, 반드시 이에 한정되는 것은 아니다. 따라서, 일부 구성요소는 변경 또는 생략될 수도 있으며, 다른 구성요소가 추가될 수도 있다. 또한, 서로 다른 독립적인 장치에 분산되어 배치될 수도 있다.
나아가, 이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 개시의 실시 예를 상세하게 설명하지만, 본 개시가 실시 예들에 의해 제한되거나 한정되는 것은 아니다.
이하 첨부된 도면들을 참고하여 본 개시를 상세하게 설명한다.
도 1은 본 개시의 일 실시예에 따른 전자 장치를 개략적으로 설명하기 위한 도면이다.
도 1을 참고하면 본 개시의 일 실시예에 따른 전자 장치(100)는 본체(10), 본체(10)의 전면에 배치되는 디스플레이(140), 본체(10)의 내부에 내장되는 음향 출력 장치(110, 예를 들어 스피커와 같은 다양한 음향 출력 회로를 포함할 수 있다) 및 마이크(120)를 포함할 수 있다.
도 1에서는 전자 장치(100)가 디스플레이 장치인 것으로 도시하였으나, 이에 한정되는 것은 아니며 전자 장치(100)는 TV, 스마트폰, 태블릿, 컴퓨터 등 디스플레이를 포함하는 장치 뿐만 아니라 음향 출력 기능을 포함하는 다양한 전자 기기로 구현될 수 있다.
음향 출력 장치(110)는 다양한 사운드를 출력할 수 있는 구성으로, 스피커와 같은 장치로 구현될 수 있으며, 다양한 음향 출력 회로를 포함할 수 있다. 음향 출력 장치(110)는 전자 장치(100)에 의해 재생되는 컨텐츠가 제공하는 음향 신호를 출력할 수 있다. 전자 장치(100)가 디스플레이 장치인 경우, 음향 출력 장치(110)는 디스플레이(140)를 통해 표시되는 컨텐츠 영상에 대응되는 음향 신호를 출력할 수 있다.
마이크(120)는 전자 장치(100)에서 출력하는 소리 정보 및 전자 장치(100) 주변에서 발생하는 소리 정보를 수신할 수 있으며, 다양한 회로를 포함할 수 있다. 예를 들어, 마이크(120)는 음향 출력 장치(110)에서 출력하는 사운드를 수신할 수 있다. 이 경우, 마이크(120)는 음향 출력 장치(110)에서 출력된 후 주변 공간에 의해 영향을 받아 열화된 사운드를 입력 받을 수 있다. 전자 장치(100)는 주변 공간에 의해 영향을 받은 사운드를 마이크(120)를 통해 수신하여 공간 특징을 확인하고, 확인된 공간 특징에 최적화된 사운드 보정을 수행하여 사운드를 출력할 수 있다. 이와 관련한 상세한 설명은 이후 도면에서 후술하기로 한다.
음향 출력 장치(110) 및 마이크(120)는 전자 장치(100)의 본체(10) 내부에 수용되어, 전자 장치(100)의 외관 상으로 보이지 않거나, 일부분이 보이도록 배치될 수 있다. 이에 따라, 사용자는 전자 장치(100)의 전면에 배치된 디스플레이(140)에 표시되는 영상에 집중할 수 있으며, 심미성을 향상시킬 수 있다.
이상에서는 음향 출력 장치(110) 및 마이크(120)는 본체(10) 내부에 수용되는 것으로 설명하였으나, 음향 출력 장치(110) 및 마이크(120)의 배치 위치는 이에 한정되지 않는다. 예컨대, 음향 출력 장치(110) 및 마이크(120)는 본체(10) 외부에 배치될 수도 있다. 또한, 음향 출력 장치(110) 및 마이크(120)는 본체(10)와 별도 장치로 구현될 수도 있다. 또한, 음향 출력 장치(110) 및 마이크(120)는 제어 디바이스(리모컨 등)에 실장될 수도 있다.
도 1을 참고하면, 전자 장치(100)는 복수의 음향 출력 장치(110)를 포함할 수 있다. 이 경우, 각각의 음향 출력 장치(110)는 2 채널, 2.1 채널, 3 채널, 3.1 채널, 5.1 채널, 7.1 채널 등과 같이 복수의 채널을 각각 담당하여 재생할 수 있다. 음향 출력 장치(110)는 본체(10)의 양 측면, 상측 및 하측에 배치될 수 있으며, 디스플레이(140)가 영상을 표시하는 전면 방향, 전면 방향에 대향되는 후방 방향, 하부 방향, 상부 방향 또는 측면 방향 중 적어도 하나의 방향으로 사운드를 출력할 수 있다. 다만, 음향 출력 장치(110)의 개수 및 배치 위치는 이에 한정되는 것은 아니며, 음향 출력 장치(110)는 본체(10)에 대하여 다양한 위치에 배치될 수 있다.
이하, 도 2 내지 도 3을 참고하여 전자 장치(100)에 포함되는 구성들을 상세하게 설명한다.
도 2는 본 개시의 일 실시예에 따른 전자 장치의 동작을 설명하기 위한 블록도이다.
도 2를 참고하면, 전자 장치(100)는 음향 출력 장치(110), 마이크(120) 및 프로세서(130, 예를 들어 프로세싱 회로를 포함)를 포함할 수 있다.
음향 출력 장치(110) 및 마이크(120)는 앞선 도면에서 설명하였으므로, 중복되는 설명은 생략한다.
프로세서(130)는 음향 출력 장치(110) 및 마이크(120)와 전기적으로 연결되며, 전자 장치(100)의 전반적인 동작을 제어할 수 있다.
본 개시의 일 실시 예에 따라, 프로세서(130)는 디지털 신호를 처리하는 디지털 시그널 프로세서(digital signal processor(DSP), 마이크로 프로세서(microprocessor), TCON(Time controller)으로 구현될 수 있다. 다만, 이에 한정되는 것은 아니며, 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서, AI(Artificial Intelligence) 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(130)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다. 프로세서(130)는 메모리(150)에 저장된 컴퓨터 실행가능 명령어(computer executable instructions)를 실행함으로써 다양한 기능을 수행할 수 있다.
프로세서(130)는 컨텐츠가 선택되면 사운드 보정 값을 이용하여 컨텐츠에 대응되는 음향 신호가 출력되도록 음향 출력 장치(110)를 제어할 수 있다. 여기에서, 사운드 보정 값은 기설정된 값 또는 마이크(120)를 통해 측정된 측정 값에 기반한 값일 수 있다.
음향 출력 장치(110)에서 출력된 사운드는 전자 장치(100)에 포함된 마이크(120)에 입력될 수 있다. 마이크(120)에 입력되어 녹음 및 표본화된 전기음향신호는 이후의 처리 단계에서 필요하게 될 공간 특징과 관련된 정보뿐만 아니라, 재생되는 컨텐츠의 오디오 신호 성분의 음향 특성도 포함된 신호이다. 이에 따라, 전자 장치(100)가 배치된 공간 특징을 확인하기 위해 필요한 특징 정보를 추출하는 동작이 수행되어야 한다.
프로세서(130)는 컨텐츠에 대응되는 사운드가 음향 출력 장치(110)에서 출력되어 마이크(120)에 입력되면, 마이크(120)에 입력된 사운드에서 특징 정보를 추출할 수 있다.
여기에서, 추출의 대상이 되는 특징 정보는 실내 임펄스 응답(Room impulse response, RIR) 신호일 수 있다. 이 경우, 프로세서(130)는 적응 필터, 최적 필터 및 독립 성분 분석(Independent component analysis)에 대표적인 블라인드 오디오 소스 분리(Blind audio source separation, BASS) 중 적어도 하나를 적용하여 마이크(120)에 입력된 사운드에서 특징 정보를 추출할 수 있다.
프로세서(130)는 특징 정보 추출 동작을 복수 회 수행하여 최종적으로 결정되는 특징 정보를 생성할 수 있다.
또한, 프로세서(130)는 각각의 추출 동작에 의해 추출된 특징 정보에 대한 검증을 수행하여, 왜곡 수준이 기준치를 벗어나거나 추출된 특징 정보들 간에 상호 상관 수준을 비교하여 기준치를 벗어나는 특징 정보를 파기할 수 있다. 이와 관련한 상세한 설명은 도 5에서 후술하기로 한다.
프로세서(130)는 추출된 특징 정보에 기초하여 사운드 보정 값을 산출할 수 있다. 이 경우, 프로세서(130)는 최종적으로 생성한 특징 정보를 바탕으로 공간 내의 전자 장치(100) 설치 상태를 추정할 수 있다. 일 예로, 전자 장치(100)가 TV와 같은 디스플레이 장치인 경우, 프로세서(130)는 추정된 RIR 신호를 바탕으로 전자 장치(100)가 벽걸이 설치 상태 또는 테이블 거치 상태인지 추정할 수 있으며, 전자 장치(100)와 벽 사이의 거리 정보 또는 전자 장치가 설치된 공간의 흡음 수준에 대한 정보를 확인할 수 있다. 이와 관련한 상세한 설명은 도 6 내지 도 11에서 후술하기로 한다.
프로세서(130)는 확인된 공간 특징에 기초하여, 해당 공간에 대해 최적화된 방식으로 사운드 보정을 수행하기 위한 사운드 보정 값을 산출할 수 있다. 여기에서, 공간 특징은 공간 내의 전자 장치(100) 설치 형태에 대한 정보, 전자 장치(100)와 벽 사이의 거리 정보, 공간의 흡음 수준에 대한 정보 중 적어도 하나의 정보를 포함할 수 있다.
예를 들어, 저주파 대역의 음량이 필요 이상으로 커지는 부밍(booming) 현상이 일어나기 쉬운 벽걸이 설치 상태 또는 전자 장치(100)와 벽 사이가 밀착된 테이블 거치 상태의 경우, 부밍(booming) 현상 발생을 억제하기 위해 저주파 대역 주파수 특성 평활화 처리를 수행하는 사운드 보정 값을 산출할 수 있다. 한편, 흡음 현상이 크게 일어나는 공간 특징이 확인된 경우, 소리의 명료도를 높이기 위해 중고주파수 대역의 레벨을 상향시키기 위한 주파수 특성 평활화 처리 및 하모닉 인핸서(Harmonic enhancer) 처리를 수행하는 사운드 보정 값을 산출할 수 있다.
프로세서(130)는 컨텐츠에 적용되는 사운드 보정 값을 산출된 사운드 보정 값으로 업데이트할 수 있다. 즉, 실시간으로 전자 장치(100)가 배치된 공간의 특징을 반영하여 음향 출력 장치(110)에서 출력되는 사운드를 보정할 수 있으며, 전자 장치(100)가 배치된 공간 특징이 변경되는 경우에도 마이크(120)에 입력된 사운드에 대해 특징 정보를 추출하여 사운드 보정 값을 업데이트하는 동작을 주기적으로 수행함으로써 자동으로 변경된 공간 특징을 반영한 사운드 보정을 수행할 수 있다.
이에 따라, 사용자의 별도 개입 없이 사운드 보정이 자동적으로 수행되며, 전자 장치(100)에서 일반적으로 재생되는 컨텐츠 음향을 사용하여 사운드 보정 동작을 진행함으로써 사용자 편의를 향상시킬 수 있다.
도 3은 본 개시의 일 실시예에 따른 전자 장치의 세부 구성을 설명하기 위한 블록도이다.
도 3을 참고하면, 전자 장치(100)는 음향 출력 장치(110), 마이크(120), 프로세서(130), 디스플레이(140), 메모리(150), 통신 인터페이스(160, 예를 들어 통신 회로를 포함), 센서(170), 입력 인터페이스(180, 예를 들어 입력 회로를 포함) 및 출력 인터페이스(190, 예를 들어 출력 회로를 포함)를 포함할 수 있다. 도 3에 도시된 구성 중 도 2에 도시된 구성과 중복되는 부분에 대해서는 자세한 설명을 생략하도록 한다.
디스플레이(140)는 컨텐츠의 영상을 표시하기 위한 구성으로, LCD(liquid crystal display), OLED(organic light-emitting diode), LCoS(Liquid Crystal on Silicon), DLP(Digital Light Processing), QD(quantum dot) 디스플레이 패널 등과 같은 다양한 형태로 구현될 수 있다.
전자 장치(100)는 디스플레이(140)를 통해 다양한 컨텐츠를 표시할 수 있다. 여기에서, 컨텐츠는 정지 영상 또는 동영상 중 적어도 하나를 포함하는 개념일 수 있다.
메모리(150)는 프로세서(130)와 전기적으로 연결되며, 본 개시의 다양한 실시예를 위해 필요한 데이터를 저장할 수 있다.
본 개시의 일 실시예에 따라, 메모리(150)는 복수의 공간 정보 및 복수의 공간 정보별 특징 정보를 저장할 수 있다. 이 경우, 프로세서(130)는 마이크(120)에 입력된 사운드에서 추출된 특징 정보와 메모리(150)에 저장된 특징 정보를 이용하여 복수의 공간 정보 중 하나를 선택하고, 컨텐츠에 적용되는 사운드 보정 값을 선택된 공간 정보에 대응되는 사운드 보정 값으로 업데이트할 수 있다.
한편, 메모리(150)는 특징 정보가 입력되면 그에 대응되는 공간 특징을 식별하는 학습 모델을 저장할 수 있다. 이 경우, 프로세서(130)는 마이크(120)에 입력된 사운드에서 추출된 특징 정보와 메모리(150)에 저장된 학습 모델을 이용하여 전자 장치(100)가 위치하는 공간 특징을 확인하고, 확인된 공간 특징에 대응되는 사운드 보정 값을 이용하여 컨텐츠에 적용되는 사운드 보정 값을 업데이트할 수 있다.
메모리(150)는 데이터 저장 용도에 따라 전자 장치(100)에 임베디드된 메모리 형태로 구현되거나, 전자 장치(100)에 탈부착이 가능한 메모리 형태로 구현될 수도 있다. 예를 들어, 전자 장치(100)의 구동을 위한 데이터의 경우 전자 장치(100)에 임베디드된 메모리에 저장되고, 전자 장치(100)의 확장 기능을 위한 데이터의 경우 전자 장치(100)에 탈부착이 가능한 메모리에 저장될 수 있다. 한편, 전자 장치(100)에 임베디드된 메모리의 경우 휘발성 메모리(예: DRAM(dynamic RAM), SRAM(static RAM), 또는 SDRAM(synchronous dynamic RAM) 등), 비휘발성 메모리(non-volatile Memory)(예: OTPROM(one time programmable ROM), PROM(programmable ROM), EPROM(erasable and programmable ROM), EEPROM(electrically erasable and programmable ROM), mask ROM, flash ROM, 플래시 메모리(예: NAND flash 또는 NOR flash 등), 하드 드라이브, 또는 솔리드 스테이트 드라이브(solid state drive(SSD)) 중 적어도 하나로 구현되고, 전자 장치(100)에 탈부착이 가능한 메모리의 경우 메모리 카드(예를 들어, CF(compact flash), SD(secure digital), Micro-SD(micro secure digital), Mini-SD(mini secure digital), xD(extreme digital), MMC(multi-media card) 등), USB 포트에 연결 가능한 외부 메모리(예를 들어, USB 메모리) 등과 같은 형태로 구현될 수 있다.
통신 인터페이스(160)는 다양한 통신 방식을 통해 다른 외부 장치와 네트워크로 연결될 수 있으며, 다양한 통신 회로를 포함할 수 있다. 이에 따라 통신 인터페이스(160)는 다른 외부 장치로부터 다양한 데이터를 송수신할 수 있다.
다양한 통신 회로를 포함하는 통신 인터페이스(160)는 다양한 외부 장치와 유선 통신 방식 또는 무선 통신 방식의 통신을 수행하여, 다양한 정보(또는 데이터)를 송수신할 수 있는 하드웨어를 지칭할 수 있다. 이 경우, 통신 인터페이스(160)는 TCP/IP(Transmission Control Protocol/Internet Protocol), UDP(User Datagram Protocol), HTTP(Hyper Text Transfer Protocol), HTTPS(Secure Hyper Text Transfer Protocol), FTP(File Transfer Protocol), SFTP(Secure File Transfer Protocol), MQTT(Message Queuing Telemetry Transport) 등의 통신 규약(프로토콜)을 이용하여 다양한 외부 장치와 다양한 정보를 송수신할 수 있다.
센서(170)는 다양한 물리적인 신호(예: 온도, 빛, 소리, 화학 물질, 전기, 자기, 압력 등)의 양 또는 변화를 감지하는 소자를 지칭할 수 있다. 여기서, 감지된 신호는 프로세서(130)가 해석할 수 있는 형식의 데이터로 변환될 수 있다. 센서(170)는 근접 센서, 조도 센서, 모션 센서, ToF 센서, GPS 센서 등 다양한 센서로 구현될 수 있다.
입력 인터페이스(180)는 다양한 사용자 명령 및 정보를 입력 받기 위한 구성으로, 다양한 입력 회로를 포함할 수 있다. 프로세서(130)는 입력 인터페이스(180)를 통해 입력된 사용자 명령에 대응되는 기능을 실행하거나, 입력 인터페이스(180)를 통해 입력된 정보를 메모리(150)에 저장할 수도 있다. 입력 인터페이스(180)는 사용자 명령을 음성 형태로 수신하기 위해 마이크(120)를 포함하거나, 사용자 명령을 터치로 입력 받기 위한 디스플레이(터치스크린)으로 구현될 수 있다.
출력 인터페이스(190)는 디스플레이 및 스피커 중 적어도 하나를 포함할 수 있으며, 다양한 출력 회로를 포함할 수 있다. 여기서, 디스플레이는 정보를 시각적인 형태(예: 문자, 이미지 등)로 출력하는 장치이다. 디스플레이는 이미지 프레임을 디스플레이 영역의 전체 또는 일부 영역에 표시할 수 있다. 디스플레이 영역은 정보 또는 데이터가 시각적으로 표시되는 픽셀 단위의 영역 전체를 지칭할 수 있다. 스피커는 정보를 청각적인 형태(예: 음성)로 출력하는 장치이다. 스피커는 오디오 처리부에 의해 디코딩이나 증폭, 노이즈 필터링과 같은 다양한 처리 작업이 수행된 각종 오디오 데이터뿐만 아니라 각종 알림 음이나 음성 메시지를 직접 소리로 출력할 수 있다.
도 4는 본 개시의 일 실시예에 따른 전자 장치의 제어 방법을 설명하기 위한 흐름도이다.
먼저, 전자 장치(100)는 컨텐츠가 선택되면, 사운드 보정 값을 이용하여 컨텐츠에 대응되는 음향 신호를 음향 출력 장치를 통해 출력(S410)할 수 있다.
그리고, 전자 장치(100)는 컨텐츠에 대응되는 사운드가 음향 출력 장치에서 출력되어 마이크에 입력되면, 마이크에 입력된 사운드에서 특징 정보를 추출(S420)할 수 있다.
그리고, 전자 장치(100)는 추출된 특징 정보에 기초하여 사운드 보정 값을 산출(S430)할 수 있다.
전자 장치(100)는 복수의 공간 정보 및 복수의 공간 정보별 특징 정보를 저장할 수 있다. 이 경우, 전자 장치(100)는 추출된 특징 정보와 저장된 특징 정보를 이용하여 복수의 공간 정보 중 하나를 선택하고, 사운드 보정 값을 선택된 공간 정보에 대응되는 사운드 보정 값으로 업데이트할 수 있다.
또한, 전자 장치(100)는 특징 정보가 입력되면 그에 대응되는 공간 특징을 식별하는 학습 모델을 기 저장할 수 있다. 이 경우, 전자 장치(100)는 추출된 특징 정보와 기 저장된 학습 모델을 이용하여 전자 장치(100)가 위치하는 공간 특징을 확인할 수 있다.
여기에서, 공간 특징은 공간 내의 전자 장치 설치 형태에 대한 정보, 전자 장치와 벽 사이의 거리 정보, 공간의 흡음 수준에 대한 정보 중 적어도 하나의 정보를 포함할 수 있다.
한편, 전자 장치(100)는 추출된 특징 정보의 주파수 영역에 대한 신호 패턴 정보 및 시간 영역에 대한 신호 패턴 정보 중 적어도 하나에 기초하여 상기 전자 장치가 위치하는 공간 특징을 확인할 수 있다. 이와 관련한 상세한 설명은 도 6 내지 도 11에서 후술하기로 한다.
그리고, 전자 장치(100)는 사운드 보정 값을 산출된 보정 값으로 업데이트(S440)할 수 있다.
이 경우, 전자 장치(100)는 기 저장된 학습 모델을 이용하여 확인된 공간 특징에 대응되는 사운드 보정 값을 이용하여 사운드 보정 값을 업데이트할 수 있다.
도 5는 본 개시의 일 실시예에 따른 전자 장치가 마이크에 입력된 사운드에서 특징 정보를 추출하는 동작을 설명하기 위한 도면이다.
전자 장치(100)는 마이크(120)에 입력된 사운드에서 공간의 특징을 확인하기 위한 정보를 포함하는 특징 정보를 추출하여 최종 특징 정보(예컨대, 추정 RIR 신호)를 생성하기 위한 신호 추출 동작 및 추출된 신호에 대한 검증 동작을 수행할 수 있다. 이에 따라, 마이크(120)에 입력된 사운드로부터 추정된 특징 정보의 정확도를 높일 수 있다.
도 5를 참고하면, 전자 장치(100)는 마이크(120)에 입력된 사운드에서 특징 정보를 복수회 추출(S510)하고, 추출된 각각의 특징 정보에 대해 제1 검증을 수행(S520)할 수 있다.
예를 들어, 전자 장치(100)는 제1 검증을 통해 추출된 특징 정보, 즉 추출된 RIR 신호의 직접음 성분의 발생 시점을 확인하고(S530), 각각의 신호들에 대한 샘플 딜레이(sample-delay)를 보정하여 시간 영역 구간별 왜곡 수준을 판별하고, 왜곡 수준이 기준치를 벗어나면 해당 특징 정보를 파기할 수 있다. 이와 같은 검증을 통과한 특징 정보가 일정 개수 이상으로 판단되면(S530-Y), 해당 특징 정보들을 메모리(150)에 일시적으로 저장할 수 있다.
그리고, 전자 장치(100)는 저장된 복수의 특징 정보에 대해 제2 검증을 수행(S540)할 수 있다.
예를 들어, 복수의 특징 정보들에 대해 샘플 딜레이(sample-delay) 수준을 비교하여 기준치를 벗어나는 특징 정보는 파기하고, 남아있는 특징 정보의 RIR 신호들을 주파수 변환하여 상호 상관 수준을 비교하여, 기준치를 벗어나는 신호에 대한 특징 정보를 파기할 수 있다(S550). 이와 같은 검증을 통과한 특징 정보가 일정 개수 이상으로 판단되면(S550-Y), 이들의 통계적 대표값을 최종 특징 정보로 생성(S560)할 수 있다.
이 경우, 전자 장치(100)는 최종적으로 생성된 특징 정보를 이용하여 공간 특징을 확인하고, 이에 대응되는 사운드 보정 값을 산출할 수 있다.
도 6 및 도 7은 본 개시의 일 실시예에 따른 전자 장치가 위치하는 공간 특징을 확인하기 위해, 추출된 특징 정보의 주파수 영역에 대한 신호 패턴을 분석하는 동작을 설명하기 위한 도면이다.
도 6은 마이크(120)에 입력된 사운드에서 추출되어, 최종적으로 생성된 특징 정보의 RIR 신호 주파수 영역에 대한 신호 패턴의 일 예를 도시한 것이며, 도 7은 복수의 서로 다른 공간 특징을 가지는 공간에서 나타나는 특징 정보의 주파수 영역에 대한 신호 패턴을 도시한 것이다.
전자 장치(100)가 TV인 경우를 예로 들어 설명하면, 공간 내에 TV를 설치할 경우 TV와 벽 사이의 거리, TV가 거치되어 있는 테이블의 유무와 같은 조건에 따라 TV 설치 공간 상에서 음압의 보강 및 상쇄 현상이 상이하게 발생할 수 있다.
본 개시의 일 실시예에서 TV 설치 공간의 음향적인 특징을 측정하기 위한 1개의 마이크가 TV에 내장되어 있는 점(즉, 음원과 음압 측정점 간의 위치가 일치되는 점)을 고려할 때, 각 추정 RIR 신호의 주파수 특성(파워 스펙트럼, Power spectrum)은 약 100 ~ 400 [Hz]의 대역 범위 안에서 공간 특성 별로 특징적인 피크(Peak) 와 딥(Dip) 형상을 갖는 파워 스펙트럼 포락선(Power spectral envelope)의 특징들을 가질 수 있다. 예를 들어, 피크(Peak) 특성의 주파수 대역, 딥(Dip) 특성의 주파수 대역, 피크(Peak) 및 딥(Dip) 특성의 파워 레벨(power level) 등의 특징이 공간 특성에 따라 상이하게 나타날 수 있다.
이에, TV 설치시의 조건들 및 100~400 [Hz]의 대역 범위에서 나타나게 될 파워 스펙트럼 포락선(Power spectral envelope) 특징들 간의 상호 관계를 사전에 각 공간 특징 별로 측정한 특성 데이터 혹은 시뮬레이션을 통해 획득한 저주파 대역 주파수 특성들 간의 상호관계를 함수 파라미터(Parameter)로 근사화 및 매핑(Mapping)함으로써, 3차함수 형태의 파라미터(Parametric) 함수로의 근사화 혹은 회귀함수 (Regression function) 나 클러스터링(Clustering)과 같은 통계적 기법을 사용한 모델링(Modelling)을 수행하여, 추정 RIR 신호의 주파수 특성과 공간 특징을 매칭할 수 있다.
또한, 이러한 파워 스펙트럼 포락선(Power spectral envelope) 패턴은 다양한 실측 데이터에 기반하여 디시전 트리(Decision tree)나 서포트 벡터 머신(Support vector machine)과 같은 기계 학습 또는 심층 신경망(Deep neural network)에 대표되는 심화 기계학습(Deep learning)을 이용하여 분석하는 것도 가능하다.
도 8 및 도 9는 본 개시의 일 실시예에 따른 전자 장치가 위치하는 공간 특징을 확인하기 위해, 추출된 특징 정보의 시간 영역에 대한 신호 패턴을 분석하는 동작을 설명하기 위한 도면이다.
공간 내에 TV 설치 상태 추정의 정확도를 높이기 위해, RIR 신호의 시간 영역 패턴을 통해 분석하는 동작을 병용할 수 있다.
도 8을 참고하면, 추출된 특징 정보의 시간 영역 패턴의 특정 구간 내에서 반사 성분이 존재하는 점을 확인할 수 있다. 반면, 도 9를 참고하면, 동일 구간 내에 반사 성분이 관찰되지 않는 점을 확인할 수 있다. 이와 같이 시간 영역에 대한 신호 패턴을 분석함으로써 공간 특징을 확인할 수 있다.
도 10 및 도 11은 본 개시의 일 실시예에 따른 전자 장치가 위치하는 공간 특징을 확인하기 위해, 추출된 특징 정보의 시간 영역에 대한 신호 패턴의 잔향 시간을 분석하는 동작을 설명하기 위한 도면이다.
잔향 시간이란, 음파가 공간에 방사된 경우 공간 안에서 음파가 어떻게 반사되고 있는지 파악하는 용도로 활용 가능한 특징 값이다. 예컨대, 임펄스 응답 (Impulse response, IR) 신호의 시간 영역에 대한 신호 패턴에서 나타나는 직접음 (신호 패턴에서 진폭 크기가 가장 큰 성분)의 진폭 크기를 기준으로 하여, 신호 진폭 레벨이 일정 수준까지 감쇄하기까지의 시간 간격을 해당 공간의 잔향 시간으로 결정할 수 있다. 전자 장치(100)는 잔향 시간에 기초하여, 공간의 흡읍 정도를 추정할 수 있으며, 흡음 정도가 큰 공간의 경우 일반적으로 사용자가 청취하는 사운드의 명료도가 낮아지는 현상이 발생하므로 이를 보정할 수 있는 사운드 보정 값을 산출할 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims (15)

  1. 전자 장치에 있어서,
    사운드를 출력하며 회로를 포함하는 음향 출력 장치;
    마이크; 및
    컨텐츠가 선택되면, 사운드 보정 값을 이용하여 상기 컨텐츠에 대응되는 음향 신호가 출력되도록 상기 음향 출력 장치를 제어하는 프로세서;를 포함하고,
    상기 프로세서는,
    상기 컨텐츠에 대응되는 사운드가 상기 음향 출력 장치에서 출력되어 상기 마이크에 입력되면, 상기 마이크에 입력된 사운드에서 특징 정보를 추출하고, 상기 추출된 특징 정보에 기초하여 사운드 보정 값을 산출하고, 상기 사운드 보정 값을 상기 산출된 사운드 보정 값으로 업데이트하는, 전자 장치.
  2. 제1항에 있어서,
    복수의 공간 정보 및 상기 복수의 공간 정보별 특징 정보를 저장하는 메모리;를 더 포함하고,
    상기 프로세서는,
    상기 추출된 특징 정보와 상기 저장된 특징 정보를 이용하여 상기 복수의 공간 정보 중 하나를 선택하고, 상기 사운드 보정 값을 상기 선택된 공간 정보에 대응되는 사운드 보정 값으로 업데이트하는, 전자 장치.
  3. 제1항에 있어서,
    특징 정보가 입력되면 그에 대응되는 공간 특징을 식별하기 위한 학습 모델을 저장하는 메모리;를 더 포함하고,
    상기 프로세서는,
    상기 추출된 특징 정보와 상기 학습 모델을 이용하여 상기 전자 장치가 위치하는 공간 특징을 확인하고, 상기 확인된 공간 특징에 대응되는 사운드 보정 값을 이용하여 상기 사운드 보정 값을 업데이트하는, 전자 장치.
  4. 제3항에 있어서,
    상기 공간 특징은,
    공간 내의 전자 장치 설치 형태에 대한 정보, 전자 장치와 벽 사이의 거리 정보, 공간의 흡음 수준에 대한 정보 중 적어도 하나의 정보를 포함하는, 전자 장치.
  5. 제3항에 있어서,
    상기 프로세서는,
    상기 추출된 특징 정보의 주파수 영역에 대한 신호 패턴 정보 및 시간 영역에 대한 신호 패턴 정보 중 적어도 하나에 기초하여 상기 전자 장치가 위치하는 공간 특징을 확인하는, 전자 장치.
  6. 제1항에 있어서,
    상기 프로세서는,
    상기 컨텐츠에 대응되는 음향 신호 및 상기 음향 출력 장치의 출력 음량 값에 기초하여 상기 마이크에 입력된 사운드에서 특징 정보를 추출하는, 전자 장치.
  7. 제1항에 있어서,
    상기 프로세서는,
    적응 필터, 최적 필터 및 블라인드 오디오 소스 분리(blind audio source separation) 중 적어도 하나를 적용하여 상기 마이크에 입력된 사운드에서 특징 정보를 추출하는, 전자 장치.
  8. 제1항에 있어서,
    본체; 및
    상기 본체의 전면에 배치되며, 상기 컨텐츠에 대응되는 영상을 표시하는 디스플레이;를 더 포함하는, 전자 장치.
  9. 전자 장치의 제어 방법에 있어서,
    컨텐츠가 선택되면, 사운드 보정 값을 이용하여 상기 컨텐츠에 대응되는 음향 신호를 음향 출력 장치를 통해 출력하는 단계;
    상기 컨텐츠에 대응되는 사운드가 상기 음향 출력 장치에서 출력되어 마이크에 입력되면, 상기 마이크에 입력된 사운드에서 특징 정보를 추출하는 단계;
    상기 추출된 특징 정보에 기초하여 사운드 보정 값을 산출하는 단계; 및
    상기 사운드 보정 값을 상기 산출된 사운드 보정 값으로 업데이트하는 단계;를 포함하는, 제어 방법.
  10. 제9항에 있어서,
    복수의 공간 정보 및 상기 복수의 공간 정보별 특징 정보를 저장하는 단계;를 더 포함하고,
    상기 업데이트하는 단계는,
    상기 추출된 특징 정보와 상기 저장된 특징 정보를 이용하여 상기 복수의 공간 정보 중 하나를 선택하고, 상기 사운드 보정 값을 상기 선택된 공간 정보에 대응되는 사운드 보정 값으로 업데이트하는, 제어 방법.
  11. 제9항에 있어서,
    특징 정보가 입력되면 그에 대응되는 공간 특징을 식별하기 위한 학습 모델을 저장하는 단계;를 더 포함하고,
    상기 보정 값을 산출하는 단계는,
    상기 추출된 특징 정보와 상기 학습 모델을 이용하여 상기 전자 장치가 위치하는 공간 특징을 확인하는 단계;를 더 포함하고,
    상기 업데이트하는 단계는,
    상기 확인된 공간 특징에 대응되는 사운드 보정 값을 이용하여 상기 사운드 보정 값을 업데이트하는, 제어 방법.
  12. 제11항에 있어서,
    상기 공간 특징은,
    공간 내의 전자 장치 설치 형태에 대한 정보, 전자 장치와 벽 사이의 거리 정보, 공간의 흡음 수준에 대한 정보 중 적어도 하나의 정보를 포함하는, 제어 방법.
  13. 제11항에 있어서,
    상기 공간 특징을 확인하는 단계는,
    상기 추출된 특징 정보의 주파수 영역에 대한 신호 패턴 정보 및 시간 영역에 대한 신호 패턴 정보 중 적어도 하나에 기초하여 상기 전자 장치가 위치하는 공간 특징을 확인하는, 제어 방법.
  14. 제9항에 있어서,
    상기 특징 정보를 추출하는 단계는,
    상기 컨텐츠에 대응되는 음향 신호 및 상기 음향 출력 장치의 출력 음량 값에 기초하여 상기 마이크에 입력된 사운드에서 특징 정보를 추출하는, 제어 방법.
  15. 제9항에 있어서,
    상기 특징 정보를 추출하는 단계는,
    적응 필터, 최적 필터 및 블라인드 오디오 소스 분리(blind audio source separation) 중 적어도 하나를 적용하여 상기 마이크에 입력된 사운드에서 특징 정보를 추출하는, 제어 방법.
PCT/KR2021/016635 2020-11-16 2021-11-15 전자 장치 및 이의 제어 방법 WO2022103222A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP21892389.4A EP4203502A4 (en) 2020-11-16 2021-11-15 ELECTRONIC DEVICE AND ITS CONTROL METHOD
US17/665,060 US11974116B2 (en) 2020-11-16 2022-02-04 Electronic device and control method thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200153109A KR20220066746A (ko) 2020-11-16 2020-11-16 전자 장치 및 이의 제어 방법
KR10-2020-0153109 2020-11-16

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/665,060 Continuation US11974116B2 (en) 2020-11-16 2022-02-04 Electronic device and control method thereof

Publications (1)

Publication Number Publication Date
WO2022103222A1 true WO2022103222A1 (ko) 2022-05-19

Family

ID=81602511

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/016635 WO2022103222A1 (ko) 2020-11-16 2021-11-15 전자 장치 및 이의 제어 방법

Country Status (2)

Country Link
KR (1) KR20220066746A (ko)
WO (1) WO2022103222A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030064746A1 (en) * 2001-09-20 2003-04-03 Rader R. Scott Sound enhancement for mobile phones and other products producing personalized audio for users
KR20100024552A (ko) * 2008-08-26 2010-03-08 엘지전자 주식회사 사용자의 제스쳐를 이용한 전자 장치의 오디오 출력 및 입력 제어방법
KR20150098809A (ko) * 2014-02-21 2015-08-31 삼성전자주식회사 전자장치에서 마이크의 감도에 따른 자동 이득 조절 방법 및 장치
KR20190023302A (ko) * 2017-08-28 2019-03-08 삼성전자주식회사 지정된 주파수 대역의 신호를 이용하여 외부 객체의 근접을 확인하는 전자 장치 및 전자 장치 제어 방법
KR20200078184A (ko) * 2018-12-21 2020-07-01 삼성전자주식회사 전자 장치 및 그 제어 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030064746A1 (en) * 2001-09-20 2003-04-03 Rader R. Scott Sound enhancement for mobile phones and other products producing personalized audio for users
KR20100024552A (ko) * 2008-08-26 2010-03-08 엘지전자 주식회사 사용자의 제스쳐를 이용한 전자 장치의 오디오 출력 및 입력 제어방법
KR20150098809A (ko) * 2014-02-21 2015-08-31 삼성전자주식회사 전자장치에서 마이크의 감도에 따른 자동 이득 조절 방법 및 장치
KR20190023302A (ko) * 2017-08-28 2019-03-08 삼성전자주식회사 지정된 주파수 대역의 신호를 이용하여 외부 객체의 근접을 확인하는 전자 장치 및 전자 장치 제어 방법
KR20200078184A (ko) * 2018-12-21 2020-07-01 삼성전자주식회사 전자 장치 및 그 제어 방법

Also Published As

Publication number Publication date
KR20220066746A (ko) 2022-05-24

Similar Documents

Publication Publication Date Title
WO2020189955A1 (en) Method for location inference of iot device, server, and electronic device supporting the same
WO2018208026A1 (ko) 수신된 음성 입력의 입력 음량에 기반하여 출력될 소리의 출력 음량을 조절하는 사용자 명령 처리 방법 및 시스템
WO2014175594A1 (ko) 사용자 개별 환경 맞춤 방식의 보청기의 피팅 방법 및 이를 위한 저장 매체
CN109600424B (zh) 一种集成微主机、网络接入和音频采集的教室智慧终端
JP2023526393A (ja) 周囲光検出方法及び電子機器
WO2020054980A1 (ko) 음소기반 화자모델 적응 방법 및 장치
CN114125639A (zh) 音频信号处理方法、装置及电子设备
WO2017104859A1 (ko) 사물인터넷 서비스 시나리오 생성을 위한 컴퓨터 프로그램, 휴대용 단말기, 및 게이트웨이 장치
WO2019031767A1 (en) DISPLAY APPARATUS AND CONTROL METHOD THEREOF
WO2022103222A1 (ko) 전자 장치 및 이의 제어 방법
US20190026265A1 (en) Information processing apparatus and information processing method
WO2020130461A1 (en) Electronic apparatus and control method thereof
WO2021149898A1 (ko) 인공지능형 멀티미디어장치 제어 방법 및 시스템
US11227423B2 (en) Image and sound pickup device, sound pickup control system, method of controlling image and sound pickup device, and method of controlling sound pickup control system
WO2017078329A1 (ko) 전자장치 및 그의 동작 방법
KR102522567B1 (ko) 전자 장치 및 그 동작 방법
WO2023085859A1 (ko) 보청 이어폰을 이용한 청각 모니터링 방법 및 그 시스템
WO2015126008A1 (ko) 음향조명기기의 밸런스 조절 제어 방법
WO2023072038A1 (zh) 图像数据的处理方法和电子设备
CN104902389A (zh) 一种信息处理方法和电子设备
US11974116B2 (en) Electronic device and control method thereof
WO2021118184A1 (ko) 사용자 단말 및 그 제어방법
WO2020138943A1 (ko) 음성을 인식하는 장치 및 방법
WO2023022552A1 (ko) 전자 장치 및 그 제어 방법
CN111010488A (zh) 音频信号处理方法、装置和电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21892389

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021892389

Country of ref document: EP

Effective date: 20230324

NENP Non-entry into the national phase

Ref country code: DE