WO2022114516A1 - Electronic device and control method therefor - Google Patents

Electronic device and control method therefor Download PDF

Info

Publication number
WO2022114516A1
WO2022114516A1 PCT/KR2021/014128 KR2021014128W WO2022114516A1 WO 2022114516 A1 WO2022114516 A1 WO 2022114516A1 KR 2021014128 W KR2021014128 W KR 2021014128W WO 2022114516 A1 WO2022114516 A1 WO 2022114516A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio source
audio
location
sound image
audio signal
Prior art date
Application number
PCT/KR2021/014128
Other languages
French (fr)
Korean (ko)
Inventor
황인우
김선민
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of WO2022114516A1 publication Critical patent/WO2022114516A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Definitions

  • the present disclosure relates to an electronic device and a control method thereof, and more particularly, to an electronic device capable of identifying a virtual sound image location corresponding to an audio source included in an audio signal and a control method thereof.
  • the present disclosure has been devised to solve the above problems, and an object of the present disclosure is to identify a sound image location matching an audio source based on information about an audio source included in an audio signal input in real time, and to An object of the present invention is to provide an electronic device that processes an audio source so that a corresponding sound image position becomes an identified sound image position, and a control method thereof.
  • an electronic device includes a processor, and when an audio signal is input, the processor acquires information about an audio source included in the input audio signal, and the acquired audio source generating at least one audio source from the input audio signal based on information on It is possible to process the at least one audio source so as to become a sound image location, and output the processed audio source.
  • the processor analyzes the input audio signal, and the information on the audio source includes information on a type of an audio source included in the audio signal or a ratio of at least one audio source included in the audio signal. can be obtained.
  • the processor may identify a type of an audio source included in the audio source based on information about the audio source, and generate the identified type of audio source from the audio signal.
  • the electronic device further includes a speaker, and the sound image location matching the audio source includes a first location corresponding to an area in which the speaker is located, a second location corresponding to an area extending in the first direction from the speaker, and The speaker may be at least one of a third location corresponding to an area extending in the second direction.
  • a position of a sound image corresponding to a first audio source including a voice is the first position
  • a position of a sound image corresponding to a second audio source including music among types of the audio source is the first position.
  • the sound image positions corresponding to the third audio source including the background sound among the types of the audio sources may be the first position, the second position, and the third position.
  • the processor when the third audio source is generated from the audio signal, the processor is configured to set the third position so that sound image positions corresponding to the third audio source become the first position, the second position, and the third position.
  • the audio source may be processed, and the processed third audio source may be stereo-mixed to obtain a final audio source, and the final audio source may be output.
  • the processor may be configured to identify that the audio signal is configured of the first type of audio source when a ratio of the first type among the types of the plurality of audio sources included in the audio signal exceeds a threshold value.
  • the electronic device further includes a display, and the processor controls the display to display a UI capable of controlling the second position and the third position, and the second position or the second position through the UI.
  • a user command for controlling at least one of the three locations is input, at least one of the second location and the third location may be controlled based on the inputted user command.
  • a method of controlling an electronic device when an audio signal is input, acquiring information on an audio source included in the input audio signal; identifying a type of an audio source included in the audio source based on, generating an audio source of the identified type from the audio signal, identifying a sound image location matching the at least one audio source, and the at least one processing the at least one audio source so that a sound image position corresponding to the audio source of ' becomes the identified sound image position, and outputting the processed audio source.
  • the acquiring may include analyzing the input audio signal and adding information about the type of the audio source included in the audio signal or the ratio of at least one audio source included in the audio signal to the audio source. It may include the step of obtaining information about.
  • the processing may include, when the third audio source is generated from the audio signal, the sound image positions corresponding to the third audio source become the first position, the second position, and the third position. processing a third audio source, wherein the outputting includes performing stereo mixing on the processed third audio source to obtain a final audio source, and outputting the final audio source can
  • control method further includes the step of identifying that the audio signal is composed of the audio source of the first type when a ratio of the first type among the types of the plurality of audio sources included in the audio signal exceeds a threshold value may include
  • control method includes displaying a UI for controlling the second position and the third position, and when a user command for controlling at least one of the second position and the third position is input through the UI, The method may further include controlling at least one of the second location and the third location based on the input user command.
  • the electronic device may efficiently provide a high-realistic sound to the user by applying a virtual sound image application technology to an audio signal input in real time.
  • FIG. 1 is a block diagram schematically illustrating a configuration of an electronic device according to an embodiment of the present disclosure
  • FIG. 2 is a diagram for explaining a process in which an electronic device identifies a sound image location matching an audio source included in an audio signal, according to an embodiment of the present disclosure
  • FIG. 3 is a view for explaining a process in which an electronic device processes and outputs an input audio signal according to an embodiment of the present disclosure
  • FIG. 4 is a flowchart for explaining a method of controlling an electronic device according to an embodiment of the present disclosure
  • FIG. 5 is a detailed block diagram illustrating the configuration of an electronic device according to an embodiment of the present disclosure.
  • expressions such as “have,” “may have,” “include,” or “may include” indicate the presence of a corresponding characteristic (eg, a numerical value, function, operation, or component such as a part). and does not exclude the presence of additional features.
  • expressions such as “A or B,” “at least one of A and/and B,” or “one or more of A or/and B” may include all possible combinations of the items listed together.
  • “A or B,” “at least one of A and B,” or “at least one of A or B” means (1) includes at least one A, (2) includes at least one B; Or (3) it may refer to all cases including both at least one A and at least one B.
  • a component eg, a first component
  • another component eg, a second component
  • the certain element may be directly connected to the other element or may be connected through another element (eg, a third element).
  • a component eg, a first component
  • another component eg, a second component
  • the expression “a device configured to” may mean that the device is “capable of” with other devices or parts.
  • a processor configured (or configured to perform) A, B, and C refers to a dedicated processor (eg, an embedded processor) for performing the corresponding operations, or by executing one or more software programs stored in a memory device.
  • a generic-purpose processor eg, a CPU or an application processor
  • a 'module' or 'unit' performs at least one function or operation, and may be implemented as hardware or software, or a combination of hardware and software.
  • a plurality of 'modules' or a plurality of 'units' may be integrated into at least one module and implemented with at least one processor, except for 'modules' or 'units' that need to be implemented with specific hardware.
  • Electronic devices include smart phones, tablet PCs, desktop PCs, laptop PCs or wearable devices, various medical devices (eg, various portable medical measuring devices (blood glucose monitors, heart rate monitors, blood pressure monitors, or body temperature monitors, etc.), magnetic resonance angiography (MRA) ), magnetic resonance imaging (MRI), computed tomography (CT), an imager, or an ultrasound machine), a navigation device, an automobile infotainment device, or an Internet of Things device.
  • various medical devices eg, various portable medical measuring devices (blood glucose monitors, heart rate monitors, blood pressure monitors, or body temperature monitors, etc.), magnetic resonance angiography (MRA) ), magnetic resonance imaging (MRI), computed tomography (CT), an imager, or an ultrasound machine
  • MRA magnetic resonance angiography
  • MRI magnetic resonance imaging
  • CT computed tomography
  • ultrasound machine an imager
  • navigation device e.g., a navigation device, an automobile infotainment device, or an Internet of Things device.
  • a sound image means a position where a listener feels that an audio source is output.
  • the actual sound is output from the speaker, but the point where the sound source of the audio source is virtually focused is called the sound image.
  • FIG. 1 is a block diagram schematically illustrating a configuration of an electronic device 100 according to an embodiment of the present disclosure.
  • the electronic device 100 may include a memory 110 , a speaker 120 , and a processor 130 .
  • the configuration shown in FIG. 1 is an exemplary diagram for implementing embodiments of the present disclosure, and appropriate hardware and software configurations at a level obvious to those skilled in the art may be additionally included in the electronic device 100 .
  • the memory 110 may store commands or data related to at least one other component of the electronic device 100 .
  • the memory 110 is accessed by the processor 130 , and reading/writing/modification/deletion/update of data by the processor 130 may be performed.
  • the term "memory” refers to a memory 110, a ROM (not shown) in the processor 130, a RAM (not shown), or a memory card (not shown) mounted in the electronic device 100 (eg, micro SD). card, memory stick).
  • programs and data for configuring various screens to be displayed in the display area of the display may be stored in the memory 110 .
  • the memory 110 may be implemented as a volatile memory such as a buffer.
  • Information about the audio source obtained through the processor 130 may be stored in the memory 110 .
  • the information on the audio source may include information on the type of the audio source included in the audio signal or the ratio of at least one audio source included in the audio signal.
  • the type of the audio source may be expressed as an audio scene, and information about the audio source may be expressed as audio scene information.
  • An audio scene refers to a unit classified based on a plurality of sound sources constituting an audio signal.
  • the memory 110 may include information on a location of a sound image matched with at least one audio source.
  • the information on the location of the sound image matched with the audio source may include information on the location of the sound image that can be matched for each type of audio source.
  • the information on the sound image location may include information that, when the type of the first audio source is voice, the sound image location corresponding to the first audio source is the first location corresponding to the area where the speaker is located. A description related to this will be described in detail in a section to be described later.
  • the speaker 120 is configured to output various audio data on which various processing tasks such as decoding, amplification, and noise filtering have been performed by the processor 130 .
  • the speaker 120 may output an audio source processed so that a sound image position corresponding to the audio source becomes a sound image position matching the type of the audio source.
  • the speaker 120 may output various types of audio data processed in the input/output interface, as well as various notification sounds or voice messages.
  • the speaker 120 may be implemented as a stereo speaker mounted at the bottom of the electronic device 100 .
  • the number of speakers 120 may be one or a plurality.
  • the speaker 120 may be mounted on various parts of the electronic device 100 .
  • the processor 130 may be electrically connected to the memory 110 to control overall functions and operations of the electronic device 100 . An operation performed by the processor 130 will be described in detail with reference to FIGS. 2 and 3 .
  • the processor 130 may receive an audio signal.
  • the processor 130 may receive an audio signal from an external device (eg, a USB flash drive, a set-top box, etc.) through an input/output interface.
  • the processor 130 may receive an audio signal from an external device (eg, a smart phone, etc.) through a communication interface.
  • the input audio signal may include an audio streaming signal or the like.
  • the processor 130 may obtain information about an audio source included in the audio signal by analyzing 210 the input audio signal.
  • the processor 130 may acquire information on the audio source included in the audio source by inputting the audio source to a neural network model trained to output information on the audio source included in the audio signal.
  • the trained neural network model includes the first neural network model trained to recognize the type of the audio source based on the time frequency shape of the audio signal, and the first neural network model trained to recognize the type of the audio source based on the spectral envelope shape of the audio signal.
  • a second neural network model and a third neural network model trained to recognize a type of an audio source based on a feature vector extracted from the audio signal may be included.
  • the neural network model may be composed of a plurality of neural network layers. Each layer has a plurality of weight values, and the layer operation is performed through the operation of the previous layer and the operation of the plurality of weights.
  • Examples of neural networks include Convolutional Neural Network (CNN), Deep Neural Network (DNN), Recurrent Neural Network (RNN), Restricted Boltzmann Machine (RBM), Deep Belief Network (DBN), Bidirectional Recurrent Deep Neural Network (BRDNN), GAN.
  • CNN Convolutional Neural Network
  • DNN Deep Neural Network
  • RNN Restricted Boltzmann Machine
  • DBN Deep Belief Network
  • BBN Bidirectional Recurrent Deep Neural Network
  • GAN GAN
  • the information on the audio source may include information on the type of the audio source included in the audio signal or the ratio of at least one audio source included in the audio signal.
  • the type of the audio source may be classified into a first audio signal including voice, a second audio signal including music, and a third audio signal including background sound.
  • the audio signal when various types of audio sources such as voices, music, background sounds, and sounds generated in the air such as helicopter sounds are included in the audio signal, information on the audio source is provided for each of the various types of audio sources constituting the audio signal. Information about the ratio may be included. For example, the information about the audio signal consists of 78% of the first audio source including voice, 20% of the second audio source including music, and 2% of the third audio source including background sound. It may include information that
  • the processor 130 determines that the audio signal is configured as the audio source of the first type. can be identified.
  • the threshold value may be a preset value determined according to an experiment or research, but is not limited thereto and may be changed by a user.
  • the processor 130 may identify that the ratio of the first audio source to the audio signal exceeds a threshold, and the audio signal may be identified as being composed of the first audio source.
  • the processor 130 may generate 220 at least one audio source from the input audio signal based on the information on the audio source. Specifically, the processor 130 may identify the type of the audio source included in the audio source based on information about the audio source. Then, the processor 130 may generate an audio source of the identified type from the audio signal.
  • the audio signal includes a first audio source in voice.
  • the processor 130 may identify that the first audio source including voice is included in the audio signal by using the information on the audio signal.
  • the processor 130 may generate a first audio source that is an audio source of a type identified in the audio signal.
  • the audio signal includes a second audio source including music and a third audio source including a background sound.
  • the processor 130 may identify that the second and third audio sources are included in the audio signal by using the information on the audio source.
  • the processor 130 may generate second and third audio sources that are audio sources of a type identified in the audio signal.
  • the processor 130 may identify a sound image location matching the at least one audio source, and process the at least one audio source so that the sound image location corresponding to the at least one audio source becomes the identified sound image location.
  • the processor 130 may identify a sound image location corresponding to the audio source by using information about the sound image location matching the audio source stored in the memory 110 .
  • the sound image location matching the audio source is a first location corresponding to an area in which the speaker 120 is located, a second location corresponding to an area extending in the first direction from the speaker 120 , and a location in the speaker 120 . It may be at least one of the third locations corresponding to the area extended in the second direction.
  • the first direction may be a horizontal direction and the second direction may be a vertical direction, but is not limited thereto and may be set in various directions.
  • FIG. 3 illustrates a case in which the electronic device 100 is implemented as a TV as a display device, and a speaker is mounted on the lower part of the TV and is implemented as stereo speakers 120-1 and 120-2.
  • the present invention is not limited thereto, and the type of the electronic device 100 and the number and location of speakers may be variously implemented.
  • the first position means a position corresponding to an area in which the speakers 120 - 1 and 120 - 2 are located.
  • the sound image location matching the specific audio source is the first location, it means that the specific audio source is set to be output through the speakers 120 - 1 and 120 - 2 as it is.
  • the second position refers to positions 300 and 310 corresponding to regions extended in the first direction (eg, a horizontal direction) from the speakers 120 - 1 and 120 - 2 .
  • the fact that the sound image position matching the specific audio source is the second position creates the sound image position so that it is felt as if the specific audio source is output from the position corresponding to the area extended in the first direction from the speakers 120-1 and 120-2 Or it means you have to control it.
  • the third position refers to positions 320 and 330 corresponding to regions extended in the second direction (eg, a vertical direction) from the speakers 120 - 1 and 120 - 2 .
  • the fact that the sound image position matching the specific audio source is the third position creates the sound image position so that it is felt as if the specific audio source is output from a position corresponding to the area extended in the second direction from the speakers 120-1 and 120-2 Or it means you have to control it.
  • a sound image position corresponding to a first audio source including voice among types of audio sources is a first sound image position
  • a sound image position corresponding to a second audio source including music among types of audio sources is the second 2 sound image positions
  • sound image positions corresponding to a third audio source including a background sound among types of audio scenes may be a first position, a second position, and a third position.
  • outputting the first audio source including voice through the speaker 120 as it is may be most suitable from the viewpoint of voice intelligibility. Accordingly, the sound image position corresponding to the first audio source including the voice may be set as the first sound image position.
  • the processor 130 when the first audio source is generated from the audio signal, the processor 130 outputs the first audio source through the speaker 120 without performing an operation for generating the virtual sound image position (230-1). can In this case, the processor 130 does not perform an operation for generating the virtual sound image position, but may perform various processing operations such as decoding, amplification, and noise filtering on the first audio source and output the same.
  • a mixing engineer often mixes an audio source that includes music composed of instrumental sounds and the like by placing speakers around 30 degrees from the center of the horizontal plane. Accordingly, the sound image position corresponding to the second audio source including music may be set as the second sound image position.
  • the processor 130 corresponds to a region in which the position of the sound image corresponding to the second audio source is extended 230 - 2 in the horizontal plane direction with respect to the speaker 120 .
  • the second audio source can be processed to be a second location where the
  • the position of the sound image corresponding to the third audio source including the background sound may be set to a plurality of positions (the first position, the second position, and the third position).
  • the processor 130 determines that the location of the sound image corresponding to the third audio source is a plurality of locations (eg, a first location corresponding to a region in which the speaker 120 is located; A second position corresponding to an area extended (230-2) in the horizontal direction with respect to the speaker 120 and a third position corresponding to an area extended (230-3) in a vertical direction with respect to the speaker 120)
  • the third audio source may be processed to become
  • a sense of presence may be improved when the sound is output from the upper direction with respect to the speaker. Accordingly, a sound image position corresponding to the fourth audio source including a helicopter sound, an airplane sound, and the like may be set as the third position. Accordingly, when the fourth audio source is generated from the audio signal, the processor 130 corresponds to the area of the sound image corresponding to the fourth audio source extended 230 - 3 in the vertical plane direction with respect to the speaker 120 .
  • the fourth audio source can be processed to be a third location where the
  • the processor 130 determines that the sound image location corresponding to the third audio source is a plurality of locations (a first location, a second location, and a second location). 3 position), the third audio source may be processed, and a final audio source may be obtained by performing stereo mixing 240 on the processed third audio source. Then, the processor 130 may output the final audio source.
  • the processor 130 uses at least one of a cross-talk cancellation (XTC) function or a head related transfer function (HRTF) so that the position of the sound image corresponding to the audio source becomes a position corresponding to the area extended in the horizontal or vertical direction. It can handle audio sources. In addition, the processor 130 may process the audio source so that the number of sound images corresponding to the audio source is plural by using at least one of the XTC function and the HRTF.
  • XTC cross-talk cancellation
  • HRTF head related transfer function
  • the processor 130 may control the display 180 to display a UI capable of controlling the second position and the third position.
  • a UI element capable of changing the second position and the third position according to a change of a parameter related to an XTC function or HRTF may be included on the UI.
  • changing the second position means changing the extent to which the speaker 120 is expanded in the horizontal direction with respect to the speaker 120 .
  • Changing the third position means changing the extent to which the speaker 120 is extended in the vertical direction with respect to the speaker 120 .
  • the processor 130 may control at least one of the second location or the third location based on the input user command.
  • the processor 130 may change the parameter related to the XTC function or HRTF for adjusting the second location to correspond to the user command.
  • the processor 130 includes a central processing unit (CPU), a micro controller unit (MCU), a micro processing unit (MPU), a digital signal processor (DSP), and an application processor for processing a digital signal. (AP)), or a communication processor (CP).
  • the processor 130 may be implemented as a system on chip (SoC), large scale integration (LSI), or a field programmable gate array (FPGA) having a built-in processing algorithm.
  • the processor 130 may include at least one of a graphics-processing unit (GPU), a neural processing unit (NPU), and a visual processing unit (VPU), which are separate AI-only processors, in order to perform an artificial intelligence function. .
  • FIG. 4 is a flowchart illustrating a method of controlling the electronic device 100 according to an embodiment of the present disclosure.
  • the electronic device 100 may receive an audio signal (S410).
  • the electronic device 100 may receive an audio signal from an external device (eg, a set-top box, a USB flash drive, etc.) connected through an input/output interface.
  • the electronic device 100 may receive an audio signal from an external device (eg, a smart phone, an AI speaker, a microphone, etc.) connected through a communication interface.
  • the electronic device 100 may obtain information on an audio source included in the input audio signal (S420).
  • the electronic device 100 may analyze the input audio signal to obtain information on the audio source including information on the type of the audio source included in the audio signal or the ratio of at least one audio source included in the audio signal. have.
  • the electronic device 100 may generate at least one audio source from the input audio signal based on the obtained information on the audio source (S430). Specifically, the electronic device 100 may identify the type of the audio source included in the audio source based on the information on the audio source. In addition, the electronic device 100 may generate an audio source of a type identified on the audio signal.
  • the electronic device 100 may identify a sound image location matching at least one audio source (S440).
  • the sound image location matching the audio source is at least one of a first location corresponding to an area in which the speaker is located, a second location corresponding to an area extending in a horizontal direction from the speaker, and a third location corresponding to an area extending in a vertical direction from the speaker. can be one
  • a sound image position corresponding to a first audio source including voice among types of audio sources is a first position
  • a sound image position corresponding to a second audio source including music among types of audio sources is a second position.
  • the sound image position corresponding to the third audio source including the background sound among the types of the audio scene may be a plurality of virtual sound image positions (a first position, a second position, and a third position).
  • a sound image location corresponding to a fourth audio source including a sound output from an upward direction, such as an airplane sound or a helicopter sound, among types of audio sources may be a second location.
  • the electronic device 100 may process the at least one audio source so that the sound image position corresponding to the at least one audio source becomes the identified sound image position (S450). For example, when the first audio source is generated from the audio signal, the electronic device 100 may process the first audio source so that the position of the sound image of the first audio source becomes the first position.
  • the electronic device 100 determines that the sound image position corresponding to the third audio source has a plurality of sound image positions (the first position, the second position, and the third position). As much as possible, a third audio source may be processed.
  • the electronic device 100 may output the processed audio source (S460).
  • the electronic device 100 may output the processed audio source after performing various processing operations such as decoding, amplification, and noise filtering.
  • the electronic device 100 processes the third audio source so that the sound image position corresponding to the third audio source becomes a plurality of sound image positions (the first position, the second position, and the third position), and 3
  • the final audio source may be obtained by performing stereo mixing on the audio source, and the obtained final audio source may be output.
  • the electronic device 100 includes a memory 110 , a speaker 120 , a processor 130 , a communication interface 140 , a microphone 150 , a user interface 160 , and an input/output interface 170 . ), a display 180 and a camera 190 may be included. Since the memory 110 , the speaker 120 , and the processor 130 have been described in detail with reference to FIGS. 1 and 2 , redundant descriptions will be omitted.
  • the communication interface 140 is configured to communicate with various types of external devices according to various types of communication methods.
  • the communication interface 140 may include various wireless communication modules such as a Wi-Fi module, a Bluetooth module, and an infrared communication module.
  • each communication module may be implemented in the form of at least one hardware chip.
  • the Wi-Fi module and the Bluetooth module perform communication using a WiFi method and a Bluetooth method, respectively.
  • various types of connection information such as an SSID and a session key are first transmitted and received, and then various types of information can be transmitted/received after communication connection using this.
  • the infrared communication module communicates according to the infrared data association (IrDA) technology, which wirelessly transmits data in a short distance using infrared that is between visible light and millimeter wave.
  • IrDA infrared data association
  • the wireless communication module includes Zigbee, 3rd Generation (3G), 3rd Generation Partnership Project (3GPP), Long Term Evolution (LTE), LTE Advanced (LTE-A), 4th Generation (4G), 5G It may include at least one communication chip that performs communication according to various wireless communication standards such as (5th Generation).
  • 3G 3rd Generation
  • 3GPP 3rd Generation Partnership Project
  • LTE Long Term Evolution
  • LTE-A LTE Advanced
  • 4G 4th Generation
  • 5G 5G It may include at least one communication chip that performs communication according to various wireless communication standards such as (5th Generation).
  • the communication interface 140 is at least one of a wired communication module for performing communication using a LAN (Local Area Network) module, an Ethernet module, a pair cable, a coaxial cable, an optical fiber cable, or a UWB (Ultra Wide-Band) module, etc. may include
  • the communication interface 140 may use the same communication module (eg, Wi-Fi module) to communicate with an external device such as a remote control and an external server.
  • an external device such as a remote control and an external server.
  • the communication interface 140 may use a different communication module (eg, a Wi-Fi module) to communicate with an external device such as a remote control and an external server.
  • a different communication module eg, a Wi-Fi module
  • the communication interface 140 may use at least one of an Ethernet module or a WiFi module to communicate with an external server, and may use a BT module to communicate with an external device such as a remote control.
  • this is only an embodiment, and when communicating with a plurality of external devices or external servers, the communication interface 140 may use at least one communication module among various communication modules.
  • the electronic device 100 may additionally include a tuner and a demodulator according to an embodiment.
  • a tuner (not shown) may receive an RF broadcast signal by tuning a channel selected by a user or all channels previously stored among radio frequency (RF) broadcast signals received through an antenna.
  • a demodulator (not shown) may receive and demodulate the digital IF signal (DIF) converted by the tuner, and may perform channel decoding and the like.
  • DIF digital IF signal
  • the electronic device 100 may receive the content including the audio signal from the outside in real time through the communication interface 140 or the tuner.
  • the microphone 150 is configured to receive a user's voice or other sound and convert it into an audio signal.
  • the microphone 150 may receive a user's voice in an activated state.
  • the microphone 150 may be mounted inside the electronic device 100 , but is not limited thereto.
  • the microphone 150 may be provided outside the electronic device 100 and may be electrically connected to the electronic device 100 or may be connected through wireless communication.
  • the microphone 150 may be integrally formed on the top, front, or side of the electronic device 100 .
  • the microphone 150 includes a microphone for collecting analog user voice, an amplifier circuit for amplifying the collected user voice, an A/D conversion circuit for sampling the amplified user voice and converting it into a digital signal, and a noise component from the converted digital signal. It may include various configurations such as a filter circuit that removes the
  • the user interface 160 may be implemented as a device such as a button, a touch pad, a mouse, and a keyboard, or may be implemented as a touch screen capable of performing the above-described display function and manipulation input function together.
  • the button may be various types of buttons such as a mechanical button, a touch pad, a wheel, etc. formed in an arbitrary area such as the front, side, or rear of the exterior of the main body of the electronic device 100 .
  • Input/output interface 170 is HDMI (High Definition Multimedia Interface), MHL (Mobile High-Definition Link), USB (Universal Serial Bus), DP (Display Port), Thunderbolt (Thunderbolt), VGA (Video Graphics Array) port,
  • the interface may be any one of an RGB port, a D-subminiature (D-SUB), and a digital visual interface (DVI).
  • the input/output interface 170 may input/output content including at least one of audio and video signals.
  • the input/output interface 170 may include a port for inputting and outputting only an audio signal and a port for inputting and outputting only a video signal as separate ports, or may be implemented as a single port for inputting and outputting both an audio signal and a video signal.
  • the display 180 may be implemented as various types of displays, such as a liquid crystal display (LCD), an organic light emitting diode (OLED) display, a plasma display panel (PDP), and the like.
  • LCD liquid crystal display
  • OLED organic light emitting diode
  • PDP plasma display panel
  • the display 180 may also include a driving circuit, a backlight unit, and the like, which may be implemented in the form of an a-si TFT, a low temperature poly silicon (LTPS) TFT, or an organic TFT (OTFT). Meanwhile, the display 180 may be implemented as a touch screen combined with a touch sensor, a flexible display, a three-dimensional display, or the like.
  • a driving circuit e.g., a driving circuit, a backlight unit, and the like, which may be implemented in the form of an a-si TFT, a low temperature poly silicon (LTPS) TFT, or an organic TFT (OTFT).
  • LTPS low temperature poly silicon
  • OTFT organic TFT
  • the display 180 may display various image contents (eg, broadcast contents, etc.) received from the outside.
  • the display 180 may display a UI for controlling the second position and the third position.
  • the UI may include a UI element capable of changing the second position and the third position according to changing a parameter related to an XTC function or HRTF function capable of generating a virtual sound image.
  • the camera 190 is configured to generate a captured image by capturing a subject, wherein the captured image is a concept including both a moving image and a still image.
  • the camera 190 may acquire an image of at least one external device, and may be implemented as a camera, a lens, an infrared sensor, or the like.
  • various embodiments of the present disclosure described above may be performed through an embedded server provided in an electronic device or an external server of at least one of an electronic device and a display device.
  • the various embodiments described above may be implemented as software including instructions stored in a machine-readable storage media readable by a machine (eg, a computer).
  • the device is a device capable of calling a stored command from a storage medium and operating according to the called command, and may include the electronic device according to the disclosed embodiments.
  • the processor may perform a function corresponding to the instruction by using other components directly or under the control of the processor.
  • Instructions may include code generated or executed by a compiler or interpreter.
  • the device-readable storage medium may be provided in the form of a non-transitory storage medium.
  • 'non-transitory' means that the storage medium does not include a signal and is tangible, and does not distinguish that data is semi-permanently or temporarily stored in the storage medium.
  • the method according to the various embodiments described above may be included in a computer program product and provided.
  • Computer program products may be traded between sellers and buyers as commodities.
  • the computer program product may be distributed in the form of a machine-readable storage medium (eg, compact disc read only memory (CD-ROM)) or online through an application store (eg, Play StoreTM).
  • an application store eg, Play StoreTM
  • at least a portion of the computer program product may be temporarily stored or temporarily generated in a storage medium such as a memory of a server of a manufacturer, a server of an application store, or a relay server.
  • each of the components may be composed of a single or a plurality of entities, and some sub-components of the aforementioned sub-components may be omitted, or other sub-components may be omitted. Components may be further included in various embodiments.
  • some components eg, a module or a program
  • operations performed by a module, program, or other component may be sequentially, parallelly, repetitively or heuristically executed, or at least some operations may be executed in a different order, omitted, or other operations may be added.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

An electronic device and a control method therefor are disclosed. The electronic device of the present disclosure comprises a memory and a processor, wherein, if an audio signal is input, the processor can obtain information about an audio source included in the input audio signal, can generate at least one audio source from the input audio signal on the basis of the obtained information about the audio source, can identify a sound image location matching the at least one audio source, can process the at least one audio source so that the sound image location corresponding to the at least one audio source becomes an identified sound image location, and can output the processed audio source.

Description

전자 장치 및 이의 제어 방법Electronic device and control method thereof
본 개시는 전자 장치 및 이의 제어 방법에 관한 것으로서, 더욱 상세하게는 오디오 신호에 포함된 오디오 소스에 대응되는 가상 음상 위치를 식별할 수 있는 전자 장치 및 이의 제어 방법에 관한 것이다.The present disclosure relates to an electronic device and a control method thereof, and more particularly, to an electronic device capable of identifying a virtual sound image location corresponding to an audio source included in an audio signal and a control method thereof.
대형 디스플레이 장치 및 고해상도 컨텐츠에 대한 제작 및 수요가 증가함에 따라 실감 음향 효과에 대한 사용자들의 기대 및 수요가 증가하고 있다. 또한, 디스플레이 장치의 베젤(Bezel)이 최소화됨에 따라, 스피커는 디스플레이 장치 하단에 탑재되는 경향이 존재한다.As production and demand for large display devices and high-resolution content increase, users' expectations and demands for immersive sound effects are increasing. In addition, as the bezel of the display device is minimized, the speaker tends to be mounted at the bottom of the display device.
한편, 디스플레이 화면이 작은 경우, 화면 상에 포함된 오브젝트와 출력되는 오디오의 음상이 크게 어긋나는 경우가 많지 않았다. 다만, 디스플레이 화면이 커질수록, 화면 상에 포함된 오브젝트와 음상이 어긋날 가능성이 높아지며, 사운드 스테이지가 부족하게 느껴질 가능성 역시 존재한다.On the other hand, when the display screen is small, there are not many cases where the sound image of the object included on the screen and the audio image to be output are greatly different. However, as the display screen becomes larger, the possibility that the object and the sound image included on the screen are mismatched increases, and there is also a possibility that the sound stage is felt insufficient.
이에 따라, 디스플레이 장치에서 출력되는 음원에 대응되는 음상을 정위하는 다양한 기술이 개발되고 있다. 다만, 디스플레이 장치에서 출력되는 하나의 음원에 대해 각기 다른 여러 개의 가상 음상이 생성되는 경우, 디스플레이 장치에서 출력되는 음원의 소리의 명확도가 떨어질 가능성이 존재한다Accordingly, various techniques for positioning a sound image corresponding to a sound source output from a display device have been developed. However, when a plurality of different virtual sound images are generated for one sound source output from the display device, there is a possibility that the clarity of the sound source output from the display device may decrease.
본 개시는 상술한 문제점을 해결하기 위해 안출된 것으로, 본 개시의 목적은 실시간으로 입력되는 오디오 신호에 포함된 오디오 소스에 대한 정보에 기초하여 오디오 소스에 매칭되는 음상 위치를 식별하고, 오디오 소스에 대응되는 음상 위치가 식별된 음상 위치가 되도록 오디오 소스를 처리하는 전자 장치 및 이의 제어 방법을 제공함에 있다.The present disclosure has been devised to solve the above problems, and an object of the present disclosure is to identify a sound image location matching an audio source based on information about an audio source included in an audio signal input in real time, and to An object of the present invention is to provide an electronic device that processes an audio source so that a corresponding sound image position becomes an identified sound image position, and a control method thereof.
본 개시의 일 실시예에 따른, 전자 장치는, 프로세서를 포함하고, 상기 프로세서는, 오디오 신호가 입력되면, 상기 입력된 오디오 신호에 포함된 오디오 소스에 대한 정보를 획득하고, 상기 획득된 오디오 소스에 대한 정보에 기초하여 상기 입력된 오디오 신호로부터 적어도 하나의 오디오 소스를 생성하고, 상기 적어도 하나의 오디오 소스에 매칭되는 음상 위치를 식별하고, 상기 적어도 하나의 오디오 소스에 대응되는 음상 위치가 상기 식별된 음상 위치가 되도록 상기 적어도 하나의 오디오 소스를 처리하고, 상기 처리된 오디오 소스를 출력할 수 있다.According to an embodiment of the present disclosure, an electronic device includes a processor, and when an audio signal is input, the processor acquires information about an audio source included in the input audio signal, and the acquired audio source generating at least one audio source from the input audio signal based on information on It is possible to process the at least one audio source so as to become a sound image location, and output the processed audio source.
그리고, 상기 프로세서는, 상기 입력된 오디오 신호를 분석하여 상기 오디오 신호에 포함된 오디오 소스의 유형 또는 상기 오디오 신호에 포함된 적어도 하나의 오디오 소스의 비율에 대한 정보가 포함된 상기 오디오 소스에 대한 정보를 획득할 수 있다.In addition, the processor analyzes the input audio signal, and the information on the audio source includes information on a type of an audio source included in the audio signal or a ratio of at least one audio source included in the audio signal. can be obtained.
또한, 상기 프로세서는, 상기 오디오 소스에 대한 정보에 기초하여 상기 오디오 소스에 포함된 오디오 소스의 유형을 식별하고, 상기 오디오 신호로부터 상기 식별된 유형의 오디오 소스를 생성할 수 있다.Also, the processor may identify a type of an audio source included in the audio source based on information about the audio source, and generate the identified type of audio source from the audio signal.
그리고, 전자 장치는 스피커를 더 포함하고, 상기 오디오 소스에 매칭되는 음상 위치는, 상기 스피커가 위치한 영역에 대응되는 제1 위치, 상기 스피커에서 제1 방향으로 확장된 영역에 대응되는 제2 위치 및 상기 스피커에서 제2 방향으로 확장된 영역에 대응되는 제3 위치 중 적어도 하나일 수 있다.The electronic device further includes a speaker, and the sound image location matching the audio source includes a first location corresponding to an area in which the speaker is located, a second location corresponding to an area extending in the first direction from the speaker, and The speaker may be at least one of a third location corresponding to an area extending in the second direction.
또한, 상기 오디오 소스의 유형 중 음성이 포함된 제1 오디오 소스에 대응되는 음상 위치는 상기 제1 위치이고, 상기 오디오 소스의 유형 중 음악이 포함된 제2 오디오 소스에 대응되는 음상 위치는 상기 제2 위치이고, 상기 오디오 소스의 유형 중 배경음이 포함된 제3 오디오 소스에 대응되는 음상 위치는 상기 제1 위치, 상기 제2 위치 및 상기 제3 위치일 수 있다.Also, among the types of the audio sources, a position of a sound image corresponding to a first audio source including a voice is the first position, and a position of a sound image corresponding to a second audio source including music among types of the audio source is the first position. 2, and the sound image positions corresponding to the third audio source including the background sound among the types of the audio sources may be the first position, the second position, and the third position.
그리고, 상기 프로세서는, 상기 오디오 신호로부터 상기 제3 오디오 소스가 생성된 경우, 상기 제3 오디오 소스에 대응되는 음상 위치가 상기 제1 위치, 상기 제2 위치 및 상기 제3 위치가 되도록 상기 제3 오디오 소스를 처리하고, 상기 처리된 제3 오디오 소스에 대해 스테레오 믹싱을 수행하여 최종 오디오 소스를 획득하고, 상기 최종 오디오 소스를 출력할 수 있다.And, when the third audio source is generated from the audio signal, the processor is configured to set the third position so that sound image positions corresponding to the third audio source become the first position, the second position, and the third position. The audio source may be processed, and the processed third audio source may be stereo-mixed to obtain a final audio source, and the final audio source may be output.
또한, 상기 프로세서는, 상기 오디오 신호에 포함된 복수의 오디오 소스의 유형 중 제1 유형의 비율이 임계값을 초과하는 경우, 상기 오디오 신호가 상기 제1 유형의 오디오 소스로 구성된 것으로 식별할 수 있다.Also, the processor may be configured to identify that the audio signal is configured of the first type of audio source when a ratio of the first type among the types of the plurality of audio sources included in the audio signal exceeds a threshold value. .
그리고, 전자 장치는 디스플레이를 더 포함하고, 상기 프로세서는, 상기 제2 위치 및 상기 제3 위치를 제어할 수 있는 UI를 표시하도록 상기 디스플레이를 제어하고, 상기 UI를 통해 상기 제2 위치 또는 상기 제3 위치 중 적어도 하나를 제어하는 사용자 명령이 입력되면, 상기 입력된 사용자 명령에 기초하여 상기 제2 위치 또는 상기 제3 위치 중 적어도 하나를 제어할 수 있다.And, the electronic device further includes a display, and the processor controls the display to display a UI capable of controlling the second position and the third position, and the second position or the second position through the UI. When a user command for controlling at least one of the three locations is input, at least one of the second location and the third location may be controlled based on the inputted user command.
본 개시의 일 실시예에 따른, 전자 장치의 제어 방법에 있어서, 오디오 신호가 입력되면, 상기 입력된 오디오 신호에 포함된 오디오 소스에 대한 정보를 획득하는 단계, 상기 획득된 오디오 소스에 대한 정보에 기초하여 상기 오디오 소스에 포함된 오디오 소스의 유형을 식별하고, 상기 오디오 신호로부터 상기 식별된 유형의 오디오 소스를 생성하는 단계, 상기 적어도 하나의 오디오 소스에 매칭되는 음상 위치를 식별하고, 상기 적어도 하나의 오디오 소스에 대응되는 음상 위치가 상기 식별된 음상 위치가 되도록 상기 적어도 하나의 오디오 소스를 처리하는 단계 및 상기 처리된 오디오 소스를 출력하는 단계를 포함할 수 있다.In a method of controlling an electronic device according to an embodiment of the present disclosure, when an audio signal is input, acquiring information on an audio source included in the input audio signal; identifying a type of an audio source included in the audio source based on, generating an audio source of the identified type from the audio signal, identifying a sound image location matching the at least one audio source, and the at least one processing the at least one audio source so that a sound image position corresponding to the audio source of ' becomes the identified sound image position, and outputting the processed audio source.
그리고, 상기 획득하는 단계는, 상기 입력된 오디오 신호를 분석하여 상기 오디오 신호에 포함된 오디오 소스의 유형 또는 상기 오디오 신호에 포함된 적어도 하나의 오디오 소스의 비율에 대한 정보가 포함된 상기 오디오 소스에 대한 정보를 획득하는 단계를 포함할 수 있다.In addition, the acquiring may include analyzing the input audio signal and adding information about the type of the audio source included in the audio signal or the ratio of at least one audio source included in the audio signal to the audio source. It may include the step of obtaining information about.
또한, 상기 처리하는 단계는, 상기 오디오 신호로부터 상기 제3 오디오 소스가 생성된 경우, 상기 제3 오디오 소스에 대응되는 음상 위치가 상기 제1 위치, 상기 제2 위치 및 상기 제3 위치가 되도록 상기 제3 오디오 소스를 처리하는 단계를 포함하고, 상기 출력하는 단계는, 상기 처리된 제3 오디오 소스에 대해 스테레오 믹싱을 수행하여 최종 오디오 소스를 획득하고, 상기 최종 오디오 소스를 출력하는 단계를 포함할 수 있다.The processing may include, when the third audio source is generated from the audio signal, the sound image positions corresponding to the third audio source become the first position, the second position, and the third position. processing a third audio source, wherein the outputting includes performing stereo mixing on the processed third audio source to obtain a final audio source, and outputting the final audio source can
그리고, 제어 방법은 상기 오디오 신호에 포함된 복수의 오디오 소스의 유형 중 제1 유형의 비율이 임계값을 초과하는 경우, 상기 오디오 신호가 상기 제1 유형의 오디오 소스로 구성된 것으로 식별하는 단계를 더 포함할 수 있다.And, the control method further includes the step of identifying that the audio signal is composed of the audio source of the first type when a ratio of the first type among the types of the plurality of audio sources included in the audio signal exceeds a threshold value may include
또한, 제어 방법은 상기 제2 위치 및 상기 제3 위치를 제어할 수 있는 UI를 표시하는 단계 및 상기 UI를 통해 상기 제2 위치 또는 상기 제3 위치 중 적어도 하나를 제어하는 사용자 명령이 입력되면, 상기 입력된 사용자 명령에 기초하여 상기 제2 위치 또는 상기 제3 위치 중 적어도 하나를 제어하는 단계를 더 포함할 수 있다.In addition, the control method includes displaying a UI for controlling the second position and the third position, and when a user command for controlling at least one of the second position and the third position is input through the UI, The method may further include controlling at least one of the second location and the third location based on the input user command.
상술한 바와 같은 다양한 실시예에 의해, 전자 장치는 실시간으로 입력되는 오디오 신호에 가상 음상 적용 기술을 적용하여 사용자에게 고실감 음향을 효율적으로 제공할 수 있다.According to various embodiments as described above, the electronic device may efficiently provide a high-realistic sound to the user by applying a virtual sound image application technology to an audio signal input in real time.
도 1은 본 개시의 일 실시예에 따른, 전자 장치의 구성을 간략히 도시한 블록도,1 is a block diagram schematically illustrating a configuration of an electronic device according to an embodiment of the present disclosure;
도 2는 본 개시의 일 실시예에 따른, 전자 장치가 오디오 신호에 포함된 오디오 소스에 매칭되는 음상 위치를 식별하는 과정을 설명하기 위한 도면,FIG. 2 is a diagram for explaining a process in which an electronic device identifies a sound image location matching an audio source included in an audio signal, according to an embodiment of the present disclosure;
도 3은 본 개시의 일 실시예에 따른, 전자 장치가 입력된 오디오 신호를 처리하여 출력하는 과정을 설명하기 위한 도면,3 is a view for explaining a process in which an electronic device processes and outputs an input audio signal according to an embodiment of the present disclosure;
도 4는 본 개시의 일 실시예에 따른, 전자 장치의 제어 방법을 설명하기 위한 순서도,4 is a flowchart for explaining a method of controlling an electronic device according to an embodiment of the present disclosure;
도 5는 본 개시의 일 실시예에 따른, 전자 장치의 구성을 상세히 도시한 블록도이다.5 is a detailed block diagram illustrating the configuration of an electronic device according to an embodiment of the present disclosure.
--
본 실시 예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 본 개시의 실시 예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.Since the present embodiments can apply various transformations and can have various embodiments, specific embodiments are illustrated in the drawings and described in detail in the detailed description. However, this is not intended to limit the scope of the specific embodiments, and should be understood to include various modifications, equivalents, and/or alternatives of the embodiments of the present disclosure. In connection with the description of the drawings, like reference numerals may be used for like components.
본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략한다. In describing the present disclosure, if it is determined that a detailed description of a related known function or configuration may unnecessarily obscure the subject matter of the present disclosure, a detailed description thereof will be omitted.
덧붙여, 하기 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 개시의 기술적 사상의 범위가 하기 실시 예에 한정되는 것은 아니다. 오히려, 이들 실시 예는 본 개시를 더욱 충실하고 완전하게 하고, 당업자에게 본 개시의 기술적 사상을 완전하게 전달하기 위하여 제공되는 것이다.In addition, the following examples may be modified in various other forms, and the scope of the technical spirit of the present disclosure is not limited to the following examples. Rather, these embodiments are provided to more fully and complete the present disclosure, and to fully convey the technical spirit of the present disclosure to those skilled in the art.
본 개시에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 권리범위를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.The terms used in the present disclosure are used only to describe specific embodiments, and are not intended to limit the scope of rights. The singular expression includes the plural expression unless the context clearly dictates otherwise.
본 개시에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다. In the present disclosure, expressions such as “have,” “may have,” “include,” or “may include” indicate the presence of a corresponding characteristic (eg, a numerical value, function, operation, or component such as a part). and does not exclude the presence of additional features.
본 개시에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.In this disclosure, expressions such as "A or B," "at least one of A and/and B," or "one or more of A or/and B" may include all possible combinations of the items listed together. . For example, "A or B," "at least one of A and B," or "at least one of A or B" means (1) includes at least one A, (2) includes at least one B; Or (3) it may refer to all cases including both at least one A and at least one B.
본 개시에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. As used in the present disclosure, expressions such as “first,” “second,” “first,” or “second,” may modify various elements, regardless of order and/or importance, and refer to one element. It is used only to distinguish it from other components, and does not limit the components.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. A component (eg, a first component) is "coupled with/to (operatively or communicatively)" to another component (eg, a second component); When referring to "connected to", it will be understood that the certain element may be directly connected to the other element or may be connected through another element (eg, a third element).
반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.On the other hand, when it is said that a component (eg, a first component) is "directly connected" or "directly connected" to another component (eg, a second component), the component and the It may be understood that other components (eg, a third component) do not exist between other components.
본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다. The expression “configured to (or configured to)” as used in this disclosure, depending on the context, for example, “suitable for,” “having the capacity to” ," "designed to," "adapted to," "made to," or "capable of." The term “configured (or configured to)” may not necessarily mean only “specifically designed to” in hardware.
대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.Instead, in some circumstances, the expression “a device configured to” may mean that the device is “capable of” with other devices or parts. For example, the phrase "a processor configured (or configured to perform) A, B, and C" refers to a dedicated processor (eg, an embedded processor) for performing the corresponding operations, or by executing one or more software programs stored in a memory device. , may mean a generic-purpose processor (eg, a CPU or an application processor) capable of performing corresponding operations.
실시 예에 있어서 '모듈' 혹은 '부'는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 '모듈' 혹은 복수의 '부'는 특정한 하드웨어로 구현될 필요가 있는 '모듈' 혹은 '부'를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.In an embodiment, a 'module' or 'unit' performs at least one function or operation, and may be implemented as hardware or software, or a combination of hardware and software. In addition, a plurality of 'modules' or a plurality of 'units' may be integrated into at least one module and implemented with at least one processor, except for 'modules' or 'units' that need to be implemented with specific hardware.
한편, 도면에서의 다양한 요소와 영역은 개략적으로 그려진 것이다. 따라서, 본 발명의 기술적 사상은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되지 않는다. Meanwhile, various elements and regions in the drawings are schematically drawn. Accordingly, the technical spirit of the present invention is not limited by the relative size or spacing drawn in the accompanying drawings.
한편, 본 개시의 다양한 실시 예에 따른 전자 장치는 디스플레이 장치로 구현될 수 있으나, 이는 일 실시예에 불과하다. 전자 장치는 스마트 폰, 태블릿 PC, 데스크탑 PC, 랩탑 PC 또는 웨어러블 장치, 각종 의료기기(예: 각종 휴대용 의료측정기기(혈당 측정기, 심박 측정기, 혈압 측정기, 또는 체온 측정기 등), MRA(magnetic resonance angiography), MRI(magnetic resonance imaging), CT(computed tomography), 촬영기, 또는 초음파기 등), 네비게이션 장치, 자동차 인포테인먼트 장치, 또는 사물 인터넷 장치 중 적어도 하나를 포함할 수 있다.Meanwhile, the electronic device according to various embodiments of the present disclosure may be implemented as a display device, but this is only an example. Electronic devices include smart phones, tablet PCs, desktop PCs, laptop PCs or wearable devices, various medical devices (eg, various portable medical measuring devices (blood glucose monitors, heart rate monitors, blood pressure monitors, or body temperature monitors, etc.), magnetic resonance angiography (MRA) ), magnetic resonance imaging (MRI), computed tomography (CT), an imager, or an ultrasound machine), a navigation device, an automobile infotainment device, or an Internet of Things device.
한편, 본 개시를 설명함에 있어서, 음상은 청취자가 오디오 소스가 출력되는 곳으로 느껴지는 위치를 의미한다. 실제 소리는 스피커에서 출력되지만 오디오 소스의 음원이 가상으로 맺히는 지점을 음상이라고 한다.Meanwhile, in describing the present disclosure, a sound image means a position where a listener feels that an audio source is output. The actual sound is output from the speaker, but the point where the sound source of the audio source is virtually focused is called the sound image.
이하에서는 첨부한 도면을 참고하여 본 개시에 따른 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.Hereinafter, embodiments according to the present disclosure will be described in detail with reference to the accompanying drawings so that those of ordinary skill in the art to which the present disclosure pertains can easily implement them.
도 1은 본 개시의 일 실시예에 따른, 전자 장치(100)의 구성을 간략히 도시한 블록도이다. 도 1에 도시된 바와 같이, 전자 장치(100)는 메모리(110), 스피커(120) 및 프로세서(130)를 포함할 수 있다. 다만, 도 1에 도시된 구성은 본 개시의 실시 예들을 구현하기 위한 예시도이며, 통상의 기술자에게 자명한 수준의 적절한 하드웨어 및 소프트웨어 구성들이 전자 장치(100)에 추가로 포함될 수 있다.1 is a block diagram schematically illustrating a configuration of an electronic device 100 according to an embodiment of the present disclosure. 1 , the electronic device 100 may include a memory 110 , a speaker 120 , and a processor 130 . However, the configuration shown in FIG. 1 is an exemplary diagram for implementing embodiments of the present disclosure, and appropriate hardware and software configurations at a level obvious to those skilled in the art may be additionally included in the electronic device 100 .
메모리(110)는 전자 장치(100)의 적어도 하나의 다른 구성요소에 관계된 명령 또는 데이터를 저장할 수 있다. 그리고, 메모리(110)는 프로세서(130)에 의해 액세스되며, 프로세서(130)에 의한 데이터의 독취/기록/수정/삭제/갱신 등이 수행될 수 있다.The memory 110 may store commands or data related to at least one other component of the electronic device 100 . In addition, the memory 110 is accessed by the processor 130 , and reading/writing/modification/deletion/update of data by the processor 130 may be performed.
본 개시에서 메모리라는 용어는 메모리(110), 프로세서(130) 내 롬(미도시), 램(미도시) 또는 전자 장치(100)에 장착되는 메모리 카드(미도시)(예를 들어, micro SD 카드, 메모리 스틱)를 포함할 수 있다. 또한, 메모리(110)에는 디스플레이의 디스플레이 영역에 표시될 각종 화면을 구성하기 위한 프로그램 및 데이터 등이 저장될 수 있다. 그리고, 메모리(110)는 버퍼(buffer)와 같은 휘발성 메모리로 구현될 수 있다.In the present disclosure, the term "memory" refers to a memory 110, a ROM (not shown) in the processor 130, a RAM (not shown), or a memory card (not shown) mounted in the electronic device 100 (eg, micro SD). card, memory stick). In addition, programs and data for configuring various screens to be displayed in the display area of the display may be stored in the memory 110 . In addition, the memory 110 may be implemented as a volatile memory such as a buffer.
메모리(110)에는 프로세서(130)를 통해 획득된 오디오 소스에 대한 정보가 저장될 수 있다. 오디오 소스에 대한 정보는 오디오 신호에 포함된 오디오 소스의 유형 또는 오디오 신호에 포함된 적어도 하나의 오디오 소스의 비율에 대한 정보 등이 포함될 수 있다.Information about the audio source obtained through the processor 130 may be stored in the memory 110 . The information on the audio source may include information on the type of the audio source included in the audio signal or the ratio of at least one audio source included in the audio signal.
한편, 오디오 소스의 유형은 오디오 장면(scene)이라고 표현되고, 오디오 소스에 대한 정보는 오디오 장면 정보라고 표현될 수 있다. 오디오 장면은 오디오 신호를 구성하는 복수의 음원(sound source)을 기초로 분류한 단위를 의미한다.Meanwhile, the type of the audio source may be expressed as an audio scene, and information about the audio source may be expressed as audio scene information. An audio scene refers to a unit classified based on a plurality of sound sources constituting an audio signal.
메모리(110)에는 적어도 하나의 오디오 소스에 매칭되는 음상 위치에 대한 정보가 포함될 수 있다. 오디오 소스에 매칭되는 음상 위치에 대한 정보는 오디오 소스의 유형 별로 매칭될 수 있는 음상 위치에 대한 정보가 포함될 수 있다. 예를 들어, 음상 위치에 대한 정보는, 제1 오디오 소스의 유형이 음성인 경우, 제1 오디오 소스에 대응되는 음상 위치는 스피커가 위치한 영역에 대응되는 제1 위치라는 정보가 포함될 수 있다. 이와 관련된 설명은 후술하는 부분에서 구체적으로 서술하도록 한다.The memory 110 may include information on a location of a sound image matched with at least one audio source. The information on the location of the sound image matched with the audio source may include information on the location of the sound image that can be matched for each type of audio source. For example, the information on the sound image location may include information that, when the type of the first audio source is voice, the sound image location corresponding to the first audio source is the first location corresponding to the area where the speaker is located. A description related to this will be described in detail in a section to be described later.
스피커(120)는 프로세서(130)에 의해 디코딩이나 증폭, 노이즈 필터링과 같은 다양한 처리 작업이 수행된 각종 오디오 데이터를 출력하는 구성이다. 예를 들어, 스피커(120)는 오디오 소스에 대응되는 음상 위치가 오디오 소스의 유형에 매칭되는 음상 위치가 되도록 처리한 오디오 소스를 출력할 수 있다. 또한, 스피커(120)는 입출력 인터페이스에서 처리된 각종 오디오 데이터뿐만 아니라 각종 알림 음이나 음성 메시지 등을 출력할 수 있다.The speaker 120 is configured to output various audio data on which various processing tasks such as decoding, amplification, and noise filtering have been performed by the processor 130 . For example, the speaker 120 may output an audio source processed so that a sound image position corresponding to the audio source becomes a sound image position matching the type of the audio source. In addition, the speaker 120 may output various types of audio data processed in the input/output interface, as well as various notification sounds or voice messages.
스피커(120)는 도 3에 도시된 바와 같이, 전자 장치(100)의 하단에 탑재된 스테레오 스피커(stereo speaker)로 구현될 수 있다. 다만, 이는 일 실시예에 불과하며, 스피커(120)의 개수는 한 개 또는 복수 개일 수 있다. 그리고, 스피커(120)는 전자 장치(100)의 다양한 부분에 탑재될 수 있다.As shown in FIG. 3 , the speaker 120 may be implemented as a stereo speaker mounted at the bottom of the electronic device 100 . However, this is only an embodiment, and the number of speakers 120 may be one or a plurality. In addition, the speaker 120 may be mounted on various parts of the electronic device 100 .
프로세서(130)는 메모리(110)와 전기적으로 연결되어 전자 장치(100)의 전반적인 기능 및 동작을 제어할 수 있다. 프로세서(130)가 수행하는 동작은 도 2 및 도 3을 참조하며 구체적으로 설명하도록 한다.The processor 130 may be electrically connected to the memory 110 to control overall functions and operations of the electronic device 100 . An operation performed by the processor 130 will be described in detail with reference to FIGS. 2 and 3 .
도 2에 도시된 바와 같이, 프로세서(130)는 오디오 신호를 입력받을 수 있다. 예를 들면, 프로세서(130)는 입출력 인터페이스를 통해 외부 장치(예를 들어, USB 플래시 드라이브, 셋톱 박스(set-top box) 등)로부터 오디오 신호를 입력받을 수 있다. 또 다른 실시예로, 프로세서(130)는 통신 인터페이스를 통해 외부 장치(예를 들어, 스마트 폰 등)로부터 오디오 신호를 입력받을 수 있다. 이 때, 입력되는 오디오 신호는 오디오 스트리밍(streaming) 신호 등이 포함될 수 있다.As shown in FIG. 2 , the processor 130 may receive an audio signal. For example, the processor 130 may receive an audio signal from an external device (eg, a USB flash drive, a set-top box, etc.) through an input/output interface. In another embodiment, the processor 130 may receive an audio signal from an external device (eg, a smart phone, etc.) through a communication interface. In this case, the input audio signal may include an audio streaming signal or the like.
프로세서(130)는 입력된 오디오 신호를 분석(210)하여 오디오 신호에 포함된 오디오 소스에 대한 정보를 획득할 수 있다. 프로세서(130)는 오디오 신호에 포함된 오디오 소스에 대한 정보를 출력하도록 학습된 신경망 모델(Neural Network Model)에 오디오 소스를 입력함으로써, 오디오 소스에 포함된 오디오 소스에 대한 정보를 획득할 수 있다.The processor 130 may obtain information about an audio source included in the audio signal by analyzing 210 the input audio signal. The processor 130 may acquire information on the audio source included in the audio source by inputting the audio source to a neural network model trained to output information on the audio source included in the audio signal.
이 때, 학습된 신경망 모델은, 오디오 신호의 시간 주파수 형태에 기초하여 오디오 소스의 유형을 인식하도록 학습된 제1 신경망 모델, 오디오 신호의 스펙트럼 포락선 형태에 기초하여 오디오 소스의 유형을 인식하도록 학습된 제2 신경망 모델, 및 오디오 신호로부터 추출된 특징 벡터에 기초하여 오디오 소스의 유형을 인식하도록 학습된 제3 신경망 모델 등이 포함될 수 있다.At this time, the trained neural network model includes the first neural network model trained to recognize the type of the audio source based on the time frequency shape of the audio signal, and the first neural network model trained to recognize the type of the audio source based on the spectral envelope shape of the audio signal. A second neural network model and a third neural network model trained to recognize a type of an audio source based on a feature vector extracted from the audio signal may be included.
이때, 신경망 모델은 복수의 신경망 레이어들로 구성될 수 있다. 각 레이어는 복수의 가중치(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치의 연산을 통해 레이어의 연산을 수행한다. 신경망의 예로는, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network), GAN(Generative Adversarial Networks) 및 심층 Q-네트워크 (Deep Q-Networks)이 있으며, 본 개시에서의 신경망 모델은 명시한 경우를 제외하고 전술한 예에 한정되지 않는다.In this case, the neural network model may be composed of a plurality of neural network layers. Each layer has a plurality of weight values, and the layer operation is performed through the operation of the previous layer and the operation of the plurality of weights. Examples of neural networks include Convolutional Neural Network (CNN), Deep Neural Network (DNN), Recurrent Neural Network (RNN), Restricted Boltzmann Machine (RBM), Deep Belief Network (DBN), Bidirectional Recurrent Deep Neural Network (BRDNN), GAN. There are Generative Adversarial Networks and Deep Q-Networks, and the neural network model in the present disclosure is not limited to the above-described examples, except as otherwise specified.
한편, 오디오 소스에 대한 정보는 오디오 신호에 포함된 오디오 소스의 유형 또는 오디오 신호에 포함된 적어도 하나의 오디오 소스의 비율에 대한 정보가 포함될 수 있다. 오디오 소스의 유형은 음성이 포함된 제1 오디오 신호, 음악이 포함된 제2 오디오 신호 및 배경음이 포함된 제3 오디오 신호 등으로 구분될 수 있다. 다만, 이는 일 실시예에 불과하며, 오디오 소스의 유형은 효과음 등 다양한 유형으로 구분될 수 있다.Meanwhile, the information on the audio source may include information on the type of the audio source included in the audio signal or the ratio of at least one audio source included in the audio signal. The type of the audio source may be classified into a first audio signal including voice, a second audio signal including music, and a third audio signal including background sound. However, this is only an embodiment, and the type of the audio source may be divided into various types such as sound effect.
그리고, 오디오 신호 상에 음성, 음악, 배경음 및 헬기 소리와 같이 공중에서 발생하는 소리 등 다양한 유형의 오디오 소스가 포함된 경우, 오디오 소스에 대한 정보는 오디오 신호를 구성하는 다양한 유형의 오디오 소스 각각의 비율에 대한 정보가 포함될 수 있다. 예를 들어, 오디오 신호에 대한 정보는 오디오 신호가 음성이 포함된 제1 오디오 소스가 78%, 음악이 포함된 제2 오디오 소스가 20% 및 배경음이 포함된 제3 오디오 소스가 2%로 구성되어 있다는 정보가 포함될 수 있다.In addition, when various types of audio sources such as voices, music, background sounds, and sounds generated in the air such as helicopter sounds are included in the audio signal, information on the audio source is provided for each of the various types of audio sources constituting the audio signal. Information about the ratio may be included. For example, the information about the audio signal consists of 78% of the first audio source including voice, 20% of the second audio source including music, and 2% of the third audio source including background sound. It may include information that
본 개시의 일 실시예로, 오디오 신호에 포함된 복수의 오디오 소스의 유형 중 제1 유형의 비율이 임계값을 초과하는 경우, 프로세서(130)는 오디오 신호가 제1 유형의 오디오 소스로 구성된 것으로 식별할 수 있다. 임계값은 실험 또는 연구에 따라 결정된 기설정된 값일 수 있으나, 이에 국한되는 것은 아니며 사용자에 의해 변경될 수 있다.In an embodiment of the present disclosure, when the ratio of the first type among the types of the plurality of audio sources included in the audio signal exceeds the threshold value, the processor 130 determines that the audio signal is configured as the audio source of the first type. can be identified. The threshold value may be a preset value determined according to an experiment or research, but is not limited thereto and may be changed by a user.
예를 들어, 오디오 신호에 음성이 포함된 제1 오디오 소스가 95%이고 임계값이 90%인 경우를 가정한다. 프로세서(130)는 오디오 신호에 제1 오디오 소스의 비율이 임계값을 초과한다고 식별하고, 오디오 신호는 제1 오디오 소스로 구성된 것으로 식별할 수 있다.For example, it is assumed that the first audio source including voice in the audio signal is 95% and the threshold is 90%. The processor 130 may identify that the ratio of the first audio source to the audio signal exceeds a threshold, and the audio signal may be identified as being composed of the first audio source.
프로세서(130)는 오디오 소스에 대한 정보에 기초하여 입력된 오디오 신호로부터 적어도 하나의 오디오 소스를 생성(220)할 수 있다. 구체적으로, 프로세서(130)는 오디오 소스에 대한 정보에 기초하여 오디오 소스에 포함된 오디오 소스의 유형을 식별할 수 있다. 그리고, 프로세서(130)는 오디오 신호로부터 식별된 유형의 오디오 소스를 생성할 수 있다.The processor 130 may generate 220 at least one audio source from the input audio signal based on the information on the audio source. Specifically, the processor 130 may identify the type of the audio source included in the audio source based on information about the audio source. Then, the processor 130 may generate an audio source of the identified type from the audio signal.
예를 들어, 오디오 신호에 음성에 제1 오디오 소스가 포함된 경우를 가정한다. 프로세서(130)는 오디오 신호에 대한 정보를 이용하여 오디오 신호에 음성이 포함된 제1 오디오 소스가 포함된 것으로 식별할 수 있다. 그리고, 프로세서(130)는 오디오 신호에서 식별된 유형의 오디오 소스인 제1 오디오 소스를 생성할 수 있다. For example, it is assumed that the audio signal includes a first audio source in voice. The processor 130 may identify that the first audio source including voice is included in the audio signal by using the information on the audio signal. In addition, the processor 130 may generate a first audio source that is an audio source of a type identified in the audio signal.
또 다른 실시예로, 오디오 신호에 음악이 포함된 제2 오디오 소스 및 배경음이 포함된 제3 오디오 소스가 포함된 경우를 가정한다. 프로세서(130)는 오디오 소스에 대한 정보를 이용하여 오디오 신호에 제2 및 제3 오디오 소스가 포함된 것으로 식별할 수 있다. 그리고, 프로세서(130)는 오디오 신호에서 식별된 유형의 오디오 소스인 제2 및 제3 오디오 소스를 생성할 수 있다.As another embodiment, it is assumed that the audio signal includes a second audio source including music and a third audio source including a background sound. The processor 130 may identify that the second and third audio sources are included in the audio signal by using the information on the audio source. In addition, the processor 130 may generate second and third audio sources that are audio sources of a type identified in the audio signal.
프로세서(130)는 적어도 하나의 오디오 소스에 매칭되는 음상 위치를 식별하고, 적어도 하나의 오디오 소스에 대응되는 음상 위치가 식별된 음상 위치가 되도록 적어도 하나의 오디오 소스를 처리할 수 있다. 일 실시예로, 프로세서(130)는 메모리(110)에 저장된 오디오 소스에 매칭되는 음상 위치에 대한 정보를 이용하여 오디오 소스에 대응되는 음상 위치를 식별할 수 있다.The processor 130 may identify a sound image location matching the at least one audio source, and process the at least one audio source so that the sound image location corresponding to the at least one audio source becomes the identified sound image location. As an embodiment, the processor 130 may identify a sound image location corresponding to the audio source by using information about the sound image location matching the audio source stored in the memory 110 .
예를 들어, 오디오 소스에 매칭되는 음상 위치는 스피커(120)가 위치한 영역에 대응되는 제1 위치, 스피커(120)에서 제1 방향으로 확장된 영역에 대응되는 제2 위치 및 스피커(120)에서 제2 방향으로 확장된 영역에 대응되는 제3 위치 중 적어도 하나일 수 있다. 이 때, 제1 방향은 수평 방향이고 제2 방향은 수직 방향일 수 있으나, 이에 국한되는 것은 아니며 다양한 방향으로 설정될 수 있다.For example, the sound image location matching the audio source is a first location corresponding to an area in which the speaker 120 is located, a second location corresponding to an area extending in the first direction from the speaker 120 , and a location in the speaker 120 . It may be at least one of the third locations corresponding to the area extended in the second direction. In this case, the first direction may be a horizontal direction and the second direction may be a vertical direction, but is not limited thereto and may be set in various directions.
오디오 소스에 매칭되는 음상 위치는 도 3을 참조하여 구체적으로 설명하도록 한다. 도 3에는 전자 장치(100)가 디스플레이 장치인 TV로 구현되고, 스피커가 TV 하단 부에 탑재되어 스테레오 스피커(120-1, 120-2)로 구현된 경우가 도시되어 있다. 다만, 이에 국한되는 것은 아니며, 전자 장치(100)의 유형, 스피커의 개수 및 위치는 다양하게 구현될 수 있다.The location of the sound image matching the audio source will be described in detail with reference to FIG. 3 . FIG. 3 illustrates a case in which the electronic device 100 is implemented as a TV as a display device, and a speaker is mounted on the lower part of the TV and is implemented as stereo speakers 120-1 and 120-2. However, the present invention is not limited thereto, and the type of the electronic device 100 and the number and location of speakers may be variously implemented.
제1 위치는 스피커(120-1, 120-2)가 위치한 영역에 대응되는 위치를 의미한다. 특정 오디오 소스에 매칭되는 음상 위치가 제1 위치라는 것은 특정 오디오 소스가 스피커(120-1, 120-2)를 통해 그대로 출력되도록 설정되었음을 의미한다.The first position means a position corresponding to an area in which the speakers 120 - 1 and 120 - 2 are located. When the sound image location matching the specific audio source is the first location, it means that the specific audio source is set to be output through the speakers 120 - 1 and 120 - 2 as it is.
제2 위치는 스피커(120-1, 120-2)에서 제1 방향(예를 들어, 수평 방향)으로 확장된 영역에 대응되는 위치(300, 310)를 의미한다. 특정 오디오 소스에 매칭되는 음상 위치가 제2 위치라는 것은 특정 오디오 소스가 스피커(120-1, 120-2)에서 제1 방향으로 확장된 영역에 대응되는 위치에서 출력되는 것처럼 느껴지도록 음상 위치를 생성 또는 제어해야 한다는 것을 의미한다.The second position refers to positions 300 and 310 corresponding to regions extended in the first direction (eg, a horizontal direction) from the speakers 120 - 1 and 120 - 2 . The fact that the sound image position matching the specific audio source is the second position creates the sound image position so that it is felt as if the specific audio source is output from the position corresponding to the area extended in the first direction from the speakers 120-1 and 120-2 Or it means you have to control it.
제3 위치는 스피커(120-1, 120-2)에서 제2 방향(예를 들어, 수직 방향)으로 확장된 영역에 대응되는 위치(320, 330)를 의미한다. 특정 오디오 소스에 매칭되는 음상 위치가 제3 위치라는 것은 특정 오디오 소스가 스피커(120-1, 120-2)에서 제2 방향으로 확장된 영역에 대응되는 위치에서 출력되는 것처럼 느껴지도록 음상 위치를 생성 또는 제어해야 한다는 것을 의미한다.The third position refers to positions 320 and 330 corresponding to regions extended in the second direction (eg, a vertical direction) from the speakers 120 - 1 and 120 - 2 . The fact that the sound image position matching the specific audio source is the third position creates the sound image position so that it is felt as if the specific audio source is output from a position corresponding to the area extended in the second direction from the speakers 120-1 and 120-2 Or it means you have to control it.
일 실시예로, 오디오 소스의 유형 중 음성이 포함된 제1 오디오 소스에 대응되는 음상 위치는 제1 음상 위치이고, 오디오 소스의 유형 중 음악이 포함된 제2 오디오 소스에 대응되는 음상 위치는 제2 음상 위치이고, 오디오 장면의 유형 중 배경음이 포함된 제3 오디오 소스에 대응되는 음상 위치는 제1 위치, 제2 위치 및 제3 위치일 수 있다.In an embodiment, a sound image position corresponding to a first audio source including voice among types of audio sources is a first sound image position, and a sound image position corresponding to a second audio source including music among types of audio sources is the second 2 sound image positions, and sound image positions corresponding to a third audio source including a background sound among types of audio scenes may be a first position, a second position, and a third position.
예를 들어, 음성이 포함된 제1 오디오 소스는 그대로 스피커(120)를 통해 출력하는 것이 음성 명료도 관점에서 가장 적합할 수 있다. 따라서, 음성이 포함된 제1 오디오 소스에 대응되는 음상 위치는 제1 음상 위치로 설정될 수 있다. For example, outputting the first audio source including voice through the speaker 120 as it is may be most suitable from the viewpoint of voice intelligibility. Accordingly, the sound image position corresponding to the first audio source including the voice may be set as the first sound image position.
이에 따라, 오디오 신호로부터 제1 오디오 소스가 생성된 경우, 프로세서(130)는 가상 음상 위치를 생성하기 위한 작업을 수행하지 않고(230-1) 제1 오디오 소스를 스피커(120)를 통해 출력할 수 있다. 이 때, 프로세서(130)는 가상 음상 위치를 생성하기 위한 작업을 수행하지 않으나 제1 오디오 소스에 대해 디코딩이나 증폭, 노이즈 필터링과 같은 다양한 처리 작업 등을 수행하고 출력할 수 있다.Accordingly, when the first audio source is generated from the audio signal, the processor 130 outputs the first audio source through the speaker 120 without performing an operation for generating the virtual sound image position (230-1). can In this case, the processor 130 does not perform an operation for generating the virtual sound image position, but may perform various processing operations such as decoding, amplification, and noise filtering on the first audio source and output the same.
또 다른 예로, 믹싱 엔지니어는 수평면 가운데를 기점으로 30도 부근에 스피커를 배치하고 악기 음 등으로 구성된 음악이 포함된 오디오 소스를 믹싱하는 경우가 많다. 따라서, 음악이 포함된 제2 오디오 소스에 대응되는 음상 위치는 제2 음상 위치로 설정될 수 있다. As another example, a mixing engineer often mixes an audio source that includes music composed of instrumental sounds and the like by placing speakers around 30 degrees from the center of the horizontal plane. Accordingly, the sound image position corresponding to the second audio source including music may be set as the second sound image position.
이에 따라, 오디오 신호로부터 제2 오디오 소스가 생성된 경우, 프로세서(130)는 제2 오디오 소스에 대응되는 음상 위치가 스피커(120)를 기준으로 수평면 방향으로 확장(230-2)된 영역에 대응되는 제2 위치가 되도록 제2 오디오 소스를 처리할 수 있다.Accordingly, when the second audio source is generated from the audio signal, the processor 130 corresponds to a region in which the position of the sound image corresponding to the second audio source is extended 230 - 2 in the horizontal plane direction with respect to the speaker 120 . The second audio source can be processed to be a second location where the
또 다른 예로, 스포츠 경기에서 관중의 함성, 빗소리, 바람 소리 등과 같은 배경음은 다소 소리가 불분명해지더라도 크게 열화 현상이 발생되지 않으며 복수 개의 가상 음상에서 동시에 재생되면 현장감이 좋아질 수 있다. 따라서, 배경음이 포함된 제3 오디오 소스에 대응되는 음상 위치는 복수의 위치(제1 위치, 제2 위치 및 제3 위치)로 설정될 수 있다.As another example, in a sports game, background sounds such as shouts of spectators, rain sounds, wind sounds, etc. do not significantly deteriorate even if the sound becomes somewhat unclear, and a sense of presence can be improved when played simultaneously on a plurality of virtual sounds. Accordingly, the position of the sound image corresponding to the third audio source including the background sound may be set to a plurality of positions (the first position, the second position, and the third position).
이에 따라, 오디오 신호로부터 제3 오디오 소스가 생성된 경우, 프로세서(130)는 제3 오디오 소스에 대응되는 음상 위치가 복수의 위치(예로, 스피커(120)가 위치한 영역에 대응되는 제1 위치, 스피커(120)를 기준으로 수평면 방향으로 확장(230-2)된 영역에 대응되는 제2 위치 및 스피커(120)를 기준으로 수직면 방향으로 확장(230-3)된 영역에 대응되는 제3 위치)가 되도록 제3 오디오 소스를 처리할 수 있다.Accordingly, when the third audio source is generated from the audio signal, the processor 130 determines that the location of the sound image corresponding to the third audio source is a plurality of locations (eg, a first location corresponding to a region in which the speaker 120 is located; A second position corresponding to an area extended (230-2) in the horizontal direction with respect to the speaker 120 and a third position corresponding to an area extended (230-3) in a vertical direction with respect to the speaker 120) The third audio source may be processed to become
또한, 헬기 소리, 비행기 소리 등과 같이 공중에서 도출되는 소리가 포함된 오디오 소스의 경우, 스피커를 기준으로 위 방향에서 출력될 경우 현장감이 좋아질 수 있다. 따라서, 헬기 소리, 비행기 소리 등이 포함된 제4 오디오 소스에 대응되는 음상 위치는 제3 위치로 설정될 수 있다. 이에 따라, 오디오 신호로부터 제4 오디오 소스가 생성된 경우, 프로세서(130)는 제4 오디오 소스에 대응되는 음상 위치를 스피커(120)를 기준으로 수직면 방향으로 확장(230-3)된 영역에 대응되는 제3 위치가 되도록 제4 오디오 소스를 처리할 수 있다.In addition, in the case of an audio source including sounds derived from the air, such as a helicopter sound or an airplane sound, a sense of presence may be improved when the sound is output from the upper direction with respect to the speaker. Accordingly, a sound image position corresponding to the fourth audio source including a helicopter sound, an airplane sound, and the like may be set as the third position. Accordingly, when the fourth audio source is generated from the audio signal, the processor 130 corresponds to the area of the sound image corresponding to the fourth audio source extended 230 - 3 in the vertical plane direction with respect to the speaker 120 . The fourth audio source can be processed to be a third location where the
한편, 본 개시의 일 실시예로, 오디오 신호로부터 제3 오디오 소스가 생성된 경우, 프로세서(130)는 제3 오디오 소스에 대응되는 음상 위치가 복수의 위치(제1 위치, 제2 위치 및 제3 위치)가 되도록 제3 오디오 소스를 처리하고, 처리된 제3 오디오 소스에 대해 스테레오 믹싱(240)를 수행하여 최종 오디오 소스를 획득할 수 있다. 그리고, 프로세서(130)는 최종 오디오 소스를 출력할 수 있다.Meanwhile, according to an embodiment of the present disclosure, when the third audio source is generated from the audio signal, the processor 130 determines that the sound image location corresponding to the third audio source is a plurality of locations (a first location, a second location, and a second location). 3 position), the third audio source may be processed, and a final audio source may be obtained by performing stereo mixing 240 on the processed third audio source. Then, the processor 130 may output the final audio source.
프로세서(130)는 XTC(Cross-talk Cancellation) 기능 또는 HRTF(Head Related Transfer Function) 중 적어도 하나를 이용하여 오디오 소스에 대응되는 음상 위치가 수평면 방향 또는 수직면 방향으로 확장된 영역에 대응되는 위치가 되도록 오디오 소스를 처리할 수 있다. 또한, 프로세서(130)는 XTC 기능 또는 HRTF 중 적어도 하나를 이용하여 오디오 소스에 대응되는 음상의 개수를 복수 개가 되도록 오디오 소스를 처리할 수 있다.The processor 130 uses at least one of a cross-talk cancellation (XTC) function or a head related transfer function (HRTF) so that the position of the sound image corresponding to the audio source becomes a position corresponding to the area extended in the horizontal or vertical direction. It can handle audio sources. In addition, the processor 130 may process the audio source so that the number of sound images corresponding to the audio source is plural by using at least one of the XTC function and the HRTF.
프로세서(130)는 제2 위치 및 제3 위치를 제어할 수 있는 UI를 표시하도록 디스플레이(180)를 제어할 수 있다. UI 상에는 XTC 기능 또는 HRTF과 관련된 파라미터를 변경함에 따라 제2 위치 및 제3 위치를 변경할 수 있는 UI 엘리먼트가 포함될 수 있다. 예를 들어, 제2 위치를 변경한다는 것은 스피커(120)를 기준으로 수평면 방향으로 확장되는 정도를 변경한다는 것을 의미한다. 제3 위치를 변경한다는 것은 스피커(120)를 기준으로 수직면 방향으로 확장되는 정도를 변경한다는 것을 의미한다.The processor 130 may control the display 180 to display a UI capable of controlling the second position and the third position. A UI element capable of changing the second position and the third position according to a change of a parameter related to an XTC function or HRTF may be included on the UI. For example, changing the second position means changing the extent to which the speaker 120 is expanded in the horizontal direction with respect to the speaker 120 . Changing the third position means changing the extent to which the speaker 120 is extended in the vertical direction with respect to the speaker 120 .
UI를 통해 상기 제2 위치 또는 제3 위치 중 적어도 하나를 제어하는 사용자 명령이 입력되면, 프로세서(130)는 입력된 사용자 명령에 기초하여 제2 위치 또는 제3 위치 중 적어도 하나를 제어할 수 있다. 예를 들어, 제2 위치를 변경한다는 사용자 명령이 UI를 통해 입력되면, 프로세서(130)는 제2 위치를 조절하는 XTC 기능 또는 HRTF과 관련된 파라미터를 사용자 명령에 대응되도록 변경할 수 있다.When a user command for controlling at least one of the second location or the third location is input through the UI, the processor 130 may control at least one of the second location or the third location based on the input user command. . For example, when a user command to change the second location is input through the UI, the processor 130 may change the parameter related to the XTC function or HRTF for adjusting the second location to correspond to the user command.
한편, 프로세서(130)는 디지털 신호를 처리하는 중앙처리장치(central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), DSP(Digital Signal processor), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), 중 하나 또는 그 이상을 포함할 수 있다. 또한, 프로세서(130)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형태로 구현될 수도 있다. 또한, 프로세서(130)는 인공지능 기능을 수행하기 위하여, 별도의 AI 전용 프로세서인 GPU(graphics-processing unit), NPU(Neural Processing Unit), VPU(Visual Processing UniT) 중 적어도 하나를 포함할 수 있다.Meanwhile, the processor 130 includes a central processing unit (CPU), a micro controller unit (MCU), a micro processing unit (MPU), a digital signal processor (DSP), and an application processor for processing a digital signal. (AP)), or a communication processor (CP). In addition, the processor 130 may be implemented as a system on chip (SoC), large scale integration (LSI), or a field programmable gate array (FPGA) having a built-in processing algorithm. In addition, the processor 130 may include at least one of a graphics-processing unit (GPU), a neural processing unit (NPU), and a visual processing unit (VPU), which are separate AI-only processors, in order to perform an artificial intelligence function. .
도 4는 본 개시의 일 실시예에 따른, 전자 장치(100)의 제어 방법을 설명하기 위한 순서도이다.4 is a flowchart illustrating a method of controlling the electronic device 100 according to an embodiment of the present disclosure.
우선, 전자 장치(100)는 오디오 신호를 입력받을 수 있다(S410). 전자 장치(100)는 입출력 인터페이스를 통해 연결된 외부 장치(예를 들어, 셋톱 박스, USB 플래스 드라이브 등)로부터 오디오 신호를 입력받을 수 있다. 또 다른 예로, 전자 장치(100)는 통신 인터페이스를 통해 연결된 외부 장치(예를 들어, 스마트 폰, AI 스피커, 마이크 등)로부터 오디오 신호를 입력받을 수 있다.First, the electronic device 100 may receive an audio signal (S410). The electronic device 100 may receive an audio signal from an external device (eg, a set-top box, a USB flash drive, etc.) connected through an input/output interface. As another example, the electronic device 100 may receive an audio signal from an external device (eg, a smart phone, an AI speaker, a microphone, etc.) connected through a communication interface.
전자 장치(100)는 입력된 오디오 신호에 포함된 오디오 소스에 대한 정보 획득할 수 있다(S420). 전자 장치(100)는 입력된 오디오 신호를 분석하여 오디오 신호에 포함된 오디오 소스의 유형 또는 오디오 신호에 포함된 적어도 하나의 오디오 소스의 비율에 대한 정보가 포함된 오디오 소스에 대한 정보를 획득할 수 있다.The electronic device 100 may obtain information on an audio source included in the input audio signal (S420). The electronic device 100 may analyze the input audio signal to obtain information on the audio source including information on the type of the audio source included in the audio signal or the ratio of at least one audio source included in the audio signal. have.
전자 장치(100)는 획득된 오디오 소스에 대한 정보에 기초하여 입력된 오디오 신호로부터 적어도 하나의 오디오 소스를 생성할 수 있다(S430). 구체적으로, 전자 장치(100)는 오디오 소스에 대한 정보에 기초하여 오디오 소스에 포함된 오디오 소스의 유형을 식별할 수 있다. 그리고, 전자 장치(100)는 오디오 신호 상에서 식별된 유형의 오디오 소스를 생성할 수 있다.The electronic device 100 may generate at least one audio source from the input audio signal based on the obtained information on the audio source (S430). Specifically, the electronic device 100 may identify the type of the audio source included in the audio source based on the information on the audio source. In addition, the electronic device 100 may generate an audio source of a type identified on the audio signal.
전자 장치(100)는 적어도 하나의 오디오 소스에 매칭되는 음상 위치를 식별할 수 있다(S440). 오디오 소스에 매칭되는 음상 위치는 스피커가 위치한 영역에 대응되는 제1 위치, 스피커에서 수평 방향으로 확장된 영역에 대응되는 제2 위치 및 스피커에서 수직 방향으로 확장된 영역에 대응되는 제3 위치 중 적어도 하나일 수 있다.The electronic device 100 may identify a sound image location matching at least one audio source (S440). The sound image location matching the audio source is at least one of a first location corresponding to an area in which the speaker is located, a second location corresponding to an area extending in a horizontal direction from the speaker, and a third location corresponding to an area extending in a vertical direction from the speaker. can be one
일 실시예로, 오디오 소스의 유형 중 음성이 포함된 제1 오디오 소스에 대응되는 음상 위치는 제1 위치이고, 오디오 소스의 유형 중 음악이 포함된 제2 오디오 소스에 대응되는 음상 위치는 제2 위치이고, 오디오 장면의 유형 중 배경음이 포함된 제3 오디오 소스에 대응되는 음상 위치는 복수의 가상 음상 위치(제1 위치, 제2 위치 및 제3 위치)일 수 있다. 또 다른 예로, 오디오 소스의 유형 중 비행기 소리, 헬기 소리 등 위쪽 방향에서 출력되는 소리가 포함된 제4 오디오 소스에 대응되는 음상 위치는 제2 위치일 수 있다.In an embodiment, a sound image position corresponding to a first audio source including voice among types of audio sources is a first position, and a sound image position corresponding to a second audio source including music among types of audio sources is a second position. position, and the sound image position corresponding to the third audio source including the background sound among the types of the audio scene may be a plurality of virtual sound image positions (a first position, a second position, and a third position). As another example, a sound image location corresponding to a fourth audio source including a sound output from an upward direction, such as an airplane sound or a helicopter sound, among types of audio sources may be a second location.
전자 장치(100)는 적어도 하나의 오디오 소스에 대응되는 음상 위치가 식별된 음상 위치가 되도록 적어도 하나의 오디오 소스를 처리할 수 있다(S450). 예를 들어, 오디오 신호에서 제1 오디오 소스가 생성된 경우, 전자 장치(100)는 제1 오디오 소스의 음상 위치가 제1 위치가 되도록 제1 오디오 소스를 처리할 수 있다. The electronic device 100 may process the at least one audio source so that the sound image position corresponding to the at least one audio source becomes the identified sound image position (S450). For example, when the first audio source is generated from the audio signal, the electronic device 100 may process the first audio source so that the position of the sound image of the first audio source becomes the first position.
또 다른 예로, 오디오 신호로부터 제3 오디오 소스가 생성된 경우, 전자 장치(100)는 제3 오디오 소스에 대응되는 음상 위치가 복수의 음상 위치(제1 위치, 제2 위치 및 제3 위치)가 되도록 제3 오디오 소스를 처리할 수 있다.As another example, when the third audio source is generated from the audio signal, the electronic device 100 determines that the sound image position corresponding to the third audio source has a plurality of sound image positions (the first position, the second position, and the third position). As much as possible, a third audio source may be processed.
전자 장치(100)는 처리된 오디오 소스를 출력할 수 있다(S460). 일 실시예로, 전자 장치(100)는 처리된 오디오 소스에 대해 디코딩이나 증폭, 노이즈 필터링과 같은 다양한 처리 작업이 수행한 뒤 출력할 수 있다. 또 다른 예로, 전자 장치(100)는 제3 오디오 소스에 대응되는 음상 위치가 복수의 음상 위치(제1 위치, 제2 위치 및 제3 위치)가 되도록 제3 오디오 소스를 처리하고, 처리된 제3 오디오 소스에 대해 스테레오 믹싱을 수행하여 최종 오디오 소스를 획득하고, 획득된 최종 오디오 소스를 출력할 수 있다.The electronic device 100 may output the processed audio source (S460). As an embodiment, the electronic device 100 may output the processed audio source after performing various processing operations such as decoding, amplification, and noise filtering. As another example, the electronic device 100 processes the third audio source so that the sound image position corresponding to the third audio source becomes a plurality of sound image positions (the first position, the second position, and the third position), and 3 The final audio source may be obtained by performing stereo mixing on the audio source, and the obtained final audio source may be output.
도 5는 본 개시의 일 실시예에 따른, 전자 장치(100)의 구성을 상세히 도시한 블록도이다. 도 5에 도시된 바와 같이, 전자 장치(100)는 메모리(110), 스피커(120), 프로세서(130), 통신 인터페이스(140), 마이크(150), 사용자 인터페이스(160), 입출력 인터페이스(170), 디스플레이(180) 및 카메라(190)를 포함할 수 있다. 메모리(110), 스피커(120), 프로세서(130)는 도 1 및 도2 를 참조하여 구체적으로 설명하였으므로 중복되는 설명은 생략하도록 한다.5 is a block diagram illustrating the configuration of the electronic device 100 in detail according to an embodiment of the present disclosure. 5 , the electronic device 100 includes a memory 110 , a speaker 120 , a processor 130 , a communication interface 140 , a microphone 150 , a user interface 160 , and an input/output interface 170 . ), a display 180 and a camera 190 may be included. Since the memory 110 , the speaker 120 , and the processor 130 have been described in detail with reference to FIGS. 1 and 2 , redundant descriptions will be omitted.
통신 인터페이스(140)는 다양한 유형의 통신 방식에 따라 다양한 유형의 외부 장치와 통신을 수행하는 구성이다. 통신 인터페이스(140)에는 와이파이 모듈, 블루투스 모듈, 적외선 통신 모듈 등과 같은 다양한 무선 통신 모듈 등이 포함될 수 있다. 여기서, 각 통신 모듈은 적어도 하나의 하드웨어 칩 형태로 구현될 수 있다.The communication interface 140 is configured to communicate with various types of external devices according to various types of communication methods. The communication interface 140 may include various wireless communication modules such as a Wi-Fi module, a Bluetooth module, and an infrared communication module. Here, each communication module may be implemented in the form of at least one hardware chip.
와이파이 모듈, 블루투스 모듈은 각각 WiFi 방식, 블루투스 방식으로 통신을 수행한다. 와이파이 모듈이나 블루투스 모듈을 이용하는 경우에는 SSID 및 세션 키 등과 같은 각종 연결 정보를 먼저 송수신하여, 이를 이용하여 통신 연결한 후 각종 정보들을 송수신할 수 있다.The Wi-Fi module and the Bluetooth module perform communication using a WiFi method and a Bluetooth method, respectively. In the case of using a Wi-Fi module or a Bluetooth module, various types of connection information such as an SSID and a session key are first transmitted and received, and then various types of information can be transmitted/received after communication connection using this.
적외선 통신 모듈은 가시 광선과 밀리미터파 사이에 있는 적외선을 이용하여 근거리에 무선으로 데이터를 전송하는 적외선 통신(IrDA, infrared Data Association)기술에 따라 통신을 수행한다. The infrared communication module communicates according to the infrared data association (IrDA) technology, which wirelessly transmits data in a short distance using infrared that is between visible light and millimeter wave.
무선 통신 모듈은 상술한 통신 방식 이외에 지그비(zigbee), 3G(3rd Generation), 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), LTE-A(LTE Advanced), 4G(4th Generation), 5G(5th Generation)등과 같은 다양한 무선 통신 규격에 따라 통신을 수행하는 적어도 하나의 통신 칩을 포함할 수 있다.In addition to the above-described communication methods, the wireless communication module includes Zigbee, 3rd Generation (3G), 3rd Generation Partnership Project (3GPP), Long Term Evolution (LTE), LTE Advanced (LTE-A), 4th Generation (4G), 5G It may include at least one communication chip that performs communication according to various wireless communication standards such as (5th Generation).
그 밖에 통신 인터페이스(140)는LAN(Local Area Network) 모듈, 이더넷 모듈, 페어 케이블, 동축 케이블, 광섬유 케이블 또는 UWB(Ultra Wide-Band) 모듈 등을 이용하여 통신을 수행하는 유선 통신 모듈 중 적어도 하나를 포함할 수 있다. In addition, the communication interface 140 is at least one of a wired communication module for performing communication using a LAN (Local Area Network) module, an Ethernet module, a pair cable, a coaxial cable, an optical fiber cable, or a UWB (Ultra Wide-Band) module, etc. may include
일 예에 따라 통신 인터페이스(140)는 리모컨과 같은 외부 장치 및 외부 서버와 통신하기 위해 동일한 통신 모듈(예를 들어, Wi-Fi 모듈)을 이용할 수 있다.According to an example, the communication interface 140 may use the same communication module (eg, Wi-Fi module) to communicate with an external device such as a remote control and an external server.
다른 예에 따라 통신 인터페이스(140)는 리모컨과 같은 외부 장치 및 외부 서버와 통신하기 위해 상이한 통신 모듈(예를 들어, Wi-Fi 모듈)을 이용할 수 있다. 예를 들어, 통신 인터페이스(140)는 외부 서버와 통신하기 위해 이더넷 모듈 또는 WiFi 모듈 중 적어도 하나를 이용할 수 있고, 리모컨과 같은 외부 장치와 통신하기 위해 BT 모듈을 이용할 수도 있다. 다만 이는 일 실시 예에 불과하며 통신 인터페이스(140)는 복수의 외부 장치 또는 외부 서버와 통신하는 경우 다양한 통신 모듈 중 적어도 하나의 통신 모듈을 이용할 수 있다.According to another example, the communication interface 140 may use a different communication module (eg, a Wi-Fi module) to communicate with an external device such as a remote control and an external server. For example, the communication interface 140 may use at least one of an Ethernet module or a WiFi module to communicate with an external server, and may use a BT module to communicate with an external device such as a remote control. However, this is only an embodiment, and when communicating with a plurality of external devices or external servers, the communication interface 140 may use at least one communication module among various communication modules.
한편, 전자 장치(100)는 구현 예에 따라 튜너 및 복조부를 추가적으로 포함할 수 있다. 튜너(미도시)는 안테나를 통해 수신되는 RF(Radio Frequency) 방송 신호 중 사용자에 의해 선택된 채널 또는 기 저장된 모든 채널을 튜닝하여 RF 방송 신호를 수신할 수 있다. 복조부(미도시)는 튜너에서 변환된 디지털 IF 신호(DIF)를 수신하여 복조하고, 채널 복호화 등을 수행할 수도 있다.Meanwhile, the electronic device 100 may additionally include a tuner and a demodulator according to an embodiment. A tuner (not shown) may receive an RF broadcast signal by tuning a channel selected by a user or all channels previously stored among radio frequency (RF) broadcast signals received through an antenna. A demodulator (not shown) may receive and demodulate the digital IF signal (DIF) converted by the tuner, and may perform channel decoding and the like.
즉, 전자 장치(100)는 통신 인터페이스(140) 또는 튜너 등을 통해 오디오 신호가 포함된 컨텐츠를 외부로부터 실시간으로 수신할 수 있다.That is, the electronic device 100 may receive the content including the audio signal from the outside in real time through the communication interface 140 or the tuner.
마이크(150)는 사용자 음성이나 기타 소리를 입력받아 오디오 신호로 변환하기 위한 구성이다. 마이크(150)는 활성화 상태에서 사용자의 음성을 수신할 수 있다. 마이크(150)는 전자 장치(100) 내부에 장착되어 있을 수 있으나, 이에 국한되는 것은 아니다. 마이크(150)는 전자 장치(100) 외부에 구비되어 전자 장치(100)와 전기적으로 연결되거나 무선 통신을 통해 연결될 수 있다.The microphone 150 is configured to receive a user's voice or other sound and convert it into an audio signal. The microphone 150 may receive a user's voice in an activated state. The microphone 150 may be mounted inside the electronic device 100 , but is not limited thereto. The microphone 150 may be provided outside the electronic device 100 and may be electrically connected to the electronic device 100 or may be connected through wireless communication.
예를 들어, 마이크(150)는 전자 장치(100)의 상측이나 전면 방향, 측면 방향 등에 일체형으로 형성될 수 있다. 마이크(150)는 아날로그 형태의 사용자 음성을 수집하는 마이크, 수집된 사용자 음성을 증폭하는 앰프 회로, 증폭된 사용자 음성을 샘플링하여 디지털 신호로 변환하는 A/D 변환회로, 변환된 디지털 신호로부터 노이즈 성분을 제거하는 필터 회로 등과 같은 다양한 구성을 포함할 수 있다.For example, the microphone 150 may be integrally formed on the top, front, or side of the electronic device 100 . The microphone 150 includes a microphone for collecting analog user voice, an amplifier circuit for amplifying the collected user voice, an A/D conversion circuit for sampling the amplified user voice and converting it into a digital signal, and a noise component from the converted digital signal. It may include various configurations such as a filter circuit that removes the
사용자 인터페이스(160)는 버튼, 터치 패드, 마우스 및 키보드와 같은 장치로 구현되거나, 상술한 디스플레이 기능 및 조작 입력 기능도 함께 수행 가능한 터치 스크린으로도 구현될 수 있다. 여기서, 버튼은 전자 장치(100)의 본체 외관의 전면부나 측면부, 배면부 등의 임의의 영역에 형성된 기계적 버튼, 터치 패드, 휠 등과 같은 다양한 유형의 버튼이 될 수 있다.The user interface 160 may be implemented as a device such as a button, a touch pad, a mouse, and a keyboard, or may be implemented as a touch screen capable of performing the above-described display function and manipulation input function together. Here, the button may be various types of buttons such as a mechanical button, a touch pad, a wheel, etc. formed in an arbitrary area such as the front, side, or rear of the exterior of the main body of the electronic device 100 .
입출력 인터페이스(170)는 HDMI(High Definition Multimedia Interface), MHL (Mobile High-Definition Link), USB (Universal Serial Bus), DP(Display Port), 썬더볼트(Thunderbolt), VGA(Video Graphics Array)포트, RGB 포트, D-SUB(D-subminiature), DVI(Digital Visual Interface) 중 어느 하나의 인터페이스일 수 있다. Input/output interface 170 is HDMI (High Definition Multimedia Interface), MHL (Mobile High-Definition Link), USB (Universal Serial Bus), DP (Display Port), Thunderbolt (Thunderbolt), VGA (Video Graphics Array) port, The interface may be any one of an RGB port, a D-subminiature (D-SUB), and a digital visual interface (DVI).
입출력 인터페이스(170)는 오디오 및 비디오 신호 중 적어도 하나를 포함하는 컨텐츠를 입출력 할 수 있다. 구현 예에 따라, 입출력 인터페이스(170)는 오디오 신호만을 입출력하는 포트와 비디오 신호만을 입출력하는 포트를 별개의 포트로 포함하거나, 오디오 신호 및 비디오 신호를 모두 입출력하는 하나의 포트로 구현될 수 있다.The input/output interface 170 may input/output content including at least one of audio and video signals. Depending on the implementation, the input/output interface 170 may include a port for inputting and outputting only an audio signal and a port for inputting and outputting only a video signal as separate ports, or may be implemented as a single port for inputting and outputting both an audio signal and a video signal.
디스플레이(180)는 LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diodes) 디스플레이, PDP(Plasma Display Panel) 등과 같은 다양한 형태의 디스플레이로 구현될 수 있다. The display 180 may be implemented as various types of displays, such as a liquid crystal display (LCD), an organic light emitting diode (OLED) display, a plasma display panel (PDP), and the like.
디스플레이(180)내에는 a-si TFT, LTPS(low temperature poly silicon) TFT, OTFT(organic TFT) 등과 같은 형태로 구현될 수 있는 구동 회로, 백라이트 유닛 등도 함께 포함될 수 있다. 한편, 디스플레이(180)는 터치 센서와 결합된 터치 스크린, 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display) 등으로 구현될 수 있다.The display 180 may also include a driving circuit, a backlight unit, and the like, which may be implemented in the form of an a-si TFT, a low temperature poly silicon (LTPS) TFT, or an organic TFT (OTFT). Meanwhile, the display 180 may be implemented as a touch screen combined with a touch sensor, a flexible display, a three-dimensional display, or the like.
디스플레이(180)는 외부로부터 수신되는 다양한 영상 컨텐츠(예로, 방송 컨텐츠 등)를 디스플레이할 수 있다. 또 다른 예로, 디스플레이(180)는 제2 위치 및 제3 위치를 제어할 수 있는 UI를 표시할 수 있다. UI에는 가상 음상을 생성할 수 있는 XTC 기능 또는 HRTF 기능과 관련된 파라미터를 변경함에 따라 제2 위치 및 제3 위치를 변경할 수 있는 UI 엘리먼트가 포함될 수 있다.The display 180 may display various image contents (eg, broadcast contents, etc.) received from the outside. As another example, the display 180 may display a UI for controlling the second position and the third position. The UI may include a UI element capable of changing the second position and the third position according to changing a parameter related to an XTC function or HRTF function capable of generating a virtual sound image.
카메라(190)는 피사체를 촬상하여 촬상 영상을 생성하기 위한 구성이며, 여기서 촬상 영상은 동영상과 정지 영상 모두를 포함하는 개념이다. 카메라(190)는 적어도 하나의 외부 기기에 대한 이미지를 획득할 수 있으며, 카메라, 렌즈, 적외선 센서 등으로 구현될 수 있다.The camera 190 is configured to generate a captured image by capturing a subject, wherein the captured image is a concept including both a moving image and a still image. The camera 190 may acquire an image of at least one external device, and may be implemented as a camera, a lens, an infrared sensor, or the like.
한편, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치에 설치 가능한 어플리케이션 형태로 구현될 수 있다. Meanwhile, the above-described methods according to various embodiments of the present disclosure may be implemented in the form of an application that can be installed in an existing electronic device.
또한, 상술한 본 개시의 다양한 실시 예들에 따른 방법들은, 기존 전자 장치에 대한 소프트웨어 업그레이드, 또는 하드웨어 업그레이드 만으로도 구현될 수 있다. In addition, the above-described methods according to various embodiments of the present disclosure may be implemented only by software upgrade or hardware upgrade of an existing electronic device.
또한, 상술한 본 개시의 다양한 실시 예들은 전자 장치에 구비된 임베디드 서버, 또는 전자 장치 및 디스플레이 장치 중 적어도 하나의 외부 서버를 통해 수행되는 것도 가능하다. In addition, various embodiments of the present disclosure described above may be performed through an embedded server provided in an electronic device or an external server of at least one of an electronic device and a display device.
한편, 본 개시의 일시 예에 따르면, 이상에서 설명된 다양한 실시 예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media)에 저장된 명령어를 포함하는 소프트웨어로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시 예들에 따른 전자 장치를 포함할 수 있다. 명령이 프로세서에 의해 실행될 경우, 프로세서가 직접, 또는 프로세서의 제어 하에 다른 구성요소들을 이용하여 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.Meanwhile, according to a temporary example of the present disclosure, the various embodiments described above may be implemented as software including instructions stored in a machine-readable storage media readable by a machine (eg, a computer). can The device is a device capable of calling a stored command from a storage medium and operating according to the called command, and may include the electronic device according to the disclosed embodiments. When the instruction is executed by the processor, the processor may perform a function corresponding to the instruction by using other components directly or under the control of the processor. Instructions may include code generated or executed by a compiler or interpreter. The device-readable storage medium may be provided in the form of a non-transitory storage medium. Here, 'non-transitory' means that the storage medium does not include a signal and is tangible, and does not distinguish that data is semi-permanently or temporarily stored in the storage medium.
또한, 본 개시의 일 실시 예에 따르면, 이상에서 설명된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 온라인으로 배포될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.Also, according to an embodiment of the present disclosure, the method according to the various embodiments described above may be included in a computer program product and provided. Computer program products may be traded between sellers and buyers as commodities. The computer program product may be distributed in the form of a machine-readable storage medium (eg, compact disc read only memory (CD-ROM)) or online through an application store (eg, Play Store™). In the case of online distribution, at least a portion of the computer program product may be temporarily stored or temporarily generated in a storage medium such as a memory of a server of a manufacturer, a server of an application store, or a relay server.
또한, 상술한 다양한 실시 예들에 따른 구성 요소(예: 모듈 또는 프로그램) 각각은 단수 또는 복수의 개체로 구성될 수 있으며, 전술한 해당 서브 구성 요소들 중 일부 서브 구성 요소가 생략되거나, 또는 다른 서브 구성 요소가 다양한 실시 예에 더 포함될 수 있다. 대체적으로 또는 추가적으로, 일부 구성 요소들(예: 모듈 또는 프로그램)은 하나의 개체로 통합되어, 통합되기 이전의 각각의 해당 구성 요소에 의해 수행되는 기능을 동일 또는 유사하게 수행할 수 있다. 다양한 실시 예들에 따른, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱하게 실행되거나, 적어도 일부 동작이 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.In addition, each of the components (eg, a module or a program) according to the above-described various embodiments may be composed of a single or a plurality of entities, and some sub-components of the aforementioned sub-components may be omitted, or other sub-components may be omitted. Components may be further included in various embodiments. Alternatively or additionally, some components (eg, a module or a program) may be integrated into a single entity to perform the same or similar functions performed by each corresponding component prior to integration. According to various embodiments, operations performed by a module, program, or other component may be sequentially, parallelly, repetitively or heuristically executed, or at least some operations may be executed in a different order, omitted, or other operations may be added. can
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.In the above, preferred embodiments of the present disclosure have been illustrated and described, but the present disclosure is not limited to the specific embodiments described above, and it is common in the technical field pertaining to the present disclosure without departing from the gist of the present disclosure as claimed in the claims. Various modifications may be made by those having the knowledge of

Claims (15)

  1. 전자 장치에 있어서,In an electronic device,
    메모리;Memory;
    프로세서;를 포함하고,processor; including;
    상기 프로세서는,The processor is
    오디오 신호가 입력되면, 상기 입력된 오디오 신호에 포함된 오디오 소스에 대한 정보를 획득하고,When an audio signal is input, information about an audio source included in the input audio signal is obtained,
    상기 획득된 오디오 소스에 대한 정보에 기초하여 상기 입력된 오디오 신호로부터 적어도 하나의 오디오 소스를 생성하고,generating at least one audio source from the input audio signal based on the obtained information on the audio source;
    상기 적어도 하나의 오디오 소스에 매칭되는 음상 위치를 식별하고, 상기 적어도 하나의 오디오 소스에 대응되는 음상 위치가 상기 식별된 음상 위치가 되도록 상기 적어도 하나의 오디오 소스를 처리하고,identify a sound image location matching the at least one audio source, and process the at least one audio source so that a sound image location corresponding to the at least one audio source becomes the identified sound image location;
    상기 처리된 오디오 소스를 출력하는 전자 장치.An electronic device for outputting the processed audio source.
  2. 제1항에 있어서,According to claim 1,
    상기 프로세서는,The processor is
    상기 입력된 오디오 신호를 분석하여 상기 오디오 신호에 포함된 오디오 소스의 유형 또는 상기 오디오 신호에 포함된 적어도 하나의 오디오 소스의 비율에 대한 정보가 포함된 상기 오디오 소스에 대한 정보를 획득하는 전자 장치.An electronic device that analyzes the input audio signal to obtain information on the audio source including information on a type of an audio source included in the audio signal or a ratio of at least one audio source included in the audio signal.
  3. 제2항에 있어서,3. The method of claim 2,
    상기 프로세서는,The processor is
    상기 오디오 소스에 대한 정보에 기초하여 상기 오디오 소스에 포함된 오디오 소스의 유형을 식별하고,identify a type of audio source included in the audio source based on information about the audio source;
    상기 오디오 신호로부터 상기 식별된 유형의 오디오 소스를 생성하는 전자 장치.An electronic device for generating an audio source of the identified type from the audio signal.
  4. 제1항에 있어서,According to claim 1,
    스피커;를 더 포함하고,speaker; further comprising,
    상기 오디오 소스에 매칭되는 음상 위치는,The sound image location matching the audio source is,
    상기 스피커가 위치한 영역에 대응되는 제1 위치, 상기 스피커에서 제1 방향으로 확장된 영역에 대응되는 제2 위치 및 상기 스피커에서 제2 방향으로 확장된 영역에 대응되는 제3 위치 중 적어도 하나인 것을 특징으로 하는 전자 장치. at least one of a first position corresponding to an area in which the speaker is located, a second position corresponding to an area extending in the first direction from the speaker, and a third position corresponding to an area extending in the second direction from the speaker Characterized by an electronic device.
  5. 제4항에 있어서,5. The method of claim 4,
    상기 오디오 소스의 유형 중 음성이 포함된 제1 오디오 소스에 대응되는 음상 위치는 상기 제1 위치이고,A sound image position corresponding to a first audio source including a voice among the types of the audio source is the first position,
    상기 오디오 소스의 유형 중 음악이 포함된 제2 오디오 소스에 대응되는 음상 위치는 상기 제2 위치이고,A sound image location corresponding to a second audio source including music among the types of the audio source is the second location,
    상기 오디오 소스의 유형 중 배경음이 포함된 제3 오디오 소스에 대응되는 음상 위치는 상기 제1 위치, 상기 제2 위치 및 상기 제3 위치인 것을 특징으로 하는 전자 장치.Among the types of the audio source, sound image positions corresponding to a third audio source including a background sound are the first position, the second position, and the third position.
  6. 제5항에 있어서,6. The method of claim 5,
    상기 프로세서는,The processor is
    상기 오디오 신호로부터 상기 제3 오디오 소스가 생성된 경우, 상기 제3 오디오 소스에 대응되는 음상 위치가 상기 제1 위치, 상기 제2 위치 및 상기 제3 위치가 되도록 상기 제3 오디오 소스를 처리하고,When the third audio source is generated from the audio signal, processing the third audio source so that sound image positions corresponding to the third audio source become the first position, the second position, and the third position;
    상기 처리된 제3 오디오 소스에 대해 스테레오 믹싱을 수행하여 최종 오디오 소스를 획득하고, 상기 최종 오디오 소스를 출력하는 전자 장치.An electronic device for obtaining a final audio source by performing stereo mixing on the processed third audio source, and outputting the final audio source.
  7. 제3항에 있어서,4. The method of claim 3,
    상기 프로세서는,The processor is
    상기 오디오 신호에 포함된 복수의 오디오 소스의 유형 중 제1 유형의 비율이 임계값을 초과하는 경우, 상기 오디오 신호가 상기 제1 유형의 오디오 소스로 구성된 것으로 식별하는 전자 장치.When a ratio of a first type among types of a plurality of audio sources included in the audio signal exceeds a threshold value, the electronic device identifies that the audio signal is composed of the audio source of the first type.
  8. 제4항에 있어서,5. The method of claim 4,
    디스플레이;를 더 포함하고,Display; further comprising,
    상기 프로세서는,The processor is
    상기 제2 위치 및 상기 제3 위치를 제어할 수 있는 UI를 표시하도록 상기 디스플레이를 제어하고,Control the display to display a UI that can control the second position and the third position,
    상기 UI를 통해 상기 제2 위치 또는 상기 제3 위치 중 적어도 하나를 제어하는 사용자 명령이 입력되면, 상기 입력된 사용자 명령에 기초하여 상기 제2 위치 또는 상기 제3 위치 중 적어도 하나를 제어하는 전자 장치.When a user command for controlling at least one of the second location and the third location is input through the UI, the electronic device controls at least one of the second location and the third location based on the input user command .
  9. 전자 장치의 제어 방법에 있어서,A method for controlling an electronic device, comprising:
    오디오 신호가 입력되면, 상기 입력된 오디오 신호에 포함된 오디오 소스에 대한 정보를 획득하는 단계;when an audio signal is input, obtaining information about an audio source included in the input audio signal;
    상기 획득된 오디오 소스에 대한 정보에 기초하여 상기 오디오 소스에 포함된 오디오 소스의 유형을 식별하고, 상기 오디오 신호로부터 상기 식별된 유형의 오디오 소스를 생성하는 단계;identifying a type of an audio source included in the audio source based on the obtained information about the audio source, and generating an audio source of the identified type from the audio signal;
    상기 적어도 하나의 오디오 소스에 매칭되는 음상 위치를 식별하고, 상기 적어도 하나의 오디오 소스에 대응되는 음상 위치가 상기 식별된 음상 위치가 되도록 상기 적어도 하나의 오디오 소스를 처리하는 단계; 및identifying a sound image position matching the at least one audio source, and processing the at least one audio source so that the sound image position corresponding to the at least one audio source becomes the identified sound image position; and
    상기 처리된 오디오 소스를 출력하는 단계;를 포함하는 제어 방법.and outputting the processed audio source.
  10. 제9항에 있어서,10. The method of claim 9,
    상기 획득하는 단계는,The obtaining step is
    상기 입력된 오디오 신호를 분석하여 상기 오디오 신호에 포함된 오디오 소스의 유형 또는 상기 오디오 신호에 포함된 적어도 하나의 오디오 소스의 비율에 대한 정보가 포함된 상기 오디오 소스에 대한 정보를 획득하는 단계;를 포함하는 제어 방법.analyzing the input audio signal to obtain information on the audio source including information on the type of the audio source included in the audio signal or the ratio of at least one audio source included in the audio signal; control method including.
  11. 제9항에 있어서,10. The method of claim 9,
    상기 오디오 소스에 매칭되는 음상 위치는,The sound image location matching the audio source is,
    상기 전자 장치의 스피커가 위치한 영역에 대응되는 제1 위치, 상기 스피커에서 제1 방향으로 확장된 영역에 대응되는 제2 위치 및 상기 스피커에서 제2 방향으로 확장된 영역에 대응되는 제3 위치 중 적어도 하나인 것을 특징으로 하는 제어 방법.At least one of a first location corresponding to an area in which the speaker of the electronic device is located, a second location corresponding to an area extending in the first direction from the speaker, and a third location corresponding to an area extending in the second direction from the speaker Control method, characterized in that one.
  12. 제11항에 있어서,12. The method of claim 11,
    상기 오디오 소스의 유형 중 음성이 포함된 제1 오디오 소스에 대응되는 음상 위치는 상기 제1 위치이고,A sound image position corresponding to a first audio source including a voice among the types of the audio source is the first position,
    상기 오디오 소스의 유형 중 음악이 포함된 제2 오디오 소스에 대응되는 음상 위치는 상기 제2 위치이고,A sound image location corresponding to a second audio source including music among the types of the audio source is the second location,
    상기 오디오 소스의 유형 중 배경음이 포함된 제3 오디오 소스에 대응되는 음상 위치는 상기 제1 위치, 상기 제2 위치 및 상기 제3 위치인 것을 특징으로 하는 제어 방법.The sound image position corresponding to the third audio source including the background sound among the types of the audio source is the first position, the second position, and the third position.
  13. 제12항에 있어서,13. The method of claim 12,
    상기 처리하는 단계는,The processing step is
    상기 오디오 신호로부터 상기 제3 오디오 소스가 생성된 경우, 상기 제3 오디오 소스에 대응되는 음상 위치가 상기 제1 위치, 상기 제2 위치 및 상기 제3 위치가 되도록 상기 제3 오디오 소스를 처리하는 단계를 포함하고,When the third audio source is generated from the audio signal, processing the third audio source so that sound image positions corresponding to the third audio source are the first position, the second position, and the third position; including,
    상기 출력하는 단계는,The output step is
    상기 처리된 제3 오디오 소스에 대해 스테레오 믹싱을 수행하여 최종 오디오 소스를 획득하고, 상기 최종 오디오 소스를 출력하는 단계;를 포함하는 제어 방법.and performing stereo mixing on the processed third audio source to obtain a final audio source, and outputting the final audio source.
  14. 제9항에 있어서,10. The method of claim 9,
    상기 오디오 신호에 포함된 복수의 오디오 소스의 유형 중 제1 유형의 비율이 임계값을 초과하는 경우, 상기 오디오 신호가 상기 제1 유형의 오디오 소스로 구성된 것으로 식별하는 단계;를 더 포함하는 제어 방법.When the ratio of the first type among the types of the plurality of audio sources included in the audio signal exceeds a threshold value, identifying that the audio signal is composed of the audio source of the first type; .
  15. 제12항에 있어서,13. The method of claim 12,
    상기 제2 위치 및 상기 제3 위치를 제어할 수 있는 UI를 표시하는 단계; 및displaying a UI capable of controlling the second location and the third location; and
    상기 UI를 통해 상기 제2 위치 또는 상기 제3 위치 중 적어도 하나를 제어하는 사용자 명령이 입력되면, 상기 입력된 사용자 명령에 기초하여 상기 제2 위치 또는 상기 제3 위치 중 적어도 하나를 제어하는 단계;를 더 포함하는 제어 방법.when a user command for controlling at least one of the second location and the third location is input through the UI, controlling at least one of the second location and the third location based on the input user command; A control method further comprising a.
PCT/KR2021/014128 2020-11-25 2021-10-13 Electronic device and control method therefor WO2022114516A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200160165A KR20220072493A (en) 2020-11-25 2020-11-25 Electronic device and method for controlling electronic device
KR10-2020-0160165 2020-11-25

Publications (1)

Publication Number Publication Date
WO2022114516A1 true WO2022114516A1 (en) 2022-06-02

Family

ID=81755232

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/014128 WO2022114516A1 (en) 2020-11-25 2021-10-13 Electronic device and control method therefor

Country Status (2)

Country Link
KR (1) KR20220072493A (en)
WO (1) WO2022114516A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102620762B1 (en) * 2023-03-29 2024-01-05 주식회사 디지소닉 electronic device providing sound therapy effect using generative AI sound source separation technology and method thereof

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07203600A (en) * 1993-12-27 1995-08-04 Toa Corp Sound image shifting device
JPH09114479A (en) * 1995-10-23 1997-05-02 Matsushita Electric Ind Co Ltd Sound field reproducing device
JP2000102099A (en) * 1998-07-24 2000-04-07 Matsushita Electric Ind Co Ltd Sound signal controller and reproducing device provided with the same
JP2007306470A (en) * 2006-05-15 2007-11-22 Sharp Corp Video/audio reproducing unit and sound image moving method thereof
JP2010152015A (en) * 2008-12-24 2010-07-08 Toshiba Corp Sound quality correction apparatus, sound quality correction method and program for sound quality correction

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07203600A (en) * 1993-12-27 1995-08-04 Toa Corp Sound image shifting device
JPH09114479A (en) * 1995-10-23 1997-05-02 Matsushita Electric Ind Co Ltd Sound field reproducing device
JP2000102099A (en) * 1998-07-24 2000-04-07 Matsushita Electric Ind Co Ltd Sound signal controller and reproducing device provided with the same
JP2007306470A (en) * 2006-05-15 2007-11-22 Sharp Corp Video/audio reproducing unit and sound image moving method thereof
JP2010152015A (en) * 2008-12-24 2010-07-08 Toshiba Corp Sound quality correction apparatus, sound quality correction method and program for sound quality correction

Also Published As

Publication number Publication date
KR20220072493A (en) 2022-06-02

Similar Documents

Publication Publication Date Title
WO2021101087A1 (en) Electronic apparatus and controlling method thereof
WO2017101361A1 (en) Audio playback control device, video display device and audio and video playback system
US20090189978A1 (en) Medical support control system
WO2022114516A1 (en) Electronic device and control method therefor
WO2022097944A1 (en) Electronic device and audio signal processing method thereof
WO2021107291A1 (en) Electronic apparatus and control method thereof
EP4004696A1 (en) Electronic apparatus and control method thereof
WO2020141794A1 (en) Electronic device and control method therefor
WO2017146518A1 (en) Server, image display apparatus, and method of operating the image display apparatus
WO2021167231A1 (en) Electronic device and control method therefor
WO2019164326A1 (en) Electronic device for sharing real-time content data
WO2021256760A1 (en) Movable electronic device and method for controlling same
WO2022092535A1 (en) Electronic device and control method therefor
WO2020204357A1 (en) Electronic device and control method therefor
WO2020184856A1 (en) Broadcast receiving device and operating method thereof
CN103888814A (en) Hdmi signal processing system and method
WO2023058861A1 (en) Electronic device and method for controlling same
WO2023182667A1 (en) Display device and control method thereof
WO2024106790A1 (en) Electronic device and control method therefor
WO2022124560A1 (en) Electronic apparatus and control method thereof
WO2021101104A1 (en) Electronic apparatus and controlling method thereof
WO2022055174A1 (en) Electronic apparatus and control method thereof
WO2024039053A1 (en) Electronic device for transmitting frames to plurality of devices, and control method therefor
WO2023075118A1 (en) Electronic device and operation method therefor
WO2023014030A1 (en) Display device and operating method therefor

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21898342

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21898342

Country of ref document: EP

Kind code of ref document: A1