WO2023096085A1 - 전자 장치 및 제어 방법 - Google Patents

전자 장치 및 제어 방법 Download PDF

Info

Publication number
WO2023096085A1
WO2023096085A1 PCT/KR2022/012729 KR2022012729W WO2023096085A1 WO 2023096085 A1 WO2023096085 A1 WO 2023096085A1 KR 2022012729 W KR2022012729 W KR 2022012729W WO 2023096085 A1 WO2023096085 A1 WO 2023096085A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
electronic device
channels
processor
input
Prior art date
Application number
PCT/KR2022/012729
Other languages
English (en)
French (fr)
Inventor
입테하즈나빌
라만 초우두리골람
압둘라 알 하디엠디
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to US17/964,818 priority Critical patent/US20230164482A1/en
Publication of WO2023096085A1 publication Critical patent/WO2023096085A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/34Microprocessors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/38Displays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/52Details of telephonic subscriber devices including functional features of a camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems

Definitions

  • the present disclosure relates to an electronic device and a control method, and more particularly, to an electronic device and a control method for generating input sound as sound of a plurality of channels.
  • a plurality of microphones or surround microphones capable of receiving various sounds must be installed in the electronic device.
  • it is difficult to mount a high-performance microphone due to the size of a portable electronic device and limitations in parts placement space, and even if a plurality of microphones are installed, the plurality of microphones have limitations in receiving sound with sufficient characteristics to output stereo sound.
  • the present disclosure is to solve the above problems, and an object of the present disclosure is to provide an electronic device and a control method for generating stereoscopic sound based on sound input by a general microphone.
  • an electronic device includes a camera for capturing (eg, photographing) an image, a microphone for receiving sound of one channel, and a processor for generating sound of a plurality of channels based on the input sound.
  • the processor identifies an object and a location of the object from the captured (eg, photographed) image, classifies the input sound based on an audio source, assigns a corresponding object to the identified object, and At least two channels of sound are generated by copying the classified sound, characteristics of the generated at least two channels of sound are adjusted based on an audio source assigned to the identified object and a position of the identified object, and At least two channels of sound whose characteristics are adjusted according to sources are mixed to generate at least two channels of stereo sound.
  • the electronic device includes a camera that captures an image, a microphone that receives sound, and a processor that generates sound of a plurality of channels based on the input sound, and the processor generates an object and the object from the captured image. identifying a location, classifying the input sound based on an audio source, assigning a corresponding object to the identified object, extracting a bass sound based on the input sound, and estimating a rear sound; clustering the assigned sound based on the position of the identified object, adjusting the characteristics of the extracted bass sound, the estimated rear sound and the clustered sound, and the sound with the characteristic adjusted according to the audio source is assigned to each channel to create surround sound.
  • a control method of an electronic device includes photographing an image, receiving sound, and generating sound of a plurality of channels based on the input sound, and generating sound of the plurality of channels.
  • the generating step identifies an object and a location of the object from the photographed image, classifies the input sound based on an audio source, assigns a corresponding object to the identified object, and generates the classified sound.
  • 2-channel sound is generated by copying, and characteristics of the generated 2-channel sound are adjusted based on an audio source assigned to the identified object and a location of the identified object, and the characteristics are changed according to the audio source.
  • 2-channel stereo sound is created by mixing the adjusted 2-channel sound.
  • the control method of an electronic device includes the steps of photographing an image, receiving sound, and generating sound of a plurality of channels based on the input sound, wherein the step of generating sound of a plurality of channels Identify an object and the position of the object from the captured image, classify the input sound based on an audio source, assign a corresponding object to the identified object, and base sound based on the input sound. extracting, estimating a rear sound, clustering the assigned sound based on the location of the identified object, adjusting characteristics of the extracted base sound, the estimated rear sound, and the clustered sound; According to the audio source, the sound whose characteristics are adjusted is assigned to each channel to create surround sound.
  • FIG. 1 is a block diagram illustrating a configuration of an electronic device according to an exemplary embodiment.
  • FIG. 2 is a block diagram illustrating a specific configuration of an electronic device according to an exemplary embodiment.
  • 3A to 3C are diagrams illustrating a process of matching an object and a sound according to an exemplary embodiment.
  • 4A to 4C are diagrams illustrating a process of manually matching objects and sounds according to an exemplary embodiment.
  • 5 and 6 are views illustrating a process of generating stereo sound according to an exemplary embodiment.
  • FIGS. 7A and 7B are diagrams illustrating a process of clustering sounds according to an exemplary embodiment.
  • FIG. 8 is a diagram illustrating a process of matching a sound to a rear object according to an exemplary embodiment.
  • FIG. 9 is a flowchart illustrating a method of controlling an electronic device according to an exemplary embodiment.
  • FIG. 10 is a flowchart illustrating a process of generating stereo sound according to an exemplary embodiment.
  • FIG. 11 is a flowchart illustrating a process of generating a surround sound according to an exemplary embodiment.
  • a “module” or “unit” for a component used in this specification performs at least one function or operation.
  • a “module” or “unit” may perform a function or operation by hardware, software, or a combination of hardware and software.
  • a plurality of “modules” or “units” other than “modules” or “units” to be executed in specific hardware or to be executed in at least one processor may be integrated into at least one module. Singular expressions include plural expressions unless the context clearly dictates otherwise.
  • Each module may contain a circuit.
  • FIG. 1 is a block diagram illustrating a configuration of an electronic device according to an exemplary embodiment.
  • an electronic device 100 includes a camera 110 , a microphone 120 and a processor 130 .
  • the camera 110 may generate an image by capturing (eg, photographing) the surrounding environment of the electronic device 100 .
  • an image may include an object.
  • images may include still images and moving images.
  • one camera 110 may be disposed on the back of the electronic device 100, and a plurality of cameras of different types performing different functions may be disposed.
  • one or more cameras 110 may be disposed on the front of the electronic device 100 .
  • the camera 110 may include a CCD sensor or a CMOS sensor.
  • the camera 110 may include an RGB camera, a depth camera, a wide-angle camera, a telephoto camera, and the like.
  • the microphone 120 receives external sound.
  • one microphone 120 may be disposed in the electronic device 100, and a plurality of microphones 120 may be disposed.
  • the microphone 120 may include a general microphone, a surround microphone, a directional microphone, and the like.
  • the processor 130 controls each component of the electronic device 100 .
  • the processor 130 controls the camera 110 to capture (eg, shoot) an image and controls the microphone 120 to receive sound.
  • the processor 130 generates a plurality of channels of sound based on the input sound.
  • the processor 130 may receive a mono sound and generate stereo sound.
  • the processor 130 may receive mono sound or stereo sound and generate surround sound. That is, the sound of a plurality of channels means 3D sound, and 3D sound may include stereo sound, surround sound, and the like.
  • the processor 130 identifies an object and a location of the object from the captured image. Then, the processor 130 classifies the input sound based on the audio source and assigns it to a corresponding object.
  • the captured (eg, photographed) image may be a video.
  • the objects may include people, cars, and the like.
  • an object may be a target that generates a sound.
  • the electronic device 100 may capture an image of the singer and receive a vocal sound of the singer.
  • the processor 130 may identify a singer as an object from the image, and identify a position of the singer in the image. Also, the processor 130 may separate the input sound into individual sounds.
  • the processor 130 may classify and identify an audio source corresponding to the separated sound based on frequency characteristics.
  • the processor 130 may identify objects and classify sounds based on an artificial intelligence model.
  • An audio source may refer to a type of sound. For example, when the electronic device 100 receives a singer's vocal sound along with a car noise sound and a conversation sound of people, the processor 130 may separate the input sound into individual sounds.
  • the processor 130 may classify sound into vehicle noise, conversation sound, and vocal sound based on the audio source.
  • the processor 130 may allocate the classified sound to a corresponding object. For example, the processor 130 may identify a singer and identify a vocal sound. And, the processor 130 may allocate the vocal sound to the singer.
  • the electronic device 100 requires two channels of sound to generate stereo sound using the input mono sound.
  • the processor 130 may generate 2-channel sound by copying the sound to generate a stereo sound based on the input mono sound.
  • 2 channels may mean a left channel sound and a right channel sound.
  • the two-channel sound must be output with a difference in intensity, time, and the like.
  • the processor 130 may adjust the characteristics of the two channels of sound based on the audio source and the location of the identified object. For example, the processor 130 may adjust sound panning, time delay, phase delay, intensity, amplitude, and spectral change of 2-channel sound to a preset position.
  • the processor 130 may generate 2-channel stereo sound by mixing 2-channel sounds whose characteristics are adjusted according to audio sources.
  • the electronic device 100 may generate surround sound by using the input sound.
  • the processor 130 identifies the object and the position of the object from the photographed image.
  • the processor 130 may classify the input sound based on the audio source and assign it to a corresponding object.
  • the processor 130 may extract a bass sound from the input sound and estimate a rear sound.
  • the processor 130 may cluster the assigned sound based on the location of the identified object. Clustering may mean dividing an image into certain areas and classifying sounds generated in the same area into one group based on the location of an object. For example, when the image is divided into left, center, and right areas, the processor 130 may cluster the left area sound, the center area sound, and the right area sound based on the location of the object.
  • the processor 130 may adjust the characteristics of the extracted bass sound, the estimated rear sound, and the clustered sound and allocate the characteristic-adjusted sound to each channel to generate surround sound.
  • Each channel generating a surround sound may mean a 3.1 channel, a 5.1 channel, and the like.
  • An input sound for generating a surround sound may be a sound including a plurality of channels. If the input sound is a mono sound, the processor 130 may include a process of generating left sound and right sound by copying the rear sound or the clustered sound.
  • FIG. 2 is a block diagram illustrating a specific configuration of an electronic device according to an exemplary embodiment. Each embodiment herein may be used in combination with any other embodiment described herein.
  • the electronic device 100 includes a camera 110, a microphone 120, a processor 130, an input interface 140, a communication interface 150, a sensor 160, a display 170, and a speaker. (180) and memory (190). Since the camera 110 and the microphone 120 are the same as those described in FIG. 1, detailed descriptions thereof are omitted.
  • the input interface 140 may receive a control command from a user.
  • the input interface 140 may include a key pad, a touch pad, or a touch screen.
  • the input interface 140 may include an input/output port to receive data.
  • the input interface 140 may receive a moving picture including sound and image.
  • the input/output port includes HDMI (High-Definition Multimedia Interface), DP (DisplayPort), RGB, DVI (Digital Visual Interface), USB (Universal Serial Bus), Thunderbolt, LAN , and AUX ports.
  • the input interface 140 may also be called an input unit, an input module including an input circuit, and the like.
  • the input interface 140 performs an input/output function, it may also be called an input/output unit, an input/output module including a circuit, or the like.
  • the communication interface 150 may perform communication with an external device.
  • the communication interface 150 uses at least one of Wi-Fi, Wi-Fi Direct, Bluetooth, ZigBee, 3rd Generation (3G), 3rd Generation Partnership Project (3GPP), and Long Term Evolution (LTE) communication schemes.
  • Communication with an external device may be performed in a communication method.
  • the aforementioned communication interface 150 may be referred to as a communication unit, a communication module including a communication circuit, a transceiver, and the like.
  • the sensor 160 may detect an object around the electronic device 100 .
  • the processor 130 may include a processing circuit, recognize a control command based on the sensed signal, and perform a control operation corresponding to the recognized control command.
  • the sensor 160 may detect surrounding environment information of the electronic device 100 .
  • the processor 130 may perform a corresponding control operation based on the surrounding environment information sensed by the sensor 160 .
  • the sensor 160 may include an acceleration sensor, a gravity sensor, a gyro sensor, a geomagnetic sensor, a direction sensor, a motion recognition sensor, a proximity sensor, a voltmeter, an ammeter, a barometer, a hygrometer, a thermometer, an illuminance sensor, a heat sensor, and a touch sensor. , an infrared sensor, an ultrasonic sensor, and the like.
  • the display 170 may output data processed by the processor 130 as an image.
  • the display 170 may display a photographed image and may display a mark representing the separated sound in the form of text or image.
  • the display 170 may be implemented as a liquid crystal display (LCD), an organic light emitting diode (OLED), a flexible display, a touch screen, or the like.
  • the electronic device 100 may receive a control command through the touch screen.
  • the speaker 180 outputs a voice signal on which voice processing has been performed.
  • a plurality of speakers 180 may be disposed in the electronic device 100, and the processor 130 allocates sound of each channel based on the position of the disposed speakers 180 to output stereoscopic sound.
  • the speaker 180 may output information on a user's input command, state-related information or operation-related information of the electronic device 100 as a voice or notification sound.
  • the memory 190 may store data, algorithms, etc. that perform functions of the electronic device 100, and may store programs, commands, etc. that are driven by the electronic device 100.
  • the memory 190 may store an image processing artificial intelligence algorithm and a sound processing artificial intelligence algorithm.
  • the processor 130 may identify an object from a captured image using an image processing artificial intelligence algorithm.
  • the processor 130 may process the input sound and generate 3D sound using a sound processing artificial intelligence algorithm.
  • An algorithm stored in the memory 190 may be loaded into the processor 130 under the control of the processor 130 to perform an object identification process or a sound processing process.
  • the memory 190 may be implemented in a type such as ROM, RAM, HDD, SSD, or memory card. Each processor in this specification may include a processing circuit.
  • 3A to 3C are diagrams illustrating a process of matching an object and a sound according to an exemplary embodiment.
  • FIG. 3A an image of a concert scene is shown.
  • the electronic device 100 may record a concert scene as a video.
  • the image may include a cellist 11 , a guitar player 12 , and a singer 13 .
  • the cello player 11, the guitar player 12, and the singer 13 may mean objects included in the image.
  • the electronic device 100 may identify an object from a photographed image.
  • the electronic device 100 may include an image processing artificial intelligence algorithm.
  • the electronic device 100 may identify an object from a photographed image using an image processing artificial intelligence algorithm.
  • a processor may consist of one or a plurality of processors.
  • the one or more processors may be a general-purpose processor such as a CPU, an AP, or a digital signal processor (DSP), a graphics-only processor such as a GPU or a vision processing unit (VPU), or an artificial intelligence-only processor such as an NPU.
  • DSP digital signal processor
  • GPU graphics-only processor
  • VPU vision processing unit
  • NPU artificial intelligence-only processor
  • One or more processors control input data to be processed according to predefined operating rules or artificial intelligence models stored in a memory.
  • the processors dedicated to artificial intelligence may be designed with a hardware structure specialized for processing a specific artificial intelligence model.
  • a predefined action rule or an artificial intelligence model is characterized in that it is created through learning.
  • being made through learning means that a basic artificial intelligence model is learned using a plurality of learning data by a learning algorithm, so that a predefined action rule or artificial intelligence model set to perform a desired characteristic (or purpose) is created. means burden.
  • Such learning may be performed in the device itself in which artificial intelligence according to the present disclosure is performed, or through a separate server and/or system.
  • Examples of learning algorithms include supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning, but are not limited to the above examples.
  • An artificial intelligence model may be composed of a plurality of neural network layers.
  • Each of the plurality of neural network layers has a plurality of weight values, and a neural network operation is performed through an operation between an operation result of a previous layer and a plurality of weight values.
  • a plurality of weights possessed by a plurality of neural network layers may be optimized by a learning result of an artificial intelligence model. For example, a plurality of weights may be updated so that a loss value or a cost value obtained from an artificial intelligence model is reduced or minimized during a learning process.
  • the artificial neural network may include a deep neural network (DNN), for example, a Convolutional Neural Network (CNN), a Deep Neural Network (DNN), a Recurrent Neural Network (RNN), a Restricted Boltzmann Machine (RBM), Deep Belief Network (DBN), Bidirectional Recurrent Deep Neural Network (BRDNN), You Only Look Once (YOLO), or Deep Q-Networks, but is not limited to the above examples.
  • DNN deep neural network
  • CNN Convolutional Neural Network
  • DNN Deep Neural Network
  • RNN Recurrent Neural Network
  • RBM Restricted Boltzmann Machine
  • DBN Deep Belief Network
  • BBN Bidirectional Recurrent Deep Neural Network
  • YOLO You Only Look Once
  • the electronic device 100 may identify the objects of the cellist 11, the guitar player 12, and the singer 13 from the photographed image using an image processing artificial intelligence algorithm.
  • the electronic device 100 may receive the mixed sound 30 of the surroundings while filming the concert.
  • the input mixed sound 30 may include a cello sound 31 , a guitar sound 32 , and a vocal sound 33 .
  • the electronic device 100 may separate each sound from the input sound using a sound processing artificial intelligence algorithm.
  • the sound processing artificial intelligence algorithm may include an Independent Component Analysis (ICA) model.
  • ICA Independent Component Analysis
  • the ICA model can decompose a multivariate signal into independent subcomponents using a cocktail effect.
  • the ICA model can decompose a T second long mixed sound signal composed of three sources into three T second sound signals.
  • the electronic device 100 can classify audio sources corresponding to respective sounds based on frequency characteristics and identify them using sound source information.
  • the electronic device 100 may classify and identify audio sources using a sound processing artificial intelligence algorithm. As shown in FIG. 3B , the electronic device 100 may first separate the input mixed sound 30 into sound a, sound b, and sound c. In addition, the electronic device 100 may classify and identify the separated sound a as the cello sound 31, the sound b as the guitar sound 32, and the sound c as the vocal sound.
  • the electronic device 100 may store sound source information and identify a separated sound based on the stored sound source information. Alternatively, the electronic device 100 may transmit the separated sound to an external device including sound source information. The external device may identify an audio source and transmit the identified sound source information to the electronic device 100 .
  • 3C shows a diagram in which objects and sounds are matched.
  • the electronic device 100 may identify an object. And, the electronic device 100 can separate the mixed sounds and identify each of the separated sounds. The electronic device 100 may assign (or match) each identified sound to a corresponding object. For example, a cello sound 31 is assigned to a cellist object 11, a guitar sound 32 is assigned to a guitar player object 12, and a vocal sound 33 is assigned to a singer object 13. can As an example, the electronic device 100 may display the identified object and corresponding sound. The electronic device 100 may display a mark indicating a sound corresponding to the object together with the identified object.
  • the electronic device 100 may not be able to identify the separated sound.
  • 4A to 4C are diagrams illustrating a process of manually matching objects and sounds according to an exemplary embodiment.
  • the electronic device 100 may identify the cello player object 21 from the photographed image and separate four sounds from the input mixed sound. However, the electronic device 100 may not be able to identify one separated sound 41 . When the electronic device 100 cannot identify the separated sound, it may display a preset indicator on the classified sound. As an embodiment, the preset indicator may be text such as unknown sound. That is, when the electronic device 100 cannot identify an object corresponding to the classified sound, the electronic device 100 may display the sound 41 displayed with a preset indicator along with the identified object.
  • the electronic device 100 may receive a command from the user 1 to move the mark of the sound 41 on which the preset indicator is displayed.
  • the command received from the user 1 may be a drag-and-drop command, but is not limited thereto.
  • the electronic device 100 may move the mark of the sound 41 displayed with the preset indicator to the cello player object 21 to which no sound is assigned according to the user's command.
  • the electronic device 100 may allocate the sound 41 displayed with a preset indicator to the cello player object 21 according to a user's command.
  • the electronic device 100 matches the unidentified sound 41 to one object 21 and matches the identified object with the classified sound 1:1.
  • 5 and 6 are views illustrating a process of generating stereo sound according to an exemplary embodiment.
  • a process of copying an input sound 51 to a plurality of channels is illustrated.
  • sound of a plurality of channels eg, a left channel and a right channel
  • the electronic device 100 may copy the mono sound to generate stereo sound and generate two-channel sound, a left sound 51a and a right sound 51b.
  • the electronic device 100 may classify each individual sound separated by the above-described method according to an audio source and assign it to the identified object.
  • the electronic device 100 may generate 2-channel sound by copying the classified mono sound.
  • the sound characteristics of each channel must be adjusted according to the distance of the identified object. For example, the volume of a sound corresponding to an object located close to the user must be large, and the volume of sound corresponding to an object located far from the user must be small. Also, a sense of sound corresponding to an object located on the user's left side should be formed in the user's left region, and a sense of sound corresponding to an object located on the user's right side should be formed in the user's right region.
  • the location of an object may be obtained using a triangular relationship, lidar sensor, or ToF sensor. If the electronic device 100 includes a sensor, the location of the object may be obtained based on a signal detected by the sensor. Alternatively, as shown in FIG. 6 , the electronic device 100 may identify the location of an object using a triangular relationship. For example, the electronic device 100 may obtain distances D1 , D2 , and D3 to the objects 22 , 23 , and 24 . D1, D2, and D3 may be absolute distances or relative distances. Also, the electronic device 100 may obtain distances X1 , X2 , and X3 of the objects 22 , 23 , and 24 from the left speaker.
  • X1, X2, and X3 may be relative distances.
  • the positions of objects 22, 23 and 24 from the left speaker can be obtained using the Pythagorean theorem.
  • the positions of objects 22, 23 and 24 from the right speaker can be obtained in a similar manner.
  • the electronic device 100 uses the Pythagorean theorem based on the acquired distance D1 of the first object 22 and the acquired distance X1 between the first objects 22 from the left speaker.
  • a distance L1 between the left speaker and the first object 22 may be calculated.
  • the electronic device 100 determines the distance D2 of the second object 23 obtained in a similar manner and the obtained distance X2 between the second object 23 from the left speaker and the left speaker and the second object ( 23), calculates the distance L2 between the left speaker and the third object 24 based on the obtained distance D3 of the third object 24 and the obtained distance X3 between the third object 24 and the left speaker.
  • a distance L3 between objects 24 may be calculated.
  • the distances R1, R2, and R3 between the right speaker and each object may be calculated.
  • the electronic device 100 may adjust the characteristics of the 2-channel sound allocated to the object based on the acquired positions of the objects 22 , 23 , and 24 .
  • the electronic device 100 may adjust the characteristics of sound in a manner such as sound panning, time delay, phase delay, intensity adjustment, amplitude adjustment, spectral change, etc. to a preset position.
  • the sound corresponding to the guitar player's object 24 may cause the user to form a sound image in the left area by delaying the right channel, delaying the phase, or weakening the intensity or amplitude.
  • the electronic device 100 may form a sound image in the left area by adjusting the left channel in the opposite way to the method of adjusting the characteristics of the right channel described above.
  • FIGS. 7A and 7B are diagrams illustrating a process of clustering sounds according to an exemplary embodiment.
  • the electronic device 100 may receive mixed sounds around the recording location.
  • the mixed sound may include a waterfall sound 71, a bird sound 72, an ambient noise sound 73, and the like.
  • the electronic device 100 may identify an object and its position from a photographed image in the same manner as described above.
  • the electronic device 100 may classify the input sound based on the audio source and allocate the corresponding identified object.
  • the electronic device 100 identifies a waterfall object 61 and a new object 61, and generates a waterfall sound 71 corresponding to the identified waterfall object 61. and a new sound 72 corresponding to the identified new object 62 may be allocated.
  • the electronic device 100 may divide the image into preset regions to generate a surround channel, and cluster sounds assigned to objects included in the same region among the divided regions into the same group.
  • the electronic device 100 may divide the image into left area 3, center area 5, and right area 7, and identify the sound included in which area among the classified sounds. For example, the electronic device 100 may identify that the waterfall sound 71 is included in the central area 5 and the bird sound 72 and noise sound 73 are included in the right area 7 . Accordingly, the electronic device 100 may cluster the waterfall sound 71 as a group in the center region 5, and cluster the bird sound 72 and the noise sound 73 as a group in the right region 7. If the electronic device 100 generates 5-channel surround sound, the image may be divided into more detailed regions and the classified sound may be included in each region.
  • the electronic device 100 may extract the bass sound.
  • the electronic device 100 may extract a bass sound by low-pass filtering the input mixed sound.
  • the surround sound may include a sound generated by a rear object in addition to a sound generated by a front object photographed by a camera.
  • FIG. 8 is a diagram illustrating a process of matching a sound to a rear object according to an exemplary embodiment.
  • a guitar player object, a singer object, and a drummer object may be positioned at the front of the electronic device 100, and a car object 81 and a conversationalist object 82 may be positioned at the rear of the electronic device 100.
  • the electronic device 100 includes a surround camera, since an object located in the rear may also be photographed, the object located in the rear may be identified and the classified sound may be matched.
  • the electronic device 100 includes a camera disposed in the front and a camera disposed in the rear, an object located in the rear may also be photographed using the camera disposed in the rear, so that the object located in the rear is identified, Classified sounds can be matched.
  • the electronic device 100 includes only a camera disposed in the front, the car object 81 and the dialog object 82 located in the rear cannot be photographed.
  • the mixed sound input to the electronic device 100 may include the car sound 91 and the conversation sound 92 . Accordingly, the electronic device 100 may estimate sounds other than the sound assigned to the object identified in the image as the rear sound.
  • the electronic device 100 may manually estimate the rear sound by the user. For example, the electronic device 100 may separate sound a and sound b from the input mixed sound. And, the electronic device 100 may identify the separated sound based on the frequency characteristics and sound source information. However, since the electronic device 100 does not find an object corresponding to the identified sound, a predetermined indicator may be displayed on the identified sound. As an example, the electronic device 100 may display an indicator such as unknown car sound in the car sound 91 and unknown conversation sound in the conversation sound 92 . The electronic device 100 may receive a command from the user 1 to move the sign of the car sound 91 on which the indicator is displayed.
  • the electronic device 100 may move the vehicle sound 91 displaying the preset indicator to a preset area of the screen according to a user's command.
  • the electronic device 100 may estimate it as a sound corresponding to an object located in the rear.
  • the electronic device 100 estimates the sound as the sound corresponding to the left rear object, and the mark of the conversation sound 92 is a preset right region. If moved to , it can be estimated as a sound corresponding to the right rear object.
  • the electronic device 100 may generate surround sound by adjusting characteristics of the extracted bass, the estimated rear sound, and the clustered sound and allocating them to respective channels.
  • a process of adjusting sound characteristics to generate surround sound may be the same as a process of adjusting sound characteristics to generate stereo sound.
  • FIG. 9 is a flowchart illustrating a method of controlling an electronic device according to an exemplary embodiment
  • FIG. 10 is a flowchart illustrating a process of generating stereo sound according to an exemplary embodiment
  • FIG. 11 is a flowchart illustrating surround sound according to an exemplary embodiment.
  • FIGS. 9 to 11 Here is a flow chart explaining the creation process. It will be described with reference to FIGS. 9 to 11 together.
  • the electronic device captures an image, receives sound (S910), and generates sound of a plurality of channels based on the input sound (S920). For example, the electronic device may receive mono sound of one channel and generate stereo sound (eg, see FIG. 9 ).
  • the electronic device may identify an object and a location of the object from a photographed image (S1010).
  • the electronic device may identify an object and a location of the object based on an image processing artificial intelligence model.
  • the electronic device may classify the input sound based on the audio source and assign it to the corresponding identified object (S1020). For example, the electronic device may receive a mixed sound in which various sounds are mixed. The electronic device may separate the input sound into individual sounds. The electronic device may identify an audio source corresponding to each separated sound based on frequency characteristics. The electronic device may classify each sound based on the identified audio source.
  • the electronic device may display a mark of the classified sound displaying a predetermined indicator along with the identified object.
  • the electronic device may match the classified sound displayed with a preset indicator to the identified object according to the input user's command.
  • the electronic device may generate 2-channel sound by copying the classified sound (eg, at least through the processor) (S1030).
  • the two-channel sound may be a left channel sound and a right channel sound.
  • the electronic device may adjust the characteristics of the generated 2-channel sound based on the location of the identified object and the audio source assigned to the identified object (S1040).
  • the electronic device may adjust the characteristics of the two-channel sound by applying methods such as sound panning, time delay, phase delay, intensity adjustment, amplitude adjustment, and spectral change to a preset position.
  • the electronic device may adjust the characteristics of two channels of sound based on a sound processing artificial intelligence model.
  • the electronic device may mix 2-channel sounds whose characteristics are adjusted according to audio sources to generate 2-channel stereo sound (S1050).
  • the generated 2-channel stereo sound may be stored in memory and output through a speaker.
  • the electronic device may transmit 2-channel stereo sound generated together with the image to an external device.
  • the electronic device may receive mono sound or stereo sound of one channel and generate surround sound.
  • the electronic device may identify an object and a location of the object from a photographed image (S1110). Then, the electronic device may classify the input sound based on the audio source and allocate it to the corresponding identified object (S1120).
  • the object identification process and the process of classifying sounds and allocating them to corresponding objects are the same as the above-described process, so detailed descriptions thereof are omitted.
  • the electronic device may extract a bass sound based on the input sound (eg, at least through the processor) and estimate a rear sound (S1130). For example, the electronic device may extract a bass sound by low-pass filtering the input sound. And, the electronic device may estimate a sound other than the sound assigned to the object identified in the image as the rear sound. Alternatively, the electronic device may display an indicator on the separated sound that does not match the object. When the sound displayed with the indicator moves to a preset area on the screen according to the user's command, the electronic device may estimate the separated sound that does not match the object as the rear sound.
  • the electronic device may cluster the assigned sound based on the location of the identified object (eg, at least through the processor) (S1140). For example, the electronic device may divide an image into a plurality of regions based on the number of surround sound channels to be generated. Also, the electronic device may cluster sounds assigned to objects included in the same area among the divided areas into the same group.
  • the electronic device may adjust characteristics of the extracted bass sound, the estimated rear sound, and the clustered sound (eg, at least through the processor) (S1150). For example, the electronic device may adjust the characteristics of the sound of each channel by applying sound panning, time delay, phase delay, intensity adjustment, amplitude adjustment, spectral change, and the like to a preset position. The electronic device may adjust the sound characteristics of each channel based on the sound processing artificial intelligence model.
  • the electronic device may generate surround sound by allocating sound whose characteristics are adjusted according to an audio source to each channel (S1160).
  • the electronic device may store, output, or transmit the generated surround to an external device.
  • the method for controlling an electronic device may be provided as a computer program product.
  • the computer program product may include a S/W program itself or a non-transitory computer readable medium in which the S/W program is stored.
  • a non-transitory readable medium is not a medium that stores data for a short moment, such as a register, cache, or memory, but a medium that stores data semi-permanently and can be read by a device.
  • the various applications or programs described above may be stored and provided in non-transitory readable media such as CD, DVD, hard disk, Blu-ray disk, USB, memory card, ROM, and the like.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Stereophonic System (AREA)

Abstract

전자 장치 및/또는 제어 방법이 제공된다. 전자 장치는 이미지를 캡쳐하는 카메라, 1 채널의 사운드를 입력받는 마이크 및 입력된 사운드에 기초하여 복수의 채널의 사운드를 생성하는 프로세서를 포함하고, 프로세서는 촬영된 이미지로부터 오브젝트 및 오브젝트의 위치를 식별하며, 입력된 사운드를 오디오 소스에 기초하여 분류하고, 대응되는 식별된 오브젝트에 할당하고, 분류된 사운드를 복사하여 2 채널의 사운드를 생성하며, 식별된 오브젝트에 할당된 오디오 소스 및 식별된 오브젝트의 위치에 기초하여 생성된 2 채널의 사운드의 특징을 조정하고, 오디오 소스에 따라 특징이 조정된 2 채널의 사운드를 믹싱하여 2 채널의 스테레오 사운드를 생성한다.

Description

전자 장치 및 제어 방법
본 개시는 전자 장치 및 제어 방법에 관한 것으로, 더욱 상세하게는 입력된 사운드를 복수의 채널의 사운드로 생성하는 전자 장치 및 제어 방법에 관한 것이다.
전자 기술의 발전에 따라 다양한 기능을 수행하는 전자 장치가 보급되고 있다. 예를 들어, 예전에는 전자 장치가 4 폴리(poly), 16 폴리 사운드 등을 출력하였으나, 최근에는 스테레오 사운드, 서라운드 사운드를 출력할 수 있다. 또한, 예전에는 전자 장치가 VGA, XGA의 해상도 등의 저해상도 이미지를 출력하였으나, 최근에는 Full-HD, Ultra-HD 등의 고해상도 이미지를 출력할 수 있다.
또한, 통신 기술의 발전에 따라 전자 장치는 대용량의 데이터를 송수신할 수 있다. 따라서, 사용자는 전자 장치를 이용하여 고성능의 이미지와 사운드를 포함하는 동영상 데이터를 업로딩 또는 다운로딩하는 것이 일상화되고 있다.
그러나, 고성능의 사운드를 출력하기 위해 다양한 사운드를 입력받을 수 있는 복수의 마이크 또는 서라운드 마이크가 전자 장치에 장착되어야 한다. 그러나, 휴대용 전자 장치의 크기, 부품 배치 공간의 한계 등으로 고성능의 마이크가 장착되기에 어려움이 있고, 복수의 마이크를 장착하더라도 복수의 마이크는 스테레오 사운드를 출력하기에 충분한 특성의 사운드를 입력받는데 한계가 있다.
따라서, 휴대용 전자 장치에 일반적으로 장착되는 마이크를 이용하여 복수의 채널을 포함하는 입체 사운드를 생성하는 기술에 대한 필요성이 존재한다.
본 개시는 상술한 문제점을 해결하기 위한 것으로, 본 개시의 목적은 일반적인 마이크로 입력된 사운드에 기초하여 입체 사운드를 생성하는 전자 장치 및 제어 방법을 제공하는 것이다.
일 실시 예에 따르면, 전자 장치는 이미지를 캡쳐하는(예, 촬영) 카메라, 1 채널의 사운드를 입력받는 마이크 및 상기 입력된 사운드에 기초하여 복수의 채널의 사운드를 생성하는 프로세서를 포함하고, 상기 프로세서는 상기 캡쳐된(예, 촬영된) 이미지로부터 오브젝트 및 상기 오브젝트의 위치를 식별하며, 상기 입력된 사운드를 오디오 소스(source)에 기초하여 분류하고, 대응되는 상기 식별된 오브젝트에 할당하고, 상기 분류된 사운드를 복사하여 적어도 2 채널의 사운드를 생성하며, 상기 식별된 오브젝트에 할당된 오디오 소스 및 상기 식별된 오브젝트의 위치에 기초하여 상기 생성된 적어도 2 채널의 사운드의 특징을 조정하고, 상기 오디오 소스에 따라 상기 특징이 조정된 적어도 2 채널의 사운드를 믹싱하여 적어도 2 채널의 스테레오 사운드를 생성한다.
또는, 전자 장치는 이미지를 촬영하는 카메라, 사운드를 입력받는 마이크 및 상기 입력된 사운드에 기초하여 복수의 채널의 사운드를 생성하는 프로세서를 포함하고, 상기 프로세서는 상기 촬영된 이미지로부터 오브젝트 및 상기 오브젝트의 위치를 식별하며, 상기 입력된 사운드를 오디오 소스(source)에 기초하여 분류하고, 대응되는 상기 식별된 오브젝트에 할당하며, 상기 입력된 사운드에 기초하여 베이스 사운드를 추출하고, 후방 사운드를 추정하며, 상기 식별된 오브젝트의 위치에 기초하여 상기 할당된 사운드를 클러스터링하고, 상기 추출된 베이스 사운드, 상기 추정된 후방 사운드 및 상기 클러스터링된 사운드의 특징을 조정하며, 상기 오디오 소스에 따라 상기 특징이 조정된 사운드를 각 채널에 할당하여 서라운드 사운드를 생성한다.
일 실시 예에 따르면, 전자 장치의 제어 방법은 이미지를 촬영하고, 사운드를 입력받는 단계 및 상기 입력된 사운드에 기초하여 복수의 채널의 사운드를 생성하는 단계를 포함하고, 상기 복수의 채널의 사운드를 생성하는 단계는 상기 촬영된 이미지로부터 오브젝트 및 상기 오브젝트의 위치를 식별하며, 상기 입력된 사운드를 오디오 소스(source)에 기초하여 분류하고, 대응되는 상기 식별된 오브젝트에 할당하고, 상기 분류된 사운드를 복사하여 2 채널의 사운드를 생성하며, 상기 식별된 오브젝트에 할당된 오디오 소스 및 상기 식별된 오브젝트의 위치에 기초하여 상기 생성된 2 채널의 사운드의 특징을 조정하고, 상기 오디오 소스에 따라 상기 특징이 조정된 2 채널의 사운드를 믹싱하여 2 채널의 스테레오 사운드를 생성한다.
또는, 전자 장치의 제어 방법은 이미지를 촬영하고, 사운드를 입력받는 단계 및 상기 입력된 사운드에 기초하여 복수의 채널의 사운드를 생성하는 단계를 포함하고, 상기 복수의 채널의 사운드를 생성하는 단계는 상기 촬영된 이미지로부터 오브젝트 및 상기 오브젝트의 위치를 식별하며, 상기 입력된 사운드를 오디오 소스(source)에 기초하여 분류하고, 대응되는 상기 식별된 오브젝트에 할당하며, 상기 입력된 사운드에 기초하여 베이스 사운드를 추출하고, 후방 사운드를 추정하며, 상기 식별된 오브젝트의 위치에 기초하여 상기 할당된 사운드를 클러스터링하고, 상기 추출된 베이스 사운드, 상기 추정된 후방 사운드 및 상기 클러스터링된 사운드의 특징을 조정하며, 상기 오디오 소스에 따라 상기 특징이 조정된 사운드를 각 채널에 할당하여 서라운드 사운드를 생성한다.
본 개시의 특정 실시 예의 상술한 그리고 다른 양태, 특징 및 이점은 첨부 도면과 함께 다음의 상세한 설명으로부터 더 명백해질 것이며, 여기서:
도 1은 일 실시 예에 따른 전자 장치의 구성을 설명하는 블록도이다.
도 2는 일 실시 예에 따른 전자 장치의 구체적인 구성을 설명하는 블록도이다.
도 3a 내지 도 3c는 일 실시 예에 따른 오브젝트와 사운드를 매칭시키는 과정을 설명하는 도면이다.
도 4a 내지 도 4c는 일 실시 예에 따른 수동으로 오브젝트와 사운드를 매칭시키는 과정을 설명하는 도면이다.
도 5 및 도 6은 일 실시 예에 따른 스테레오 사운드를 생성하는 과정을 설명하는 도면이다.
도 7a 및 도 7b는 일 실시 예에 따른 사운드를 클러스터링하는 과정을 설명하는 도면이다.
도 8은 일 실시 예에 따른 후방 오브젝트에 사운드를 매칭하는 과정을 설명하는 도면이다.
도 9는 일 실시 예에 따른 전자 장치의 제어 방법을 설명하는 흐름도이다.
도 10은 일 실시 예에 따른 스테레오 사운드를 생성하는 과정을 설명하는 흐름도이다.
도 11은 일 실시 예에 따른 서라운드 사운드를 생성하는 과정을 설명하는 흐름도이다.
이하에서는 첨부된 도면을 참조하여 다양한 실시 예를 보다 상세하게 설명한다. 본 명세서에 기재된 실시 예는 다양하게 변형될 수 있다. 특정한 실시 예가 도면에서 묘사되고 상세한 설명에서 자세하게 설명될 수 있다. 그러나, 첨부된 도면에 개시된 특정한 실시 예는 다양한 실시 예를 쉽게 이해하도록 하기 위한 것일 뿐이다. 따라서, 첨부된 도면에 개시된 특정 실시 예에 의해 기술적 사상이 제한되는 것은 아니며, 개시의 사상 및 기술 범위에 포함되는 모든 균등물 또는 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이러한 구성요소들은 상술한 용어에 의해 한정되지는 않는다. 상술한 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 명세서에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
한편, 본 명세서에서 사용되는 구성요소에 대한 "모듈" 또는 "부"는 적어도 하나의 기능 또는 동작을 수행한다. 그리고, "모듈" 또는 "부"는 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합에 의해 기능 또는 동작을 수행할 수 있다. 또한, 특정 하드웨어에서 수행되어야 하거나 적어도 하나의 프로세서에서 수행되는 "모듈" 또는 "부"를 제외한 복수의 "모듈들" 또는 복수의 "부들"은 적어도 하나의 모듈로 통합될 수도 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 각 모듈은 회로를 포함할 수 있다.
본 개시의 설명에 있어서 각 단계의 순서는 선행 단계가 논리적 및 시간적으로 반드시 후행 단계에 앞서서 수행되어야 하는 경우가 아니라면 각 단계의 순서는 비제한적으로 이해되어야 한다. 즉, 위와 같은 예외적인 경우를 제외하고는 후행 단계로 설명된 과정이 선행단계로 설명된 과정보다 앞서서 수행되더라도 개시의 본질에는 영향이 없으며 권리범위 역시 단계의 순서에 관계없이 정의되어야 한다. 그리고 본 명세서에서 "A 또는 B"라고 기재한 것은 A와 B 중 어느 하나를 선택적으로 가리키는 것뿐만 아니라 A와 B 모두를 포함하는 것도 의미하는 것으로 정의된다. 또한, 본 명세서에서 "포함"이라는 용어는 포함하는 것으로 나열된 요소 이외에 추가로 다른 구성요소를 더 포함하는 것도 포괄하는 의미를 가진다.
본 명세서에서는 본 개시의 설명에 필요한 필수적인 구성요소만을 설명하며, 본 개시의 본질과 관계가 없는 구성요소는 언급하지 아니한다. 그리고 언급되는 구성요소만을 포함하는 배타적인 의미로 해석되어서는 아니되며 다른 구성요소도 포함할 수 있는 비배타적인 의미로 해석되어야 한다.
그 밖에도, 본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그에 대한 상세한 설명은 축약하거나 생략한다. 한편, 각 실시 예는 독립적으로 구현되거나 동작될 수도 있지만, 각 실시 예는 조합되어 구현되거나 동작될 수도 있다.
도 1은 일 실시 예에 따른 전자 장치의 구성을 설명하는 블록도이다.
도 1을 참조하면, 전자 장치(100)는 카메라(110), 마이크(120) 및 프로세서(130)를 포함한다.
카메라(110)는 전자 장치(100)의 주변 환경을 캡쳐(예, 촬영)하여 이미지를 생성할 수 있다. 예를 들어, 이미지는 오브젝트를 포함할 수 있다. 또한, 이미지는 스틸 이미지 및 동영상 등을 포함할 수 있다. 일 실시 예로서, 카메라(110)는 전자 장치(100)의 후면에 한 개가 배치될 수 있고, 서로 다른 기능을 수행하는 다른 종류의 카메라가 복수 개 배치될 수 있다. 또는, 카메라(110)는 전자 장치(100)의 전면에 한 개 이상 배치될 수 있다. 예를 들어, 카메라(110)는 CCD 센서, CMOS 센서를 포함할 수 있다. 또한, 카메라(110)는 RGB 카메라, 뎁스 카메라, 광각 카메라, 망원 카메라 등을 포함할 수 있다.
마이크(120)는 외부의 사운드를 입력받는다. 예를 들어, 전자 장치(100)에 한 개의 마이크(120)가 배치될 수 있고, 복수의 마이크(120)가 배치될 수 있다. 예를 들어, 마이크(120)는 일반 마이크, 서라운드 마이크, 지향성 마이크 등을 포함할 수 있다.
프로세서(130)는 전자 장치(100)의 각 구성을 제어한다. 예를 들어, 프로세서(130)는 이미지를 캡쳐(예, 촬영)하도록 카메라(110)를 제어하고, 사운드를 입력받도록 마이크(120)를 제어한다. 또한, 프로세서(130)는 입력된 사운드에 기초하여 복수의 채널의 사운드를 생성한다. 예를 들어, 프로세서(130)는 모노 사운드를 입력받아 스테레오 사운드를 생성할 수 있다. 또는, 프로세서(130)는 모노 사운드 또는 스테레오 사운드를 입력받고 서라운드 사운드를 생성할 수 있다. 즉, 복수의 채널의 사운드는 입체 사운드를 의미하며, 입체 사운드는 스테레오 사운드, 서라운드 사운드 등을 포함할 수 있다.
프로세서(130)는 촬영된 이미지로부터 오브젝트 및 오브젝트의 위치를 식별한다. 그리고, 프로세서(130)는 입력된 사운드를 오디오 소스에 기초하여 분류하여 대응되는 오브젝트에 할당한다. 예를 들어, 캡쳐(예, 촬영)된 이미지는 동영상일 수 있다. 그리고, 오브젝트는 사람, 자동차 등을 포함할 수 있다. 본 개시에서 오브젝트는 사운드를 발생시키는 대상일 수 있다. 일 실시 예로서, 전자 장치(100)가 동영상으로 가수를 촬영하는 경우, 전자 장치(100)는 가수의 이미지를 촬영하고, 가수가 부르는 보컬 사운드를 입력받을 수 있다. 프로세서(130)는 이미지로부터 오브젝트인 가수를 식별하고, 이미지 내에서 가수의 위치를 식별할 수 있다. 그리고, 프로세서(130)는 입력된 사운드를 각각의 사운드로 분리할 수 있다. 프로세서(130)는 분리된 사운드에 대응되는 오디오 소스를 주파수 특성에 기초하여 분류하여 식별할 수 있다. 프로세서(130)는 인공 지능 모델에 기초하여 오브젝트를 식별하고 사운드를 분류할 수 있다. 오디오 소스는 사운드의 종류를 의미할 수 있다. 예를 들어, 전자 장치(100)가 자동차 소음 사운드, 사람들의 대화 사운드와 함께 가수의 보컬 사운드를 입력받으면, 프로세서(130)는 입력된 사운드를 개별 사운드로 분리할 수 있다. 프로세서(130)는 오디오 소스에 기초하여 자동차 소음 사운드, 대화 사운드, 보컬 사운드로 분류할 수 있다.
프로세서(130)는 분류된 사운드를 대응되는 오브젝트에 할당할 수 있다. 예를 들어, 프로세서(130)는 가수를 식별하고, 보컬 사운드를 식별할 수 있다. 그리고, 프로세서(130)는 보컬 사운드를 가수에게 할당할 수 있다.
한편, 전자 장치(100)는 입력된 모노 사운드를 이용하여 스테레오 사운드를 생성하려면 2개의 채널의 사운드가 필요하다. 프로세서(130)는 입력된 모노 사운드에 기초하여 스테레오 사운드를 생성하기 위해 사운드를 복사하여 2 채널의 사운드를 생성할 수 있다. 스테레오 사운드에서 2 채널은 좌측 채널 사운드 및 우측 채널 사운드를 의미할 수 있다. 그리고, 사용자가 스테레오 음감을 느끼기 위해 2 채널의 사운드는 강도, 시간 등의 차이를 가지고 출력되어야 한다. 따라서, 프로세서(130)는 오디오 소스 및 식별된 오브젝트의 위치에 기초하여 2 채널의 사운드의 특징을 조정할 수 있다. 예를 들어, 프로세서(130)는 2 채널의 사운드를 기 설정된 위치로 사운드 패닝, 시간 딜레이, 위상 지연, 강도 조정, 진폭 조정, 스펙트럴 변경 등을 조정할 수 있다. 프로세서(130)는 오디오 소스에 따라 특징이 조정된 2 채널의 사운드를 믹싱하여 2 채널의 스테레오 사운드를 생성할 수 있다.
또한, 전자 장치(100)는 입력된 사운드를 이용하여 서라운드 사운드를 생성할 수 있다. 상술한 바와 같이, 프로세서(130)는 촬영된 이미지로부터 오브젝트 및 오브젝트의 위치를 식별한다. 그리고, 프로세서(130)는 입력된 사운드를 오디오 소스에 기초하여 분류하고 대응되는 오브젝트에 할당할 수 있다. 프로세서(130)는 입력된 사운드로부터 베이스 사운드를 추출하고 후방 사운드를 추정할 수 있다. 또한, 프로세서(130)는 식별된 오브젝트의 위치에 기초하여 할당된 사운드를 클러스터링할 수 있다. 클러스터링은 이미지를 일정한 영역으로 구분하고, 오브젝트의 위치에 기초하여 동일한 영역에서 발생되는 사운드를 하나의 그룹으로 분류하는 것을 의미할 수 있다. 예를 들어, 프로세서(130)는 이미지를 좌측, 중앙, 우측 영역으로 구분한 경우, 오브젝트의 위치에 기초하여 좌측 영역 사운드, 중앙 영역 사운드 및 우측 영역 사운드로 클러스터링할 수 있다.
프로세서(130)는 추출된 베이스 사운드, 추정된 후방 사운드 및 클러스터링된 사운드의 특징을 조정하여 특징이 조정된 사운드를 각 채널에 할당하여 서라운드 사운드를 생성할 수 있다. 서라운드 사운드를 생성하는 각 채널은 3.1 채널, 5.1 채널 등을 의미할 수 있다. 서러운드 사운드를 생성하기 위한 입력 사운드는 복수의 채널을 포함하는 사운드일 수 있다. 만일, 입력된 사운드가 모노 사운드인 경우, 프로세서(130)는 후방 사운드 또는 클러스터링된 사운드를 복사하여 좌측 사운드 및 우측 사운드를 생성하는 과정을 포함할 수 있다.
도 2는 일 실시 예에 따른 전자 장치의 구체적인 구성을 설명하는 블록도이다. 본 명세서의 각 실시 예는 본 명세서에 기술된 임의의 다른 실시 예와 조합하여 사용될 수 있다.
도 2를 참조하면, 전자 장치(100)는 카메라(110), 마이크(120), 프로세서(130), 입력 인터페이스(140), 통신 인터페이스(150), 센서(160), 디스플레이(170), 스피커(180) 및 메모리(190)를 포함할 수 있다. 카메라(110) 및 마이크(120)는 도 1에서 설명한 바와 동일하므로 구체적인 설명을 생략한다.
입력 인터페이스(140)는 사용자로부터 제어 명령을 입력받을 수 있다. 예를 들어, 입력 인터페이스(140)는 키 패드, 터치 패드, 터치 스크린 등을 포함할 수 있다. 또는, 입력 인터페이스(140)는 입출력 포트를 포함하여 데이터를 입력받을 수 있다. 예를 들면, 입력 인터페이스(140)는 사운드와 이미지를 포함하는 동영상을 입력받을 수 있다. 입력 인터페이스(140)가 입출력 포트를 포함하는 경우, 입출력 포트는 HDMI(High-Definition Multimedia Interface), DP(DisplayPort), RGB, DVI(Digital Visual Interface), USB(Universal Serial Bus), 썬더볼트, LAN, AUX 등의 포트를 포함할 수 있다. 입력 인터페이스(140)는 입력부, 입력 회로를 포함하는 입력 모듈 등으로 불릴 수도 있다. 입력 인터페이스(140)가 입출력 기능을 수행하는 경우, 입출력부, 회로를 포함하는 입출력 모듈 등으로 불릴 수도 있다.
통신 인터페이스(150)는 외부 장치와 통신을 수행할 수 있다. 예를 들어, 통신 인터페이스(150)는 Wi-Fi, Wi-Fi 다이렉트, 블루투스, 지그비, 3G(3rd Generation), 3GPP(3rd Generation Partnership Project) 및 LTE(Long Term Evoloution)의 통신 방식 중 적어도 하나 이상의 통신 방식으로 외부 장치와 통신을 수행할 수 있다. 상술한 통신 인터페이스(150)는 통신부, 통신 회로를 포함하는 통신 모듈, 송수신부 등으로 지칭될 수 있다.
센서(160)는 전자 장치(100) 주변의 물체를 감지할 수 있다. 프로세서(130)는, 프로세싱 회로를 포함, 감지된 신호에 기초하여 제어 명령을 인식하고, 인식된 제어 명령에 대응되는 제어 동작을 수행할 수 있다. 또한, 센서(160)는 전자 장치(100)의 주변 환경 정보를 감지할 수 있다. 프로세서(130)는 센서(160)에서 감지된 주변 환경 정보에 기초하여 대응되는 제어 동작을 수행할 수 있다. 예를 들어, 센서(160)는 가속도 센서, 중력 센서, 자이로 센서, 지자기 센서, 방향 센서, 모션 인식 센서, 근접 센서, 전압계, 전류계, 기압계, 습도계, 온도계, 조도 센서, 열 감지 센서, 터치 센서, 적외선 센서, 초음파 센서 등을 포함할 수 있다.
디스플레이(170)는 프로세서(130)에서 처리된 데이터를 영상으로 출력할 수 있다. 디스플레이(170)는 촬영된 이미지를 표시할 수 있고, 분리된 사운드를 나타내는 표식을 텍스트 또는 이미지 형태로 표시할 수 있다. 예를 들어, 디스플레이(170)는 LCD(Liquid Crystal Display), OLED(Organic Light Emitting Diode), 플렉서블 디스플레이, 터치 스크린 등으로 구현될 수 있다. 디스플레이(170)가 터치 스크린으로 구현되는 경우, 전자 장치(100)는 터치 스크린을 통해 제어 명령을 입력받을 수 있다.
스피커(180) 음성 처리가 수행된 음성 신호를 출력한다. 예를 들어, 스피커(180)는 전자 장치(100)에 복수 개가 배치될 수 있고, 프로세서(130)는 배치된 스피커(180)의 위치에 기초하여 각 채널의 사운드를 할당하여 입체 사운드를 출력할 수 있다. 또한, 스피커(180)는 사용자의 입력 명령에 대한 정보, 전자 장치(100)의 상태 관련 정보 또는 동작 관련 정보 등을 음성이나 알림음으로 출력할 수 있다.
메모리(190)는 전자 장치(100)의 기능을 수행하는 데이터, 알고리즘 등을 저장하고, 전자 장치(100)에서 구동되는 프로그램, 명령어 등을 저장할 수 있다. 예를 들어, 메모리(190)는 이미지 처리 인공지능 알고리즘, 사운드 처리 인공지능 알고리즘을 저장할 수 있다. 프로세서(130)는 이미지 처리 인공지능 알고리즘을 이용하여 촬영된 이미지로부터 오브젝트를 식별할 수 있다. 또한, 프로세서(130)는 사운드 처리 인공지능 알고리즘을 이용하여 입력된 사운드를 처리하고 입체 사운드를 생성할 수 있다. 메모리(190)에 저장된 알고리즘은 프로세서(130)의 제어에 의해 프로세서(130)에 로딩되어 오브젝트 식별 과정 또는 사운드 처리 과정을 수행할 수 있다. 예를 들어, 메모리(190)는 롬, 램, HDD, SSD, 메모리 카드 등의 타입으로 구현될 수 있다. 본 명세서에서 각 프로세서는 프로세싱 회로를 포함할 수 있다.
지금까지, 전자 장치(100)의 구성을 설명하였다. 아래에서는 이미지에 포함된 오브젝트와 사운드를 매칭시키는 과정을 설명한다.
도 3a 내지 도 3c는 일 실시 예에 따른 오브젝트와 사운드를 매칭시키는 과정을 설명하는 도면이다.
도 3a를 참조하면, 콘서트 장면이 촬영된 이미지가 도시되어 있다.
전자 장치(100)는 콘서트 장면을 동영상으로 촬영할 수 있다. 일 실시 예로서, 이미지는 첼로 연주자(11), 기타 연주자(12), 가수(13)를 포함할 수 있다. 첼로 연주자(11), 기타 연주자(12), 가수(13)는 이미지에 포함된 오브젝트를 의미할 수 있다. 전자 장치(100)는 촬영된 이미지로부터 오브젝트를 식별할 수 있다. 예를 들어, 전자 장치(100)는 이미지 처리 인공지능 알고리즘을 포함할 수 있다. 전자 장치(100)는 이미지 처리 인공지능 알고리즘을 이용하여 촬영된 이미지로부터 오브젝트를 식별할 수 있다.
본 개시에 따른 인공지능과 관련된 기능은 프로세서와 메모리를 통해 동작된다. 프로세서는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.
기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.
인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN: Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN(Convolutional Neural Network), DNN(Deep Neural Network), RNN(Recurrent Neural Network), RBM(Restricted Boltzmann Machine), DBN(Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network), YOLO(You Only Look Once) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.
상술한 바와 같이, 전자 장치(100)는 이미지 처리 인공지능 알고리즘을 이용하여 촬영된 이미지로부터 첼로 연주자(11), 기타 연주자(12), 가수(13)의 오브젝트를 식별할 수 있다.
도 3b에는 입력된 사운드를 분리하는 과정이 도시되어 있다. 전자 장치(100)는 콘서트를 촬영하면서 주변의 혼합 사운드(30)를 입력받을 수 있다. 입력받은 혼합 사운드(30)는 첼로 사운드(31), 기타 사운드(32), 보컬 사운드(33)를 포함할 수 있다. 예를 들어, 전자 장치(100)는 사운드 처리 인공지능 알고리즘을 이용하여 입력받은 사운드로부터 각각의 사운드를 분리할 수 있다. 일 실시 예로서 사운드 처리 인공지능 알고리즘은 ICA(Independent Component Analysis) 모델을 포함할 수 있다. ICA 모델은 칵테일 효과를 이용한 방식으로 다변량 신호(multivariate signal)를 독립적인 부가 하위 요소로 분해할 수 있다. 예를 들어, ICA 모델은 3개의 소스로 구성된 T초 길이의 혼합 사운드 신호를 T초의 3개 사운드 신호로 분해할 수 있다.
전자 장치(100)는 혼합 사운드 신호를 분리한 후 각각의 사운드에 대응되는 오디오 소스를 주파수 특성에 기초하여 분류하고 사운드 소스 정보를 이용하여 식별할 수 있다. 전자 장치(100)는 사운드 처리 인공지능 알고리즘을 이용하여 오디오 소스를 분류하고 식별할 수 있다. 도 3b에 도시된 바와 같이, 먼저 전자 장치(100)는 입력된 혼합 사운드(30)를 a 사운드, b 사운드, c 사운드로 분리할 수 있다. 그리고, 전자 장치(100)는 분리된 a 사운드는 첼로 사운드(31), b 사운드는 기타 사운드(32), c 사운드는 보컬 사운드로 분류하고 식별할 수 있다. 일 실시 예로서, 전자 장치(100)는 사운드 소스 정보를 저장하고 저장된 사운드 소스 정보에 기초하여 분리된 사운드를 식별할 수 있다. 또는, 전자 장치(100)는 분리된 사운드를 사운드 소스 정보를 포함하는 외부 장치로 전송할 수 있다. 외부 장치는 오디오 소스를 식별하고, 식별된 사운드 소스 정보를 전자 장치(100)로 전송할 수도 있다.
도 3c에는 오브젝트와 사운드가 매칭된 도면이 도시되어 있다.
상술한 바와 같이, 전자 장치(100)는 오브젝트를 식별할 수 있다. 그리고, 전자 장치(100)는 혼합 사운드를 분리하고, 분리된 각각의 사운드를 식별할 수 있다. 전자 장치(100)는 식별된 각각의 사운드를 대응되는 오브젝트에 할당(또는, 매칭)할 수 있다. 예를 들어, 첼로 연주자 오브젝트(11)에 첼로 사운드(31)를 할당하고, 기타 연주자 오브젝트(12)에 기타 사운드(32)를 할당하며, 가수 오브젝트(13)에 보컬 사운드(33)를 할당할 수 있다. 일 실시 예로서, 전자 장치(100)는 식별된 오브젝트 및 대응되는 사운드를 표시할 수 있다. 전자 장치(100)는 오브젝트에 대응되는 사운드를 나타내는 표식을 식별된 오브젝트와 함께 표시할 수 있다.
한편, 전자 장치(100)는 분리된 사운드를 식별하지 못 할 수 있다.
도 4a 내지 도 4c는 일 실시 예에 따른 수동으로 오브젝트와 사운드를 매칭시키는 과정을 설명하는 도면이다.
도 4a를 참조하면, 오브젝트를 식별하고 오브젝트에 대응되는 사운드를 할당한 도면이 도시되어 있다. 예를 들어, 전자 장치(100)는 촬영된 이미지로부터 첼로 연주자 오브젝트(21)를 식별하고, 입력된 혼합 사운드로부터 4개의 사운드를 분리할 수 있다. 그러나, 전자 장치(100)는 분리된 하나의 사운드(41)를 식별하지 못 할 수 있다. 전자 장치(100)는 분리된 사운드를 식별하지 못 하는 경우, 분류된 사운드에 기 설정된 인디케이터를 표시할 수 있다. 일 실시 예로서, 기 설정된 인디케이터는 unknown sound와 같은 텍스트일 수 있다. 즉, 전자 장치(100)는 분류된 사운드에 대응되는 오브젝트를 식별하지 못 하는 경우, 식별된 오브젝트와 함께 기 설정된 인디케이터가 표시된 사운드(41)를 표시할 수 있다.
도 4b를 참조하면, 사용자에 의해 수동으로 오브젝트와 사운드를 매칭시키는 과정이 도시되어 있다. 전자 장치(100)는 기 설정된 인디케이터가 표시된 사운드(41)의 표식을 사용자(1)로부터 이동시키는 명령을 입력받을 수 있다. 예를 들어, 사용자(1)로부터 입력받는 명령은 드래그 앤 드랍 방식의 명령일 수 있으나, 이에 한정되는 것은 아니다. 전자 장치(100)는 사용자의 명령에 따라 기 설정된 인디케이터가 표시된 사운드(41)의 표식을 사운드가 할당되지 않은 첼로 연주자 오브젝트(21)로 이동시킬 수 있다. 전자 장치(100)는 사용자의 명령에 따라 기 설정된 인디케이터가 표시된 사운드(41)를 첼로 연주자 오브젝트(21)에 할당할 수 있다.
도 4c에 도시된 바와 같이, 상술한 과정을 통해 전자 장치(100)는 식별되지 않은 사운드(41)를 하나의 오브젝트(21)에 매칭시켜 식별된 오브젝트와 분류된 사운드를 1:1로 매칭시킬 수 있다.
도 5 및 도 6은 일 실시 예에 따른 스테레오 사운드를 생성하는 과정을 설명하는 도면이다.
도 5를 참조하면, 입력된 사운드(51)를 복수 개의 채널로 복사하는 과정이 도시되어 있다. 상술한 바와 같이, 스테레오 사운드를 생성하기 위해서 복수의 채널(예, 좌측 채널, 우측 채널)의 사운드가 필요하다. 그러나, 전자 장치(100)가 하나의 마이크를 포함하는 경우, 입력된 사운드는 모노 사운드이다. 따라서, 전자 장치(100)는 스테레오 사운드를 생성하기 모노 사운드를 복사하여 좌측용 사운드(51a) 및 우측용 사운드(51b)의 2 채널의 사운드를 생성할 수 있다. 전자 장치(100)는 상술한 방식에 의해 분리된 각각의 개별 사운드를 오디오 소스에 따라 분류하고 식별된 오브젝트에 할당할 수 있다. 그리고, 전자 장치(100)는 분류된 모노 사운드를 복사하여 2 채널의 사운드를 생성할 수 있다.
도 6을 참조하면, 오브젝트의 위치를 식별하는 예가 도시되어 있다. 스테레오 사운드를 생성하기 위해 식별된 오브젝트의 거리에 따라 각 채널의 사운드의 특징은 조정되어야 한다. 예를 들어, 사용자와 가깝게 위치한 오브젝트에 대응되는 사운드의 크기는 커야 하고, 사용자와 멀리 위치한 오브젝트에 대응되는 사운드의 크기는 작아야 한다. 또한, 사용자의 좌측에 위치한 오브젝트에 대응되는 사운드의 음감은 사용자의 좌측 영역에 형성되어야 하고, 사용자의 우측에 위치한 오브젝트에 대응되는 사운드의 음감은 사용자의 우측 영역에 형성되어야 한다.
예를 들어, 오브젝트의 위치는 삼각 관계, 라이다 센서 또는 ToF 센서를 이용하여 획득될 수 있다. 전자 장치(100)가 센서를 포함하는 경우, 센서에서 감지된 신호에 기초하여 오브젝트의 위치를 획득할 수 있다. 또는, 도 6에 도시된 바와 같이, 전자 장치(100)는 삼각 관계를 이용하여 오브젝트의 위치를 식별할 수 있다. 예를 들어, 전자 장치(100)는 각 오브젝트(22, 23, 24)와의 거리 D1, D2, D3를 획득할 수 있다. D1, D2, D3는 절대적인 거리일 수 있고, 상대적인 거리일 수도 있다. 또한, 전자 장치(100)는 좌측 스피커로부터 각 오브젝트(22, 23, 24)의 이격 거리 X1, X2, X3를 획득할 수 있다. X1, X2, X3는 상대적인 거리일 수 있다. 좌측 스피커로부터 오브젝트(22, 23, 24)의 위치는 피타고라스의 정리를 이용하여 획득될 수 있다. 우측 스피커로부터 오브젝트(22, 23, 24)의 위치도 유사한 방식으로 획득될 수 있다. 예를 들어, 전자 장치(100)는 획득한 제1 오브젝트(22)의 거리(D1)와 획득한 좌측 스피커로부터 제1 오브젝트(22) 간의 이격 거리(X1)를 기초로 피타고라스의 정리를 이용하여 좌측 스피커와 제1 오브젝트(22) 간의 거리(L1)를 산출할 수 있다. 전자 장치(100)는 유사한 방식으로 획득한 제2 오브젝트(23)의 거리(D2)와 획득한 좌측 스피커로부터 제2 오브젝트(23) 간의 이격 거리(X2)를 기초로 좌측 스피커와 제2 오브젝트(23) 간의 거리(L2)를 산출하고, 획득한 제3 오브젝트(24)의 거리(D3)와 획득한 좌측 스피커로부터 제3 오브젝트(24) 간의 이격 거리(X3)를 기초로 좌측 스피커와 제3 오브젝트(24) 간의 거리(L3)를 산출할 수 있다. 유사한 방식으로 우측 스피커와 각 오브젝트 간의 거리(R1, R2, R3)도 산출될 수 있다.
전자 장치(100)는 획득된 오브젝트(22, 23, 24)의 위치에 기초하여 오브젝트에 할당된 2 채널의 사운드의 특징을 조정할 수 있다. 예를 들어, 전자 장치(100)는 기 설정된 위치로 사운드 패닝, 시간 딜레이, 위상 지연, 강도 조정, 진폭 조정, 스펙트럴 변경 등의 방식으로 사운드의 특징을 조정할 수 있다. 일 실시 예로서, 기타 연주자의 오브젝트(24)에 대응되는 사운드는 우측 채널을 딜레이 시키거나 위상을 지연시키거나 강도 또는 진폭을 약하게 함으로써 사용자로 하여금 좌측 영역에 음상을 형성할 수 있다. 또는, 전자 장치(100)는 좌측 채널을 상술한 우측 채널의 특징을 조정하는 방식과 반대로 조정함으로써 좌측 영역에 음상을 형성할 수 있다.
지금까지 전자 장치(100)가 입력된 모노 사운드를 이용하여 스테레오 사운드를 생성하는 과정을 설명하였다. 아래에서는 서라운드 사운드를 생성하는 과정을 설명한다.
도 7a 및 도 7b는 일 실시 예에 따른 사운드를 클러스터링하는 과정을 설명하는 도면이다.
도 7a를 참조하면, 전자 장치(100)는 폭포(61), 새(62)를 포함하는 동영상을 촬영하면서 촬영 장소 주변의 혼합 사운드를 입력받을 수 있다. 예를 들어, 혼합 사운드는 폭포 사운드(71), 새 사운드(72), 주변의 노이즈 사운드(73) 등을 포함할 수 있다.
전자 장치(100)는 상술한 방식과 동일하게 촬영된 이미지로부터 오브젝트 및 오브젝트의 위치를 식별할 수 있다. 그리고, 전자 장치(100)는 입력된 사운드를 오디오 소스에 기초하여 분류하고, 대응되는 상기 식별된 오브젝트에 할당할 수 있다. 일 실시 예로서, 도 7a에 도시된 바와 같이, 전자 장치(100)는 폭포 오브젝트(61) 및 새 오브젝트(61)를 식별하고, 식별된 폭포 오브젝트(61)에 대응되는 폭포 사운드(71)를 할당하고, 식별된 새 오브젝트(62)에 대응되는 새 사운드(72)를 할당할 수 있다. 그리고, 전자 장치(100)는 서라운드 채널을 생성하기 위해 이미지를 기 설정된 영역으로 구분하고, 구분된 각 영역 중 동일한 영역에 포함되는 오브젝트에 할당된 사운드를 동일한 그룹으로 클러스터링할 수 있다.
도 7b를 참조하면, 영역 별로 사운드를 클러스터링한 예가 도시되어 있다. 예를 들어, 전자 장치(100)가 3 채널의 서라운드 사운드를 생성한다면, 좌측 채널, 중앙 채널, 우측 채널로 사운드를 구분할 수 있다. 따라서, 전자 장치(100)는 이미지를 좌측 영역(3), 중앙 영역(5), 우측 영역(7)으로 구분하고, 분류된 사운드를 각 영역 중 어느 영역에 포함되는 사운드인지 식별할 수 있다. 예를 들어, 전자 장치(100)는 폭포 사운드(71)는 중앙 영역(5)에 포함되고, 새 사운드(72) 및 노이즈 사운드(73)는 우측 영역(7)에 포함된다고 식별할 수 있다. 따라서, 전자 장치(100)는 폭포 사운드(71)를 중앙 영역(5)의 그룹으로 클러스터링하고, 새 사운드(72) 및 노이즈 사운드(73)를 우측 영역(7)의 그룹으로 클러스터링할 수 있다. 만일, 전자 장치(100)가 5 채널의 서라운드 사운드를 생성한다면, 이미지를 더 세부적인 영역으로 구분하고 분류된 사운드를 각 영역에 포함시킬 수 있다.
한편, 전자 장치(100)가 3.1 채널, 5.1 채널의 서라운드 사운드를 생성한다면, 베이스 사운드를 추출할 수 있다. 예를 들어, 전자 장치(100)는 입력된 혼합 사운드를 저역 통과 필터링하여 베이스 사운드를 추출할 수 있다. 서라운드 사운드는 카메라로 촬영되는 전방의 오브젝트로부터 발생되는 사운드 이외에 후방의 오브젝트로 발생되는 사운드를 포함할 수 있다.
도 8은 일 실시 예에 따른 후방 오브젝트에 사운드를 매칭하는 과정을 설명하는 도면이다.
도 8을 참조하면, 전자 장치(100)의 전방에는 기타 연주자 오브젝트, 가수 오브젝트, 드럼 연주자 오브젝트가 위치하고, 후방에는 자동차 오브젝트(81) 및 대화자 오브젝트(82)가 위치할 수 있다. 만일, 전자 장치(100)가 서라운드 카메라를 포함하는 경우, 후방에 위치하는 오브젝트도 촬영될 수 있으므로 후방에 위치한 오브젝트를 식별하고, 분류된 사운드를 매칭시킬 수 있다. 또는, 전자 장치(100)가 정면에 배치된 카메라와 후면에 배치된 카메라를 포함하는 경우, 후면에 배치된 카메라를 이용하여 후방에 위치하는 오브젝트도 촬영될 수 있으므로 후방에 위치한 오브젝트를 식별하고, 분류된 사운드를 매칭시킬 수 있다.
그러나, 전자 장치(100)가 정면에 배치된 카메라만을 포함하는 경우, 후방에 위치한 자동차 오브젝트(81) 및 대화자 오브젝트(82)를 촬영할 수 없다. 그러나, 전자 장치(100)로 입력된 혼합 사운드에는 자동차 사운드(91) 및 대화 사운드(92)가 포함될 수 있다. 따라서, 전자 장치(100)는 이미지에서 식별된 오브젝트에 할당된 사운드 이외의 사운드를 후방 사운드로 추정할 수 있다.
또는, 전자 장치(100)는 사용자에 의해 수동으로 후방 사운드를 추정할 수도 있다. 예를 들어, 전자 장치(100)는 입력된 혼합 사운드에서 a 사운드, b 사운드를 분리할 수 있다. 그리고, 전자 장치(100)는 주파수 특성 및 사운드 소스 정보에 기초하여 분리된 사운드를 식별할 수 있다. 그러나, 전자 장치(100)는 식별된 사운드에 대응되는 오브젝트를 발견하지 못 하므로 식별된 사운드에 기 설정된 인디케이터를 표시할 수 있다. 일 실시 예로서, 전자 장치(100)는 자동차 사운드(91)에 unknown car sound, 대화 사운드(92)에 unknown conversation sound와 같은 인디케이터를 표시할 수 있다. 전자 장치(100)는 인디케이터가 표시된 자동차 사운드(91)의 표식을 사용자(1)로부터 이동시키는 명령을 입력받을 수 있다. 전자 장치(100)는 사용자의 명령에 따라 기 설정된 인디케이터가 표시된 자동차 사운드(91)의 표식을 화면의 기 설정된 영역으로 이동시킬 수 있다. 전자 장치(100)는 자동차 사운드(91)의 표식이 기 설정된 영역으로 이동되면 후방에 위치한 오브젝트에 대응되는 사운드로 추정할 수 있다. 일 실시 예로서, 전자 장치(100)는 자동차 사운드(91)의 표식이 기 설정된 왼쪽 영역으로 이동되면, 좌측 후방 오브젝트에 대응되는 사운드로 추정하고, 대화 사운드(92)의 표식이 기 설정된 오른쪽 영역으로 이동되면, 우측 후방 오브젝트에 대응되는 사운드로 추정할 수 있다.
전자 장치(100)는 추출된 베이스, 추정된 후방 사운드, 클러스터링된 사운드의 특징을 조정하고 각 채널에 할당하여 서라운드 사운드를 생성할 수 있다. 서라운드 사운드를 생성하기 위한 사운드 특징 조정 과정은 스테레오 사운드를 생성하기 위한 사운드 특징 조정 과정과 동일할 수 있다.
지금까지 전자 장치가 입체 사운드를 생성하는 다양한 실시 예를 설명하였다. 아래에서는 전자 장치의 제어 방법을 설명한다.
도 9는 일 실시 예에 따른 전자 장치의 제어 방법을 설명하는 흐름도이고, 도 10은 일 실시 예에 따른 스테레오 사운드를 생성하는 과정을 설명하는 흐름도이며, 도 11은 일 실시 예에 따른 서라운드 사운드를 생성하는 과정을 설명하는 흐름도이다. 도 9 내지 도 11을 함께 참조하여 설명한다.
전자 장치는 이미지를 촬영하고 사운드를 입력받고(S910), 입력된 사운드에 기초하여 복수의 채널의 사운드를 생성한다(S920). 예를 들어, 전자 장치는 1 채널의 모노 사운드를 입력받고 스테레오 사운드를 생성할 수 있다(예, 도 9 참조).
도 10을 참조하면, 전자 장치는 촬영된 이미지로부터 오브젝트 및 오브젝트의 위치를 식별할 수 있다(S1010). 전자 장치는 이미지 처리 인공 지능 모델에 기초하여 오브젝트 및 오브젝트의 위치를 식별할 수 있다.
전자 장치는(예, 적어도 프로세서를 통해) 입력된 사운드를 오디오 소스에 기초하여 분류하고, 대응되는 식별된 오브젝트에 할당할 수 있다(S1020). 예를 들어, 전자 장치는 다양한 사운드가 혼합된 혼합 사운드를 입력받을 수 있다. 전자 장치는 입력된 사운드를 각각의 사운드로 분리할 수 있다. 전자 장치는 분리된 각각의 사운드에 대응되는 오디오 소스를 주파수 특성에 기초하여 식별할 수 있다. 전자 장치는 식별된 오디오 소스에 기초하여 각각의 사운드를 분류할 수 있다.
한편, 전자 장치는(예, 적어도 프로세서를 통해) 분류된 사운드에 대응되는 오브젝트를 식별하지 못 하는 경우, 식별된 오브젝트와 함께 기 설정된 인디케이터를 표시한 분류된 사운드의 표식을 표시할 수 있다. 전자 장치는 입력된 사용자의 명령에 따라 기 설정된 인디케이터가 표시된 분류된 사운드를 식별된 오브젝트에 매칭시킬 수 있다.
전자 장치는(예, 적어도 프로세서를 통해) 분류된 사운드를 복사하여 2 채널의 사운드를 생성할 수 있다(S1030). 예를 들어, 2 채널의 사운드는 좌측 채널 사운드 및 우측 채널 사운드일 수 있다. 전자 장치는 식별된 오브젝트에 할당된 오디오 소스 및 식별된 오브젝트의 위치에 기초하여 생성된 2 채널의 사운드의 특징을 조정할 수 있다(S1040). 예를 들어, 전자 장치는 기 설정된 위치로 사운드 패닝, 시간 딜레이, 위상 지연, 강도 조정, 진폭 조정, 스펙트럴 변경 등의 방식을 적용하여 2 채널의 사운드의 특징을 조정할 수 있다. 전자 장치는 사운드 처리 인공 지능 모델에 기초하여 2 채널의 사운드의 특징을 조정할 수 있다.
전자 장치는(예, 적어도 프로세서를 통해) 오디오 소스에 따라 특징이 조정된 2 채널의 사운드를 믹싱하여 2 채널의 스테레오 사운드를 생성할 수 있다(S1050). 생성된 2 채널의 스테레오 사운드는 메모리에 저장될 수 있고, 스피커로 출력될 수 있다. 또는, 전자 장치는 이미지와 함께 생성된 2 채널의 스테레오 사운드를 외부 장치로 전송할 수 있다.
또는, 전자 장치는 1 채널의 모노 사운드 또는 스테레오 사운드를 입력받고, 서라운드 사운드를 생성할 수 있다.
도 11을 참조하면, 전자 장치는 촬영된 이미지로부터 오브젝트 및 오브젝트의 위치를 식별할 수 있다(S1110). 그리고, 전자 장치는 입력된 사운드를 오디오 소스에 기초하여 분류하고, 대응되는 식별된 오브젝트에 할당할 수 있다(S1120). 오브젝트의 식별 과정 및 사운드를 분류하여 대응되는 오브젝트에 할당하는 과정은 상술한 과정과 동일하므로 구체적인 설명은 생략한다.
전자 장치는(예, 적어도 프로세서를 통해) 입력된 사운드에 기초하여 베이스 사운드를 추출하고, 후방 사운드를 추정할 수 있다(S1130). 예를 들어, 전자 장치는 입력된 사운드를 저역 통과 필터링하여 베이스 사운드를 추출할 수 있다. 그리고, 전자 장치는 이미지에서 식별된 오브젝트에 할당된 사운드 이외의 사운드를 후방 사운드로 추정할 수 있다. 또는, 전자 장치는 오브젝트에 매칭되지 않는 분리된 사운드에 인디케이터를 표시할 수 있다. 인디케이터가 표시된 사운드가 사용자의 명령에 따라 화면 상의 기 설정된 영역으로 이동하면, 전자 장치는 오브젝트에 매칭되지 않는 분리된 사운드를 후방 사운드로 추정할 수 있다.
전자 장치는(예, 적어도 프로세서를 통해) 식별된 오브젝트의 위치에 기초하여 할당된 사운드를 클러스터링할 수 있다(S1140). 예를 들어, 전자 장치는 생성하려는 서라운드 사운드의 채널 수에 기초하여 이미지를 복수의 영역으로 구분할 수 있다. 그리고, 전자 장치는 구분된 각 영역 중 동일한 영역에 포함되는 오브젝트에 할당된 사운드를 동일한 그룹으로 클러스터링할 수 있다.
전자 장치는(예, 적어도 프로세서를 통해) 추출된 베이스 사운드, 추정된 후방 사운드 및 클러스터링된 사운드의 특징을 조정할 수 있다(S1150). 예를 들어, 전자 장치는 기 설정된 위치로 사운드 패닝, 시간 딜레이, 위상 지연, 강도 조정, 진폭 조정, 스펙트럴 변경 등의 방식을 적용하여 각 채널의 사운드의 특징을 조정할 수 있다. 전자 장치는 사운드 처리 인공 지능 모델에 기초하여 각 채널의 사운드의 특징을 조정할 수 있다.
전자 장치는(예, 적어도 프로세서를 통해) 오디오 소스에 따라 특징이 조정된 사운드를 각 채널에 할당하여 서라운드 사운드를 생성할 수 있다(S1160). 전자 장치는 생성된 서라운드를 저장, 출력 또는 외부 장치로 전송할 수 있다.
상술한 다양한 실시 예에 따른 전자 장치의 제어 방법은 컴퓨터 프로그램 제품으로 제공될 수도 있다. 컴퓨터 프로그램 제품은 S/W 프로그램 자체 또는 S/W 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)를 포함할 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
또한, 이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시가 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.

Claims (15)

  1. 이미지를 캡쳐하는 카메라;
    1 채널의 사운드를 입력받는 마이크; 및
    상기 입력된 사운드에 기초하여 복수의 채널의 사운드를 생성하는 프로세서;를 포함하고,
    상기 프로세서는,
    상기 이미지로부터 오브젝트 및 상기 오브젝트의 위치를 식별하며,
    상기 입력된 사운드를 오디오 소스(source)에 기초하여 분류하고, 대응되는 상기 식별된 오브젝트에 할당하고,
    상기 분류된 사운드를 복사하여 적어도 2 채널의 사운드를 생성하며,
    상기 식별된 오브젝트에 할당된 오디오 소스 및 상기 식별된 오브젝트의 위치에 기초하여 상기 생성된 적어도 2 채널의 사운드의 특징을 조정하고,
    상기 오디오 소스에 따라 상기 특징이 조정된 적어도 2 채널의 사운드를 믹싱하여 적어도 2 채널의 스테레오 사운드를 생성하는, 전자 장치.
  2. 제1항에 있어서,
    상기 프로세서는,
    기 설정된 위치로 사운드 패닝, 시간 딜레이, 위상 지연, 강도 조정, 진폭 조정 및 스펙트럴 변경 중 적어도 하나에 기초하여 상기 2 채널의 사운드의 특징을 조정하는, 전자 장치.
  3. 제1항에 있어서,
    상기 프로세서는,
    상기 입력된 사운드를 각각의 사운드로 분리하고, 상기 분리된 각각의 사운드에 대응되는 오디오 소스를 주파수 특성에 기초하여 식별하며, 상기 식별된 오디오 소스에 기초하여 상기 각각의 사운드를 분류하는, 전자 장치.
  4. 제1항에 있어서,
    디스플레이;를 더 포함하고,
    상기 프로세서는,
    상기 분류된 사운드에 대응되는 오브젝트를 식별하지 못 하는 경우, 상기 분류된 사운드에 기 설정된 인디케이터 및 상기 식별된 오브젝트를 표시하도록 상기 디스플레이를 제어하는, 전자 장치.
  5. 제4항에 있어서,
    회로를 포함하는 입력 인터페이스;를 더 포함하고,
    상기 프로세서는,
    상기 입력 인터페이스를 통해 입력된 사용자의 명령에 따라 상기 기 설정된 인디케이터가 표시된 분류된 사운드를 상기 식별된 오브젝트에 매칭시키는, 전자 장치.
  6. 제1항에 있어서,
    상기 프로세서는,
    이미지 처리 인공 지능 모델에 기초하여 상기 오브젝트 및 상기 오브젝트의 위치를 식별하고, 사운드 처리 인공 지능 모델에 기초하여 상기 생성된 2 채널의 사운드의 특징을 조정하는, 전자 장치.
  7. 이미지를 캡쳐하는 카메라;
    사운드를 입력받는 마이크; 및
    상기 입력된 사운드에 기초하여 복수의 채널의 사운드를 생성하는 프로세서;를 포함하고,
    상기 프로세서는,
    상기 이미지로부터 오브젝트 및 상기 오브젝트의 위치를 식별하며,
    상기 입력된 사운드를 오디오 소스(source)에 기초하여 분류하고, 대응되는 상기 식별된 오브젝트에 할당하며,
    상기 입력된 사운드에 기초하여 베이스 사운드를 추출하고, 후방 사운드를 추정하며, 상기 식별된 오브젝트의 위치에 기초하여 상기 할당된 사운드를 클러스터링하고,
    상기 추출된 베이스 사운드, 상기 추정된 후방 사운드 및 상기 클러스터링된 사운드의 특징을 조정하며,
    상기 오디오 소스에 따라 상기 특징이 조정된 사운드를 각 채널에 할당하여 서라운드 사운드를 생성하는, 전자 장치.
  8. 제7항에 있어서,
    상기 프로세서는,
    상기 이미지에서 식별된 오브젝트에 할당된 사운드 이외의 사운드를 상기 후방 사운드로 추정하는, 전자 장치.
  9. 제7항에 있어서,
    상기 프로세서는,
    상기 이미지를 기 설정된 영역으로 구분하고, 상기 구분된 각 영역 중 동일한 영역에 포함되는 오브젝트에 할당된 사운드를 동일한 그룹으로 클러스터링하는, 전자 장치.
  10. 제7항에 있어서,
    상기 프로세서는,
    상기 입력된 사운드를 저역 통과 필터링하여 상기 베이스 사운드를 추출하는, 전자 장치.
  11. 이미지를 캡쳐하고, 사운드를 입력받는 단계; 및
    상기 입력된 사운드에 기초하여 복수의 채널의 사운드를 생성하는 단계;를 포함하고,
    상기 복수의 채널의 사운드를 생성하는 단계는,
    상기 이미지로부터 오브젝트 및 상기 오브젝트의 위치를 식별하며,
    상기 입력된 사운드를 오디오 소스(source)에 기초하여 분류하고, 대응되는 상기 식별된 오브젝트에 할당하고,
    상기 분류된 사운드를 복사하여 적어도 2 채널의 사운드를 생성하며,
    상기 식별된 오브젝트에 할당된 오디오 소스 및 상기 식별된 오브젝트의 위치에 기초하여 상기 생성된 적어도 2 채널의 사운드의 특징을 조정하고,
    상기 오디오 소스에 따라 상기 특징이 조정된 적어도 2 채널의 사운드를 믹싱하여 적어도 2 채널의 스테레오 사운드를 생성하는, 전자 장치의 제어 방법.
  12. 제11항에 있어서,
    상기 복수의 채널의 사운드를 생성하는 단계는,
    기 설정된 위치로 사운드 패닝, 시간 딜레이, 위상 지연, 강도 조정, 진폭 조정 및 스펙트럴 변경 중 적어도 하나에 기초하여 상기 적어도 2 채널의 사운드의 특징을 조정하는, 전자 장치의 제어 방법.
  13. 제11항에 있어서,
    상기 복수의 채널의 사운드를 생성하는 단계는,
    상기 입력된 사운드를 각각의 사운드로 분리하고, 상기 분리된 각각의 사운드에 대응되는 오디오 소스를 주파수 특성에 기초하여 식별하며, 상기 식별된 오디오 소스에 기초하여 상기 각각의 사운드를 분류하는, 전자 장치의 제어 방법.
  14. 제11항에 있어서,
    상기 복수의 채널의 사운드를 생성하는 단계는,
    상기 분류된 사운드에 대응되는 오브젝트를 식별하지 못 하는 경우, 상기 분류된 사운드에 기 설정된 인디케이터 및 상기 식별된 오브젝트를 표시하는, 전자 장치의 제어 방법.
  15. 제14항에 있어서,
    상기 복수의 채널의 사운드를 생성하는 단계는,
    입력된 사용자의 명령에 따라 상기 기 설정된 인디케이터가 표시된 분류된 사운드를 상기 식별된 오브젝트에 매칭시키는, 전자 장치의 제어 방법.
PCT/KR2022/012729 2021-11-23 2022-08-25 전자 장치 및 제어 방법 WO2023096085A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/964,818 US20230164482A1 (en) 2021-11-23 2022-10-12 Electronic apparatus and controlling method thereof

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210162574A KR20230075908A (ko) 2021-11-23 2021-11-23 전자 장치 및 제어 방법
KR10-2021-0162574 2021-11-23

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/964,818 Continuation US20230164482A1 (en) 2021-11-23 2022-10-12 Electronic apparatus and controlling method thereof

Publications (1)

Publication Number Publication Date
WO2023096085A1 true WO2023096085A1 (ko) 2023-06-01

Family

ID=86539991

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/012729 WO2023096085A1 (ko) 2021-11-23 2022-08-25 전자 장치 및 제어 방법

Country Status (2)

Country Link
KR (1) KR20230075908A (ko)
WO (1) WO2023096085A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120130496A (ko) * 2011-05-23 2012-12-03 엘지전자 주식회사 휴대 단말기 및 그 동작방법
KR20130045553A (ko) * 2011-10-26 2013-05-06 삼성전자주식회사 휴대용 단말기에서 입체 데이터를 생성하기 위한 장치 및 방법
KR20140096774A (ko) * 2013-01-29 2014-08-06 엘지전자 주식회사 이동 단말기 및 이의 제어 방법
KR20170058839A (ko) * 2015-11-19 2017-05-29 한국전자통신연구원 부가 영상 객체 기반의 음향 객체 제어 장치 및 방법
WO2021197020A1 (zh) * 2020-03-31 2021-10-07 北京字节跳动网络技术有限公司 音频处理方法、装置、可读介质及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120130496A (ko) * 2011-05-23 2012-12-03 엘지전자 주식회사 휴대 단말기 및 그 동작방법
KR20130045553A (ko) * 2011-10-26 2013-05-06 삼성전자주식회사 휴대용 단말기에서 입체 데이터를 생성하기 위한 장치 및 방법
KR20140096774A (ko) * 2013-01-29 2014-08-06 엘지전자 주식회사 이동 단말기 및 이의 제어 방법
KR20170058839A (ko) * 2015-11-19 2017-05-29 한국전자통신연구원 부가 영상 객체 기반의 음향 객체 제어 장치 및 방법
WO2021197020A1 (zh) * 2020-03-31 2021-10-07 北京字节跳动网络技术有限公司 音频处理方法、装置、可读介质及电子设备

Also Published As

Publication number Publication date
KR20230075908A (ko) 2023-05-31

Similar Documents

Publication Publication Date Title
WO2011013976A2 (en) Method and apparatus for controlling electronic device using user interaction
WO2015060660A1 (en) Method of generating multi-channel audio signal and apparatus for carrying out same
WO2015152661A1 (ko) 오디오 오브젝트를 렌더링하는 방법 및 장치
WO2018034371A1 (ko) 동영상 처리 장치, 방법 및 컴퓨터 프로그램
EP3039476A1 (en) Head mounted display device and method for controlling the same
WO2014175520A1 (en) Display apparatus for providing recommendation information and method thereof
WO2014109422A1 (ko) 음성 추적 장치 및 그 제어 방법
WO2019156543A2 (ko) 동영상의 대표 이미지를 결정하는 방법 및 그 방법을 처리하는 전자 장치
US20110064319A1 (en) Electronic apparatus, image display method, and content reproduction program
WO2011055930A2 (ko) 그래프 컷의 초기값을 설정하는 방법, 단말 장치, 및 컴퓨터 판독 가능한 기록 매체
WO2016190472A1 (ko) 크로마키를 이용한 증강현실 영상 제작 장치 및 방법
WO2023096085A1 (ko) 전자 장치 및 제어 방법
WO2013066095A1 (ko) 얼굴 검출 방법, 장치 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체
WO2021085785A1 (en) Electronic apparatus and method for controlling thereof
WO2022191424A1 (ko) 전자 장치 및 그 제어 방법
WO2022139177A1 (ko) 전자 장치 및 그 제어 방법
US20230164482A1 (en) Electronic apparatus and controlling method thereof
WO2019225799A1 (ko) 딥러닝 생성 모델을 이용한 사용자 정보 삭제 방법 및 장치
WO2017209468A1 (ko) 3차원 입체 효과를 제공하는 크로마키 합성 시스템 및 방법
WO2015008946A1 (en) Information providing system having content providing apparatus and terminal apparatus, and control method thereof
WO2022149716A1 (en) System and method for obtaining and applying a vignette filter and grain layer
US10545716B2 (en) Information processing device, information processing method, and program
CN114760574A (zh) 音频播放方法及激光投影设备
US20110064311A1 (en) Electronic apparatus and image search method
US20200053500A1 (en) Information Handling System Adaptive Spatialized Three Dimensional Audio

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22898769

Country of ref document: EP

Kind code of ref document: A1