WO2022059869A1 - Device and method for enhancing sound quality of video - Google Patents

Device and method for enhancing sound quality of video Download PDF

Info

Publication number
WO2022059869A1
WO2022059869A1 PCT/KR2021/002170 KR2021002170W WO2022059869A1 WO 2022059869 A1 WO2022059869 A1 WO 2022059869A1 KR 2021002170 W KR2021002170 W KR 2021002170W WO 2022059869 A1 WO2022059869 A1 WO 2022059869A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
image
unit
sound source
sound data
Prior art date
Application number
PCT/KR2021/002170
Other languages
French (fr)
Korean (ko)
Inventor
카주크제이쿱
자르네키피오트르
그루지악그루지고르
카프카슬로보미르
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Publication of WO2022059869A1 publication Critical patent/WO2022059869A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Definitions

  • the present disclosure relates to a device and method for improving the sound quality of an image, and more particularly, a device and method for improving the sound quality of an overall image by separating the sound for each sound source and individually adjusting the volume of the separated unit sound data is about
  • Filming is an action that captures the world around you. Every modern mobile device equipped with a camera has the ability to capture video. As mobile devices, such as smart phones, become widespread, the number of individuals taking and viewing images is increasing. Although the quality of video recordings through mobile devices has improved over time, most of them focus on improving the quality of recorded visual images or improving the visual user experience. On the other hand, the improvement of sound quality is hardly addressed.
  • each viewer can view a different video while moving in public transportation, in the office, or in the bathroom. It is often viewed on a mobile device.
  • a headset or earphone is generally used to focus on the image and not to disturb the surroundings. Headsets and earphones support stereo-type sounds in which sounds reproduced from the left and right are different from each other. Therefore, even in the case of sound recorded as mono audio through a single microphone, it is necessary to convert it to a stereo format or another multi-channel format to improve sound quality.
  • a separate microphone such as a shotgun microphone or a lapel microphone is used, or the video is compressed by moving the video to a computer such as a computer after shooting.
  • a separate manual post-processing operation such as noise removal.
  • Separate professional microphone equipment is expensive, and it is inconvenient to bring it with you every time you shoot.
  • a separate post-processing process for sound quality improvement requires a video editing program and professional knowledge to handle the program, and it is difficult to directly edit an image on a mobile device such as a smart phone with a small screen. Therefore, it is not easy for a general user who wants to shoot and distribute an image with a smart phone to improve the sound quality of the image.
  • the sound quality of the video captured through the camera and microphone included in the mobile device is automatically improved within the mobile device without requiring a separate sound equipment or post-processing operation. It requires skills to do it.
  • An embodiment of the present disclosure obtains a sound source image representing at least one sound source from an image of an image, separates the sound of the image into unit sound data according to whether the sound is generated from the same sound source, and includes the sound source image and the sound source image.
  • a device capable of adjusting the number of channels of the output sound regardless of the number of channels of the input sound by matching each unit sound data and adjusting the loudness of each unit sound data, and improving the sound quality of the output image; and method can be provided.
  • an image is captured through an input unit included in the mobile device, and a processor included in the mobile device automatically performs sound processing on the captured image to improve sound quality.
  • a processor included in the mobile device automatically performs sound processing on the captured image to improve sound quality.
  • a method for a device to improve the sound quality of an image includes: acquiring an image; acquiring a sound and an image from the acquired image; obtaining a sound source image representing at least one sound source from the obtained image; obtaining at least one unit sound data corresponding to the at least one sound source from the obtained sound; matching each of the at least one sound source image and the at least one unit sound data by applying a preset sound-image matching model; tracking the movement of the at least one sound source from the sound source image; and individually adjusting the loudness of the unit sound data according to the movement of the tracked sound source.
  • the sound-image matching model may include matching information between an image of a specific sound source and a sound generated by the specific sound source.
  • the device includes: an input unit for acquiring an image; an output unit for outputting an output image; a memory storing a program including one or more instructions; and at least one processor executing one or more instructions stored in the memory.
  • the at least one processor acquires an image by controlling the input unit, acquires a sound and an image from the acquired image, and receives at least one sound source from the acquired image Obtaining a sound source image representing, from the obtained sound, obtaining at least one unit sound data corresponding to the at least one sound source, and applying a preset sound-image matching model, the at least one sound source image and the Each of at least one unit sound data may be matched, the movement of the at least one sound source may be tracked from the sound source image, and the loudness of the unit sound data may be individually adjusted according to the tracked movement of the sound source.
  • the sound-image matching model may include matching information between an image of a specific sound source and a sound generated by the specific sound source.
  • the computer-readable recording medium may store a program for executing at least one of the embodiments of the disclosed method in a computer.
  • FIG. 1 is a schematic diagram of a method for a device to improve sound quality of an image according to an embodiment of the present disclosure.
  • FIG. 2 is a block diagram of a device according to an embodiment of the present disclosure.
  • FIG. 3 is a flowchart of a method of improving the sound quality of an image according to an embodiment of the present disclosure.
  • FIG. 4 is a flowchart of a method of improving the sound quality of an image according to an embodiment of the present disclosure.
  • FIG. 5 is a diagram for describing an operation in which a device acquires an additional sound through an auxiliary input unit according to an embodiment of the present disclosure.
  • FIG. 6 is a diagram for explaining an operation in which a device acquires at least one sound source image from an image according to an embodiment of the present disclosure.
  • FIG. 7 is a diagram for describing an operation in which a device acquires at least one unit sound data from a sound according to an embodiment of the present disclosure.
  • FIG. 8 is a diagram for explaining an operation in which a device separates a sound according to a sound source image and matches the separated unit sound data to each sound source image according to an embodiment of the present disclosure.
  • FIG. 9 is a view for explaining a specific embodiment of the operation of the device individually adjusting the volume of unit sound data according to the movement of the tracked sound source according to an embodiment of the present disclosure.
  • 10A is a diagram illustrating an example in which a device acquires multi-channel output sound according to an embodiment of the present disclosure.
  • 10B is a diagram illustrating an example in which a device acquires multi-channel output sound according to an embodiment of the present disclosure.
  • 10C is a diagram illustrating an example in which a device acquires multi-channel output sound according to an embodiment of the present disclosure.
  • FIG. 11 is a diagram illustrating an example in which a device individually adjusts a volume of unit sound data according to an embodiment of the present disclosure.
  • FIG. 12 is a diagram illustrating an example in which a device individually adjusts a volume of unit sound data according to a motion of a tracked sound source according to an embodiment of the present disclosure.
  • FIG. 13 is a diagram illustrating an example in which a device adjusts a volume of unit sound data according to a motion of a tracked sound source and obtains an output sound having multi-channels from the adjusted unit sound data according to an embodiment of the present disclosure.
  • FIG. 14 is a diagram illustrating an example in which a device acquires an additional sound through an auxiliary input unit and acquires an output sound having multi-channels according to an embodiment of the present disclosure
  • a method for a device to improve the sound quality of an image includes the steps of acquiring an image, acquiring a sound and an image from the acquired image, acquiring a sound source image representing at least one sound source from the acquired image, the acquired Acquiring at least one unit sound data corresponding to at least one sound source from the sound, applying a preset sound-image matching model to match at least one sound source image and at least one unit sound data, respectively; It may include tracking the movement of at least one sound source from the sound source image, and individually adjusting the volume (loudness) of the unit sound data according to the tracked movement of the sound source.
  • the sound-image matching model may include matching information between an image of a specific sound source and a sound generated by the specific sound source.
  • acquiring the image may include acquiring the image through an input unit included in the device, and the input unit may include a microphone for acquiring a sound and a camera for acquiring an image there is.
  • acquiring the image may include acquiring the image through an input unit included in the device and an auxiliary input unit external to the device.
  • the input unit may include a microphone for acquiring a sound and a camera for acquiring an image.
  • the auxiliary input unit may include an auxiliary microphone for acquiring additional sound.
  • the acquiring at least one unit sound data corresponding to the at least one sound source from the acquired sound may include dividing the sound into at least one unit sound data according to amplitude, frequency, phase, waveform and spectrum. may include doing When two or more unit sound data having the same amplitude, frequency, phase, waveform, and spectrum exist, it may include separating the two or more unit sound data into respective unit sound data using a sound source image.
  • the step of matching each of the at least one sound source image and the at least one unit sound data by applying a preset sound-image matching model includes additionally using information obtained from the sound source image to obtain at least one sound source It may include matching the image and the at least one unit sound data, respectively.
  • the step of tracking the motion of the at least one sound source from the sound source image may include tracking the movement of the corresponding sound source through a state change of the sound source image.
  • the step of tracking the motion of the at least one sound source from the sound source image includes the motion information of the device obtained from a motion sensor including an accelerometer, a gyroscope, and a magnetometer.
  • a motion sensor including an accelerometer, a gyroscope, and a magnetometer.
  • it may include tracking the movement of the sound source through the state change of the sound source image.
  • the step of individually adjusting the volume of the unit sound data according to the movement of the tracked sound source is performed for each unit sound data, the step of obtaining a volume curve of the total execution time of each unit sound data It may include obtaining a volume correction curve including adjustment information to be performed, and individually adjusting the volume of each unit sound data based on the volume correction curve.
  • the method may further include obtaining an output sound from unit sound data whose volume is individually adjusted, and obtaining an output image from the output sound and the image.
  • the step of obtaining an output sound from the unit sound data whose volume is individually adjusted may include rendering the unit sound data by classifying it into two or more channels, and obtaining an output sound having multiple channels. there is.
  • a device for improving the sound quality of an image may be provided.
  • the device may include an input unit for acquiring an image, an output unit for outputting an output image, a memory storing a program including one or more instructions, and at least one processor executing one or more instructions stored in the memory.
  • the at least one processor acquires an image by controlling the input unit, acquires a sound and an image from the acquired image, and acquires a sound source image representing at least one sound source from the acquired image and, from the acquired sound, acquire at least one unit sound data corresponding to at least one sound source, and apply a preset sound-image matching model to match at least one sound source image and at least one unit sound data, respectively And, it is possible to track the movement of at least one sound source from the sound source image, and individually adjust the volume (loudness) of the unit sound data according to the movement of the tracked sound source.
  • the sound-image matching model may include matching information between an image of a specific sound source and a sound generated by the specific sound source.
  • the input unit may include a microphone for acquiring a sound and a camera for acquiring an image.
  • the processor may execute one or more instructions to obtain additional sound through an auxiliary microphone external to the device.
  • the processor executes one or more instructions to separate the sound into at least one unit sound data according to amplitude, frequency, phase, waveform and spectrum, wherein the amplitude, frequency, phase, waveform and spectrum are all equal.
  • at least one unit sound data corresponding to at least one sound source is obtained from the acquired sound by separating two or more unit sound data into each unit sound data using a sound source image can do.
  • the processor executes one or more instructions and additionally uses information obtained from the sound source image to match at least one sound source image and at least one unit sound data, respectively, to obtain a preset sound-image matching model By applying, it is possible to match at least one sound source image and at least one unit sound data, respectively.
  • the processor may execute one or more instructions to track the motion of the sound source through a change in the state of the sound source image.
  • the processor executes one or more instructions to use motion information of the device obtained from motion sensors including an accelerometer, a gyroscope, and a magnetometer to determine the state of the sound source image. Through the change, the movement of the corresponding sound source can be tracked.
  • the processor executes one or more instructions to obtain a volume curve of the total execution time of each unit sound data, obtain a volume correction curve comprising adjustment information to be performed on each unit sound data, , by individually adjusting the volume of each unit sound data based on the volume correction curve, it is possible to individually adjust the volume of the unit sound data according to the movement of the tracked sound source.
  • the processor may further include executing one or more instructions to obtain an output sound from the unit sound data whose volume is individually adjusted, and to obtain an output image from the output sound and the image.
  • the processor may execute one or more instructions to classify and render unit sound data into two or more channels, and obtain an output sound having multi-channels.
  • a computer-readable recording medium in which a program for executing any one method according to the present disclosure in a computer is recorded may be provided.
  • a processor configured (or configured to perform) A, B, and C refers to a dedicated processor (eg, an embedded processor) for performing those operations, or by executing one or more software programs stored in memory; It may refer to a generic-purpose processor (eg, a CPU or an application processor) capable of performing corresponding operations.
  • 'video' means audiovisual material including an auditory sound and a visual screen.
  • the visual composition of the image may be described as 'image', 'visual data' or 'picture', and the auditory composition of the image is 'audio', 'sound' )', 'acoustic', or 'sound data'.
  • 'sound quality means the quality of sound. Sound quality may vary depending on various acoustic factors. For example, the amount of noise may be a criterion for sound quality, and the sound quality may vary according to the flatness of the frequency and the flatness of the volume.
  • a 'sound source' means a source of a sound from which a sound is generated.
  • a sound source may be a person, an animal, various musical instruments, or any object if a sound is generated therefrom.
  • 'sound corresponding to a specific sound source' means a sound generated from the specific sound source.
  • a sound corresponding to a specific person may mean a voice made by the person
  • a sound corresponding to a specific animal may mean a cry of the corresponding animal.
  • screen area means an area on a screen in which a visual screen of an image is displayed (displayed).
  • the screen range may be an area defined by a border of an image captured from an image at a specific point in time.
  • 'monaural, monophonic means audio composed of one channel.
  • Mono audio is recording through one microphone, and sound heard through one speaker may correspond to this. Even if the sound is recorded or reproduced through multiple speakers, if the sound is connected to only one channel, it may be mono audio. In mono audio, the same sound is played from all connected speakers.
  • 'multi-channel' audio means audio composed of two or more channels.
  • stereo audio which is a type of multi-channel audio
  • signals of two channels are synthesized and reproduced as one, but two speakers (eg, a headset, an earphone ( earphone), different sounds are played from both speakers, and a sense of space and rich sound can be reproduced compared to mono audio.
  • FIG. 1 is a schematic diagram of a method of improving the sound quality of an image by a device 1000 according to an embodiment of the present disclosure.
  • an image input to the device 1000 may include an image 110 and a sound 150 .
  • the image 110 may be recorded through an input device such as a camera, and the sound 150 may be recorded through an input device such as a microphone.
  • the device 1000 may acquire sound source images SS1 , SS2 , and SS3 separated into individual sound sources from the recorded image 110 .
  • the sound source image may be divided into a speaker (person) (SS1, SS2) and a background (eg, a person who is not a speaker, desk, chair, paper, and background images) (SS3).
  • the device 1000 may acquire the unit sound data set 160 obtained by dividing the sound 150 by the sound generated by each sound source.
  • the device 1000 may classify the separated unit sound data set 160 as human voices (UA1, UA2) or background sound (noise) (UA3).
  • the device 1000 may match the classified unit sound data set 160 to the separated sound source images SS1, SS2, and SS3 by applying a preset sound-image matching model, respectively.
  • unit sound data (UA1, UA2) classified as a human voice may be matched to sound source images (SS1, SS2) determined to be human, and other sounds (UA3) are in the background image (SS3).
  • SS3 background image
  • the device 1000 receives the separated unit sound data UA1 and UA2 through the 'person's face and the voice corresponding to the face' information included in the sound-image matching model, respectively. can be matched to the sound source images (SS1, SS2) of
  • the device 1000 may individually adjust the volume of each of the separated unit sound data UA1 , UA2 , and UA3 .
  • the volume of unit sound data UA3 corresponding to noise can be reduced, and the volume of unit sound data (UA1, UA2) corresponding to the speaker's conversation can be adjusted to a level corresponding to the input signal or a preset level. there is.
  • the device 1000 may resynthesize the output sound 170 from the adjusted unit sound data.
  • the output sound 170 may be synthesized in a stereo format, which is a type of multi-channel sound, for output to an output device such as headphones.
  • the output sound 170 may include a first channel 171 output to the left speaker LC and a second channel 173 output to the right speaker RC.
  • the device 1000 may determine the rendering channel of the unit sound data UA1 and UA2 corresponding to each of the sound source images SS1 and SS2 according to the relative positions within the screen range of the sound source images SS1 and SS2. For example, since the first sound source image SS1 is located on the left within the screen range, the first unit sound data UA1 corresponding to the first sound source image SS1 is output to the first channel ( 171) can be rendered. In addition, the second unit sound data UA2 corresponding to the second sound source image SS2 located on the right side within the screen range may be rendered on the second channel 173 output to the right speaker RC. In an embodiment, the device 1000 may adjust the number of channels of the output sound 170 irrespective of the number of channels of the input sound 150 , and may improve the sound quality of an image to output a sense of space and rich sound. there is.
  • FIG. 2 is a block diagram of a device 1000 according to an embodiment of the present disclosure.
  • the device 1000 may include an input unit 1100 , a processor 1300 , a memory 1500 , an output unit 1700 , and a motion sensor 1900 . Not all of the components shown in FIG. 2 are essential components of the device 1000 .
  • the device 1000 may be implemented by more components than the components shown in FIG. 2 , or the device may be implemented by fewer components than the components shown in FIG. 2 .
  • the input unit 1100 may acquire an image from the outside.
  • the input unit 1100 may include a recorder for acquiring a visual image and a recorder for acquiring an auditory sound.
  • the recording unit may include a camera (Camera), and the recording unit may include a microphone (Microphone, mic).
  • the input unit 1100 may have a single configuration that is not physically separated into a recording unit and a recording unit.
  • the output unit 1700 may output an output image to the outside.
  • the output unit 1700 may include a display 1710 and an audio output unit 1720 .
  • the display 1710 may output a visual image by externally displaying it.
  • the display 1710 may include a panel.
  • the display 1710 is, for example, a liquid crystal display, a thin film transistor-liquid crystal display, an organic light-emitting diode, a flexible display, 3 It may be configured as at least one of a 3D display and an electrophoretic display.
  • the audio output unit 1720 may reproduce and output an auditory sound to the outside.
  • the audio output unit 1720 may include a speaker.
  • the audio output unit 1720 may include, for example, a single speaker, two or more speakers, a mono speaker, a stereo speaker, a surround speaker, a headset, an earphone ( earphone).
  • the display 1710 and the audio output unit 1720 of the output unit 1700 may have a single structure that is not physically separated.
  • the memory 1500 may store a program to be executed by the processor 1300 to be described later in order to control the operation of the device 1000 .
  • the memory 1500 may store a program including at least one instruction for controlling the operation of the device 1000 .
  • Instructions and program codes readable by the processor 1300 may be stored in the memory 1500 .
  • the processor 1300 may be implemented to execute instructions or codes of a program stored in the memory 1500 .
  • the memory 1500 may store data input to or output from the device 1000 .
  • Memory 1500 is, for example, a flash memory (flash memory), a hard disk (hard disk), a multimedia card micro type (multimedia card micro type), card type memory (eg, SD or XD memory, etc.), RAM (Random Access Memory), SRAM (Static Random Access Memory), ROM (Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory), magnetic memory, It may include at least one type of storage medium among a magnetic disk and an optical disk.
  • Programs stored in the memory 1500 may be classified into a plurality of modules according to their functions.
  • the memory 1500 includes an acoustic image separation module 1510 , a sound source image acquisition module 1520 , a unit acoustic data acquisition module 1530 , a matching module 1540 , a sound source motion tracking module 1550 , and a volume may include an adjustment module 1560 .
  • the memory 1500 may include an acoustic-image matching model 1570 , a deep neural network (DNN) 1580 , and a database 1590 .
  • DNN deep neural network
  • the processor 1300 may control the overall operation of the device 1000 .
  • the processor 1300 executes programs stored in the memory 1500 , and thus an input unit 1100 , an output unit 1700 including a display 1710 , and an audio output unit 1720 , and a motion sensor 1900 . and overall control of the memory 1500 and the like.
  • the processor 1300 may be composed of hardware components that perform arithmetic, logic, input/output operations and signal processing.
  • the processor 1300 is, for example, a central processing unit (Central Processing Unit), a microprocessor (microprocessor), a graphic processor (Graphic Processing Unit), ASICs (Application Specific Integrated Circuits), DSPs (Digital Signal Processors), DSPDs (Digital Signal Processing Devices), PLDs (Programmable Logic Devices), and FPGAs (Field Programmable Gate Arrays) may be configured as at least one, but is not limited thereto.
  • a central processing unit Central Processing Unit
  • microprocessor microprocessor
  • a graphic processor Graphic Processing Unit
  • ASICs Application Specific Integrated Circuits
  • DSPs Digital Signal Processors
  • DSPDs Digital Signal Processing Devices
  • PLDs Programmable Logic Devices
  • FPGAs Field Programmable Gate Arrays
  • the processor 1300 may acquire an image through the input unit 1100 by executing at least one instruction stored in the memory 1500 .
  • the image may include an image that is visual data and a sound that is auditory data.
  • the processor 1300 may obtain a sound and an image from the acquired image by executing at least one instruction constituting the sound image separation module 1510 among programs stored in the memory 1500 . there is.
  • an image composed of a single mono file may be divided into a sound file that is auditory data and an image file that is visual data.
  • the processor 1300 executes at least one command constituting the sound source image obtaining module 1520 among the programs stored in the memory 1500, thereby generating a sound source image representing at least one sound source from the obtained image.
  • An image may be composed of one continuous screen that is not divided. In such a continuous screen, each object such as a person, an animal, or a thing may be separated. Each of the separated objects may be a sound source that generates a sound.
  • at least one sound source image may be obtained from an image using a deep neural network (DNN) or a database in which image files are accumulated.
  • DNN deep neural network
  • the processor 1300 executes at least one instruction constituting the unit sound data acquisition module 1530 among the programs stored in the memory 1500, thereby determining whether the acquired sound is generated from the same sound source or not. It is possible to acquire unit sound data.
  • the unit sound data acquisition module 1530 may separate an input sound composed of one channel into a plurality of channels of unit sound data generated from different sound sources.
  • the unit sound data acquisition module 1530 may separate sound into unit sound data using a deep neural network (DNN) or a database in which audio information is accumulated.
  • Information of the separated unit sound data is transferred to and stored in the database 1570 stored in the memory 1500 , and the database 1570 may be updated.
  • a model for separating sound data may be preset and stored in a database.
  • the processor 1300 executes at least one instruction constituting the matching module 1540 among programs stored in the memory 1500, thereby applying a preset sound-image matching model 1570 to at least one sound source image and at least one unit of sound data may be respectively matched.
  • the sound-image matching model 1570 may include matching information between an image of a specific sound source and a sound generated by the specific sound source.
  • sound information according to the information of the sound source image eg, a barking sound corresponding to a dog image, a rustling sound corresponding to a tree image, or a specific person's information when two or more people are talking
  • Characteristics of a sound according to a specific image such as voice information based on a face image
  • information about a sound source image according to a specific sound eg, mouth shape of the image when a specific sound is generated
  • the acoustic-image matching model 1570 may be established using a deep neural network (DNN) or a database in which image files and audio information are accumulated.
  • DNN deep neural network
  • the individual sound source images separated from the image and the individual unit sound data separated from the sound may be matched based on the correspondence information between the sound and the image included in the sound-image matching model 1570 , respectively.
  • Information of each sound source image and unit sound data matched according to the preset sound-image matching model 1570 is transmitted back to the sound-image matching model 1570 stored in the memory 1500 and stored, and sound-image matching
  • the model 1570 may be updated, or it may be transferred to and stored in the database 1590 and update the database 1590 .
  • the processor 1300 may track the motion of at least one sound source from the sound source image by executing at least one command constituting the sound source motion tracking module 1550 among programs stored in the memory 1500 .
  • the state or position of a specific sound source image may change over time.
  • the sound source motion tracking module 1550 analyzes an image (screen), analyzes the moving direction, speed, change of the shape of the sound source image, etc. of a specific sound source, and obtains a motion profile for a particular sound source can do.
  • the obtained motion profile may be used to individually adjust the volume of each unit acoustic data in a subsequent step.
  • the processor 1300 executes at least one command constituting the volume control module 1560 among the programs stored in the memory 1500 to individually adjust the volume of the unit sound data according to the movement of the tracked sound source. Can be adjusted.
  • the volume of the unit sound data may be adjusted so that the output sound maintains a constant volume in the entire image. For example, in the case of recording a person speaking, as the sound source (the person speaking) moves relatively far from the device 1000 during recording, the volume of the input unit sound data decreases. In this case, based on the volume when the sound source is close to the device 1000 , the volume may be adjusted so that the unit sound data may have a constant volume in the entire image. In this way, based on the motion profile of the sound source obtained in the sound source motion tracking module 1550 previously, the volume of unit sound data corresponding to the sound source may be individually adjusted.
  • the processor 1300 executes at least one command constituting the volume control module 1560 among the programs stored in the memory 1500 to individually adjust the volume of unit sound data according to the type of sound source.
  • the type of sound source may be For example, when specific unit sound data is classified as noise, the volume of the corresponding unit sound data may be adjusted to be small.
  • the volume of other types of unit sound data may be adjusted to be small like noise. there is.
  • a deep neural network (DNN) 1580 stored in the memory 1500 is a type of artificial neural network, and may have a feature of being composed of several hidden layers between an input layer and an output layer.
  • a deep neural network (DNN) 1580 can model complex nonlinear relationships like a general artificial neural network. For example, in a deep neural network structure for an object identification model, each object may be expressed as a hierarchical configuration of image basic elements. In this case, the additional layers may aggregate the characteristics of the gradually gathered lower layers. This feature of the deep neural network (DNN) 1580 makes it possible to model complex data with fewer units.
  • the deep neural network (DNN) 1580 may be applied to image recognition or speech recognition fields, and may be used for processing to separate images and match the separated images with respective voice information as in the present disclosure.
  • the database 1590 stored in the memory 1500 may be configured as a set of a vast amount of data.
  • the database 1590 may include sound information corresponding to a specific sound source image and image information corresponding to a specific sound.
  • the database 1590 may be used to set the sound-image matching model 1570 by acquiring matching information indicating the correspondence between the sound and the image. Also, the database 1590 may be used to match unit sound data and sound source images, or to adjust the volume of each unit sound data.
  • the processor 1300 may obtain an output sound from the unit sound data whose volume is individually adjusted, and an output image from the output sound and the image, by executing at least one command stored in the memory 1500 .
  • final output sound data may be obtained by resynthesizing unit sound data whose volume is individually adjusted.
  • the processor 1300 may classify and render unit sound data into two or more channels in order to obtain an output sound having a multi-channel, such as a stereo format. For example, unit sound data corresponding to sound source images disposed on the left side on the display screen may be rendered as a first channel, and unit sound data corresponding to sound source images disposed on the right side on the display screen may be rendered as a second channel. there is.
  • an output sound in which the first channel is reproduced from the left speaker and the second channel is reproduced from the right speaker may be acquired.
  • the output sound may be not only in a stereo format, but also in a surround format, an Ambisonic format, or other multi-channel format.
  • the device 1000 may further include a motion sensor 1900 .
  • the motion sensor 1900 may include an accelerometer 1910 , a gyroscope 1920 , and a magnetometer 1930 .
  • the motion sensor 1900 may detect a motion of the device 1000 .
  • a motion profile of the sound source may be additionally obtained through a relative change on the screen of the sound source image. The obtained additional sound source motion profile may be used to adjust the volume of unit sound data matched to the corresponding sound source image.
  • the image acquired from the input unit 1100 included in the device 1000 is displayed as visual data. Separating the image and audio data into sound, obtaining a sound source image representing at least one sound source from the image of the image, and separating the sound of the image into unit sound data according to whether or not it is generated from the same sound source, , by matching the sound source image and unit sound data, respectively, and adjusting the loudness of each unit sound data, the sound quality of the output image can be improved.
  • the captured image is captured inside the device 1000 through the processor 1300 included in the device 1000 . It can be immediately post-processed. In this case, a separate audio equipment is not required to improve the sound quality of the captured image, and the mobile device automatically performs post-processing of the sound even if the user does not have a professional image post-processing technology, so that the image can be obtained.
  • the processor 1300 executes one or more instructions stored in the memory 1500 , thereby rendering the separated individual unit sound data into two or more different channels. can do. Accordingly, even when mono audio is recorded through a single microphone, the output image may have multi-channel stereo type sound, surround type sound, or ambisonic type sound. In this way, the number of channels of the output sound can be adjusted irrespective of the number of channels of the input sound, and high-quality sound for a more realistic image can be obtained.
  • FIG. 3 is a flowchart of a method of improving the sound quality of an image according to an embodiment of the present disclosure.
  • an image may be acquired.
  • An image may mean an audiovisual expression drawn on a two-dimensional plane.
  • the video may mean a moving video.
  • the image may be acquired through an input unit including a microphone for acquiring a sound and a camera for acquiring an image.
  • a sound may be obtained from the image.
  • the sound may include a human voice, an animal sound, a sound generated from an object, noise, and the like.
  • the sound may be single-channel mono audio recorded from a single microphone or multi-channel audio recorded from a plurality of microphones.
  • an image may be obtained from the image.
  • the image may be visual data recorded from a camera.
  • the image may include sound source images of various sound sources.
  • step S330 at least one unit sound data corresponding to at least one sound source may be obtained from the sound. For example, it is possible to obtain at least one unit sound data determined according to whether or not it is generated in the same sound source.
  • a sound composed of mono audio of a single channel may be divided into a plurality of unit sound data generated from different sound sources.
  • an image may be used when dividing a sound into a plurality of unit sound data.
  • a sound source image representing at least one sound source may be obtained from the image.
  • objects such as a person, an animal, an object, a background, etc., each of which can be a sound source for generating a sound may be separated.
  • step S350 by applying a preset sound-image matching model, at least one sound source image and at least one unit sound data may be matched, respectively.
  • the sound-image matching model may include matching information between an image of a specific sound source and a sound generated by the specific sound source.
  • the acoustic-image matching model may be preset through a deep neural network (DNN).
  • the sound and image matching information may include sound information according to information on a sound source image and information on a sound source image according to a specific sound.
  • the sound source images separated from the image and the unit sound data separated from the sound may each be matched one-to-one, many-to-one, or many-to-many based on an acoustic-image matching model.
  • the movement of the sound source image and the change of the sound source image may be considered.
  • the movement of at least one sound source may be tracked from the sound source image.
  • the motion may be tracked for each sound source image.
  • the motion profile of the sound source may be used to individually adjust the volume of each unit sound data in a subsequent step.
  • the movement of the sound source may be calculated and tracked through a change in the screen of the sound source image.
  • the motion of the sound source uses the motion information of the device obtained from a motion sensor including an accelerometer, a gyroscope, and a magnetometer to measure the relative change on the screen of the sound source image It can also be calculated and tracked through
  • the volume (loudness) of the unit sound data may be individually adjusted according to the movement of the tracked sound source.
  • the volume of each unit sound data separated from the sound may be decreased or increased, or may be adjusted to have a constant volume in the entire image.
  • an output sound may be obtained from unit sound data whose volume is individually adjusted.
  • final output sound data may be obtained by resynthesizing unit sound data whose volume is individually adjusted.
  • unit sound data may be classified into two or more channels and rendered, and output sound having a multi-channel such as a stereo format may be obtained.
  • the output sound may be resynthesized by adjusting the volume of unit sound data corresponding to noise to be small, or may be resynthesized to have multi-channels for a rich sound. The sound quality may be improved.
  • an output image may be obtained from the output sound and image.
  • the image (screen) is the same but includes the adjusted unit sound data, so the sound quality can be improved.
  • FIG. 4 is a flowchart of a method of improving the sound quality of an image according to an embodiment of the present disclosure.
  • step S400 an image including a sound and an image may be obtained, and in steps S410 and S420, the sound and image may be obtained by separating the image from the image.
  • a sound source image indicating at least one sound source may be obtained from the image. For example, from an image composed of continuous visual data, objects, such as a person, an animal, an object, a background, etc., each of which can be a sound source for generating a sound may be separated.
  • step S440 at least one sound source image and a part of the sound may be matched by applying a preset sound-image matching model.
  • the sound-image matching model may include matching information between an image of a specific sound source and a sound generated by the specific sound source.
  • At least one unit sound data corresponding to at least one sound source may be obtained from the sound and the separated sound source image. For example, it is possible to obtain at least one unit sound data determined according to whether or not it is generated in the same sound source.
  • a sound source image may be used.
  • sound is divided into unit sound data, it is possible to determine in advance which sound source exists by referring to the previously separated sound source image, and to preferentially separate the sound by the sound source. For example, a portion of the sound matched to each sound source image may be separated into each unit sound data.
  • the operation of preferentially separating the sound source image from the image and separating the unit sound data from the sound using the matched sound source image may be useful when there is a sound source that does not appear in the image of the video. For example, after separating sounds corresponding to each separated sound source image into respective unit sound data, unit sound data corresponding to a sound source not appearing in the image of the video may be obtained from the remaining sound data.
  • step S460 the movement of at least one sound source may be tracked from the sound source image of the sound source.
  • the motion of the sound source may be tracked for each sound source image.
  • the motion profile of the sound source may be used to individually adjust the volume of each unit sound data in a subsequent step.
  • the loudness of the unit sound data may be individually adjusted according to the movement of the sound source tracked in step S470, and output from the unit sound data whose volume is individually adjusted in step S480 sound can be obtained.
  • the sound quality of the output sound may be improved compared to the initially input sound.
  • FIG. 5 is a diagram for explaining an operation in which the device 1000 acquires an additional sound through the auxiliary input unit 2100 according to an embodiment of the present disclosure.
  • the device 1000 may itself include an input unit including a microphone for acquiring a sound and a camera for acquiring an image.
  • the device 1000 may acquire an additional sound through the auxiliary input unit 2100 external to the device 1000 .
  • the auxiliary input unit 2100 may include an auxiliary microphone such as a lapel microphone.
  • the sound obtained directly by the device 1000 and the sound obtained through the auxiliary input unit 2100 may be sounds generated from the same sound source SS, and in an embodiment, the sound obtained directly by the device 1000 and the sound obtained through the auxiliary input unit 2100
  • the sound acquired through 2100 may constitute a multi-channel sound as sound generated from different sound sources.
  • the sound directly obtained from the device 1000 and the sound obtained through the auxiliary input unit 2100 are generated from the same sound source SS, the sound directly obtained from the device 1000 and the sound obtained through the auxiliary input unit 2100 are obtained through the auxiliary input unit 2100
  • a sound can only have a difference in volume or signal-to-noise ratio.
  • the sound input through the auxiliary input unit 2100 may be transmitted to the device 1000 and used for post-processing of an image together with the sound acquired by the device 1000 .
  • the sound input through the auxiliary input unit 2100 may be used to remove acoustic noise of an image acquired by the device 1000 .
  • the sound acquired through the auxiliary input unit 2100 may support the sound acquired by the device 1000 itself, and does not completely replace the sound acquired by the device 1000 .
  • each sound obtained directly by the device 1000 and the sound obtained through the auxiliary input unit 2100 constitute multi-channel sound as sounds of different channels
  • each sound is post-processed together or independently to create a new mono channel It is possible to obtain output sound in format or multi-channel format.
  • FIG. 6 is a diagram for explaining an operation in which the device 1000 acquires at least one sound source image from the image 610 according to an embodiment of the present disclosure.
  • the device 1000 may obtain a sound source image representing at least one sound source from the image 610 .
  • an image 610 of an acquired image may be composed of continuous visual data. From the continuous visual data image, it is possible to separate objects, such as people, animals, objects, and backgrounds, which can each be a sound source for generating a sound.
  • image analysis may be analyzed through deep learning or artificial intelligence, which is a deep neural network (DNN) technology, in which case high accuracy and various object recognition are possible.
  • DNN deep neural network
  • Image recognition technology of artificial intelligence (AI) classifies images into several patterns and learns pattern-type data to determine what an image is when a new image is given.
  • the device 1000 through a deep neural network (DNN) or artificial intelligence (AI), in the image 610, human images (H1, H2, H3, H4, H5, H6) and dog images (D1) , D2) can be separated.
  • the separated human images H1, H2, H3, H4, H5, and H6 and dog images D1 and D2 may be sound source images, respectively.
  • the device 1000 may separate and obtain at least one sound source image from the image 610 .
  • FIG. 7 is a diagram for describing an operation in which the device 1000 acquires at least one unit sound data set 760 from the sound 750 according to an embodiment of the present disclosure.
  • the unit sound data 760 may be determined according to whether it is generated from the same sound source. Sound has three components: intensity, tone, and pitch. These three factors correspond to the amplitude, waveform, and frequency of a sound wave, respectively. The larger the amplitude of the wave, the louder the sound, and the higher the frequency of the wave, the higher the sound. The timbre of a sound is determined by its waveform. The reason that the sound of a piano, a person, a violin, etc. is different even for the same note is because the waveform of the sound is different.
  • an envelope may be considered when distinguishing sounds.
  • the envelope is the change of sound with time, and it means the time for a note to reach its peak, the time for the sound to become stable, the time for the sound to last, and the time until the sound disappears.
  • the envelope can vary depending on how the sound source generates sound. In an embodiment, whether the sound is generated from the same sound source may be determined according to three elements and an envelope of the sound.
  • the operation of separating and obtaining the unit sound data set 760 from the sound 750 comprises: the sound 750 according to the amplitude, frequency, phase, waveform and spectrum at least one unit sound data 761, 762 , 763 , and 764 ).
  • the sounds of four instruments are divided into four Unit sound data 761 , 762 , 763 , and 764 may be acquired.
  • the sound source image may be used to separate each unit sound data.
  • unit sound data corresponding to each split screen can be separated by referring to the shape of the person's mouth on each split screen.
  • image data may be additionally used.
  • FIG. 8 is a diagram in which the device 1000 according to an embodiment of the present disclosure separates the sound 850 according to the sound source images 821 and 822 and displays the separated unit sound data 861 and 862 into each sound source image 821 , 822) is a diagram for explaining the matching operation.
  • an image may include an image 810 and a sound 850 including sound source images 821 and 822 separated into individual sound sources.
  • the sound 850 may include a synthesis of sounds A1 and A2 generated from respective sound source images 821 and 822 .
  • the sound 850 may be divided into unit sound data 861 and 862 by applying a sound-image matching model including voice information corresponding to each sound source image 821 and 822 .
  • the separated unit sound data 861 and 862 may be matched with respective sound source images 821 and 822 according to voice information.
  • the operation of matching each sound source image and unit sound data may additionally use information obtained from the sound source image. For example, when the same person is speaking on the split screen at the same time, unit sound data may be matched to the split screen by referring to the shape of the person's mouth on each split screen. For example, when two or more instruments of the same type exist, unit sound data may be matched for each instrument with reference to a hand shape of a person playing the instrument.
  • the unit sound data 862 corresponding to the sound source image 822 may be muted.
  • the unit sound data 861 corresponding to the sound source image 821 may be muted.
  • FIG 9 is a view for explaining a specific embodiment of the operation ( S370 ) of individually adjusting the volume of unit sound data according to the motion of the tracked sound source by the device 1000 according to an embodiment of the present disclosure.
  • step S910 it is possible to obtain a volume curve of the total execution time of each unit sound data.
  • the level of the sensed volume for each unit sound data may be calculated over time.
  • a volume correction curve including adjustment information to be performed for each unit sound data may be obtained.
  • the volume correction curve may include information on whether to decrease or increase the volume of the unit sound data at a specific time within the entire execution time of the image. For example, when it is desired to keep the volume of a sound constant within the entire execution time of an image, the volume correction curve may be calculated as a difference between the volume curve and a preset output volume value.
  • step S930 the volume of each unit sound data may be individually adjusted over time based on the volume correction curve.
  • 10A, 10B, and 10C are diagrams illustrating an example in which the device 1000 acquires multi-channel output sound according to an embodiment of the present disclosure.
  • the device 1000 may capture an image including two sound sources SS101 and SS102.
  • the recorded input sound is mono audio, and when reproduced without post-processing in its state, input sounds IA101 and IA102 generated from two sound sources are displayed on the left channel LC and the right channel RC, respectively. can be played simultaneously.
  • the two sound sources SS101 and SS102 may be recognized as being in the same place.
  • the user cannot recognize the directions of the two sound sources SS101 and SS102.
  • the device 1000 transmits the sound to each of the sound sources SS101 and SS102.
  • the separated unit sound data may be rendered as a left channel (LC) or a right channel (RC) according to the position on the screen of each sound source image.
  • unit sound data corresponding to the sound source SS101 located on the left side of the screen is output through the left channel (LC)
  • unit sound data corresponding to the sound source SS102 located on the right side of the screen is output through the right channel (RC).
  • the output sound may be implemented as multi-channel audio having two channels LC and RC.
  • FIG 11 is a diagram illustrating an example in which the device 1000 individually adjusts the volume of unit sound data according to an embodiment of the present disclosure.
  • a person holding the device 1000 and taking a picture may be the sound source SS111 that directly generates a sound.
  • a person holding the device 1000 and taking a picture may appear on the screen, but may not appear.
  • the sound-image matching model may be used.
  • the unit sound data A2 corresponding to the other sound source SS112 displayed on the screen is separated, and the remaining sound data can be determined as the unit sound data A1 corresponding to the sound source SS111. .
  • unit sound data A1 generated by the sound source SS111 located close to the device 1000 is unit sound data generated by the sound source SS112 located far from the device 1000 .
  • the volume may be louder than the A2.
  • the device 1000 adjusts the volume of A1 and A2 to the same level by decreasing the volume of the unit sound data A1 and increasing the volume of the unit sound data A2 in order to improve the sound quality of the image.
  • the volume of the unit sound data A1 and A2 is adjusted to the same level, the overall sound volume of the image may be constantly maintained, so that the sound quality of the image may be improved.
  • FIG. 12 is a diagram illustrating an example in which the device 1000 individually adjusts the volume of unit sound data according to the motion of the tracked sound source according to an embodiment of the present disclosure.
  • the subject (sound source) SS120 being photographed by the device 1000 may be moving while generating a sound.
  • the subject may have an initial position SS120i and a final position SS120f.
  • the subject may move in a direction away from the device 1000 .
  • the initial position SS120i of the subject may be relatively close to the device 1000
  • the final position SS120f of the subject may be relatively far from the device 1000 .
  • the volume of the initial input sound Ai generated at the initial position SS120i of the subject may be high, and the volume may be decreased as the sound source moves away from the device 1000 .
  • the volume of the final input sound Af generated at the final location SS120f of the subject may be relatively low.
  • the device 1000 decreases the volume of the initial input sound Ai, increases the volume of the final input sound Af, etc. in order to improve the sound quality of the image. , it is possible to obtain a volume correction curve including information on adjusting the volume according to time.
  • the device 1000 may adjust the volume of the sound by using the obtained volume correction curve, and may maintain the volume of the output sound at the same level within the entire execution time of the image.
  • 13 is a diagram illustrating an example in which the device 1000 adjusts the volume of unit sound data according to the motion of the tracked sound source, and obtains an output sound having multi-channels from the adjusted unit sound data according to an embodiment of the present disclosure; It is a drawing.
  • the subject (sound source) SS130 being photographed by the device 1000 may move relative to the device 1000 while generating a sound.
  • the subject may be located on the far right side of the device 1000 , and may move toward the left side closer to the device 1000 toward the final time Tf.
  • the initial position SS130i of the subject may be relatively far from the device 1000
  • the final position SS130f of the subject may be relatively close to the device 1000 .
  • the volume of the initial input sound Ai generated from the initial position SS130i may be small. As the sound source SS130 approaches the device 1000, the volume increases. Referring to FIG. 13(c) , at the final time Tf, the volume of the final input sound Af generated from the final position SS130f is can be relatively large.
  • the device 1000 includes information on adjusting the volume over time, such as increasing the volume of the initial input sound Ai and decreasing the volume of the final input sound Af, in order to improve the sound quality of the image A volume correction curve can be obtained.
  • the device 1000 may adjust the volume of the sound by using the obtained volume correction curve, and may maintain the volume of the output sound at the same level within the entire execution time of the image.
  • the device 1000 may render the output sound as multi-channel audio according to the location of the sound source.
  • the sound source SS130i may be rendered by increasing the volume of the right channel RCi near the initial time Ti at which the sound source SS130i is located on the right side of the screen. Referring to FIG. 13B , at an initial time Ti, the volume of the right channel RCi may be high and the volume of the left channel LCi may be adjusted to be low.
  • the right channel (RCf) in the vicinity of the final time Tf when the sound source SS130f is located on the left side of the screen, the right channel ( RCf) can be rendered by reducing the volume.
  • the volume of the right channel RCf may be low and the volume of the left channel LCf may be adjusted to be large in the output sound.
  • FIG 14 is a diagram illustrating an example in which the device 1000 acquires an additional sound through the auxiliary input unit 2200 and obtains an output sound having multi-channels according to an embodiment of the present disclosure.
  • the device 1000 may acquire a sound including the sound A1 directly acquired through the input unit and the sound A2 acquired through the auxiliary input unit 2200 external to the device 1000 .
  • the auxiliary input unit 2200 may be, for example, a wearable device including a microphone.
  • the sound A1 directly acquired from the input unit of the device 1000 has a low volume and a low signal-to-noise ratio.
  • the auxiliary input unit 2200 is always located close to the sound source SS140, the sound A2 obtained through the auxiliary input unit 2200 has a large and clear volume and a high signal-to-noise ratio.
  • Signal-to-Noise Ratio is the ratio of signal strength to noise strength.
  • a signal in terms of a signal-to-noise ratio, a signal may mean valid acoustic data. A higher signal-to-noise ratio means less noise.
  • the device 1000 uses the sound A2 acquired from the auxiliary input unit 2200 to reduce noise of the sound and adjust the volume of the output sound to a preset level.
  • the device 1000 may render the output sound as multi-channel audio according to the location of the sound source SS140.
  • the sound source SS140 may be located on the right side of the screen.
  • the output sound may be rendered by adjusting the volume of the left channel LC to be small and the volume of the right channel RC to be large.
  • the input sound is It can process sound regardless of the number of channels.
  • the separated unit sound data may be improved by matching the separated sound source image and unit sound data, respectively, and adjusting the loudness of each unit sound data.
  • an embodiment of the present disclosure captures an image through an input unit included in the mobile device, and a processor included in the mobile device automatically performs sound processing on the captured image, thereby No sound equipment is required, and the user may not manually perform post-processing operations.
  • Computer-readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media. Additionally, computer-readable media may include computer storage media and communication media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data. Communication media may typically include computer readable instructions, data structures, or other data in a modulated data signal such as program modules.
  • the computer-readable storage medium may be provided in the form of a non-transitory storage medium.
  • 'non-transitory storage medium' is a tangible device and only means that it does not contain a signal (eg, electromagnetic wave). It does not distinguish the case where it is stored as
  • the 'non-transitory storage medium' may include a buffer in which data is temporarily stored.
  • the method according to various embodiments disclosed in this document may be included and provided in a computer program product.
  • Computer program products may be traded between sellers and buyers as commodities.
  • the computer program product is distributed in the form of a device-readable storage medium (eg compact disc read only memory (CD-ROM)), or through an application store (eg Play StoreTM) or on two user devices (eg, It can be distributed (eg downloaded or uploaded) directly or online between smartphones (eg: smartphones).
  • a portion of the computer program product eg, a downloadable app
  • a machine-readable storage medium such as a memory of a manufacturer's server, a server of an application store, or a relay server. It may be temporarily stored or temporarily created.
  • unit may be a hardware component such as a processor or circuit, and/or a software component executed by a hardware component such as a processor.
  • the processor may consist of one or a plurality of processors.
  • one or more processors may be a general-purpose processor such as a CPU, an AP, a digital signal processor (DSP), or the like, a graphics-only processor such as a GPU, a VPU (Vision Processing Unit), or an artificial intelligence-only processor such as an NPU.
  • DSP digital signal processor
  • One or a plurality of processors control to process input data according to a predefined operation rule or artificial intelligence model stored in the memory.
  • the AI-only processor may be designed with a hardware structure specialized for processing a specific AI model.
  • a predefined action rule or artificial intelligence model is characterized in that it is created through learning.
  • being made through learning means that a basic artificial intelligence model is learned using a plurality of learning data by a learning algorithm, so that a predefined action rule or artificial intelligence model set to perform a desired characteristic (or purpose) is created means burden.
  • Such learning may be performed in the device itself on which artificial intelligence according to the present disclosure is performed, or may be performed through a separate server and/or system.
  • Examples of the learning algorithm include, but are not limited to, supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning.
  • the artificial intelligence model may be composed of a plurality of neural network layers.
  • Each of the plurality of neural network layers has a plurality of weight values, and a neural network operation is performed through an operation between the operation result of a previous layer and the plurality of weights.
  • the plurality of weights of the plurality of neural network layers may be optimized by the learning result of the artificial intelligence model. For example, a plurality of weights may be updated so that a loss value or a cost value obtained from the artificial intelligence model during the learning process is reduced or minimized.
  • the artificial neural network may include a deep neural network (DNN), for example, a Convolutional Neural Network (CNN), a Deep Neural Network (DNN), a Recurrent Neural Network (RNN), a Restricted Boltzmann Machine (RBM), There may be a Deep Belief Network (DBN), a Bidirectional Recurrent Deep Neural Network (BRDNN), or a Deep Q-Networks, but is not limited thereto.
  • DNN Deep Neural Network
  • DNN Deep Belief Network
  • BBDNN Bidirectional Recurrent Deep Neural Network
  • Deep Q-Networks Deep Q-Networks
  • AI models can be created through learning.
  • being made through learning means that a basic artificial intelligence model is learned using a plurality of learning data by a learning algorithm, so that a predefined action rule or artificial intelligence model set to perform a desired characteristic (or purpose) is created means burden.
  • the artificial intelligence model may be composed of a plurality of neural network layers. Each of the plurality of neural network layers has a plurality of weight values, and a neural network operation is performed through an operation between the operation result of a previous layer and the plurality of weights.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

A device and a method for enhancing the sound quality of a video are provided. A method by which a device enhances the sound quality of a video may comprise the steps of: acquiring a video; acquiring sound and images from the acquired video; acquiring a sound source image indicating at least one sound source from the acquired images; acquiring at least one piece of unit sound data corresponding to the at least one sound source from the acquired sound; matching at least one sound source image with the at least one piece of unit sound data by applying a preset sound-image matching model; tracking the motion of the at least one sound source from the sound source image; and adjusting the individual loudness of unit sound data according to the tracked motion of the sound source.

Description

영상의 음질을 향상시키는 디바이스 및 방법Device and method for improving video quality
본 개시는 영상의 음질을 향상시키는 디바이스 및 방법에 대한 것으로서, 보다 상세하게는, 음향을 음원 별로 분리하고, 분리된 유닛 음향 데이터의 음량을 개별적으로 조절함으로써 전체적인 영상의 음질을 향상시키는 디바이스 및 방법에 관한 것이다.The present disclosure relates to a device and method for improving the sound quality of an image, and more particularly, a device and method for improving the sound quality of an overall image by separating the sound for each sound source and individually adjusting the volume of the separated unit sound data is about
영상 촬영은 주변 세계를 포착하는 동작이다. 카메라가 장착된 모든 최신 모바일 디바이스에는 영상 촬영 기능이 있다. 스마트 폰 등의 모바일 디바이스가 널리 보급됨에 따라, 개개인이 영상을 촬영하고 감상하는 경우가 늘고 있다. 오랜 시간에 걸쳐 모바일 디바이스를 통한 영상 기록의 품질이 개선되었으나, 대부분은 녹화된 시각적 이미지의 품질 향상 또는 시각적인 사용자 경험의 개선에 중점을 두고 있다. 이에 반해, 음향의 품질 개선에 대해서는 거의 다루지 않고 있다.Filming is an action that captures the world around you. Every modern mobile device equipped with a camera has the ability to capture video. As mobile devices, such as smart phones, become widespread, the number of individuals taking and viewing images is increasing. Although the quality of video recordings through mobile devices has improved over time, most of them focus on improving the quality of recorded visual images or improving the visual user experience. On the other hand, the improvement of sound quality is hardly addressed.
또한, 모바일 디바이스의 보급으로, 자택 안에서 티비(TV)를 통해 모두가 함께 동일한 영상을 시청하는 것보다, 대중 교통 안에서 이동중일 때, 사무실에서, 또는 화장실에서 개개인의 시청자가 서로 다른 영상을 각자의 모바일 디바이스로 시청하는 경우가 많다. 개인 모바일 디바이스를 이용해 영상을 시청할 경우, 주변에 방해가 되지 않도록 하고, 영상에 집중하기 위해 헤드셋(headset) 또는 이어폰(earphone)을 일반적으로 사용한다. 헤드셋 및 이어폰은 좌측과 우측에서 재생되는 음향이 서로 다른 스테레오(stereo) 형식의 음향을 지원한다. 따라서, 단일한 마이크를 통해 모노 오디오로 녹음된 음향의 경우에도, 음질 개선을 위해 스테레오 형식 또는 다른 멀티 채널 형식으로 변환하는 것이 필요하다.In addition, with the spread of mobile devices, rather than watching the same video together through TV at home, each viewer can view a different video while moving in public transportation, in the office, or in the bathroom. It is often viewed on a mobile device. When watching an image using a personal mobile device, a headset or earphone is generally used to focus on the image and not to disturb the surroundings. Headsets and earphones support stereo-type sounds in which sounds reproduced from the left and right are different from each other. Therefore, even in the case of sound recorded as mono audio through a single microphone, it is necessary to convert it to a stereo format or another multi-channel format to improve sound quality.
일반적인 모바일 디바이스에서는, 영상의 음질 개선을 위해 내장된 마이크 이외에 샷건(shotgun) 마이크, 라펠(lapel) 마이크 등의 별도의 마이크를 사용하거나, 촬영을 마친 후 영상을 컴퓨터 등의 기기로 옮겨 비디오 압축, 노이즈 제거 등의 별도의 수동 후처리 동작을 통한다. 별도의 전문적인 마이크 장비는 고가이며, 촬영 시마다 지참해야 하는 불편함이 있다. 음질 개선을 위한 별도의 후처리 공정은 영상 편집 프로그램 및 프로그램을 다룰 수 있는 전문적인 지식이 필요하고, 화면이 작은 스마트 폰 등의 모바일 디바이스에서 직접 영상을 편집하기 힘들다. 따라서, 스마트 폰으로 영상을 촬영하고 배포하려는 일반적인 사용자가 영상의 음질을 개선시키기는 용이하지 않다.In general mobile devices, in addition to the built-in microphone to improve the sound quality of the video, a separate microphone such as a shotgun microphone or a lapel microphone is used, or the video is compressed by moving the video to a computer such as a computer after shooting. Through a separate manual post-processing operation such as noise removal. Separate professional microphone equipment is expensive, and it is inconvenient to bring it with you every time you shoot. A separate post-processing process for sound quality improvement requires a video editing program and professional knowledge to handle the program, and it is difficult to directly edit an image on a mobile device such as a smart phone with a small screen. Therefore, it is not easy for a general user who wants to shoot and distribute an image with a smart phone to improve the sound quality of the image.
이에 따라, 별도의 음향 장비가 요구되지 않고, 별도의 후처리 동작이 필요하지 않으면서도, 스마트 폰 등의 모바일 디바이스에 포함된 카메라 및 마이크를 통해 촬영한 영상의 음질을 모바일 디바이스 내에서 자동으로 개선할 수 있는 기술이 요구된다.Accordingly, the sound quality of the video captured through the camera and microphone included in the mobile device such as a smart phone is automatically improved within the mobile device without requiring a separate sound equipment or post-processing operation. It requires skills to do it.
본 개시의 일 실시예는, 영상의 이미지로부터 적어도 하나의 음원(sound source)을 나타내는 음원 이미지를 획득하고, 영상의 음향을 동일한 음원에서의 발생 여부에 따라 유닛 음향 데이터로 분리하고, 음원 이미지와 유닛 음향 데이터를 각각 매칭시키고, 유닛 음향 데이터 각각의 음량(loudness)을 조정함으로써, 입력 음향의 채널 개수와 관계 없이 출력 음향의 채널 개수를 조절할 수 있고, 출력 영상의 음질을 향상시킬 수 있는 디바이스 및 방법을 제공할 수 있다.An embodiment of the present disclosure obtains a sound source image representing at least one sound source from an image of an image, separates the sound of the image into unit sound data according to whether the sound is generated from the same sound source, and includes the sound source image and the sound source image. A device capable of adjusting the number of channels of the output sound regardless of the number of channels of the input sound by matching each unit sound data and adjusting the loudness of each unit sound data, and improving the sound quality of the output image; and method can be provided.
또한, 본 개시의 일 실시예는, 모바일 디바이스에 포함된 입력부를 통해 영상을 촬영하고, 모바일 디바이스에 포함된 프로세서가 자동으로 촬영된 영상의 음향 처리를 수행함으로써, 음질의 향상을 위해 별도의 음향 장비가 요구되지 않고, 사용자가 수동으로 후처리 동작을 수행하지 않을 수 있는 디바이스 및 방법을 제공할 수 있다.In addition, according to an embodiment of the present disclosure, an image is captured through an input unit included in the mobile device, and a processor included in the mobile device automatically performs sound processing on the captured image to improve sound quality. Devices and methods can be provided that require no equipment and that users can not manually perform post-processing operations.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서 개시된, 디바이스가 영상의 음질을 향상시키는 방법은, 영상을 획득하는 단계; 상기 획득한 영상으로부터 음향(sound) 및 이미지(image)를 획득하는 단계; 상기 획득한 이미지로부터 적어도 하나의 음원(sound source)을 나타내는 음원 이미지를 획득하는 단계; 상기 획득한 음향으로부터, 상기 적어도 하나의 음원에 대응하는 적어도 하나의 유닛 음향 데이터를 획득하는 단계; 기 설정된 음향-이미지 매칭 모델을 적용하여, 상기 적어도 하나의 음원 이미지 및 상기 적어도 하나의 유닛 음향 데이터를 각각 매칭하는 단계; 상기 음원 이미지로부터 상기 적어도 하나의 음원의 움직임을 추적하는 단계; 및 상기 추적된 음원의 움직임에 따라 상기 유닛 음향 데이터의 음량(loudness)을 개별적으로 조정하는 단계를 포함할 수 있다. 상기 음향-이미지 매칭 모델은 특정 음원의 이미지와 상기 특정 음원이 발생시키는 음향 간의 매칭 정보를 포함할 수 있다.Disclosed as a technical means for achieving the above-described technical problem, a method for a device to improve the sound quality of an image includes: acquiring an image; acquiring a sound and an image from the acquired image; obtaining a sound source image representing at least one sound source from the obtained image; obtaining at least one unit sound data corresponding to the at least one sound source from the obtained sound; matching each of the at least one sound source image and the at least one unit sound data by applying a preset sound-image matching model; tracking the movement of the at least one sound source from the sound source image; and individually adjusting the loudness of the unit sound data according to the movement of the tracked sound source. The sound-image matching model may include matching information between an image of a specific sound source and a sound generated by the specific sound source.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서 개시된, 디바이스는, 영상을 획득하는 입력부; 출력 영상을 출력하는 출력부; 하나 이상의 명령어들(instructions)을 포함하는 프로그램을 저장하는 메모리; 및 상기 메모리에 저장된 하나 이상의 명령어들을 실행하는 적어도 하나의 프로세서를 포함할 수 있다. 상기 적어도 하나의 프로세서는, 상기 입력부를 제어함으로써, 영상을 획득하고, 상기 획득한 영상으로부터 음향(sound) 및 이미지(image)를 획득하고, 상기 획득한 이미지로부터 적어도 하나의 음원(sound source)을 나타내는 음원 이미지를 획득하고, 상기 획득한 음향으로부터, 상기 적어도 하나의 음원에 대응하는 적어도 하나의 유닛 음향 데이터를 획득하고, 기 설정된 음향-이미지 매칭 모델을 적용하여, 상기 적어도 하나의 음원 이미지 및 상기 적어도 하나의 유닛 음향 데이터를 각각 매칭하고, 상기 음원 이미지로부터 상기 적어도 하나의 음원의 움직임을 추적하고, 상기 추적된 음원의 움직임에 따라 상기 유닛 음향 데이터의 음량(loudness)을 개별적으로 조정할 수 있다. 상기 음향-이미지 매칭 모델은 특정 음원의 이미지와 상기 특정 음원이 발생시키는 음향 간의 매칭 정보를 포함할 수 있다.Disclosed as a technical means for achieving the above-described technical problem, the device includes: an input unit for acquiring an image; an output unit for outputting an output image; a memory storing a program including one or more instructions; and at least one processor executing one or more instructions stored in the memory. The at least one processor acquires an image by controlling the input unit, acquires a sound and an image from the acquired image, and receives at least one sound source from the acquired image Obtaining a sound source image representing, from the obtained sound, obtaining at least one unit sound data corresponding to the at least one sound source, and applying a preset sound-image matching model, the at least one sound source image and the Each of at least one unit sound data may be matched, the movement of the at least one sound source may be tracked from the sound source image, and the loudness of the unit sound data may be individually adjusted according to the tracked movement of the sound source. The sound-image matching model may include matching information between an image of a specific sound source and a sound generated by the specific sound source.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 컴퓨터로 읽을 수 있는 기록매체는, 개시된 방법의 실시예들 중에서 적어도 하나를 컴퓨터에서 실행시키기 위한 프로그램이 저장된 것일 수 있다.As a technical means for achieving the above-described technical problem, the computer-readable recording medium may store a program for executing at least one of the embodiments of the disclosed method in a computer.
도 1은 본 개시의 일 실시예에 따른 디바이스가 영상의 음질을 향상시키는 방법의 개요도이다.1 is a schematic diagram of a method for a device to improve sound quality of an image according to an embodiment of the present disclosure.
도 2는 본 개시의 일 실시예에 따른 디바이스의 블록도이다.2 is a block diagram of a device according to an embodiment of the present disclosure.
도 3은 본 개시의 일 실시예에 따른 영상의 음질을 향상시키는 방법의 흐름도이다.3 is a flowchart of a method of improving the sound quality of an image according to an embodiment of the present disclosure.
도 4는 본 개시의 일 실시예에 따른 영상의 음질을 향상시키는 방법의 흐름도이다.4 is a flowchart of a method of improving the sound quality of an image according to an embodiment of the present disclosure.
도 5는 본 개시의 일 실시예에 따른 디바이스가 보조 입력부를 통해 추가적인 음향을 획득하는 동작을 설명하기 위한 도면이다.5 is a diagram for describing an operation in which a device acquires an additional sound through an auxiliary input unit according to an embodiment of the present disclosure.
도 6은 본 개시의 일 실시예에 따른 디바이스가 이미지로부터 적어도 하나의 음원 이미지를 획득하는 동작을 설명하기 위한 도면이다.FIG. 6 is a diagram for explaining an operation in which a device acquires at least one sound source image from an image according to an embodiment of the present disclosure.
도 7은 본 개시의 일 실시예에 따른 디바이스가 음향으로부터 적어도 하나의 유닛 음향 데이터를 획득하는 동작을 설명하기 위한 도면이다.7 is a diagram for describing an operation in which a device acquires at least one unit sound data from a sound according to an embodiment of the present disclosure.
도 8은 본 개시의 일 실시예에 따른 디바이스가 음원 이미지에 따라 음향을 분리하고, 분리된 유닛 음향 데이터를 각각의 음원 이미지에 매칭하는 동작을 설명하기 위한 도면이다.FIG. 8 is a diagram for explaining an operation in which a device separates a sound according to a sound source image and matches the separated unit sound data to each sound source image according to an embodiment of the present disclosure.
도 9는 본 개시의 일 실시예에 따른 디바이스가 추적된 음원의 움직임에 따라 유닛 음향 데이터의 음량을 개별적으로 조정하는 동작의 구체적인 실시예를 설명하기 위한 도면이다.9 is a view for explaining a specific embodiment of the operation of the device individually adjusting the volume of unit sound data according to the movement of the tracked sound source according to an embodiment of the present disclosure.
도 10a는 본 개시의 일 실시예에 따른 디바이스가 멀티 채널을 갖는 출력 음향을 획득하는 예시를 나타내는 도면이다.10A is a diagram illustrating an example in which a device acquires multi-channel output sound according to an embodiment of the present disclosure.
도 10b는 본 개시의 일 실시예에 따른 디바이스가 멀티 채널을 갖는 출력 음향을 획득하는 예시를 나타내는 도면이다.10B is a diagram illustrating an example in which a device acquires multi-channel output sound according to an embodiment of the present disclosure.
도 10c는 본 개시의 일 실시예에 따른 디바이스가 멀티 채널을 갖는 출력 음향을 획득하는 예시를 나타내는 도면이다.10C is a diagram illustrating an example in which a device acquires multi-channel output sound according to an embodiment of the present disclosure.
도 11은 본 개시의 일 실시예에 따른 디바이스가 유닛 음향 데이터의 음량을 개별적으로 조정하는 예시를 나타내는 도면이다.11 is a diagram illustrating an example in which a device individually adjusts a volume of unit sound data according to an embodiment of the present disclosure.
도 12는 본 개시의 일 실시예에 따른 디바이스가 추적된 음원의 움직임에 따라 유닛 음향 데이터의 음량을 개별적으로 조정하는 예시를 나타내는 도면이다.12 is a diagram illustrating an example in which a device individually adjusts a volume of unit sound data according to a motion of a tracked sound source according to an embodiment of the present disclosure.
도 13은 본 개시의 일 실시예에 따른 디바이스가 추적된 음원의 움직임에 따라 유닛 음향 데이터의 음량을 조정하고, 조정된 유닛 음향 데이터로부터 멀티 채널을 갖는 출력 음향을 획득하는 예시를 나타내는 도면이다.13 is a diagram illustrating an example in which a device adjusts a volume of unit sound data according to a motion of a tracked sound source and obtains an output sound having multi-channels from the adjusted unit sound data according to an embodiment of the present disclosure.
도 14는 본 개시의 일 실시예에 따른 디바이스가 보조 입력부를 통해 추가적인 음향을 획득하고, 멀티 채널을 갖는 출력 음향을 획득하는 예시를 나타내는 도면이다.14 is a diagram illustrating an example in which a device acquires an additional sound through an auxiliary input unit and acquires an output sound having multi-channels according to an embodiment of the present disclosure;
본 개시의 일 실시예에서, 디바이스가 영상의 음질을 향상시키는 방법이 제공될 수 있다. 방법은, 영상을 획득하는 단계, 획득한 영상으로부터 음향(sound) 및 이미지(image)를 획득하는 단계, 획득한 이미지로부터 적어도 하나의 음원(sound source)을 나타내는 음원 이미지를 획득하는 단계, 획득한 음향으로부터, 적어도 하나의 음원에 대응하는 적어도 하나의 유닛 음향 데이터를 획득하는 단계, 기 설정된 음향-이미지 매칭 모델을 적용하여, 적어도 하나의 음원 이미지 및 적어도 하나의 유닛 음향 데이터를 각각 매칭하는 단계, 음원 이미지로부터 적어도 하나의 음원의 움직임을 추적하는 단계, 및 추적된 음원의 움직임에 따라 유닛 음향 데이터의 음량(loudness)을 개별적으로 조정하는 단계를 포함할 수 있다. 음향-이미지 매칭 모델은 특정 음원의 이미지와 특정 음원이 발생시키는 음향 간의 매칭 정보를 포함할 수 있다.In one embodiment of the present disclosure, a method for a device to improve the sound quality of an image may be provided. The method includes the steps of acquiring an image, acquiring a sound and an image from the acquired image, acquiring a sound source image representing at least one sound source from the acquired image, the acquired Acquiring at least one unit sound data corresponding to at least one sound source from the sound, applying a preset sound-image matching model to match at least one sound source image and at least one unit sound data, respectively; It may include tracking the movement of at least one sound source from the sound source image, and individually adjusting the volume (loudness) of the unit sound data according to the tracked movement of the sound source. The sound-image matching model may include matching information between an image of a specific sound source and a sound generated by the specific sound source.
일 실시예에서, 영상을 획득하는 단계는, 디바이스에 포함된 입력부를 통해 영상을 획득하는 것을 포함하고, 입력부는 음향(sound)을 획득하는 마이크 및 이미지(image)를 획득하는 카메라를 포함할 수 있다.In an embodiment, acquiring the image may include acquiring the image through an input unit included in the device, and the input unit may include a microphone for acquiring a sound and a camera for acquiring an image there is.
일 실시예에서, 영상을 획득하는 단계는, 디바이스에 포함된 입력부 및 디바이스 외부의 보조 입력부를 통해 영상을 획득하는 것을 포함할 수 있다. 입력부는 음향(sound)을 획득하는 마이크 및 이미지(image)를 획득하는 카메라를 포함할 수 있다. 보조 입력부는 추가적인 음향을 획득하는 보조 마이크를 포함할 수 있다.In an embodiment, acquiring the image may include acquiring the image through an input unit included in the device and an auxiliary input unit external to the device. The input unit may include a microphone for acquiring a sound and a camera for acquiring an image. The auxiliary input unit may include an auxiliary microphone for acquiring additional sound.
일 실시예에서, 획득한 음향으로부터, 적어도 하나의 음원에 대응하는 적어도 하나의 유닛 음향 데이터를 획득하는 단계는, 음향을 진폭, 주파수, 위상, 파형 및 스펙트럼에 따라 적어도 하나의 유닛 음향 데이터로 분리하는 것을 포함할 수 있다. 진폭, 주파수, 위상, 파형 및 스펙트럼이 동일한 두 개 이상의 유닛 음향 데이터들이 존재하는 경우, 음원 이미지를 이용하여 두 개 이상의 유닛 음향 데이터를 각각의 유닛 음향 데이터로 분리하는 것을 포함할 수 있다.In one embodiment, the acquiring at least one unit sound data corresponding to the at least one sound source from the acquired sound may include dividing the sound into at least one unit sound data according to amplitude, frequency, phase, waveform and spectrum. may include doing When two or more unit sound data having the same amplitude, frequency, phase, waveform, and spectrum exist, it may include separating the two or more unit sound data into respective unit sound data using a sound source image.
일 실시예에서, 기 설정된 음향-이미지 매칭 모델을 적용하여, 적어도 하나 의 음원 이미지 및 적어도 하나의 유닛 음향 데이터를 각각 매칭하는 단계는, 음원 이미지에서 획득한 정보를 추가로 이용하여 적어도 하나의 음원 이미지 및 적어도 하나의 유닛 음향 데이터를 각각 매칭하는 것을 포함할 수 있다.In one embodiment, the step of matching each of the at least one sound source image and the at least one unit sound data by applying a preset sound-image matching model includes additionally using information obtained from the sound source image to obtain at least one sound source It may include matching the image and the at least one unit sound data, respectively.
일 실시예에서, 음원 이미지로부터 적어도 하나의 음원의 움직임을 추적하는 단계는, 음원 이미지의 상태 변화를 통해 해당 음원의 움직임을 추적하는 것을 포함할 수 있다.In an embodiment, the step of tracking the motion of the at least one sound source from the sound source image may include tracking the movement of the corresponding sound source through a state change of the sound source image.
일 실시예에서, 음원 이미지로부터 적어도 하나의 음원의 움직임을 추적하는 단계는, 가속도계(accelerometer), 자이로스코프(gyroscope) 및 지자기계(magnetometer)를 포함하는 모션 센서로부터 획득된 디바이스의 움직임 정보를 이용하여, 음원 이미지의 상태 변화를 통해 해당 음원의 움직임을 추적하는 것을 포함할 수 있다.In one embodiment, the step of tracking the motion of the at least one sound source from the sound source image includes the motion information of the device obtained from a motion sensor including an accelerometer, a gyroscope, and a magnetometer. Thus, it may include tracking the movement of the sound source through the state change of the sound source image.
일 실시예에서, 추적된 음원의 움직임에 따라 유닛 음향 데이터의 음량을 개별적으로 조정하는 단계는, 각각의 유닛 음향 데이터의 전체 실행 시간의 음량 곡선을 획득하는 단계, 각각의 유닛 음향 데이터에 대해 수행할 조정 정보를 포함하는 음량 보정 곡선을 획득하는 단계, 및 음량 보정 곡선을 기반으로 각각의 유닛 음향 데이터의 음량을 개별적으로 조정하는 단계를 포함할 수 있다.In one embodiment, the step of individually adjusting the volume of the unit sound data according to the movement of the tracked sound source is performed for each unit sound data, the step of obtaining a volume curve of the total execution time of each unit sound data It may include obtaining a volume correction curve including adjustment information to be performed, and individually adjusting the volume of each unit sound data based on the volume correction curve.
일 실시예에서, 음량이 개별적으로 조정된 유닛 음향 데이터로부터 출력 음향을 획득하는 단계, 및 출력 음향 및 이미지로부터 출력 영상을 획득하는 단계를 더 포함할 수 있다.In an embodiment, the method may further include obtaining an output sound from unit sound data whose volume is individually adjusted, and obtaining an output image from the output sound and the image.
일 실시예에서, 음량이 개별적으로 조정된 유닛 음향 데이터로부터 출력 음향을 획득하는 단계는, 유닛 음향 데이터를 두 개 이상의 채널로 분류하여 렌더링하고, 멀티 채널을 갖는 출력 음향을 획득하는 것을 포함할 수 있다.In one embodiment, the step of obtaining an output sound from the unit sound data whose volume is individually adjusted may include rendering the unit sound data by classifying it into two or more channels, and obtaining an output sound having multiple channels. there is.
본 개시의 일 실시예에서, 영상의 음질을 향상시키는 디바이스가 제공될 수 있다. 디바이스는, 영상을 획득하는 입력부, 출력 영상을 출력하는 출력부, 하나 이상의 명령어들(instructions)을 포함하는 프로그램을 저장하는 메모리, 및 메모리에 저장된 하나 이상의 명령어들을 실행하는 적어도 하나의 프로세서를 포함할 수 있다. 적어도 하나의 프로세서는, 입력부를 제어함으로써 영상을 획득하고, 획득한 영상으로부터 음향(sound) 및 이미지(image)를 획득하고, 획득한 이미지로부터 적어도 하나의 음원(sound source)을 나타내는 음원 이미지를 획득하고, 획득한 음향으로부터, 적어도 하나의 음원에 대응하는 적어도 하나의 유닛 음향 데이터를 획득하고, 기 설정된 음향-이미지 매칭 모델을 적용하여, 적어도 하나의 음원 이미지 및 적어도 하나의 유닛 음향 데이터를 각각 매칭하고, 음원 이미지로부터 적어도 하나의 음원의 움직임을 추적하고, 추적된 음원의 움직임에 따라 유닛 음향 데이터의 음량(loudness)을 개별적으로 조정할 수 있다. 음향-이미지 매칭 모델은 특정 음원의 이미지와 특정 음원이 발생시키는 음향 간의 매칭 정보를 포함할 수 있다.In an embodiment of the present disclosure, a device for improving the sound quality of an image may be provided. The device may include an input unit for acquiring an image, an output unit for outputting an output image, a memory storing a program including one or more instructions, and at least one processor executing one or more instructions stored in the memory. can The at least one processor acquires an image by controlling the input unit, acquires a sound and an image from the acquired image, and acquires a sound source image representing at least one sound source from the acquired image and, from the acquired sound, acquire at least one unit sound data corresponding to at least one sound source, and apply a preset sound-image matching model to match at least one sound source image and at least one unit sound data, respectively And, it is possible to track the movement of at least one sound source from the sound source image, and individually adjust the volume (loudness) of the unit sound data according to the movement of the tracked sound source. The sound-image matching model may include matching information between an image of a specific sound source and a sound generated by the specific sound source.
일 실시예에서, 입력부는, 음향(sound)을 획득하는 마이크 및 이미지(image)를 획득하는 카메라를 포함할 수 있다.In an embodiment, the input unit may include a microphone for acquiring a sound and a camera for acquiring an image.
일 실시예에서, 프로세서는 하나 이상의 명령어들을 실행하여, 디바이스 외부의 보조 마이크를 통해 추가적인 음향을 획득할 수 있다.In one embodiment, the processor may execute one or more instructions to obtain additional sound through an auxiliary microphone external to the device.
일 실시예에서, 프로세서는 하나 이상의 명령어들을 실행하여, 음향을 진폭, 주파수, 위상, 파형 및 스펙트럼에 따라 적어도 하나의 유닛 음향 데이터로 분리하고, 진폭, 주파수, 위상, 파형 및 스펙트럼이 전부 동일한 두 개 이상의 유닛 음향 데이터들이 존재하는 경우, 음원 이미지를 이용하여 두 개 이상의 유닛 음향 데이터를 각각의 유닛 음향 데이터로 분리함으로써, 획득한 음향으로부터 적어도 하나의 음원에 대응하는 적어도 하나의 유닛 음향 데이터를 획득할 수 있다.In one embodiment, the processor executes one or more instructions to separate the sound into at least one unit sound data according to amplitude, frequency, phase, waveform and spectrum, wherein the amplitude, frequency, phase, waveform and spectrum are all equal. When two or more unit sound data exist, at least one unit sound data corresponding to at least one sound source is obtained from the acquired sound by separating two or more unit sound data into each unit sound data using a sound source image can do.
일 실시예에서, 프로세서는 하나 이상의 명령어들을 실행하여, 음원 이미지에서 획득한 정보를 추가로 이용하여 적어도 하나의 음원 이미지 및 적어도 하나의 유닛 음향 데이터를 각각 매칭함으로써, 기 설정된 음향-이미지 매칭 모델을 적용하여, 적어도 하나의 음원 이미지 및 적어도 하나의 유닛 음향 데이터를 각각 매칭할 수 있다.In one embodiment, the processor executes one or more instructions and additionally uses information obtained from the sound source image to match at least one sound source image and at least one unit sound data, respectively, to obtain a preset sound-image matching model By applying, it is possible to match at least one sound source image and at least one unit sound data, respectively.
일 실시예에서, 프로세서는 하나 이상의 명령어들을 실행하여, 음원 이미지의 상태 변화를 통해 해당 음원의 움직임을 추적할 수 있다.In an embodiment, the processor may execute one or more instructions to track the motion of the sound source through a change in the state of the sound source image.
일 실시예에서, 프로세서는 하나 이상의 명령어들을 실행하여, 가속도계(accelerometer), 자이로스코프(gyroscope) 및 지자기계(magnetometer)를 포함하는 모션 센서로부터 획득된 디바이스의 움직임 정보를 이용하여, 음원 이미지의 상태 변화를 통해 해당 음원의 움직임을 추적할 수 있다.In one embodiment, the processor executes one or more instructions to use motion information of the device obtained from motion sensors including an accelerometer, a gyroscope, and a magnetometer to determine the state of the sound source image. Through the change, the movement of the corresponding sound source can be tracked.
일 실시예에서, 프로세서는 하나 이상의 명령어들을 실행하여, 각각의 유닛 음향 데이터의 전체 실행 시간의 음량 곡선을 획득하고, 각각의 유닛 음향 데이터에 대해 수행할 조정 정보를 포함하는 음량 보정 곡선을 획득하고, 음량 보정 곡선을 기반으로 각각의 유닛 음향 데이터의 음량을 개별적으로 조정함으로써, 추적된 음원의 움직임에 따라 유닛 음향 데이터의 음량을 개별적으로 조정할 수 있다.In one embodiment, the processor executes one or more instructions to obtain a volume curve of the total execution time of each unit sound data, obtain a volume correction curve comprising adjustment information to be performed on each unit sound data, , by individually adjusting the volume of each unit sound data based on the volume correction curve, it is possible to individually adjust the volume of the unit sound data according to the movement of the tracked sound source.
일 실시예에서, 프로세서는 하나 이상의 명령어들을 실행하여, 음량이 개별적으로 조정된 유닛 음향 데이터로부터 출력 음향을 획득하고, 출력 음향 및 이미지로부터 출력 영상을 획득하는 것을 더 포함할 수 있다.In an embodiment, the processor may further include executing one or more instructions to obtain an output sound from the unit sound data whose volume is individually adjusted, and to obtain an output image from the output sound and the image.
일 실시예에서, 프로세서는 하나 이상의 명령어들을 실행하여, 유닛 음향 데이터를 두 개 이상의 채널로 분류하여 렌더링하고, 멀티 채널을 갖는 출력 음향을 획득할 수 있다.In an embodiment, the processor may execute one or more instructions to classify and render unit sound data into two or more channels, and obtain an output sound having multi-channels.
본 개시의 일 실시예에서, 본 개시에 따른 어느 하나의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공될 수 있다.In one embodiment of the present disclosure, a computer-readable recording medium in which a program for executing any one method according to the present disclosure in a computer is recorded may be provided.
아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Hereinafter, embodiments of the present disclosure will be described in detail with reference to the accompanying drawings so that those of ordinary skill in the art to which the present disclosure pertains can easily implement them. However, the present disclosure may be implemented in several different forms and is not limited to the embodiments described herein. And in order to clearly explain the present disclosure in the drawings, parts irrelevant to the description are omitted, and similar reference numerals are attached to similar parts throughout the specification.
본 개시의 실시예들에서 사용되는 용어는 본 개시의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.The terms used in the embodiments of the present disclosure have been selected as currently widely used general terms as possible while considering the functions of the present disclosure, but this may vary depending on the intention or precedent of a person skilled in the art, the emergence of new technology, etc. . In addition, in a specific case, there is a term arbitrarily selected by the applicant, and in this case, the meaning will be described in detail in the description of the corresponding embodiment. Therefore, the terms used in this specification should be defined based on the meaning of the term and the contents of the present disclosure, rather than the simple name of the term.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 명세서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다.The singular expression may include the plural expression unless the context clearly dictates otherwise. Terms used herein, including technical or scientific terms, may have the same meanings as commonly understood by one of ordinary skill in the art described herein.
본 개시 전체에서 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 본 명세서에 기재된 “...부”, “...모듈” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.In the present disclosure, when a part "includes" a certain component, it means that other components may be further included, rather than excluding other components, unless otherwise stated. In addition, terms such as “…unit” and “…module” described in this specification mean a unit that processes at least one function or operation, which is implemented as hardware or software, or is a combination of hardware and software. can be implemented.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.Throughout the specification, when a part is "connected" with another part, this includes not only the case of being "directly connected" but also the case of being "electrically connected" with another element interposed therebetween. . Also, when a part "includes" a certain component, it means that other components may be further included, rather than excluding other components, unless otherwise stated.
본 명세서에서 사용된 표현 “~하도록 구성된(또는 설정된)(configured to)”은 상황에 따라, 예를 들면, “~에 적합한(suitable for)”, “~하는 능력을 가지는(having the capacity to)”, “~하도록 설계된(designed to)”, “~하도록 변경된(adapted to)”, “~하도록 만들어진(made to)”, 또는 “~를 할 수 있는(capable of)”과 바꾸어 사용될 수 있다. 용어 “~하도록 구성된(또는 설정된)”은 하드웨어적으로 “특별히 설계된(specifically designed to)” 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, “~하도록 구성된 시스템”이라는 표현은, 그 시스템이 다른 장치 또는 부품들과 함께 “~할 수 있는” 것을 의미할 수 있다. 예를 들면, 문구 “A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서”는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.The expression “configured to (or configured to)” as used herein depends on the context, for example, “suitable for”, “having the capacity to” ”, “designed to”, “adapted to”, “made to”, or “capable of” can be used interchangeably. The term “configured (or configured to)” may not necessarily mean only “specifically designed to” in hardware. Instead, in some circumstances, the expression “a system configured to” may mean that the system is “capable of” with other devices or components. For example, the phrase “a processor configured (or configured to perform) A, B, and C” refers to a dedicated processor (eg, an embedded processor) for performing those operations, or by executing one or more software programs stored in memory; It may refer to a generic-purpose processor (eg, a CPU or an application processor) capable of performing corresponding operations.
본 개시에서 ‘영상(video)’은 청각적 소리 및 시각적 화면을 포함하는 시청각 자료를 의미한다. 영상의 시각적 구성은 ‘이미지(image)’, ‘시각 데이터(visual data)’ 또는 ‘그림(picture)’으로 기술될 수 있고, 영상의 청각적 구성은 ‘오디오(audio)’, ‘음향(sound)’, ‘어쿠스틱(acoustic)’ 또는 ‘음향 데이터(sound data)’로 기술될 수 있다.In the present disclosure, 'video' means audiovisual material including an auditory sound and a visual screen. The visual composition of the image may be described as 'image', 'visual data' or 'picture', and the auditory composition of the image is 'audio', 'sound' )', 'acoustic', or 'sound data'.
본 개시에서 ‘음질(sound quality)’은 소리의 품질을 의미한다. 음질은 다양한 음향적 요소에 따라 달라질 수 있다. 예를 들어, 노이즈의 많고 적음이 음질의 기준이 될 수도 있고, 소리의 주파수 평탄 정도, 음량의 평탄 정도에 따라 음질이 달라질 수 있다.In the present disclosure, 'sound quality' means the quality of sound. Sound quality may vary depending on various acoustic factors. For example, the amount of noise may be a criterion for sound quality, and the sound quality may vary according to the flatness of the frequency and the flatness of the volume.
본 개시에서 ‘음원(sound source)’은 소리가 발생하는 소리의 근원을 의미한다. 예를 들어, 사람, 동물, 각종 악기(musical instruments) 또는 어떠한 물체도 그로부터 소리가 발생한다면 음원이 될 수 있다.In the present disclosure, a 'sound source' means a source of a sound from which a sound is generated. For example, a sound source may be a person, an animal, various musical instruments, or any object if a sound is generated therefrom.
본 개시에서 ‘특정 음원에 대응하는 음향’은 해당 특정 음원으로부터 발생한 음향을 의미한다. 예를 들어, 특정 사람에 대응하는 음향이란 해당 사람이 낸 목소리를 의미하고, 특정 동물에 대응하는 음향은 해당 동물의 울음소리를 의미할 수 있다.In the present disclosure, 'sound corresponding to a specific sound source' means a sound generated from the specific sound source. For example, a sound corresponding to a specific person may mean a voice made by the person, and a sound corresponding to a specific animal may mean a cry of the corresponding animal.
본 개시에서 ‘화면 범위(screen area)’는 영상의 시각적 화면이 표시(디스플레이)되는 스크린 상의 영역을 의미한다. 예를 들어, 화면 범위는 특정 시점에 영상에서 캡쳐된 이미지의 테두리로 정의되는 영역일 수 있다.In the present disclosure, “screen area” means an area on a screen in which a visual screen of an image is displayed (displayed). For example, the screen range may be an area defined by a border of an image captured from an image at a specific point in time.
본 개시에서 ‘모노(monaural, monophonic: mono)’ 오디오는, 1개의 채널로 구성된 오디오를 의미한다. 모노 오디오는 하나의 마이크를 통한 녹음이며, 하나의 스피커를 통해서 듣는 소리가 이에 해당할 수 있다. 여러 개의 스피커를 통해 녹음 또는 재생되는 음향이더라도, 1개의 채널로만 음향이 연결되어 있다면 모노 오디오가 될 수 있다. 모노 오디오에서는 연결된 모든 스피커에서 동일한 음향이 재생된다.In the present disclosure, 'monaural, monophonic: mono' audio means audio composed of one channel. Mono audio is recording through one microphone, and sound heard through one speaker may correspond to this. Even if the sound is recorded or reproduced through multiple speakers, if the sound is connected to only one channel, it may be mono audio. In mono audio, the same sound is played from all connected speakers.
본 개시에서 ‘멀티 채널(multi-channel)’ 오디오는 2개 이상의 채널로 구성된 오디오를 의미한다. 예를 들어, 멀티 채널 오디오의 일종인 스테레오(stereo) 오디오는 하나의 스피커를 통해 듣는 경우, 2개의 채널의 신호가 합성되어 하나로 재생되지만, 두 개의 스피커(예를 들어 헤드셋(headset), 이어폰(earphone) 등)를 통해 재생할 경우, 양쪽의 스피커에서 서로 다른 음향이 재생되며, 모노 오디오에 비해 공간감 있고 풍부한 소리를 재생할 수 있다.In the present disclosure, 'multi-channel' audio means audio composed of two or more channels. For example, in stereo audio, which is a type of multi-channel audio, when listening through one speaker, signals of two channels are synthesized and reproduced as one, but two speakers (eg, a headset, an earphone ( earphone), different sounds are played from both speakers, and a sense of space and rich sound can be reproduced compared to mono audio.
이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.Hereinafter, the present disclosure will be described in detail with reference to the accompanying drawings.
도 1은 본 개시의 일 실시예에 따른 디바이스(1000)가 영상의 음질을 향상시키는 방법의 개요도이다.1 is a schematic diagram of a method of improving the sound quality of an image by a device 1000 according to an embodiment of the present disclosure.
도 1을 참조하면, 디바이스(1000)에 입력된 영상은 이미지(110) 및 음향(150) 을 포함할 수 있다. 일 실시예에서, 이미지(110)는 카메라 등의 입력 장치를 통해 녹화될 수 있고, 음향(150)은 마이크 등의 입력 장치를 통해 녹음될 수 있다. 디바이스(1000)는 녹화된 이미지(110)로부터 개별 음원으로 분리된 음원 이미지(SS1, SS2, SS3)들을 획득할 수 있다. 일 실시예에서, 음원 이미지는 화자(사람)(SS1, SS2) 및 배경(예를 들어, 대화자가 아닌 사람, 책상, 의자, 종이 및 배경 이미지를 포함)(SS3)으로 나뉘어질 수 있다.Referring to FIG. 1 , an image input to the device 1000 may include an image 110 and a sound 150 . In an embodiment, the image 110 may be recorded through an input device such as a camera, and the sound 150 may be recorded through an input device such as a microphone. The device 1000 may acquire sound source images SS1 , SS2 , and SS3 separated into individual sound sources from the recorded image 110 . In an embodiment, the sound source image may be divided into a speaker (person) (SS1, SS2) and a background (eg, a person who is not a speaker, desk, chair, paper, and background images) (SS3).
디바이스(1000)는 음향(150)을 각각의 음원에서 발생되는 소리로 나눈 유닛 음향 데이터 세트(160)를 획득할 수 있다. 일 실시예에서, 디바이스(1000)는 분리된 유닛 음향 데이터 세트(160)를 사람의 목소리(UA1, UA2) 또는 배경음(노이즈)(UA3)으로 분류할 수 있다.The device 1000 may acquire the unit sound data set 160 obtained by dividing the sound 150 by the sound generated by each sound source. In an embodiment, the device 1000 may classify the separated unit sound data set 160 as human voices (UA1, UA2) or background sound (noise) (UA3).
디바이스(1000)는 기 설정된 음향-이미지 매칭 모델을 적용하여, 분류된 유닛 음향 데이터 세트(160)를 분리된 음원 이미지(SS1, SS2, SS3)에 각각 매칭할 수 있다. 예를 들어, 사람의 목소리로 분류된 유닛 음향 데이터(UA1, UA2)를 사람으로 판단된 음원 이미지(SS1, SS2)에 매칭시킬 수 있으며, 그 밖의 소리들(UA3)은 배경 이미지(SS3)에 매칭시킬 수 있다. 둘 이상의 사람이 대화하고 있는 경우, 디바이스(1000)는 음향-이미지 매칭 모델에 포함된 ‘사람의 얼굴 및 해당 얼굴에 대응되는 목소리’ 정보를 통해, 분리된 유닛 음향 데이터(UA1, UA2)를 각각의 음원 이미지(SS1, SS2)에 매칭시킬 수 있다.The device 1000 may match the classified unit sound data set 160 to the separated sound source images SS1, SS2, and SS3 by applying a preset sound-image matching model, respectively. For example, unit sound data (UA1, UA2) classified as a human voice may be matched to sound source images (SS1, SS2) determined to be human, and other sounds (UA3) are in the background image (SS3). can be matched. When two or more people are talking, the device 1000 receives the separated unit sound data UA1 and UA2 through the 'person's face and the voice corresponding to the face' information included in the sound-image matching model, respectively. can be matched to the sound source images (SS1, SS2) of
디바이스(1000)는, 분리된 유닛 음향 데이터(UA1, UA2, UA3) 각각의 음량을 개별적으로 조정할 수 있다. 예를 들어, 노이즈에 해당하는 유닛 음향 데이터 UA3의 경우 음량을 줄일 수 있고, 화자의 대화에 해당하는 유닛 음향 데이터(UA1, UA2)의 음량은 입력 신호에 대응하는 레벨 또는 기 설정된 레벨로 조정할 수 있다.The device 1000 may individually adjust the volume of each of the separated unit sound data UA1 , UA2 , and UA3 . For example, the volume of unit sound data UA3 corresponding to noise can be reduced, and the volume of unit sound data (UA1, UA2) corresponding to the speaker's conversation can be adjusted to a level corresponding to the input signal or a preset level. there is.
디바이스(1000)는, 조정된 각각의 유닛 음향 데이터로부터 출력 음향(170)을 재합성할 수 있다. 일 실시예에서, 출력 음향(170)은 헤드폰 등의 출력 장치로의 출력을 위해 멀티 채널(multi-channel) 음향의 일종인 스테레오(stereo) 형식으로 합성될 수 있다. 예를 들어, 출력 음향(170)은 좌측 스피커(LC)로 출력되는 제1 채널(171) 및 우측 스피커(RC)로 출력되는 제2 채널(173)을 포함할 수 있다.The device 1000 may resynthesize the output sound 170 from the adjusted unit sound data. In an embodiment, the output sound 170 may be synthesized in a stereo format, which is a type of multi-channel sound, for output to an output device such as headphones. For example, the output sound 170 may include a first channel 171 output to the left speaker LC and a second channel 173 output to the right speaker RC.
디바이스(1000)는, 음원 이미지(SS1, SS2)의 화면 범위 내의 상대적인 위치에 따라, 각각의 음원 이미지(SS1, SS2)에 대응되는 유닛 음향 데이터(UA1, UA2)의 렌더링 채널을 결정할 수 있다. 예를 들어, 제1 음원 이미지(SS1)는 화면 범위 내의 좌측에 위치하므로 제1 음원 이미지(SS1)와 대응되는 제1 유닛 음향 데이터(UA1)는 좌측 스피커(LC)로 출력되는 제1 채널(171)에 렌더링할 수 있다. 또한, 화면 범위 내의 우측에 위치하는 제2 음원 이미지(SS2)에 대응되는 제2 유닛 음향 데이터(UA2)는 우측 스피커(RC)로 출력되는 제2 채널(173)에 렌더링할 수 있다. 일 실시예에서, 디바이스(1000)는 입력 음향(150)의 채널 개수와 관계없이 출력 음향(170)의 채널 개수를 조절할 수 있고, 공간감 있고 풍부한 소리의 출력이 가능하도록 영상의 음질을 개선할 수 있다.The device 1000 may determine the rendering channel of the unit sound data UA1 and UA2 corresponding to each of the sound source images SS1 and SS2 according to the relative positions within the screen range of the sound source images SS1 and SS2. For example, since the first sound source image SS1 is located on the left within the screen range, the first unit sound data UA1 corresponding to the first sound source image SS1 is output to the first channel ( 171) can be rendered. In addition, the second unit sound data UA2 corresponding to the second sound source image SS2 located on the right side within the screen range may be rendered on the second channel 173 output to the right speaker RC. In an embodiment, the device 1000 may adjust the number of channels of the output sound 170 irrespective of the number of channels of the input sound 150 , and may improve the sound quality of an image to output a sense of space and rich sound. there is.
도 2는 본 개시의 일 실시예에 따른 디바이스(1000)의 블록도이다.2 is a block diagram of a device 1000 according to an embodiment of the present disclosure.
도 2를 참조하면, 디바이스(1000)는 입력부(1100), 프로세서(1300), 메모리(1500), 출력부(1700) 및 모션 센서(1900)를 포함할 수 있다. 도 2에 도시된 구성 요소 모두가 디바이스(1000)의 필수 구성 요소인 것은 아니다. 도 2에 도시된 구성 요소보다 많은 구성 요소들에 의해 디바이스(1000)가 구현될 수도 있고, 도 2에 도시된 구성 요소보다 적은 구성 요소에 의해 디바이스가 구현될 수도 있다.Referring to FIG. 2 , the device 1000 may include an input unit 1100 , a processor 1300 , a memory 1500 , an output unit 1700 , and a motion sensor 1900 . Not all of the components shown in FIG. 2 are essential components of the device 1000 . The device 1000 may be implemented by more components than the components shown in FIG. 2 , or the device may be implemented by fewer components than the components shown in FIG. 2 .
입력부(1100)는 외부로부터 영상을 획득할 수 있다. 일 실시예에서, 입력부(1100)는 시각적 이미지를 획득하는 녹화부 및 청각적 음향을 획득하는 녹음부를 포함할 수 있다. 예를 들어, 녹화부는 카메라(Camera)를 포함할 수 있고, 녹음부는 마이크로폰(Microphone, mic)을 포함할 수 있다. 일 실시예에서, 입력부(1100)는 녹화부 및 녹음부로 물리적으로 분리되지 않는 단일한 구성일 수도 있다.The input unit 1100 may acquire an image from the outside. In an embodiment, the input unit 1100 may include a recorder for acquiring a visual image and a recorder for acquiring an auditory sound. For example, the recording unit may include a camera (Camera), and the recording unit may include a microphone (Microphone, mic). In an embodiment, the input unit 1100 may have a single configuration that is not physically separated into a recording unit and a recording unit.
출력부(1700)는 출력 영상을 외부로 출력할 수 있다. 출력부(1700)는 디스플레이(1710) 및 오디오 출력부(1720)를 포함할 수 있다.The output unit 1700 may output an output image to the outside. The output unit 1700 may include a display 1710 and an audio output unit 1720 .
디스플레이(1710)는 시각적 이미지를 외부로 표시하여 출력할 수 있다. 일 실시예에서, 디스플레이(1710)는 패널(panel)을 포함할 수 있다. 디스플레이(1710)는 예를 들어, 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나로 구성될 수 있다.The display 1710 may output a visual image by externally displaying it. In one embodiment, the display 1710 may include a panel. The display 1710 is, for example, a liquid crystal display, a thin film transistor-liquid crystal display, an organic light-emitting diode, a flexible display, 3 It may be configured as at least one of a 3D display and an electrophoretic display.
오디오 출력부(1720)는 청각적 음향을 외부로 재생하여 출력할 수 있다. 일 실시예에서, 오디오 출력부(1720)는 스피커(speaker)를 포함할 수 있다. 오디오 출력부(1720)는 예를 들어, 단일한 스피커, 두 개 이상의 복수의 스피커, 모노 스피커(mono speaker), 스테레오 스피커(stereo speaker), 서라운드 스피커(surround speaker), 헤드셋(headset), 이어폰(earphone) 중에서 적어도 하나로 구성될 수 있다.The audio output unit 1720 may reproduce and output an auditory sound to the outside. In an embodiment, the audio output unit 1720 may include a speaker. The audio output unit 1720 may include, for example, a single speaker, two or more speakers, a mono speaker, a stereo speaker, a surround speaker, a headset, an earphone ( earphone).
일 실시예에서, 출력부(1700)의 디스플레이(1710) 및 오디오 출력부(1720)는 물리적으로 분리되지 않는 단일한 구성일 수도 있다.In an embodiment, the display 1710 and the audio output unit 1720 of the output unit 1700 may have a single structure that is not physically separated.
메모리(1500)는 디바이스(1000)의 동작을 제어하기 위해 후술할 프로세서(1300)에 의해 실행될 프로그램을 저장할 수 있다. 메모리(1500)는 디바이스(1000)의 동작을 제어하기 위한 적어도 하나의 명령어들(instructions)을 포함하는 프로그램을 저장할 수 있다. 메모리(1500)에는 프로세서(1300)가 판독할 수 있는 명령어들 및 프로그램 코드(program code)가 저장될 수 있다. 일 실시예에서, 프로세서(1300)는 메모리(1500)에 저장된 프로그램의 명령어들 또는 코드들을 실행하도록 구현될 수 있다. 메모리(1500)는 디바이스(1000)로 입력되거나 디바이스(1000)로부터 출력되는 데이터를 저장할 수 있다.The memory 1500 may store a program to be executed by the processor 1300 to be described later in order to control the operation of the device 1000 . The memory 1500 may store a program including at least one instruction for controlling the operation of the device 1000 . Instructions and program codes readable by the processor 1300 may be stored in the memory 1500 . In one embodiment, the processor 1300 may be implemented to execute instructions or codes of a program stored in the memory 1500 . The memory 1500 may store data input to or output from the device 1000 .
메모리(1500)는 예를 들어, 플래시 메모리(flash memory), 하드디스크(hard disk), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어, SD 또는 XD 메모리 등), 램(RAM, Random Access Memory), SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장 매체를 포함할 수 있다. Memory 1500 is, for example, a flash memory (flash memory), a hard disk (hard disk), a multimedia card micro type (multimedia card micro type), card type memory (eg, SD or XD memory, etc.), RAM (Random Access Memory), SRAM (Static Random Access Memory), ROM (Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory), magnetic memory, It may include at least one type of storage medium among a magnetic disk and an optical disk.
메모리(1500)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있다. 예를 들어, 메모리(1500)는, 음향 이미지 분리 모듈(1510), 음원 이미지 획득 모듈(1520), 유닛 음향 데이터 획득 모듈(1530), 매칭 모듈(1540), 음원 움직임 추적 모듈(1550) 및 음량 조정 모듈(1560)을 포함할 수 있다. 또한, 메모리(1500)는 음향-이미지 매칭 모델(1570), DNN(심층 신경망)(1580) 및 데이터베이스(1590)를 포함할 수 있다.Programs stored in the memory 1500 may be classified into a plurality of modules according to their functions. For example, the memory 1500 includes an acoustic image separation module 1510 , a sound source image acquisition module 1520 , a unit acoustic data acquisition module 1530 , a matching module 1540 , a sound source motion tracking module 1550 , and a volume may include an adjustment module 1560 . In addition, the memory 1500 may include an acoustic-image matching model 1570 , a deep neural network (DNN) 1580 , and a database 1590 .
프로세서(1300)는, 디바이스(1000)의 전반적인 동작을 제어할 수 있다. 예를 들어, 프로세서(1300)는 메모리(1500)에 저장된 프로그램들을 실행함으로써, 입력부(1100), 디스플레이(1710) 및 오디오 출력부(1720)를 포함하는 출력부(1700), 모션 센서(1900) 및 메모리(1500) 등을 전반적으로 제어할 수 있다.The processor 1300 may control the overall operation of the device 1000 . For example, the processor 1300 executes programs stored in the memory 1500 , and thus an input unit 1100 , an output unit 1700 including a display 1710 , and an audio output unit 1720 , and a motion sensor 1900 . and overall control of the memory 1500 and the like.
프로세서(1300)는 산술, 로직 및 입출력 연산과 시그널 프로세싱을 수행하는 하드웨어 구성 요소로 구성될 수 있다. 프로세서(1300)는 예를 들어, 중앙 처리 장치(Central Processing Unit), 마이크로 프로세서(microprocessor), 그래픽 프로세서(Graphic Processing Unit), ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), 및 FPGAs(Field Programmable Gate Arrays) 중 적어도 하나로 구성될 수 있으나, 이에 제한되는 것은 아니다.The processor 1300 may be composed of hardware components that perform arithmetic, logic, input/output operations and signal processing. The processor 1300 is, for example, a central processing unit (Central Processing Unit), a microprocessor (microprocessor), a graphic processor (Graphic Processing Unit), ASICs (Application Specific Integrated Circuits), DSPs (Digital Signal Processors), DSPDs (Digital Signal Processing Devices), PLDs (Programmable Logic Devices), and FPGAs (Field Programmable Gate Arrays) may be configured as at least one, but is not limited thereto.
프로세서(1300)는, 메모리(1500)에 저장된 적어도 하나의 명령어들을 실행함으로써, 입력부(1100)를 통해 영상을 획득할 수 있다. 영상은 시각적 데이터인 이미지 및 청각적 데이터인 음향을 포함할 수 있다.The processor 1300 may acquire an image through the input unit 1100 by executing at least one instruction stored in the memory 1500 . The image may include an image that is visual data and a sound that is auditory data.
프로세서(1300)는, 메모리(1500)에 저장된 프로그램들 중 음향 이미지 분리 모듈(1510)을 구성하는 적어도 하나의 명령어들을 실행함으로써, 획득한 영상으로부터 음향(sound) 및 이미지(image)를 획득할 수 있다. 일 실시예에서, 단일한 모노(mono) 파일로 구성된 영상을, 청각적 데이터인 음향 파일 및 시각적 데이터인 이미지 파일로 분리할 수 있다.The processor 1300 may obtain a sound and an image from the acquired image by executing at least one instruction constituting the sound image separation module 1510 among programs stored in the memory 1500 . there is. In an embodiment, an image composed of a single mono file may be divided into a sound file that is auditory data and an image file that is visual data.
프로세서(1300)는, 메모리(1500)에 저장된 프로그램들 중 음원 이미지 획득 모듈(1520)을 구성하는 적어도 하나의 명령어들을 실행함으로써, 획득한 이미지로부터 적어도 하나의 음원(sound source)을 나타내는 음원 이미지를 획득할 수 있다. 이미지는 구분되지 않은 하나의 연속적인 화면으로 구성될 수 있다. 이러한 연속적인 화면에서 사람, 동물, 물건 등의 각각의 오브젝트(object)를 분리할 수 있다. 분리된 각각의 오브젝트는 소리를 발생시키는 음원이 될 수 있다. 일 실시예에서, 심층 신경망(Deep Neural Network, DNN) 또는 이미지 파일들이 축적된 데이터베이스를 이용해 이미지로부터 적어도 하나의 음원 이미지를 획득할 수 있다.The processor 1300 executes at least one command constituting the sound source image obtaining module 1520 among the programs stored in the memory 1500, thereby generating a sound source image representing at least one sound source from the obtained image. can be obtained An image may be composed of one continuous screen that is not divided. In such a continuous screen, each object such as a person, an animal, or a thing may be separated. Each of the separated objects may be a sound source that generates a sound. In an embodiment, at least one sound source image may be obtained from an image using a deep neural network (DNN) or a database in which image files are accumulated.
프로세서(1300)는, 메모리(1500)에 저장된 프로그램들 중 유닛 음향 데이터 획득 모듈(1530)을 구성하는 적어도 하나의 명령어들을 실행함으로써, 획득한 음향으로부터 동일한 음원에서의 발생 여부에 따라 결정된 적어도 하나의 유닛 음향 데이터를 획득할 수 있다. 유닛 음향 데이터 획득 모듈(1530)은 하나의 채널로 구성된 입력 음향을 서로 다른 음원에서 발생하는 유닛 음향 데이터의 복수의 채널로 분리할 수 있다. 일 실시예에서, 유닛 음향 데이터 획득 모듈(1530)은 심층 신경망(Deep Neural Network, DNN) 또는 오디오 정보들이 축적된 데이터베이스를 이용하여 음향을 유닛 음향 데이터로 분리할 수 있다. 분리된 유닛 음향 데이터의 정보는 메모리(1500)에 저장된 데이터베이스(1570)로 전달되어 저장되고, 데이터베이스(1570)를 업데이트할 수 있다. 일 실시예에서, 음향 데이터를 분리하기 위한 모델은 기 설정되어 데이터베이스에 저장되어 있을 수 있다.The processor 1300 executes at least one instruction constituting the unit sound data acquisition module 1530 among the programs stored in the memory 1500, thereby determining whether the acquired sound is generated from the same sound source or not. It is possible to acquire unit sound data. The unit sound data acquisition module 1530 may separate an input sound composed of one channel into a plurality of channels of unit sound data generated from different sound sources. In an embodiment, the unit sound data acquisition module 1530 may separate sound into unit sound data using a deep neural network (DNN) or a database in which audio information is accumulated. Information of the separated unit sound data is transferred to and stored in the database 1570 stored in the memory 1500 , and the database 1570 may be updated. In an embodiment, a model for separating sound data may be preset and stored in a database.
프로세서(1300)는, 메모리(1500)에 저장된 프로그램들 중 매칭 모듈(1540)을 구성하는 적어도 하나의 명령어들을 실행함으로써, 기 설정된 음향-이미지 매칭 모델(1570)을 적용하여, 적어도 하나의 음원 이미지 및 적어도 하나의 유닛 음향 데이터를 각각 매칭할 수 있다.The processor 1300 executes at least one instruction constituting the matching module 1540 among programs stored in the memory 1500, thereby applying a preset sound-image matching model 1570 to at least one sound source image and at least one unit of sound data may be respectively matched.
음향-이미지 매칭 모델(1570)에는 특정 음원의 이미지와 해당 특정 음원이 발생시키는 음향 간의 매칭 정보가 포함될 수 있다. 음향과 이미지의 매칭 정보에는, 음원 이미지의 정보에 따른 음향의 정보(예를 들어, 강아지 이미지에 대응되는 짖음 소리, 나무 이미지에 대응되는 바스락 소리, 또는 둘 이상의 사람이 대화하고 있는 경우 특정 사람의 얼굴 이미지에 따른 목소리 정보 등 특정 이미지에 따른 음향의 특징) 및 특정 음향에 따른 음원 이미지의 정보(예를 들어, 특정 소리가 발생할 때의 이미지의 입모양)가 포함될 수 있다.The sound-image matching model 1570 may include matching information between an image of a specific sound source and a sound generated by the specific sound source. In the sound and image matching information, sound information according to the information of the sound source image (eg, a barking sound corresponding to a dog image, a rustling sound corresponding to a tree image, or a specific person's information when two or more people are talking) Characteristics of a sound according to a specific image, such as voice information based on a face image) and information about a sound source image according to a specific sound (eg, mouth shape of the image when a specific sound is generated) may be included.
일 실시예에서, 음향-이미지 매칭 모델(1570)은 심층 신경망(Deep Neural Network, DNN) 또는 이미지 파일 및 오디오 정보들이 축적된 데이터베이스를 이용해 설정될 수 있다.In an embodiment, the acoustic-image matching model 1570 may be established using a deep neural network (DNN) or a database in which image files and audio information are accumulated.
일 실시예에서, 이미지로부터 분리된 개별 음원 이미지들과 음향으로부터 분리된 개별 유닛 음향 데이터들은 각각 음향-이미지 매칭 모델(1570)에 포함된 음향과 이미지의 대응관계 정보에 기반하여 매칭될 수 있다. 기 설정된 음향-이미지 매칭 모델(1570)에 따라 매칭된 각각의 음원 이미지 및 유닛 음향 데이터의 정보는, 메모리(1500)에 저장된 음향-이미지 매칭 모델(1570)에 다시 전달되어 저장되고 음향-이미지 매칭 모델(1570)을 업데이트 하거나, 데이터베이스(1590)로 전달되어 저장되고 데이터베이스(1590)를 업데이트 할 수 있다.In an embodiment, the individual sound source images separated from the image and the individual unit sound data separated from the sound may be matched based on the correspondence information between the sound and the image included in the sound-image matching model 1570 , respectively. Information of each sound source image and unit sound data matched according to the preset sound-image matching model 1570 is transmitted back to the sound-image matching model 1570 stored in the memory 1500 and stored, and sound-image matching The model 1570 may be updated, or it may be transferred to and stored in the database 1590 and update the database 1590 .
프로세서(1300)는, 메모리(1500)에 저장된 프로그램들 중 음원 움직임 추적 모듈(1550)을 구성하는 적어도 하나의 명령어들을 실행함으로써, 음원 이미지로부터 적어도 하나의 음원의 움직임을 추적할 수 있다. 움직이는 이미지를 포함하는 영상에서는 특정 음원 이미지의 상태 또는 위치가 시간의 경과에 따라 변화할 수 있다. 일 실시예에서, 음원 움직임 추적 모듈(1550)은 이미지(화면)를 분석하여, 특정 음원의 움직이는 방향, 속도, 음원 이미지의 모양의 변화 등을 분석하고 특정 음원에 대한 움직임 프로파일(profile)을 획득할 수 있다. 일 실시예에서, 획득한 움직임 프로파일은 후속 단계에서 각각의 유닛 음향 데이터의 음량을 개별적으로 조정하는 것에 이용될 수 있다.The processor 1300 may track the motion of at least one sound source from the sound source image by executing at least one command constituting the sound source motion tracking module 1550 among programs stored in the memory 1500 . In an image including a moving image, the state or position of a specific sound source image may change over time. In an embodiment, the sound source motion tracking module 1550 analyzes an image (screen), analyzes the moving direction, speed, change of the shape of the sound source image, etc. of a specific sound source, and obtains a motion profile for a particular sound source can do. In one embodiment, the obtained motion profile may be used to individually adjust the volume of each unit acoustic data in a subsequent step.
프로세서(1300)는, 메모리(1500)에 저장된 프로그램들 중 음량 조절 모듈(1560)을 구성하는 적어도 하나의 명령어들을 실행함으로써, 추적된 음원의 움직임에 따라 유닛 음향 데이터의 음량(loudness)을 개별적으로 조정할 수 있다. 일 실시예에서, 전체 영상에서 출력 음향이 일정한 음량을 유지하도록 유닛 음향 데이터의 음량을 조정할 수 있다. 예를 들어, 사람이 말하는 것을 녹음하는 경우, 음원(말하고 있는 사람)이 녹음 중 이동하여 디바이스(1000)로부터 상대적으로 멀어짐에 따라, 입력 유닛 음향 데이터의 음량은 감소한다. 이러한 경우, 음원이 디바이스(1000)에 가까울 때의 음량을 기준으로, 유닛 음향 데이터가 전체 영상에서 일정한 음량을 가질 수 있도록 음량을 조정할 수 있다. 이와 같이, 앞서 음원 움직임 추적 모듈(1550)에서 획득된 음원의 움직임 프로파일을 기반으로, 해당 음원에 대응하는 유닛 음향 데이터의 음량을 개별적으로 조정할 수 있다.The processor 1300 executes at least one command constituting the volume control module 1560 among the programs stored in the memory 1500 to individually adjust the volume of the unit sound data according to the movement of the tracked sound source. Can be adjusted. In an embodiment, the volume of the unit sound data may be adjusted so that the output sound maintains a constant volume in the entire image. For example, in the case of recording a person speaking, as the sound source (the person speaking) moves relatively far from the device 1000 during recording, the volume of the input unit sound data decreases. In this case, based on the volume when the sound source is close to the device 1000 , the volume may be adjusted so that the unit sound data may have a constant volume in the entire image. In this way, based on the motion profile of the sound source obtained in the sound source motion tracking module 1550 previously, the volume of unit sound data corresponding to the sound source may be individually adjusted.
일 실시예에서, 프로세서(1300)는 메모리(1500)에 저장된 프로그램들 중 음량 조절 모듈(1560)을 구성하는 적어도 하나의 명령어들을 실행함으로써, 음원의 종류에 따라 유닛 음향 데이터의 음량을 개별적으로 조정할 수도 있다. 예를 들어, 특정 유닛 음향 데이터가 노이즈(noise)로 분류된 경우, 해당 유닛 음향 데이터의 음량을 작게 조정할 수 있다. 일 실시예에서, 특정한 종류의 음향만의 출력이 요구되는 경우, 유닛 음향 데이터들 중 출력하고자 하는 특정 종류의 음향 만을 필터링(filtering)하며 다른 종류의 유닛 음향 데이터는 노이즈와 같이 음량을 작게 조정할 수도 있다.In one embodiment, the processor 1300 executes at least one command constituting the volume control module 1560 among the programs stored in the memory 1500 to individually adjust the volume of unit sound data according to the type of sound source. may be For example, when specific unit sound data is classified as noise, the volume of the corresponding unit sound data may be adjusted to be small. In an embodiment, when output of only a specific type of sound is required, only a specific type of sound to be output from among unit sound data is filtered, and the volume of other types of unit sound data may be adjusted to be small like noise. there is.
메모리(1500)에 저장된 심층 신경망(Deep Neural Network, DNN)(1580)은 인공 신경망의 한 종류로서, 입력층과 출력층 상이에 여러 개의 은닉층(hidden layer)들로 이루어지는 특징을 가질 수 있다. DNN(심층 신경망)(1580)은 일반적인 인공 신경망과 마찬가지로 복잡한 비선형 관계들을 모델링할 수 있다. 예를 들어, 사물 식별 모델을 위한 심층 신경망 구조에서는 각 객체가 이미지 기본 요소들의 계층적 구성으로 표현될 수 있다. 이때, 추가 계층들은 점진적으로 모인 하위 계층들의 특징을 규합 시킬 수 있다. DNN(심층 신경망)(1580)의 이러한 특징은, 더 적은 수의 유닛들만으로도 복잡한 데이터를 모델링할 수 있게 한다. DNN(심층 신경망)(1580)은 이미지 인식이나 음성 인식 분야에 적용될 수 있고, 본 개시와 같이 이미지를 분리하고 분리된 이미지를 각각의 음성 정보와 매칭시키는 처리에 이용될 수 있다.A deep neural network (DNN) 1580 stored in the memory 1500 is a type of artificial neural network, and may have a feature of being composed of several hidden layers between an input layer and an output layer. A deep neural network (DNN) 1580 can model complex nonlinear relationships like a general artificial neural network. For example, in a deep neural network structure for an object identification model, each object may be expressed as a hierarchical configuration of image basic elements. In this case, the additional layers may aggregate the characteristics of the gradually gathered lower layers. This feature of the deep neural network (DNN) 1580 makes it possible to model complex data with fewer units. The deep neural network (DNN) 1580 may be applied to image recognition or speech recognition fields, and may be used for processing to separate images and match the separated images with respective voice information as in the present disclosure.
메모리(1500)에 저장된 데이터베이스(1590)는 방대한 양의 데이터의 집합으로 구성될 수 있다. 일 실시예에서, 데이터베이스(1590)는 특정 음원 이미지에 대응되는 음향 정보 및 특정 음향에 대응되는 이미지 정보를 포함할 수 있다. 일 실시예에서 데이터베이스(1590)는 음향과 이미지의 대응관계를 나타내는 매칭 정보를 획득하여 음향-이미지 매칭 모델(1570)을 설정하는데 이용될 수 있다. 또한, 데이터베이스(1590)는, 유닛 음향 데이터와 음원 이미지를 매칭 시키거나, 각각의 유닛 음향 데이터의 음량을 조절하는데 이용될 수 있다.The database 1590 stored in the memory 1500 may be configured as a set of a vast amount of data. In an embodiment, the database 1590 may include sound information corresponding to a specific sound source image and image information corresponding to a specific sound. In an embodiment, the database 1590 may be used to set the sound-image matching model 1570 by acquiring matching information indicating the correspondence between the sound and the image. Also, the database 1590 may be used to match unit sound data and sound source images, or to adjust the volume of each unit sound data.
프로세서(1300)는, 메모리(1500)에 저장된 적어도 하나의 명령어들을 실행함으로써, 음량이 개별적으로 조정된 유닛 음향 데이터로부터 출력 음향을 획득하고, 출력 음향 및 이미지로부터 출력 영상을 획득할 수 있다. 일 실시예에서, 음량이 개별적으로 조정된 유닛 음향 데이터들을 재합성하여 최종 출력 음향 데이터를 획득할 수 있다. 일 실시예에서, 프로세서(1300)는, 스테레오(stereo) 형식 등의 멀티 채널(multi-channel)을 가지는 출력 음향을 획득하기 위해, 두 개 이상의 채널로 유닛 음향 데이터들을 분류하여 렌더링할 수 있다. 예를 들어, 디스플레이 화면 상 왼쪽에 배치된 음원 이미지들에 대응하는 유닛 음향 데이터들은 제1 채널로, 디스플레이 화면 상 오른쪽에 배치된 음원 이미지들에 대응하는 유닛 음향 데이터들은 제2 채널로 렌더링할 수 있다. 이후, 왼쪽 스피커에서는 제1 채널을 재생하고, 오른쪽 스피커에서는 제2 채널을 재생하는 출력 음향을 획득할 수 있다. 일 실시예에서, 출력 음향은 스테레오 형식뿐만 아니라, 서라운드(Surround) 형식, 앰비소닉(Ambisonic) 형식 또는 그 밖의 멀티채널(Multi-channel) 형식일 수도 있다.The processor 1300 may obtain an output sound from the unit sound data whose volume is individually adjusted, and an output image from the output sound and the image, by executing at least one command stored in the memory 1500 . In an embodiment, final output sound data may be obtained by resynthesizing unit sound data whose volume is individually adjusted. In an embodiment, the processor 1300 may classify and render unit sound data into two or more channels in order to obtain an output sound having a multi-channel, such as a stereo format. For example, unit sound data corresponding to sound source images disposed on the left side on the display screen may be rendered as a first channel, and unit sound data corresponding to sound source images disposed on the right side on the display screen may be rendered as a second channel. there is. Thereafter, an output sound in which the first channel is reproduced from the left speaker and the second channel is reproduced from the right speaker may be acquired. In an embodiment, the output sound may be not only in a stereo format, but also in a surround format, an Ambisonic format, or other multi-channel format.
일 실시예에서, 디바이스(1000)는 모션 센서(1900)를 더 포함할 수 있다. 모션 센서(1900)는, 가속도계(accelerometer)(1910), 자이로스코프(gyroscope)(1920) 및 지자기계(magnetometer)(1930)를 포함할 수 있다. 모션 센서(1900)는 디바이스(1000)의 움직임을 검출할 수 있다. 영상을 획득하는 입력부(1100)가 포함된 디바이스(1000) 자체의 움직임이 있는 경우, 실제 오브젝트(object)의 움직임이 없더라도, 획득된 영상에서는 음원 이미지의 움직임이 있는 것으로 인식될 수 있다. 일 실시예에서, 모션 센서(1900)로부터 획득된 디바이스(1000)의 움직임 정보를 기반으로, 음원 이미지의 화면 상에서의 상대적인 변화를 통해 음원의 움직임 프로파일을 추가로 획득할 수 있다. 획득된 추가적인 음원 움직임 프로파일은 해당 음원 이미지에 매칭된 유닛 음향 데이터의 음량을 조정하는데 이용될 수 있다.In an embodiment, the device 1000 may further include a motion sensor 1900 . The motion sensor 1900 may include an accelerometer 1910 , a gyroscope 1920 , and a magnetometer 1930 . The motion sensor 1900 may detect a motion of the device 1000 . When there is a movement of the device 1000 itself including the input unit 1100 for acquiring an image, even if there is no actual movement of an object, it may be recognized that there is a movement of the sound source image in the acquired image. In an embodiment, based on the motion information of the device 1000 obtained from the motion sensor 1900, a motion profile of the sound source may be additionally obtained through a relative change on the screen of the sound source image. The obtained additional sound source motion profile may be used to adjust the volume of unit sound data matched to the corresponding sound source image.
종래에는 양질의 음향을 포함하는 영상을 획득하기 위하여, 전문적인 음향 녹음 장비를 사용하거나, 일반적인 음향 장비로 녹음한 후 영상 후처리 과정을 거쳐야했다. 인터넷 및 소셜 네트워크의 발전으로 개인적으로 영상을 촬영, 편집 및 배포하는 크리에이터가 늘어나고 있다. 이 같은 개인 크리에이터들은 전문적인 장비를 이용하기 보다는, 스마트 폰과 같은 모바일 디바이스에 기본적으로 포함된 카메라 및 마이크를 이용해 영상을 촬영하는 경우가 많다. 모바일 디바이스에 의한 영상 촬영은 시각적 데이터인 이미지의 처리 영역에서는 많은 개선이 있었으나, 청각적 데이터인 음향의 처리 영역에서는 크게 개선되지 않았다. 음질의 개선은 보다 실감나는 영상의 시청에 있어서 중요하다.Conventionally, in order to obtain an image including high-quality sound, it is necessary to use a professional sound recording device or to perform an image post-processing after recording with a general sound device. With the development of the Internet and social networks, more and more creators personally shoot, edit, and distribute videos. Rather than using professional equipment, such individual creators often use the camera and microphone included in mobile devices such as smart phones to shoot videos. In image capturing by a mobile device, there was a lot of improvement in the image processing area, which is visual data, but there was no significant improvement in the audio processing area, which is auditory data. Improving sound quality is important for viewing more realistic images.
본 개시의 일 실시예에 따른 디바이스(1000)는, 프로세서(1300)가 메모리(1500)에 저장된 하나 이상의 명령어들을 실행함으로써, 디바이스(1000)에 포함된 입력부(1100)에서 획득한 영상을 시각적 데이터인 이미지 및 청각적 데이터인 음향으로 분리하고, 영상의 이미지로부터 적어도 하나의 음원(sound source)을 나타내는 음원 이미지를 획득하고, 영상의 음향을 동일한 음원에서의 발생 여부에 따라 유닛 음향 데이터로 분리하고, 음원 이미지와 유닛 음향 데이터를 각각 매칭시키고, 유닛 음향 데이터 각각의 음량(loudness)을 조정함으로써, 출력 영상의 음질을 향상시킬 수 있다.In the device 1000 according to an embodiment of the present disclosure, when the processor 1300 executes one or more instructions stored in the memory 1500 , the image acquired from the input unit 1100 included in the device 1000 is displayed as visual data. Separating the image and audio data into sound, obtaining a sound source image representing at least one sound source from the image of the image, and separating the sound of the image into unit sound data according to whether or not it is generated from the same sound source, , by matching the sound source image and unit sound data, respectively, and adjusting the loudness of each unit sound data, the sound quality of the output image can be improved.
따라서, 스마트 폰 등의 모바일 디바이스에 기본적으로 포함된 마이크 등의 입력부(1100)를 이용해 녹음하는 경우에도, 촬영된 영상이 디바이스(1000)에 포함된 프로세서(1300)를 통해 디바이스(1000) 내부에서 즉각적으로 후처리 될 수 있다. 이러한 경우, 촬영된 영상의 음질의 향상을 위한 별도의 음향 장비가 요구되지 않고, 사용자가 전문적인 영상 후처리 기술이 없어도 모바일 디바이스가 자동으로 음향의 후처리를 수행함으로써, 양질의 음향을 포함하는 영상을 획득할 수 있다.Therefore, even when recording using the input unit 1100 such as a microphone basically included in a mobile device such as a smart phone, the captured image is captured inside the device 1000 through the processor 1300 included in the device 1000 . It can be immediately post-processed. In this case, a separate audio equipment is not required to improve the sound quality of the captured image, and the mobile device automatically performs post-processing of the sound even if the user does not have a professional image post-processing technology, so that the image can be obtained.
또한, 본 개시의 일 실시예에 따른 디바이스(1000)는, 프로세서(1300)가 메모리(1500)에 저장된 하나 이상의 명령어들을 실행함으로써, 분리된 개별 유닛 음향 데이터를, 두 개 이상의 서로 다른 채널로 렌더링 할 수 있다. 따라서, 단일한 마이크를 통해 모노 오디오로 녹음된 경우에도, 출력 영상은 멀티 채널을 가지는 스테레오 형식 음향, 서라운드 형식 음향 또는 앰비소닉 형식의 음향을 가질 수 있다. 이와 같이, 입력 음향의 채널 개수와 관계 없이 출력 음향의 채널 개수를 조절할 수 있고, 보다 실감나는 영상을 위한 양질의 음향을 획득할 수 있다.In addition, in the device 1000 according to an embodiment of the present disclosure, the processor 1300 executes one or more instructions stored in the memory 1500 , thereby rendering the separated individual unit sound data into two or more different channels. can do. Accordingly, even when mono audio is recorded through a single microphone, the output image may have multi-channel stereo type sound, surround type sound, or ambisonic type sound. In this way, the number of channels of the output sound can be adjusted irrespective of the number of channels of the input sound, and high-quality sound for a more realistic image can be obtained.
도 3은 본 개시의 일 실시예에 따른 영상의 음질을 향상시키는 방법의 흐름도이다.3 is a flowchart of a method of improving the sound quality of an image according to an embodiment of the present disclosure.
단계 S300에서, 영상을 획득할 수 있다. 영상은 2차원 평면 위에 그려진 시청각적 표현물을 의미할 수 있다. 영상은 움직이는 동영상을 의미할 수 있다. 일 실시예에서, 영상은 음향(sound)을 획득하는 마이크 및 이미지(image)를 획득하는 카메라를 포함하는 입력부를 통해 획득할 수 있다.In step S300, an image may be acquired. An image may mean an audiovisual expression drawn on a two-dimensional plane. The video may mean a moving video. In an embodiment, the image may be acquired through an input unit including a microphone for acquiring a sound and a camera for acquiring an image.
단계 S310에서, 영상으로부터 음향(sound)을 획득할 수 있다. 예를 들어, 음향은 사람의 목소리, 동물의 소리, 사물로부터 발생하는 소리, 노이즈 등을 포함할 수 있다. 일 실시예에서, 음향은 단일한 마이크로부터 녹음된 단일 채널의 모노 오디오일 수도 있고, 복수의 마이크들로부터 녹음된 멀티 채널의 오디오일 수도 있다.In operation S310, a sound may be obtained from the image. For example, the sound may include a human voice, an animal sound, a sound generated from an object, noise, and the like. In one embodiment, the sound may be single-channel mono audio recorded from a single microphone or multi-channel audio recorded from a plurality of microphones.
단계 S320에서, 영상으로부터 이미지(image)를 획득할 수 있다. 예를 들어, 이미지는 카메라로부터 녹음된 시각적 데이터일 수 있다. 일 실시예에서 이미지는 다양한 음원들의 음원 이미지를 포함할 수 있다.In step S320, an image may be obtained from the image. For example, the image may be visual data recorded from a camera. In an embodiment, the image may include sound source images of various sound sources.
단계 S330에서, 음향으로부터 적어도 하나의 음원에 대응하는 적어도 하나의 유닛 음향 데이터를 획득할 수 있다. 예를 들어, 동일한 음원에서의 발생 여부에 따라 결정된 적어도 하나의 유닛 음향 데이터를 획득할 수 있다. 일 실시예에서, 단일 채널의 모노 오디오로 구성된 음향을 서로 다른 음원에서 발생하는 복수의 유닛 음향 데이터들로 분리할 수 있다. 일 실시예에서, 음향을 복수의 유닛 음향 데이터들로 분리할 때, 이미지를 이용할 수도 있다.In step S330, at least one unit sound data corresponding to at least one sound source may be obtained from the sound. For example, it is possible to obtain at least one unit sound data determined according to whether or not it is generated in the same sound source. In an embodiment, a sound composed of mono audio of a single channel may be divided into a plurality of unit sound data generated from different sound sources. In an embodiment, when dividing a sound into a plurality of unit sound data, an image may be used.
단계 S340에서, 이미지로부터 적어도 하나의 음원(sound source)을 나타내는 음원 이미지를 획득할 수 있다. 예를 들어, 연속적인 시각적 데이터로 구성된 이미지로부터, 사람, 동물, 물건, 배경 등 각각이 음향을 발생시키는 음원이 될 수 있는 오브젝트(object)들을 분리할 수 있다.In operation S340, a sound source image representing at least one sound source may be obtained from the image. For example, from an image composed of continuous visual data, objects, such as a person, an animal, an object, a background, etc., each of which can be a sound source for generating a sound may be separated.
단계 S350에서, 기 설정된 음향-이미지 매칭 모델을 적용하여, 적어도 하나 의 음원 이미지 및 적어도 하나의 유닛 음향 데이터를 각각 매칭할 수 있다. 일 실시예에서, 음향-이미지 매칭 모델은 특정 음원의 이미지와 특정 음원이 발생시키는 음향 간의 매칭 정보를 포함할 수 있다. 일 실시예에서, 음향-이미지 매칭 모델은 심층 신경망(Deep Neural Network, DNN)을 통해 기 설정될 수 있다. 음향과 이미지의 매칭 정보에는 음원 이미지의 정보에 따른 음향의 정보 및 특정 음향에 따른 음원 이미지의 정보가 포함될 수 있다.In step S350, by applying a preset sound-image matching model, at least one sound source image and at least one unit sound data may be matched, respectively. In an embodiment, the sound-image matching model may include matching information between an image of a specific sound source and a sound generated by the specific sound source. In an embodiment, the acoustic-image matching model may be preset through a deep neural network (DNN). The sound and image matching information may include sound information according to information on a sound source image and information on a sound source image according to a specific sound.
일 실시예에서, 이미지로부터 분리된 음원 이미지들과 음향으로부터 분리된 유닛 음향 데이터들은 각각 음향-이미지 매칭 모델에 기반하여 일대일, 다대일, 또는 다대다 매칭될 수 있다. 일 실시예에서, 유닛 음향 데이터와 음원 이미지를 매칭 시킬 때, 음원 이미지의 움직임 및 음원 이미지의 변화가 고려될 수도 있다.In an embodiment, the sound source images separated from the image and the unit sound data separated from the sound may each be matched one-to-one, many-to-one, or many-to-many based on an acoustic-image matching model. In one embodiment, when matching unit sound data and sound source image, the movement of the sound source image and the change of the sound source image may be considered.
단계 S360에서, 음원 이미지로부터 적어도 하나의 음원의 움직임을 추적할 수 있다. 움직임은 각각의 음원 이미지 별로 추적될 수 있다. 음원의 움직임 프로파일은 후속 단계에서 각각의 유닛 음향 데이터의 음량을 개별적으로 조정하는 것에 이용될 수 있다. 일 실시예에서, 음원의 움직임은, 음원 이미지의 화면 상에서의 변화를 통해 계산되고 추적될 수 있다. 일 실시예에서, 음원의 움직임은, 가속도계(accelerometer), 자이로스코프(gyroscope) 및 지자기계(magnetometer)를 포함하는 모션 센서로부터 획득된 디바이스의 움직임 정보를 이용하여 음원 이미지의 화면 상에서의 상대적인 변화를 통해 계산되고 추적될 수도 있다.In step S360, the movement of at least one sound source may be tracked from the sound source image. The motion may be tracked for each sound source image. The motion profile of the sound source may be used to individually adjust the volume of each unit sound data in a subsequent step. In one embodiment, the movement of the sound source may be calculated and tracked through a change in the screen of the sound source image. In one embodiment, the motion of the sound source uses the motion information of the device obtained from a motion sensor including an accelerometer, a gyroscope, and a magnetometer to measure the relative change on the screen of the sound source image It can also be calculated and tracked through
단계 S370에서, 추적된 음원의 움직임에 따라 유닛 음향 데이터의 음량(loudness)을 개별적으로 조정할 수 있다. 일 실시예에서, 음향으로부터 분리된 각각의 유닛 음향 데이터의 음량을 줄이거나, 늘리거나, 전체 영상에서 일정한 음량을 가질 수 있도록 조정할 수 있다. 각각의 유닛 음향 데이터들의 음량을 개별적으로 조정함으로써, 전체적인 음향의 최적화 및 튜닝이 가능하다.In step S370, the volume (loudness) of the unit sound data may be individually adjusted according to the movement of the tracked sound source. In one embodiment, the volume of each unit sound data separated from the sound may be decreased or increased, or may be adjusted to have a constant volume in the entire image. By individually adjusting the volume of each unit sound data, it is possible to optimize and tune the overall sound.
단계 S380에서, 음량이 개별적으로 조정된 유닛 음향 데이터로부터 출력 음향을 획득할 수 있다. 일 실시예에서, 음량이 개별적으로 조정된 유닛 음향 데이터들을 재합성하여 최종 출력 음향 데이터를 획득할 수 있다. 일 실시예에서, 유닛 음향 데이터를 두 개 이상의 채널로 분류하여 렌더링하고, 스테레오(stereo) 형식 등의 멀티 채널(multi-channel)을 가지는 출력 음향을 획득할 수도 있다. 예를 들어, 출력 음향은 노이즈에 해당하는 유닛 음향 데이터의 음량이 작게 조정되어 재합성 되거나, 풍부한 음향을 위해 멀티 채널을 가지도록 재합성될 수 있고, 따라서, 최종 출력 음향은 초기 입력된 음향에 비해 음질이 개선될 수 있다.In step S380 , an output sound may be obtained from unit sound data whose volume is individually adjusted. In an embodiment, final output sound data may be obtained by resynthesizing unit sound data whose volume is individually adjusted. In an embodiment, unit sound data may be classified into two or more channels and rendered, and output sound having a multi-channel such as a stereo format may be obtained. For example, the output sound may be resynthesized by adjusting the volume of unit sound data corresponding to noise to be small, or may be resynthesized to have multi-channels for a rich sound. The sound quality may be improved.
단계 S390에서, 출력 음향 및 이미지로부터 출력 영상을 획득할 수 있다. 출력 영상은 입력 영상과 비교할 때, 이미지(화면)는 일치하나 조정된 유닛 음향 데이터를 포함하므로 음향의 음질은 개선될 수 있다.In step S390, an output image may be obtained from the output sound and image. When the output image is compared with the input image, the image (screen) is the same but includes the adjusted unit sound data, so the sound quality can be improved.
도 4는 본 개시의 일 실시예에 따른 영상의 음질을 향상시키는 방법의 흐름도이다.4 is a flowchart of a method of improving the sound quality of an image according to an embodiment of the present disclosure.
단계 S400에서, 음향(sound) 및 이미지(image)를 포함하는 영상을 획득할 수 있고, 단계 S410 및 단계 S420에서 영상으로부터 음향 및 이미지를 분리하여 획득할 수 있다.In step S400, an image including a sound and an image may be obtained, and in steps S410 and S420, the sound and image may be obtained by separating the image from the image.
단계 S430에서, 이미지로부터 적어도 하나의 음원(sound source)을 나타내는 음원 이미지를 획득할 수 있다. 예를 들어, 연속적인 시각적 데이터로 구성된 이미지로부터, 사람, 동물, 물건, 배경 등 각각이 음향을 발생시키는 음원이 될 수 있는 오브젝트(object)들을 분리할 수 있다.In operation S430, a sound source image indicating at least one sound source may be obtained from the image. For example, from an image composed of continuous visual data, objects, such as a person, an animal, an object, a background, etc., each of which can be a sound source for generating a sound may be separated.
단계 S440에서, 기 설정된 음향-이미지 매칭 모델을 적용하여, 적어도 하나 의 음원 이미지 및 음향의 일부를 매칭할 수 있다. 일 실시예에서, 음향-이미지 매칭 모델은 특정 음원의 이미지와 특정 음원이 발생시키는 음향 간의 매칭 정보를 포함할 수 있다.In step S440, at least one sound source image and a part of the sound may be matched by applying a preset sound-image matching model. In an embodiment, the sound-image matching model may include matching information between an image of a specific sound source and a sound generated by the specific sound source.
단계 S450에서, 음향 및 분리된 음원 이미지로부터 적어도 하나의 음원에 대응하는 적어도 하나의 유닛 음향 데이터를 획득할 수 있다. 예를 들어, 동일한 음원에서의 발생 여부에 따라 결정된 적어도 하나의 유닛 음향 데이터를 획득할 수 있다. 일 실시예에서, 단일 채널의 모노 오디오로 구성된 음향을 서로 다른 음원에서 발생하는 복수의 유닛 음향 데이터들로 분리할 때, 음원 이미지를 이용할 수 있다. 예를 들어, 음향을 각각의 유닛 음향 데이터로 분리할 때, 앞서 분리된 음원 이미지를 참조하여, 어떠한 음원이 존재하는지를 미리 판단하고, 해당 음원에 의한 음향을 우선적으로 분리할 수 있다. 예를 들어, 각각의 음원 이미지에 매칭된 음향의 일부를 각각의 유닛 음향 데이터로 분리할 수 있다.In step S450, at least one unit sound data corresponding to at least one sound source may be obtained from the sound and the separated sound source image. For example, it is possible to obtain at least one unit sound data determined according to whether or not it is generated in the same sound source. In an embodiment, when a sound composed of mono audio of a single channel is divided into a plurality of unit sound data generated from different sound sources, a sound source image may be used. For example, when sound is divided into unit sound data, it is possible to determine in advance which sound source exists by referring to the previously separated sound source image, and to preferentially separate the sound by the sound source. For example, a portion of the sound matched to each sound source image may be separated into each unit sound data.
이미지로부터 음원 이미지를 우선적으로 분리하고, 매칭된 음원 이미지를 이용하여 음향으로부터 유닛 음향 데이터를 분리하는 동작은, 영상의 이미지에 나타나지 않는 음원이 존재하는 경우에 유용할 수 있다. 예를 들어, 각각의 분리된 음원 이미지에 대응하는 음향들을 각각의 유닛 음향 데이터로 분리한 후, 남은 음향 데이터로부터 영상의 이미지에 나타나지 않는 음원에 대응되는 유닛 음향 데이터를 획득할 수 있다.The operation of preferentially separating the sound source image from the image and separating the unit sound data from the sound using the matched sound source image may be useful when there is a sound source that does not appear in the image of the video. For example, after separating sounds corresponding to each separated sound source image into respective unit sound data, unit sound data corresponding to a sound source not appearing in the image of the video may be obtained from the remaining sound data.
단계 S460에서, 음원의 음원 이미지로부터 적어도 하나의 음원의 움직임을 추적할 수 있다. 음원의 움직임은 각각의 음원 이미지 별로 추적될 수 있다. 음원의 움직임 프로파일은 후속 단계에서 각각의 유닛 음향 데이터의 음량을 개별적으로 조정하는 것에 이용될 수 있다.In step S460, the movement of at least one sound source may be tracked from the sound source image of the sound source. The motion of the sound source may be tracked for each sound source image. The motion profile of the sound source may be used to individually adjust the volume of each unit sound data in a subsequent step.
이후, 전술한 실시예에서와 유사하게, 단계 S470에서 추적된 음원의 움직임에 따라 유닛 음향 데이터의 음량(loudness)을 개별적으로 조정할 수 있고, 단계 S480에서 음량이 개별적으로 조정된 유닛 음향 데이터로부터 출력 음향을 획득할 수 있다. 출력 음향은 초기 입력된 음향에 비해 음질이 개선될 수 있다.Thereafter, similarly to the above-described embodiment, the loudness of the unit sound data may be individually adjusted according to the movement of the sound source tracked in step S470, and output from the unit sound data whose volume is individually adjusted in step S480 sound can be obtained. The sound quality of the output sound may be improved compared to the initially input sound.
도 5는 본 개시의 일 실시예에 따른 디바이스(1000)가 보조 입력부(2100)를 통해 추가적인 음향을 획득하는 동작을 설명하기 위한 도면이다.FIG. 5 is a diagram for explaining an operation in which the device 1000 acquires an additional sound through the auxiliary input unit 2100 according to an embodiment of the present disclosure.
본 개시의 일 실시예에 따른 디바이스(1000)는 음향을 획득하는 마이크 및 이미지를 획득하는 카메라를 포함하는 입력부를 자체적으로 포함할 수 있다. The device 1000 according to an embodiment of the present disclosure may itself include an input unit including a microphone for acquiring a sound and a camera for acquiring an image.
일 실시예에서, 디바이스(1000)는 디바이스(1000) 외부의 보조 입력부(2100)를 통해 추가적인 음향을 획득할 수도 있다. 예를 들어, 보조 입력부(2100)는 라펠(lapel) 마이크 등의 보조 마이크를 포함할 수 있다. 디바이스(1000)가 직접 획득한 음향 및 보조 입력부(2100)를 통해 획득한 음향은 동일한 음원(SS)에서 발생한 음향일 수도 있고, 일 실시예에서, 디바이스(1000)가 직접 획득한 음향 및 보조 입력부(2100)를 통해 획득한 음향은 서로 다른 음원에서 발생한 음향으로서 멀티 채널 음향을 구성할 수도 있다.In an embodiment, the device 1000 may acquire an additional sound through the auxiliary input unit 2100 external to the device 1000 . For example, the auxiliary input unit 2100 may include an auxiliary microphone such as a lapel microphone. The sound obtained directly by the device 1000 and the sound obtained through the auxiliary input unit 2100 may be sounds generated from the same sound source SS, and in an embodiment, the sound obtained directly by the device 1000 and the sound obtained through the auxiliary input unit 2100 The sound acquired through 2100 may constitute a multi-channel sound as sound generated from different sound sources.
디바이스(1000)가 직접 획득한 음향 및 보조 입력부(2100)를 통해 획득한 음향이 동일한 음원(SS)에서 발생한 음향인 경우, 디바이스(1000)에서 직접 획득한 음향과 보조 입력부(2100)를 통해 획득한 음향은 음량 또는 신호 대 잡음비의 차이만을 가질 수 있다. 이러한 경우, 보조 입력부(2100)를 통해 입력된 음향은, 디바이스(1000)로 전송되어, 디바이스(1000)가 획득한 음향과 함께 영상의 후처리에 이용될 수 있다. 예를 들어, 보조 입력부(2100)를 통해 입력된 음향이 더 나은 신호 대 잡음비를 가지는 경우, 보조 입력부(2100)를 통해 입력된 음향은 디바이스(1000)가 획득한 영상의 음향 노이즈 제거에 이용될 수 있다. 보조 입력부(2100)를 통해 획득한 음향은 디바이스(1000)가 자체적으로 획득한 음향을 보조할 수 있고, 디바이스(1000)가 획득한 음향을 완전히 대체하는 것은 아니다.When the sound obtained directly by the device 1000 and the sound obtained through the auxiliary input unit 2100 are generated from the same sound source SS, the sound directly obtained from the device 1000 and the sound obtained through the auxiliary input unit 2100 are obtained through the auxiliary input unit 2100 A sound can only have a difference in volume or signal-to-noise ratio. In this case, the sound input through the auxiliary input unit 2100 may be transmitted to the device 1000 and used for post-processing of an image together with the sound acquired by the device 1000 . For example, when a sound input through the auxiliary input unit 2100 has a better signal-to-noise ratio, the sound input through the auxiliary input unit 2100 may be used to remove acoustic noise of an image acquired by the device 1000 . can The sound acquired through the auxiliary input unit 2100 may support the sound acquired by the device 1000 itself, and does not completely replace the sound acquired by the device 1000 .
디바이스(1000)가 직접 획득한 음향 및 보조 입력부(2100)를 통해 획득한 음향이 서로 다른 채널의 음향으로서 멀티 채널 음향을 구성하는 경우, 각각의 음향은 함께 또는 독립적으로 후처리 되어, 새로운 모노 채널 형식 또는 멀티 채널 형식의 출력 음향을 획득할 수 있다.When the sound obtained directly by the device 1000 and the sound obtained through the auxiliary input unit 2100 constitute multi-channel sound as sounds of different channels, each sound is post-processed together or independently to create a new mono channel It is possible to obtain output sound in format or multi-channel format.
도 6은 본 개시의 일 실시예에 따른 디바이스(1000)가 이미지(610)로부터 적어도 하나의 음원 이미지를 획득하는 동작을 설명하기 위한 도면이다.FIG. 6 is a diagram for explaining an operation in which the device 1000 acquires at least one sound source image from the image 610 according to an embodiment of the present disclosure.
디바이스(1000)는 이미지(610)로부터 적어도 하나의 음원(sound source)을 나타내는 음원 이미지를 획득할 수 있다.The device 1000 may obtain a sound source image representing at least one sound source from the image 610 .
도 6을 참조하면, 획득한 영상의 이미지(610)는 연속적인 시각적 데이터로 구성될 수 있다. 연속적인 시각적 데이터 이미지로부터, 사람, 동물, 물건, 배경 등 각각이 음향을 발생시키는 음원이 될 수 있는 오브젝트(object)들을 분리할 수 있다. 일 실시예에서, 이미지 분석은, 심층 신경망(DNN) 기술인 딥러닝(Deep Learning) 또는 인공지능을 통해 분석될 수 있으며, 이 경우 높은 정확도와 다양한 사물 인식이 가능하다.Referring to FIG. 6 , an image 610 of an acquired image may be composed of continuous visual data. From the continuous visual data image, it is possible to separate objects, such as people, animals, objects, and backgrounds, which can each be a sound source for generating a sound. In an embodiment, image analysis may be analyzed through deep learning or artificial intelligence, which is a deep neural network (DNN) technology, in which case high accuracy and various object recognition are possible.
인공지능(Artificial Intelligence, AI)의 이미지 인식 기술은, 이미지를 여러 패턴으로 분류하고, 패턴형 데이터를 학습하여 새로운 이미지가 주어질 때 이미지가 무엇인지 판단할 수 있다. 일 실시예에서, 디바이스(1000)는, 심층 신경망(DNN) 또는 인공지능(AI)을 통해, 이미지(610)에서 사람 이미지(H1, H2, H3, H4, H5, H6) 및 개 이미지(D1, D2)들을 분리할 수 있다. 분리된 사람 이미지(H1, H2, H3, H4, H5, H6) 및 개 이미지(D1, D2)들은 각각 음원 이미지가 될 수 있다. 이와 같이, 디바이스(1000)는 이미지(610)로부터 적어도 하나의 음원 이미지를 분리하고 획득할 수 있다.Image recognition technology of artificial intelligence (AI) classifies images into several patterns and learns pattern-type data to determine what an image is when a new image is given. In one embodiment, the device 1000, through a deep neural network (DNN) or artificial intelligence (AI), in the image 610, human images (H1, H2, H3, H4, H5, H6) and dog images (D1) , D2) can be separated. The separated human images H1, H2, H3, H4, H5, and H6 and dog images D1 and D2 may be sound source images, respectively. In this way, the device 1000 may separate and obtain at least one sound source image from the image 610 .
도 7은 본 개시의 일 실시예에 따른 디바이스(1000)가 음향(750)으로부터 적어도 하나의 유닛 음향 데이터 세트(760)를 획득하는 동작을 설명하기 위한 도면이다.7 is a diagram for describing an operation in which the device 1000 acquires at least one unit sound data set 760 from the sound 750 according to an embodiment of the present disclosure.
유닛 음향 데이터(760)는 동일한 음원에서의 발생 여부에 따라 결정될 수 있다. 소리는 세기, 음색 및 높이의 3요소를 가진다. 이 세 가지 요소는 각각 소리 파동의 진폭, 파형 및 진동수에 해당한다. 파동의 진폭이 클수록 소리의 세기는 크고, 파동의 진동수가 높을수록 소리의 높이가 높다. 소리의 음색은 파형에 의해 결정되는데, 같은 음이라도 피아노, 사람, 바이올린 등의 소리가 다른 이유는 소리의 파형이 다르기 때문이다.The unit sound data 760 may be determined according to whether it is generated from the same sound source. Sound has three components: intensity, tone, and pitch. These three factors correspond to the amplitude, waveform, and frequency of a sound wave, respectively. The larger the amplitude of the wave, the louder the sound, and the higher the frequency of the wave, the higher the sound. The timbre of a sound is determined by its waveform. The reason that the sound of a piano, a person, a violin, etc. is different even for the same note is because the waveform of the sound is different.
또한, 소리를 구별할 때 엔벨로프(envelope)가 고려될 수 있다. 엔벨로프란 시간에 따른 소리의 변화이며, 음이 최고점까지 도달하는 시간, 음이 안정되기까지의 시간, 음이 지속되는 시간 및 음이 사라질 때까지의 시간을 의미한다. 엔벨로프는 음원이 소리를 발생하는 방법에 따라 달라질 수 있다. 일 실시예에서, 동일한 음원에서 발생한 소리인지 여부는 소리의 3요소 및 엔벨로프에에 따라 결정될 수 있다.Also, an envelope may be considered when distinguishing sounds. The envelope is the change of sound with time, and it means the time for a note to reach its peak, the time for the sound to become stable, the time for the sound to last, and the time until the sound disappears. The envelope can vary depending on how the sound source generates sound. In an embodiment, whether the sound is generated from the same sound source may be determined according to three elements and an envelope of the sound.
일 실시예에서, 음향(750)으로부터 유닛 음향 데이터 세트(760)를 분리하고 획득하는 동작은, 음향(750)을 진폭, 주파수, 위상, 파형 및 스펙트럼에 따라 적어도 하나의 유닛 음향 데이터(761, 762, 763, 764)들로 분리하는 동작을 포함할 수 있다. 예를 들어, 네 개의 악기의 소리가 합성된 음향(750)으로부터, 진폭, 주파수, 위상, 파형, 스펙트럼 등에 의존하는 소리의 3요소 및 엔벨로프에 따라, 각각의 악기에 의한 소리로 분리된 4개의 유닛 음향 데이터(761, 762, 763, 764)들을 획득할 수 있다.In one embodiment, the operation of separating and obtaining the unit sound data set 760 from the sound 750 comprises: the sound 750 according to the amplitude, frequency, phase, waveform and spectrum at least one unit sound data 761, 762 , 763 , and 764 ). For example, from the synthesized sound 750 , the sounds of four instruments are divided into four Unit sound data 761 , 762 , 763 , and 764 may be acquired.
일 실시예에서, 두 개 이상의 유닛 음향 데이터들의 진폭, 주파수, 위상, 파형 및 스펙트럼이 전부 동일한 경우, 음원 이미지를 이용하여 각각의 유닛 음향 데이터로 분리할 수 있다. 예를 들어, 이미지가 분할 화면을 포함하고, 동일한 사람이 각각의 분할 화면 상에서 동시에 말하고 있는 경우, 각각의 분할 화면 상의 사람의 입 모양을 참조하여 각각의 분할 화면에 대응하는 유닛 음향 데이터를 분리할 수 있다. 예를 들어, 동일한 종류의 악기가 두 개 이상 존재하는 경우, 악기를 연주하는 사람의 손 모양 등을 참조하여 각각의 악기 별로 유닛 음향 데이터를 분리할 수 있다. 이와 같이, 음향의 특징으로는 음원 별로 유닛 음향 데이터를 분리하기 어려운 경우, 이미지 데이터를 추가로 이용할 수 있다.In one embodiment, when the amplitude, frequency, phase, waveform, and spectrum of two or more unit sound data are all the same, the sound source image may be used to separate each unit sound data. For example, if the image includes a split screen and the same person is speaking on each split screen at the same time, unit sound data corresponding to each split screen can be separated by referring to the shape of the person's mouth on each split screen. can For example, when two or more instruments of the same type exist, unit sound data may be separated for each instrument with reference to a hand shape of a person playing the instrument. As such, when it is difficult to separate unit sound data for each sound source as a characteristic of sound, image data may be additionally used.
도 8은 본 개시의 일 실시예에 따른 디바이스(1000)가 음원 이미지(821, 822)에 따라 음향(850)을 분리하고, 분리된 유닛 음향 데이터(861, 862)를 각각의 음원 이미지(821, 822)에 매칭하는 동작을 설명하기 위한 도면이다.8 is a diagram in which the device 1000 according to an embodiment of the present disclosure separates the sound 850 according to the sound source images 821 and 822 and displays the separated unit sound data 861 and 862 into each sound source image 821 , 822) is a diagram for explaining the matching operation.
도 8을 참조하면, 영상은 개별 음원으로 분리된 음원 이미지(821, 822)를 포함하는 이미지(810) 및 음향(850)을 포함할 수 있다. 음향(850)은 각각의 음원 이미지(821, 822)로부터 발생된 소리(A1, A2)의 합성을 포함할 수 있다. 일 실시예에서, 음향(850)은, 각각의 음원 이미지(821, 822)에 대응되는 목소리 정보를 포함하는 음향-이미지 매칭 모델을 적용하여, 유닛 음향 데이터(861, 862)로 분리될 수 있다. 분리된 유닛 음향 데이터(861, 862)는 목소리 정보에 따라 각각의 음원 이미지(821, 822)와 매칭될 수 있다.Referring to FIG. 8 , an image may include an image 810 and a sound 850 including sound source images 821 and 822 separated into individual sound sources. The sound 850 may include a synthesis of sounds A1 and A2 generated from respective sound source images 821 and 822 . In one embodiment, the sound 850 may be divided into unit sound data 861 and 862 by applying a sound-image matching model including voice information corresponding to each sound source image 821 and 822 . . The separated unit sound data 861 and 862 may be matched with respective sound source images 821 and 822 according to voice information.
일 실시예에서, 음원 이미지 및 유닛 음향 데이터를 각각 매칭하는 동작은, 음원 이미지에서 획득한 정보를 추가로 이용할 수도 있다. 예를 들어, 동일한 사람이 분할 화면 상에서 동시에 말하고 있는 경우, 각각의 분할 화면 상의 사람의 입 모양을 참조하여 분할 화면에 유닛 음향 데이터를 매칭할 수 있다. 예를 들어, 동일한 종류의 악기가 두 개 이상 존재하는 경우, 악기를 연주하는 사람의 손 모양 등을 참조하여 각각의 악기 별로 유닛 음향 데이터를 매칭할 수 있다.In an embodiment, the operation of matching each sound source image and unit sound data may additionally use information obtained from the sound source image. For example, when the same person is speaking on the split screen at the same time, unit sound data may be matched to the split screen by referring to the shape of the person's mouth on each split screen. For example, when two or more instruments of the same type exist, unit sound data may be matched for each instrument with reference to a hand shape of a person playing the instrument.
일 실시예에서, 특정한 음향만의 출력이 요구되는 경우, 유닛 음향 데이터(861, 862)들 중 출력하고자 하는 특정 종류의 음향 만을 필터링(filtering)하며, 다른 종류의 유닛 음향 데이터의 음량을 작게 조정할 수도 있다. In an embodiment, when output of only a specific sound is required, only a specific type of sound to be output from among the unit sound data 861 and 862 is filtered, and the volume of other types of unit sound data is adjusted to be small. may be
예를 들어, 도 8을 참조하면, 음원 이미지 821 에 대응하는 유닛 음향 데이터(861)만을 출력하고자 할 경우, 음원 이미지 822 에 대응하는 유닛 음향 데이터(862)를 음소거 처리할 수 있다. 또한, 음원 이미지 822 에 대응하는 유닛 음향 데이터(862)만을 출력하고자 할 경우, 음원 이미지 821 에 대응하는 유닛 음향 데이터(861)를 음소거 처리할 수 있다.For example, referring to FIG. 8 , when it is desired to output only unit sound data 861 corresponding to the sound source image 821 , the unit sound data 862 corresponding to the sound source image 822 may be muted. In addition, when it is desired to output only the unit sound data 862 corresponding to the sound source image 822 , the unit sound data 861 corresponding to the sound source image 821 may be muted.
도 9는 본 개시의 일 실시예에 따른 디바이스(1000)가 추적된 음원의 움직임에 따라 유닛 음향 데이터의 음량을 개별적으로 조정하는 동작(S370)의 구체적인 실시예를 설명하기 위한 도면이다.9 is a view for explaining a specific embodiment of the operation ( S370 ) of individually adjusting the volume of unit sound data according to the motion of the tracked sound source by the device 1000 according to an embodiment of the present disclosure.
단계 S910에서, 각각의 유닛 음향 데이터의 전체 실행 시간의 음량 곡선을 획득할 수 있다. 예를 들어, 각각의 유닛 음향 데이터에 대해 감지된 음량의 레벨(level)을 시간에 따라 계산할 수 있다.In step S910, it is possible to obtain a volume curve of the total execution time of each unit sound data. For example, the level of the sensed volume for each unit sound data may be calculated over time.
단계 S920에서, 각각의 유닛 음향 데이터에 대해 수행할 조정 정보를 포함하는 음량 보정 곡선을 획득할 수 있다. 일 실시예에서, 음량 보정 곡선은 영상의 전체 실행 시간 내에서 특정 시간에 유닛 음향 데이터의 음량을 줄일지 키울지에 대한 정보를 포함할 수 있다. 예를 들어, 영상의 전체 실행 시간 내에서 음향의 음량을 일정하게 유지하고자 하는 경우, 음량 보정 곡선은, 음량 곡선과 기 설정된 출력 음량의 값 사이의 차이로 계산될 수 있다.In step S920, a volume correction curve including adjustment information to be performed for each unit sound data may be obtained. In an embodiment, the volume correction curve may include information on whether to decrease or increase the volume of the unit sound data at a specific time within the entire execution time of the image. For example, when it is desired to keep the volume of a sound constant within the entire execution time of an image, the volume correction curve may be calculated as a difference between the volume curve and a preset output volume value.
단계 S930에서, 음량 보정 곡선을 기반으로 각각의 유닛 음향 데이터의 음량을 시간에 따라 개별적으로 조정할 수 있다.In step S930, the volume of each unit sound data may be individually adjusted over time based on the volume correction curve.
도 10a, 10b 및 10c는 본 개시의 일 실시예에 따른 디바이스(1000)가 멀티 채널을 갖는 출력 음향을 획득하는 예시를 나타내는 도면이다.10A, 10B, and 10C are diagrams illustrating an example in which the device 1000 acquires multi-channel output sound according to an embodiment of the present disclosure.
도 10a를 참조하면, 일 실시예에서, 디바이스(1000)는 두 개의 음원(SS101, SS102)을 포함하는 영상을 촬영할 수 있다. Referring to FIG. 10A , according to an embodiment, the device 1000 may capture an image including two sound sources SS101 and SS102.
도 10b를 참조하면, 녹음된 입력 음향은 모노 오디오로서 그 상태로 후처리 없이 재생 시, 두 개의 음원에서 발생한 입력 음향(IA101, IA102)이 각각의 좌채널(LC) 및 우채널(RC)에서 동시에 재생될 수 있다. 이 경우, 두 개의 음원(SS101, SS102)은 같은 장소에 있는 것으로 인식될 수 있다. 이와 같이, 단일한 채널을 갖는 모노 오디오에서, 사용자는 두 개의 음원(SS101, SS102)의 방향을 인식할 수 없다.Referring to FIG. 10B , the recorded input sound is mono audio, and when reproduced without post-processing in its state, input sounds IA101 and IA102 generated from two sound sources are displayed on the left channel LC and the right channel RC, respectively. can be played simultaneously. In this case, the two sound sources SS101 and SS102 may be recognized as being in the same place. As such, in mono audio having a single channel, the user cannot recognize the directions of the two sound sources SS101 and SS102.
도 10c를 참조하면, 녹음된 입력 음향(IA101, IA102)에 본 개시의 일 실시예에 따른 영상의 음질을 향상시키는 방법이 적용될 경우, 디바이스(1000)는 음향을 각각의 음원(SS101, SS102)에 따라 유닛 음향 데이터로 분리할 수 있고, 분리된 유닛 음향 데이터를 각각의 음원 이미지의 화면 상의 위치에 따라 좌채널(LC) 또는 우채널(RC)로 렌더링할 수 있다. 예를 들어, 화면 상 좌측에 위치하는 음원 SS101에 대응되는 유닛 음향 데이터는 좌채널(LC)로, 화면 상 우측에 위치하는 음원 SS102에 대응되는 유닛 음향 데이터는 우채널(RC)로 출력 음향을 렌더링할 수 있다. 따라서, 출력 음향은, 두 개의 채널(LC, RC)을 가지는 멀티 채널 오디오로 구현될 수 있다.Referring to FIG. 10C , when the method for improving the sound quality of an image according to an embodiment of the present disclosure is applied to the recorded input sounds IA101 and IA102, the device 1000 transmits the sound to each of the sound sources SS101 and SS102. may be separated into unit sound data, and the separated unit sound data may be rendered as a left channel (LC) or a right channel (RC) according to the position on the screen of each sound source image. For example, unit sound data corresponding to the sound source SS101 located on the left side of the screen is output through the left channel (LC), and unit sound data corresponding to the sound source SS102 located on the right side of the screen is output through the right channel (RC). can render. Accordingly, the output sound may be implemented as multi-channel audio having two channels LC and RC.
도 11은 본 개시의 일 실시예에 따른 디바이스(1000)가 유닛 음향 데이터의 음량을 개별적으로 조정하는 예시를 나타내는 도면이다.11 is a diagram illustrating an example in which the device 1000 individually adjusts the volume of unit sound data according to an embodiment of the present disclosure.
일 실시예에서, 디바이스(1000)를 소지하고 촬영하는 사람이 직접 음향을 발생시키는 음원 SS111이 될 수 있다. 디바이스(1000)를 소지하고 촬영하는 사람은 화면 상에 나타나는 경우도 있으나, 나타나지 않는 경우도 있을 수 있다. In an embodiment, a person holding the device 1000 and taking a picture may be the sound source SS111 that directly generates a sound. A person holding the device 1000 and taking a picture may appear on the screen, but may not appear.
음향을 유닛 음향 데이터로 분리하는 동작에 있어서, 음원 SS111의 음원 이미지가 화면 상에 존재하는 경우, 음향-이미지 매칭 모델을 이용할 수 있다. 음원 SS111이 화면 상에 나타나지 않아 음원 이미지가 존재하지 않는 경우, 화면 상에 나타난 다른 음원 SS112에 대응하는 유닛 음향 데이터 A2를 분리하고 남은 음향 데이터를 음원 SS111에 대응하는 유닛 음향 데이터 A1으로 결정할 수 있다.In the operation of dividing the sound into unit sound data, when the sound source image of the sound source SS111 is present on the screen, the sound-image matching model may be used. When the sound source image does not exist because the sound source SS111 does not appear on the screen, the unit sound data A2 corresponding to the other sound source SS112 displayed on the screen is separated, and the remaining sound data can be determined as the unit sound data A1 corresponding to the sound source SS111. .
도 11의 (a)를 참조하면, 입력 음향에 있에서, 디바이스(1000)로부터 가까운 곳에 위치한 음원 SS111이 발생시킨 유닛 음향 데이터 A1은 디바이스(1000)에서 먼 곳에 위치한 음원 SS112가 발생시킨 유닛 음향 데이터 A2에 비해 음량이 클 수 있다.Referring to (a) of FIG. 11 , in the input sound, unit sound data A1 generated by the sound source SS111 located close to the device 1000 is unit sound data generated by the sound source SS112 located far from the device 1000 . The volume may be louder than the A2.
도 11의 (b)를 참조하면, 디바이스(1000)는 영상의 음질을 향상시키기 위해, 유닛 음향 데이터 A1의 음량을 줄이고, 유닛 음향 데이터 A2의 음량을 키워 A1과 A2의 음량을 같은 레벨로 조정할 수 있다. 유닛 음향 데이터 A1 및 A2의 음량이 동일한 레벨로 조정되면, 영상의 전체적인 음향의 음량이 일정하게 유지될 수 있으므로, 영상의 음질이 향상될 수 있다.Referring to FIG. 11B , the device 1000 adjusts the volume of A1 and A2 to the same level by decreasing the volume of the unit sound data A1 and increasing the volume of the unit sound data A2 in order to improve the sound quality of the image. can When the volume of the unit sound data A1 and A2 is adjusted to the same level, the overall sound volume of the image may be constantly maintained, so that the sound quality of the image may be improved.
도 12는 본 개시의 일 실시예에 따른 디바이스(1000)가 추적된 음원의 움직임에 따라 유닛 음향 데이터의 음량을 개별적으로 조정하는 예시를 나타내는 도면이다.12 is a diagram illustrating an example in which the device 1000 individually adjusts the volume of unit sound data according to the motion of the tracked sound source according to an embodiment of the present disclosure.
일 실시예에서, 디바이스(1000)가 촬영 중인 피사체(음원)(SS120)는 음향을 발생시키면서 이동중일 수 있다. 예를 들어, 피사체는 초기 위치(SS120i) 및 최종 위치(SS120f)를 가질 수 있다. 일 실시예에서, 피사체는 디바이스(1000)에서 멀어지는 방향으로 이동할 수 있다. 이 때, 피사체의 초기 위치(SS120i)는 디바이스(1000)에서 상대적으로 가깝고, 피사체의 최종 위치(SS120f)는 디바이스(1000)에서 상대적으로 멀 수 있다.In an embodiment, the subject (sound source) SS120 being photographed by the device 1000 may be moving while generating a sound. For example, the subject may have an initial position SS120i and a final position SS120f. In an embodiment, the subject may move in a direction away from the device 1000 . In this case, the initial position SS120i of the subject may be relatively close to the device 1000 , and the final position SS120f of the subject may be relatively far from the device 1000 .
도 12의 (a)를 참조하면, 피사체의 초기 위치(SS120i)에서 발생한 초기 입력 음향(Ai)의 음량은 크고, 음원이 디바이스(1000)에서 멀어질수록 음량이 작아질 수 있다. 피사체의 최종 위치(SS120f)에서 발생한 최종 입력 음향(Af)의 음량은 상대적으로 작을 수 있다.Referring to FIG. 12A , the volume of the initial input sound Ai generated at the initial position SS120i of the subject may be high, and the volume may be decreased as the sound source moves away from the device 1000 . The volume of the final input sound Af generated at the final location SS120f of the subject may be relatively low.
도 12의 (b)를 참조하면, 일 실시예에서, 디바이스(1000)는 영상의 음질을 향상시키기 위해, 초기 입력 음향(Ai)의 음량을 줄이고, 최종 입력 음향(Af)의 음량을 키우는 등, 시간에 따른 음량의 조정 정보를 포함하는 음량 보정 곡선을 획득할 수 있다. 디바이스(1000)는 획득한 음량 보정 곡선을 이용하여 음향의 음량을 조정할 수 있고, 영상의 전체 실행 시간 내에 출력 음향의 음량이 동일한 레벨로 유지되도록 할 수 있다.Referring to FIG. 12B , in one embodiment, the device 1000 decreases the volume of the initial input sound Ai, increases the volume of the final input sound Af, etc. in order to improve the sound quality of the image. , it is possible to obtain a volume correction curve including information on adjusting the volume according to time. The device 1000 may adjust the volume of the sound by using the obtained volume correction curve, and may maintain the volume of the output sound at the same level within the entire execution time of the image.
도 13은 본 개시의 일 실시예에 따른 디바이스(1000)가 추적된 음원의 움직임에 따라 유닛 음향 데이터의 음량을 조정하고, 조정된 유닛 음향 데이터로부터 멀티 채널을 갖는 출력 음향을 획득하는 예시를 나타내는 도면이다.13 is a diagram illustrating an example in which the device 1000 adjusts the volume of unit sound data according to the motion of the tracked sound source, and obtains an output sound having multi-channels from the adjusted unit sound data according to an embodiment of the present disclosure; It is a drawing.
일 실시예에서, 디바이스(1000)가 촬영 중인 피사체(음원)(SS130)는 음향을 발생시키면서, 디바이스(1000)에 대해 상대적으로 이동할 수 있다. 초기 시간(Ti)에서, 피사체는 디바이스(1000)의 먼 우측에 위치하였다가, 최종 시간(Tf)로 갈수록 디바이스(1000)에 가까운 좌측으로 이동할 수 있다. 이 때, 피사체의 초기 위치(SS130i)는 디바이스(1000)에서 상대적으로 멀고, 피사체의 최종 위치(SS130f)는 디바이스(1000)에서 상대적으로 가까울 수 있다.In an embodiment, the subject (sound source) SS130 being photographed by the device 1000 may move relative to the device 1000 while generating a sound. At the initial time Ti, the subject may be located on the far right side of the device 1000 , and may move toward the left side closer to the device 1000 toward the final time Tf. In this case, the initial position SS130i of the subject may be relatively far from the device 1000 , and the final position SS130f of the subject may be relatively close to the device 1000 .
도 13의 (a)를 참조하면, 초기 시간(Ti)에서, 초기 위치(SS130i)로부터 발생한 초기 입력 음향(Ai)의 음량은 작을 수 있다. 음원(SS130)이 디바이스(1000)에 가까워질수록 음량이 커지며, 도 13의 (c)를 참조하면, 최종 시간(Tf)에서, 최종 위치(SS130f)로부터 발생한 최종 입력 음향(Af)의 음량은 상대적으로 클 수 있다.Referring to FIG. 13A , at the initial time Ti, the volume of the initial input sound Ai generated from the initial position SS130i may be small. As the sound source SS130 approaches the device 1000, the volume increases. Referring to FIG. 13(c) , at the final time Tf, the volume of the final input sound Af generated from the final position SS130f is can be relatively large.
일 실시예에서, 디바이스(1000)는 영상의 음질을 향상시키기 위해, 초기 입력 음향(Ai)의 음량을 키우고, 최종 입력 음향(Af)의 음량을 줄이는 등, 시간에 따른 음량의 조정 정보를 포함하는 음량 보정 곡선을 획득할 수 있다. 디바이스(1000)는 획득한 음량 보정 곡선을 이용하여 음향의 음량을 조정할 수 있고, 영상의 전체 실행 시간 내에 출력 음향의 음량이 동일한 레벨로 유지되도록 할 수 있다.In an embodiment, the device 1000 includes information on adjusting the volume over time, such as increasing the volume of the initial input sound Ai and decreasing the volume of the final input sound Af, in order to improve the sound quality of the image A volume correction curve can be obtained. The device 1000 may adjust the volume of the sound by using the obtained volume correction curve, and may maintain the volume of the output sound at the same level within the entire execution time of the image.
더욱 실감나는 음질을 획득하기 위해, 디바이스(1000)는 음원의 위치에 따라 출력 음향을 멀티 채널 오디오로 렌더링할 수 있다. 예를 들어, 음원(SS130i)이 화면 상 우측에 위치하는 초기 시간(Ti) 부근에서는 우채널(RCi)의 음량을 키워 렌더링할 수 있다. 도 13의 (b)를 참조하면, 초기 시간(Ti)에서, 출력 음향은 우채널(RCi)의 음량은 크고, 좌채널(LCi)의 음량은 작게 조정될 수 있다.In order to obtain more realistic sound quality, the device 1000 may render the output sound as multi-channel audio according to the location of the sound source. For example, the sound source SS130i may be rendered by increasing the volume of the right channel RCi near the initial time Ti at which the sound source SS130i is located on the right side of the screen. Referring to FIG. 13B , at an initial time Ti, the volume of the right channel RCi may be high and the volume of the left channel LCi may be adjusted to be low.
도 13의 (d)를 참조하면, 음원(SS130f)이 화면 상 좌측에 위치하는 최종 시간(Tf) 부근에서는 좌채널(LCf)의 음향이 우채널(RCf)의 음향보다 잘 들리도록 우채널(RCf)의 음량을 줄여 렌더링할 수 있다. 예를 들어, 최종 시간(Tf)에서, 출력 음향은 우채널(RCf)의 음량은 작고, 좌채널(LCf)의 음량은 크게 조정될 수 있다.Referring to (d) of FIG. 13, in the vicinity of the final time Tf when the sound source SS130f is located on the left side of the screen, the right channel ( RCf) can be rendered by reducing the volume. For example, at the last time Tf, the volume of the right channel RCf may be low and the volume of the left channel LCf may be adjusted to be large in the output sound.
도 14는 본 개시의 일 실시예에 따른 디바이스(1000)가 보조 입력부(2200)를 통해 추가적인 음향을 획득하고, 멀티 채널을 갖는 출력 음향을 획득하는 예시를 나타내는 도면이다.14 is a diagram illustrating an example in which the device 1000 acquires an additional sound through the auxiliary input unit 2200 and obtains an output sound having multi-channels according to an embodiment of the present disclosure.
일 실시예에서, 디바이스(1000)는 입력부를 통해 직접 획득한 음향 A1 및 디바이스(1000) 외부의 보조 입력부(2200)를 통해 획득한 음향 A2를 포함하는 음향을 획득할 수 있다. 보조 입력부(2200)는 예를 들어, 마이크를 포함하는 웨어러블 디바이스(wearable device)일 수 있다.In an embodiment, the device 1000 may acquire a sound including the sound A1 directly acquired through the input unit and the sound A2 acquired through the auxiliary input unit 2200 external to the device 1000 . The auxiliary input unit 2200 may be, for example, a wearable device including a microphone.
도 14의 (a)를 참조하면, 음원(SS140)이 디바이스(1000)로부터 먼 곳에 위치하는 경우, 디바이스(1000)의 입력부에서 직접 획득한 음향(A1)은 음량이 작고, 신호 대 잡음비가 낮을 수 있다. 한편, 보조 입력부(2200)는 항상 음원(SS140)으로부터 가까운 곳에 위치하므로, 보조 입력부(2200)를 통해 획득한 음향(A2)은 음량이 크고 선명하며, 신호 대 잡음비가 높다.Referring to (a) of FIG. 14 , when the sound source SS140 is located far from the device 1000 , the sound A1 directly acquired from the input unit of the device 1000 has a low volume and a low signal-to-noise ratio. can On the other hand, since the auxiliary input unit 2200 is always located close to the sound source SS140, the sound A2 obtained through the auxiliary input unit 2200 has a large and clear volume and a high signal-to-noise ratio.
신호 대 잡음비(Signal-to-Noise Ratio, SNR)는 신호의 세기와 노이즈의 세기의 비율이다. 일 실시예에서, 신호 대 잡음비에 있어서 신호는 유효한 음향 데이터를 의미할 수 있다. 신호 대 잡음비가 높을수록 노이즈가 적음을 의미한다.Signal-to-Noise Ratio (SNR) is the ratio of signal strength to noise strength. In an embodiment, in terms of a signal-to-noise ratio, a signal may mean valid acoustic data. A higher signal-to-noise ratio means less noise.
일 실시예에서, 디바이스(1000)는, 영상의 음질을 향상시키기 위해, 보조 입력부(2200)에서 획득한 음향(A2)을 이용하여 음향의 노이즈를 줄이고, 출력 음향의 음량을 기 설정된 레벨로 조정할 수 있다.In an embodiment, in order to improve the sound quality of the image, the device 1000 uses the sound A2 acquired from the auxiliary input unit 2200 to reduce noise of the sound and adjust the volume of the output sound to a preset level. can
더욱 실감나는 음질을 획득하기 위해, 디바이스(1000)는 음원(SS140)의 위치에 따라 출력 음향을 멀티 채널 오디오로 렌더링할 수 있다. 예를 들어, 도 14를 참조하면 음원(SS140)이 화면 상 우측에 위치할 수 있다. 도 14의 (b)를 참조하면, 이 경우, 좌측 채널(LC)의 음량은 작고, 우측 채널(RC)의 음량은 크게 조정하여 출력 음향을 렌더링할 수 있다.In order to obtain more realistic sound quality, the device 1000 may render the output sound as multi-channel audio according to the location of the sound source SS140. For example, referring to FIG. 14 , the sound source SS140 may be located on the right side of the screen. Referring to FIG. 14B , in this case, the output sound may be rendered by adjusting the volume of the left channel LC to be small and the volume of the right channel RC to be large.
본 개시의 일 실시예는, 영상의 이미지로부터 적어도 하나의 음원(sound source)을 나타내는 음원 이미지를 분리하고, 영상의 음향을 동일한 음원에서의 발생 여부에 따라 유닛 음향 데이터로 분리함으로써, 입력 음향의 채널 개수와 관계 없이 음향을 처리할 수 있다. 또한, 분리된 유닛 음향 데이터를 단일한 채널 또는 멀티 채널로 렌더링함으로써, 입력 음향의 채널과 무관하게 출력 음향의 채널 개수를 조절할 수 있다. 본 개시의 일 실시예는, 분리된 음원 이미지와 유닛 음향 데이터를 각각 매칭시키고, 유닛 음향 데이터 각각의 음량(loudness)을 조정함으로써, 출력 영상의 음질을 향상시킬 수 있다.According to an embodiment of the present disclosure, by separating a sound source image representing at least one sound source from an image of an image, and separating the sound of an image into unit sound data according to whether or not the sound of the image is generated from the same sound source, the input sound is It can process sound regardless of the number of channels. In addition, by rendering the separated unit sound data as a single channel or multiple channels, it is possible to adjust the number of channels of the output sound regardless of the channel of the input sound. According to an embodiment of the present disclosure, the sound quality of the output image may be improved by matching the separated sound source image and unit sound data, respectively, and adjusting the loudness of each unit sound data.
뿐만 아니라, 본 개시의 일 실시예는, 모바일 디바이스에 포함된 입력부를 통해 영상을 촬영하고, 모바일 디바이스에 포함된 프로세서가 자동으로 촬영된 영상의 음향 처리를 수행함으로써, 음질의 향상을 위해 별도의 음향 장비가 요구되지 않고, 사용자가 수동으로 후처리 동작을 수행하지 않을 수 있다.In addition, an embodiment of the present disclosure captures an image through an input unit included in the mobile device, and a processor included in the mobile device automatically performs sound processing on the captured image, thereby No sound equipment is required, and the user may not manually perform post-processing operations.
본 개시의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 또는 프로그램 모듈과 같은 변조된 데이터 신호의 기타 데이터를 포함할 수 있다.An embodiment of the present disclosure may also be implemented in the form of a recording medium including instructions executable by a computer, such as a program module executed by a computer. Computer-readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media. Additionally, computer-readable media may include computer storage media and communication media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data. Communication media may typically include computer readable instructions, data structures, or other data in a modulated data signal such as program modules.
또한, 컴퓨터에 의해 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.In addition, the computer-readable storage medium may be provided in the form of a non-transitory storage medium. Here, 'non-transitory storage medium' is a tangible device and only means that it does not contain a signal (eg, electromagnetic wave). It does not distinguish the case where it is stored as For example, the 'non-transitory storage medium' may include a buffer in which data is temporarily stored.
일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두 개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.According to an embodiment, the method according to various embodiments disclosed in this document may be included and provided in a computer program product. Computer program products may be traded between sellers and buyers as commodities. The computer program product is distributed in the form of a device-readable storage medium (eg compact disc read only memory (CD-ROM)), or through an application store (eg Play Store™) or on two user devices (eg, It can be distributed (eg downloaded or uploaded) directly or online between smartphones (eg: smartphones). In the case of online distribution, at least a portion of the computer program product (eg, a downloadable app) is stored at least on a machine-readable storage medium, such as a memory of a manufacturer's server, a server of an application store, or a relay server. It may be temporarily stored or temporarily created.
또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.Also, in this specification, “unit” may be a hardware component such as a processor or circuit, and/or a software component executed by a hardware component such as a processor.
본 개시에 따른 인공지능과 관련된 기능은 프로세서와 메모리를 통해 동작된다. 프로세서는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.Functions related to artificial intelligence according to the present disclosure are operated through a processor and a memory. The processor may consist of one or a plurality of processors. In this case, one or more processors may be a general-purpose processor such as a CPU, an AP, a digital signal processor (DSP), or the like, a graphics-only processor such as a GPU, a VPU (Vision Processing Unit), or an artificial intelligence-only processor such as an NPU. One or a plurality of processors control to process input data according to a predefined operation rule or artificial intelligence model stored in the memory. Alternatively, when one or more processors are AI-only processors, the AI-only processor may be designed with a hardware structure specialized for processing a specific AI model.
기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.A predefined action rule or artificial intelligence model is characterized in that it is created through learning. Here, being made through learning means that a basic artificial intelligence model is learned using a plurality of learning data by a learning algorithm, so that a predefined action rule or artificial intelligence model set to perform a desired characteristic (or purpose) is created means burden. Such learning may be performed in the device itself on which artificial intelligence according to the present disclosure is performed, or may be performed through a separate server and/or system. Examples of the learning algorithm include, but are not limited to, supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning.
인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN(Convolutional Neural Network), DNN(Deep Neural Network), RNN(Recurrent Neural Network), RBM(Restricted Boltzmann Machine), DBN(Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크(Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.The artificial intelligence model may be composed of a plurality of neural network layers. Each of the plurality of neural network layers has a plurality of weight values, and a neural network operation is performed through an operation between the operation result of a previous layer and the plurality of weights. The plurality of weights of the plurality of neural network layers may be optimized by the learning result of the artificial intelligence model. For example, a plurality of weights may be updated so that a loss value or a cost value obtained from the artificial intelligence model during the learning process is reduced or minimized. The artificial neural network may include a deep neural network (DNN), for example, a Convolutional Neural Network (CNN), a Deep Neural Network (DNN), a Recurrent Neural Network (RNN), a Restricted Boltzmann Machine (RBM), There may be a Deep Belief Network (DBN), a Bidirectional Recurrent Deep Neural Network (BRDNN), or a Deep Q-Networks, but is not limited thereto.
인공지능 모델은 학습을 통해 만들어 질 수 있다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다.AI models can be created through learning. Here, being made through learning means that a basic artificial intelligence model is learned using a plurality of learning data by a learning algorithm, so that a predefined action rule or artificial intelligence model set to perform a desired characteristic (or purpose) is created means burden. The artificial intelligence model may be composed of a plurality of neural network layers. Each of the plurality of neural network layers has a plurality of weight values, and a neural network operation is performed through an operation between the operation result of a previous layer and the plurality of weights.
전술한 본 개시의 설명은 예시를 위한 것이며, 본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The description of the present disclosure described above is for illustration, and those of ordinary skill in the art to which the present disclosure pertains can understand that it can be easily modified into other specific forms without changing the technical spirit or essential features of the present disclosure. will be. Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive. For example, each component described as a single type may be implemented in a dispersed form, and likewise components described as distributed may be implemented in a combined form.
본 개시의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 개시의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present disclosure is indicated by the following claims rather than the above detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts should be interpreted as being included in the scope of the present disclosure. do.

Claims (15)

  1. 디바이스가 영상의 음질을 향상시키는 방법에 있어서,In a method for a device to improve the sound quality of an image,
    영상을 획득하는 단계;acquiring an image;
    상기 획득한 영상으로부터 음향(sound) 및 이미지(image)를 획득하는 단계;acquiring a sound and an image from the acquired image;
    상기 획득한 이미지로부터 적어도 하나의 음원(sound source)을 나타내는 음원 이미지를 획득하는 단계;obtaining a sound source image representing at least one sound source from the obtained image;
    상기 획득한 음향으로부터, 상기 적어도 하나의 음원에 대응하는 적어도 하나의 유닛 음향 데이터를 획득하는 단계;obtaining at least one unit sound data corresponding to the at least one sound source from the obtained sound;
    기 설정된 음향-이미지 매칭 모델을 적용하여, 상기 적어도 하나의 음원 이미지 및 상기 적어도 하나의 유닛 음향 데이터를 각각 매칭하는 단계;matching each of the at least one sound source image and the at least one unit sound data by applying a preset sound-image matching model;
    상기 음원 이미지로부터 상기 적어도 하나의 음원의 움직임을 추적하는 단계; 및tracking the movement of the at least one sound source from the sound source image; and
    상기 추적된 음원의 움직임에 따라 상기 유닛 음향 데이터의 음량(loudness)을 개별적으로 조정하는 단계;individually adjusting the loudness of the unit sound data according to the movement of the tracked sound source;
    를 포함하고,including,
    상기 음향-이미지 매칭 모델은 특정 음원의 이미지와 상기 특정 음원이 발생시키는 음향 간의 매칭 정보를 포함하는, 방법.The sound-image matching model includes matching information between an image of a specific sound source and a sound generated by the specific sound source.
  2. 제1항에 있어서,According to claim 1,
    상기 영상을 획득하는 단계는,The step of acquiring the image is
    상기 디바이스에 포함된 입력부를 통해 영상을 획득하는 것을 포함하고,Including acquiring an image through an input unit included in the device,
    상기 입력부는 음향(sound)을 획득하는 마이크 및 이미지(image)를 획득하는 카메라를 포함하는, 방법.The method of claim 1, wherein the input unit includes a microphone for acquiring a sound and a camera for acquiring an image.
  3. 제1항에 있어서,According to claim 1,
    상기 획득한 음향으로부터, 상기 적어도 하나의 음원에 대응하는 적어도 하나의 유닛 음향 데이터를 획득하는 단계는,Obtaining at least one unit sound data corresponding to the at least one sound source from the obtained sound,
    상기 음향을 진폭, 주파수, 위상, 파형 및 스펙트럼에 따라 적어도 하나의 유닛 음향 데이터로 분리하는 것을 포함하고,Separating the sound into at least one unit sound data according to amplitude, frequency, phase, waveform and spectrum,
    상기 진폭, 주파수, 위상, 파형 및 스펙트럼이 동일한 두 개 이상의 유닛 음향 데이터들이 존재하는 경우, 상기 음원 이미지를 이용하여 상기 두 개 이상의 유닛 음향 데이터를 각각의 유닛 음향 데이터로 분리하는 것을 포함하는, 방법.When two or more unit sound data having the same amplitude, frequency, phase, waveform and spectrum exist, using the sound source image to separate the two or more unit sound data into respective unit sound data, Method .
  4. 제1항에 있어서,According to claim 1,
    상기 기 설정된 음향-이미지 매칭 모델을 적용하여, 상기 적어도 하나의 음원 이미지 및 상기 적어도 하나의 유닛 음향 데이터를 각각 매칭하는 단계는,The step of matching the at least one sound source image and the at least one unit sound data by applying the preset sound-image matching model, respectively,
    상기 음원 이미지에서 획득한 정보를 추가로 이용하여 상기 적어도 하나 의 음원 이미지 및 상기 적어도 하나의 유닛 음향 데이터를 각각 매칭하는 것을 포함하는, 방법.Comprising matching each of the at least one sound source image and the at least one unit sound data using the information obtained from the sound source image, respectively.
  5. 제1항에 있어서,According to claim 1,
    상기 음원 이미지로부터 상기 적어도 하나의 음원의 움직임을 추적하는 단계는, 상기 음원 이미지의 상태 변화를 통해 해당 음원의 움직임을 추적하는 것을 포함하는, 방법.The step of tracking the movement of the at least one sound source from the sound source image includes tracking the movement of the sound source through a state change of the sound source image.
  6. 제1항에 있어서,According to claim 1,
    상기 추적된 음원의 움직임에 따라 상기 유닛 음향 데이터의 음량을 개별적으로 조정하는 단계는,The step of individually adjusting the volume of the unit sound data according to the movement of the tracked sound source,
    각각의 유닛 음향 데이터의 전체 실행 시간의 음량 곡선을 획득하는 단계;obtaining a volume curve of the total execution time of each unit sound data;
    상기 각각의 유닛 음향 데이터에 대해 수행할 조정 정보를 포함하는 음량 보정 곡선을 획득하는 단계; 및obtaining a volume correction curve including adjustment information to be performed for each of the unit sound data; and
    상기 음량 보정 곡선을 기반으로 상기 각각의 유닛 음향 데이터의 음량을 개별적으로 조정하는 단계를 포함하는, 방법.and individually adjusting the volume of each unit sound data based on the volume correction curve.
  7. 제1항에 있어서,According to claim 1,
    상기 음량이 개별적으로 조정된 유닛 음향 데이터를 두 개 이상의 채널로 분류하여 렌더링하고, 멀티 채널을 갖는 출력 음향을 획득하는 단계; 및classifying and rendering the unit sound data whose volume is individually adjusted into two or more channels, and obtaining an output sound having multiple channels; and
    상기 출력 음향 및 상기 이미지로부터 출력 영상을 획득하는 단계;obtaining an output image from the output sound and the image;
    를 더 포함하는, 방법.A method further comprising:
  8. 영상의 음질을 향상시키는 디바이스에 있어서,In the device for improving the sound quality of video,
    영상을 획득하는 입력부;an input unit for acquiring an image;
    출력 영상을 출력하는 출력부;an output unit for outputting an output image;
    하나 이상의 명령어들(instructions)을 포함하는 프로그램을 저장하는 메모리; 및a memory storing a program including one or more instructions; and
    상기 메모리에 저장된 하나 이상의 명령어들을 실행하는 적어도 하나의 프로세서를 포함하고,at least one processor executing one or more instructions stored in the memory;
    상기 적어도 하나의 프로세서는,The at least one processor,
    상기 입력부를 제어함으로써, 영상을 획득하고,By controlling the input unit, an image is obtained,
    상기 획득한 영상으로부터 음향(sound) 및 이미지(image)를 획득하고,Obtaining a sound and an image from the obtained image,
    상기 획득한 이미지로부터 적어도 하나의 음원(sound source)을 나타내는 음원 이미지를 획득하고,Obtaining a sound source image representing at least one sound source from the obtained image,
    상기 획득한 음향으로부터, 상기 적어도 하나의 음원에 대응하는 적어도 하나의 유닛 음향 데이터를 획득하고,Obtaining at least one unit sound data corresponding to the at least one sound source from the acquired sound,
    기 설정된 음향-이미지 매칭 모델을 적용하여, 상기 적어도 하나 의 음원 이미지 및 상기 적어도 하나의 유닛 음향 데이터를 각각 매칭하고,matching the at least one sound source image and the at least one unit sound data by applying a preset sound-image matching model,
    상기 음원 이미지로부터 상기 적어도 하나의 음원의 움직임을 추적하고,tracking the movement of the at least one sound source from the sound source image,
    상기 추적된 음원의 움직임에 따라 상기 유닛 음향 데이터의 음량(loudness)을 개별적으로 조정하고,Adjusting the volume (loudness) of the unit sound data individually according to the movement of the tracked sound source,
    상기 음향-이미지 매칭 모델은 특정 음원의 이미지와 상기 특정 음원이 발생시키는 음향 간의 매칭 정보를 포함하는, 디바이스.The sound-image matching model includes matching information between an image of a specific sound source and a sound generated by the specific sound source, a device.
  9. 제8항에 있어서,9. The method of claim 8,
    상기 프로세서는 상기 하나 이상의 명령어들을 실행하여,The processor executes the one or more instructions,
    상기 디바이스 외부의 보조 마이크를 통해 추가적인 음향을 획득하는, 디바이스.A device for acquiring additional sound through an auxiliary microphone external to the device.
  10. 제8항에 있어서,9. The method of claim 8,
    상기 프로세서는 상기 하나 이상의 명령어들을 실행하여,The processor executes the one or more instructions,
    상기 음향을 진폭, 주파수, 위상, 파형 및 스펙트럼에 따라 적어도 하나의 유닛 음향 데이터로 분리하고,Separating the sound into at least one unit sound data according to amplitude, frequency, phase, waveform and spectrum,
    상기 진폭, 주파수, 위상, 파형 및 스펙트럼이 전부 동일한 두 개 이상의 유닛 음향 데이터들이 존재하는 경우, 상기 음원 이미지를 이용하여 상기 두 개 이상의 유닛 음향 데이터를 각각의 유닛 음향 데이터로 분리함으로써,When two or more unit sound data having all the same amplitude, frequency, phase, waveform and spectrum exist, by separating the two or more unit sound data into each unit sound data using the sound source image,
    상기 획득한 음향으로부터, 상기 적어도 하나의 음원에 대응하는 적어도 하나의 유닛 음향 데이터를 획득하는, 디바이스.A device for acquiring at least one unit sound data corresponding to the at least one sound source from the acquired sound.
  11. 제8항에 있어서,9. The method of claim 8,
    상기 프로세서는 상기 하나 이상의 명령어들을 실행하여,The processor executes the one or more instructions,
    상기 음원 이미지에서 획득한 정보를 추가로 이용하여 상기 적어도 하나의 음원 이미지 및 상기 적어도 하나의 유닛 음향 데이터를 각각 매칭함으로써,By additionally matching the at least one sound source image and the at least one unit sound data using the information obtained from the sound source image,
    상기 기 설정된 음향-이미지 매칭 모델을 적용하여, 상기 적어도 하나 의 음원 이미지 및 상기 적어도 하나의 유닛 음향 데이터를 각각 매칭하는, 디바이스.A device for matching the at least one sound source image and the at least one unit sound data, respectively, by applying the preset sound-image matching model.
  12. 제8항에 있어서,9. The method of claim 8,
    상기 프로세서는 상기 하나 이상의 명령어들을 실행하여,The processor executes the one or more instructions,
    상기 음원 이미지의 상태 변화를 통해 해당 음원의 움직임을 추적하는, 디바이스.A device that tracks the movement of the sound source through the state change of the sound source image.
  13. 제8항에 있어서,9. The method of claim 8,
    상기 프로세서는 상기 하나 이상의 명령어들을 실행하여,The processor executes the one or more instructions,
    각각의 유닛 음향 데이터의 전체 실행 시간의 음량 곡선을 획득하고,Acquire the volume curve of the total running time of each unit sound data,
    상기 각각의 유닛 음향 데이터에 대해 수행할 조정 정보를 포함하는 음량 보정 곡선을 획득하고,Obtaining a volume correction curve including adjustment information to be performed for each of the unit sound data,
    상기 음량 보정 곡선을 기반으로 상기 각각의 유닛 음향 데이터의 음량을 개별적으로 조정함으로써,By individually adjusting the volume of each unit sound data based on the volume correction curve,
    상기 추적된 음원의 움직임에 따라 상기 유닛 음향 데이터의 음량을 개별적으로 조정하는, 디바이스.A device for individually adjusting the volume of the unit sound data according to the movement of the tracked sound source.
  14. 제8항에 있어서,9. The method of claim 8,
    상기 프로세서는 상기 하나 이상의 명령어들을 실행하여,The processor executes the one or more instructions,
    상기 음량이 개별적으로 조정된 유닛 음향 데이터를 두 개 이상의 채널로 분류하여 렌더링하고, 멀티 채널을 갖는 출력 음향을 획득하고,The unit sound data whose volume is individually adjusted is classified and rendered into two or more channels, and an output sound having a multi-channel is obtained,
    상기 출력 음향 및 상기 이미지로부터 출력 영상을 획득하는 것을 더 포함하는, 디바이스.The device further comprising obtaining an output image from the output sound and the image.
  15. 제1항 내지 제7항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.A computer-readable recording medium in which a program for executing the method of any one of claims 1 to 7 on a computer is recorded.
PCT/KR2021/002170 2020-09-15 2021-02-22 Device and method for enhancing sound quality of video WO2022059869A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0118500 2020-09-15
KR1020200118500A KR20220036210A (en) 2020-09-15 2020-09-15 Device and method for enhancing the sound quality of video

Publications (1)

Publication Number Publication Date
WO2022059869A1 true WO2022059869A1 (en) 2022-03-24

Family

ID=80776906

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/002170 WO2022059869A1 (en) 2020-09-15 2021-02-22 Device and method for enhancing sound quality of video

Country Status (2)

Country Link
KR (1) KR20220036210A (en)
WO (1) WO2022059869A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024124437A1 (en) * 2022-12-14 2024-06-20 惠州视维新技术有限公司 Video data processing method and apparatus, display device, and storage medium
CN118466884A (en) * 2023-10-31 2024-08-09 荣耀终端有限公司 Multimedia playing method and electronic equipment

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0772875A (en) * 1993-09-02 1995-03-17 Sega Enterp Ltd Image and sound processor
WO2006120829A1 (en) * 2005-05-13 2006-11-16 Matsushita Electric Industrial Co., Ltd. Mixed sound separating device
KR101561843B1 (en) * 2014-05-13 2015-10-20 (주) 로임시스템 Audio system for echo cancelation matched sound pickup area
KR20180050652A (en) * 2015-07-24 2018-05-15 사운드오브젝트 테크놀로지스 에스.에이 Method and system for decomposing sound signals into sound objects, sound objects and uses thereof
US20200288256A1 (en) * 2019-03-08 2020-09-10 Lg Electronics Inc. Method and apparatus for sound object following

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0772875A (en) * 1993-09-02 1995-03-17 Sega Enterp Ltd Image and sound processor
WO2006120829A1 (en) * 2005-05-13 2006-11-16 Matsushita Electric Industrial Co., Ltd. Mixed sound separating device
KR101561843B1 (en) * 2014-05-13 2015-10-20 (주) 로임시스템 Audio system for echo cancelation matched sound pickup area
KR20180050652A (en) * 2015-07-24 2018-05-15 사운드오브젝트 테크놀로지스 에스.에이 Method and system for decomposing sound signals into sound objects, sound objects and uses thereof
US20200288256A1 (en) * 2019-03-08 2020-09-10 Lg Electronics Inc. Method and apparatus for sound object following

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024124437A1 (en) * 2022-12-14 2024-06-20 惠州视维新技术有限公司 Video data processing method and apparatus, display device, and storage medium
CN118466884A (en) * 2023-10-31 2024-08-09 荣耀终端有限公司 Multimedia playing method and electronic equipment

Also Published As

Publication number Publication date
KR20220036210A (en) 2022-03-22

Similar Documents

Publication Publication Date Title
WO2022059869A1 (en) Device and method for enhancing sound quality of video
WO2016117836A1 (en) Apparatus and method for editing content
WO2019139301A1 (en) Electronic device and subtitle expression method thereof
WO2019125029A1 (en) Electronic device for displaying object for augmented reality and operation method therefor
WO2018056624A1 (en) Electronic device and control method thereof
WO2019124963A1 (en) Speech recognition device and method
WO2013019022A2 (en) Method and apparatus for processing audio signal
EP2901204A1 (en) Glasses apparatus and method for controlling glasses apparatus, audio apparatus and method for providing audio signal and display apparatus
WO2020017798A1 (en) A method and system for musical synthesis using hand-drawn patterns/text on digital and non-digital surfaces
WO2010087630A2 (en) A method and an apparatus for decoding an audio signal
EP3891729A1 (en) Method and apparatus for performing speech recognition with wake on voice
WO2021060680A1 (en) Methods and systems for recording mixed audio signal and reproducing directional audio
WO2016089047A1 (en) Method and device for providing content
EP3707678A1 (en) Method and device for processing image
WO2018012727A1 (en) Display apparatus and recording medium
WO2019190142A1 (en) Method and device for processing image
WO2022010177A1 (en) Device and method for generating summary video
WO2021060575A1 (en) Artificial intelligence server and operation method thereof
WO2022169039A1 (en) Electronic apparatus and controlling method thereof
WO2021010562A1 (en) Electronic apparatus and controlling method thereof
WO2020096406A1 (en) Method for generating sound, and devices for performing same
WO2020101174A1 (en) Method and apparatus for generating personalized lip reading model
WO2022177211A1 (en) Video quality assessment method and device on basis of existence and non-existence of audio
WO2024043514A1 (en) Electronic device for controlling audio device on basis of image context, and method for operating same
WO2024172326A1 (en) Audio separation method and electronic device for performing same

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21869493

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21869493

Country of ref document: EP

Kind code of ref document: A1