KR20220036210A - Device and method for enhancing the sound quality of video - Google Patents

Device and method for enhancing the sound quality of video Download PDF

Info

Publication number
KR20220036210A
KR20220036210A KR1020200118500A KR20200118500A KR20220036210A KR 20220036210 A KR20220036210 A KR 20220036210A KR 1020200118500 A KR1020200118500 A KR 1020200118500A KR 20200118500 A KR20200118500 A KR 20200118500A KR 20220036210 A KR20220036210 A KR 20220036210A
Authority
KR
South Korea
Prior art keywords
sound
image
unit
sound source
sound data
Prior art date
Application number
KR1020200118500A
Other languages
Korean (ko)
Inventor
제이쿱 카주크
피오트르 자르네키
그루지고르 그루지악
슬로보미르 카프카
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020200118500A priority Critical patent/KR20220036210A/en
Priority to PCT/KR2021/002170 priority patent/WO2022059869A1/en
Publication of KR20220036210A publication Critical patent/KR20220036210A/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • User Interface Of Digital Computer (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

영상의 음질을 향상시키는 디바이스 및 방법이 제공된다. 디바이스가 영상의 음질을 향상시키는 방법은, 영상을 획득하는 단계; 상기 획득한 영상으로부터 음향(sound) 및 이미지(image)를 획득하는 단계; 상기 획득한 이미지로부터 적어도 하나의 음원(sound source)을 나타내는 음원 이미지를 획득하는 단계; 상기 획득한 음향으로부터, 상기 적어도 하나의 음원에 대응하는 적어도 하나의 유닛 음향 데이터를 획득하는 단계; 기 설정된 음향-이미지 매칭 모델을 적용하여, 상기 적어도 하나의 음원 이미지 및 상기 적어도 하나의 유닛 음향 데이터를 각각 매칭하는 단계; 상기 음원 이미지로부터 상기 적어도 하나의 음원의 움직임을 추적하는 단계; 및 상기 추적된 음원의 움직임에 따라 상기 유닛 음향 데이터의 음량(loudness)을 개별적으로 조정하는 단계를 포함할 수 있다.A device and method for improving the sound quality of an image are provided. A method for a device to improve the sound quality of an image includes acquiring an image; Obtaining sound and image from the acquired image; Obtaining a sound source image representing at least one sound source from the acquired image; Obtaining at least one unit sound data corresponding to the at least one sound source from the acquired sound; Applying a preset sound-image matching model to match the at least one sound source image and the at least one unit sound data; tracking the movement of the at least one sound source from the sound source image; and individually adjusting the loudness of the unit sound data according to the movement of the tracked sound source.

Figure P1020200118500
Figure P1020200118500

Description

영상의 음질을 향상시키는 디바이스 및 방법{DEVICE AND METHOD FOR ENHANCING THE SOUND QUALITY OF VIDEO}Device and method for improving the sound quality of video {DEVICE AND METHOD FOR ENHANCING THE SOUND QUALITY OF VIDEO}

본 개시는 영상의 음질을 향상시키는 디바이스 및 방법에 대한 것으로서, 보다 상세하게는, 음향을 음원 별로 분리하고, 분리된 유닛 음향 데이터의 음량을 개별적으로 조절함으로써 전체적인 영상의 음질을 향상시키는 디바이스 및 방법에 관한 것이다.The present disclosure relates to a device and method for improving the sound quality of an image, and more specifically, to a device and method for improving the overall sound quality of an image by separating sound by sound source and individually adjusting the volume of the separated unit sound data. It's about.

영상 촬영은 주변 세계를 포착하는 동작이다. 카메라가 장착된 모든 최신 모바일 디바이스에는 영상 촬영 기능이 있다. 스마트 폰 등의 모바일 디바이스가 널리 보급됨에 따라, 개개인이 영상을 촬영하고 감상하는 경우가 늘고 있다. 오랜 시간에 걸쳐 모바일 디바이스를 통한 영상 기록의 품질이 개선되었으나, 대부분은 녹화된 시각적 이미지의 품질 향상 또는 시각적인 사용자 경험의 개선에 중점을 두고 있다. 이에 반해, 음향의 품질 개선에 대해서는 거의 다루지 않고 있다.Videography is the act of capturing the world around us. All modern mobile devices equipped with cameras have video recording capabilities. As mobile devices such as smart phones become widely available, the number of individuals filming and watching videos is increasing. Although the quality of video recording through mobile devices has improved over time, most of the focus has been on improving the quality of recorded visual images or improving the visual user experience. In contrast, there is little discussion of improving the quality of sound.

또한, 모바일 디바이스의 보급으로, 자택 안에서 티비(TV)를 통해 모두가 함께 동일한 영상을 시청하는 것보다, 대중 교통 안에서 이동중일 때, 사무실에서, 또는 화장실에서 개개인의 시청자가 서로 다른 영상을 각자의 모바일 디바이스로 시청하는 경우가 많다. 개인 모바일 디바이스를 이용해 영상을 시청할 경우, 주변에 방해가 되지 않도록 하고, 영상에 집중하기 위해 헤드셋(headset) 또는 이어폰(earphone)을 일반적으로 사용한다. 헤드셋 및 이어폰은 좌측과 우측에서 재생되는 음향이 서로 다른 스테레오(stereo) 형식의 음향을 지원한다. 따라서, 단일한 마이크를 통해 모노 오디오로 녹음된 음향의 경우에도, 음질 개선을 위해 스테레오 형식 또는 다른 멀티 채널 형식으로 변환하는 것이 필요하다.Additionally, with the spread of mobile devices, rather than everyone watching the same video on TV at home, individual viewers can watch different videos while moving on public transportation, in the office, or in the bathroom. It is often watched on mobile devices. When watching a video using a personal mobile device, a headset or earphone is generally used to avoid disturbing others and to focus on the video. Headsets and earphones support stereo sound with different sounds played on the left and right sides. Therefore, even in the case of sound recorded as mono audio through a single microphone, it is necessary to convert it to stereo format or other multi-channel format to improve sound quality.

일반적인 모바일 디바이스에서는, 영상의 음질 개선을 위해 내장된 마이크 이외에 샷건(shotgun) 마이크, 라펠(lapel) 마이크 등의 별도의 마이크를 사용하거나, 촬영을 마친 후 영상을 컴퓨터 등의 기기로 옮겨 비디오 압축, 노이즈 제거 등의 별도의 수동 후처리 동작을 통한다. 별도의 전문적인 마이크 장비는 고가이며, 촬영 시마다 지참해야 하는 불편함이 있다. 음질 개선을 위한 별도의 후처리 공정은 영상 편집 프로그램 및 프로그램을 다룰 수 있는 전문적인 지식이 필요하고, 화면이 작은 스마트 폰 등의 모바일 디바이스에서 직접 영상을 편집하기 힘들다. 따라서, 스마트 폰으로 영상을 촬영하고 배포하려는 일반적인 사용자가 영상의 음질을 개선시키기는 용이하지 않다.In general mobile devices, in order to improve the sound quality of the video, in addition to the built-in microphone, a separate microphone such as a shotgun microphone or lapel microphone is used, or after filming, the video is transferred to a device such as a computer to compress the video. This is done through separate manual post-processing operations such as noise removal. Separate professional microphone equipment is expensive, and it is inconvenient to have to bring it with you every time you shoot. A separate post-processing process to improve sound quality requires professional knowledge of video editing programs and programs, and it is difficult to edit video directly on mobile devices such as smartphones with small screens. Therefore, it is not easy for general users who want to shoot and distribute video with a smart phone to improve the sound quality of the video.

이에 따라, 별도의 음향 장비가 요구되지 않고, 별도의 후처리 동작이 필요하지 않으면서도, 스마트 폰 등의 모바일 디바이스에 포함된 카메라 및 마이크를 통해 촬영한 영상의 음질을 모바일 디바이스 내에서 자동으로 개선할 수 있는 기술이 요구된다.Accordingly, the sound quality of images captured through cameras and microphones included in mobile devices such as smart phones is automatically improved within the mobile device, without requiring separate audio equipment or requiring separate post-processing operations. Skills that can do it are required.

본 개시의 일 실시예는, 영상의 이미지로부터 적어도 하나의 음원(sound source)을 나타내는 음원 이미지를 획득하고, 영상의 음향을 동일한 음원에서의 발생 여부에 따라 유닛 음향 데이터로 분리하고, 음원 이미지와 유닛 음향 데이터를 각각 매칭시키고, 유닛 음향 데이터 각각의 음량(loudness)을 조정함으로써, 입력 음향의 채널 개수와 관계 없이 출력 음향의 채널 개수를 조절할 수 있고, 출력 영상의 음질을 향상시킬 수 있는 디바이스 및 방법을 제공할 수 있다.In one embodiment of the present disclosure, a sound source image representing at least one sound source is obtained from a video image, the sound of the video is separated into unit sound data depending on whether it occurs from the same sound source, and the sound source image and A device that can adjust the number of channels of output sound regardless of the number of channels of input sound and improve the sound quality of output video by matching unit sound data and adjusting the loudness of each unit sound data, and A method can be provided.

또한, 본 개시의 일 실시예는, 모바일 디바이스에 포함된 입력부를 통해 영상을 촬영하고, 모바일 디바이스에 포함된 프로세서가 자동으로 촬영된 영상의 음향 처리를 수행함으로써, 음질의 향상을 위해 별도의 음향 장비가 요구되지 않고, 사용자가 수동으로 후처리 동작을 수행하지 않을 수 있는 디바이스 및 방법을 제공할 수 있다.In addition, in one embodiment of the present disclosure, an image is captured through an input unit included in a mobile device, and a processor included in the mobile device automatically performs sound processing of the captured image, thereby providing separate sound to improve sound quality. Devices and methods may be provided in which no equipment is required and the user does not manually perform post-processing operations.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서 개시된, 디바이스가 영상의 음질을 향상시키는 방법은, 영상을 획득하는 단계; 상기 획득한 영상으로부터 음향(sound) 및 이미지(image)를 획득하는 단계; 상기 획득한 이미지로부터 적어도 하나의 음원(sound source)을 나타내는 음원 이미지를 획득하는 단계; 상기 획득한 음향으로부터, 상기 적어도 하나의 음원에 대응하는 적어도 하나의 유닛 음향 데이터를 획득하는 단계; 기 설정된 음향-이미지 매칭 모델을 적용하여, 상기 적어도 하나의 음원 이미지 및 상기 적어도 하나의 유닛 음향 데이터를 각각 매칭하는 단계; 상기 음원 이미지로부터 상기 적어도 하나의 음원의 움직임을 추적하는 단계; 및 상기 추적된 음원의 움직임에 따라 상기 유닛 음향 데이터의 음량(loudness)을 개별적으로 조정하는 단계를 포함할 수 있다. 상기 음향-이미지 매칭 모델은 특정 음원의 이미지와 상기 특정 음원이 발생시키는 음향 간의 매칭 정보를 포함할 수 있다.A method of improving the sound quality of an image by a device, disclosed as a technical means for achieving the above-described technical problem, includes the steps of acquiring an image; Obtaining sound and image from the acquired image; Obtaining a sound source image representing at least one sound source from the acquired image; Obtaining at least one unit sound data corresponding to the at least one sound source from the acquired sound; Applying a preset sound-image matching model to match the at least one sound source image and the at least one unit sound data; tracking the movement of the at least one sound source from the sound source image; and individually adjusting the loudness of the unit sound data according to the movement of the tracked sound source. The sound-image matching model may include matching information between the image of a specific sound source and the sound generated by the specific sound source.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서 개시된, 디바이스는, 영상을 획득하는 입력부; 출력 영상을 출력하는 출력부; 하나 이상의 명령어들(instructions)을 포함하는 프로그램을 저장하는 메모리; 및 상기 메모리에 저장된 하나 이상의 명령어들을 실행하는 적어도 하나의 프로세서를 포함할 수 있다. 상기 적어도 하나의 프로세서는, 상기 입력부를 제어함으로써, 영상을 획득하고, 상기 획득한 영상으로부터 음향(sound) 및 이미지(image)를 획득하고, 상기 획득한 이미지로부터 적어도 하나의 음원(sound source)을 나타내는 음원 이미지를 획득하고, 상기 획득한 음향으로부터, 상기 적어도 하나의 음원에 대응하는 적어도 하나의 유닛 음향 데이터를 획득하고, 기 설정된 음향-이미지 매칭 모델을 적용하여, 상기 적어도 하나의 음원 이미지 및 상기 적어도 하나의 유닛 음향 데이터를 각각 매칭하고, 상기 음원 이미지로부터 상기 적어도 하나의 음원의 움직임을 추적하고, 상기 추적된 음원의 움직임에 따라 상기 유닛 음향 데이터의 음량(loudness)을 개별적으로 조정할 수 있다. 상기 음향-이미지 매칭 모델은 특정 음원의 이미지와 상기 특정 음원이 발생시키는 음향 간의 매칭 정보를 포함할 수 있다.A device disclosed as a technical means for achieving the above-described technical problem includes an input unit for acquiring an image; An output unit that outputs an output image; Memory that stores a program containing one or more instructions; and at least one processor executing one or more instructions stored in the memory. The at least one processor controls the input unit to obtain an image, acquire sound and an image from the acquired image, and generate at least one sound source from the acquired image. Acquire a sound source image representing the sound source, obtain at least one unit sound data corresponding to the at least one sound source from the acquired sound, and apply a preset sound-image matching model to obtain the at least one sound source image and the It is possible to match at least one unit sound data, track the movement of the at least one sound source from the sound source image, and individually adjust the loudness of the unit sound data according to the movement of the tracked sound source. The sound-image matching model may include matching information between the image of a specific sound source and the sound generated by the specific sound source.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 컴퓨터로 읽을 수 있는 기록매체는, 개시된 방법의 실시예들 중에서 적어도 하나를 컴퓨터에서 실행시키기 위한 프로그램이 저장된 것일 수 있다.As a technical means for achieving the above-described technical problem, a computer-readable recording medium may store a program for executing at least one of the embodiments of the disclosed method on a computer.

도 1은 본 개시의 일 실시예에 따른 디바이스가 영상의 음질을 향상시키는 방법의 개요도이다.
도 2는 본 개시의 일 실시예에 따른 디바이스의 블록도이다.
도 3은 본 개시의 일 실시예에 따른 영상의 음질을 향상시키는 방법의 흐름도이다.
도 4는 본 개시의 일 실시예에 따른 영상의 음질을 향상시키는 방법의 흐름도이다.
도 5는 본 개시의 일 실시예에 따른 디바이스가 보조 입력부를 통해 추가적인 음향을 획득하는 동작을 설명하기 위한 도면이다.
도 6은 본 개시의 일 실시예에 따른 디바이스가 이미지로부터 적어도 하나의 음원 이미지를 획득하는 동작을 설명하기 위한 도면이다.
도 7은 본 개시의 일 실시예에 따른 디바이스가 음향으로부터 적어도 하나의 유닛 음향 데이터를 획득하는 동작을 설명하기 위한 도면이다.
도 8은 본 개시의 일 실시예에 따른 디바이스가 음원 이미지에 따라 음향을 분리하고, 분리된 유닛 음향 데이터를 각각의 음원 이미지에 매칭하는 동작을 설명하기 위한 도면이다.
도 9는 본 개시의 일 실시예에 따른 디바이스가 추적된 음원의 움직임에 따라 유닛 음향 데이터의 음량을 개별적으로 조정하는 동작의 구체적인 실시예를 설명하기 위한 도면이다.
도 10a는 본 개시의 일 실시예에 따른 디바이스가 멀티 채널을 갖는 출력 음향을 획득하는 예시를 나타내는 도면이다.
도 10b는 본 개시의 일 실시예에 따른 디바이스가 멀티 채널을 갖는 출력 음향을 획득하는 예시를 나타내는 도면이다.
도 10c는 본 개시의 일 실시예에 따른 디바이스가 멀티 채널을 갖는 출력 음향을 획득하는 예시를 나타내는 도면이다.
도 11은 본 개시의 일 실시예에 따른 디바이스가 유닛 음향 데이터의 음량을 개별적으로 조정하는 예시를 나타내는 도면이다.
도 12는 본 개시의 일 실시예에 따른 디바이스가 추적된 음원의 움직임에 따라 유닛 음향 데이터의 음량을 개별적으로 조정하는 예시를 나타내는 도면이다.
도 13은 본 개시의 일 실시예에 따른 디바이스가 추적된 음원의 움직임에 따라 유닛 음향 데이터의 음량을 조정하고, 조정된 유닛 음향 데이터로부터 멀티 채널을 갖는 출력 음향을 획득하는 예시를 나타내는 도면이다.
도 14는 본 개시의 일 실시예에 따른 디바이스가 보조 입력부를 통해 추가적인 음향을 획득하고, 멀티 채널을 갖는 출력 음향을 획득하는 예시를 나타내는 도면이다.
1 is a schematic diagram of a method by which a device improves the sound quality of an image according to an embodiment of the present disclosure.
Figure 2 is a block diagram of a device according to an embodiment of the present disclosure.
Figure 3 is a flowchart of a method for improving the sound quality of an image according to an embodiment of the present disclosure.
Figure 4 is a flowchart of a method for improving the sound quality of an image according to an embodiment of the present disclosure.
FIG. 5 is a diagram illustrating an operation of a device acquiring additional sound through an auxiliary input unit according to an embodiment of the present disclosure.
FIG. 6 is a diagram illustrating an operation of a device acquiring at least one sound source image from an image according to an embodiment of the present disclosure.
FIG. 7 is a diagram illustrating an operation in which a device acquires at least one unit sound data from sound according to an embodiment of the present disclosure.
FIG. 8 is a diagram illustrating an operation in which a device according to an embodiment of the present disclosure separates sound according to a sound source image and matches the separated unit sound data to each sound source image.
FIG. 9 is a diagram illustrating a specific example of an operation in which a device individually adjusts the volume of unit sound data according to the movement of a tracked sound source according to an embodiment of the present disclosure.
FIG. 10A is a diagram illustrating an example of a device acquiring output sound having multi-channels according to an embodiment of the present disclosure.
FIG. 10B is a diagram illustrating an example of a device obtaining output sound having multi-channels according to an embodiment of the present disclosure.
FIG. 10C is a diagram illustrating an example in which a device according to an embodiment of the present disclosure obtains output sound having multiple channels.
FIG. 11 is a diagram illustrating an example in which a device individually adjusts the volume of unit sound data according to an embodiment of the present disclosure.
FIG. 12 is a diagram illustrating an example in which a device individually adjusts the volume of unit sound data according to the movement of a tracked sound source according to an embodiment of the present disclosure.
FIG. 13 is a diagram illustrating an example in which a device according to an embodiment of the present disclosure adjusts the volume of unit sound data according to the movement of a tracked sound source and obtains output sound with multi-channel from the adjusted unit sound data.
FIG. 14 is a diagram illustrating an example in which a device according to an embodiment of the present disclosure obtains additional sound through an auxiliary input unit and obtains output sound having multiple channels.

아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.Below, with reference to the attached drawings, embodiments of the present disclosure will be described in detail so that those skilled in the art can easily implement the present disclosure. However, the present disclosure may be implemented in many different forms and is not limited to the embodiments described herein. In order to clearly explain the present disclosure in the drawings, parts that are not related to the description are omitted, and similar parts are given similar reference numerals throughout the specification.

본 개시의 실시예들에서 사용되는 용어는 본 개시의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.The terms used in the embodiments of the present disclosure have selected general terms that are currently widely used as much as possible while considering the function of the present disclosure, but this may vary depending on the intention or precedent of a person working in the art, the emergence of new technology, etc. . In addition, in certain cases, there are terms arbitrarily selected by the applicant, and in this case, the meaning will be described in detail in the description of the relevant embodiment. Therefore, the terms used in this specification should be defined based on the meaning of the term and the overall content of the present disclosure, rather than simply the name of the term.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 명세서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. Singular expressions may include plural expressions, unless the context clearly indicates otherwise. Terms used herein, including technical or scientific terms, may have the same meaning as generally understood by a person of ordinary skill in the technical field described herein.

본 개시 전체에서 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 본 명세서에 기재된 “...부”, “...모듈” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.Throughout the present disclosure, when a part “includes” a certain element, this means that it may further include other elements rather than excluding other elements, unless specifically stated to the contrary. In addition, terms such as “... unit” and “... module” used in this specification refer to a unit that processes at least one function or operation, which is implemented as hardware or software or as a combination of hardware and software. It can be implemented.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.Throughout the specification, when a part is said to be "connected" to another part, this includes not only the case where it is "directly connected," but also the case where it is "electrically connected" with another element in between. . Additionally, when a part "includes" a certain component, this means that it may further include other components rather than excluding other components, unless specifically stated to the contrary.

본 명세서에서 사용된 표현 “~하도록 구성된(또는 설정된)(configured to)”은 상황에 따라, 예를 들면, “~에 적합한(suitable for)”, “~하는 능력을 가지는(having the capacity to)”, “~하도록 설계된(designed to)”, “~하도록 변경된(adapted to)”, “~하도록 만들어진(made to)”, 또는 “~를 할 수 있는(capable of)”과 바꾸어 사용될 수 있다. 용어 “~하도록 구성된(또는 설정된)”은 하드웨어적으로 “특별히 설계된(specifically designed to)” 것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, “~하도록 구성된 시스템”이라는 표현은, 그 시스템이 다른 장치 또는 부품들과 함께 “~할 수 있는” 것을 의미할 수 있다. 예를 들면, 문구 “A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서”는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.The expression “configured to” used in this specification may mean, for example, “suitable for,” “having the capacity to,” depending on the situation. ”, “designed to”, “adapted to”, “made to”, or “capable of”. The term “configured (or set to)” may not necessarily mean “specifically designed to” in hardware. Instead, in some situations, the expression “system configured to” may mean that the system is “able to” work with other devices or components. For example, the phrase “processor configured (or set) to perform A, B, and C” refers to a processor dedicated to performing the operations (e.g., an embedded processor), or by executing one or more software programs stored in memory. It may refer to a general-purpose processor (e.g., CPU or application processor) that can perform the corresponding operations.

본 개시에서 ‘영상(video)’은 청각적 소리 및 시각적 화면을 포함하는 시청각 자료를 의미한다. 영상의 시각적 구성은 ‘이미지(image)’, ‘시각 데이터(visual data)’ 또는 ‘그림(picture)’으로 기술될 수 있고, 영상의 청각적 구성은 ‘오디오(audio)’, ‘음향(sound)’, ‘어쿠스틱(acoustic)’ 또는 ‘음향 데이터(sound data)’로 기술될 수 있다.In this disclosure, ‘video’ refers to audio-visual material including auditory sounds and visual screens. The visual composition of a video can be described as ‘image’, ‘visual data’ or ‘picture’, and the auditory composition of a video can be described as ‘audio’ or ‘sound’. )', 'acoustic', or 'sound data'.

본 개시에서 ‘음질(sound quality)’은 소리의 품질을 의미한다. 음질은 다양한 음향적 요소에 따라 달라질 수 있다. 예를 들어, 노이즈의 많고 적음이 음질의 기준이 될 수도 있고, 소리의 주파수 평탄 정도, 음량의 평탄 정도에 따라 음질이 달라질 수 있다.In this disclosure, ‘sound quality’ refers to the quality of sound. Sound quality may vary depending on various acoustic factors. For example, the amount of noise may be the standard for sound quality, and the sound quality may vary depending on the flatness of the frequency and volume of the sound.

본 개시에서 ‘음원(sound source)’은 소리가 발생하는 소리의 근원을 의미한다. 예를 들어, 사람, 동물, 각종 악기(musical instruments) 또는 어떠한 물체도 그로부터 소리가 발생한다면 음원이 될 수 있다.In this disclosure, ‘sound source’ refers to the source of sound from which sound is generated. For example, people, animals, musical instruments, or any object can be a sound source if sound is generated therefrom.

본 개시에서 ‘특정 음원에 대응하는 음향’은 해당 특정 음원으로부터 발생한 음향을 의미한다. 예를 들어, 특정 사람에 대응하는 음향이란 해당 사람이 낸 목소리를 의미하고, 특정 동물에 대응하는 음향은 해당 동물의 울음소리를 의미할 수 있다.In this disclosure, ‘sound corresponding to a specific sound source’ refers to a sound generated from that specific sound source. For example, a sound corresponding to a specific person may refer to the voice made by that person, and a sound corresponding to a specific animal may refer to the animal's cry.

본 개시에서 ‘화면 범위(screen area)’는 영상의 시각적 화면이 표시(디스플레이)되는 스크린 상의 영역을 의미한다. 예를 들어, 화면 범위는 특정 시점에 영상에서 캡쳐된 이미지의 테두리로 정의되는 영역일 수 있다.In this disclosure, ‘screen area’ refers to the area on the screen where the visual screen of the image is displayed. For example, the screen range may be an area defined by the border of an image captured from a video at a specific point in time.

본 개시에서 ‘모노(monaural, monophonic: mono)’ 오디오는, 1개의 채널로 구성된 오디오를 의미한다. 모노 오디오는 하나의 마이크를 통한 녹음이며, 하나의 스피커를 통해서 듣는 소리가 이에 해당할 수 있다. 여러 개의 스피커를 통해 녹음 또는 재생되는 음향이더라도, 1개의 채널로만 음향이 연결되어 있다면 모노 오디오가 될 수 있다. 모노 오디오에서는 연결된 모든 스피커에서 동일한 음향이 재생된다.In this disclosure, ‘monaural, monophonic: mono’ audio refers to audio consisting of one channel. Mono audio is recording through one microphone, and may correspond to the sound heard through one speaker. Even if the sound is recorded or played through multiple speakers, it can be mono audio if the sound is connected to only one channel. In mono audio, the same sound is played from all connected speakers.

본 개시에서 ‘멀티 채널(multi-channel)’ 오디오는 2개 이상의 채널로 구성된 오디오를 의미한다. 예를 들어, 멀티 채널 오디오의 일종인 스테레오(stereo) 오디오는 하나의 스피커를 통해 듣는 경우, 2개의 채널의 신호가 합성되어 하나로 재생되지만, 두 개의 스피커(예를 들어 헤드셋(headset), 이어폰(earphone) 등)를 통해 재생할 경우, 양쪽의 스피커에서 서로 다른 음향이 재생되며, 모노 오디오에 비해 공간감 있고 풍부한 소리를 재생할 수 있다.In this disclosure, ‘multi-channel’ audio refers to audio consisting of two or more channels. For example, when stereo audio, a type of multi-channel audio, is listened to through one speaker, signals from two channels are synthesized and played as one, but it is played through two speakers (e.g., headset, earphones). When playing through an earphone, etc., different sounds are played from both speakers, and the sound can be reproduced with a sense of space and richness compared to mono audio.

이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.Hereinafter, the present disclosure will be described in detail with reference to the attached drawings.

도 1은 본 개시의 일 실시예에 따른 디바이스(1000)가 영상의 음질을 향상시키는 방법의 개요도이다.Figure 1 is a schematic diagram of a method by which a device 1000 improves the sound quality of an image according to an embodiment of the present disclosure.

도 1을 참조하면, 디바이스(1000)에 입력된 영상은 이미지(110) 및 음향(150) 을 포함할 수 있다. 일 실시예에서, 이미지(110)는 카메라 등의 입력 장치를 통해 녹화될 수 있고, 음향(150)은 마이크 등의 입력 장치를 통해 녹음될 수 있다. 디바이스(1000)는 녹화된 이미지(110)로부터 개별 음원으로 분리된 음원 이미지(SS1, SS2, SS3)들을 획득할 수 있다. 일 실시예에서, 음원 이미지는 화자(사람)(SS1, SS2) 및 배경(예를 들어, 대화자가 아닌 사람, 책상, 의자, 종이 및 배경 이미지를 포함)(SS3)으로 나뉘어질 수 있다.Referring to FIG. 1, an image input to the device 1000 may include an image 110 and sound 150. In one embodiment, image 110 may be recorded through an input device such as a camera, and sound 150 may be recorded through an input device such as a microphone. The device 1000 may obtain sound source images SS1, SS2, and SS3 separated into individual sound sources from the recorded image 110. In one embodiment, the sound source image may be divided into a speaker (person) (SS1, SS2) and a background (eg, including a person other than the speaker, a desk, a chair, paper, and background images) (SS3).

디바이스(1000)는 음향(150)을 각각의 음원에서 발생되는 소리로 나눈 유닛 음향 데이터 세트(160)를 획득할 수 있다. 일 실시예에서, 디바이스(1000)는 분리된 유닛 음향 데이터 세트(160)를 사람의 목소리(UA1, UA2) 또는 배경음(노이즈)(UA3)으로 분류할 수 있다.The device 1000 may obtain a unit sound data set 160 that divides the sound 150 into sounds generated from each sound source. In one embodiment, the device 1000 may classify the separated unit sound data set 160 into human voices (UA1, UA2) or background sounds (noise) (UA3).

디바이스(1000)는 기 설정된 음향-이미지 매칭 모델을 적용하여, 분류된 유닛 음향 데이터 세트(160)를 분리된 음원 이미지(SS1, SS2, SS3)에 각각 매칭할 수 있다. 예를 들어, 사람의 목소리로 분류된 유닛 음향 데이터(UA1, UA2)를 사람으로 판단된 음원 이미지(SS1, SS2)에 매칭시킬 수 있으며, 그 밖의 소리들(UA3)은 배경 이미지(SS3)에 매칭시킬 수 있다. 둘 이상의 사람이 대화하고 있는 경우, 디바이스(1000)는 음향-이미지 매칭 모델에 포함된 ‘사람의 얼굴 및 해당 얼굴에 대응되는 목소리’ 정보를 통해, 분리된 유닛 음향 데이터(UA1, UA2)를 각각의 음원 이미지(SS1, SS2)에 매칭시킬 수 있다.The device 1000 may apply a preset sound-image matching model to match the classified unit sound data set 160 to the separated sound source images SS1, SS2, and SS3. For example, unit sound data (UA1, UA2) classified as a human voice can be matched to sound source images (SS1, SS2) determined to be human, and other sounds (UA3) can be matched to the background image (SS3). It can be matched. When two or more people are talking, the device 1000 separates the separated unit sound data (UA1, UA2) through the 'person's face and voice corresponding to the face' information included in the sound-image matching model. It can be matched to the sound source images (SS1, SS2).

디바이스(1000)는, 분리된 유닛 음향 데이터(UA1, UA2, UA3) 각각의 음량을 개별적으로 조정할 수 있다. 예를 들어, 노이즈에 해당하는 유닛 음향 데이터 UA3의 경우 음량을 줄일 수 있고, 화자의 대화에 해당하는 유닛 음향 데이터(UA1, UA2)의 음량은 입력 신호에 대응하는 레벨 또는 기 설정된 레벨로 조정할 수 있다.The device 1000 can individually adjust the volume of each of the separated unit sound data (UA1, UA2, and UA3). For example, the volume of unit sound data UA3 corresponding to noise can be reduced, and the volume of unit sound data (UA1, UA2) corresponding to the speaker's conversation can be adjusted to the level corresponding to the input signal or to a preset level. there is.

디바이스(1000)는, 조정된 각각의 유닛 음향 데이터로부터 출력 음향(170)을 재합성할 수 있다. 일 실시예에서, 출력 음향(170)은 헤드폰 등의 출력 장치로의 출력을 위해 멀티 채널(multi-channel) 음향의 일종인 스테레오(stereo) 형식으로 합성될 수 있다. 예를 들어, 출력 음향(170)은 좌측 스피커(LC)로 출력되는 제1 채널(171) 및 우측 스피커(RC)로 출력되는 제2 채널(173)을 포함할 수 있다.The device 1000 may resynthesize the output sound 170 from the adjusted sound data of each unit. In one embodiment, the output sound 170 may be synthesized in a stereo format, a type of multi-channel sound, for output to an output device such as headphones. For example, the output sound 170 may include a first channel 171 output to the left speaker (LC) and a second channel 173 output to the right speaker (RC).

디바이스(1000)는, 음원 이미지(SS1, SS2)의 화면 범위 내의 상대적인 위치에 따라, 각각의 음원 이미지(SS1, SS2)에 대응되는 유닛 음향 데이터(UA1, UA2)의 렌더링 채널을 결정할 수 있다. 예를 들어, 제1 음원 이미지(SS1)는 화면 범위 내의 좌측에 위치하므로 제1 음원 이미지(SS1)와 대응되는 제1 유닛 음향 데이터(UA1)는 좌측 스피커(LC)로 출력되는 제1 채널(171)에 렌더링할 수 있다. 또한, 화면 범위 내의 우측에 위치하는 제2 음원 이미지(SS2)에 대응되는 제2 유닛 음향 데이터(UA2)는 우측 스피커(RC)로 출력되는 제2 채널(173)에 렌더링할 수 있다. 일 실시예에서, 디바이스(1000)는 입력 음향(150)의 채널 개수와 관계없이 출력 음향(170)의 채널 개수를 조절할 수 있고, 공간감 있고 풍부한 소리의 출력이 가능하도록 영상의 음질을 개선할 수 있다.The device 1000 may determine a rendering channel for the unit sound data UA1 and UA2 corresponding to each sound source image SS1 and SS2, depending on the relative positions within the screen range of the sound source images SS1 and SS2. For example, since the first sound source image (SS1) is located on the left within the screen range, the first unit sound data (UA1) corresponding to the first sound source image (SS1) is output to the left speaker (LC) through the first channel ( 171). Additionally, the second unit sound data UA2 corresponding to the second sound source image SS2 located on the right side within the screen range may be rendered on the second channel 173 output to the right speaker RC. In one embodiment, the device 1000 can adjust the number of channels of the output sound 170 regardless of the number of channels of the input sound 150, and improve the sound quality of the image to enable output of a spatial and rich sound. there is.

도 2는 본 개시의 일 실시예에 따른 디바이스(1000)의 블록도이다.Figure 2 is a block diagram of a device 1000 according to an embodiment of the present disclosure.

도 2를 참조하면, 디바이스(1000)는 입력부(1100), 프로세서(1300), 메모리(1500), 출력부(1700) 및 모션 센서(1900)를 포함할 수 있다. 도 2에 도시된 구성 요소 모두가 디바이스(1000)의 필수 구성 요소인 것은 아니다. 도 2에 도시된 구성 요소보다 많은 구성 요소들에 의해 디바이스(1000)가 구현될 수도 있고, 도 2에 도시된 구성 요소보다 적은 구성 요소에 의해 디바이스가 구현될 수도 있다.Referring to FIG. 2 , the device 1000 may include an input unit 1100, a processor 1300, a memory 1500, an output unit 1700, and a motion sensor 1900. Not all of the components shown in FIG. 2 are essential components of the device 1000. The device 1000 may be implemented with more components than those shown in FIG. 2 , or the device may be implemented with fewer components than the components shown in FIG. 2 .

입력부(1100)는 외부로부터 영상을 획득할 수 있다. 일 실시예에서, 입력부(1100)는 시각적 이미지를 획득하는 녹화부 및 청각적 음향을 획득하는 녹음부를 포함할 수 있다. 예를 들어, 녹화부는 카메라(Camera)를 포함할 수 있고, 녹음부는 마이크로폰(Microphone, mic)을 포함할 수 있다. 일 실시예에서, 입력부(1100)는 녹화부 및 녹음부로 물리적으로 분리되지 않는 단일한 구성일 수도 있다.The input unit 1100 can acquire images from the outside. In one embodiment, the input unit 1100 may include a recording unit that acquires a visual image and a recording unit that acquires an auditory sound. For example, the recording unit may include a camera, and the recording unit may include a microphone (microphone). In one embodiment, the input unit 1100 may be a single component that is not physically separated into a recording unit and a recording unit.

출력부(1700)는 출력 영상을 외부로 출력할 수 있다. 출력부(1700)는 디스플레이(1710) 및 오디오 출력부(1720)를 포함할 수 있다.The output unit 1700 may output an output image to the outside. The output unit 1700 may include a display 1710 and an audio output unit 1720.

디스플레이(1710)는 시각적 이미지를 외부로 표시하여 출력할 수 있다. 일 실시예에서, 디스플레이(1710)는 패널(panel)을 포함할 수 있다. 디스플레이(1710)는 예를 들어, 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나로 구성될 수 있다.The display 1710 can display and output a visual image to the outside. In one embodiment, display 1710 may include a panel. The display 1710 may be, for example, a liquid crystal display, a thin film transistor-liquid crystal display, an organic light-emitting diode, a flexible display, 3 It may consist of at least one of a 3D display and an electrophoretic display.

오디오 출력부(1720)는 청각적 음향을 외부로 재생하여 출력할 수 있다. 일 실시예에서, 오디오 출력부(1720)는 스피커(speaker)를 포함할 수 있다. 오디오 출력부(1720)는 예를 들어, 단일한 스피커, 두 개 이상의 복수의 스피커, 모노 스피커(mono speaker), 스테레오 스피커(stereo speaker), 서라운드 스피커(surround speaker), 헤드셋(headset), 이어폰(earphone) 중에서 적어도 하나로 구성될 수 있다.The audio output unit 1720 can reproduce and output auditory sound to the outside. In one embodiment, the audio output unit 1720 may include a speaker. The audio output unit 1720 may include, for example, a single speaker, two or more speakers, a mono speaker, a stereo speaker, a surround speaker, a headset, and earphones ( It may consist of at least one of earphones.

일 실시예에서, 출력부(1700)의 디스플레이(1710) 및 오디오 출력부(1720)는 물리적으로 분리되지 않는 단일한 구성일 수도 있다.In one embodiment, the display 1710 and the audio output unit 1720 of the output unit 1700 may be a single structure that is not physically separated.

메모리(1500)는 디바이스(1000)의 동작을 제어하기 위해 후술할 프로세서(1300)에 의해 실행될 프로그램을 저장할 수 있다. 메모리(1500)는 디바이스(1000)의 동작을 제어하기 위한 적어도 하나의 명령어들(instructions)을 포함하는 프로그램을 저장할 수 있다. 메모리(1500)에는 프로세서(1300)가 판독할 수 있는 명령어들 및 프로그램 코드(program code)가 저장될 수 있다. 일 실시예에서, 프로세서(1300)는 메모리(1500)에 저장된 프로그램의 명령어들 또는 코드들을 실행하도록 구현될 수 있다. 메모리(1500)는 디바이스(1000)로 입력되거나 디바이스(1000)로부터 출력되는 데이터를 저장할 수 있다.The memory 1500 may store a program to be executed by a processor 1300, which will be described later, to control the operation of the device 1000. The memory 1500 may store a program including at least one instruction for controlling the operation of the device 1000. The memory 1500 may store instructions and program codes that the processor 1300 can read. In one embodiment, the processor 1300 may be implemented to execute instructions or codes of a program stored in the memory 1500. The memory 1500 may store data input to or output from the device 1000.

메모리(1500)는 예를 들어, 플래시 메모리(flash memory), 하드디스크(hard disk), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어, SD 또는 XD 메모리 등), 램(RAM, Random Access Memory), SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장 매체를 포함할 수 있다.The memory 1500 may include, for example, flash memory, hard disk, multimedia card micro type, card type memory (e.g., SD or XD memory, etc.), RAM (Random Access Memory), SRAM (Static Random Access Memory), ROM (Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), PROM (Programmable Read-Only Memory), magnetic memory, It may include at least one type of storage medium among a magnetic disk and an optical disk.

메모리(1500)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있다. 예를 들어, 메모리(1500)는, 음향 이미지 분리 모듈(1510), 음원 이미지 획득 모듈(1520), 유닛 음향 데이터 획득 모듈(1530), 매칭 모듈(1540), 음원 움직임 추적 모듈(1550) 및 음량 조정 모듈(1560)을 포함할 수 있다. 또한, 메모리(1500)는 음향-이미지 매칭 모델(1570), DNN(심층 신경망)(1580) 및 데이터베이스(1590)를 포함할 수 있다.Programs stored in the memory 1500 can be classified into a plurality of modules according to their functions. For example, the memory 1500 includes an acoustic image separation module 1510, a sound source image acquisition module 1520, a unit acoustic data acquisition module 1530, a matching module 1540, a sound source motion tracking module 1550, and a volume May include an adjustment module 1560. Additionally, the memory 1500 may include an audio-image matching model 1570, a deep neural network (DNN) 1580, and a database 1590.

프로세서(1300)는, 디바이스(1000)의 전반적인 동작을 제어할 수 있다. 예를 들어, 프로세서(1300)는 메모리(1500)에 저장된 프로그램들을 실행함으로써, 입력부(1100), 디스플레이(1710) 및 오디오 출력부(1720)를 포함하는 출력부(1700), 모션 센서(1900) 및 메모리(1500) 등을 전반적으로 제어할 수 있다.The processor 1300 may control the overall operation of the device 1000. For example, the processor 1300 executes programs stored in the memory 1500, thereby generating an input unit 1100, an output unit 1700 including a display 1710 and an audio output unit 1720, and a motion sensor 1900. and memory 1500, etc. can be controlled overall.

프로세서(1300)는 산술, 로직 및 입출력 연산과 시그널 프로세싱을 수행하는 하드웨어 구성 요소로 구성될 수 있다. 프로세서(1300)는 예를 들어, 중앙 처리 장치(Central Processing Unit), 마이크로 프로세서(microprocessor), 그래픽 프로세서(Graphic Processing Unit), ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), 및 FPGAs(Field Programmable Gate Arrays) 중 적어도 하나로 구성될 수 있으나, 이에 제한되는 것은 아니다.The processor 1300 may be comprised of hardware components that perform arithmetic, logic, input/output operations, and signal processing. The processor 1300 may include, for example, a Central Processing Unit, a microprocessor, a Graphics Processing Unit, Application Specific Integrated Circuits (ASICs), Digital Signal Processors (DSPs), and Digital Signal Processors (DSPDs). It may consist of at least one of Signal Processing Devices (PLDs), Programmable Logic Devices (PLDs), and Field Programmable Gate Arrays (FPGAs), but is not limited thereto.

프로세서(1300)는, 메모리(1500)에 저장된 적어도 하나의 명령어들을 실행함으로써, 입력부(1100)를 통해 영상을 획득할 수 있다. 영상은 시각적 데이터인 이미지 및 청각적 데이터인 음향을 포함할 수 있다.The processor 1300 may acquire an image through the input unit 1100 by executing at least one command stored in the memory 1500. The video may include images, which are visual data, and sounds, which are auditory data.

프로세서(1300)는, 메모리(1500)에 저장된 프로그램들 중 음향 이미지 분리 모듈(1510)을 구성하는 적어도 하나의 명령어들을 실행함으로써, 획득한 영상으로부터 음향(sound) 및 이미지(image)를 획득할 수 있다. 일 실시예에서, 단일한 모노(mono) 파일로 구성된 영상을, 청각적 데이터인 음향 파일 및 시각적 데이터인 이미지 파일로 분리할 수 있다.The processor 1300 can acquire sound and image from the acquired image by executing at least one instruction constituting the sound image separation module 1510 among the programs stored in the memory 1500. there is. In one embodiment, an image composed of a single mono file can be separated into a sound file, which is auditory data, and an image file, which is visual data.

프로세서(1300)는, 메모리(1500)에 저장된 프로그램들 중 음원 이미지 획득 모듈(1520)을 구성하는 적어도 하나의 명령어들을 실행함으로써, 획득한 이미지로부터 적어도 하나의 음원(sound source)을 나타내는 음원 이미지를 획득할 수 있다. 이미지는 구분되지 않은 하나의 연속적인 화면으로 구성될 수 있다. 이러한 연속적인 화면에서 사람, 동물, 물건 등의 각각의 오브젝트(object)를 분리할 수 있다. 분리된 각각의 오브젝트는 소리를 발생시키는 음원이 될 수 있다. 일 실시예에서, 심층 신경망(Deep Neural Network, DNN) 또는 이미지 파일들이 축적된 데이터베이스를 이용해 이미지로부터 적어도 하나의 음원 이미지를 획득할 수 있다.The processor 1300 executes at least one command constituting the sound source image acquisition module 1520 among the programs stored in the memory 1500, thereby generating a sound source image representing at least one sound source from the acquired image. It can be obtained. An image can be composed of one continuous, undivided screen. In this continuous screen, each object such as a person, animal, or object can be separated. Each separated object can be a sound source that generates sound. In one embodiment, at least one sound source image may be obtained from an image using a deep neural network (DNN) or a database storing image files.

프로세서(1300)는, 메모리(1500)에 저장된 프로그램들 중 유닛 음향 데이터 획득 모듈(1530)을 구성하는 적어도 하나의 명령어들을 실행함으로써, 획득한 음향으로부터 동일한 음원에서의 발생 여부에 따라 결정된 적어도 하나의 유닛 음향 데이터를 획득할 수 있다. 유닛 음향 데이터 획득 모듈(1530)은 하나의 채널로 구성된 입력 음향을 서로 다른 음원에서 발생하는 유닛 음향 데이터의 복수의 채널로 분리할 수 있다. 일 실시예에서, 유닛 음향 데이터 획득 모듈(1530)은 심층 신경망(Deep Neural Network, DNN) 또는 오디오 정보들이 축적된 데이터베이스를 이용하여 음향을 유닛 음향 데이터로 분리할 수 있다. 분리된 유닛 음향 데이터의 정보는 메모리(1500)에 저장된 데이터베이스(1570)로 전달되어 저장되고, 데이터베이스(1570)를 업데이트할 수 있다. 일 실시예에서, 음향 데이터를 분리하기 위한 모델은 기 설정되어 데이터베이스에 저장되어 있을 수 있다.The processor 1300 executes at least one command constituting the unit sound data acquisition module 1530 among the programs stored in the memory 1500, thereby executing at least one command determined depending on whether it occurs in the same sound source from the acquired sound. Unit acoustic data can be acquired. The unit sound data acquisition module 1530 may separate input sound consisting of one channel into a plurality of channels of unit sound data generated from different sound sources. In one embodiment, the unit sound data acquisition module 1530 may separate sounds into unit sound data using a deep neural network (DNN) or a database in which audio information is accumulated. Information on the separated unit sound data is transferred to and stored in the database 1570 stored in the memory 1500, and the database 1570 can be updated. In one embodiment, a model for separating acoustic data may be preset and stored in a database.

프로세서(1300)는, 메모리(1500)에 저장된 프로그램들 중 매칭 모듈(1540)을 구성하는 적어도 하나의 명령어들을 실행함으로써, 기 설정된 음향-이미지 매칭 모델(1570)을 적용하여, 적어도 하나의 음원 이미지 및 적어도 하나의 유닛 음향 데이터를 각각 매칭할 수 있다.The processor 1300 applies a preset sound-image matching model 1570 by executing at least one command constituting the matching module 1540 among the programs stored in the memory 1500 to generate at least one sound source image. and at least one unit sound data may be matched, respectively.

음향-이미지 매칭 모델(1570)에는 특정 음원의 이미지와 해당 특정 음원이 발생시키는 음향 간의 매칭 정보가 포함될 수 있다. 음향과 이미지의 매칭 정보에는, 음원 이미지의 정보에 따른 음향의 정보(예를 들어, 강아지 이미지에 대응되는 짖음 소리, 나무 이미지에 대응되는 바스락 소리, 또는 둘 이상의 사람이 대화하고 있는 경우 특정 사람의 얼굴 이미지에 따른 목소리 정보 등 특정 이미지에 따른 음향의 특징) 및 특정 음향에 따른 음원 이미지의 정보(예를 들어, 특정 소리가 발생할 때의 이미지의 입모양)가 포함될 수 있다.The sound-image matching model 1570 may include matching information between the image of a specific sound source and the sound generated by the specific sound source. The matching information between sound and image includes sound information according to the information of the sound source image (for example, a barking sound corresponding to an image of a dog, a rustling sound corresponding to a tree image, or the sound of a specific person when two or more people are talking). Features of sound according to a specific image, such as voice information according to a face image) and information of a sound source image according to a specific sound (for example, the mouth shape of the image when a specific sound occurs) may be included.

일 실시예에서, 음향-이미지 매칭 모델(1570)은 심층 신경망(Deep Neural Network, DNN) 또는 이미지 파일 및 오디오 정보들이 축적된 데이터베이스를 이용해 설정될 수 있다.In one embodiment, the sound-image matching model 1570 may be set using a deep neural network (DNN) or a database in which image files and audio information are accumulated.

일 실시예에서, 이미지로부터 분리된 개별 음원 이미지들과 음향으로부터 분리된 개별 유닛 음향 데이터들은 각각 음향-이미지 매칭 모델(1570)에 포함된 음향과 이미지의 대응관계 정보에 기반하여 매칭될 수 있다. 기 설정된 음향-이미지 매칭 모델(1570)에 따라 매칭된 각각의 음원 이미지 및 유닛 음향 데이터의 정보는, 메모리(1500)에 저장된 음향-이미지 매칭 모델(1570)에 다시 전달되어 저장되고 음향-이미지 매칭 모델(1570)을 업데이트 하거나, 데이터베이스(1590)로 전달되어 저장되고 데이터베이스(1590)를 업데이트 할 수 있다.In one embodiment, individual sound source images separated from the image and individual unit sound data separated from the sound may be matched based on the correspondence information between the sound and the image included in the sound-image matching model 1570, respectively. The information of each sound source image and unit sound data matched according to the preset sound-image matching model 1570 is transferred back to the sound-image matching model 1570 stored in the memory 1500 and stored, and sound-image matching is performed. The model 1570 can be updated, or it can be transferred to the database 1590 and stored, and the database 1590 can be updated.

프로세서(1300)는, 메모리(1500)에 저장된 프로그램들 중 음원 움직임 추적 모듈(1550)을 구성하는 적어도 하나의 명령어들을 실행함으로써, 음원 이미지로부터 적어도 하나의 음원의 움직임을 추적할 수 있다. 움직이는 이미지를 포함하는 영상에서는 특정 음원 이미지의 상태 또는 위치가 시간의 경과에 따라 변화할 수 있다. 일 실시예에서, 음원 움직임 추적 모듈(1550)은 이미지(화면)를 분석하여, 특정 음원의 움직이는 방향, 속도, 음원 이미지의 모양의 변화 등을 분석하고 특정 음원에 대한 움직임 프로파일(profile)을 획득할 수 있다. 일 실시예에서, 획득한 움직임 프로파일은 후속 단계에서 각각의 유닛 음향 데이터의 음량을 개별적으로 조정하는 것에 이용될 수 있다.The processor 1300 may track the movement of at least one sound source from the sound source image by executing at least one command constituting the sound source motion tracking module 1550 among the programs stored in the memory 1500. In videos containing moving images, the state or location of a specific sound source image may change over time. In one embodiment, the sound source motion tracking module 1550 analyzes the image (screen) to analyze the moving direction, speed, change in shape of the sound source image, etc. of a specific sound source and obtains a movement profile for the specific sound source. can do. In one embodiment, the obtained motion profile can be used to individually adjust the volume of each unit acoustic data in a subsequent step.

프로세서(1300)는, 메모리(1500)에 저장된 프로그램들 중 음량 조절 모듈(1560)을 구성하는 적어도 하나의 명령어들을 실행함으로써, 추적된 음원의 움직임에 따라 유닛 음향 데이터의 음량(loudness)을 개별적으로 조정할 수 있다. 일 실시예에서, 전체 영상에서 출력 음향이 일정한 음량을 유지하도록 유닛 음향 데이터의 음량을 조정할 수 있다. 예를 들어, 사람이 말하는 것을 녹음하는 경우, 음원(말하고 있는 사람)이 녹음 중 이동하여 디바이스(1000)로부터 상대적으로 멀어짐에 따라, 입력 유닛 음향 데이터의 음량은 감소한다. 이러한 경우, 음원이 디바이스(1000)에 가까울 때의 음량을 기준으로, 유닛 음향 데이터가 전체 영상에서 일정한 음량을 가질 수 있도록 음량을 조정할 수 있다. 이와 같이, 앞서 음원 움직임 추적 모듈(1550)에서 획득된 음원의 움직임 프로파일을 기반으로, 해당 음원에 대응하는 유닛 음향 데이터의 음량을 개별적으로 조정할 수 있다.The processor 1300 executes at least one command constituting the volume control module 1560 among the programs stored in the memory 1500, thereby individually adjusting the loudness of the unit sound data according to the movement of the tracked sound source. It can be adjusted. In one embodiment, the volume of unit sound data may be adjusted so that the output sound maintains a constant volume throughout the entire image. For example, when recording a person speaking, as the sound source (the person speaking) moves during recording and becomes relatively distant from the device 1000, the volume of the input unit sound data decreases. In this case, based on the volume when the sound source is close to the device 1000, the volume can be adjusted so that the unit sound data has a constant volume throughout the entire image. In this way, based on the motion profile of the sound source previously acquired by the sound source motion tracking module 1550, the volume of unit sound data corresponding to the sound source can be individually adjusted.

일 실시예에서, 프로세서(1300)는 메모리(1500)에 저장된 프로그램들 중 음량 조절 모듈(1560)을 구성하는 적어도 하나의 명령어들을 실행함으로써, 음원의 종류에 따라 유닛 음향 데이터의 음량을 개별적으로 조정할 수도 있다. 예를 들어, 특정 유닛 음향 데이터가 노이즈(noise)로 분류된 경우, 해당 유닛 음향 데이터의 음량을 작게 조정할 수 있다. 일 실시예에서, 특정한 종류의 음향만의 출력이 요구되는 경우, 유닛 음향 데이터들 중 출력하고자 하는 특정 종류의 음향 만을 필터링(filtering)하며 다른 종류의 유닛 음향 데이터는 노이즈와 같이 음량을 작게 조정할 수도 있다.In one embodiment, the processor 1300 individually adjusts the volume of unit sound data according to the type of sound source by executing at least one command constituting the volume control module 1560 among the programs stored in the memory 1500. It may be possible. For example, if specific unit sound data is classified as noise, the volume of the unit sound data can be adjusted to be low. In one embodiment, when the output of only a specific type of sound is required, only the specific type of sound to be output among the unit sound data is filtered, and the volume of other types of unit sound data may be adjusted to be low, such as noise. there is.

메모리(1500)에 저장된 심층 신경망(Deep Neural Network, DNN)(1580)은 인공 신경망의 한 종류로서, 입력층과 출력층 상이에 여러 개의 은닉층(hidden layer)들로 이루어지는 특징을 가질 수 있다. DNN(심층 신경망)(1580)은 일반적인 인공 신경망과 마찬가지로 복잡한 비선형 관계들을 모델링할 수 있다. 예를 들어, 사물 식별 모델을 위한 심층 신경망 구조에서는 각 객체가 이미지 기본 요소들의 계층적 구성으로 표현될 수 있다. 이때, 추가 계층들은 점진적으로 모인 하위 계층들의 특징을 규합 시킬 수 있다. DNN(심층 신경망)(1580)의 이러한 특징은, 더 적은 수의 유닛들만으로도 복잡한 데이터를 모델링할 수 있게 한다. DNN(심층 신경망)(1580)은 이미지 인식이나 음성 인식 분야에 적용될 수 있고, 본 개시와 같이 이미지를 분리하고 분리된 이미지를 각각의 음성 정보와 매칭시키는 처리에 이용될 수 있다.A deep neural network (DNN) 1580 stored in the memory 1500 is a type of artificial neural network and may have the characteristic of consisting of multiple hidden layers between the input layer and the output layer. DNN (deep neural network) 1580 can model complex nonlinear relationships like a general artificial neural network. For example, in a deep neural network structure for an object identification model, each object can be expressed as a hierarchical composition of basic image elements. At this time, additional layers can integrate the characteristics of gradually gathered lower layers. This feature of the DNN (deep neural network) 1580 allows complex data to be modeled with fewer units. The DNN (deep neural network) 1580 can be applied to the field of image recognition or voice recognition, and can be used for processing to separate images and match the separated images with each voice information, as in the present disclosure.

메모리(1500)에 저장된 데이터베이스(1590)는 방대한 양의 데이터의 집합으로 구성될 수 있다. 일 실시예에서, 데이터베이스(1590)는 특정 음원 이미지에 대응되는 음향 정보 및 특정 음향에 대응되는 이미지 정보를 포함할 수 있다. 일 실시예에서 데이터베이스(1590)는 음향과 이미지의 대응관계를 나타내는 매칭 정보를 획득하여 음향-이미지 매칭 모델(1570)을 설정하는데 이용될 수 있다. 또한, 데이터베이스(1590)는, 유닛 음향 데이터와 음원 이미지를 매칭 시키거나, 각각의 유닛 음향 데이터의 음량을 조절하는데 이용될 수 있다.The database 1590 stored in the memory 1500 may be composed of a vast amount of data. In one embodiment, the database 1590 may include sound information corresponding to a specific sound source image and image information corresponding to a specific sound. In one embodiment, the database 1590 may be used to establish a sound-image matching model 1570 by obtaining matching information representing the correspondence between sounds and images. Additionally, the database 1590 can be used to match unit sound data and sound source images or to adjust the volume of each unit sound data.

프로세서(1300)는, 메모리(1500)에 저장된 적어도 하나의 명령어들을 실행함으로써, 음량이 개별적으로 조정된 유닛 음향 데이터로부터 출력 음향을 획득하고, 출력 음향 및 이미지로부터 출력 영상을 획득할 수 있다. 일 실시예에서, 음량이 개별적으로 조정된 유닛 음향 데이터들을 재합성하여 최종 출력 음향 데이터를 획득할 수 있다. 일 실시예에서, 프로세서(1300)는, 스테레오(stereo) 형식 등의 멀티 채널(multi-channel)을 가지는 출력 음향을 획득하기 위해, 두 개 이상의 채널로 유닛 음향 데이터들을 분류하여 렌더링할 수 있다. 예를 들어, 디스플레이 화면 상 왼쪽에 배치된 음원 이미지들에 대응하는 유닛 음향 데이터들은 제1 채널로, 디스플레이 화면 상 오른쪽에 배치된 음원 이미지들에 대응하는 유닛 음향 데이터들은 제2 채널로 렌더링할 수 있다. 이후, 왼쪽 스피커에서는 제1 채널을 재생하고, 오른쪽 스피커에서는 제2 채널을 재생하는 출력 음향을 획득할 수 있다. 일 실시예에서, 출력 음향은 스테레오 형식뿐만 아니라, 서라운드(Surround) 형식, 앰비소닉(Ambisonic) 형식 또는 그 밖의 멀티채널(Multi-channel) 형식일 수도 있다.The processor 1300 may obtain output sound from unit sound data whose volume is individually adjusted and obtain an output image from the output sound and image by executing at least one command stored in the memory 1500. In one embodiment, final output sound data may be obtained by re-synthesizing unit sound data whose volume has been individually adjusted. In one embodiment, the processor 1300 may classify and render unit sound data into two or more channels in order to obtain multi-channel output sound, such as a stereo format. For example, unit sound data corresponding to sound source images placed on the left side of the display screen may be rendered in a first channel, and unit sound data corresponding to sound source images placed on the right side of the display screen may be rendered in a second channel. there is. Afterwards, output sound that reproduces the first channel from the left speaker and the second channel from the right speaker can be obtained. In one embodiment, the output sound may be in a stereo format, as well as a surround format, Ambisonic format, or other multi-channel format.

일 실시예에서, 디바이스(1000)는 모션 센서(1900)를 더 포함할 수 있다. 모션 센서(1900)는, 가속도계(accelerometer)(1910), 자이로스코프(gyroscope)(1920) 및 지자기계(magnetometer)(1930)를 포함할 수 있다. 모션 센서(1900)는 디바이스(1000)의 움직임을 검출할 수 있다. 영상을 획득하는 입력부(1100)가 포함된 디바이스(1000) 자체의 움직임이 있는 경우, 실제 오브젝트(object)의 움직임이 없더라도, 획득된 영상에서는 음원 이미지의 움직임이 있는 것으로 인식될 수 있다. 일 실시예에서, 모션 센서(1900)로부터 획득된 디바이스(1000)의 움직임 정보를 기반으로, 음원 이미지의 화면 상에서의 상대적인 변화를 통해 음원의 움직임 프로파일을 추가로 획득할 수 있다. 획득된 추가적인 음원 움직임 프로파일은 해당 음원 이미지에 매칭된 유닛 음향 데이터의 음량을 조정하는데 이용될 수 있다.In one embodiment, device 1000 may further include a motion sensor 1900. The motion sensor 1900 may include an accelerometer 1910, a gyroscope 1920, and a magnetometer 1930. The motion sensor 1900 can detect movement of the device 1000. If there is movement of the device 1000 itself, which includes the input unit 1100 for acquiring an image, it may be recognized that there is movement of the sound source image in the acquired image even if there is no actual movement of the object. In one embodiment, based on movement information of the device 1000 obtained from the motion sensor 1900, a motion profile of the sound source may be additionally obtained through relative changes on the screen of the sound source image. The acquired additional sound source motion profile can be used to adjust the volume of unit sound data matched to the corresponding sound source image.

종래에는 양질의 음향을 포함하는 영상을 획득하기 위하여, 전문적인 음향 녹음 장비를 사용하거나, 일반적인 음향 장비로 녹음한 후 영상 후처리 과정을 거쳐야했다. 인터넷 및 소셜 네트워크의 발전으로 개인적으로 영상을 촬영, 편집 및 배포하는 크리에이터가 늘어나고 있다. 이 같은 개인 크리에이터들은 전문적인 장비를 이용하기 보다는, 스마트 폰과 같은 모바일 디바이스에 기본적으로 포함된 카메라 및 마이크를 이용해 영상을 촬영하는 경우가 많다. 모바일 디바이스에 의한 영상 촬영은 시각적 데이터인 이미지의 처리 영역에서는 많은 개선이 있었으나, 청각적 데이터인 음향의 처리 영역에서는 크게 개선되지 않았다. 음질의 개선은 보다 실감나는 영상의 시청에 있어서 중요하다.Conventionally, in order to obtain an image containing high-quality sound, one had to use professional sound recording equipment or record with general sound equipment and then go through an image post-processing process. With the development of the Internet and social networks, the number of creators who personally film, edit, and distribute videos is increasing. Rather than using professional equipment, these individual creators often shoot videos using the camera and microphone included in mobile devices such as smartphones. There has been much improvement in video shooting using mobile devices in the processing area of images, which are visual data, but there has been no significant improvement in the area of processing sound, which is auditory data. Improving sound quality is important for watching more realistic videos.

본 개시의 일 실시예에 따른 디바이스(1000)는, 프로세서(1300)가 메모리(1500)에 저장된 하나 이상의 명령어들을 실행함으로써, 디바이스(1000)에 포함된 입력부(1100)에서 획득한 영상을 시각적 데이터인 이미지 및 청각적 데이터인 음향으로 분리하고, 영상의 이미지로부터 적어도 하나의 음원(sound source)을 나타내는 음원 이미지를 획득하고, 영상의 음향을 동일한 음원에서의 발생 여부에 따라 유닛 음향 데이터로 분리하고, 음원 이미지와 유닛 음향 데이터를 각각 매칭시키고, 유닛 음향 데이터 각각의 음량(loudness)을 조정함으로써, 출력 영상의 음질을 향상시킬 수 있다.The device 1000 according to an embodiment of the present disclosure converts the image acquired from the input unit 1100 included in the device 1000 into visual data by having the processor 1300 execute one or more instructions stored in the memory 1500. Separate the visual image and audio data into sound, obtain a sound source image representing at least one sound source from the image of the video, and separate the sound of the video into unit sound data depending on whether it occurs from the same sound source. , the sound quality of the output video can be improved by matching the sound source image and unit sound data and adjusting the loudness of each unit sound data.

따라서, 스마트 폰 등의 모바일 디바이스에 기본적으로 포함된 마이크 등의 입력부(1100)를 이용해 녹음하는 경우에도, 촬영된 영상이 디바이스(1000)에 포함된 프로세서(1300)를 통해 디바이스(1000) 내부에서 즉각적으로 후처리 될 수 있다. 이러한 경우, 촬영된 영상의 음질의 향상을 위한 별도의 음향 장비가 요구되지 않고, 사용자가 전문적인 영상 후처리 기술이 없어도 모바일 디바이스가 자동으로 음향의 후처리를 수행함으로써, 양질의 음향을 포함하는 영상을 획득할 수 있다.Therefore, even when recording using the input unit 1100, such as a microphone, which is basically included in a mobile device such as a smart phone, the captured image is stored inside the device 1000 through the processor 1300 included in the device 1000. It can be post-processed immediately. In this case, separate audio equipment is not required to improve the sound quality of the captured video, and the mobile device automatically performs sound post-processing even if the user does not have professional video post-processing technology, thereby providing high-quality sound. Video can be obtained.

또한, 본 개시의 일 실시예에 따른 디바이스(1000)는, 프로세서(1300)가 메모리(1500)에 저장된 하나 이상의 명령어들을 실행함으로써, 분리된 개별 유닛 음향 데이터를, 두 개 이상의 서로 다른 채널로 렌더링 할 수 있다. 따라서, 단일한 마이크를 통해 모노 오디오로 녹음된 경우에도, 출력 영상은 멀티 채널을 가지는 스테레오 형식 음향, 서라운드 형식 음향 또는 앰비소닉 형식의 음향을 가질 수 있다. 이와 같이, 입력 음향의 채널 개수와 관계 없이 출력 음향의 채널 개수를 조절할 수 있고, 보다 실감나는 영상을 위한 양질의 음향을 획득할 수 있다.In addition, the device 1000 according to an embodiment of the present disclosure has the processor 1300 execute one or more instructions stored in the memory 1500, thereby rendering the separated individual unit sound data into two or more different channels. can do. Therefore, even when recorded as mono audio through a single microphone, the output image may have multi-channel stereo sound, surround sound, or ambisonic sound. In this way, the number of channels of output sound can be adjusted regardless of the number of channels of input sound, and high-quality sound for a more realistic image can be obtained.

도 3은 본 개시의 일 실시예에 따른 영상의 음질을 향상시키는 방법의 흐름도이다.Figure 3 is a flowchart of a method for improving the sound quality of an image according to an embodiment of the present disclosure.

단계 S300에서, 영상을 획득할 수 있다. 영상은 2차원 평면 위에 그려진 시청각적 표현물을 의미할 수 있다. 영상은 움직이는 동영상을 의미할 수 있다. 일 실시예에서, 영상은 음향(sound)을 획득하는 마이크 및 이미지(image)를 획득하는 카메라를 포함하는 입력부를 통해 획득할 수 있다.In step S300, an image may be acquired. A video may refer to an audiovisual representation drawn on a two-dimensional plane. Video may refer to a moving video. In one embodiment, images can be acquired through an input unit including a microphone that acquires sound and a camera that acquires images.

단계 S310에서, 영상으로부터 음향(sound)을 획득할 수 있다. 예를 들어, 음향은 사람의 목소리, 동물의 소리, 사물로부터 발생하는 소리, 노이즈 등을 포함할 수 있다. 일 실시예에서, 음향은 단일한 마이크로부터 녹음된 단일 채널의 모노 오디오일 수도 있고, 복수의 마이크들로부터 녹음된 멀티 채널의 오디오일 수도 있다.In step S310, sound can be obtained from the image. For example, sound may include human voices, animal sounds, sounds generated from objects, noise, etc. In one embodiment, the sound may be a single channel of mono audio recorded from a single microphone, or it may be multi-channel audio recorded from a plurality of microphones.

단계 S320에서, 영상으로부터 이미지(image)를 획득할 수 있다. 예를 들어, 이미지는 카메라로부터 녹음된 시각적 데이터일 수 있다. 일 실시예에서 이미지는 다양한 음원들의 음원 이미지를 포함할 수 있다.In step S320, an image may be obtained from the video. For example, an image may be visual data recorded from a camera. In one embodiment, the image may include sound source images of various sound sources.

단계 S330에서, 음향으로부터 적어도 하나의 음원에 대응하는 적어도 하나의 유닛 음향 데이터를 획득할 수 있다. 예를 들어, 동일한 음원에서의 발생 여부에 따라 결정된 적어도 하나의 유닛 음향 데이터를 획득할 수 있다. 일 실시예에서, 단일 채널의 모노 오디오로 구성된 음향을 서로 다른 음원에서 발생하는 복수의 유닛 음향 데이터들로 분리할 수 있다. 일 실시예에서, 음향을 복수의 유닛 음향 데이터들로 분리할 때, 이미지를 이용할 수도 있다.In step S330, at least one unit sound data corresponding to at least one sound source may be obtained from the sound. For example, at least one unit sound data determined depending on whether it occurs from the same sound source can be obtained. In one embodiment, sound consisting of a single channel of mono audio can be separated into a plurality of unit sound data generated from different sound sources. In one embodiment, images may be used when separating sound into a plurality of unit sound data.

단계 S340에서, 이미지로부터 적어도 하나의 음원(sound source)을 나타내는 음원 이미지를 획득할 수 있다. 예를 들어, 연속적인 시각적 데이터로 구성된 이미지로부터, 사람, 동물, 물건, 배경 등 각각이 음향을 발생시키는 음원이 될 수 있는 오브젝트(object)들을 분리할 수 있다.In step S340, a sound source image representing at least one sound source may be obtained from the image. For example, from an image composed of continuous visual data, objects such as people, animals, objects, and backgrounds, each of which can be a sound source that generates sound, can be separated.

단계 S350에서, 기 설정된 음향-이미지 매칭 모델을 적용하여, 적어도 하나 의 음원 이미지 및 적어도 하나의 유닛 음향 데이터를 각각 매칭할 수 있다. 일 실시예에서, 음향-이미지 매칭 모델은 특정 음원의 이미지와 특정 음원이 발생시키는 음향 간의 매칭 정보를 포함할 수 있다. 일 실시예에서, 음향-이미지 매칭 모델은 심층 신경망(Deep Neural Network, DNN)을 통해 기 설정될 수 있다. 음향과 이미지의 매칭 정보에는 음원 이미지의 정보에 따른 음향의 정보 및 특정 음향에 따른 음원 이미지의 정보가 포함될 수 있다.In step S350, at least one sound source image and at least one unit sound data can be matched, respectively, by applying a preset sound-image matching model. In one embodiment, the sound-image matching model may include matching information between the image of a specific sound source and the sound generated by the specific sound source. In one embodiment, the sound-image matching model may be preset through a deep neural network (DNN). Matching information between sound and image may include sound information according to sound source image information and sound source image information according to a specific sound.

일 실시예에서, 이미지로부터 분리된 음원 이미지들과 음향으로부터 분리된 유닛 음향 데이터들은 각각 음향-이미지 매칭 모델에 기반하여 일대일, 다대일, 또는 다대다 매칭될 수 있다. 일 실시예에서, 유닛 음향 데이터와 음원 이미지를 매칭 시킬 때, 음원 이미지의 움직임 및 음원 이미지의 변화가 고려될 수도 있다.In one embodiment, sound source images separated from the image and unit sound data separated from the sound may be matched one-to-one, many-to-one, or many-to-many based on a sound-image matching model, respectively. In one embodiment, when matching unit sound data and sound source image, movement of the sound source image and changes in the sound source image may be considered.

단계 S360에서, 음원 이미지로부터 적어도 하나의 음원의 움직임을 추적할 수 있다. 움직임은 각각의 음원 이미지 별로 추적될 수 있다. 음원의 움직임 프로파일은 후속 단계에서 각각의 유닛 음향 데이터의 음량을 개별적으로 조정하는 것에 이용될 수 있다. 일 실시예에서, 음원의 움직임은, 음원 이미지의 화면 상에서의 변화를 통해 계산되고 추적될 수 있다. 일 실시예에서, 음원의 움직임은, 가속도계(accelerometer), 자이로스코프(gyroscope) 및 지자기계(magnetometer)를 포함하는 모션 센서로부터 획득된 디바이스의 움직임 정보를 이용하여 음원 이미지의 화면 상에서의 상대적인 변화를 통해 계산되고 추적될 수도 있다.In step S360, the movement of at least one sound source can be tracked from the sound source image. Movement can be tracked for each sound source image. The motion profile of the sound source can be used to individually adjust the volume of each unit sound data in a subsequent step. In one embodiment, the movement of the sound source can be calculated and tracked through changes in the sound source image on the screen. In one embodiment, the movement of the sound source is determined by relative changes on the screen of the sound source image using device movement information obtained from a motion sensor including an accelerometer, gyroscope, and magnetometer. It can also be calculated and tracked through

단계 S370에서, 추적된 음원의 움직임에 따라 유닛 음향 데이터의 음량(loudness)을 개별적으로 조정할 수 있다. 일 실시예에서, 음향으로부터 분리된 각각의 유닛 음향 데이터의 음량을 줄이거나, 늘리거나, 전체 영상에서 일정한 음량을 가질 수 있도록 조정할 수 있다. 각각의 유닛 음향 데이터들의 음량을 개별적으로 조정함으로써, 전체적인 음향의 최적화 및 튜닝이 가능하다.In step S370, the loudness of unit sound data can be individually adjusted according to the movement of the tracked sound source. In one embodiment, the volume of each unit sound data separated from the sound can be reduced, increased, or adjusted to have a constant volume throughout the entire image. By individually adjusting the volume of each unit sound data, optimization and tuning of the overall sound is possible.

단계 S380에서, 음량이 개별적으로 조정된 유닛 음향 데이터로부터 출력 음향을 획득할 수 있다. 일 실시예에서, 음량이 개별적으로 조정된 유닛 음향 데이터들을 재합성하여 최종 출력 음향 데이터를 획득할 수 있다. 일 실시예에서, 유닛 음향 데이터를 두 개 이상의 채널로 분류하여 렌더링하고, 스테레오(stereo) 형식 등의 멀티 채널(multi-channel)을 가지는 출력 음향을 획득할 수도 있다. 예를 들어, 출력 음향은 노이즈에 해당하는 유닛 음향 데이터의 음량이 작게 조정되어 재합성 되거나, 풍부한 음향을 위해 멀티 채널을 가지도록 재합성될 수 있고, 따라서, 최종 출력 음향은 초기 입력된 음향에 비해 음질이 개선될 수 있다.In step S380, output sound can be obtained from unit sound data whose volume is individually adjusted. In one embodiment, final output sound data may be obtained by re-synthesizing unit sound data whose volume has been individually adjusted. In one embodiment, unit sound data may be classified into two or more channels and rendered, and multi-channel output sound such as stereo format may be obtained. For example, the output sound can be re-synthesized by adjusting the volume of the unit sound data corresponding to noise to be low, or can be re-synthesized to have multiple channels for rich sound. Therefore, the final output sound can be based on the initial input sound. The sound quality may be improved compared to

단계 S390에서, 출력 음향 및 이미지로부터 출력 영상을 획득할 수 있다. 출력 영상은 입력 영상과 비교할 때, 이미지(화면)는 일치하나 조정된 유닛 음향 데이터를 포함하므로 음향의 음질은 개선될 수 있다.In step S390, an output image can be obtained from the output sound and image. When compared to the input image, the output image has the same image (screen) but contains adjusted unit sound data, so the sound quality can be improved.

도 4는 본 개시의 일 실시예에 따른 영상의 음질을 향상시키는 방법의 흐름도이다.Figure 4 is a flowchart of a method for improving the sound quality of an image according to an embodiment of the present disclosure.

단계 S400에서, 음향(sound) 및 이미지(image)를 포함하는 영상을 획득할 수 있고, 단계 S410 및 단계 S420에서 영상으로부터 음향 및 이미지를 분리하여 획득할 수 있다.In step S400, an image including sound and an image can be acquired, and in steps S410 and S420, the sound and image can be separated from the image and obtained.

단계 S430에서, 이미지로부터 적어도 하나의 음원(sound source)을 나타내는 음원 이미지를 획득할 수 있다. 예를 들어, 연속적인 시각적 데이터로 구성된 이미지로부터, 사람, 동물, 물건, 배경 등 각각이 음향을 발생시키는 음원이 될 수 있는 오브젝트(object)들을 분리할 수 있다.In step S430, a sound source image representing at least one sound source may be obtained from the image. For example, from an image composed of continuous visual data, objects such as people, animals, objects, and backgrounds, each of which can be a sound source that generates sound, can be separated.

단계 S440에서, 기 설정된 음향-이미지 매칭 모델을 적용하여, 적어도 하나 의 음원 이미지 및 음향의 일부를 매칭할 수 있다. 일 실시예에서, 음향-이미지 매칭 모델은 특정 음원의 이미지와 특정 음원이 발생시키는 음향 간의 매칭 정보를 포함할 수 있다.In step S440, at least one sound source image and a portion of the sound may be matched by applying a preset sound-image matching model. In one embodiment, the sound-image matching model may include matching information between the image of a specific sound source and the sound generated by the specific sound source.

단계 S450에서, 음향 및 분리된 음원 이미지로부터 적어도 하나의 음원에 대응하는 적어도 하나의 유닛 음향 데이터를 획득할 수 있다. 예를 들어, 동일한 음원에서의 발생 여부에 따라 결정된 적어도 하나의 유닛 음향 데이터를 획득할 수 있다. 일 실시예에서, 단일 채널의 모노 오디오로 구성된 음향을 서로 다른 음원에서 발생하는 복수의 유닛 음향 데이터들로 분리할 때, 음원 이미지를 이용할 수 있다. 예를 들어, 음향을 각각의 유닛 음향 데이터로 분리할 때, 앞서 분리된 음원 이미지를 참조하여, 어떠한 음원이 존재하는지를 미리 판단하고, 해당 음원에 의한 음향을 우선적으로 분리할 수 있다. 예를 들어, 각각의 음원 이미지에 매칭된 음향의 일부를 각각의 유닛 음향 데이터로 분리할 수 있다.In step S450, at least one unit sound data corresponding to at least one sound source may be obtained from the sound and the separated sound source image. For example, at least one unit sound data determined depending on whether it occurs from the same sound source can be obtained. In one embodiment, a sound source image can be used when separating sound consisting of a single channel of mono audio into a plurality of unit sound data generated from different sound sources. For example, when separating sound into individual unit sound data, it is possible to determine in advance which sound source exists by referring to the previously separated sound source image, and to preferentially separate the sound from that sound source. For example, part of the sound matched to each sound source image can be separated into each unit sound data.

이미지로부터 음원 이미지를 우선적으로 분리하고, 매칭된 음원 이미지를 이용하여 음향으로부터 유닛 음향 데이터를 분리하는 동작은, 영상의 이미지에 나타나지 않는 음원이 존재하는 경우에 유용할 수 있다. 예를 들어, 각각의 분리된 음원 이미지에 대응하는 음향들을 각각의 유닛 음향 데이터로 분리한 후, 남은 음향 데이터로부터 영상의 이미지에 나타나지 않는 음원에 대응되는 유닛 음향 데이터를 획득할 수 있다.The operation of preferentially separating the sound source image from the image and separating unit sound data from the sound using the matched sound source image may be useful when there is a sound source that does not appear in the image of the video. For example, after the sounds corresponding to each separate sound source image are separated into respective unit sound data, unit sound data corresponding to a sound source that does not appear in the image of the video can be obtained from the remaining sound data.

단계 S460에서, 음원의 음원 이미지로부터 적어도 하나의 음원의 움직임을 추적할 수 있다. 음원의 움직임은 각각의 음원 이미지 별로 추적될 수 있다. 음원의 움직임 프로파일은 후속 단계에서 각각의 유닛 음향 데이터의 음량을 개별적으로 조정하는 것에 이용될 수 있다.In step S460, the movement of at least one sound source can be tracked from the sound source image of the sound source. The movement of the sound source can be tracked for each sound source image. The motion profile of the sound source can be used to individually adjust the volume of each unit sound data in a subsequent step.

이후, 전술한 실시예에서와 유사하게, 단계 S470에서 추적된 음원의 움직임에 따라 유닛 음향 데이터의 음량(loudness)을 개별적으로 조정할 수 있고, 단계 S480에서 음량이 개별적으로 조정된 유닛 음향 데이터로부터 출력 음향을 획득할 수 있다. 출력 음향은 초기 입력된 음향에 비해 음질이 개선될 수 있다.Thereafter, similarly to the above-described embodiment, the loudness of the unit sound data can be individually adjusted according to the movement of the tracked sound source in step S470, and the volume is output from the individually adjusted unit sound data in step S480. Sound can be obtained. The sound quality of the output sound may be improved compared to the initially input sound.

도 5는 본 개시의 일 실시예에 따른 디바이스(1000)가 보조 입력부(2100)를 통해 추가적인 음향을 획득하는 동작을 설명하기 위한 도면이다.FIG. 5 is a diagram illustrating an operation of the device 1000 acquiring additional sound through the auxiliary input unit 2100 according to an embodiment of the present disclosure.

본 개시의 일 실시예에 따른 디바이스(1000)는 음향을 획득하는 마이크 및 이미지를 획득하는 카메라를 포함하는 입력부를 자체적으로 포함할 수 있다. The device 1000 according to an embodiment of the present disclosure may itself include an input unit including a microphone for acquiring sound and a camera for acquiring an image.

일 실시예에서, 디바이스(1000)는 디바이스(1000) 외부의 보조 입력부(2100)를 통해 추가적인 음향을 획득할 수도 있다. 예를 들어, 보조 입력부(2100)는 라펠(lapel) 마이크 등의 보조 마이크를 포함할 수 있다. 디바이스(1000)가 직접 획득한 음향 및 보조 입력부(2100)를 통해 획득한 음향은 동일한 음원(SS)에서 발생한 음향일 수도 있고, 일 실시예에서, 디바이스(1000)가 직접 획득한 음향 및 보조 입력부(2100)를 통해 획득한 음향은 서로 다른 음원에서 발생한 음향으로서 멀티 채널 음향을 구성할 수도 있다.In one embodiment, the device 1000 may obtain additional sound through the auxiliary input unit 2100 external to the device 1000. For example, the auxiliary input unit 2100 may include an auxiliary microphone such as a lapel microphone. The sound acquired directly by the device 1000 and the sound acquired through the auxiliary input unit 2100 may be sounds generated from the same sound source (SS). In one embodiment, the sound directly acquired by the device 1000 and the sound obtained through the auxiliary input unit 2100 may be sound generated from the same sound source (SS). The sound obtained through 2100 is sound generated from different sound sources and may constitute multi-channel sound.

디바이스(1000)가 직접 획득한 음향 및 보조 입력부(2100)를 통해 획득한 음향이 동일한 음원(SS)에서 발생한 음향인 경우, 디바이스(1000)에서 직접 획득한 음향과 보조 입력부(2100)를 통해 획득한 음향은 음량 또는 신호 대 잡음비의 차이만을 가질 수 있다. 이러한 경우, 보조 입력부(2100)를 통해 입력된 음향은, 디바이스(1000)로 전송되어, 디바이스(1000)가 획득한 음향과 함께 영상의 후처리에 이용될 수 있다. 예를 들어, 보조 입력부(2100)를 통해 입력된 음향이 더 나은 신호 대 잡음비를 가지는 경우, 보조 입력부(2100)를 통해 입력된 음향은 디바이스(1000)가 획득한 영상의 음향 노이즈 제거에 이용될 수 있다. 보조 입력부(2100)를 통해 획득한 음향은 디바이스(1000)가 자체적으로 획득한 음향을 보조할 수 있고, 디바이스(1000)가 획득한 음향을 완전히 대체하는 것은 아니다.If the sound acquired directly by the device 1000 and the sound acquired through the auxiliary input unit 2100 are sounds generated from the same sound source (SS), the sound acquired directly from the device 1000 and the sound acquired through the auxiliary input unit 2100 A sound may only have differences in loudness or signal-to-noise ratio. In this case, the sound input through the auxiliary input unit 2100 may be transmitted to the device 1000 and used for post-processing of the image together with the sound acquired by the device 1000. For example, if the sound input through the auxiliary input unit 2100 has a better signal-to-noise ratio, the sound input through the auxiliary input unit 2100 may be used to remove acoustic noise from the image acquired by the device 1000. You can. The sound acquired through the auxiliary input unit 2100 can assist the sound acquired by the device 1000 itself, and does not completely replace the sound acquired by the device 1000.

디바이스(1000)가 직접 획득한 음향 및 보조 입력부(2100)를 통해 획득한 음향이 서로 다른 채널의 음향으로서 멀티 채널 음향을 구성하는 경우, 각각의 음향은 함께 또는 독립적으로 후처리 되어, 새로운 모노 채널 형식 또는 멀티 채널 형식의 출력 음향을 획득할 수 있다.If the sound acquired directly by the device 1000 and the sound acquired through the auxiliary input unit 2100 are sounds of different channels and constitute a multi-channel sound, each sound is post-processed together or independently to create a new mono channel. Output sound can be obtained in format or multi-channel format.

도 6은 본 개시의 일 실시예에 따른 디바이스(1000)가 이미지(610)로부터 적어도 하나의 음원 이미지를 획득하는 동작을 설명하기 위한 도면이다.FIG. 6 is a diagram illustrating an operation of the device 1000 acquiring at least one sound source image from the image 610 according to an embodiment of the present disclosure.

디바이스(1000)는 이미지(610)로부터 적어도 하나의 음원(sound source)을 나타내는 음원 이미지를 획득할 수 있다. The device 1000 may obtain a sound source image representing at least one sound source from the image 610.

도 6을 참조하면, 획득한 영상의 이미지(610)는 연속적인 시각적 데이터로 구성될 수 있다. 연속적인 시각적 데이터 이미지로부터, 사람, 동물, 물건, 배경 등 각각이 음향을 발생시키는 음원이 될 수 있는 오브젝트(object)들을 분리할 수 있다. 일 실시예에서, 이미지 분석은, 심층 신경망(DNN) 기술인 딥러닝(Deep Learning) 또는 인공지능을 통해 분석될 수 있으며, 이 경우 높은 정확도와 다양한 사물 인식이 가능하다.Referring to FIG. 6, the acquired video image 610 may be composed of continuous visual data. From continuous visual data images, it is possible to separate objects such as people, animals, objects, and backgrounds, each of which can be a sound source that generates sound. In one embodiment, image analysis may be done through deep learning, a deep neural network (DNN) technology, or artificial intelligence, which allows for high accuracy and recognition of various objects.

인공지능(Artificial Intelligence, AI)의 이미지 인식 기술은, 이미지를 여러 패턴으로 분류하고, 패턴형 데이터를 학습하여 새로운 이미지가 주어질 때 이미지가 무엇인지 판단할 수 있다. 일 실시예에서, 디바이스(1000)는, 심층 신경망(DNN) 또는 인공지능(AI)을 통해, 이미지(610)에서 사람 이미지(H1, H2, H3, H4, H5, H6) 및 개 이미지(D1, D2)들을 분리할 수 있다. 분리된 사람 이미지(H1, H2, H3, H4, H5, H6) 및 개 이미지(D1, D2)들은 각각 음원 이미지가 될 수 있다. 이와 같이, 디바이스(1000)는 이미지(610)로부터 적어도 하나의 음원 이미지를 분리하고 획득할 수 있다.Artificial Intelligence (AI) image recognition technology can classify images into various patterns and learn pattern-type data to determine what an image is when given a new image. In one embodiment, device 1000, through a deep neural network (DNN) or artificial intelligence (AI), selects images 610 from human images (H1, H2, H3, H4, H5, H6) and dog images (D1). , D2) can be separated. Separated human images (H1, H2, H3, H4, H5, H6) and dog images (D1, D2) can each be sound source images. In this way, the device 1000 can separate and obtain at least one sound source image from the image 610.

도 7은 본 개시의 일 실시예에 따른 디바이스(1000)가 음향(750)으로부터 적어도 하나의 유닛 음향 데이터 세트(760)를 획득하는 동작을 설명하기 위한 도면이다.FIG. 7 is a diagram illustrating an operation of the device 1000 acquiring at least one unit sound data set 760 from the sound 750 according to an embodiment of the present disclosure.

유닛 음향 데이터(760)는 동일한 음원에서의 발생 여부에 따라 결정될 수 있다. 소리는 세기, 음색 및 높이의 3요소를 가진다. 이 세 가지 요소는 각각 소리 파동의 진폭, 파형 및 진동수에 해당한다. 파동의 진폭이 클수록 소리의 세기는 크고, 파동의 진동수가 높을수록 소리의 높이가 높다. 소리의 음색은 파형에 의해 결정되는데, 같은 음이라도 피아노, 사람, 바이올린 등의 소리가 다른 이유는 소리의 파형이 다르기 때문이다.Unit sound data 760 may be determined depending on whether it occurs from the same sound source. Sound has three elements: intensity, timbre, and pitch. These three elements correspond to the amplitude, waveform, and frequency of the sound wave, respectively. The larger the amplitude of the wave, the greater the intensity of the sound, and the higher the frequency of the wave, the higher the height of the sound. The timbre of a sound is determined by its waveform, and the reason why the sounds of a piano, a person, a violin, etc. are different even if the sound is the same, is because the waveforms of the sound are different.

또한, 소리를 구별할 때 엔벨로프(envelope)가 고려될 수 있다. 엔벨로프란 시간에 따른 소리의 변화이며, 음이 최고점까지 도달하는 시간, 음이 안정되기까지의 시간, 음이 지속되는 시간 및 음이 사라질 때까지의 시간을 의미한다. 엔벨로프는 음원이 소리를 발생하는 방법에 따라 달라질 수 있다. 일 실시예에서, 동일한 음원에서 발생한 소리인지 여부는 소리의 3요소 및 엔벨로프에에 따라 결정될 수 있다.Additionally, the envelope can be considered when distinguishing sounds. Envelope is the change in sound over time, and refers to the time for the sound to reach its peak, the time for the sound to stabilize, the time for the sound to last, and the time until the sound disappears. The envelope can vary depending on how the sound source produces the sound. In one embodiment, whether a sound originates from the same sound source may be determined based on the three elements and envelope of the sound.

일 실시예에서, 음향(750)으로부터 유닛 음향 데이터 세트(760)를 분리하고 획득하는 동작은, 음향(750)을 진폭, 주파수, 위상, 파형 및 스펙트럼에 따라 적어도 하나의 유닛 음향 데이터(761, 762, 763, 764)들로 분리하는 동작을 포함할 수 있다. 예를 들어, 네 개의 악기의 소리가 합성된 음향(750)으로부터, 진폭, 주파수, 위상, 파형, 스펙트럼 등에 의존하는 소리의 3요소 및 엔벨로프에 따라, 각각의 악기에 의한 소리로 분리된 4개의 유닛 음향 데이터(761, 762, 763, 764)들을 획득할 수 있다.In one embodiment, the operation of separating and acquiring the unit acoustic data set 760 from the sound 750 includes converting the sound 750 into at least one unit acoustic data 761 according to amplitude, frequency, phase, waveform, and spectrum. 762, 763, 764). For example, from the sound 750 in which the sounds of four instruments are synthesized, four sounds are separated into sounds by each instrument according to the three elements and envelope of the sound depending on amplitude, frequency, phase, waveform, spectrum, etc. Unit sound data (761, 762, 763, 764) can be obtained.

일 실시예에서, 두 개 이상의 유닛 음향 데이터들의 진폭, 주파수, 위상, 파형 및 스펙트럼이 전부 동일한 경우, 음원 이미지를 이용하여 각각의 유닛 음향 데이터로 분리할 수 있다. 예를 들어, 이미지가 분할 화면을 포함하고, 동일한 사람이 각각의 분할 화면 상에서 동시에 말하고 있는 경우, 각각의 분할 화면 상의 사람의 입 모양을 참조하여 각각의 분할 화면에 대응하는 유닛 음향 데이터를 분리할 수 있다. 예를 들어, 동일한 종류의 악기가 두 개 이상 존재하는 경우, 악기를 연주하는 사람의 손 모양 등을 참조하여 각각의 악기 별로 유닛 음향 데이터를 분리할 수 있다. 이와 같이, 음향의 특징으로는 음원 별로 유닛 음향 데이터를 분리하기 어려운 경우, 이미지 데이터를 추가로 이용할 수 있다.In one embodiment, when the amplitude, frequency, phase, waveform, and spectrum of two or more unit sound data are all the same, they can be separated into each unit sound data using the sound source image. For example, if an image includes split screens and the same person is speaking simultaneously on each split screen, the unit sound data corresponding to each split screen can be separated by referring to the shape of the person's mouth on each split screen. You can. For example, when there are two or more instruments of the same type, unit sound data for each instrument can be separated by referring to the hand shape of the person playing the instrument. In this way, when it is difficult to separate unit sound data for each sound source due to sound characteristics, image data can be additionally used.

도 8은 본 개시의 일 실시예에 따른 디바이스(1000)가 음원 이미지(821, 822)에 따라 음향(850)을 분리하고, 분리된 유닛 음향 데이터(861, 862)를 각각의 음원 이미지(821, 822)에 매칭하는 동작을 설명하기 위한 도면이다.FIG. 8 shows that the device 1000 according to an embodiment of the present disclosure separates the sound 850 according to the sound source images 821 and 822, and divides the separated unit sound data 861 and 862 into each sound source image 821. , 822) This is a diagram to explain the matching operation.

도 8을 참조하면, 영상은 개별 음원으로 분리된 음원 이미지(821, 822)를 포함하는 이미지(810) 및 음향(850)을 포함할 수 있다. 음향(850)은 각각의 음원 이미지(821, 822)로부터 발생된 소리(A1, A2)의 합성을 포함할 수 있다. 일 실시예에서, 음향(850)은, 각각의 음원 이미지(821, 822)에 대응되는 목소리 정보를 포함하는 음향-이미지 매칭 모델을 적용하여, 유닛 음향 데이터(861, 862)로 분리될 수 있다. 분리된 유닛 음향 데이터(861, 862)는 목소리 정보에 따라 각각의 음원 이미지(821, 822)와 매칭될 수 있다.Referring to FIG. 8 , the image may include an image 810 and sound 850 including sound source images 821 and 822 separated into individual sound sources. The sound 850 may include a synthesis of sounds A1 and A2 generated from each sound source image 821 and 822. In one embodiment, the sound 850 can be separated into unit sound data 861 and 862 by applying a sound-image matching model that includes voice information corresponding to each sound source image 821 and 822. . The separated unit sound data 861 and 862 may be matched with each sound source image 821 and 822 according to voice information.

일 실시예에서, 음원 이미지 및 유닛 음향 데이터를 각각 매칭하는 동작은, 음원 이미지에서 획득한 정보를 추가로 이용할 수도 있다. 예를 들어, 동일한 사람이 분할 화면 상에서 동시에 말하고 있는 경우, 각각의 분할 화면 상의 사람의 입 모양을 참조하여 분할 화면에 유닛 음향 데이터를 매칭할 수 있다. 예를 들어, 동일한 종류의 악기가 두 개 이상 존재하는 경우, 악기를 연주하는 사람의 손 모양 등을 참조하여 각각의 악기 별로 유닛 음향 데이터를 매칭할 수 있다.In one embodiment, the operation of matching the sound source image and unit sound data may additionally use information obtained from the sound source image. For example, when the same person is speaking at the same time on a split screen, unit sound data can be matched to the split screen by referring to the shape of the person's mouth on each split screen. For example, when there are two or more instruments of the same type, unit sound data for each instrument can be matched by referring to the hand shape of the person playing the instrument.

일 실시예에서, 특정한 음향만의 출력이 요구되는 경우, 유닛 음향 데이터(861, 862)들 중 출력하고자 하는 특정 종류의 음향 만을 필터링(filtering)하며, 다른 종류의 유닛 음향 데이터의 음량을 작게 조정할 수도 있다. In one embodiment, when the output of only a specific sound is required, only the specific type of sound to be output among the unit sound data 861 and 862 is filtered and the volume of other types of unit sound data is adjusted to be low. It may be possible.

예를 들어, 도 8을 참조하면, 음원 이미지 821 에 대응하는 유닛 음향 데이터(861)만을 출력하고자 할 경우, 음원 이미지 822 에 대응하는 유닛 음향 데이터(862)를 음소거 처리할 수 있다. 또한, 음원 이미지 822 에 대응하는 유닛 음향 데이터(862)만을 출력하고자 할 경우, 음원 이미지 821 에 대응하는 유닛 음향 데이터(861)를 음소거 처리할 수 있다.For example, referring to FIG. 8, when it is desired to output only the unit sound data 861 corresponding to the sound source image 821, the unit sound data 862 corresponding to the sound source image 822 may be muted. Additionally, when it is desired to output only the unit sound data 862 corresponding to the sound source image 822, the unit sound data 861 corresponding to the sound source image 821 can be muted.

도 9는 본 개시의 일 실시예에 따른 디바이스(1000)가 추적된 음원의 움직임에 따라 유닛 음향 데이터의 음량을 개별적으로 조정하는 동작(S370)의 구체적인 실시예를 설명하기 위한 도면이다.FIG. 9 is a diagram illustrating a specific example of an operation (S370) in which the device 1000 individually adjusts the volume of unit sound data according to the movement of a tracked sound source according to an embodiment of the present disclosure.

단계 S910에서, 각각의 유닛 음향 데이터의 전체 실행 시간의 음량 곡선을 획득할 수 있다. 예를 들어, 각각의 유닛 음향 데이터에 대해 감지된 음량의 레벨(level)을 시간에 따라 계산할 수 있다.In step S910, a volume curve of the entire execution time of each unit sound data can be obtained. For example, the level of the detected sound volume for each unit sound data can be calculated over time.

단계 S920에서, 각각의 유닛 음향 데이터에 대해 수행할 조정 정보를 포함하는 음량 보정 곡선을 획득할 수 있다. 일 실시예에서, 음량 보정 곡선은 영상의 전체 실행 시간 내에서 특정 시간에 유닛 음향 데이터의 음량을 줄일지 키울지에 대한 정보를 포함할 수 있다. 예를 들어, 영상의 전체 실행 시간 내에서 음향의 음량을 일정하게 유지하고자 하는 경우, 음량 보정 곡선은, 음량 곡선과 기 설정된 출력 음량의 값 사이의 차이로 계산될 수 있다.In step S920, a volume correction curve containing adjustment information to be performed for each unit sound data may be obtained. In one embodiment, the volume correction curve may include information about whether to reduce or increase the volume of unit sound data at a specific time within the entire running time of the video. For example, when it is desired to keep the sound volume constant within the entire running time of the video, the volume correction curve can be calculated as the difference between the volume curve and the preset output volume value.

단계 S930에서, 음량 보정 곡선을 기반으로 각각의 유닛 음향 데이터의 음량을 시간에 따라 개별적으로 조정할 수 있다.In step S930, the volume of each unit sound data can be individually adjusted over time based on the volume correction curve.

도 10a, 10b 및 10c는 본 개시의 일 실시예에 따른 디바이스(1000)가 멀티 채널을 갖는 출력 음향을 획득하는 예시를 나타내는 도면이다.10A, 10B, and 10C are diagrams illustrating an example in which the device 1000 obtains output sound having multi-channels according to an embodiment of the present disclosure.

도 10a를 참조하면, 일 실시예에서, 디바이스(1000)는 두 개의 음원(SS101, SS102)을 포함하는 영상을 촬영할 수 있다. Referring to FIG. 10A, in one embodiment, the device 1000 may capture an image including two sound sources SS101 and SS102.

도 10b를 참조하면, 녹음된 입력 음향은 모노 오디오로서 그 상태로 후처리 없이 재생 시, 두 개의 음원에서 발생한 입력 음향(IA101, IA102)이 각각의 좌채널(LC) 및 우채널(RC)에서 동시에 재생될 수 있다. 이 경우, 두 개의 음원(SS101, SS102)은 같은 장소에 있는 것으로 인식될 수 있다. 이와 같이, 단일한 채널을 갖는 모노 오디오에서, 사용자는 두 개의 음원(SS101, SS102)의 방향을 인식할 수 없다.Referring to Figure 10b, the recorded input sound is mono audio, and when played back without post-processing, the input sounds (IA101, IA102) generated from two sound sources are played in the left channel (LC) and right channel (RC), respectively. Can be played simultaneously. In this case, the two sound sources (SS101, SS102) can be recognized as being in the same place. As such, in mono audio having a single channel, the user cannot recognize the directions of the two sound sources (SS101 and SS102).

도 10c를 참조하면, 녹음된 입력 음향(IA101, IA102)에 본 개시의 일 실시예에 따른 영상의 음질을 향상시키는 방법이 적용될 경우, 디바이스(1000)는 음향을 각각의 음원(SS101, SS102)에 따라 유닛 음향 데이터로 분리할 수 있고, 분리된 유닛 음향 데이터를 각각의 음원 이미지의 화면 상의 위치에 따라 좌채널(LC) 또는 우채널(RC)로 렌더링할 수 있다. 예를 들어, 화면 상 좌측에 위치하는 음원 SS101에 대응되는 유닛 음향 데이터는 좌채널(LC)로, 화면 상 우측에 위치하는 음원 SS102에 대응되는 유닛 음향 데이터는 우채널(RC)로 출력 음향을 렌더링할 수 있다. 따라서, 출력 음향은, 두 개의 채널(LC, RC)을 가지는 멀티 채널 오디오로 구현될 수 있다.Referring to FIG. 10C, when the method for improving the sound quality of an image according to an embodiment of the present disclosure is applied to the recorded input sounds (IA101 and IA102), the device 1000 transmits the sounds to the respective sound sources (SS101 and SS102). Depending on this, it can be separated into unit sound data, and the separated unit sound data can be rendered into the left channel (LC) or right channel (RC) depending on the location on the screen of each sound source image. For example, the unit sound data corresponding to the sound source SS101 located on the left side of the screen output sound to the left channel (LC), and the unit sound data corresponding to the sound source SS102 located on the right side of the screen output sound to the right channel (RC). Can be rendered. Therefore, the output sound can be implemented as multi-channel audio with two channels (LC, RC).

도 11은 본 개시의 일 실시예에 따른 디바이스(1000)가 유닛 음향 데이터의 음량을 개별적으로 조정하는 예시를 나타내는 도면이다.FIG. 11 is a diagram illustrating an example in which the device 1000 individually adjusts the volume of unit sound data according to an embodiment of the present disclosure.

일 실시예에서, 디바이스(1000)를 소지하고 촬영하는 사람이 직접 음향을 발생시키는 음원 SS111이 될 수 있다. 디바이스(1000)를 소지하고 촬영하는 사람은 화면 상에 나타나는 경우도 있으나, 나타나지 않는 경우도 있을 수 있다. In one embodiment, a person carrying the device 1000 and taking pictures may directly become a sound source SS111 that generates sound. The person carrying the device 1000 and taking pictures may appear on the screen, but may not appear on the screen in other cases.

음향을 유닛 음향 데이터로 분리하는 동작에 있어서, 음원 SS111의 음원 이미지가 화면 상에 존재하는 경우, 음향-이미지 매칭 모델을 이용할 수 있다. 음원 SS111이 화면 상에 나타나지 않아 음원 이미지가 존재하지 않는 경우, 화면 상에 나타난 다른 음원 SS112에 대응하는 유닛 음향 데이터 A2를 분리하고 남은 음향 데이터를 음원 SS111에 대응하는 유닛 음향 데이터 A1으로 결정할 수 있다.In the operation of separating sound into unit sound data, if the sound source image of the sound source SS111 exists on the screen, the sound-image matching model can be used. If the sound source SS111 does not appear on the screen and there is no sound source image, the unit sound data A2 corresponding to the other sound source SS112 that appears on the screen can be separated and the remaining sound data can be determined as unit sound data A1 corresponding to the sound source SS111. .

도 11의 (a)를 참조하면, 입력 음향에 있에서, 디바이스(1000)로부터 가까운 곳에 위치한 음원 SS111이 발생시킨 유닛 음향 데이터 A1은 디바이스(1000)에서 먼 곳에 위치한 음원 SS112가 발생시킨 유닛 음향 데이터 A2에 비해 음량이 클 수 있다.Referring to (a) of FIG. 11, in the input sound, unit sound data A1 generated by the sound source SS111 located close to the device 1000 is unit sound data generated by the sound source SS112 located far from the device 1000. The volume may be louder than A2.

도 11의 (b)를 참조하면, 디바이스(1000)는 영상의 음질을 향상시키기 위해, 유닛 음향 데이터 A1의 음량을 줄이고, 유닛 음향 데이터 A2의 음량을 키워 A1과 A2의 음량을 같은 레벨로 조정할 수 있다. 유닛 음향 데이터 A1 및 A2의 음량이 동일한 레벨로 조정되면, 영상의 전체적인 음향의 음량이 일정하게 유지될 수 있으므로, 영상의 음질이 향상될 수 있다.Referring to (b) of FIG. 11, in order to improve the sound quality of the video, the device 1000 reduces the volume of unit sound data A1 and increases the volume of unit sound data A2 to adjust the volume of A1 and A2 to the same level. You can. If the volume of unit sound data A1 and A2 is adjusted to the same level, the overall sound volume of the image can be maintained constant, and thus the sound quality of the image can be improved.

도 12는 본 개시의 일 실시예에 따른 디바이스(1000)가 추적된 음원의 움직임에 따라 유닛 음향 데이터의 음량을 개별적으로 조정하는 예시를 나타내는 도면이다.FIG. 12 is a diagram illustrating an example in which the device 1000 individually adjusts the volume of unit sound data according to the movement of a tracked sound source according to an embodiment of the present disclosure.

일 실시예에서, 디바이스(1000)가 촬영 중인 피사체(음원)(SS120)는 음향을 발생시키면서 이동중일 수 있다. 예를 들어, 피사체는 초기 위치(SS120i) 및 최종 위치(SS120f)를 가질 수 있다. 일 실시예에서, 피사체는 디바이스(1000)에서 멀어지는 방향으로 이동할 수 있다. 이 때, 피사체의 초기 위치(SS120i)는 디바이스(1000)에서 상대적으로 가깝고, 피사체의 최종 위치(SS120f)는 디바이스(1000)에서 상대적으로 멀 수 있다.In one embodiment, the subject (sound source) SS120 that the device 1000 is photographing may be moving while generating sound. For example, the subject may have an initial position (SS120i) and a final position (SS120f). In one embodiment, the subject may move in a direction away from the device 1000. At this time, the initial position (SS120i) of the subject may be relatively close to the device 1000, and the final position (SS120f) of the subject may be relatively far from the device 1000.

도 12의 (a)를 참조하면, 피사체의 초기 위치(SS120i)에서 발생한 초기 입력 음향(Ai)의 음량은 크고, 음원이 디바이스(1000)에서 멀어질수록 음량이 작아질 수 있다. 피사체의 최종 위치(SS120f)에서 발생한 최종 입력 음향(Af)의 음량은 상대적으로 작을 수 있다.Referring to (a) of FIG. 12, the volume of the initial input sound (Ai) generated at the initial position (SS120i) of the subject is high, and the volume may become low as the sound source moves away from the device 1000. The volume of the final input sound (Af) generated at the final position of the subject (SS120f) may be relatively small.

도 12의 (b)를 참조하면, 일 실시예에서, 디바이스(1000)는 영상의 음질을 향상시키기 위해, 초기 입력 음향(Ai)의 음량을 줄이고, 최종 입력 음향(Af)의 음량을 키우는 등, 시간에 따른 음량의 조정 정보를 포함하는 음량 보정 곡선을 획득할 수 있다. 디바이스(1000)는 획득한 음량 보정 곡선을 이용하여 음향의 음량을 조정할 수 있고, 영상의 전체 실행 시간 내에 출력 음향의 음량이 동일한 레벨로 유지되도록 할 수 있다.Referring to (b) of FIG. 12, in one embodiment, in order to improve the sound quality of the image, the device 1000 reduces the volume of the initial input sound (Ai), increases the volume of the final input sound (Af), etc. , a volume correction curve containing volume adjustment information over time can be obtained. The device 1000 can adjust the volume of the sound using the obtained volume correction curve and keep the volume of the output sound at the same level throughout the entire running time of the video.

도 13은 본 개시의 일 실시예에 따른 디바이스(1000)가 추적된 음원의 움직임에 따라 유닛 음향 데이터의 음량을 조정하고, 조정된 유닛 음향 데이터로부터 멀티 채널을 갖는 출력 음향을 획득하는 예시를 나타내는 도면이다.Figure 13 shows an example in which the device 1000 according to an embodiment of the present disclosure adjusts the volume of unit sound data according to the movement of the tracked sound source and obtains output sound with multi-channel from the adjusted unit sound data. It is a drawing.

일 실시예에서, 디바이스(1000)가 촬영 중인 피사체(음원)(SS130)는 음향을 발생시키면서, 디바이스(1000)에 대해 상대적으로 이동할 수 있다. 초기 시간(Ti)에서, 피사체는 디바이스(1000)의 먼 우측에 위치하였다가, 최종 시간(Tf)로 갈수록 디바이스(1000)에 가까운 좌측으로 이동할 수 있다. 이 때, 피사체의 초기 위치(SS130i)는 디바이스(1000)에서 상대적으로 멀고, 피사체의 최종 위치(SS130f)는 디바이스(1000)에서 상대적으로 가까울 수 있다.In one embodiment, the subject (sound source) SS130 that the device 1000 is photographing may move relative to the device 1000 while generating sound. At the initial time (Ti), the subject may be located far to the right of the device 1000, and may move to the left closer to the device 1000 as the final time (Tf) approaches. At this time, the initial position (SS130i) of the subject may be relatively far from the device 1000, and the final position (SS130f) of the subject may be relatively close to the device 1000.

도 13의 (a)를 참조하면, 초기 시간(Ti)에서, 초기 위치(SS130i)로부터 발생한 초기 입력 음향(Ai)의 음량은 작을 수 있다. 음원(SS130)이 디바이스(1000)에 가까워질수록 음량이 커지며, 도 13의 (c)를 참조하면, 최종 시간(Tf)에서, 최종 위치(SS130f)로부터 발생한 최종 입력 음향(Af)의 음량은 상대적으로 클 수 있다.Referring to (a) of FIG. 13, at the initial time Ti, the volume of the initial input sound Ai generated from the initial position SS130i may be low. As the sound source (SS130) approaches the device 1000, the volume increases. Referring to (c) of FIG. 13, the volume of the final input sound (Af) generated from the final position (SS130f) at the final time (Tf) is It can be relatively large.

일 실시예에서, 디바이스(1000)는 영상의 음질을 향상시키기 위해, 초기 입력 음향(Ai)의 음량을 키우고, 최종 입력 음향(Af)의 음량을 줄이는 등, 시간에 따른 음량의 조정 정보를 포함하는 음량 보정 곡선을 획득할 수 있다. 디바이스(1000)는 획득한 음량 보정 곡선을 이용하여 음향의 음량을 조정할 수 있고, 영상의 전체 실행 시간 내에 출력 음향의 음량이 동일한 레벨로 유지되도록 할 수 있다.In one embodiment, the device 1000 includes information on adjusting the volume over time, such as increasing the volume of the initial input sound (Ai) and decreasing the volume of the final input sound (Af), in order to improve the sound quality of the image. A volume correction curve can be obtained. The device 1000 can adjust the volume of the sound using the obtained volume correction curve and keep the volume of the output sound at the same level throughout the entire running time of the video.

더욱 실감나는 음질을 획득하기 위해, 디바이스(1000)는 음원의 위치에 따라 출력 음향을 멀티 채널 오디오로 렌더링할 수 있다. 예를 들어, 음원(SS130i)이 화면 상 우측에 위치하는 초기 시간(Ti) 부근에서는 우채널(RCi)의 음량을 키워 렌더링할 수 있다. 도 13의 (b)를 참조하면, 초기 시간(Ti)에서, 출력 음향은 우채널(RCi)의 음량은 크고, 좌채널(LCi)의 음량은 작게 조정될 수 있다.To obtain more realistic sound quality, the device 1000 may render output sound as multi-channel audio according to the location of the sound source. For example, near the initial time (Ti) when the sound source (SS130i) is located on the right side of the screen, the volume of the right channel (RCi) can be increased and rendered. Referring to (b) of FIG. 13, at the initial time Ti, the output sound can be adjusted so that the volume of the right channel (RCi) is high and the volume of the left channel (LCi) is low.

도 13의 (d)를 참조하면, 음원(SS130f)이 화면 상 좌측에 위치하는 최종 시간(Tf) 부근에서는 좌채널(LCf)의 음향이 우채널(RCf)의 음향보다 잘 들리도록 우채널(RCf)의 음량을 줄여 렌더링할 수 있다. 예를 들어, 최종 시간(Tf)에서, 출력 음향은 우채널(RCf)의 음량은 작고, 좌채널(LCf)의 음량은 크게 조정될 수 있다.Referring to (d) of FIG. 13, near the final time (Tf) when the sound source (SS130f) is located on the left side of the screen, the right channel (LCf) is used so that the sound of the left channel (LCf) can be heard better than the sound of the right channel (RCf). RCf) can be rendered by reducing the volume. For example, at the final time Tf, the output sound may be adjusted so that the volume of the right channel (RCf) is low and the volume of the left channel (LCf) is high.

도 14는 본 개시의 일 실시예에 따른 디바이스(1000)가 보조 입력부(2200)를 통해 추가적인 음향을 획득하고, 멀티 채널을 갖는 출력 음향을 획득하는 예시를 나타내는 도면이다.FIG. 14 is a diagram illustrating an example in which the device 1000 acquires additional sound through the auxiliary input unit 2200 and obtains output sound having multiple channels according to an embodiment of the present disclosure.

일 실시예에서, 디바이스(1000)는 입력부를 통해 직접 획득한 음향 A1 및 디바이스(1000) 외부의 보조 입력부(2200)를 통해 획득한 음향 A2를 포함하는 음향을 획득할 수 있다. 보조 입력부(2200)는 예를 들어, 마이크를 포함하는 웨어러블 디바이스(wearable device)일 수 있다.In one embodiment, the device 1000 may acquire sound including sound A1 obtained directly through the input unit and sound A2 acquired through the auxiliary input unit 2200 external to the device 1000. For example, the auxiliary input unit 2200 may be a wearable device including a microphone.

도 14의 (a)를 참조하면, 음원(SS140)이 디바이스(1000)로부터 먼 곳에 위치하는 경우, 디바이스(1000)의 입력부에서 직접 획득한 음향(A1)은 음량이 작고, 신호 대 잡음비가 낮을 수 있다. 한편, 보조 입력부(2200)는 항상 음원(SS140)으로부터 가까운 곳에 위치하므로, 보조 입력부(2200)를 통해 획득한 음향(A2)은 음량이 크고 선명하며, 신호 대 잡음비가 높다.Referring to (a) of FIG. 14, when the sound source SS140 is located far from the device 1000, the sound A1 directly obtained from the input unit of the device 1000 has a low volume and a low signal-to-noise ratio. You can. Meanwhile, since the auxiliary input unit 2200 is always located close to the sound source SS140, the sound A2 obtained through the auxiliary input unit 2200 is loud and clear, and has a high signal-to-noise ratio.

신호 대 잡음비(Signal-to-Noise Ratio, SNR)는 신호의 세기와 노이즈의 세기의 비율이다. 일 실시예에서, 신호 대 잡음비에 있어서 신호는 유효한 음향 데이터를 의미할 수 있다. 신호 대 잡음비가 높을수록 노이즈가 적음을 의미한다.Signal-to-Noise Ratio (SNR) is the ratio of the intensity of the signal and the intensity of noise. In one embodiment, in terms of signal-to-noise ratio, a signal may mean valid acoustic data. A higher signal-to-noise ratio means less noise.

일 실시예에서, 디바이스(1000)는, 영상의 음질을 향상시키기 위해, 보조 입력부(2200)에서 획득한 음향(A2)을 이용하여 음향의 노이즈를 줄이고, 출력 음향의 음량을 기 설정된 레벨로 조정할 수 있다.In one embodiment, in order to improve the sound quality of the image, the device 1000 reduces sound noise using the sound A2 obtained from the auxiliary input unit 2200 and adjusts the volume of the output sound to a preset level. You can.

더욱 실감나는 음질을 획득하기 위해, 디바이스(1000)는 음원(SS140)의 위치에 따라 출력 음향을 멀티 채널 오디오로 렌더링할 수 있다. 예를 들어, 도 14를 참조하면 음원(SS140)이 화면 상 우측에 위치할 수 있다. 도 14의 (b)를 참조하면, 이 경우, 좌측 채널(LC)의 음량은 작고, 우측 채널(RC)의 음량은 크게 조정하여 출력 음향을 렌더링할 수 있다.To obtain more realistic sound quality, the device 1000 may render output sound as multi-channel audio according to the location of the sound source SS140. For example, referring to FIG. 14, the sound source SS140 may be located on the right side of the screen. Referring to (b) of FIG. 14, in this case, the output sound can be rendered by adjusting the volume of the left channel (LC) to be low and the volume of the right channel (RC) to be high.

본 개시의 일 실시예는, 영상의 이미지로부터 적어도 하나의 음원(sound source)을 나타내는 음원 이미지를 분리하고, 영상의 음향을 동일한 음원에서의 발생 여부에 따라 유닛 음향 데이터로 분리함으로써, 입력 음향의 채널 개수와 관계 없이 음향을 처리할 수 있다. 또한, 분리된 유닛 음향 데이터를 단일한 채널 또는 멀티 채널로 렌더링함으로써, 입력 음향의 채널과 무관하게 출력 음향의 채널 개수를 조절할 수 있다. 본 개시의 일 실시예는, 분리된 음원 이미지와 유닛 음향 데이터를 각각 매칭시키고, 유닛 음향 데이터 각각의 음량(loudness)을 조정함으로써, 출력 영상의 음질을 향상시킬 수 있다.In one embodiment of the present disclosure, a sound source image representing at least one sound source is separated from a video image, and the sound of the video is separated into unit sound data depending on whether it occurs from the same sound source, so that the input sound Sound can be processed regardless of the number of channels. Additionally, by rendering the separated unit sound data into a single channel or multi-channel, the number of channels of the output sound can be adjusted regardless of the channel of the input sound. In one embodiment of the present disclosure, the sound quality of the output image can be improved by matching the separated sound source image and the unit sound data and adjusting the loudness of each unit sound data.

뿐만 아니라, 본 개시의 일 실시예는, 모바일 디바이스에 포함된 입력부를 통해 영상을 촬영하고, 모바일 디바이스에 포함된 프로세서가 자동으로 촬영된 영상의 음향 처리를 수행함으로써, 음질의 향상을 위해 별도의 음향 장비가 요구되지 않고, 사용자가 수동으로 후처리 동작을 수행하지 않을 수 있다.In addition, in one embodiment of the present disclosure, an image is captured through an input unit included in a mobile device, and a processor included in the mobile device automatically performs sound processing of the captured image, thereby providing a separate device to improve sound quality. No audio equipment is required, and the user may not manually perform post-processing operations.

본 개시의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 또는 프로그램 모듈과 같은 변조된 데이터 신호의 기타 데이터를 포함할 수 있다.An embodiment of the present disclosure may also be implemented in the form of a recording medium containing instructions executable by a computer, such as program modules executed by a computer. Computer-readable media can be any available media that can be accessed by a computer and includes both volatile and non-volatile media, removable and non-removable media. Computer-readable media may also include computer storage media and communication media. Computer storage media includes both volatile and non-volatile, removable and non-removable media implemented in any method or technology for storage of information such as computer-readable instructions, data structures, program modules or other data. Communication media typically may include computer readable instructions, data structures, or other data such as modulated data signals, program modules.

또한, 컴퓨터에 의해 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적 저장매체'는 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다. 예로, '비일시적 저장매체'는 데이터가 임시적으로 저장되는 버퍼를 포함할 수 있다.Additionally, computer-readable storage media may be provided in the form of non-transitory storage media. Here, 'non-transitory storage medium' only means that it is a tangible device and does not contain signals (e.g. electromagnetic waves). This term refers to cases where data is semi-permanently stored in a storage medium and temporary storage media. It does not distinguish between cases where it is stored as . For example, a 'non-transitory storage medium' may include a buffer where data is temporarily stored.

일 실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두 개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.According to one embodiment, methods according to various embodiments disclosed in this document may be provided and included in a computer program product. Computer program products are commodities and can be traded between sellers and buyers. The computer program product may be distributed in the form of a machine-readable storage medium (e.g. compact disc read only memory (CD-ROM)) or via an application store (e.g. Play StoreTM) or on two user devices (e.g. It can be distributed (e.g. downloaded or uploaded) directly between smartphones) or online. In the case of online distribution, at least a portion of the computer program product (e.g., a downloadable app) is stored on a machine-readable storage medium, such as the memory of a manufacturer's server, an application store's server, or a relay server. It can be temporarily stored or created temporarily.

또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.Additionally, in this specification, “unit” may be a hardware component such as a processor or circuit, and/or a software component executed by the hardware component such as a processor.

본 개시에 따른 인공지능과 관련된 기능은 프로세서와 메모리를 통해 동작된다. 프로세서는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.Functions related to artificial intelligence according to the present disclosure are operated through a processor and memory. The processor may consist of one or multiple processors. At this time, one or more processors may be a general-purpose processor such as a CPU, AP, or DSP (Digital Signal Processor), a graphics-specific processor such as a GPU or VPU (Vision Processing Unit), or an artificial intelligence-specific processor such as an NPU. One or more processors control input data to be processed according to predefined operation rules or artificial intelligence models stored in memory. Alternatively, when one or more processors are dedicated artificial intelligence processors, the artificial intelligence dedicated processors may be designed with a hardware structure specialized for processing a specific artificial intelligence model.

기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.Predefined operation rules or artificial intelligence models are characterized by being created through learning. Here, being created through learning means that the basic artificial intelligence model is learned using a large number of learning data by a learning algorithm, thereby creating a predefined operation rule or artificial intelligence model set to perform the desired characteristics (or purpose). It means burden. This learning may be performed on the device itself that performs the artificial intelligence according to the present disclosure, or may be performed through a separate server and/or system. Examples of learning algorithms include supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning, but are not limited to the examples described above.

인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN(Convolutional Neural Network), DNN(Deep Neural Network), RNN(Recurrent Neural Network), RBM(Restricted Boltzmann Machine), DBN(Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크(Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.An artificial intelligence model may be composed of multiple neural network layers. Each of the plurality of neural network layers has a plurality of weight values, and neural network calculation is performed through calculation between the calculation result of the previous layer and the plurality of weights. Multiple weights of multiple neural network layers can be optimized by the learning results of the artificial intelligence model. For example, a plurality of weights may be updated so that loss or cost values obtained from the artificial intelligence model are reduced or minimized during the learning process. The artificial neural network may include a deep neural network (DNN), for example, a convolutional neural network (CNN), a deep neural network (DNN), a recurrent neural network (RNN), a restricted Boltzmann machine (RBM), Deep Belief Network (DBN), Bidirectional Recurrent Deep Neural Network (BRDNN), or Deep Q-Networks, etc., but are not limited to the examples described above.

인공지능 모델은 학습을 통해 만들어 질 수 있다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다.Artificial intelligence models can be created through learning. Here, being created through learning means that the basic artificial intelligence model is learned using a large number of learning data by a learning algorithm, thereby creating a predefined operation rule or artificial intelligence model set to perform the desired characteristics (or purpose). It means burden. An artificial intelligence model may be composed of multiple neural network layers. Each of the plurality of neural network layers has a plurality of weight values, and neural network calculation is performed through calculation between the calculation result of the previous layer and the plurality of weights.

전술한 본 개시의 설명은 예시를 위한 것이며, 본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 본 개시의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.The foregoing description of the present disclosure is for illustrative purposes, and a person skilled in the art to which the present disclosure pertains will understand that the present disclosure can be easily modified into another specific form without changing its technical idea or essential features. will be. Therefore, the embodiments described above should be understood in all respects as illustrative and not restrictive. For example, each component described as single may be implemented in a distributed manner, and similarly, components described as distributed may also be implemented in a combined form.

본 개시의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 개시의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present disclosure is indicated by the claims described below rather than the detailed description above, and all changes or modified forms derived from the meaning and scope of the claims and their equivalent concepts should be construed as being included in the scope of the present disclosure. do.

Claims (21)

디바이스가 영상의 음질을 향상시키는 방법에 있어서,
영상을 획득하는 단계;
상기 획득한 영상으로부터 음향(sound) 및 이미지(image)를 획득하는 단계;
상기 획득한 이미지로부터 적어도 하나의 음원(sound source)을 나타내는 음원 이미지를 획득하는 단계;
상기 획득한 음향으로부터, 상기 적어도 하나의 음원에 대응하는 적어도 하나의 유닛 음향 데이터를 획득하는 단계;
기 설정된 음향-이미지 매칭 모델을 적용하여, 상기 적어도 하나의 음원 이미지 및 상기 적어도 하나의 유닛 음향 데이터를 각각 매칭하는 단계;
상기 음원 이미지로부터 상기 적어도 하나의 음원의 움직임을 추적하는 단계; 및
상기 추적된 음원의 움직임에 따라 상기 유닛 음향 데이터의 음량(loudness)을 개별적으로 조정하는 단계;
를 포함하고,
상기 음향-이미지 매칭 모델은 특정 음원의 이미지와 상기 특정 음원이 발생시키는 음향 간의 매칭 정보를 포함하는, 방법.
In a method for a device to improve the sound quality of an image,
Acquiring an image;
Obtaining sound and image from the acquired image;
Obtaining a sound source image representing at least one sound source from the acquired image;
Obtaining at least one unit sound data corresponding to the at least one sound source from the acquired sound;
Applying a preset sound-image matching model to match the at least one sound source image and the at least one unit sound data;
tracking the movement of the at least one sound source from the sound source image; and
individually adjusting the loudness of the unit sound data according to the movement of the tracked sound source;
Including,
The sound-image matching model includes matching information between an image of a specific sound source and a sound generated by the specific sound source.
제1항에 있어서,
상기 영상을 획득하는 단계는,
상기 디바이스에 포함된 입력부를 통해 영상을 획득하는 것을 포함하고,
상기 입력부는 음향(sound)을 획득하는 마이크 및 이미지(image)를 획득하는 카메라를 포함하는, 방법.
According to paragraph 1,
The step of acquiring the image is,
Including acquiring an image through an input unit included in the device,
The input unit includes a microphone for acquiring sound and a camera for acquiring an image.
제1항에 있어서,
상기 영상을 획득하는 단계는,
상기 디바이스에 포함된 입력부 및 상기 디바이스 외부의 보조 입력부를 통해 영상을 획득하는 것을 포함하고,
상기 입력부는 음향(sound)을 획득하는 마이크 및 이미지(image)를 획득하는 카메라를 포함하고,
상기 보조 입력부는 추가적인 음향을 획득하는 보조 마이크를 포함하는, 방법.
According to paragraph 1,
The step of acquiring the image is,
Including acquiring an image through an input unit included in the device and an auxiliary input unit outside the device,
The input unit includes a microphone for acquiring sound and a camera for acquiring an image,
The method wherein the auxiliary input unit includes an auxiliary microphone for acquiring additional sound.
제1항에 있어서,
상기 획득한 음향으로부터, 상기 적어도 하나의 음원에 대응하는 적어도 하나의 유닛 음향 데이터를 획득하는 단계는,
상기 음향을 진폭, 주파수, 위상, 파형 및 스펙트럼에 따라 적어도 하나 의 유닛 음향 데이터로 분리하는 것을 포함하고,
상기 진폭, 주파수, 위상, 파형 및 스펙트럼이 동일한 두 개 이상의 유닛 음향 데이터들이 존재하는 경우, 상기 음원 이미지를 이용하여 상기 두 개 이상의 유닛 음향 데이터를 각각의 유닛 음향 데이터로 분리하는 것을 포함하는, 방법.
According to paragraph 1,
Obtaining at least one unit sound data corresponding to the at least one sound source from the acquired sound,
comprising separating the sound into at least one unit sound data according to amplitude, frequency, phase, waveform and spectrum,
When two or more unit sound data having the same amplitude, frequency, phase, waveform and spectrum exist, a method comprising separating the two or more unit sound data into individual unit sound data using the sound source image. .
제1항에 있어서,
상기 기 설정된 음향-이미지 매칭 모델을 적용하여, 상기 적어도 하나 의 음원 이미지 및 상기 적어도 하나의 유닛 음향 데이터를 각각 매칭하는 단계는,
상기 음원 이미지에서 획득한 정보를 추가로 이용하여 상기 적어도 하나 의 음원 이미지 및 상기 적어도 하나의 유닛 음향 데이터를 각각 매칭하는 것을 포함하는, 방법.
According to paragraph 1,
The step of applying the preset sound-image matching model to match the at least one sound source image and the at least one unit sound data, respectively,
A method comprising matching the at least one sound source image and the at least one unit sound data by additionally using information obtained from the sound source image.
제1항에 있어서,
상기 음원 이미지로부터 상기 적어도 하나의 음원의 움직임을 추적하는 단계는, 상기 음원 이미지의 상태 변화를 통해 해당 음원의 움직임을 추적하는 것을 포함하는, 방법.
According to paragraph 1,
The step of tracking the movement of the at least one sound source from the sound source image includes tracking the movement of the sound source through a change in the state of the sound source image.
제1항에 있어서,
상기 음원 이미지로부터 상기 적어도 하나의 음원의 움직임을 추적하는 단계는, 가속도계(accelerometer), 자이로스코프(gyroscope) 및 지자기계(magnetometer)를 포함하는 모션 센서로부터 획득된 디바이스의 움직임 정보를 이용하여, 상기 음원 이미지의 상태 변화를 통해 해당 음원의 움직임을 추적하는 것을 포함하는, 방법.
According to paragraph 1,
The step of tracking the movement of the at least one sound source from the sound source image uses movement information of the device obtained from a motion sensor including an accelerometer, a gyroscope, and a magnetometer, A method comprising tracking the movement of a sound source through changes in the state of the sound source image.
제1항에 있어서,
상기 추적된 음원의 움직임에 따라 상기 유닛 음향 데이터의 음량을 개별적으로 조정하는 단계는,
각각의 유닛 음향 데이터의 전체 실행 시간의 음량 곡선을 획득하는 단계;
상기 각각의 유닛 음향 데이터에 대해 수행할 조정 정보를 포함하는 음량 보정 곡선을 획득하는 단계; 및
상기 음량 보정 곡선을 기반으로 상기 각각의 유닛 음향 데이터의 음량을 개별적으로 조정하는 단계를 포함하는, 방법.
According to paragraph 1,
The step of individually adjusting the volume of the unit sound data according to the movement of the tracked sound source,
Obtaining a volume curve of the entire execution time of each unit sound data;
Obtaining a volume correction curve including adjustment information to be performed for each unit sound data; and
Method comprising individually adjusting the volume of each unit sound data based on the volume correction curve.
제1항에 있어서,
상기 음량이 개별적으로 조정된 유닛 음향 데이터로부터 출력 음향을 획득하는 단계; 및
상기 출력 음향 및 상기 이미지로부터 출력 영상을 획득하는 단계;
를 더 포함하는, 방법.
According to paragraph 1,
Obtaining output sound from unit sound data whose volume is individually adjusted; and
Obtaining an output image from the output sound and the image;
A method further comprising:
제9항에 있어서,
상기 음량이 개별적으로 조정된 유닛 음향 데이터로부터 출력 음향을 획득하는 단계는,
상기 유닛 음향 데이터를 두 개 이상의 채널로 분류하여 렌더링하고, 멀티 채널을 갖는 출력 음향을 획득하는 것을 포함하는, 방법.
According to clause 9,
The step of obtaining output sound from unit sound data whose volume is individually adjusted,
A method comprising classifying and rendering the unit sound data into two or more channels and obtaining output sound having multi-channels.
영상의 음질을 향상시키는 디바이스에 있어서,
영상을 획득하는 입력부;
출력 영상을 출력하는 출력부;
하나 이상의 명령어들(instructions)을 포함하는 프로그램을 저장하는 메모리; 및
상기 메모리에 저장된 하나 이상의 명령어들을 실행하는 적어도 하나의 프로세서를 포함하고,
상기 적어도 하나의 프로세서는,
상기 입력부를 제어함으로써, 영상을 획득하고,
상기 획득한 영상으로부터 음향(sound) 및 이미지(image)를 획득하고,
상기 획득한 이미지로부터 적어도 하나의 음원(sound source)을 나타내는 음원 이미지를 획득하고,
상기 획득한 음향으로부터, 상기 적어도 하나의 음원에 대응하는 적어도 하나의 유닛 음향 데이터를 획득하고,
기 설정된 음향-이미지 매칭 모델을 적용하여, 상기 적어도 하나 의 음원 이미지 및 상기 적어도 하나의 유닛 음향 데이터를 각각 매칭하고,
상기 음원 이미지로부터 상기 적어도 하나의 음원의 움직임을 추적하고,
상기 추적된 음원의 움직임에 따라 상기 유닛 음향 데이터의 음량(loudness)을 개별적으로 조정하고,
상기 음향-이미지 매칭 모델은 특정 음원의 이미지와 상기 특정 음원이 발생시키는 음향 간의 매칭 정보를 포함하는, 디바이스.
In a device that improves the sound quality of video,
An input unit that acquires an image;
An output unit that outputs an output image;
Memory that stores a program containing one or more instructions; and
At least one processor executing one or more instructions stored in the memory,
The at least one processor,
By controlling the input unit, an image is acquired,
Obtaining sound and images from the acquired image,
Obtaining a sound source image representing at least one sound source from the acquired image,
Obtaining at least one unit sound data corresponding to the at least one sound source from the acquired sound,
Applying a preset sound-image matching model to match the at least one sound source image and the at least one unit sound data, respectively,
Tracking the movement of the at least one sound source from the sound source image,
Individually adjusting the loudness of the unit sound data according to the movement of the tracked sound source,
The sound-image matching model includes matching information between the image of a specific sound source and the sound generated by the specific sound source.
제11항에 있어서,
상기 입력부는, 음향(sound)을 획득하는 마이크 및 이미지(image)를 획득하는 카메라를 포함하는, 디바이스.
According to clause 11,
The input unit is a device including a microphone that acquires sound and a camera that acquires an image.
제11항에 있어서,
상기 프로세서는 상기 하나 이상의 명령어들을 실행하여,
상기 디바이스 외부의 보조 마이크를 통해 추가적인 음향을 획득하는, 디바이스.
According to clause 11,
The processor executes the one or more instructions,
A device that acquires additional sound through an auxiliary microphone external to the device.
제11항에 있어서,
상기 프로세서는 상기 하나 이상의 명령어들을 실행하여,
상기 음향을 진폭, 주파수, 위상, 파형 및 스펙트럼에 따라 적어도 하나 의 유닛 음향 데이터로 분리하고,
상기 진폭, 주파수, 위상, 파형 및 스펙트럼이 전부 동일한 두 개 이상의 유닛 음향 데이터들이 존재하는 경우, 상기 음원 이미지를 이용하여 상기 두 개 이상의 유닛 음향 데이터를 각각의 유닛 음향 데이터로 분리함으로써,
상기 획득한 음향으로부터, 상기 적어도 하나의 음원에 대응하는 적어도 하나의 유닛 음향 데이터를 획득하는, 디바이스.
According to clause 11,
The processor executes the one or more instructions,
Separating the sound into at least one unit sound data according to amplitude, frequency, phase, waveform and spectrum,
When there are two or more unit sound data having the same amplitude, frequency, phase, waveform and spectrum, by separating the two or more unit sound data into individual unit sound data using the sound source image,
A device that acquires at least one unit sound data corresponding to the at least one sound source from the acquired sound.
제11항에 있어서,
상기 프로세서는 상기 하나 이상의 명령어들을 실행하여,
상기 음원 이미지에서 획득한 정보를 추가로 이용하여 상기 적어도 하나 의 음원 이미지 및 상기 적어도 하나의 유닛 음향 데이터를 각각 매칭함으로써,
상기 기 설정된 음향-이미지 매칭 모델을 적용하여, 상기 적어도 하나 의 음원 이미지 및 상기 적어도 하나의 유닛 음향 데이터를 각각 매칭하는, 디바이스.
According to clause 11,
The processor executes the one or more instructions,
By additionally using information obtained from the sound source image to match the at least one sound source image and the at least one unit sound data,
A device that applies the preset sound-image matching model to match the at least one sound source image and the at least one unit sound data, respectively.
제11항에 있어서,
상기 프로세서는 상기 하나 이상의 명령어들을 실행하여,
상기 음원 이미지의 상태 변화를 통해 해당 음원의 움직임을 추적하는, 디바이스.
According to clause 11,
The processor executes the one or more instructions,
A device that tracks the movement of the sound source through changes in the state of the sound source image.
제11항에 있어서,
상기 프로세서는 상기 하나 이상의 명령어들을 실행하여,
가속도계(accelerometer), 자이로스코프(gyroscope) 및 지자기계(magnetometer)를 포함하는 모션 센서로부터 획득된 디바이스의 움직임 정보를 이용하여, 상기 음원 이미지의 상태 변화를 통해 해당 음원의 움직임을 추적하는, 디바이스.
According to clause 11,
The processor executes the one or more instructions,
A device that tracks the movement of the sound source through changes in the state of the sound source image, using device movement information obtained from a motion sensor including an accelerometer, gyroscope, and magnetometer.
제11항에 있어서,
상기 프로세서는 상기 하나 이상의 명령어들을 실행하여,
각각의 유닛 음향 데이터의 전체 실행 시간의 음량 곡선을 획득하고,
상기 각각의 유닛 음향 데이터에 대해 수행할 조정 정보를 포함하는 음량 보정 곡선을 획득하고,
상기 음량 보정 곡선을 기반으로 상기 각각의 유닛 음향 데이터의 음량을 개별적으로 조정함으로써,
상기 추적된 음원의 움직임에 따라 상기 유닛 음향 데이터의 음량을 개별적으로 조정하는, 디바이스.
According to clause 11,
The processor executes the one or more instructions,
Obtain a volume curve of the entire execution time of each unit sound data,
Obtaining a volume correction curve containing adjustment information to be performed for each unit sound data,
By individually adjusting the volume of each unit sound data based on the volume correction curve,
A device that individually adjusts the volume of the unit sound data according to the movement of the tracked sound source.
제11항에 있어서,
상기 프로세서는 상기 하나 이상의 명령어들을 실행하여,
상기 음량이 개별적으로 조정된 유닛 음향 데이터로부터 출력 음향을 획득하고,
상기 출력 음향 및 상기 이미지로부터 출력 영상을 획득하는 것을 더 포함하는, 디바이스.
According to clause 11,
The processor executes the one or more instructions,
Obtaining output sound from unit sound data whose volume is individually adjusted,
The device further comprising obtaining an output image from the output sound and the image.
제19항에 있어서,
상기 프로세서는 상기 하나 이상의 명령어들을 실행하여,
상기 유닛 음향 데이터를 두 개 이상의 채널로 분류하여 렌더링하고, 멀티 채널을 갖는 출력 음향을 획득하는, 디바이스.
According to clause 19,
The processor executes the one or more instructions,
A device that classifies and renders the unit sound data into two or more channels and obtains output sound with multi-channel.
제1항 내지 제10항 중 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.A computer-readable recording medium recording a program for executing the method of any one of claims 1 to 10 on a computer.
KR1020200118500A 2020-09-15 2020-09-15 Device and method for enhancing the sound quality of video KR20220036210A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200118500A KR20220036210A (en) 2020-09-15 2020-09-15 Device and method for enhancing the sound quality of video
PCT/KR2021/002170 WO2022059869A1 (en) 2020-09-15 2021-02-22 Device and method for enhancing sound quality of video

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200118500A KR20220036210A (en) 2020-09-15 2020-09-15 Device and method for enhancing the sound quality of video

Publications (1)

Publication Number Publication Date
KR20220036210A true KR20220036210A (en) 2022-03-22

Family

ID=80776906

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200118500A KR20220036210A (en) 2020-09-15 2020-09-15 Device and method for enhancing the sound quality of video

Country Status (2)

Country Link
KR (1) KR20220036210A (en)
WO (1) WO2022059869A1 (en)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3168781B2 (en) * 1993-09-02 2001-05-21 株式会社セガ Image and audio processing device
WO2006120829A1 (en) * 2005-05-13 2006-11-16 Matsushita Electric Industrial Co., Ltd. Mixed sound separating device
KR101561843B1 (en) * 2014-05-13 2015-10-20 (주) 로임시스템 Audio system for echo cancelation matched sound pickup area
EP3121814A1 (en) * 2015-07-24 2017-01-25 Sound object techology S.A. in organization A method and a system for decomposition of acoustic signal into sound objects, a sound object and its use
KR20200107758A (en) * 2019-03-08 2020-09-16 엘지전자 주식회사 Method and apparatus for sound object following

Also Published As

Publication number Publication date
WO2022059869A1 (en) 2022-03-24

Similar Documents

Publication Publication Date Title
US8917972B2 (en) Modifying audio in an interactive video using RFID tags
CN112165590B (en) Video recording implementation method and device and electronic equipment
CN102197646B (en) System and method for generating multichannel audio with a portable electronic device
JP4934580B2 (en) Video / audio recording apparatus and video / audio reproduction apparatus
US8170239B2 (en) Virtual recording studio
KR101958664B1 (en) Method and apparatus for providing various audio environment in multimedia contents playback system
JP2019523902A (en) Method and apparatus for generating a virtual or augmented reality presentation using 3D audio positioning
US11887616B2 (en) Audio processing
US20180341455A1 (en) Method and Device for Processing Audio in a Captured Scene Including an Image and Spatially Localizable Audio
EP2204029A1 (en) Technique for allowing the modification of the audio characteristics of items appearing in an interactive video using rfid tags
US11211074B2 (en) Presentation of audio and visual content at live events based on user accessibility
GB2582991A (en) Audio generation system and method
CN111787464B (en) Information processing method and device, electronic equipment and storage medium
CN112512649A (en) Techniques for providing audio and video effects
GB2557218A (en) Distributed audio capture and mixing
KR20220036210A (en) Device and method for enhancing the sound quality of video
US11513762B2 (en) Controlling sounds of individual objects in a video
JP5310682B2 (en) Karaoke equipment
CN115942108A (en) Video processing method and electronic equipment
JP2003079000A (en) Presence control system for video acoustic device
JP2016109971A (en) Signal processing system and control method of signal processing system
US20230267942A1 (en) Audio-visual hearing aid
US20240155289A1 (en) Context aware soundscape control
US20240127847A1 (en) Apparatus for processing video, and operation method of the apparatus
WO2023173285A1 (en) Audio processing method and apparatus, electronic device, and computer-readable storage medium

Legal Events

Date Code Title Description
A201 Request for examination