WO2022065981A1 - 동영상 처리 장치 및 방법 - Google Patents

동영상 처리 장치 및 방법 Download PDF

Info

Publication number
WO2022065981A1
WO2022065981A1 PCT/KR2021/013231 KR2021013231W WO2022065981A1 WO 2022065981 A1 WO2022065981 A1 WO 2022065981A1 KR 2021013231 W KR2021013231 W KR 2021013231W WO 2022065981 A1 WO2022065981 A1 WO 2022065981A1
Authority
WO
WIPO (PCT)
Prior art keywords
dnn
audio signal
audio
information
frequency
Prior art date
Application number
PCT/KR2021/013231
Other languages
English (en)
French (fr)
Inventor
남우현
손윤재
정현권
황성희
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020210007681A external-priority patent/KR102474248B1/ko
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to EP21873009.1A priority Critical patent/EP4203518A4/en
Priority to CN202180066099.3A priority patent/CN116210233A/zh
Publication of WO2022065981A1 publication Critical patent/WO2022065981A1/ko
Priority to US18/126,794 priority patent/US20230239643A1/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Definitions

  • the present disclosure relates to the field of processing a moving picture, and more particularly, to the field of generating a 3D audio signal. More specifically, the present disclosure relates to a field of generating a 3D audio signal including a plurality of channels based on artificial intelligence (AI) from a 2D audio signal.
  • AI artificial intelligence
  • the audio signal is generally a two-dimensional audio signal such as two-channel, 5.1-channel, 7.1-channel, and 9.1-channel audio signals.
  • a 3D audio signal (n-channel audio signal, or multi-channel audio signal; n is an integer greater than 2).
  • a general audio signal acquisition device eg, a microphone
  • a microphone can acquire only a two-dimensional audio signal
  • it secures an individual sound source from the two-dimensional audio signal considers the movement of the sound source, and performs three-dimensional mixing and monitoring through mixing and monitoring.
  • An audio signal was generated, but this was a very difficult and time consuming task.
  • a video processing apparatus includes a memory for storing one or more instructions; and at least one processor executing the one or more instructions stored in the memory, wherein the at least one processor analyzes a video signal including a plurality of images based on a first deep neural network (DNN) , and extracts the first elevation component and the first plane component corresponding to the motion of the object in the video from the video signal based on the second DNN, and the elevation component using the third DNN extracting a second plane component corresponding to the motion of the sound source in the audio from the first audio signal having no
  • DNN deep neural network
  • the at least one processor synchronizes the moving picture signal with the first audio signal when generating the plurality of time-specific frequency-specific feature information, and uses the first DNN for generating the plurality of time-specific frequency-specific feature information to generate M pieces of one-dimensional image feature map information (M is an integer greater than or equal to 1) according to the movement of an object in the video from the video signal, and frequency-related tiling of the one-dimensional image feature map information to generate the plurality of time-specific frequency-specific feature information including M image feature map information for time and frequency.
  • M is an integer greater than or equal to 1
  • the at least one processor extracts the first elevation component and the first plane component based on the second DNN, and extracts the second plane component based on the third DNN. Synchronized with the first audio signal and using the 2-1 DNN for extracting motion-corresponding feature map information in the horizontal direction in the video, corresponding to the first elevation component, N for time from the video signal +M (N, M are integers greater than or equal to 1) of motion-corresponding feature map information in the moving picture is extracted, and the motion-corresponding feature in the vertical direction in the moving picture corresponding to the first plane component is extracted.
  • N+M N, M are integers greater than or equal to 1 with respect to time from the video signal
  • a third DNN for extracting and extracting motion corresponding feature map information in the horizontal direction in the audio corresponding to the second plane component an integer greater than or equal to) in the audio, extracting motion corresponding feature map information in the horizontal direction
  • the processor is configured to generate a second elevation component from the first elevation component, the first plane component, and the second plane component.
  • the second elevation component When, based on the motion-corresponding feature map information in the horizontal direction in the video, the motion-corresponding feature map information in the vertical direction in the video, and the motion-corresponding feature map information in the audio in the horizontal direction, the second elevation component is generate corresponding, N+M correction map information for time, and perform frequency-related tiling on the N+M correction map information for time, corresponding to the second elevation component, for time and frequency It is characterized in that N+M pieces of correction map information are generated.
  • a frequency conversion operation is performed on the first audio signal to determine time for two channels and N for time and frequency (N is greater than or equal to 1) from time and frequency information for the two channels using a 4-1 DNN for generating frequency information and generating an audio feature in the first audio signal Generates an integer) pieces of audio feature map information, and M pieces of image feature map information for time and frequency included in the plurality of feature information for each time and frequency and N (N is an integer greater than or equal to 1) for the time and frequency ) based on the audio feature map information, generating N+M audio/video integrated feature map information, and using the 4-2 DNN for generating a frequency domain second audio signal, the N+M audio/video
  • the frequency domain second audio signal for n channels (n is an integer greater than 2) is generated from the image integrated feature map information, and the N+M Generate audio correction map information for n channels from the integrated audio/video feature map information and N+M correction map information for time
  • the at least one processor when generating N+M pieces of correction map information for the time, includes a first value of motion-corresponding feature map information in the horizontal direction in the video and a horizontal motion-corresponding feature in the audio Based on the proportional number set in consideration of the relationship between the second values of the map information and the third value of the feature map information corresponding to the motion in the vertical direction in the moving picture, the fourth value of the N+M correction map information for the time and generating N+M pieces of correction map information for the time including the fourth value.
  • a first DNN for generating the plurality of time-specific frequency-specific feature information, the first elevation component, and the The second DNN for extracting the first plane component, the third DNN for extracting the second plane component, and the fourth DNN for outputting the second audio signal are a first training two-dimensional audio signal, a first training image It is characterized in that training is performed according to a comparison result of the first frequency domain training 3D audio signal restored based on the signal and the first frequency domain training 3D audio signal obtained by frequency transforming the first training 3D audio signal. do.
  • N+M correction map information for the time and frequency is corrected based on user input parameter information
  • a fourth DNN for outputting the second audio signal includes a first training 2D audio signal, a first training image signal, and a frequency domain training reconstructed 3D audio signal and first training 3 reconstructed based on the user input parameter information. It is characterized in that the training is performed according to a comparison result of the first frequency domain training 3D audio signal obtained by frequency transforming the dimensional audio signal.
  • the first training 2D audio signal and the first training video signal are obtained from a portable terminal that is the same device as the video processing device or another device connected to the video processing device, and the first training 3D audio signal is the portable terminal It is characterized in that it is obtained from an ambisonic microphone included in or equipped with.
  • Parameter information of the first to fourth DNNs obtained as a result of training of the first DNN, the second DNN, the third DNN, and the fourth DNN is stored in the video processing device or received from a terminal connected to the video processing device characterized in that
  • a video processing method of a video processing apparatus includes the steps of analyzing a video signal including a plurality of images based on a first deep neural network (DNN) to generate a plurality of time-specific frequency-specific feature information; extracting a first elevation component and a first plane component corresponding to the motion of an object in the video from the video signal based on a second DNN; extracting, based on the third DNN, a second plane component corresponding to the motion of the sound source in the audio from the first audio signal having no elevation component; generating a second elevation component from the first elevation component, the first plane component, and the second plane component; outputting a second audio signal including the second elevation component based on the feature information; and synchronizing and outputting the second audio signal and the video signal.
  • DNN deep neural network
  • the generating of the plurality of time-specific feature information for each frequency may include: synchronizing the video signal with the first audio signal; M one-dimensional (M is an integer greater than or equal to 1) according to the movement of an object in a moving picture from the moving image signal using the first deep neural network (DNN) for generating the plurality of time-specific frequency-specific feature information generating image feature map information; and performing frequency-related tiling on the one-dimensional image feature map information to generate the plurality of time-specific frequency-specific feature information including M image feature map information for time and frequency. do it with
  • Extracting the first elevation component and the first plane component based on the second DNN and extracting the second plane component based on the third DNN may include converting the video signal to the first audio signal. synchronizing with the signal; N + M for time from the video signal using the 2-1 DNN for extracting motion corresponding feature map information in the horizontal direction in the video corresponding to the first elevation component (N, M is 1) extracting feature map information corresponding to motion in a horizontal direction in a moving picture of an integer greater than or equal to or greater than or equal to); N+M pieces for time from the video signal using a 2-2 DNN for extracting motion-corresponding feature map information in the vertical direction in the video corresponding to the first plane component (N, M is 1) extracting feature map information corresponding to motion in a vertical direction in a video of an integer greater than or equal to or greater than or equal to); N+M pieces (N, M are greater than or equal to 1) from the first audio signal using a third DNN for extracting motion corresponding feature map information in the horizontal direction in the audio corresponding to
  • the outputting of the second audio signal including the second elevation component based on the characteristic information includes: performing a frequency conversion operation on the first audio signal to obtain time and frequency information for two channels step; N (N is an integer greater than or equal to 1) audio feature maps for time and frequency from time and frequency information for the two channels using a 4-1 DNN for generating audio features in the first audio signal generating information; Based on M image feature map information for time and frequency and N (N is an integer greater than or equal to 1) audio feature map information for time and frequency included in the plurality of feature information for each time and frequency, generating N+M pieces of audio/video integrated feature map information; and the frequency domain second audio for n channels (n is an integer greater than 2) from the N+M audio/video integrated feature map information using a 4-2 DNN for generating a frequency domain second audio signal.
  • a first DNN for generating the plurality of time-specific frequency-specific feature information, the first elevation component, and the The second DNN for extracting the first plane component, the third DNN for extracting the second plane component, and the fourth DNN for outputting the second audio signal are a first two-dimensional training audio signal, a first corresponding training image It is characterized in that training is performed according to a comparison result of a first frequency domain training three-dimensional audio signal restored based on the signal and a first frequency domain training three-dimensional audio signal obtained by frequency-converting the first corresponding three-dimensional training audio signal. do it with
  • a computer-readable recording medium records a program for executing the method.
  • FIG. 1 is a block diagram illustrating a configuration of a video processing apparatus according to an embodiment.
  • FIG 2 is a diagram for explaining a specific operation of the image feature information generating unit 110, according to an embodiment.
  • FIG. 3 is a diagram for explaining the first DNN 300 according to an embodiment.
  • FIG. 4 is a diagram for explaining a specific operation of the correction information generating unit 120 according to an exemplary embodiment.
  • 5A to 5B are diagrams for explaining the theoretical background from which Equation 1 used to obtain the domain matching parameter ⁇ inf is derived.
  • FIG. 5C is a diagram for explaining an algorithm for estimating an altitude component of a sound source in an audio signal, which is necessary to generate a three-dimensional audio signal by analyzing the movement of an object in a moving picture signal and a movement of a sound source in a two-dimensional audio signal.
  • 6A is a diagram for explaining the 2-1 DNN 600 .
  • 6B is a diagram for explaining a 2-2 DNN 650 .
  • FIG. 7 is a diagram for explaining the third DNN 700 .
  • FIG. 8 is a diagram for explaining a detailed operation of the 3D audio output unit 130, according to an embodiment.
  • FIG. 9 is a diagram for explaining a 4-1 DNN 900 according to an embodiment.
  • FIG. 10 is a diagram for explaining a 4-2 DNN 1000 according to an embodiment.
  • 11 is a diagram for explaining a 4-3 DNN 1100 according to an embodiment.
  • FIG. 12 is a diagram for explaining a training method of a first DNN, a second DNN, a third DNN, and a fourth DNN.
  • FIG. 13 is a diagram for explaining a training method of a first DNN, a second DNN, a third DNN, and a fourth DNN in consideration of a user parameter signal.
  • FIG. 14 is a flowchart illustrating a training process of the first DNN, the second DNN, the third DNN, and the fourth DNN by the training apparatus 1400 .
  • 15 is a flowchart illustrating a training process of the first DNN, the second DNN, the third DNN, and the fourth DNN by the training apparatus 1500 in consideration of user parameters.
  • FIG. 16 is a diagram for explaining a process in which a user collects data for training by using the user terminal 1610 .
  • 17 is a flowchart illustrating a video processing method according to an embodiment.
  • a 3D audio signal may be generated using a 2D audio signal and a video signal corresponding thereto.
  • a component when referred to as “connected” or “connected” to another component, the component may be directly connected to or directly connected to the other component, but the opposite is particularly true. Unless there is a description to be used, it will be understood that it may be connected or connected through another element in the middle.
  • components expressed as ' ⁇ part (unit)', 'module', etc. are two or more components combined into one component, or two or more components for each more subdivided function. may be differentiated into.
  • each of the components to be described below may additionally perform some or all of the functions of other components in addition to the main functions they are responsible for, and some of the main functions of each component may have different functions. It goes without saying that it may be performed exclusively by the component.
  • 'deep neural network (DNN)' is a representative example of an artificial neural network model simulating a brain nerve, and is not limited to an artificial neural network model using a specific algorithm.
  • a 'parameter' is a value used in the calculation process of each layer constituting the neural network, and may include, for example, a weight (and bias) used when an input value is applied to a predetermined calculation expression.
  • a parameter may be expressed in a matrix form.
  • a parameter is a value set as a result of training, and may be updated through separate training data if necessary.
  • 'first DNN' means a DNN used to analyze a video signal including a plurality of images to generate a plurality of time-specific frequency-specific feature information
  • 'second DNN' is a video signal from a video signal. It means a DNN used to extract the first elevation component and the first plane component corresponding to the motion of the object
  • the 'third DNN' corresponds to the motion of the sound source in the audio from the first audio signal having no elevation component may mean a DNN used to extract the second planar component.
  • 'Second DNN' and 'Third DNN' are DNNs used to generate correction information between an audio feature in a two-dimensional audio signal and an image feature in a moving image signal from a video signal and a two-dimensional audio signal corresponding to the video signal.
  • the correction information between the audio feature in the audio signal and the video feature in the moving picture signal is information corresponding to a second elevation component to be included in a 3D audio signal to be described later. It may be used information.
  • the 'fourth DNN' is a DNN used to output a second audio signal including a second elevation component from a first audio signal having no elevation component based on the correction information and a plurality of time-specific frequency-specific feature information.
  • the second elevation component may be generated from the first elevation component, the first plane component, and the second plane component.
  • the 'second DNN' is the 'second DNN' used to generate motion-corresponding feature information in the horizontal direction of the image signal, and the 'second DNN' used to generate the motion-corresponding feature information in the vertical direction of the image signal.
  • 2-2 DNN' may be included.
  • the 'third DNN' may be used to generate characteristic information corresponding to motion in the horizontal direction of the 2D audio signal.
  • '4th DNN' is a 3D audio signal from '4-1 DNN' used to generate audio characteristic information from a 2D audio signal, and audio/video integrated characteristic information in which audio characteristic information and image characteristic information are integrated. It may include a '4-2 DNN' used to generate, a '4-3 DNN' used to generate frequency correction information based on the audio/video integrated feature information and the correction information.
  • FIG. 1 is a block diagram illustrating a configuration of a video processing apparatus according to an embodiment.
  • the video processing apparatus 100 receives a two-dimensional audio signal 102 and a video signal 101 corresponding to the two-dimensional audio signal 102 as inputs, and a three-dimensional audio signal 103 .
  • audio information in the height direction is uncertain or not included, and, like the audio signals of 2 channels, 5.1 channels, 7.1 channels, and 9.1 channels, the left and right directions and the front and rear directions are not included.
  • the 2D audio signal 102 may be stereo audio including an L (left) channel and an R (right) channel.
  • the two-dimensional audio signal 102 may be output through audio signal output devices located at the same height, and accordingly, the user can feel the spatial three-dimensional effect of the sound in the left-right direction and the front-rear direction.
  • the 3D audio signal 103 refers to an audio signal including audio information in the height direction as well as audio information in the left and right directions and front and rear directions.
  • the 3D audio signal 103 may be a 4-channel ambisonic audio signal including a W channel, an X channel, a Y channel, and a Z channel, but is not limited thereto.
  • the W channel signal represents the sum of the intensities of the omnidirectional sound sources
  • the X channel signal represents the difference in intensity between the front and rear sound sources
  • the Y channel signal represents the difference in the intensity of the left and right sound sources
  • the Z channel signal represents the intensity of the upper and lower sound sources.
  • the 3D audio signal 103 is a multi-channel ambisonic audio signal having a number of channels greater than 2 channels. may include
  • the three-dimensional audio signal may be output through audio signal output devices located at different heights, and thus the user can feel the spatial three-dimensional effect of the sound in the up-down direction (height direction) as well as in the left-right and front-rear directions.
  • image characteristic information (feature information for each frequency per time) is obtained from the video signal 101 corresponding to the two-dimensional audio signal, and an object in the video included in the image characteristic information (corresponding to the sound source in the audio) ), the vertical (height direction) movement of the sound source (corresponding to the object in the video) that the two-dimensional audio signal does not have, based on the motion corresponding characteristic (corresponding to the first elevation component and the first plane component).
  • the corresponding feature corresponding to the second elevation component
  • the 3D audio signal is generated from the 2D audio signal by using the object motion information in the moving picture as it is, an error may occur.
  • the movement information of the sound source (corresponding to the object) in the two-dimensional audio signal is relatively clear, but the movement information in the left and right (X-axis) and front-back (Y-axis) directions is relatively clear, but Motion information in the direction (Z axis) is uncertain.
  • the 3D audio signal can be effectively generated and outputted from the 2D audio signal using the moving picture signal.
  • the image characteristic information generating unit 110, the correction information generating unit 120, and the 3D audio output unit 130 in the video processing apparatus 100 may be implemented based on AI, and the image characteristic information generating unit 110 ), the AI for the correction information generating unit 120 and the 3D audio output unit 130 may be implemented as a deep neural network (DNN).
  • DNN deep neural network
  • a video processing apparatus 100 includes an image characteristic information generator 110 , a correction information generator 120 , a 3D audio output unit 130 , and a synchronization unit 140 .
  • the video processing apparatus 100 may further include a frequency converter 125 .
  • the frequency converter 125 may be included in the 3D audio output unit 130 .
  • the feature information generating unit 110 , the correction information generating unit 120 , the frequency converting unit 125, the 3D audio output unit 130, and the synchronizing unit 140 may be implemented through one processor.
  • it may be implemented as a dedicated processor or may be implemented through a combination of software and a general-purpose processor such as an application processor (AP), a central processing unit (CPU), or a graphic processing unit (GPU).
  • AP application processor
  • CPU central processing unit
  • GPU graphic processing unit
  • a memory for implementing an embodiment of the present disclosure or a memory processing unit for using an external memory may be included.
  • the image characteristic information generating unit 110 , the correction information generating unit 120 , the frequency converting unit 125 , the 3D audio output unit 130 , and the synchronizing unit 140 may include a plurality of processors. In this case, it may be implemented as a combination of dedicated processors, or may be implemented through a combination of software and a plurality of general-purpose processors such as an AP, CPU, or GPU.
  • the image characteristic information generator 110 may acquire image characteristic information from the video signal 101 corresponding to the 2D audio signal 102 .
  • the image feature information is information about a component (per time/per frequency) related to a corresponding feature in which motion exists, such as an object in an image, and may be a plurality of feature information for each time and frequency.
  • the object may correspond to the sound source of the two-dimensional audio signal 102, and thus, the image characteristic information may be visual feature pattern map information corresponding to the sound source for generating the three-dimensional audio.
  • the image feature information generating unit 110 may be implemented based on AI.
  • the image characteristic information generating unit 110 may analyze a video signal including a plurality of images based on the first DNN to generate a plurality of time-specific frequency-specific characteristic information.
  • An example of the first DNN will be described later with reference to FIG. 3 .
  • the image characteristic information generating unit 110 synchronizes the moving picture signal with the two-dimensional audio signal, and M (M is greater than 1) according to the (position or) movement of the object in the moving picture from the moving picture signal 101 using the first DNN. or an integer) of 1D image feature map information may be acquired. That is, the M samples may represent a feature pattern corresponding to a (position or) motion of an object in an image. That is, one-dimensional image feature map information may be generated from at least one frame (or frame bin). Meanwhile, by repeatedly acquiring the one-dimensional image feature map information, two-dimensional image feature map information (time-specific feature information) having a plurality of frame bins may be obtained.
  • the image feature information generating unit 110 performs tiling on frequencies and fills all frequency bins with the same values, thereby providing 3D image feature map information (features for each frequency by time) having image features, frame bins, and frequency bin components. information) can be obtained. That is, M pieces of image feature map information for time and frequency may be obtained.
  • the frequency bin means a kind of frequency index indicating which frequency (range) each sample has a value corresponding to.
  • the frame bin means a kind of frame index indicating which frame (range) each sample has a value corresponding to.
  • a detailed operation of the image feature information generating unit 110 will be described later with reference to FIG. 2 , and an example of the first DNN will be described later with reference to FIG. 3 .
  • the correction information generator 120 may generate correction information between an audio feature in the 2D audio signal 102 and an image feature in the video signal 101 from the video signal 101 and the 2D audio signal 102 .
  • the audio feature in the 2D audio signal 102 may mean a feature component corresponding to the movement of a sound source (corresponding to an object) in the audio.
  • the correction information generator 120 may be implemented based on AI.
  • the correction information generator 120 extracts a first elevation component and a first plane component corresponding to the motion of an object (corresponding to a sound source) in the video from the video signal 101 based on the second DNN, and the third Based on the DNN, it is possible to extract the second plane component corresponding to the motion of the sound source in the audio from the two-dimensional audio signal 102 having no elevation component.
  • the correction information generator 120 may generate correction information corresponding to the second elevation component from the first elevation component, the first plane component, and the second plane component.
  • the correction information generator 120 may generate the correction information from the moving picture signal and the 2D audio signal corresponding to the moving picture signal using the second DNN and the third DNN.
  • An example of the second DNN and the third DNN will be described later with reference to FIGS. 6A to 7 .
  • the correction information generating unit 120 synchronizes the moving picture signal 101 with the two-dimensional audio signal 102, and includes feature information corresponding to motion in the horizontal direction in the moving picture (corresponding to the first plane component) and the vertical direction in the image. Motion corresponding characteristic information (corresponding to the first elevation component) may be acquired.
  • the correction information generator 120 may acquire characteristic information (corresponding to the second plane component) corresponding to motion in the horizontal direction in the audio from the 2D audio signal.
  • the correction information generating unit 120 uses the 2-1 DNN to generate N+M (N, M is an integer greater than or equal to 1) with respect to time from the video signal 101 in the horizontal direction in the video.
  • Motion-corresponding feature map information may be acquired. That is, two-dimensional map information including a plurality of frame bin components and N+M motion-corresponding feature components may be obtained.
  • the correction information generating unit 120 moves in the vertical direction in the video of N+M (N, M are integers greater than or equal to 1) with respect to time from the video signal 101 using the 2-2 DNN
  • Corresponding feature map information may be acquired. That is, two-dimensional map information including a plurality of frame bin components and N+M motion-corresponding feature components may be obtained.
  • the correction information generator 120 may obtain information on a feature map corresponding to motion in the horizontal direction in the audio from the 2D audio signal 102 using the third DNN. That is, two-dimensional map information including a plurality of frame bin components and N+M motion-corresponding feature components may be obtained. Meanwhile, an example of the third DNN will be described later with reference to FIG. 7 .
  • the correction information generating unit 120 generates correction information for time based on characteristic information corresponding to movement in the horizontal direction in the video, characteristic information corresponding to movement in the vertical direction in the video, and characteristic information corresponding to movement in the horizontal direction in the audio. can create
  • the correction information generating unit 120 calculates the time-based motion-corresponding feature map information in the horizontal and vertical directions in the N+M images for time and the motion-corresponding feature map information in the audio in the horizontal direction. N+M pieces of correction map information may be acquired. At this time, a proportional number set in consideration of the relationship between the first value of the motion-corresponding feature map information in the image and the second value of the motion-corresponding feature map information in the audio horizontal direction and the vertical motion in the image Based on the third value of the corresponding feature map information, a fourth value of N+M correction map information for time may be obtained, and N+M pieces of correction map information for time including the fourth value are generated can do.
  • the correction information generator 120 may obtain correction information for time and frequency by performing frequency-related tiling on the correction information for time.
  • the correction information generator 120 may obtain correction map information including a plurality of frame bin components, a plurality of frequency bin components, and N+M correction parameter components. That is, the correction information generating unit 120 fills the correction parameter components with the same value for all frequency bins, so that the three-dimensional correction map information having the correction parameters (or domain matching parameters), the frame bins, and the frequency bin components is generated. can be obtained.
  • correction information generating unit 120 A detailed operation of the correction information generating unit 120 will be described later with reference to FIG. 4 .
  • the frequency converter 125 may convert the 2D audio signal 102 into a frequency domain 2D audio signal according to various transformation methods such as Short Time Fourier Transform (STFT).
  • STFT Short Time Fourier Transform
  • the two-dimensional audio signal 102 includes samples classified according to a channel and time, and the frequency domain signal includes samples classified according to a channel, time, and frequency bin.
  • the 3D audio output unit 130 may generate and output a 3D audio signal based on a frequency domain 2D audio signal, image characteristic information (a plurality of characteristic information for each frequency by time), and correction information.
  • the 3D audio output unit 130 may be implemented based on AI.
  • the 3D audio output unit 130 may generate and output a 3D audio signal from the 2D audio signal using the fourth DNN based on image characteristic information. An example of the fourth DNN will be described later with reference to FIGS. 9 to 11 .
  • the 3D audio output unit 130 may obtain time and frequency information for 2 channels by performing a frequency conversion operation on the 2D signal.
  • the present invention is not limited thereto, and as described above, when the frequency converter 125 exists separately from the 3D audio output unit 130 , the frequency domain 2D audio signal information is converted to the frequency domain 2D audio signal information by the frequency converter 125 without performing a frequency conversion operation. ) can be obtained from
  • the frequency domain 2D audio signal information may include time (frame bin) and frequency information (frequency bin) for 2 channels. That is, the frequency domain 2D audio signal information may include sample information divided by a frequency bin and time.
  • the 3D audio output unit 130 may generate audio characteristic information for time and frequency from time and frequency information for two channels. Specifically, the 3D audio output unit 130 may generate N pieces of audio feature map information for time and frequency from time and frequency information for 2 channels using the 4-1 DNN. An example of the 4-1 DNN will be described later with reference to FIG. 9 .
  • the 3D audio output unit 130 integrates audio/video based on audio characteristic information for time and frequency (audio characteristic information for each frequency by time) and image characteristic information for time and frequency (image characteristic information for each frequency by time) You can create feature information. Specifically, the 3D audio output unit 130 provides N+M integrated audio/video feature map information based on M image feature map information for time and frequency and N audio feature map information for time and frequency. can create
  • the 3D audio output unit 130 may generate a frequency domain 3D audio signal for n channels (n is an integer greater than 2) from the audio/video integrated feature map information. Specifically, the 3D audio output unit 130 may generate a frequency domain 3D audio signal for n channels from N+M pieces of audio/video integrated feature map information using the 4-2 DNN. An example of the 4-2 DNN will be described later with reference to FIG. 10 .
  • the 3D audio output unit 130 may acquire audio correction information for n channels based on the audio/video integrated feature information and the correction information for time and frequency. Specifically, the 3D audio output unit 130 uses the 4-3 DNN from N+M audio/video integrated feature map information for time and frequency and N+M correction map information for time and frequency. Audio correction map information for n channels (correction information for frequencies) may be generated.
  • the 3D audio output unit 130 performs correction on the frequency domain 3D audio signal for the n channel based on the audio correction map information for the n channel to generate the corrected frequency domain 3D audio signal for the n channel.
  • a 3D audio signal including the second elevation component may be output, and in particular, the second elevation component is based on the correction information with respect to the elevation component included in the frequency domain 3D audio signal for the n-channel. Since it is an elevation component generated by correction, it may be a component in which the motion of the sound source in the audio is well reflected.
  • the 3D audio output unit 130 may inverse frequency transform the corrected frequency domain 3D audio signal for the n-channel to generate and output the 3D audio signal for the n-channel.
  • the first DNN, the second DNN, the third DNN, and the fourth DNN include a first training 2D audio signal, a first frequency domain training reconstructed 3D audio signal reconstructed based on the first training image signal, and a first Training may be performed according to a comparison result of the first frequency domain training 3D audio signal obtained by frequency-converting the training 3D audio signal. Training of the first DNN, the second DNN, the third DNN, and the fourth DNN will be described later with reference to FIG. 12 .
  • correction information for time and frequency may be corrected based on user (input) parameter information.
  • the first DNN, the second DNN, the third DNN, and the fourth DNN are a frequency domain training reconstruction 3D audio signal restored based on the first training 2D audio signal, the first training image signal, and user parameter information; Training may be performed according to a comparison result of the first frequency domain training 3D audio signal obtained by frequency-converting the first training 3D audio signal. Training of the first DNN, the second DNN, the third DNN, and the fourth DNN in consideration of the user input parameters will be described later with reference to FIG. 13 .
  • the first training two-dimensional audio signal and the first training image signal are obtained from a portable terminal that is the same device as a video processing device (or a training device to be described later) or another device connected to the video processing device (or a training device to be described later).
  • the first training 3D audio signal may be obtained from an ambisonic microphone included or mounted in the portable terminal. The acquisition of a training signal in the portable terminal will be described later with reference to FIG. 16 .
  • the parameter information of the first to third DNNs obtained as a result of training of the first DNN, the second DNN, the third DNN, and the fourth DNN is stored in the video processing device or combined with the video processing device (or a training device to be described later). It may be received from a connected terminal.
  • the synchronization unit 140 may synchronize the video signal 101 and the 3D audio signal 103 to output the synchronized 3D audio signal and the video signal.
  • specific modules of the image characteristic information generation unit 110 , the correction information generation unit 120 , and the 3D audio output unit 130 included in the video processing apparatus 100 and their operations and the image characteristic information generation unit ( 110), the first DNN to the fourth DNN included in the correction information generating unit 120 and the 3D audio output unit 130 will be described with reference to FIGS. 3 to 11 .
  • FIG 2 is a diagram for explaining a specific operation of the image feature information generating unit 110, according to an embodiment.
  • the image feature information generating unit 110 may include a synchronizer 210 , a first DNN 220 , and a tiling unit 230 .
  • the synchronizer 210 may synchronize the video signal V (t, h, w, 3) with the 2D audio signal. That is, the sampling frequency (eg, 48 kHz) of the two-dimensional audio signal and the sampling frequency (eg, 60 Hz) of the video signal are different, and in particular, since the sampling frequency of the audio signal is significantly greater than the sampling frequency of the image signal, , a synchronization operation of matching the samples (frames) of the 2D audio signal and the corresponding samples (frames) of the video signal may be performed.
  • the sampling frequency eg, 48 kHz
  • the sampling frequency eg, 60 Hz
  • the first DNN 220 may be a DNN used to obtain image feature information V inf (1, 1, M') from the synchronized video signal V (t, h, w, 3).
  • the image characteristic information may be one-dimensional M' pieces of image characteristic information.
  • the tiling unit 230 accumulates one-dimensional M' pieces of image feature information for each frame bin using the first DNN 220 , and the two-dimensional M' for a plurality of frame bins ⁇ (ie, time)
  • the image feature information V inf (1, ⁇ , M') may be obtained.
  • the tiling unit 230 includes two-dimensional M' image feature information for a plurality of frame bins. Tiling the frequency components for V inf (1, ⁇ , M′) to obtain a three-dimensional Image feature information V inf (f, ⁇ , M') may be obtained. That is, based on the two-dimensional image feature information V inf (1, ⁇ , M'), by filling the same image feature values for all frequency components, Three-dimensional image feature information V inf (1, ⁇ , M') may be obtained.
  • FIG. 3 is a diagram for explaining the first DNN 300 according to an embodiment.
  • the first DNN 300 may include at least one convolution layer, a pooling layer, and a Fully-Connected (Fully-Connected) layer.
  • the convolutional layer obtains feature data by processing input data with a filter of a predetermined size. The parameters of the filter of the convolutional layer may be optimized through a training process to be described later.
  • the pooling layer is a layer for outputting only the feature values of some samples among the feature values of all samples of the feature data in order to reduce the size of the input data.
  • a fully-connected layer is a layer in which neurons in one layer are connected to all neurons in the next layer, and is a layer for classifying features.
  • the downscaling layer is an example of a pooling layer, and may refer mainly to a pooling layer for reducing the data size of an input image before being input to a convolutional layer.
  • a video signal 301 is input to the first DNN 300 .
  • the video signal 301 includes samples divided by an input channel, time, height, and width. That is, the video signal 301 may be 4D data of samples. Each sample of the video signal 301 may be a pixel value.
  • the input channel of the video signal 301 may be 3 RGB channels, but is not limited thereto.
  • the size of the moving picture signal 301 is (t, h, w, 3), which means that the time length of the moving picture signal 301 is t, the number of input channels is 3, and the height of the image is h , and the width of the image is w.
  • a time length of t means that the number of frames is t, and each frame corresponds to a predetermined time period (eg, 5 ms).
  • the size of the video signal 301 being (t, h, w, 3) is only one example, and the size of the video signal 301 , the size of a signal input to each layer, and output from each layer according to an implementation example
  • the magnitude of the signal may be variously changed.
  • h and w may be 224, but is not limited thereto.
  • the video signal 301 may be down-scaled to obtain a first intermediate signal 302 . That is, the number of samples divided by the height h and the width w of the video signal 301 is reduced by downscaling, and the height and width of the video signal 301 are reduced.
  • the height and width of the video signal 301 may be 112, but is not limited thereto.
  • the first convolutional layer 320 processes the downscaled image signal (first intermediate signal) 302 with c filters of axb size. For example, as a result of processing the first convolutional layer 320 , a second intermediate signal 303 having a size of (112, 112, c) may be obtained.
  • the first convolutional layer 320 may include a plurality of convolutional layers, and the input of the first layer and the output of the second layer may be connected to each other and trained.
  • the first layer and the second layer may be the same, but the present invention is not limited thereto, and the second layer may be a subsequent layer of the first layer.
  • the activation function of the first layer is PRelu, and parameters of the activation function may be trained together.
  • Pooling may be performed on the second intermediate signal 303 using the first pooling layer 330 .
  • the third intermediate signals 14 , 14 , and c may be obtained.
  • the second convolutional layer 340 processes the input signal through f filters of dxe size. As a result of processing the second convolutional layer 340 , a fourth intermediate signal 305 having a size of (14, 14, f) may be obtained.
  • the third convolutional layer 350 may be a 1x1 convolutional layer.
  • the third convolutional layer 350 may be used to adjust the number of channels.
  • a fifth intermediate signal 306 having a size of (14, 14, g) may be obtained.
  • the first fully connected layer 360 may output a one-dimensional feature signal by classifying the input feature signal. As a result of processing the first fully connected layer 360 , an image feature signal 307 having a size of (1, 1, M′) may be obtained.
  • the first DNN 300 obtains an image feature signal 307 corresponding to a motion of an image object (corresponding to a sound source) from the moving image signal 301 . That is, although FIG. 3 shows that the first DNN 300 includes three convolutional layers, one downscaling layer, and one pooling layer and one fully connected layer, this is only an example, and a video signal If an image feature signal 307 including M image features can be obtained from 301, the number of convolutional layers, downscaling layers, pooling layers, and fully connected layers included in the first DNN 300 is It can be variously modified. Similarly, the number and size of filters used in each convolutional layer may be variously changed, and a connection order and method between each layer may be variously changed.
  • FIG. 4 is a diagram for explaining a specific operation of the correction information generating unit 120 according to an exemplary embodiment.
  • the correction information generation unit 120 may include a synchronization unit 410 , second and third DNNs 420 , a correction map information generation unit 430 , and a tiling unit 440 . .
  • the synchronization unit 410 may synchronize a video signal V (t, h, w, 3) with a 2D audio signal. That is, a synchronization operation of matching a sample (frame) of a video signal corresponding to a sample of the 2D audio signal may be performed.
  • the 2-1 DNN 421 is the video motion corresponding feature map information m_v_H (1, ⁇ , N+M') in the horizontal direction from the synchronized video signal V (t, h, w, 3) (the first plane component) may be a DNN used to generate ).
  • the image motion corresponding feature map information in the horizontal direction may be N+M' pieces (N and M' are integers greater than or equal to 1) for two-dimensional time (frame bin).
  • the 2-2 DNN 422 is the video motion corresponding feature map information m_v_V (1, ⁇ , N+M') in the vertical direction from the synchronized video signal V (t, h, w, 3) (the first elevation component) may be a DNN used to generate ).
  • the image motion corresponding feature map information in the vertical direction may be image feature information of N+M' pieces (N and M' are integers greater than or equal to 1) for two-dimensional time (frame bin).
  • the third DNN 423 is the audio motion corresponding feature map information m_a_H (1, ⁇ , N+M') in the horizontal direction from the two-dimensional audio signal A In _ 2D (t,2) (corresponding to the second plane component) It may be a DNN used to generate .
  • the audio motion corresponding feature map information in the horizontal direction may be image feature information of N+M' (N and M' are integers greater than or equal to 1) for two-dimensional time (frame bin).
  • the correction map information generating unit 430 provides image motion corresponding feature map information in the horizontal direction.
  • Correction map information ⁇ inf (1, ⁇ , N+M′) may be obtained from m_a_H (1, ⁇ , N+M′).
  • the correction map information generating unit 430 performs the correction map information according to Equation 1 below.
  • ⁇ inf (1, ⁇ , N+M′) can be obtained.
  • Equation 1 is based on the following theoretical background.
  • the theoretical background from which Equation 1 used to obtain the domain matching parameter ⁇ inf is derived will be described with reference to FIGS. 5A to 5B .
  • a correction parameter (or a domain matching parameter) may be obtained to resolve the inconsistency of the motion information, rather than using the object motion correspondence feature information of the image as it is and using it to generate 3D audio.
  • movement information in the left and right directions (X-axis direction) and up-down direction (Z-axis direction) can be used, but since the motion information in the front-back direction (Y-axis direction) is uncertain, the corresponding motion information is used as it is.
  • an error may be large.
  • motion information in the left and right directions (X-axis direction) and front-back direction (Y-axis direction) may be used, but uncertainty may exist in motion information in the vertical direction (Z-axis direction).
  • a correction parameter may be acquired based on the motion information in the X-axis direction, in which certainty exists in common.
  • the object motion information in the Z-axis direction of the image domain is converted to the sound source in the Z-axis direction of the audio domain. It can be corrected (domain matching) according to the motion information.
  • the information (mv1_x, mv1_z) in the X-axis/Z-axis direction included in the motion information of the object in the image of case 1 510 is (10,2)
  • the sound source in the audio of case 1 510 is If the information (Smv1_x) in the X-axis direction included in the motion information is 5, the information (Smv1_y) in the Z-axis direction of the sound source in the audio may be obtained as 1 based on the proportional expression.
  • the X-axis/Z-axis direction information (mv1_x, mv1_z) included in the motion information of the object in the image of case 2 520 is (10,2), and included in the motion information of the sound source in the audio of case 2 520 If the obtained information in the X-axis direction (Smv1_x) is 8, based on the proportional expression, information in the Z-axis direction of the sound source in the audio (Smv1_y) may be obtained as 1.6.
  • Smv1_z Smv1_x * mv1_z / mv1_x may be obtained.
  • the Smv1_z value may be used as a correction parameter.
  • the above-described Equation 1 may be derived.
  • the tiling unit 440 tiles the frequency component on the two-dimensional N+M' correction map information received from the correction map information generating unit 430 to obtain the correction map information ⁇ inf (f, t, N+M). ') can be obtained. That is, based on the two-dimensional correction map information ⁇ inf (1, t, N+M'), by filling the same image feature values for all frequency components, the three-dimensional correction map information ⁇ inf (1, t) , N+M') can be obtained.
  • FIG. 5C is a diagram for explaining an algorithm for estimating an altitude component of a sound source in an audio signal, which is necessary to generate a three-dimensional audio signal by analyzing the movement of an object in a moving picture signal and a movement of a sound source in a two-dimensional audio signal.
  • the video processing apparatus 100 may analyze a video signal and extract feature information related to a first elevation component and a first plane component related to a motion of an object in the video. Meanwhile, the video processing apparatus 100 may analyze the 2D audio signal and extract feature information related to the second plane component related to the motion of the sound source in the 2D audio signal. The video processing apparatus 100 may estimate the second elevation component characteristic information related to the motion of the sound source based on the first elevation component, the first plane component, and the second plane component characteristic information. The video processing apparatus 100 may output a 3D audio signal including the second elevation component from the 2D audio signal based on the characteristic information related to the second elevation component. In this case, the second elevation component-related feature information may correspond to the correction map information described above with reference to FIG. 4 .
  • 6A is a diagram for explaining the 2-1 DNN 600 .
  • the 2-1 DNN 600 may include at least one convolutional layer, a pooling layer, and a Fully-Connected (Fully-Connected) layer.
  • the downscaling layer is an example of a pooling layer, and may refer mainly to a pooling layer for reducing the data size of an input image before being input to a convolutional layer.
  • a video signal 601 is input to the 2-1 DNN 600 .
  • the video signal 601 includes samples divided by an input channel, time, height, and width. That is, the video signal 601 may be 4D data of samples.
  • the size of the video signal 601 of (t, h, w, 3) is only one example, and the size of the video signal 601 , the size of a signal input to each layer, and output from each layer according to implementation examples
  • the magnitude of the signal may be variously changed.
  • h and w may be 224, but is not limited thereto.
  • the video signal 601 is downscaled using the downscaling layer 610 to obtain a first intermediate signal 602 . That is, the number of samples divided by the height h and the width w of the video signal 601 is reduced by downscaling, and the height and width of the video signal 601 are reduced.
  • the height and width of the first intermediate signal 602 may be 112, but is not limited thereto.
  • the first convolutional layer 615 processes an image signal downscaled by c filters of axb size.
  • a horizontal filter having a size of 3x1 may be used.
  • a second intermediate signal 603 having a size of (112, 112, c) may be obtained.
  • the first convolutional layer 615 may include a plurality of convolutional layers, and the input of the first layer and the output of the second layer may be connected to each other and trained.
  • the first layer and the second layer may be the same, but the present invention is not limited thereto, and the second layer may be a subsequent layer of the first layer.
  • the activation function of the first layer is PRelu, and parameters of the activation function may be trained together.
  • Pooling may be performed on the second intermediate signal 603 by using the first pooling layer 620 to obtain a third intermediate signal 604 .
  • the third intermediate signals 14 , 14 , and c may be obtained, but the present invention is not limited thereto.
  • the second convolutional layer 625 may obtain a fourth intermediate signal 605 by processing the input signal through f filters of dxe size. As a result of the processing of the second convolutional layer 625 , a fourth intermediate signal 605 having a magnitude of (14, 14, f) may be obtained, but is not limited thereto.
  • the third convolutional layer 630 may be a 1x1 convolutional layer.
  • the third convolutional layer 630 may be used to adjust the number of channels.
  • a fifth intermediate signal 606 having a size of (14, 14, g) may be obtained, but is not limited thereto.
  • the first fully connected layer 635 may output a one-dimensional feature signal by classifying the input feature signal.
  • a feature component signal 607 corresponding to a motion in the horizontal direction having a magnitude of (1, 1, N+M′) may be obtained.
  • the 2-1 DNN 600 obtains an image feature signal 607 corresponding to a movement of an image object (corresponding to a sound source) in the horizontal direction from the video signal 601 . That is, FIG. 6A shows that the 2-1 DNN 600 includes three convolutional layers, one downscaling layer, one pooling layer, and one fully connected layer, but this is only an example, If a feature signal 607 including N+M' image features in the horizontal direction can be obtained from the video signal 601, the convolution layer, the downscaling layer, and the The number of pooling layers and fully connected layers may be variously modified. Similarly, the number and size of filters used in each convolutional layer may be variously changed, and a connection order and method between each layer may be variously changed.
  • 6B is a diagram for explaining a 2-2 DNN 650 .
  • the 2-2 DNN 650 may include at least one convolutional layer, a pooling layer, and a Fully-Connected (Fully-Connected) layer.
  • the downscaling layer is an example of a pooling layer, and may refer mainly to a pooling layer for reducing the data size of an input image before being input to a convolutional layer.
  • a video signal 651 is input to a 2-2 DNN 650 .
  • the video signal 651 includes samples divided by an input channel, time, height, and width. That is, the image signal 651 may be 4D data of samples.
  • the size of the video signal 651 being (t, h, w, 3) is only one example, and the size of the video signal 651, the size of a signal input to each layer, and output from each layer according to implementation examples
  • the magnitude of the signal may be variously changed.
  • h,w may be 224, but. It is not limited thereto.
  • the video signal 651 is downscaled using the downscaling layer 660 to obtain a first intermediate signal 652 . That is, the number of samples divided by the height h and the width w of the video signal 651 is reduced by downscaling, and the height and width of the video signal 651 are reduced.
  • the height and width of the first intermediate signal 652 may be 112, but is not limited thereto.
  • the first convolutional layer 665 processes an image signal downscaled by c filters of axb size.
  • a 1x3 vertical filter may be used.
  • a second intermediate signal 653 having a size of (112, 112, c) may be obtained.
  • the first convolutional layer 665 may include a plurality of convolutional layers, and the input of the first layer and the output of the second layer may be connected to each other and trained.
  • the first layer and the second layer may be the same, but the present invention is not limited thereto, and the second layer may be a subsequent layer of the first layer.
  • the activation function of the first layer is PRelu, and parameters of the activation function may be trained together.
  • Pooling may be performed on the second intermediate signal 653 using the first pooling layer 670 .
  • the third intermediate signals 14 , 14 , and c may be obtained, but the present invention is not limited thereto.
  • the second convolution layer 675 processes the input signal through f filters of dxe size to obtain a fourth intermediate signal 655 .
  • a fourth intermediate signal 655 having a size of (14, 14, f) may be obtained, but is not limited thereto.
  • the third convolutional layer 680 may be a 1x1 convolutional layer.
  • the third convolutional layer 680 may be used to adjust the number of channels.
  • a fifth intermediate signal 656 having a size of (14,14,g) may be obtained.
  • the first fully connected layer 685 may output a one-dimensional feature signal by classifying the input feature signal.
  • a feature component signal 657 corresponding to a motion in the horizontal direction having a magnitude of (1, 1, N+M′) may be obtained.
  • the 2-2 DNN 650 obtains an image feature signal 657 corresponding to the movement of an image object (sound source) in a vertical direction from the video signal 651 . That is, FIG. 6B shows that the 2-2 DNN 650 includes three convolutional layers, one downscaling layer, one pooling layer and one fully connected layer, but this is only an example, If an image feature signal 657 including N+M' number of image features in the horizontal direction can be obtained from the video signal 651 , the convolution layer, the downscaling layer, and the pooling included in the first DNN 600 are The number of layers and fully connected layers may be variously modified. Similarly, the number and size of filters used in each convolutional layer may be variously changed, and a connection order and method between each layer may be variously changed.
  • FIG. 7 is a diagram for explaining the third DNN 700 .
  • the third DNN 700 may include at least one convolution layer, a pooling layer, and a Fully-Connected (Fully-Connected) layer.
  • the downscaling layer is an example of a pooling layer, and may refer mainly to a pooling layer for reducing the data size of an input image before being input to a convolutional layer.
  • a 2D audio signal 701 is input to the third DNN 700 .
  • the 2D audio signal 701 includes samples divided by an input channel and time. That is, the 2D audio signal 701 may be 2D data of samples. Each sample of the 2D audio signal 701 may be an amplitude value.
  • the input channel of the 2D audio signal 701 may be 2 channels, but is not limited thereto.
  • the size of the 2D audio signal 701 is (t,2), which indicates that the time length of the 2D audio signal 701 is t and the number of input channels is 2. That the size of the 2D audio signal 701 is (t,2) is only one example, and the size of the 2D audio signal 701 , the size of a signal input to each layer, and output from each layer according to an implementation example The magnitude of the signal may be variously changed.
  • the first convolutional layer 710 processes the 2D audio signal 701 using b filters (one-dimensional filters) of ax1 size. For example, as a result of processing the first convolutional layer 710 , a first intermediate signal 702 having a size of (512, 1, b) may be obtained.
  • the first convolutional layer 710 may include a plurality of convolutional layers, and the input of the first layer and the output of the second layer may be connected to each other and trained.
  • the first layer and the second layer may be the same, but the present invention is not limited thereto, and the second layer may be a subsequent layer of the first layer.
  • the activation function of the first layer is PRelu, and parameters of the activation function may be trained together.
  • Pooling may be performed on the first intermediate signal 702 by using the first pooling layer 720 .
  • a second intermediate signal 703 having a size of (28,1,b) may be obtained.
  • the second convolutional layer 730 processes a signal input through d filters having a size of cx1. As a result of processing the second convolutional layer 730 , a third intermediate signal 704 having a size of (28 1, d) may be obtained.
  • the third convolutional layer 740 may be a 1x1 convolutional layer.
  • the third convolutional layer 740 may be used to adjust the number of channels.
  • a fourth intermediate signal 705 having a size of (28,1,g) may be obtained.
  • the first fully connected layer 750 may output a one-dimensional feature signal by classifying the input feature signal. As a result of processing the first fully connected layer 750 , a feature component signal 706 corresponding to a motion in the horizontal direction having a magnitude of (1, 1, N+M′) may be obtained.
  • the third DNN 700 obtains an audio feature signal 706 corresponding to the movement of a two-dimensional audio sound source (corresponding to an object in a video) in the horizontal direction from the two-dimensional audio signal 701 . do. That is, although FIG. 7 shows that the third DNN 700 includes three convolutional layers, one pooling layer, and one fully connected layer, this is only an example, and If the audio feature signal 706 including N+M' audio features in the horizontal direction can be obtained, the number of convolutional layers, pooling layers, and fully connected layers included in the third DNN 700 may vary. can be transformed. Similarly, the number and size of filters used in each convolutional layer may be variously changed, and a connection order and method between each layer may be variously changed.
  • FIG. 8 is a diagram for explaining a detailed operation of the 3D audio output unit 130, according to an embodiment.
  • the 3D audio output unit 130 includes a frequency converter 810 , a 4-1 DNN 821 , an audio/video feature integrator 830 , a 4-2 DNN 822 , It may include a 4-3 DNN 823 , a corrector 840 , and an inverse frequency transform unit 850 .
  • the frequency converter 810 may obtain a frequency domain 2D audio signal s(f, ⁇ , 2) by performing frequency conversion on the 2D audio signal A In _ 2D (t,2). However, as described above, when the frequency domain 2D audio signal s(f, ⁇ , 2) is received from the frequency converter 125 , the frequency converter 810 may not be included.
  • the 4-1 DNN 821 may be a DNN used to generate audio characteristic information s(f, ⁇ , 2) from a frequency domain two-dimensional audio signal s(f, ⁇ , 2).
  • the audio characteristic information may be one-dimensional N pieces of audio characteristic information.
  • the audio/video feature integration unit 830 integrates the image feature information V inf (f, ⁇ , M ') and the audio feature information s(f, ⁇ , N) to integrate the audio/video feature information s(f, ⁇ , N+M ') can be created.
  • the audio/video feature integrator 830 superimposes the image feature map information on the audio feature information because the frequency bin and frame bin components of the image feature information and the audio feature information have the same size, thereby integrating the audio/video Feature information may be generated, but is not limited thereto.
  • the 4-2 DNN 822 is a DNN used to generate a frequency domain 3D audio signal s(f, ⁇ , N 3D ) from the audio/video integrated feature information s(f, ⁇ , N+M ').
  • N 3D may mean the number of channels of 3D audio.
  • the 4-3 DNN 823 is based on the audio/video integrated feature information s(f, ⁇ , N+M ') and the correction information ⁇ inf (f, ⁇ , N+M '), the correction map information c( f, ⁇ , N 3D ) can be obtained.
  • the correction unit 840 is a frequency domain 3D audio signal Cs corrected based on the frequency domain 3D audio signal s(f, ⁇ ,, N 3D ) and the correction map information c(f, ⁇ ,, N 3D ) (f, , N 3D ) can be obtained.
  • the compensator 860 adds the sample values of the correction map information c(f, ⁇ , N 3D ) to the sample values of the frequency domain 3D audio signal s(f, ⁇ , N 3D ) to obtain the corrected frequency.
  • a sample value of the domain 3D audio signal Cs(f, ⁇ , N 3D ) may be obtained, but is not limited thereto.
  • the output frequency domain 3D audio signal is more reliable in the frequency domain It may have an elevation component of the sound source in the 3D audio signal.
  • the inverse frequency transform unit 850 may perform inverse frequency transform on the corrected frequency domain 3D audio signal Cs(f, ⁇ ,N 3D ) to output the 3D audio signal A Pred_B (t, N 3D ) .
  • FIG. 9 is a diagram for explaining a 4-1 DNN 900 according to an embodiment.
  • the 4-1 DNN 900 may include at least one convolution layer.
  • the convolutional layer obtains audio feature data by processing input data with a filter of a predetermined size.
  • the parameters of the filter of the convolutional layer may be optimized through a training process to be described later.
  • a frequency domain 2D audio signal 901 is input to a 4-1 DNN 900 .
  • the frequency domain 2D audio signal 901 includes samples divided into an input channel, a frame bin, and a frequency bin. That is, the frequency domain 2D audio signal 901 may be 3D data of samples. Each sample of the frequency domain 2D audio signal 901 may be a frequency domain 2D audio signal value.
  • the input channel of the frequency domain 2D audio signal 901 may be 2 channels, but is not limited thereto.
  • the magnitude of the frequency domain 2D audio signal 901 is (f, ⁇ , 2), which means that the time length (the number of frame bins) of the frequency domain 2D audio signal 901 is ⁇ and , the number of input channels may be 2, and the number of frequency bins may be f.
  • the size of the frequency domain 2D audio signal 901 , the size of a signal input to each layer, and the size of a signal output from each layer may be variously changed.
  • the first convolutional layer 910 processes the frequency domain 2D audio signal 901 with c filters of axb size. For example, as a result of processing the first convolutional layer 910 , a first intermediate signal 902 having a size of (f, ⁇ , 32) may be obtained.
  • the second convolutional layer 920 processes the first intermediate signal 902 with e filters of cxd size. For example, as a result of processing the first convolutional layer 920 , a second intermediate signal 903 having a size of (f, ⁇ , 32) may be obtained.
  • the second convolutional layer 920 may include a plurality of convolutional layers, and the input of the first layer and the output of the second layer may be connected to each other and trained.
  • the first layer and the second layer may be the same, but the present invention is not limited thereto, and the second layer may be a subsequent layer of the first layer.
  • the activation function of the first layer is PRelu, and parameters of the activation function may be trained together.
  • the third convolutional layer 930 processes the second intermediate signal 903 input to N filters of exf size. As a result of the processing of the third convolutional layer 930 , audio feature information 904 having a size of (f, ⁇ , N) may be obtained.
  • the 3-1 DNN 900 obtains an audio feature signal 904 corresponding to a motion of an audio (sound source) in a horizontal direction from the frequency domain 2D audio signal 901 . That is, although FIG. 9 shows that the 3-1 DNN 900 includes three convolutional layers, this is only an example, and audio including N audio features from the frequency domain 2D audio signal 901 If the feature signal 904 can be obtained, the number of convolutional layers included in the frequency domain 2D audio signal 901 may be variously modified. Similarly, the number and size of filters used in each convolutional layer may be variously changed, and a connection order and method between each layer may be variously changed.
  • FIG. 10 is a diagram for explaining a 4-2 DNN 1000 according to an embodiment.
  • the 4-2 DNN 1000 may include at least one convolution layer.
  • the convolutional layer obtains audio feature data by processing input data with a filter of a predetermined size.
  • the parameters of the filter of the convolutional layer may be optimized through a training process to be described later.
  • audio/video integrated feature information 1001 is input to a 4-2 DNN 1000 .
  • the audio/video integrated feature information 1001 includes samples divided into feature count, time (frame bin), and frequency bin. That is, the audio/video integrated feature information 1001 may be 3D data regarding samples. That is, each sample of the audio/video integrated characteristic information 1001 may be an audio/video integrated characteristic value.
  • the size of the audio/video integrated characteristic information 1001 is ( f , ⁇ , N+M' ), which means that the time length (frame bin) of the audio/video integrated characteristic information 1001 is ⁇ , the number of features corresponding to the frame bin and the frequency bin may be N+M', and the number of frequency bins may be f.
  • the size of the integrated audio/video feature information 1001, the size of a signal input to each layer, and the size of a signal output from each layer may be variously changed.
  • the first convolutional layer 1010 processes the audio/video integrated feature information 1001 with c filters of axb size. For example, as a result of processing the first convolutional layer 1010 , a first intermediate signal 1002 having a size of (f, ⁇ , c) may be obtained.
  • the second convolutional layer 1020 processes the first intermediate signal 1002 with e filters of cxd size. For example, as a result of processing the second convolutional layer 1020 , a second intermediate signal 1003 having a size of (f, ⁇ , e) may be obtained.
  • the second convolutional layer 1020 may include a plurality of convolutional layers, and the input of the first layer and the output of the second layer may be connected to each other and trained.
  • the first layer and the second layer may be the same, but the present invention is not limited thereto, and the second layer may be a subsequent layer of the first layer.
  • the activation function of the first layer is PRelu, and parameters of the activation function may be trained together.
  • the third convolutional layer 1030 processes a signal input through N 3D filters of exf size. As a result of the processing of the third convolutional layer 1030 , a frequency domain 3D audio signal 1004 having a size of (f, ⁇ , N 3D ) may be obtained.
  • the 4-2 DNN 1000 obtains a frequency domain 3D audio signal 1004 from the audio/video integrated feature information 1001 . That is, although FIG. 10 shows that the 4-2 DNN 1000 includes three convolutional layers, this is only an example, and the frequency domain 3D audio signal 1004 from the audio/video integrated feature information 1001 ) can be obtained, the number of convolutional layers included in the 4-2 DNN 1000 may be variously modified. Similarly, the number and size of filters used in each convolutional layer may be variously changed, and a connection order and method between each layer may be variously changed.
  • 11 is a diagram for explaining a 4-3 DNN 1100 according to an embodiment.
  • the 4-3 DNN 1100 may include at least one convolution layer.
  • the convolutional layer obtains audio feature data by processing input data with a filter of a predetermined size.
  • the parameters of the filter of the convolutional layer may be optimized through a training process to be described later.
  • the first intermediate signal 1103 of a new dimension may be obtained by concatenating the audio/video integrated feature information 1101 and the correction information 1102 .
  • the audio/video integrated feature information 1001 includes samples divided into feature count, time (frame bin), and frequency bin. That is, the audio/video integrated feature information 1001 may be 3D data. Each sample of the audio/video integrated characteristic information 1001 may be an audio/video integrated characteristic value.
  • the correction information 1102 includes samples divided into feature number, time (frame bin), and frequency bin. That is, the correction information 1102 may be 3D data. Each sample of the correction information 1102 may be a correction-related feature value.
  • the size of the audio/video integrated characteristic information 1101 and the correction information 1102 is (f, ⁇ , N+M'), which is the audio/video integrated characteristic information 1101 and the correction information ( 1102), the time length (the number of frame bins) may be ⁇ , the number of frame bins and the number of features corresponding to the frequency bins may be N+M', and the number of frequency bins may be f.
  • the size of the audio/video integrated feature information 1101 and the correction information 1102 the size of a signal input to each layer, and the size of a signal output from each layer may be variously changed.
  • the first convolutional layer 1120 processes the first intermediate signal 1103 with c filters of axb size. For example, as a result of processing the first convolutional layer 1120 , a second intermediate signal 1104 having a size of (f, ⁇ , c) may be obtained. That is, as a result of processing the first convolutional layer 1120 , the second intermediate feature signal 325 having a size of (f, ⁇ , M′′) may be obtained.
  • M'' may be 2x (N+M'), but is not limited thereto.
  • the second convolutional layer 1130 processes the second intermediate signal 1104 with e filters of cxd size. For example, as a result of processing the second convolutional layer 1130 , a third intermediate feature signal 325 having a size of (f, ⁇ , e) may be obtained. That is, as a result of the processing of the second convolutional layer 1130 , a third intermediate signal 1105 having a size of (f, t, M′′) may be obtained.
  • M'' may be 2x (N+M'), but is not limited thereto.
  • the second convolutional layer 1130 may include a plurality of convolutional layers, and the input of the first layer and the output of the second layer may be connected to each other and trained.
  • the first layer and the second layer may be the same, but the present invention is not limited thereto, and the second layer may be a subsequent layer of the first layer.
  • the activation function of the first layer is PRelu, and parameters of the activation function may be trained together.
  • the third convolutional layer 1140 processes a signal input through N 3D filters of exf size. As a result of the processing of the third convolutional layer 1140 , correction map information 1106 having a size of (f, ⁇ , N 3D ) may be obtained.
  • the 4-3 DNN 1100 obtains the correction map information 1106 from the audio/video integrated feature information 1101 and the correction information 1102 . That is, although FIG. 11 shows that the 4-3 DNN 1100 includes three convolutional layers, this is only an example, and a correction map from the audio/video integrated feature information 1101 and the correction information 1102 If the information 1106 can be obtained, the number of convolutional layers included in the 4-3 DNN 1100 may be variously modified. Similarly, the number and size of filters used in each convolutional layer may be variously changed, and a connection order and method between each layer may be variously changed.
  • FIG. 12 is a diagram for explaining a training method of a first DNN, a second DNN, a third DNN, and a fourth DNN.
  • the first training 2D audio signal 1202 corresponds to the 2D audio signal 102
  • the first training image signal 1201 corresponds to the video signal 101 .
  • each training signal corresponds to the signal/information described above with reference to FIGS. 2, 4 and 8 .
  • the first training video signal 1201 is input to the first DNN 220 .
  • the first DNN 220 obtains a first training image feature signal 1203 by processing the first training image signal 1201 according to a preset parameter.
  • a first frequency domain training 2D audio signal 1204 is obtained through the frequency converter 1220 for the first training 2D audio signal 1202, and the first frequency domain training 2D audio signal 1204 is 4-1 is input to the DNN 821 .
  • the 4-1 DNN 821 processes the first frequency domain training two-dimensional audio signal 1204 according to a preset parameter to obtain a first training audio feature signal 1205 .
  • a first training audio/video feature signal 1206 may be obtained by processing the first training audio feature signal 1205 and the first training image feature signal 1203 through the audio/video feature integrator 1220 . .
  • the first training image signal 1201 and the first training 2D audio signal 1202 are input to the second DNN and the third DNN 420 .
  • the second DNN and the third DNN 420 (the 2-1 DNN 421 , the 2-2 DNN 422 , and the third DNN 423 included in) are based on a preset parameter, the first training
  • the two-dimensional audio signal 1202 is processed to obtain a first training correction signal 1208 .
  • the first training audio/video integrated feature signal 1206 is input to the 4-2 DNN 822 .
  • the 4-2 DNN 822 processes the first training audio/video integrated feature signal 1206 according to a preset parameter to obtain a first frequency domain training reconstruction 3D audio signal 1207 .
  • the first training correction signal 1207 and the first training audio/video integrated feature signal 1206 are input to the 4-3 DNN 823 .
  • the 4-3 DNN 823 processes the first training correction signal 1208 and the first training audio/video integrated feature signal 1206 according to a preset parameter to obtain a first training frequency correction signal 1209 do.
  • the audio correction unit 1230 corrects the first frequency domain training restoration 3D audio signal 1207 based on the first training frequency correction signal 1209, and the corrected first frequency domain training restoration 3D audio signal ( 1211) can be printed.
  • a first frequency domain training 3D audio signal 1213 is obtained through the frequency converter 1210 for the first training 3D audio signal 1212 .
  • Generation loss information (Loss) 1214 is obtained according to a comparison result between the corrected first frequency domain training 3D audio signal 1213 and the corrected first frequency domain training 3D audio signal 1211 .
  • the generation loss information (Loss) 1214 is an L1-norm value, L2-norm between the corrected first frequency domain training three-dimensional audio signal 1213 and the corrected first frequency domain training three-dimensional audio signal 1211 .
  • SSIM Structural Similarity
  • PSNR-HVS Peak Signal-To-Noise Ratio-Human Vision System
  • MS-SSIM Multiscale SSIM
  • VIF Variance Inflation Factor
  • VMAF Video Multimethod Assessment Fusion
  • Equation 2 F( ) denotes frequency transformation by the frequency converter 1210 , and Cs denotes the corrected first frequency domain training reconstructed 3D audio signal 1211 .
  • the generation loss information 1214 is the corrected first frequency domain training restoration 3 obtained by processing the first training 2D audio signal 1202 by the first DNN 220 , the second DNN and the third DNN 420 . It represents how similar the frequency domain training signal 1212 is to the first frequency domain training 3D audio signal 1212 obtained through the frequency converter 1210 by the dimensional audio signal 1211 .
  • the first DNN 220 , the second DNN and the third DNN 420 , and the fourth DNN 820 may update parameters such that the generation loss information 1214 is reduced or minimized. Training of the first DNN 220 , the second DNN and the third DNN 420 , and the fourth DNN 820 is expressed as an equation as follows.
  • Equation 3 represents the parameter sets of the first DNN 220 , the second DNN and the third DNN 420 , and the fourth DNN 820 .
  • the first DNN 220 , the second DNN and the third DNN 420 , and the third DNN 820 obtain a parameter set that minimizes the generation loss information (Loss) 1214 through training.
  • Loss generation loss information
  • FIG. 13 is a diagram for explaining a training method of a first DNN, a second DNN, a third DNN, and a fourth DNN in consideration of a user parameter signal.
  • the correction signal correction unit 1340 exists between the second and third DNNs 420 and the 4-3 DNN 823 , and the correction signal correction unit 1340 .
  • ) can be modified using the user parameter 1316 with respect to the first training correction signal 1308 of the second DNN and the third DNN 420 , and the modified first training correction signal 1315 is the 4-3 It may be input to the DNN 823 .
  • the correction signal correction unit 1340 may perform an operation of multiplying the value of the first training correction signal 1308 by the user parameter (C user ) to obtain the corrected first training correction signal 1315 .
  • the present invention is not limited thereto.
  • the user parameter is a parameter used to adjust the degree of correction of the 3D audio signal in the audio compensator 1330, and the user (3D audio producer) directly inputs the user parameter, and according to the user's intention, 3D The audio signal may be properly corrected and restored.
  • the first DNN based on the comparison result between the corrected first frequency domain training reconstructed 3D audio signal 1311 and the first frequency domain training 3D audio signal 1313 , the first DNN
  • the parameters of (220), the second DNN and the third DNN 420 and the fourth DNN 820 can be trained.
  • FIG. 14 is a flowchart illustrating a training process of the first DNN, the second DNN, the third DNN, and the fourth DNN by the training apparatus 1400 .
  • the training of the first DNN, the second DNN, the third DNN, and the fourth DNN described with reference to FIG. 13 may be performed by the training apparatus 1400 .
  • the training apparatus 1400 includes a first DNN 220 , a second DNN and a third DNN 420 , and a fourth DNN 820 .
  • the training device 1400 may be, for example, the video processing device 100 or a separate server.
  • the training device 1400 includes a first DNN 220 , a second DNN and a third DNN 420 , and a 4-1 DNN 821 , a 4-2 DNN 822 , and a 4-3 DNN 823 .
  • the training apparatus 1400 inputs the first training image signal 1201 to the first DNN 220 . (S1410)
  • the training apparatus 1400 inputs the first training image signal 1201 and the first training 2D audio signal 1202 to the second DNN and the third DNN 420 . (S1415)
  • the training apparatus 1400 inputs the first frequency domain training 2D audio signal 1204 obtained through the frequency converter 1210 for the first training 2D audio signal 1202 to the 4-1 DNN 821 . do. (S1420)
  • the first DNN 220 may output the first training image feature signal 1203 to the audio/video feature integrator 1410 . (S1425)
  • the 4-1 DNN 821 may output the first training audio feature signal 1205 to the audio/video feature integrator 1410 .
  • the audio/video feature integrator 1410 may output the first training audio/video integrated feature signal 1206 to the 4-2 DNN 822 and the 4-3 DNN 823 . (S1435)
  • the 4-2 DNN 822 may output the first training 3D audio signal to the corrector 1420 .
  • the training apparatus 1400 may input the first training 2D audio signal 1202 and the first frequency domain training 2D audio signal 1204 as the second DNN and the third DNN 420 . (S1445)
  • the second DNN and the third DNN 420 may output the first training correction signal 1208 to the 4-3 DNN 823 .
  • the 4-3 DNN 823 may output the first training frequency correction signal 1209 to the correction unit 1420 . (S1455)
  • the corrector 1420 may output the corrected first frequency domain training reconstructed 3D audio signal 1211 to the training apparatus 1400 . (S1460)
  • the training apparatus 1400 compares the corrected first frequency domain training three-dimensional audio signal 1211 and the first frequency domain training three-dimensional audio signal 1213 obtained through frequency conversion to generate loss information 1214 Calculate (S1465).
  • the first DNN 220 , the second DNN and the third DNN 420 , the 4-1 DNN 821 , the 4-2 DNN 822 , and the 4-3 DNN 823 are generated loss information
  • the parameter is updated according to (1214) (S1470 to S1490).
  • the training device 1400 includes a first DNN 220 , a second DNN and a third DNN 420 , a 4-1 DNN 821 , a 4-2 DNN 822 , and a 4-3 DNN 823 ).
  • the above-described steps S1410 to S1490 may be repeated until the parameters of are optimized.
  • 15 is a flowchart illustrating a training process of the first DNN, the second DNN, the third DNN, and the fourth DNN by the training apparatus 1500 in consideration of user parameters.
  • the training of the first DNN, the second DNN, the third DNN, and the fourth DNN described with reference to FIG. 14 may be performed by the training apparatus 1500 .
  • the training apparatus 1500 includes a first DNN 220 , a second DNN and a third DNN 420 , and a fourth DNN 820 .
  • the training device 1500 may be, for example, the video processing device 100 or a separate server. When trained on a separate server, the first DNN, the second DNN, the third DNN, and the fourth DNN-related parameter information may be transmitted to the video processing device 100, and the video processing device 100 includes the first DNN, It is possible to store parameter information related to the second DNN, the third DNN, and the fourth DNN.
  • the video processing apparatus 100 generates a 3D audio signal from the 2D audio signal, based on the first DNN, the second DNN, the third DNN, and the fourth DNN related parameter information, the first DNN, the second DNN , the parameters of the 3rd DNN and the 4th DNN may be updated, and a 3D audio signal may be generated and output using the updated 1st DNN, the 2nd DNN, the 3rd DNN, and the 4th DNN.
  • FIG. 15 may further include a correction signal correction unit 1530, and the correction signal correction unit 1530 converts the first training correction signal 1308 into a user parameter 1316.
  • a process of correcting using , and outputting the corrected first training correction signal 1315 to the 4-3 DNN 823 may be added. Accordingly, unlike FIG. 14 , FIG. 15 is trained in consideration of user parameters, so that the user's intention is further reflected to generate and output a corrected 3D audio signal.
  • FIG. 16 is a diagram for explaining a process in which a user collects data for training by using the user terminal 1610 .
  • a user 1600 may obtain a first training 2D audio signal and a first training image signal using a microphone and a camera of the user terminal 1610 . Meanwhile, at the same time, the user 1600 acquires the first training 3D audio signal by separately mounting the ambisonic microphone 1620 to the user terminal 1610 or the ambisonic microphone 1620 included in the user terminal 1610. The first training 3D audio signal may be obtained by using the .
  • the user terminal 1610 may be an example of the video processing apparatus 100 , and the user terminal 1610 includes the obtained first training 2D audio signal, the first training image signal, and the first training 3D audio signal. Based on the same training data, the first DNN 220 , the second DNN and the third DNN 420 ( 2-1 DNN 421 , 2-2 DNN 422 , 3 DNN ( 423)), the 4-1 th DNN 821 , the 4-2 th DNN 822 , and the 4-3 th DNN 823 may be trained. Alternatively, the user terminal 1610 may transmit training data to a device connected to the user terminal 1610 such as a separate server.
  • a device connected to the user terminal 1610 such as a separate server.
  • the device is an example of the training devices 1400 and 1500, based on the training data, the first DNN 220, the second DNN and the third DNN 420, the 4-1 DNN 821, the 4-2 The DNN 822 and the 4-3 DNN 823 may be trained.
  • the parameter information of the trained first DNN 220 , the second DNN and the third DNN 420 , the 4-1 DNN 821 , the 4-2 DNN 822 , and the 4-3 DNN 823 is may be obtained, and of the first DNN 220 , the second DNN and the third DNN 420 , the 4-1 DNN 821 , the 4-2 DNN 822 , and the 4-3 DNN 823 .
  • Parameter information may be transmitted to the user terminal 1610 .
  • the user terminal 1610 includes a first DNN 220 , a second DNN and a third DNN 420 , a 4-1 DNN 821 , a 4-2 DNN 822 , and a 4-3 DNN 823 . It is possible to obtain parameter information of the first DNN 220 , the second DNN and the third DNN 420 , the 4-1 DNN 821 , the 4-2 DNN 822 , and the 4-3 DNN It is possible to store the parameter information of (823).
  • the user terminal 1610 may acquire a 2D audio signal and an image signal.
  • the user terminal 1610 includes a pre-stored first DNN 220 , a second DNN and a third DNN 420 , a 4-1 DNN 821 , a 4-2 DNN 822 , and a 4-3 DNN ( 823), the first DNN 220, the second DNN and the third DNN 420, the 4-1 DNN 821, the 4-2 DNN 822, and the 4-th DNN Based on the parameter information of the 3 DNN (823), the first DNN (220), the second DNN and the third DNN (420), the 4-1 DNN (821), the 4-2 DNN (822), the 4-th It is possible to obtain the parameter information of the 3 DNN (823), the first DNN (220), the second DNN and the third DNN (420), the 4-1 DNN (821), the 4-2 DNN (822), Update the parameters of the 4-3 DNN (823), the updated first DNN (220), the second DNN and the
  • the present invention is not limited thereto, and the user terminal 1610 is only a simple training information collection device, and may transmit training data to a device such as a separate server connected to the user terminal 1610 through a network.
  • the device may be an example of the training devices 1400 and 1500 and the video processing device 100 .
  • the device is based on the training data, the first DNN 220, the second DNN and the third DNN 420, the 4-1 DNN 821, the 4-2 DNN 822, the 4-3 DNN ( 823), the first DNN 220, the second DNN and the third DNN 420, the 4-1 DNN 821, the 4-2 DNN 822, and the 4-th DNN 3 DNN 823 may be trained.
  • the parameter information of the trained first DNN 220 , the second DNN and the third DNN 420 , the 4-1 DNN 821 , the 4-2 DNN 822 , and the 4-3 DNN 823 is may be obtained, and of the first DNN 220 , the second DNN and the third DNN 420 , the 4-1 DNN 821 , the 4-2 DNN 822 , and the 4-3 DNN 823 .
  • Parameter information can be obtained, and the first DNN 220 , the second DNN and the third DNN 420 , the 4-1 DNN 821 , the 4-2 DNN 822 , the 4-3 DNN ( 823) may be obtained, the first DNN 220, the second DNN and the third DNN 420, the 4-1 DNN 821, the 4-2 DNN 822, and the 4-th DNN
  • the parameter information of the 3 DNN 823 is transmitted to the user terminal 1610, or the first DNN 220, the second DNN and the third DNN 420, the 4-1 DNN 821, and the 4-2 DNN are transmitted.
  • parameter information of the 4-3 DNN 823 may be obtained, and the first DNN 220, the second DNN and the third DNN 420, the 4-1 DNN 821, and the fourth
  • the parameter information of the -2 DNN 822 and the 4-3 DNN 823 may be stored in a corresponding device or a separate connected database to correspond to the identifier of the user terminal 1610 or the user terminal 1610 .
  • the user terminal 1610 may acquire a 2D audio signal and an image signal.
  • the user terminal 1610 includes a pre-stored first DNN 220 , a second DNN and a third DNN 420 , a 4-1 DNN 821 , a 4-2 DNN 822 , and a 4-3 DNN ( 823), the first DNN 220, the second DNN and the third DNN 420, the 4-1 DNN 821, the 4-2 DNN 822, and the 4-th DNN 3 It is possible to transmit a two-dimensional audio signal and an image signal together with parameter information of the DNN 823 to the corresponding device.
  • the device receives the first DNN 220 , the second DNN and the third DNN 420 , the 4-1 DNN 821 , the 4-2 DNN 822 , and the 4-th DNN received from the user terminal 1610 . It is possible to obtain the parameter information of the 3 DNN (823), the first DNN (220), the second DNN and the third DNN (420), the 4-1 DNN (821), the 4-2 DNN (822), Update the parameters of the 4-3 DNN (823), the updated first DNN (220), the second DNN and the third DNN (420), the 4-1 DNN (821), the 4-2 DNN (822) ), it is possible to obtain parameter information of the 4-3 DNN 823 , the first DNN 220 , the second DNN and the third DNN 420 , the 4-1 DNN 821 , and the 4-2 th DNN
  • a 3D audio signal may be obtained from the 2D audio signal and the image signal received from the user terminal 1610 using the DNN 822 and the 4-3 DNN 8
  • the user terminal 1610 may transmit a 2D audio signal and an image signal to the corresponding device.
  • the device corresponds to the identifier of the user terminal 1610 and is stored in advance with the first DNN 220 , the second DNN and the third DNN 420 , the 4-1 DNN 821 , and the 4-2 DNN 822 ).
  • a 3D audio signal may be obtained from the 2D audio signal and the image signal received from the user terminal 1610 by using the parameter information of the 822 and 4-3 DNN 823 .
  • the training apparatuses 1400 and 1500 connected to the user terminal 1610 through a network may exist separately from the video processing apparatus 100 .
  • the user terminal 1610 transmits the training data to the training devices 1400 and 1500, the first DNN 220, the second DNN and the third DNN 420, the 4-1 DNN 821, It is possible to obtain parameter information of the 4-2 DNN 822 and the 4-3 DNN 823 , the first DNN 220 , the second DNN and the third DNN 420 , and the 4-1 DNN ( 821), the 4-2 DNN 822, and the 4-3 DNN 823 are obtained, and the first DNN 220 and the second DNN previously obtained together with the two-dimensional audio signal and the video signal are obtained.
  • a 3D audio signal may be received from the video processing apparatus 100 .
  • 17 is a flowchart illustrating a video processing method according to an embodiment.
  • the video processing apparatus 100 may analyze a video signal including a plurality of images based on the first DNN to generate a plurality of time-specific frequency-specific feature information.
  • the video processing apparatus 100 may extract a first elevation component and a first plane component corresponding to the motion of an object in the video from the video signal based on the second DNN.
  • the video processing apparatus 100 may extract a second plane component corresponding to the motion of the sound source in the audio from the first audio signal having no elevation component based on the third DNN.
  • the video processing apparatus 100 may generate a second elevation component from the first elevation component, the first plane component, and the second plane component.
  • the generated second elevation component may be the second elevation component itself, but is not limited thereto, and may be information related to the second elevation component.
  • the video processing apparatus 100 may output a second audio signal including a second elevation component based on the feature information.
  • the present invention is not limited thereto, and the video processing apparatus 100 may output the second audio signal including the second elevation component based on the feature information and the second elevation component related information.
  • the video processing apparatus 100 may synchronize the second audio signal and the video signal and output them.
  • the above-described embodiments of the present disclosure can be written as a program that can be executed on a computer, and the written program can be stored in a medium.
  • the medium may continuously store a computer executable program, or may be a temporary storage for execution or download.
  • the medium may be various recording means or storage means in the form of a single or several hardware combined, it is not limited to a medium directly connected to any computer system, and may exist distributed on a network. Examples of the medium include a hard disk, a magnetic medium such as a floppy disk and a magnetic tape, an optical recording medium such as CD-ROM and DVD, a magneto-optical medium such as a floppy disk, and those configured to store program instructions, including ROM, RAM, flash memory, and the like.
  • examples of other media may include recording media or storage media managed by an app store for distributing applications, sites supplying or distributing other various software, and servers.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Stereophonic System (AREA)

Abstract

적어도 하나의 프로세서를 포함하고, 적어도 하나의 프로세서는, 제 1 DNN(Deep Neural Network)을 기반으로 복수의 영상을 포함하는 동영상 신호를 분석하여 복수의 시간별 주파수별 특징 정보를 생성하고,, 제 2 DNN을 기반으로 동영상 신호로부터 동영상 내 객체의 움직임에 대응하는 제 1 고도 성분 및 제 1 평면 성분을 추출하고, 제 3 DNN을 이용하여 고도 성분을 갖지 않는 제 1 오디오 신호로부터 오디오 내 음원의 움직임에 대응하는 제 2 평면 성분을 추출하고, 제 1 고도 성분, 제 1 평면 성분 및 제 2 평면 성분으로부터 제 2 고도 성분을 생성하고, 특징 정보를 기반으로 제 2 고도 성분을 포함하는 제 2 오디오 신호를 출력하고, 상기 제 2 오디오 신호 및 상기 동영상 신호를 동기화하여 출력하는, 일 실시예에 따른 동영상 처리 장치가 개시된다.

Description

동영상 처리 장치 및 방법
본 개시는 동영상을 처리하는 분야에 관한 것으로, 구체적으로, 3차원 오디오 신호를 생성하는 분야에 관한 것이다. 보다 구체적으로, 본 개시는 2차원 오디오 신호로부터 AI(artificial intelligence) 기반으로 다수의 채널을 포함하는 3차원 오디오 신호를 생성하는 분야에 관한 것이다.
오디오 신호는 일반적으로 2 채널, 5.1 채널, 7.1 채널, 및 9.1 채널의 오디오 신호와 같은 2차원 오디오 신호가 일반적이다.
하지만, 2차원 오디오 신호는 높이 방향의 오디오 정보(고도 성분의 오디오 정보)가 불확실하거나 없기 때문에 음향의 공간적인 입체감을 제공하기 위해 3차원 오디오 신호(n채널 오디오 신호, 혹은 다채널 오디오 신호; n은 2보다 큰 정수)를 생성할 필요성이 있다.
일반적인 오디오 신호 획득 장치(예를 들어, 마이크)는 2차원 오디오 신호만을 획득할 수 있다는 점에서, 2차원 오디오 신호에서 개별 음원을 확보하고, 음원의 움직임을 고려하여, 믹싱 및 모니터링을 통해 3차원 오디오 신호를 생성하였으나, 이는 매우 난이도가 높고, 오랜 시간이 걸리는 작업이었다.
따라서, 2차원 오디오 신호에 대응하는 동영상 신호를 2차원 오디오 신호와 함께 활용하여 3차원 오디오 신호를 생성하는 방안이 요구된다.
일 실시예는 2차원 오디오 신호 및 2차원 오디오 신호에 대응하는 동영상 정보를 이용하여, 보다 용이하게 3차원 오디오 신호를 생성하는 것을 기술적 과제로 한다.
본 개시의 일 실시예에 따른 동영상 처리 장치는, 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 제 1 DNN(Deep Neural Network)을 기반으로 복수의 영상을 포함하는 동영상 신호를 분석하여 복수의 시간별 주파수별 특징 정보를 생성하고,, 제 2 DNN을 기반으로 상기 동영상 신호로부터 동영상 내 객체의 움직임에 대응하는 제 1 고도 성분 및 제 1 평면 성분을 추출하고, 제 3 DNN을 이용하여 고도 성분을 갖지 않는 제 1 오디오 신호로부터 오디오 내 음원의 움직임에 대응하는 제 2 평면 성분을 추출하고, 상기 제 1 고도 성분, 상기 제 1 평면 성분 및 상기 제 2 평면 성분으로부터 제 2 고도 성분을 생성하고, 상기 특징 정보를 기반으로 상기 제 2 고도 성분을 포함하는 제 2 오디오 신호를 출력하고, 상기 제 2 오디오 신호 및 상기 동영상 신호를 동기화하여 출력한다.
상기 적어도 하나의 프로세서는 상기 복수의 시간별 주파수별 특징 정보를 생성할 때, 상기 동영상 신호를 상기 제 1 오디오 신호와 동기화하고, 상기 복수의 시간별 주파수별 특징 정보를 생성하기 위한 상기 제 1 DNN을 이용하여 상기 동영상 신호로부터 동영상 내 객체의 움직임에 따른 M개(M은 1보다 크거나 같은 정수)의 1차원 영상 특징 맵 정보를 생성하고, 상기 1차원 영상 특징 맵 정보에 대하여 주파수 관련 타일링(tiling)을 수행하여 시간 및 주파수에 대한 M개의 영상 특징 맵 정보를 포함하는 상기 복수의 시간별 주파수별 특징 정보를 생성하는 것을 특징으로 한다.
상기 적어도 하나의 프로세서는 상기 제 2 DNN을 기반으로, 상기 제 1 고도 성분 및 제 1 평면 성분을 추출하고, 상기 제 3 DNN을 기반으로, 상기 제 2 평면 성분을 추출할 때, 상기 동영상 신호를 상기 제 1 오디오 신호와 동기화하고, 상기 제 1 고도 성분에 대응하는, 상기 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하기 위한 제 2-1 DNN을 이용하여 상기 동영상 신호로부터 시간에 대한 N+M개(N, M은 1보다 크거나 같은 정수)의 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하고, 상기 제 1 평면 성분에 대응하는, 상기 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보를 추출하기 위한 제 2-2 DNN 을 이용하여 상기 동영상 신호로부터 시간에 대한 N+M개(N, M은 1보다 크거나 같은 정수)의 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보를 추출하고, 상기 제 2 평면 성분에 대응하는, 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하기 위한 제 3 DNN을 이용하여 상기 제 1 오디오 신호로부터 N+M개(N, M은 1보다 크거나 같은 정수)의 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하고, 상기 프로세서는 상기 제 1 고도 성분, 상기 제 1 평면 성분 및 상기 제 2 평면 성분으로부터, 제 2 고도 성분을 생성할 때, 상기 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보, 상기 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보 및 상기 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 기초로, 상기 제 2 고도 성분에 대응하는, 시간에 대한 N+M개의 보정 맵 정보를 생성하고, 상기 시간에 대한 N+M개의 보정 맵 정보에 대하여 주파수 관련 타일링을 수행하여 상기 제 2 고도 성분에 대응하는, 시간 및 주파수에 대한 N+M개의 보정 맵 정보를 생성하는 것을 특징으로 한다.
상기 적어도 하나의 프로세서가 상기 특징 정보를 기반으로 상기 제 2 고도 성분을 포함하는 상기 제 2 오디오 신호를 출력할 때, 상기 제 1 오디오 신호에 대한 주파수 변환 동작을 수행하여, 2채널에 대한 시간 및 주파수 정보를 생성하고, 상기 제 1 오디오 신호 내 오디오 특징을 생성하기 위한 제 4-1 DNN을 이용하여 상기 2채널에 대한 시간 및 주파수 정보로부터 시간 및 주파수에 대한 N(N은 1보다 크거나 같은 정수)개의 오디오 특징 맵 정보를 생성하고, 상기 복수의 시간별 주파수별 특징 정보에 포함된 시간 및 주파수에 대한 M개의 영상 특징 맵 정보와 상기 시간 및 주파수에 대한 N(N은 1보다 크거나 같은 정수)개의 오디오 특징 맵 정보를 기초로, N+M개의 오디오/영상 통합 특징 맵 정보를 생성하고, 주파수 도메인 제 2 오디오 신호를 생성하기 위한 제 4-2 DNN을 이용하여 상기 N+M개의 오디오/영상 통합 특징 맵 정보로부터 n채널(n은 2보다 큰 정수)에 대한 상기 주파수 도메인 제 2 오디오 신호를 생성하고, 오디오 보정 맵 정보를 생성하기 위한 제 4-3 DNN을 이용하여 상기 N+M개의 오디오/영상 통합 특징 맵 정보 및 상기 제 2 고도 성분에 대응하는, 시간 및 주파수에 대한 N+M개의 보정 맵 정보로부터 n채널에 대한 오디오 보정 맵 정보를 생성하고, 상기 n채널에 대한 오디오 보정 맵 정보를 기초로, 상기 n채널에 대한 주파수 도메인 제 2 오디오 신호에 대한 보정을 수행하여, n채널에 대한 보정된 주파수 도메인 제 2 오디오 신호를 생성하고, 상기 n채널에 대한 보정된 주파수 도메인 제 2 오디오 신호를 주파수 역변환하여 n채널에 대한 상기 제 2 오디오 신호를 출력하는 것을 특징으로 한다.
상기 적어도 하나의 프로세서는, 상기 시간에 대한 N+M개의 보정 맵 정보를 생성할 때, 상기 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보의 제 1 값과 상기 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보의 제 2 값의 관계를 고려하여 설정된 비례수 및 상기 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보의 제 3 값을 기초로, 상기 시간에 대한 N+M개의 보정 맵 정보의 제 4 값을 생성하고, 상기 제 4 값을 포함하는 상기 시간에 대한 N+M개의 보정 맵 정보를 생성하는 것을 특징으로 한다.
상기 제 2 오디오 신호를 출력할 때, 상기 제 2 오디오 신호를 출력하기 위한 제 4 DNN을 기반으로 하고, 상기 복수의 시간별 주파수별 특징 정보를 생성하기 위한 제 1 DNN, 상기 제 1 고도 성분 및 상기 제 1 평면 성분을 추출하기 위한 제 2 DNN, 상기 제 2 평면 성분을 추출하기 위한 제 3 DNN 및 상기 제 2 오디오 신호를 출력하기 위한 제 4 DNN은 제 1 훈련 2차원 오디오 신호, 제 1 훈련 영상 신호를 기초로 복원된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호와, 제 1 훈련 3차원 오디오 신호를 주파수 변환하여 획득된 제 1 주파수 도메인 훈련 3차원 오디오 신호의 비교 결과에 따라 훈련되는 것을 특징으로 한다.
상기 제 2 오디오 신호를 출력할 때, 상기 제 2 오디오 신호를 출력하기 위한 제 4 DNN을 기반으로 하고, 상기 시간 및 주파수에 대한 N+M개의 보정 맵 정보는, 사용자 입력 파라메터 정보를 기초로 수정되고, 상기 복수의 시간별 주파수별 특징 정보를 생성하기 위한 제 1 DNN, 상기 제 1 고도 성분 및 상기 제 1 평면 성분을 추출하기 위한 제 2 DNN, 상기 제 2 평면 성분을 추출하기 위한 제 3 DNN 및 상기 제 2 오디오 신호를 출력하기 위한 제 4 DNN은 제 1 훈련 2차원 오디오 신호, 제 1 훈련 영상 신호 및 상기 사용자 입력 파라메터 정보를 기초로 복원된 주파수 도메인 훈련 복원 3차원 오디오 신호와 제 1 훈련 3차원 오디오 신호를 주파수 변환하여 획득된 제 1 주파수 도메인 훈련 3차원 오디오 신호의 비교 결과에 따라 훈련되는 것을 특징으로 한다.
제 1 훈련 2차원 오디오 신호 및 제 1 훈련 영상 신호는 상기 동영상 처리 장치와 동일한 장치이거나 상기 동영상 처리 장치와 연결된 다른 장치인, 휴대용 단말로부터 획득되고, 상기 제 1 훈련 3차원 오디오 신호는 상기 휴대용 단말에 포함되거나 장착된 앰비소닉 마이크로부터 획득되는 것을 특징으로 한다.
상기 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN의 훈련 결과 획득된 제 1 내지 제 4 DNN의 파라메터 정보는, 상기 동영상 처리 장치에 저장되거나, 상기 동영상 처리 장치와 연결된 단말로부터 수신되는 것을 특징으로 한다.
본 개시의 일 실시예에 따른 동영상 처리 장치의 동영상 처리 방법은 제 1 DNN(Deep Neural Network)을 기반으로 복수의 영상을 포함하는 동영상 신호를 분석하여 복수의 시간별 주파수별 특징 정보를 생성하는 단계; 제 2 DNN을 기반으로 상기 동영상 신호로부터 동영상 내 객체의 움직임에 대응하는 제 1 고도 성분 및 제 1 평면 성분을 추출하는 단계; 제 3 DNN을 기반으로, 고도 성분을 갖지 않는 제 1 오디오 신호로부터 오디오 내 음원의 움직임에 대응하는 제 2 평면 성분을 추출하는 단계; 상기 제 1 고도 성분, 상기 제 1 평면 성분 및 상기 제 2 평면 성분으로부터 제 2 고도 성분을 생성하는 단계; 상기 특징 정보를 기반으로 상기 제 2 고도 성분을 포함하는 제 2 오디오 신호를 출력하는 단계; 및 상기 제 2 오디오 신호 및 상기 동영상 신호를 동기화하여 출력하는 단계를 포함한다.
상기 복수의 시간별 주파수별 특징 정보를 생성하는 단계는, 상기 동영상 신호를 상기 제 1 오디오 신호와 동기화하는 단계; 상기 복수의 시간별 주파수별 특징 정보를 생성하기 위한 상기 제 1 DNN(Deep Neural Network)을 이용하여 상기 동영상 신호로부터 동영상 내 객체의 움직임에 따른 M개(M은 1보다 크거나 같은 정수)의 1차원 영상 특징 맵 정보를 생성하는 단계; 및 상기 1차원 영상 특징 맵 정보에 대하여 주파수 관련 타일링(tiling)을 수행하여 시간 및 주파수에 대한 M개의 영상 특징 맵 정보를 포함하는 상기 복수의 시간별 주파수별 특징 정보를 생성하는 단계를 포함하는 것을 특징으로 한다.
상기 제 2 DNN을 기반으로, 상기 제 1 고도 성분 및 제 1 평면 성분을 추출하는 단계 및 상기 제 3 DNN을 기반으로, 상기 제 2 평면 성분을 추출하는 단계는, 상기 동영상 신호를 상기 제 1 오디오 신호와 동기화하는 단계; 상기 제 1 고도 성분에 대응하는, 상기 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하기 위한 제 2-1 DNN을 이용하여 상기 동영상 신호로부터 시간에 대한 N+M개(N, M은 1보다 크거나 같은 정수)의 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하는 단계; 상기 제 1 평면 성분에 대응하는, 상기 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보를 추출하기 위한 제 2-2 DNN 을 이용하여 상기 동영상 신호로부터 시간에 대한 N+M개(N, M은 1보다 크거나 같은 정수)의 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보를 추출하는 단계; 상기 제 2 평면 성분에 대응하는, 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하기 위한 제 3 DNN을 이용하여 상기 제 1 오디오 신호로부터 N+M개(N, M은 1보다 크거나 같은 정수)의 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하는 단계; 상기 제 1 고도 성분, 상기 제 1 평면 성분 및 상기 제 2 평면 성분으로부터, 제 2 고도 성분을 생성할 때, 상기 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보, 상기 수직 방향으로의 움직임 대응 특징 맵 정보 및 상기 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 기초로, 상기 제 2 고도 성분에 대응하는, 시간에 대한 N+M개의 보정 맵 정보를 생성하는 단계; 및 상기 시간에 대한 N+M개의 보정 맵 정보에 대하여 주파수 관련 타일링을 수행하여 상기 제 2 고도 성분에 대응하는, 시간 및 주파수에 대한 N+M개의 보정 맵 정보를 생성하는 단계를 포함한다.
상기 특징 정보를 기반으로 상기 제 2 고도 성분을 포함하는 상기 제 2 오디오 신호를 출력하는 단계는,상기 제 1 오디오 신호에 대한 주파수 변환 동작을 수행하여, 2채널에 대한 시간 및 주파수 정보를 획득하는 단계; 상기 제 1 오디오 신호 내 오디오 특징을 생성하기 위한 제 4-1 DNN을 이용하여 상기 2채널에 대한 시간 및 주파수 정보로부터 시간 및 주파수에 대한 N(N은 1보다 크거나 같은 정수)개의 오디오 특징 맵 정보를 생성하는 단계; 상기 복수의 시간별 주파수별 특징 정보에 포함된 시간 및 주파수에 대한 M개의 영상 특징 맵 정보와, 상기 시간 및 주파수에 대한 N(N은 1보다 크거나 같은 정수)개의 오디오 특징 맵 정보를 기초로, N+M개의 오디오/영상 통합 특징 맵 정보를 생성하는 단계; 및 주파수 도메인 제 2 오디오 신호를 생성하기 위한 제 4-2 DNN을 이용하여 상기 N+M개의 오디오/영상 통합 특징 맵 정보로부터 n채널(n은 2보다 큰 정수)에 대한 상기 주파수 도메인 제 2 오디오 신호를 획득하는 단계; 오디오 보정 맵 정보를 생성하기 위한 제 4-3 DNN을 이용하여 상기 N+M개의 오디오/영상 통합 특징 맵 정보로부터 상기 제 2 고도 성분에 대응하는, n채널에 대한 상기 오디오 보정 맵 정보를 생성하는 단계; 상기 n채널에 대한 N+M개의 오디오/영상 보정 맵 정보를 기초로, 상기 n채널에 대한 주파수 도메인 제 2 오디오 신호에 대한 보정을 수행하여, n채널에 대한 보정된 주파수 도메인 제 2 오디오 신호를 생성하는 단계; 및 상기 n채널에 대한 보정된 주파수 도메인 제 2 오디오 신호를 주파수 역변환하여 n채널에 대한 상기 제 2 오디오 신호를 출력하는 단계를 포함한다.
상기 제 2 오디오 신호를 출력할 때, 상기 제 2 오디오 신호를 출력하기 위한 제 4 DNN을 기반으로 하고, 상기 복수의 시간별 주파수별 특징 정보를 생성하기 위한 제 1 DNN, 상기 제 1 고도 성분 및 상기 제 1 평면 성분을 추출하기 위한 제 2 DNN, 제 2 평면 성분을 추출하기 위한 제 3 DNN 및 상기 제 2 오디오 신호를 출력하기 위한 제 4 DNN은 제 1 2차원 훈련 오디오 신호, 제 1 대응 훈련 영상 신호를 기초로 복원된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호와, 제 1 대응 3차원 훈련 오디오 신호를 주파수 변환하여 획득된 제 1 주파수 도메인 훈련 3차원 오디오 신호의 비교 결과에 따라 훈련되는 것을 특징으로 한다.
*본 개시의 일 실시예에 따른 컴퓨터로 읽을 수 있는 기록매체는 상기 방법을 실행하기 위한 프로그램을 기록한다.
본 명세서에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 일 실시예에 따른 동영상 처리 장치의 구성을 도시하는 블록도이다.
도 2는 일 실시예에 따른, 영상 특징 정보 생성부(110)의 구체적인 동작을 설명하기 위한 도면이다.
도 3은 일 실시예에 따른 제 1 DNN(300)을 설명하기 위한 도면이다.
도 4는 일 실시예에 따른, 보정 정보 생성부(120)의 구체적인 동작을 설명하기 위한 도면이다.
도 5a 내지 5b는 도메인 매칭 파라메터 αinf 를 획득하기 위해 이용된 수학식 1이 도출된 이론적 배경을 설명하기 위한 도면이다.
도 5c는, 동영상 신호 내 객체의 움직임과 2차원 오디오 신호 내 음원의 움직임을 분석하여 3차원 오디오 신호를 생성하기 위해 필요한, 오디오 신호 내 음원의 고도 성분을 추정하는 알고리즘을 설명하기 위한 도면이다.
도 6a는 제 2-1 DNN(600)을 설명하기 위한 도면이다.
도 6b는 제 2-2 DNN(650)을 설명하기 위한 도면이다.
도 7는 제 3 DNN(700)을 설명하기 위한 도면이다.
도 8은 일 실시예에 따른, 3차원 오디오 출력부(130)의 구체적인 동작을 설명하기 위한 도면이다.
도 9는 일 실시예에 따른 제 4-1 DNN(900)을 설명하기 위한 도면이다.
도 10은 일 실시예에 따른 제 4-2 DNN(1000)을 설명하기 위한 도면이다.
도 11는 일 실시예에 따른 제 4-3 DNN(1100)을 설명하기 위한 도면이다.
도 12는 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN의 훈련 방법을 설명하기 위한 도면이다.
도 13은 사용자 파라메터 신호를 고려한 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN의 훈련 방법을 설명하기 위한 도면이다.
도 14는 훈련 장치(1400)에 의한 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN의 훈련 과정을 설명하기 위한 흐름도이다.
도 15는 사용자 파라메터를 고려하여, 훈련 장치(1500)에 의한 제 1 DNN, 제 2 DNN, 제 3 DNN, 및 제 4 DNN의 훈련 과정을 설명하기 위한 흐름도이다.
도 16은 사용자가 사용자 단말(1610)을 이용하여 훈련을 위한 데이터를 수집하는 과정을 설명하기 위한 도면이다.
도 17은 일 실시예에 따른 동영상 처리 방법을 설명하는 순서도이다.
일 실시예에 의하면, 2차원 오디오 신호 및 이에 대응하는 동영상 신호를 이용하여 3차원 오디오 신호를 생성할 수 있다.
다만, 일 실시예에 따른 동영상 처리 장치 및 방법이 달성할 수 있는 효과는 이상에서 언급한 것들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 개시는 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고, 이를 상세한 설명을 통해 설명하고자 한다. 그러나, 이는 본 개시를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
실시예를 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 실시예의 설명 과정에서 이용되는 숫자(예를 들어, 제 1, 제 2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.
또한, 본 명세서에서 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.
또한, 본 명세서에서 '~부(유닛)', '모듈' 등으로 표현되는 구성요소는 2개 이상의 구성요소가 하나의 구성요소로 합쳐지거나 또는 하나의 구성요소가 보다 세분화된 기능별로 2개 이상으로 분화될 수도 있다. 또한, 이하에서 설명할 구성요소 각각은 자신이 담당하는 주기능 이외에도 다른 구성요소가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성요소 각각이 담당하는 주기능 중 일부 기능이 다른 구성요소에 의해 전담되어 수행될 수도 있음은 물론이다.
또한, 본 명세서에서 'DNN(deep neural network)'은 뇌 신경을 모사한 인공신경망 모델의 대표적인 예시로써, 특정 알고리즘을 사용한 인공신경망 모델로 한정되지 않는다.
또한, 본 명세서에서 '파라메터'는 뉴럴 네트워크를 이루는 각 레이어의 연산 과정에서 이용되는 값으로서 예를 들어, 입력 값을 소정 연산식에 적용할 때 이용되는 가중치(및 바이어스)를 포함할 수 있다. 파라메터는 매트릭스 형태로 표현될 수 있다. 파라메터는 훈련의 결과로 설정되는 값으로서, 필요에 따라 별도의 훈련 데이터(training data)를 통해 갱신될 수 있다.
또한, 본 명세서에서 '제 1 DNN'은 복수의 영상을 포함하는 동영상 신호를 분석하여 복수의 시간별 주파수별 특징 정보를 생성하기 위해 이용되는 DNN을 의미하고, '제 2 DNN'은 동영상 신호로부터 동영상 내 객체의 움직임에 대응하는 제 1 고도 성분 및 제 1 평면 성분을 추출하기 위해 이용되는 DNN을 의미하고, '제 3 DNN'은 고도 성분을 갖지 않는 제 1 오디오 신호로부터 오디오 내 음원의 움직임에 대응하는 제 2 평면 성분을 추출하기 위해 이용되는 DNN을 의미할 수 있다. '제 2 DNN' 및 '제 3 DNN'은 동영상 신호 및 동영상 신호에 대응하는 2차원 오디오 신호로부터, 2차원 오디오 신호 내 오디오 특징과 동영상 신호 내 영상 특징 간 보정 정보를 생성하기 위해 이용되는 DNN을 의미할 수 있다. 이때, 오디오 신호 내 오디오 특징과 동영상 신호 내 영상 특징 간 보정 정보는 후술할 3차원 오디오 신호에 포함될 제 2 고도 성분에 대응하는 정보로, 동영상/오디오 신호의 도메인 간에 불일치하는 고도 성분을 매칭하기 위해 이용되는 정보일 수 있다. '제 4 DNN'은 상기 보정 정보 및 복수의 시간별 주파수별 특징 정보를 기초로, 고도 성분을 갖지 않는 제 1 오디오 신호로부터 제 2 고도 성분을 포함하는 제 2 오디오 신호를 출력하기 위해 이용되는 DNN을 의미할 수 있다. 이때, 제 2 고도 성분은 제 1 고도 성분, 제 1 평면 성분 및 제 2 평면 성분으로부터 생성될 수 있다. 한편, '제 2 DNN'은 영상 신호의 수평 방향의 움직임 대응 특징 정보를 생성하기 위해 이용되는 '제 2-1 DNN', 영상 신호의 수직 방향의 움직임 대응 특징 정보를 생성하기 위해 이용되는 '제 2-2 DNN'을 포함할 수 있다.
'제 3 DNN'은 2차원 오디오 신호의 수평 방향의 움직임 대응 특징 정보를 생성하기 위해 이용될 수 있다.
'제 4 DNN'은 2차원 오디오 신호로부터 오디오 특징 정보를 생성하기 위해 이용되는 '제 4-1 DNN', 오디오 특징 정보와 영상 특징 정보가 통합된 오디오/영상 통합 특징 정보로부터 3차원 오디오 신호를 생성하기 위해 이용되는 '제 4-2 DNN', 오디오/영상 통합 특징 정보와 상기 보정 정보를 기초로 주파수에 대한 보정 정보를 생성하기 위해 이용되는 '제 4-3 DNN'을 포함할 수 있다.
이하, 본 개시의 기술적 사상에 의한 실시예들을 차례로 상세히 설명한다.
도 1은 일 실시예에 따른 동영상 처리 장치의 구성을 도시하는 블록도이다.
전술한 바와 같이, 음향의 공간적인 입체감을 제공하기 위해, 많은 오디오 신호의 채널 수를 갖는 3차원 오디오 신호를 손쉽게 생성하기 위한 방안이 필요하다.
도 1에 도시된 바와 같이, 동영상 처리 장치(100)는 2차원 오디오 신호(102) 및 2차원 오디오 신호(102)에 대응하는 동영상 신호(101)를 입력으로 하여, 3차원 오디오 신호(103)를 생성할 수 있다. 여기서 2차원 오디오 신호(102)는 2 채널, 5.1 채널, 7.1 채널 및 9.1 채널의 오디오 신호와 같이, 높이 방향의 오디오 정보(고도 성분의 오디오 정보)가 불확실하거나 포함되지 않고, 좌우 방향 및 앞뒤 방향의 오디오 정보(평면 성분의 오디오 정보)가 확실한 오디오 신호를 의미한다. 예를 들어, 2차원 오디오 신호(102)는 L(left) 채널과 R(right) 채널을 포함하는 스테레오 오디오일 수 있다.
이때, 2차원 오디오 신호(102)는 동일한 높이에 위치하는 오디오 신호 출력 장치들을 통하여 출력될 수 있고, 사용자는 따라서, 좌우 방향 및 앞뒤 방향에 대하여 음향의 공간적인 입체감을 느낄 수 있다.
한편, 3차원 오디오 신호(103)는 좌우 방향 및 앞뒤 방향의 오디오 정보뿐 아니라, 높이 방향의 오디오 정보를 포함하는 오디오 신호를 의미한다. 예를 들어, 3차원 오디오 신호(103)는 W 채널, X 채널, Y 채널 및 Z 채널을 포함하는 4 채널 앰비소닉(ambisonic) 오디오 신호일 수 있으나, 이에 제한되지 않는다. 여기서, W 채널 신호는 전 방향 음원의 세기의 합을 나타내고, X 채널 신호는 전후 음원의 세기의 차이를 나타내고, Y 채널 신호는 좌우 음원의 세기의 차이를 나타내고, Z 채널 신호는 상하 음원의 세기의 차이를 나타낼 수 있다.
즉, 높이 방향의 오디오 신호(고도 성분의 오디오 신호)를 효과적으로 포함할 수 있도록 채널이 구성된다면, 일반적으로 3차원 오디오 신호(103)는 2 채널보다 많은 채널 수를 갖는 다 채널의 앰비소닉 오디오 신호를 포함할 수 있다. 이때, 3차원 오디오 신호는 다른 높이에 위치하는 오디오 신호 출력 장치들을 통하여 출력될 수 있고, 사용자는 따라서, 좌우 방향 및 앞뒤 방향뿐 아니라, 상하 방향(높이 방향)에 대하여 음향의 공간적인 입체감을 느낄 수 있다.
본 개시의 실시예에서는, 2차원 오디오 신호에 대응하는 동영상 신호(101)로부터 영상 특징 정보(시간별 주파수별 특징 정보)를 획득하고, 영상 특징 정보에 포함된 동영상 내 객체(오디오 내 음원에 대응됨)의 움직임 대응 특징(제 1 고도 성분, 제 1 평면 성분에 대응)을 기초로, 2차원 오디오 신호가 확실하게 갖고 있지 않은 음원(동영상 내 객체에 대응됨)의 상하 방향(높이 방향)의 움직임 대응 특징(제 2 고도 성분에 대응)을 생성함으로써, 2차원 오디오 신호(102)로부터 3차원 오디오 신호(103)를 생성할 수 있다.
한편, 오디오의 도메인과 영상의 도메인 간에 약간의 차이가 존재할 수 있다. 즉, 동영상 내 객체 움직임 정보는 좌우(X축), 상하 방향(Z축)의 움직임 정보는 비교적 명확하나, 앞뒤 방향(Y축)의 움직임 정보는 불확실하다. 동영상의 특성상 동영상 내 객체 움직임 정보는 앞뒤 방향 관련 정보를 포함하기 어렵기 때문이다.
따라서, 동영상 내 객체 움직임 정보를 그대로 이용하여 2차원 오디오 신호로부터 3차원 오디오 신호를 생성한다면, 오차가 발생할 수 있다. 한편, 2차원 오디오 신호는 2채널의 스테레오 신호의 경우, 2차원 오디오 신호 내 음원(객체에 대응) 움직임 정보는 좌우(X축), 앞뒤 방향(Y축)의 움직임 정보는 비교적 명확하나, 상하 방향(Z축)의 움직임 정보는 불확실하다.
따라서, 동영상 내 객체 움직임 정보의 좌우(X축) 방향(수평 방향)의 움직임 정보와 2차원 오디오 신호 내 음원의 움직임 정보의 좌우(X축) 방향(수평 방향)의 움직임 정보 간의 차이(즉, 오디오의 도메인과 영상의 도메인 간의 차이/불일치)를 고려하여 보정한다면, 동영상 신호를 이용하여 효과적으로, 2차원 오디오 신호로부터 3차원 오디오 신호를 생성하여 출력할 수 있다. 한편, 동영상 처리 장치(100) 내 영상 특징 정보 생성부(110), 보정 정보 생성부(120) 및 3차원 오디오 출력부(130)는 AI 기반으로 구현될 수 있고, 영상 특징 정보 생성부(110), 보정 정보 생성부(120) 및 3차원 오디오 출력부(130)를 위한 AI는 DNN(deep neural network)으로 구현될 수 있다.
도 1을 참조하면, 일 실시예에 따른 동영상 처리 장치(100)는 영상 특징 정보 생성부(110), 보정 정보 생성부(120), 3차원 오디오 출력부(130) 및 동기화부(140)를 포함할 수 있다. 이에 제한되지 않고, 도 1에 도시된 바와 같이, 일 실시예에 따른 동영상 처리 장치(100)는 주파수 변환부(125)를 더 포함할 수 있다. 또는, 주파수 변환부(125)는 3차원 오디오 출력부(130)에 포함될 수 있다.
도 1은 영상 특징 정보 생성부(110), 보정 정보 생성부(120), 주파수 변환부(125), 3차원 오디오 출력부(130) 및 동기화부(140)를 개별적인 구성으로 도시하고 있으나, 영상 특징 정보 생성부(110), 보정 정보 생성부(120), 주파수 변환부(125), 3차원 오디오 출력부(130) 및 동기화부(140)는 하나의 프로세서를 통해 구현될 수 있다. 이 경우, 전용 프로세서로 구현될 수도 있고, AP(application processor) 또는 CPU(central processing unit), GPU(graphic processing unit)와 같은 범용 프로세서와 소프트웨어의 조합을 통해 구현될 수도 있다. 또한, 전용 프로세서의 경우, 본 개시의 실시예를 구현하기 위한 메모리를 포함하거나, 외부 메모리를 이용하기 위한 메모리 처리부를 포함할 수 있다.
영상 특징 정보 생성부(110), 보정 정보 생성부(120), 주파수 변환부(125), 3차원 오디오 출력부(130) 및 동기화부(140)는 복수의 프로세서로 구성될 수도 있다. 이 경우, 전용 프로세서들의 조합으로 구현될 수도 있고, AP 또는 CPU, GPU와 같은 다수의 범용 프로세서들과 소프트웨어의 조합을 통해 구현될 수도 있다.
영상 특징 정보 생성부(110)는 2차원 오디오 신호(102)에 대응하는 동영상 신호(101)로부터 영상 특징 정보를 획득할 수 있다. 영상 특징 정보는, 영상 내 객체와 같이 움직임이 존재하는 대응 특징과 관련된 (시간별/주파수별) 성분에 관한 정보로, 복수의 시간별 주파수별 특징 정보일 수 있다. 해당 객체는 2차원 오디오 신호(102)의 음원에 대응될 수 있고, 따라서, 영상 특징 정보는 3차원 오디오 생성을 위한 음원에 대응하는 비주얼 특징 패턴 맵 정보일 수 있다.
영상 특징 정보 생성부(110)는 AI를 기반으로 구현될 수 있다. 영상 특징 정보 생성부(110)는 제 1 DNN을 기반으로, 복수의 영상을 포함하는 동영상 신호를 분석하여 복수의 시간별 주파수별 특징 정보를 생성할 수 있다. 제 1 DNN에 관한 일 예는, 도 3을 참조하여 후술하기로 한다.
영상 특징 정보 생성부(110)는 동영상 신호를 2차원 오디오 신호와 동기화하고, 제 1 DNN을 이용하여 동영상 신호(101)로부터 동영상 내 객체의 (위치 또는) 움직임에 따른 M(M은 1보다 크거나 같은 정수)개의 1차원 영상 특징 맵 정보를 획득할 수 있다. 즉, M개의 샘플은 영상 내 객체의 (위치 또는) 움직임에 대응하는 특징 패턴을 나타낼 수 있다. 즉, 적어도 하나의 프레임(또는 프레임 빈)으로부터 1차원 영상 특징 맵 정보가 생성될 수 있다. 한편, 1차원 영상 특징 맵 정보를 반복적으로 획득함으로써, 복수의 프레임 빈을 갖는 2차원 영상 특징 맵 정보(시간별 특징 정보)가 획득될 수 있다.
영상 특징 정보 생성부(110)는 주파수에 대한 타일링을 수행하여, 모든 주파수 빈에 대하여 동일한 값을 채움으로써, 영상 특징, 프레임 빈 및 주파수 빈 성분을 갖는 3차원 영상 특징 맵 정보(시간별 주파수별 특징 정보)가 획득될 수 있다. 즉, 시간 및 주파수에 대한 M개의 영상 특징 맵 정보가 획득될 수 있다. 여기서, 주파수 빈이란, 각 샘플이 어느 주파수(범위)에 해당하는 값을 가지고 있는지를 나타내는 일종의 주파수 인덱스를 의미한다. 또한, 프레임 빈이란, 각 샘플이 어느 프레임(범위)에 해당하는 값을 가지고 있는지를 나타내는 일종의 프레임 인덱스를 의미한다.
영상 특징 정보 생성부(110)의 구체적인 동작과 관련하여, 도 2를 참조하여 후술하고, 제 1 DNN에 관한 일 예는, 도 3을 참조하여 후술하기로 한다.
보정 정보 생성부(120)는 동영상 신호(101) 및 2차원 오디오 신호(102)로부터, 2차원 오디오 신호(102) 내 오디오 특징과 동영상 신호(101) 내 영상 특징 간 보정 정보를 생성할 수 있다. 2차원 오디오 신호(102) 내 오디오 특징은, 오디오 내 음원(객체에 대응됨)의 움직임에 대응하는 특징 성분을 의미할 수 있다. 보정 정보 생성부(120)는 AI를 기반으로 구현될 수 있다. 보정 정보 생성부(120)는 제 2 DNN을 기반으로, 동영상 신호(101)로부터 동영상 내 객체(음원에 대응됨)의 움직임에 대응하는 제 1 고도 성분 및 제 1 평면 성분을 추출하고, 제 3 DNN을 기반으로, 고도 성분을 갖지 않는 2차원 오디오 신호(102)로부터 오디오 내 음원의 움직임에 대응하는 제 2 평면 성분을 추출할 수 있다. 보정 정보 생성부(120)는 제 1 고도 성분, 제 1 평면 성분, 상기 제 2 평면 성분으로부터 제 2 고도 성분에 대응하는 보정 정보를 생성할 수 있다.
즉, 보정 정보 생성부(120)는 제 2 DNN 및 제 3 DNN을 이용하여 동영상 신호 및 동영상 신호에 대응하는 2차원 오디오 신호로부터, 보정 정보를 생성할 수 있다. 제 2 DNN 및 제 3 DNN에 관한 일 예는, 도 6a 내지 도 7을 참조하여 후술하기로 한다.
보정 정보 생성부(120)는 동영상 신호(101)를 2차원 오디오 신호(102)와 동기화하고, 동영상 내 수평 방향으로의 움직임 대응 특징 정보(제 1 평면 성분에 대응) 및 영상 내 수직 방향으로의 움직임 대응 특징 정보(제 1 고도 성분에 대응)를 획득할 수 있다.
보정 정보 생성부(120)는 2차원 오디오 신호로부터 오디오 내 수평 방향으로의 움직임 대응 특징 정보(제 2 평면 성분에 대응)를 획득할 수 있다.
구체적으로, 보정 정보 생성부(120)는 제 2-1 DNN을 이용하여 동영상 신호(101)로부터 시간에 대한 N+M(N,M은 1보다 크거나 같은 정수)의 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보를 획득할 수 있다. 즉, 복수의 프레임 빈 성분, N+M 개의 움직임 대응 특징 성분을 포함하는 2차원 맵 정보가 획득될 수 있다.
한편, 보정 정보 생성부(120)는 제 2-2 DNN을 이용하여 동영상 신호(101)로부터 시간에 대한 N+M(N, M은 1보다 크거나 같은 정수)의 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보를 획득할 수 있다. 즉, 복수의 프레임 빈 성분, N+M개의 움직임 대응 특징 성분을 포함하는 2차원 맵 정보가 획득될 수 있다.
한편, 제 2-1 DNN 및 제 2-2 DNN의 일 예는, 도 6a 및 6b를 참조하여 후술하기로 한다.
보정 정보 생성부(120)는 제 3 DNN을 이용하여 2차원 오디오 신호(102)로부터 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 획득할 수 있다. 즉, 복수의 프레임 빈 성분, N+M개의 움직임 대응 특징 성분을 포함하는 2차원 맵 정보가 획득될 수 있다. 한편, 제 3 DNN의 일 예는, 도 7을 참조하여 후술하기로 한다.
보정 정보 생성부(120)는 동영상 내 수평 방향으로의 움직임 대응 특징 정보 및 동영상 내 수직 방향으로의 움직임 대응 특징 정보와 오디오 내 수평 방향으로의 움직임 대응 특징 정보를 기초로, 시간에 대한 보정 정보를 생성할 수 있다.
구체적으로, 보정 정보 생성부(120)는 시간에 대한 N+M 개의 영상 내 수평 및 수직 방향으로의 움직임 대응 특징 맵 정보 및 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 기초로, 시간에 대한 N+M개의 보정 맵 정보를 획득할 수 있다. 이때, 영상 내 수평 방향으로의 움직임 대응 특징 맵 정보의 제 1 값과, 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보의 제 2 값의 관계를 고려하여 설정된 비례수 및 영상 내 수직 방향으로의 움직임 대응 특징 맵 정보의 제 3 값을 기초로, 시간에 대한 N+M개의 보정 맵 정보의 제 4 값을 획득할 수 있고, 제 4 값을 포함하는 시간에 대한 N+M개의 보정 맵 정보를 생성할 수 있다.
보정 정보 생성부(120)는 시간에 대한 보정 정보에 대하여 주파수 관련 타일링을 수행하여 시간 및 주파수에 대한 보정 정보를 획득할 수 있다. 예를 들어, 보정 정보 생성부(120)는 복수의 프레임 빈 성분, 복수의 주파수 빈 성분 및 N+M 개의 보정 파라메터 성분을 포함하는 보정 맵 정보를 획득할 수 있다. 즉, 보정 정보 생성부(120)는 모든 주파수 빈에 대하여 보정 파라메터 성분을 동일한 값으로 채움으로써, 보정 파라메터(또는 도메인 매칭 파라메터라 함), 프레임 빈, 주파수 빈 성분을 갖는 3차원 보정 맵 정보가 획득될 수 있다.
보정 정보 생성부(120)의 구체적인 동작과 관련하여, 도 4를 참조하여 후술하기로 한다.
주파수 변환부(125)는 STFT(Short Time Fourier Transform) 등의 다양한 변환 방법에 따라 2차원 오디오 신호(102)를 주파수 도메인 2차원 오디오 신호로 변환할 수 있다. 2차원 오디오 신호(102)는 채널 및 시간에 따라 구분되는 샘플들을 포함하며, 주파수 도메인 신호는 채널, 시간 및 주파수 빈(frequency bin)에 따라 구분되는 샘플들을 포함한다.
3차원 오디오 출력부(130)는 주파수 도메인 2차원 오디오 신호, 영상 특징 정보(복수의 시간별 주파수별 특징 정보) 및 보정 정보를 기초로, 3차원 오디오 신호를 생성 및 출력할 수 있다. 3차원 오디오 출력부(130)는 AI를 기반으로 구현될 수 있다. 3차원 오디오 출력부(130)는 제 4 DNN을 이용하여 2차원 오디오 신호로부터 영상 특징 정보를 기반으로 3차원 오디오 신호를 생성 및 출력할 수 있다. 제 4 DNN에 관한 일 예는, 도 9 내지 11을 참조하여 후술하기로 한다.
3차원 오디오 출력부(130)는 2차원 신호에 대한 주파수 변환 동작을 수행하여, 2채널에 대한, 시간 및 주파수 정보를 획득할 수 있다. 다만 이에 제한되지 않고, 전술한 바와 같이 주파수 변환부(125)가 3차원 오디오 출력부(130)와 별도로 존재하는 경우, 주파수 변환 동작 수행 없이, 주파수 도메인 2차원 오디오 신호 정보를 주파수 변환부(125)로부터 획득할 수 있다.
주파수 도메인 2차원 오디오 신호 정보는 2채널에 대한 시간(프레임 빈) 및 주파수 정보(주파수 빈)을 포함할 수 있다. 즉, 주파수 도메인 2차원 오디오 신호 정보는 주파수 빈 및 시간에 의해 구분되는 샘플 정보를 포함할 수 있다.
3차원 오디오 출력부(130)는 2채널에 대한 시간 및 주파수 정보로부터 시간 및 주파수에 대한 오디오 특징 정보를 생성할 수 있다. 구체적으로, 3차원 오디오 출력부(130)는 제 4-1 DNN을 이용하여 2채널에 대한 시간 및 주파수 정보로부터 시간 및 주파수에 대한 N개의 오디오 특징 맵 정보를 생성할 수 있다. 제 4-1 DNN의 일 예는, 도 9를 참조하여 후술하기로 한다.
3차원 오디오 출력부(130)는 시간 및 주파수에 대한 오디오 특징 정보(시간별 주파수별 오디오 특징 정보)와 시간 및 주파수에 대한 영상 특징 정보(시간별 주파수별 영상 특징 정보)를 기초로, 오디오/영상 통합 특징 정보를 생성할 수 있다. 구체적으로, 3차원 오디오 출력부(130)는 시간 및 주파수에 대한 M개의 영상 특징 맵 정보와 시간 및 주파수에 대한 N개의 오디오 특징 맵 정보를 기초로, N+M개의 오디오/영상 통합 특징 맵 정보를 생성할 수 있다.
3차원 오디오 출력부(130)는 오디오/영상 통합 특징 맵 정보로부터 n채널(n은 2보다 큰 정수)에 대한 주파수 도메인 3차원 오디오 신호를 생성할 수 있다. 구체적으로, 3차원 오디오 출력부(130)는 제 4-2 DNN을 이용하여 N+M개의 오디오/영상 통합 특징 맵 정보로부터 n채널에 대한 주파수 도메인 3차원 오디오 신호를 생성할 수 있다. 제 4-2 DNN의 일 예로, 도 10을 참조하여 후술하기로 한다.
3차원 오디오 출력부(130)는 오디오/영상 통합 특징 정보와, 시간 및 주파수에 대한 보정 정보를 기초로, n 채널에 대한 오디오 보정 정보를 획득할 수 있다. 구체적으로, 3차원 오디오 출력부(130)는 제 4-3 DNN을 이용하여 시간 및 주파수에 대한 N+M개의 오디오/영상 통합 특징 맵 정보 및 시간 및 주파수에 대한 N+M개의 보정 맵 정보로부터 n채널에 대한 오디오 보정 맵 정보(주파수에 대한 보정 정보)를 생성할 수 있다.
3차원 오디오 출력부(130)는 n채널에 대한 오디오 보정 맵 정보를 기초로, n 채널에 대한 주파수 도메인 3차원 오디오 신호에 대한 보정을 수행하여 n 채널에 대한 보정된 주파수 도메인 3차원 오디오 신호를 획득할 수 있다. 이때, 제 2 고도 성분을 포함하는 3차원 오디오 신호가 출력될 수 있고, 특히, 제 2 고도 성분은, n 채널에 대한 주파수 도메인 3차원 오디오 신호에 포함된 고도 성분에 대하여, 보정 정보를 기초로 보정함으로써 생성된 고도 성분이기 때문에, 오디오 내 음원의 움직임이 잘 반영된 성분일 수 있다. 3차원 오디오 출력부(130)는 n채널에 대한 보정된 주파수 도메인 3차원 오디오 신호를 주파수 역변환하여, n채널에 대한 3차원 오디오 신호를 생성 및 출력할 수 있다.
3차원 오디오 출력부(130)의 구체적인 모듈 및 동작과 관련하여, 도 8을 참조하여 후술하기로 한다.
한편, 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN은 제 1 훈련 2차원 오디오 신호, 제 1 훈련 영상 신호를 기초로 복원된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호와, 제 1 훈련 3차원 오디오 신호를 주파수 변환하여 획득된 제 1 주파수 도메인 훈련 3차원 오디오 신호의 비교 결과에 따라 훈련될 수 있다. 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN의 훈련과 관련하여 도 12를 참조하여 후술하기로 한다.
한편, 시간 및 주파수에 대한 보정 정보는, 사용자 (입력) 파라메터 정보를 기초로 수정될 수 있다. 이때, 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN은 제 1 훈련 2차원 오디오 신호, 제 1 훈련 영상 신호 및 사용자 파라메터 정보를 기초로 복원된 주파수 도메인 훈련 복원 3차원 오디오 신호와, 제 1 훈련 3차원 오디오 신호를 주파수 변환하여 획득된 제 1 주파수 도메인 훈련 3차원 오디오 신호의 비교 결과에 따라 훈련될 수 있다. 사용자 입력 파라메터를 추가적으로 고려한 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN의 훈련과 관련하여 도 13을 참조하여 후술하기로 한다.
한편, 제 1 훈련 2차원 오디오 신호 및 제 1 훈련 영상 신호는 동영상 처리 장치(또는 후술할 훈련 장치)와 동일한 장치이거나 상기 동영상 처리 장치(또는 후술한 훈련 장치)와 연결된 다른 장치인 휴대용 단말로부터 획득될 수 있다. 제 1 훈련 3차원 오디오 신호는 휴대용 단말에 포함되거나 장착된 앰비소닉 마이크로부터 획득될 수 있다. 휴대용 단말에서의 훈련 신호 획득과 관련하여, 도 16을 참조하여 후술하기로 한다.
한편, 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN의 훈련 결과 획득된 제 1 내지 제 3 DNN의 파라메터 정보는 동영상 처리 장치에 저장되거나, 동영상 처리 장치(또는 후술할 훈련 장치)와 연결된 단말로부터 수신될 수 있다.
동기화부(140)는 동영상 신호(101) 및 3차원 오디오 신호(103)를 동기화하여 동기화된 3차원 오디오 신호 및 동영상 신호를 출력할 수 있다. 이하에서는, 동영상 처리 장치(100)에 포함된 영상 특징 정보 생성부(110), 보정 정보 생성부(120) 및 3차원 오디오 출력부(130)의 구체적인 모듈 및 그 동작과 영상 특징 정보 생성부(110), 보정 정보 생성부(120) 및 3차원 오디오 출력부(130)에 포함된 제 1 DNN 내지 제 4 DNN에 대해 도 3 내지 도 11을 참조하여 설명한다.
도 2는 일 실시예에 따른, 영상 특징 정보 생성부(110)의 구체적인 동작을 설명하기 위한 도면이다.
도 2를 참조하면, 영상 특징 정보 생성부(110)는 동기화부(210), 제 1 DNN(220) 및 타일링부(230)을 포함할 수 있다.
먼저 동기화부(210)는 동영상 신호 V (t, h, w, 3)를 2차원 오디오 신호와 동기화할 수 있다. 즉, 2차원 오디오 신호의 샘플링 주파수(예를 들어, 48kHz)와 동영상 신호의 샘플링 주파수(예를 들어, 60Hz)는 상이하고, 특히, 오디오 신호의 샘플링 주파수가 영상 신호의 샘플링 주파수보다 상당히 크므로, 2차원 오디오 신호의 샘플과 이에 대응하는 동영상 신호의 샘플(프레임)을 매칭시키는 동기화 작업이 수행될 수 있다.
제 1 DNN(220)은 동기화된 동영상 신호 V (t, h, w, 3)로부터 영상 특징 정보 Vinf (1, 1, M')를 획득하기 위해 이용되는 DNN일 수 있다. 이때, 영상 특징 정보는 1차원의 M'개의 영상 특징 정보일 수 있다. 타일링부(230)는 제 1 DNN(220)을 이용하여 프레임 빈마다 1차원의 M'개의 영상 특징 정보를 누적하여, 복수의 프레임 빈(τ)(즉, 시간)에 대한 2차원의 M'개의 영상 특징 정보 Vinf (1, τ, M')를 획득할 수 있다.
타일링부(230)는 복수의 프레임 빈에 대한 2차원의 M'개의 영상 특징 정보 Vinf (1, τ, M')에 대하여 주파수 성분에 대한 타일링을 수행하여 복수의 프레임 빈(τ)(즉, 시간) 및 복수의 주파수 빈(f)(즉, 주파수)에 대한 3차원의 영상 특징 정보 Vinf (f, τ, M')를 획득할 수 있다. 즉, 2차원의 영상 특징 정보 Vinf (1, τ, M')를 기초로, 모든 주파수 성분에 대하여, 동일한 영상 특징 값을 채움으로써, 3차원의 영상 특징 정보 Vinf (1, τ, M')가 획득될 수 있다.
도 3은 일 실시예에 따른 제 1 DNN(300)을 설명하기 위한 도면이다.
제 1 DNN(300)은 적어도 하나의 컨볼루션(convolution) 레이어, 풀링(Pooling) 레이어 및 풀리-커넥티드(Fully-Connected)(완전-연결) 레이어를 포함할 수 있다. 컨볼루션 레이어는 미리 결정된 크기의 필터로 입력 데이터를 처리하여 특징 데이터를 획득한다. 컨볼루션 레이어의 필터의 파라메터들은 후술하는 훈련 과정을 통해 최적화될 수 있다. 풀링 레이어는 입력 데이터의 크기를 줄이기 위해, 특징 데이터의 전체 샘플의 특징 값 중 일부 샘플의 특징 값만을 취하여 출력하기 위한 레이어로, 최대 풀링 레이어(Max Pooling Layer) 및 평균 풀링 레이어(Average Pooling Layer) 등을 포함할 수 있다. 풀리-커넥티드 레이어는 한 레이어의 뉴런이 그 다음 레이어의 모든 뉴런과 연결된 레이어로, 특징을 분류하기 위한 레이어이다.
다운스케일링 레이어는 풀링 레이어의 일 예로, 주로, 컨볼루션 레이어에 입력되기 전 입력 영상의 데이터 크기를 줄이기 위한 풀링 레이어를 의미할 수 있다.
도 3을 참조하면, 동영상 신호(301)가 제 1 DNN(300)으로 입력된다. 동영상 신호(301)는 입력 채널, 시간, 높이 및 너비로 구분되는 샘플들을 포함한다. 즉, 동영상 신호(301)는 샘플들의 4차원 데이터일 수 있다. 동영상 신호(301)의 각 샘플은 픽셀값일 수 있다. 동영상 신호(301)의 입력 채널은 RGB 채널로 3일 수 있으나, 이에 제한되지 않는다.
도 3은 동영상 신호(301)의 크기가 (t, h, w, 3)임을 도시하고 있는데, 이는, 동영상 신호(301)의 시간 길이가 t이고, 입력 채널 수는 3이고, 영상의 높이는 h이고, 영상의 너비는 w임을 나타낸다. t라는 시간 길이는 프레임의 개수가 t개임을 의미하고, 각 프레임은 소정의 시간 구간(예를 들어, 5ms)에 대응한다. 동영상 신호(301)의 크기가 (t, h, w, 3)라는 것은 하나의 예시일 뿐이며, 구현 예에 따라 동영상 신호(301)의 크기, 각 레이어로 입력되는 신호의 크기 및 각 레이어에서 출력되는 신호의 크기는 다양하게 변경될 수 있다. 예를 들어, h,w는 224일 수 있으나, 이에 제한되지 않는다.
다운 스케일링 레이어(310)의 처리 결과, 동영상 신호(301)이 다운 스케일링되어, 제 1 중간 신호(302)가 획득될 수 있다. 즉, 다운 스케일링에 의해 동영상 신호(301)의 높이(h) 및 너비(w)에 의해 구분되는 샘플들의 개수가 줄어들게 되고, 동영상 신호(301)의 높이 및 너비가 줄어들게 된다. 예를 들어, 동영상 신호(301)의 높이 및 너비는 112일 수 있으나, 이에 제한되지 않는다.
제 1 컨볼루션 레이어(320)는 axb 크기의 c개의 필터로, 다운 스케일링된 영상 신호(제 1 중간 신호)(302)를 처리한다. 예를 들어, 제 1 컨볼루션 레이어(320)의 처리 결과, (112, 112, c) 크기의 제 2 중간 신호(303)가 획득될 수 있다. 이때, 제 1 컨볼루션 레이어(320)는 복수의 컨볼루션 레이어로 구성될 수 있고, 제 1 레이어의 입력과 제 2 레이어의 출력은 서로 연결되어 훈련될 수 있다. 제 1 레이어와 제 2 레이어는 동일할 수 있으나, 이에 제한되지 않고, 제 2 레이어는 제 1 레이어의 후속 레이어일 수 있다. 제 2 레이어는 제 1 레이어의 후속 레이어인 경우, 제 1 레이어의 활성화 함수는 PRelu이고, 활성화 함수의 파라메터도 함께 훈련될 수 있다.
제 1 풀링 레이어(330)을 이용하여, 제 2 중간 신호(303)에 대한 풀링이 수행될 수 있다. 예를 들어, 풀링 레이어(330)의 처리 결과, 제 3 중간 신호(14,14,c)가 획득될 수 있다.
제 2 컨볼루션 레이어(340)는 dxe 크기의 f개의 필터로 입력된 신호를 처리한다. 제 2 컨볼루션 레이어(340)의 처리 결과, (14, 14, f) 크기의 제 4 중간 신호(305)가 획득될 수 있다.
한편, 제 3 컨볼루션 레이어(350)는 1x1 컨볼루션 레이어일 수 있다. 제 3 컨볼루션 레이어(350)는 채널 수를 조절하기 위해 이용될 수 있다. 제 3 컨볼루션 레이어(350)의 처리 결과, (14,14,g) 크기의 제 5 중간 신호(306)가 획득될 수 있다.
제 1 풀리 커넥티드 레이어(360)은 입력된 특징 신호를 분류하여 1차원의 특징 신호를 출력할 수 있다. 제 1 풀리 커넥티드 레이어(360)의 처리 결과, (1, 1, M') 크기의 영상 특징 신호(307)가 획득될 수 있다.
본 개시의 일 실시예에 따른 제 1 DNN(300)은 동영상 신호(301)로부터 영상 객체(음원에 대응)의 움직임에 대응하는 영상 특징 신호(307)를 획득한다. 즉, 도 3은 제 1 DNN(300)이 3개의 컨볼루션 레이어, 1개의 다운스케일링 레이어 및 1개의 풀링 레이어 및 1개의 풀리 커넥티드 레이어를 포함하는 것으로 도시하고 있으나, 이는 예시일 뿐, 동영상 신호(301)로부터 M개의 영상 특징을 포함하는 영상 특징 신호(307)를 획득할 수 있다면, 제 1 DNN(300)에 포함되는 컨볼루션 레이어, 다운 스케일링 레이어, 풀링 레이어, 풀리 커넥티드 레이어의 개수는 다양하게 변형될 수 있다. 마찬가지로, 각 컨볼루션 레이어에서 이용되는 필터의 개수 및 크기도 다양하게 변경될 수 있고, 각 레이어 간의 연결 순서 및 방식도 다양하게 변경될 수 있다.
도 4는 일 실시예에 따른, 보정 정보 생성부(120)의 구체적인 동작을 설명하기 위한 도면이다.
도 4를 참조하면, 보정 정보 생성부(120)는 동기화부(410), 제 2 DNN 및 제 3 DNN(420), 보정 맵 정보 생성부(430) 및 타일링부(440)을 포함할 수 있다.
도 4를 참조하면, 동기화부(410)는 동영상 신호 V (t, h, w, 3)를 2차원 오디오 신호와 동기화할 수 있다. 즉, 2차원 오디오 신호의 샘플과 이에 대응하는 영상 신호의 샘플(프레임)을 매칭시키는 동기화 작업이 수행될 수 있다.
제 2-1 DNN(421)은 동기화된 동영상 신호 V (t, h, w, 3)로부터 수평 방향으로의 영상 움직임 대응 특징 맵 정보 m_v_H (1, τ, N+M')(제 1 평면 성분에 대응)를 생성하기 위해 이용되는 DNN일 수 있다. 이때, 수평 방향으로의 영상 움직임 대응 특징 맵 정보는 2차원의 시간(프레임 빈)에 대한 N+M'개(N과 M'는 1보다 크거나 같은 정수)의 영상 특징 정보일 수 있다.
제 2-2 DNN(422)는 동기화된 동영상 신호 V (t, h, w, 3)로부터 수직 방향으로의 영상 움직임 대응 특징 맵 정보 m_v_V (1, τ, N+M')(제 1 고도 성분에 대응)를 생성하기 위해 이용되는 DNN일 수 있다. 이때, 수직 방향으로의 영상 움직임 대응 특징 맵 정보는 2차원의 시간(프레임 빈)에 대한 N+M'개(N과 M'는 1보다 크거나 같은 정수)의 영상 특징 정보일 수 있다.
제 3 DNN(423)는 2차원 오디오 신호 AIn_2D(t,2)로부터 수평 방향으로의 오디오 움직임 대응 특징 맵 정보 m_a_H (1, τ, N+M')(제 2 평면 성분에 대응)를 생성하기 위해 이용되는 DNN일 수 있다. 이때, 수평 방향으로의 오디오 움직임 대응 특징 맵 정보는 2차원의 시간(프레임 빈)에 대한 N+M'개(N과 M'는 1보다 크거나 같은 정수)의 영상 특징 정보일 수 있다.
보정 맵 정보 생성부(430)는 수평 방향으로의 영상 움직임 대응 특징 맵 정보
m_v_H (1, τ, N+M'), 수직 방향으로의 영상 움직임 대응 특징 맵 정보
m_v_V (1, τ, N+M'), 수평 방향으로의 오디오 움직임 대응 특징 맵 정보
m_a_H (1, τ, N+M')로부터 보정 맵 정보 αinf(1, τ, N+M')를 획득할 수 있다. 구체적으로, 보정 맵 정보 생성부(430)는 다음 수학식 1에 따라, 보정 맵 정보 αinf(1, τ, N+M')를 획득할 수 있다.
Figure PCTKR2021013231-appb-img-000001
상기 수학식 1은 다음과 같은 이론적 배경을 기반으로 한다. 이하 도 5a 내지 5b를 참조하여 도메인 매칭 파라메터 αinf 를 획득하기 위해 이용된 수학식 1이 도출된 이론적 배경을 설명하겠다.
도 5a 및 도 5b를 참조하면, 케이스 1(510)과 케이스 2(520)와 같이 영상 내 객체의 움직임 정보(mv1, mv2)가 동일한 경우라고 하더라도, 케이스 1(510)의 영상 내 음원(영상 객체에 대응)의 움직임 정도 S와 케이스 2(520)의 영상 내 음원(객체에 대응)의 움직임 정도 S가 일치하지 않는 경우가 존재할 수 있다. 영상 센서 및 카메라 이미징 시스템이 근본적으로 가지는 영상 씬(scene)별 depth-wise perspective의 변형 정도의 차이가 존재하여 왜곡이 발생하기 때문으로, 영상 내 음원 객체의 정보와 오디오 내의 음원 객체의 움직임 정보가 근본적으로 대응되지 않기 때문이다.
따라서, 영상의 객체 움직임 대응 특징 정보를 그대로 이용하여 3차원 오디오의 생성에 이용하는데 이용하기 보다는, 움직임 정보의 불일치를 해결하기 위해 보정 파라메터(또는, 도메인 매칭 파라메터)를 획득할 수 있다.
즉, 영상 내 객체 움직임 정보는 좌우 방향(X 축 방향), 상하 방향(Z축 방향)의 움직임 정보는 이용할 수 있으나, 앞뒤 방향(Y축 방향)의 움직임 정보는 불확실하기 때문에 해당 움직임 정보를 그대로 3차원 오디오의 생성에 이용하는 경우, 오차가 클 수 있다.
한편, 오디오 내 음원 움직임 정보는 좌우 방향(X 축 방향), 앞뒤 방향(Y축 방향)의 움직임 정보는 이용할 수 있으나, 상하 방향(Z축 방향)의 움직임 정보는 불확실성이 존재할 수 있다.
이러한 움직임 정보의 불일치를 해결하기 위해, 공통적으로 확실성이 존재하는 X축 방향의 움직임 정보를 기반으로 보정 파라메터를 획득할 수 있다.
이때, 비교적 정확한 오디오 내 음원 움직임 정보 중 X축 방향 정보와, 영상 내 객체 움직임 정보 중 X축 방향 정보 간의 비교를 통해, 영상 도메인의 Z 축 방향의 객체 움직임 정보를 오디오 도메인의 Z축 방향의 음원 움직임 정보에 맞게 보정(도메인 매칭)할 수 있다. 예를 들어, 케이스 1(510)의 영상 내 객체의 움직임 정보에 포함된 X축/Z축 방향의 정보(mv1_x, mv1_z)가 (10,2)이고, 케이스 1(510)의 오디오 내 음원의 움직임 정보에 포함된 X축 방향의 정보(Smv1_x)가 5라면, 비례식을 기초로, 오디오 내 음원의 Z축 방향의 정보(Smv1_y)이 1로 획득될 수 있다. 케이스 2(520)의 영상 내 객체의 움직임 정보에 포함된 X축/Z축 방향의 정보(mv1_x,mv1_z)가 (10,2)이고, 케이스 2(520)의 오디오 내 음원의 움직임 정보에 포함된 X축 방향의 정보(Smv1_x)가 8라면, 비례식을 기초로, 오디오 내 음원의 Z축 방향의 정보(Smv1_y)이 1.6로 획득될 수 있다. 즉, Smv1_x : mv1_x=Smv1_z:mv1_z의 비례식을 기초로, Smv1_z = Smv1_x * mv1_z / mv1_x이 될 수 있다. 이때, Smv1_z 값이 보정 파라메터로 이용될 수 있다.
전술한 보정 파라메터 도출 방법을 기초로, 전술한 수학식 1이 도출될 수 있다. 타일링부(440)는 보정 맵 정보 생성부(430)로부터 수신한 2차원의 N+M' 보정 맵 정보에 대하여 주파수 성분에 대한 타일링을 수행하여 보정 맵 정보αinf(f, t, N+M')를 획득할 수 있다. 즉, 2차원의 보정 맵 정보 αinf(1, t, N+M')를 기초로, 모든 주파수 성분에 대하여, 동일한 영상 특징 값을 채움으로써, 3차원의 보정 맵 정보 αinf(1, t, N+M')가 획득될 수 있다.
도 5c는, 동영상 신호 내 객체의 움직임과 2차원 오디오 신호 내 음원의 움직임을 분석하여 3차원 오디오 신호를 생성하기 위해 필요한, 오디오 신호 내 음원의 고도 성분을 추정하는 알고리즘을 설명하기 위한 도면이다.
도 5c를 참조하면, 동영상 처리 장치(100)는 동영상 신호를 분석하여 동영상 내 객체의 움직임 관련 제 1 고도 성분 및 제 1 평면 성분 관련 특징 정보를 추출할 수 있다. 한편, 동영상 처리 장치(100)는 2차원 오디오 신호를 분석하여 2차원 오디오 신호 내 음원의 움직임 관련 제 2 평면 성분 관련 특징 정보를 추출할 수 있다. 동영상 처리 장치(100)는 제 1 고도 성분, 제 1 평면 성분 및 제 2 평면 성분 특징 정보를 기초로, 음원의 움직임 관련 제 2 고도 성분 특징 정보를 추정할 수 있다. 동영상 처리 장치(100)는 제 2 고도 성분 관련 특징 정보를 기초로, 2차원 오디오 신호로부터 제 2 고도 성분을 포함하는 3차원 오디오 신호를 출력할 수 있다. 이때, 제 2 고도 성분 관련 특징 정보는 도 4에서 전술한 보정 맵 정보에 대응될 수 있다.
도 6a는 제 2-1 DNN(600)을 설명하기 위한 도면이다.
제 2-1 DNN(600)은 적어도 하나의 컨볼루션(convolution) 레이어, 풀링(Pooling) 레이어 및 풀리-커넥티드(Fully-Connected)(완전-연결) 레이어를 포함할 수 있다. 다운스케일링 레이어는 풀링 레이어의 일 예로, 주로, 컨볼루션 레이어에 입력되기 전 입력 영상의 데이터 크기를 줄이기 위한 풀링 레이어를 의미할 수 있다.
도 6a를 참조하면, 동영상 신호(601)가 제 2-1 DNN(600)으로 입력된다. 동영상 신호(601)는 입력 채널, 시간, 높이 및 너비로 구분되는 샘플들을 포함한다. 즉, 동영상 신호(601)는 샘플들의 4차원 데이터일 수 있다.
동영상 신호(601)의 크기가 (t, h, w, 3)라는 것은 하나의 예시일 뿐이며, 구현 예에 따라 동영상 신호(601)의 크기, 각 레이어로 입력되는 신호의 크기 및 각 레이어에서 출력되는 신호의 크기는 다양하게 변경될 수 있다. 예를 들어, h,w는 224일 수 있으나, 이에 제한되지 않는다.
다운 스케일링 레이어(610)를 이용하여 동영상 신호(601)이 다운 스케일링되어 제 1 중간 신호(602)가 획득된다. 즉, 다운 스케일링에 의해 동영상 신호(601)의 높이(h) 및 너비(w)에 의해 구분되는 샘플들의 개수가 줄어들게 되고, 동영상 신호(601)의 높이 및 너비가 줄어들게 된다. 예를 들어, 제 1 중간 신호(602)의 높이 및 너비는 112 일 수 있으나, 이에 제한되지 않는다.
제 1 컨볼루션 레이어(615)는 axb 크기의 c개의 필터로 다운 스케일링된 영상 신호를 처리한다. 이때, 수평 방향의 움직임 대응 특징 성분을 획득하기 위해, 3x1 크기의 수평 방향의 필터가 이용될 수 있다. 예를 들어, 제 1 컨볼루션 레이어(615)의 처리 결과, (112, 112, c) 크기의 제 2 중간 신호(603)가 획득될 수 있다. 이때, 제 1 컨볼루션 레이어(615)는 복수의 컨볼루션 레이어로 구성될 수 있고, 제 1 레이어의 입력과 제 2 레이어의 출력은 서로 연결되어 훈련될 수 있다. 제 1 레이어와 제 2 레이어는 동일할 수 있으나, 이에 제한되지 않고, 제 2 레이어는 제 1 레이어의 후속 레이어일 수 있다. 제 2 레이어는 제 1 레이어의 후속 레이어인 경우, 제 1 레이어의 활성화 함수는 PRelu이고, 활성화 함수의 파라메터도 함께 훈련될 수 있다.
제 1 풀링 레이어(620)을 이용하여, 제 2 중간 신호(603)에 대한 풀링이 수행되어 제 3 중간 신호(604)가 획득될 수 있다. 예를 들어, 풀링 레이어(620)의 처리 결과, 제 3 중간 신호(14,14,c)가 획득될 수 있으나, 이에 제한되지 않는다.
제 2 컨볼루션 레이어(625)는 dxe 크기의 f개의 필터로 입력된 신호를 처리하여 제 4 중간 신호(605)가 획득될 수 있다. 제 2 컨볼루션 레이어(625)의 처리 결과, (14, 14, f) 크기의 제 4 중간 신호(605)가 획득될 수 있으나, 이에 제한되지 않는다.
한편, 제 3 컨볼루션 레이어(630)는 1x1 컨볼루션 레이어일 수 있다. 제 3 컨볼루션 레이어(630)는 채널 수를 조절하기 위해 이용될 수 있다. 제 3 컨볼루션 레이어(630)의 처리 결과, (14,14,g) 크기의 제 5 중간 신호(606)가 획득될 수 있으나, 이에 제한되지 않는다.
제 1 풀리 커넥티드 레이어(635)는 입력된 특징 신호를 분류하여 1차원의 특징 신호를 출력할 수 있다. 제 1 풀리 커넥티드 레이어(635)의 처리 결과, (1, 1, N+M') 크기의 수평 방향의 움직임 대응 특징 성분 신호(607)이 획득될 수 있다.
본 개시의 일 실시예에 따른 제 2-1 DNN(600)은 동영상 신호(601)로부터 수평 방향의 영상 객체(음원에 대응)의 움직임에 대응하는 영상 특징 신호(607)를 획득한다. 즉, 도 6a는 제 2-1 DNN(600)이 3개의 컨볼루션 레이어, 1개의 다운스케일링 레이어, 1개의 풀링 레이어 및 1개의 풀리 커넥티드 레이어를 포함하는 것으로 도시하고 있으나, 이는 예시일 뿐, 동영상 신호(601)로부터 수평 방향으로의 N+M'개의 영상 특징을 포함하는 특징 신호(607)를 획득할 수 있다면, 제 2-1 DNN(600)에 포함되는 컨볼루션 레이어, 다운 스케일링 레이어, 풀링 레이어, 풀리 커넥티드 레이어의 개수는 다양하게 변형될 수 있다. 마찬가지로, 각 컨볼루션 레이어에서 이용되는 필터의 개수 및 크기도 다양하게 변경될 수 있고, 각 레이어 간의 연결 순서 및 방식도 다양하게 변경될 수 있다.
도 6b는 제 2-2 DNN(650)을 설명하기 위한 도면이다.
제 2-2 DNN(650)은 적어도 하나의 컨볼루션(convolution) 레이어, 풀링(Pooling) 레이어 및 풀리-커넥티드(Fully-Connected)(완전-연결) 레이어를 포함할 수 있다. 다운스케일링 레이어는 풀링 레이어의 일 예로, 주로, 컨볼루션 레이어에 입력되기 전 입력 영상의 데이터 크기를 줄이기 위한 풀링 레이어를 의미할 수 있다.
도 6b를 참조하면, 동영상 신호(651)가 제 2-2 DNN(650)으로 입력된다. 동영상 신호(651)는 입력 채널, 시간, 높이 및 너비로 구분되는 샘플들을 포함한다. 즉, 영상 신호(651)는 샘플들의 4차원 데이터일 수 있다.
동영상 신호(651)의 크기가 (t, h, w, 3)라는 것은 하나의 예시일 뿐이며, 구현 예에 따라 동영상 신호(651)의 크기, 각 레이어로 입력되는 신호의 크기 및 각 레이어에서 출력되는 신호의 크기는 다양하게 변경될 수 있다. 예를 들어, h,w는 224일 수 있으나,. 이에 제한되지 않는다.
다운 스케일링 레이어(660)를 이용하여 동영상 신호(651)이 다운 스케일링되어 제 1 중간 신호(652)가 획득된다. 즉, 다운 스케일링에 의해 영상 신호(651)의 높이(h) 및 너비(w)에 의해 구분되는 샘플들의 개수가 줄어들게 되고, 동영상 신호(651)의 높이 및 너비가 줄어들게 된다. 예를 들어, 제 1 중간 신호(652)의 높이 및 너비는 112일 수 있으나, 이에 제한되지 않는다.
제 1 컨볼루션 레이어(665)는 axb 크기의 c개의 필터로 다운 스케일링된 영상 신호를 처리한다. 이때, 수직 방향의 움직임 대응 특징 성분을 획득하기 위해, 1x3 크기의 수직 방향의 필터가 이용될 수 있다. 예를 들어, 제 1 컨볼루션 레이어(665)의 처리 결과, (112, 112, c) 크기의 제 2 중간 신호(653)가 획득될 수 있다. 이때, 제 1 컨볼루션 레이어(665)는 복수의 컨볼루션 레이어로 구성될 수 있고, 제 1 레이어의 입력과 제 2 레이어의 출력은 서로 연결되어 훈련될 수 있다. 제 1 레이어와 제 2 레이어는 동일할 수 있으나, 이에 제한되지 않고, 제 2 레이어는 제 1 레이어의 후속 레이어일 수 있다. 제 2 레이어는 제 1 레이어의 후속 레이어인 경우, 제 1 레이어의 활성화 함수는 PRelu이고, 활성화 함수의 파라메터도 함께 훈련될 수 있다.
제 1 풀링 레이어(670)을 이용하여, 제 2 중간 신호(653)에 대한 풀링이 수행될 수 있다. 예를 들어, 풀링 레이어(670)의 처리 결과, 제 3 중간 신호(14,14,c)가 획득될 수 있으나, 이에 제한되지 않는다.
제 2 컨볼루션 레이어(675)는 dxe 크기의 f개의 필터로 입력된 신호를 처리하여 제 4 중간 신호(655)가 획득될 수 있다. 제 2 컨볼루션 레이어(675)의 처리 결과, (14, 14, f) 크기의 제 4 중간 신호(655)가 획득될 수 있으나, 이에 제한되지 않는다.
한편, 제 3 컨볼루션 레이어(680)는 1x1 컨볼루션 레이어일 수 있다. 제 3 컨볼루션 레이어(680)는 채널 수를 조절하기 위해 이용될 수 있다. 제 3 컨볼루션 레이어(680)의 처리 결과, (14,14,g) 크기의 제 5 중간 신호 (656)가 획득될 수 있다.
제 1 풀리 커넥티드 레이어(685)는 입력된 특징 신호를 분류하여 1차원의 특징 신호를 출력할 수 있다. 제 1 풀리 커넥티드 레이어(685)의 처리 결과, (1, 1, N+M') 크기의 수평 방향의 움직임 대응 특징 성분 신호(657)가 획득될 수 있다.
본 개시의 일 실시예에 따른 제 2-2 DNN(650)은 동영상 신호(651)로부터 수직 방향의 영상 객체(음원)의 움직임에 대응하는 영상 특징 신호(657)를 획득한다. 즉, 도 6b는 제 2-2 DNN(650)이 3개의 컨볼루션 레이어, 1개의 다운스케일링 레이어, 1개의 풀링 레이어 및 1개의 풀리 커넥티드 레이어를 포함하는 것으로 도시하고 있으나, 이는 예시일 뿐, 동영상 신호(651)로부터 수평 방향으로의 N+M'개의 영상 특징을 포함하는 영상 특징 신호(657)를 획득할 수 있다면, 제 1 DNN(600)에 포함되는 컨볼루션 레이어, 다운 스케일링 레이어, 풀링 레이어, 풀리 커넥티드 레이어의 개수는 다양하게 변형될 수 있다. 마찬가지로, 각 컨볼루션 레이어에서 이용되는 필터의 개수 및 크기도 다양하게 변경될 수 있고, 각 레이어 간의 연결 순서 및 방식도 다양하게 변경될 수 있다.
도 7는 제 3 DNN(700)을 설명하기 위한 도면이다.
제 3 DNN(700)은 적어도 하나의 컨볼루션(convolution) 레이어, 풀링(Pooling) 레이어 및 풀리-커넥티드(Fully-Connected)(완전-연결) 레이어를 포함할 수 있다. 다운스케일링 레이어는 풀링 레이어의 일 예로, 주로, 컨볼루션 레이어에 입력되기 전 입력 영상의 데이터 크기를 줄이기 위한 풀링 레이어를 의미할 수 있다.
도 7을 참조하면, 2차원 오디오 신호(701)가 제 3 DNN(700)으로 입력된다. 2차원 오디오 신호(701)는 입력 채널, 시간으로 구분되는 샘플들을 포함한다. 즉, 2차원 오디오 신호(701)는 샘플들의 2차원 데이터일 수 있다. 2차원 오디오 신호(701)의 각 샘플은 진폭값(Amplitude)일 수 있다. 2차원 오디오 신호(701)의 입력 채널은 2채널일 수 있으나, 이에 제한되지 않는다.
도 7는 2차원 오디오 신호(701)의 크기가 (t,2)임을 도시하고 있는데, 이는, 2차원 오디오 신호(701)의 시간 길이가 t이고, 입력 채널 수는 2임을 나타낸다. 2차원 오디오 신호(701)의 크기가 (t,2)라는 것은 하나의 예시일 뿐이며, 구현 예에 따라 2차원 오디오 신호(701)의 크기, 각 레이어로 입력되는 신호의 크기 및 각 레이어에서 출력되는 신호의 크기는 다양하게 변경될 수 있다.
제 1 컨볼루션 레이어(710)는 ax1 크기의 b개의 필터(1차원 필터)로 2차원 오디오 신호(701)를 처리한다. 예를 들어, 제 1 컨볼루션 레이어(710)의 처리 결과, (512, 1, b) 크기의 제 1 중간 신호(702)가 획득될 수 있다. 이때, 제 1 컨볼루션 레이어(710)는 복수의 컨볼루션 레이어로 구성될 수 있고, 제 1 레이어의 입력과 제 2 레이어의 출력은 서로 연결되어 훈련될 수 있다. 제 1 레이어와 제 2 레이어는 동일할 수 있으나, 이에 제한되지 않고, 제 2 레이어는 제 1 레이어의 후속 레이어일 수 있다. 제 2 레이어는 제 1 레이어의 후속 레이어인 경우, 제 1 레이어의 활성화 함수는 PRelu이고, 활성화 함수의 파라메터도 함께 훈련될 수 있다.
제 1 풀링 레이어(720)을 이용하여, 제 1 중간 신호(702) 에 대한 풀링이 수행될 수 있다. 예를 들어, 풀링 레이어(720)의 처리 결과, (28,1,b) 크기의 제 2 중간 신호(703)가 획득될 수 있다.
제 2 컨볼루션 레이어(730)는 cx1 크기의 d개의 필터로 입력된 신호를 처리한다. 제 2 컨볼루션 레이어(730)의 처리 결과, (28 1, d) 크기의 제 3 중간 신호(704)가 획득될 수 있다.
한편, 제 3 컨볼루션 레이어(740)는 1x1 컨볼루션 레이어일 수 있다. 제 3 컨볼루션 레이어(740)는 채널 수를 조절하기 위해 이용될 수 있다. 제 4 컨볼루션 레이어(740)의 처리 결과, (28,1,g) 크기의 제 4 중간 신호(705)가 획득될 수 있다.
제 1 풀리 커넥티드 레이어(750)은 입력된 특징 신호를 분류하여 1차원의 특징 신호를 출력할 수 있다. 제 1 풀리 커넥티드 레이어(750)의 처리 결과, (1, 1, N+M') 크기의 수평 방향의 움직임 대응 특징 성분 신호(706)가 획득될 수 있다.
본 개시의 일 실시예에 따른 제 3 DNN(700)은 2차원 오디오 신호(701)로부터 수평 방향의 2차원 오디오 음원(동영상 내 객체에 대응)의 움직임에 대응하는 오디오 특징 신호(706)를 획득한다. 즉, 도 7은 제 3 DNN(700)이 3개의 컨볼루션 레이어, 1개의 풀링 레이어 및 1개의 풀리 커넥티드 레이어를 포함하는 것으로 도시하고 있으나, 이는 예시일 뿐, 2차원 오디오 신호(701)로부터 수평 방향으로의 N+M'개의 오디오 특징을 포함하는 오디오 특징 신호(706)를 획득할 수 있다면, 제 3 DNN(700)에 포함되는 컨볼루션 레이어, 풀링 레이어, 풀리 커넥티드 레이어의 개수는 다양하게 변형될 수 있다. 마찬가지로, 각 컨볼루션 레이어에서 이용되는 필터의 개수 및 크기도 다양하게 변경될 수 있고, 각 레이어 간의 연결 순서 및 방식도 다양하게 변경될 수 있다.
도 8은 일 실시예에 따른, 3차원 오디오 출력부(130)의 구체적인 동작을 설명하기 위한 도면이다.
도 8을 참조하면, 3차원 오디오 출력부(130)는 주파수 변환부(810), 제 4-1 DNN(821), 오디오/영상 특징 통합부(830), 제 4-2 DNN(822), 제 4-3 DNN(823), 보정부(840) 및 주파수 역변환부(850)를 포함할 수 있다.
주파수 변환부(810)는 2차원 오디오 신호 AIn_2D(t,2)에 대한 주파수 변환을 수행하여 주파수 도메인 2차원 오디오 신호 s(f, τ, 2)를 획득할 수 있다. 다만, 전술한 바와 같이, 주파수 도메인 2차원 오디오 신호 s(f, τ, 2)가 주파수 변환부(125)로부터 수신된다면, 주파수 변환부(810)은 포함되지 않을 수 있다.
제 4-1 DNN(821)은 주파수 도메인 2차원 오디오 신호 s(f, τ, 2)로부터 오디오 특징 정보 s(f, τ, 2)를 생성하기 위해 이용되는 DNN일 수 있다. 이때, 오디오 특징 정보는 1차원의 N개의 오디오 특징 정보일 수 있다.
오디오/영상 특징 통합부(830)는 영상 특징 정보 Vinf (f, τ, M ')와 오디오 특징 정보 s(f, τ, N)를 통합하여 오디오/영상 통합 특징 정보 s(f, τ, N+M ')를 생성할 수 있다. 예를 들어, 오디오/영상 특징 통합부(830)는 영상 특징 정보와 오디오 특징 정보가 주파수 빈 및 프레임 빈 성분의 크기가 동일하기 때문에, 오디오 특징 정보에 영상 특징 맵 정보를 겹쳐서, 오디오/영상 통합 특징 정보를 생성할 수 있으나, 이에 제한되지는 않는다.
제 4-2 DNN(822)은 오디오/영상 통합 특징 정보 s(f, τ, N+M ')로부터 주파수 도메인 3차원 오디오 신호 s(f, τ, N 3D)를 생성하기 위해 이용되는 DNN일 수 있다. 이때, N 3D는 3차원 오디오의 채널 수를 의미할 수 있다.
제 4-3 DNN(823)은 오디오/영상 통합 특징 정보 s(f, τ, N+M ')와 보정 정보 α inf(f, τ, N+M ')를 기초로, 보정 맵 정보 c(f, τ, N 3D)를 획득할 수 있다.
*보정부(840)는 주파수 도메인 3차원 오디오 신호 s(f, τ,, N 3D) 및 보정 맵 정보 c(f, τ,, N 3D)를 기초로, 보정된 주파수 도메인 3차원 오디오 신호 Cs(f, , N 3D)를 획득할 수 있다. 예를 들어, 보정부(860)는 주파수 도메인 3차원 오디오 신호 s(f, τ, N 3D)의 샘플값에 보정 맵 정보 c(f, τ, N 3D)의 샘플값을 합하여, 보정된 주파수 도메인 3차원 오디오 신호 Cs(f, τ, N 3D)의 샘플값을 획득할 수 있으나 이에 제한되지는 않는다. 보정부(840)를 통해 주파수 도메인 3차원 오디오 신호 내 음원의 움직임에 대응하는, 불확실한 고도 성분을 보정(영상 도메인과 오디오 도메인을 매칭)함으로써, 출력되는 주파수 도메인 3차원 오디오 신호는 보다 확실한 주파수 도메인 3차원 오디오 신호 내 음원의 고도 성분을 가질 수 있다.
주파수 역변환부(850)는 보정된 주파수 도메인 3차원 오디오 신호 Cs(f,τ,N 3D)에 대하여, 주파수 역변환을 수행하여, 3차원 오디오 신호 APred_B(t, N3D)를 출력할 수 있다.
도 9는 일 실시예에 따른 제 4-1 DNN(900)을 설명하기 위한 도면이다.
제 4-1 DNN(900)은 적어도 하나의 컨볼루션(convolution) 레이어를 포함할 수 있다. 컨볼루션 레이어는 미리 결정된 크기의 필터로 입력 데이터를 처리하여 오디오 특징 데이터를 획득한다. 컨볼루션 레이어의 필터의 파라메터들은 후술하는 훈련 과정을 통해 최적화될 수 있다.
도 9를 참조하면, 주파수 도메인 2차원 오디오 신호(901)가 제 4-1 DNN(900)으로 입력된다. 주파수 도메인 2차원 오디오 신호(901)는 입력 채널, 프레임 빈 및 주파수 빈으로 구분되는 샘플들을 포함한다. 즉, 주파수 도메인 2차원 오디오 신호(901)는 샘플들의 3차원 데이터일 수 있다. 주파수 도메인 2차원 오디오 신호(901)의 각 샘플은 주파인 도메인 2차원 오디오 신호 값일 수 있다. 주파수 도메인 2차원 오디오 신호(901)의 입력 채널은 2 채널일 수 있으나, 이에 제한되지 않는다.
도 9는 주파수 도메인 2차원 오디오 신호(901)의 크기가 (f, τ, 2)임을 도시하고 있는데, 이는, 주파수 도메인 2차원 오디오 신호(901)의 시간 길이(프레임 빈의 수)가 τ이고, 입력 채널 수는 2이고, 주파수 빈의 수는 f일 수 있다. 구현 예에 따라 주파수 도메인 2차원 오디오 신호(901)의 크기, 각 레이어로 입력되는 신호의 크기 및 각 레이어에서 출력되는 신호의 크기는 다양하게 변경될 수 있다.
제 1 컨볼루션 레이어(910)는 axb 크기의 c개의 필터로 주파수 도메인 2차원 오디오 신호(901)를 처리한다. 예를 들어, 제 1 컨볼루션 레이어(910)의 처리 결과, (f, τ, 32) 크기의 제 1 중간 신호(902)가 획득될 수 있다.
제 2 컨볼루션 레이어(920)는 cxd 크기의 e개의 필터로 제 1 중간 신호(902)를 처리한다. 예를 들어, 제 1 컨볼루션 레이어(920)의 처리 결과, (f, τ, 32) 크기의 제 2 중간 신호(903)가 획득될 수 있다.
이때, 제 2 컨볼루션 레이어(920)는 복수의 컨볼루션 레이어로 구성될 수 있고, 제 1 레이어의 입력과 제 2 레이어의 출력은 서로 연결되어 훈련될 수 있다. 제 1 레이어와 제 2 레이어는 동일할 수 있으나, 이에 제한되지 않고, 제 2 레이어는 제 1 레이어의 후속 레이어일 수 있다. 제 2 레이어는 제 1 레이어의 후속 레이어인 경우, 제 1 레이어의 활성화 함수는 PRelu이고, 활성화 함수의 파라메터도 함께 훈련될 수 있다.
제 3 컨볼루션 레이어(930)는 exf 크기의 N개의 필터로 입력된 제 2 중간 신호(903)를 처리한다. 제 3 컨볼루션 레이어(930)의 처리 결과, (f, τ, N) 크기의 오디오 특징 정보(904)가 획득될 수 있다.
본 개시의 일 실시예에 따른 제 3-1 DNN(900)은 주파수 도메인 2차원 오디오 신호(901)로부터 수평 방향의 오디오(음원)의 움직임에 대응하는 오디오 특징 신호(904)를 획득한다. 즉, 도 9는 제 3-1 DNN(900)이 3개의 컨볼루션 레이어를 포함하는 것으로 도시하고 있으나, 이는 예시일 뿐, 주파수 도메인 2차원 오디오 신호(901)로부터 N개의 오디오 특징을 포함하는 오디오 특징 신호(904)를 획득할 수 있다면, 주파수 도메인 2차원 오디오 신호(901)에 포함되는 컨볼루션 레이어의 개수는 다양하게 변형될 수 있다. 마찬가지로, 각 컨볼루션 레이어에서 이용되는 필터의 개수 및 크기도 다양하게 변경될 수 있고, 각 레이어 간의 연결 순서 및 방식도 다양하게 변경될 수 있다.
도 10은 일 실시예에 따른 제 4-2 DNN(1000)을 설명하기 위한 도면이다.
제 4-2 DNN(1000)은 적어도 하나의 컨볼루션(convolution) 레이어를 포함할 수 있다. 컨볼루션 레이어는 미리 결정된 크기의 필터로 입력 데이터를 처리하여 오디오 특징 데이터를 획득한다. 컨볼루션 레이어의 필터의 파라메터들은 후술하는 훈련 과정을 통해 최적화될 수 있다.
도 10를 참조하면, 오디오/영상 통합 특징 정보(1001)가 제 4-2 DNN(1000)으로 입력된다. 오디오/영상 통합 특징 정보(1001)는 특징 개수, 시간(프레임 빈), 주파수 빈으로 구분되는 샘플들을 포함한다. 즉, 오디오/영상 통합 특징 정보(1001)는 샘플들의 관한 3차원 데이터일 수 있다. 즉, 오디오/영상 통합 특징 정보(1001)의 각 샘플은 오디오/영상 통합 특징 값일 수 있다.
도 10는 오디오/영상 통합 특징 정보(1001)의 크기가 (f,τ, N+M')임을 도시하고 있는데, 이는, 오디오/영상 통합 특징 정보(1001)의 시간 길이(프레임 빈)가 τ이고, 프레임 빈 및 주파수 빈에 대응하는 특징의 수는 N+M', 주파수 빈의 수는 f일 수 있다. 구현 예에 따라 오디오/영상 통합 특징 정보(1001)의 크기, 각 레이어로 입력되는 신호의 크기 및 각 레이어에서 출력되는 신호의 크기는 다양하게 변경될 수 있다.
제 1 컨볼루션 레이어(1010)는 axb 크기의 c개의 필터로 오디오/영상 통합 특징 정보(1001)를 처리한다. 예를 들어, 제 1 컨볼루션 레이어(1010)의 처리 결과, (f,τ, c) 크기의 제 1 중간 신호(1002)가 획득될 수 있다.
제 2 컨볼루션 레이어(1020)는 cxd 크기의 e개의 필터로 제 1 중간 신호(1002)를 처리한다. 예를 들어, 제 2 컨볼루션 레이어(1020)의 처리 결과, (f, τ, e) 크기의 제 2 중간 신호(1003)가 획득될 수 있다.
이때, 제 2 컨볼루션 레이어(1020)는 복수의 컨볼루션 레이어로 구성될 수 있고, 제 1 레이어의 입력과 제 2 레이어의 출력은 서로 연결되어 훈련될 수 있다. 제 1 레이어와 제 2 레이어는 동일할 수 있으나, 이에 제한되지 않고, 제 2 레이어는 제 1 레이어의 후속 레이어일 수 있다. 제 2 레이어는 제 1 레이어의 후속 레이어인 경우, 제 1 레이어의 활성화 함수는 PRelu이고, 활성화 함수의 파라메터도 함께 훈련될 수 있다.
제 3 컨볼루션 레이어(1030)는 exf 크기의 N3D 개의 필터로 입력된 신호를 처리한다. 제 3 컨볼루션 레이어(1030)의 처리 결과, (f, τ, N3D) 크기의 주파수 도메인 3차원 오디오 신호(1004)가 획득될 수 있다.
본 개시의 일 실시예에 따른 제 4-2 DNN(1000)은 오디오/영상 통합 특징 정보(1001)로부터 주파수 도메인 3차원 오디오 신호(1004)를 획득한다. 즉, 도 10은 제 4-2 DNN(1000)이 3개의 컨볼루션 레이어를 포함하는 것으로 도시하고 있으나, 이는 예시일 뿐, 오디오/영상 통합 특징 정보(1001)로부터 주파수 도메인 3차원 오디오 신호(1004)를 획득할 수 있다면, 제 4-2 DNN(1000)에 포함되는 컨볼루션 레이어의 개수는 다양하게 변형될 수 있다. 마찬가지로, 각 컨볼루션 레이어에서 이용되는 필터의 개수 및 크기도 다양하게 변경될 수 있고, 각 레이어 간의 연결 순서 및 방식도 다양하게 변경될 수 있다.
도 11는 일 실시예에 따른 제 4-3 DNN(1100)을 설명하기 위한 도면이다.
제 4-3 DNN(1100)은 적어도 하나의 컨볼루션(convolution) 레이어를 포함할 수 있다. 컨볼루션 레이어는 미리 결정된 크기의 필터로 입력 데이터를 처리하여 오디오 특징 데이터를 획득한다. 컨볼루션 레이어의 필터의 파라메터들은 후술하는 훈련 과정을 통해 최적화될 수 있다.
도 11을 참조하면, 오디오/영상 통합 특징 정보(1101) 및 보정 정보(1102)를 결합(Concatenate)(1110)하여 새로운 차원의 제 1 중간 신호(1103)를 획득할 수 있다. 오디오/영상 통합 특징 정보(1001)는 특징 개수, 시간(프레임 빈), 주파수 빈으로 구분되는 샘플들을 포함한다. 즉, 오디오/영상 통합 특징 정보(1001)는 3차원 데이터일 수 있다. 오디오/영상 통합 특징 정보(1001)의 각 샘플은 오디오/영상 통합 특징 값일 수 있다. 보정 정보(1102)는 특징 개수, 시간(프레임 빈), 주파수 빈으로 구분되는 샘플들을 포함한다. 즉, 보정 정보(1102)는 3차원 데이터일 수 있다. 보정 정보(1102)의 각 샘플은 보정 관련 특징 값일 수 있다.
도 11는 오디오/영상 통합 특징 정보(1101) 및 보정 정보(1102)의 크기가 (f, τ, N+M')임을 도시하고 있는데, 이는 오디오/영상 통합 특징 정보(1101) 및 보정 정보(1102)의 시간 길이(프레임 빈의 수)가 τ 이고, 프레임 빈 및 주파수 빈에 대응하는 특징의 수는 N+M', 주파수 빈의 수는 f일 수 있다. 구현 예에 따라 오디오/영상 통합 특징 정보(1101) 및 보정 정보(1102)의 크기, 각 레이어로 입력되는 신호의 크기 및 각 레이어에서 출력되는 신호의 크기는 다양하게 변경될 수 있다.
제 1 컨볼루션 레이어(1120)는 axb 크기의 c개의 필터로 제 1 중간 신호(1103)를 처리한다. 예를 들어, 제 1 컨볼루션 레이어(1120)의 처리 결과, (f, τ, c) 크기의 제 2 중간 신호(1104) 가 획득될 수 있다. 즉, 제 1 컨볼루션 레이어(1120)의 처리 결과, (f, τ, M'') 크기의 제 2 중간 특징 신호(325)가 획득될 수 있다. 여기서 M''는 2x(N+M')일 수 있으나, 이에 제한되지 않는다.
제 2 컨볼루션 레이어(1130)는 cxd 크기의 e개의 필터로 제 2 중간 신호(1104)를 처리한다. 예를 들어, 제 2 컨볼루션 레이어(1130)의 처리 결과, (f, τ, e) 크기의 제 3 중간 특징 신호(325)가 획득될 수 있다. 즉, 제 2 컨볼루션 레이어(1130)의 처리 결과, (f, t, M'') 크기의 제 3 중간 신호(1105) 가 획득될 수 있다. 여기서 M''는 2x(N+M')일 수 있으나, 이에 제한되지 않는다.
이때, 제 2 컨볼루션 레이어(1130)는 복수의 컨볼루션 레이어로 구성될 수 있고, 제 1 레이어의 입력과 제 2 레이어의 출력은 서로 연결되어 훈련될 수 있다. 제 1 레이어와 제 2 레이어는 동일할 수 있으나, 이에 제한되지 않고, 제 2 레이어는 제 1 레이어의 후속 레이어일 수 있다. 제 2 레이어는 제 1 레이어의 후속 레이어인 경우, 제 1 레이어의 활성화 함수는 PRelu이고, 활성화 함수의 파라메터도 함께 훈련될 수 있다.
제 3 컨볼루션 레이어(1140)는 exf 크기의 N3D 개의 필터로 입력된 신호를 처리한다. 제 3 컨볼루션 레이어(1140)의 처리 결과, (f, τ, N3D) 크기의 보정 맵 정보(1106)가 획득될 수 있다.
본 개시의 일 실시예에 따른 제 4-3 DNN(1100)은 오디오/영상 통합 특징 정보(1101) 및 보정 정보(1102)로부터 보정 맵 정보(1106)를 획득한다. 즉, 도 11은 제 4-3 DNN(1100)이 3개의 컨볼루션 레이어를 포함하는 것으로 도시하고 있으나, 이는 예시일 뿐, 오디오/영상 통합 특징 정보(1101) 및 보정 정보(1102)로부터 보정 맵 정보(1106)를 획득할 수 있다면, 제 4-3 DNN(1100)에 포함되는 컨볼루션 레이어의 개수는 다양하게 변형될 수 있다. 마찬가지로, 각 컨볼루션 레이어에서 이용되는 필터의 개수 및 크기도 다양하게 변경될 수 있고, 각 레이어 간의 연결 순서 및 방식도 다양하게 변경될 수 있다.
도 12는 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN의 훈련 방법을 설명하기 위한 도면이다.
도 12에서 제 1 훈련 2차원 오디오 신호(1202)는 2차원 오디오 신호(102)에 대응하고, 제 1 훈련 영상 신호(1201)는 동영상 신호(101)에 대응한다. 이와 유사하게 각 훈련 신호들은 도 2, 4 및 8를 참조하여 전술된 신호/정보들에 대응한다.
제 1 훈련 영상 신호(1201)는 제 1 DNN(220)으로 입력된다. 제 1 DNN(220)은 미리 설정된 파라메터에 따라, 제 1 훈련 영상 신호(1201)를 처리하여 제 1 훈련 영상 특징 신호(1203)를 획득한다.
제 1 훈련 2차원 오디오 신호(1202)에 대한 주파수 변환부(1220)를 통해 제 1 주파수 도메인 훈련 2차원 오디오 신호(1204)가 획득되고, 제 1 주파수 도메인 훈련 2차원 오디오 신호(1204)는 제 4-1 DNN(821)으로 입력된다. 제 4-1 DNN(821)은 미리 설정된 파라메터에 따라, 제 1 주파수 도메인 훈련 2차원 오디오 신호(1204)을 처리하여 제 1 훈련 오디오 특징 신호(1205)를 획득한다. 제 1 훈련 오디오 특징 신호(1205) 및 제 1 훈련 영상 특징 신호(1203)를 오디오/영상 특징 통합부(1220)를 통해 처리하여 제 1 훈련 오디오/영상 통합 특징 신호(1206)가 획득될 수 있다.
제 1 훈련 영상 신호(1201) 및 제 1 훈련 2차원 오디오 신호(1202)는 제 2 DNN 및 제 3 DNN(420)으로 입력된다. 제 2 DNN 및 제 3 DNN(420)(에 포함된 제 2-1 DNN(421), 제 2-2 DNN(422), 및 제 3 DNN(423))는 미리 설정된 파라메터에 따라, 제 1 훈련 2차원 오디오 신호(1202)을 처리하여 제 1 훈련 보정 신호(1208)를 획득한다.
제 1 훈련 오디오/영상 통합 특징 신호(1206)는 제 4-2 DNN(822)으로 입력된다. 제 4-2 DNN(822)은 미리 설정된 파라메터에 따라, 제 1 훈련 오디오/영상 통합 특징 신호(1206)을 처리하여 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호(1207)를 획득한다.
제 1 훈련 보정 신호(1207)와 제 1 훈련 오디오/영상 통합 특징 신호(1206)가 제 4-3 DNN(823)으로 입력된다.
제 4-3 DNN(823)는 미리 설정된 파라메터에 따라, 제 1 훈련 보정 신호(1208)와 제 1 훈련 오디오/영상 통합 특징 신호(1206)를 처리하여 제 1 훈련 주파수 보정 신호(1209)를 획득한다.
오디오 보정부(1230)는 제 1 훈련 주파수 보정 신호(1209)를 기초로, 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호(1207)를 보정하여, 보정된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호(1211)를 출력할 수 있다.
한편, 제 1 훈련 3차원 오디오 신호(1212)에 대한 주파수 변환부(1210)를 통해 제 1 주파수 도메인 훈련 3차원 오디오 신호(1213)가 획득된다.
보정된 제 1 주파수 도메인 훈련 3차원 오디오 신호(1213)와 보정된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호(1211) 사이의 비교 결과에 따라 생성 손실 정보(Loss)(1214)가 획득된다. 생성 손실 정보(Loss)(1214)는 보정된 제 1 주파수 도메인 훈련 3차원 오디오 신호(1213)와 보정된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호(1211) 사이의 L1-norm 값, L2-norm 값, SSIM(Structural Similarity) 값, PSNR-HVS(Peak Signal-To-Noise Ratio-Human Vision System) 값, MS-SSIM(Multiscale SSIM) 값, VIF(Variance Inflation Factor) 값 및 VMAF(Video Multimethod Assessment Fusion) 값 중 적어도 하나를 포함할 수 있다. 일 예로, 손실 정보(1214)는 다음의 수학식 2로 표현될 수 있다.
Figure PCTKR2021013231-appb-img-000002
수학식 2에서 F()는 주파수 변환부(1210)에 의한 주파수 변환을 의미하고, Cs는 보정된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호(1211)를 나타낸다.
생성 손실 정보(1214)는 제 1 DNN(220), 제 2 DNN) 및 제 3 DNN(420)이 제 1 훈련 2차원 오디오 신호(1202)를 처리하여 획득된 보정된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호(1211)가 주파수 변환부(1210)을 통해 획득된 제 1 주파수 도메인 훈련 3차원 오디오 신호(1212)와 어느 정도로 유사한 주파수 도메인 훈련 신호를 생성하였는지를 나타낸다.
제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 및 제 4 DNN(820)은 생성 손실 정보(1214)가 감소 또는 최소화되도록 파라메터를 갱신할 수 있다. 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 및 제 4 DNN(820)의 훈련을 수식으로 표현하면 다음과 같다.
Figure PCTKR2021013231-appb-img-000003
수학식 3에서
Figure PCTKR2021013231-appb-img-000004
는 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 및 제 4 DNN(820)의 파라메터 세트를 나타낸다. 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 및 제 3 DNN(820)은 훈련을 통해 생성 손실 정보(Loss)(1214)를 최소화하는 파라메터 세트를 획득한다.
도 13은 사용자 파라메터 신호를 고려한 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN의 훈련 방법을 설명하기 위한 도면이다.
도 13을 참조하면, 도 12와 달리, 제 2 DNN 및 제 3 DNN(420)과 제 4-3 DNN(823)의 사이에 보정 신호 수정부(1340)가 존재하고, 보정 신호 수정부(1340)는 제 2 DNN 및 제 3 DNN(420)의 제 1 훈련 보정 신호(1308)에 대하여 사용자 파라메터(1316)을 이용하여 수정할 수 있고, 수정된 제 1 훈련 보정 신호(1315)는 제 4-3 DNN(823)으로 입력될 수 있다. 예를 들어, 보정 신호 수정부(1340)는 제 1 훈련 보정 신호(1308)의 값에 사용자 파라메터(Cuser)를 곱하는 연산을 수행하여, 수정된 제 1 훈련 보정 신호(1315)를 획득할 수 있으나, 이에 제한되지 않는다. 즉, 사용자 파라메터는 오디오 보정부(1330)에서 3차원 오디오 신호의 보정 정도를 조절하기 위해 이용되는 파라메터로, 사용자(3차원 오디오 제작자)가 직접 사용자 파라메터를 입력하여, 사용자의 의도에 따라 3차원 오디오 신호가 적절하게 보정되어 복원될 수 있다.
도 13에서도, 도 12를 참조하여 설명한 바와 같이, 보정된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호(1311)과 제 1 주파수 도메인 훈련 3차원 오디오 신호(1313)와의 비교 결과를 기초로 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420) 및 제 4 DNN(820)의 파라메터가 훈련될 수 있음을 당업자는 이해할 수 있다.
도 14는 훈련 장치(1400)에 의한 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN의 훈련 과정을 설명하기 위한 흐름도이다.
도 13과 관련하여 설명한 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN의 훈련은 훈련 장치(1400)에 의해 수행될 수 있다. 훈련 장치(1400)는 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 및 제 4 DNN(820)을 포함한다. 훈련 장치(1400)는 예를 들어, 동영상 처리 장치(100) 또는 별도의 서버일 수 있다.
훈련 장치(1400)는 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420) 및 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터를 초기 세팅한다. (S1405)
훈련 장치(1400)는 제 1 훈련 영상 신호(1201)를 제 1 DNN(220)로 입력한다. (S1410)
훈련 장치(1400)는 제 1 훈련 영상 신호(1201) 및 제 1 훈련 2차원 오디오 신호(1202)를 제 2 DNN 및 제 3 DNN(420)로 입력한다. (S1415)
훈련 장치(1400)는 제 1 훈련 2차원 오디오 신호(1202)를 주파수 변환부(1210)를 통해 획득된 제 1 주파수 도메인 훈련 2차원 오디오 신호(1204)를 제 4-1 DNN(821)로 입력한다. (S1420)
제 1 DNN(220)는 제 1 훈련 영상 특징 신호(1203)를 오디오/영상 특징 통합부(1410)로 출력할 수 있다. (S1425)
제 4-1 DNN(821)는 제 1 훈련 오디오 특징 신호(1205)를 오디오/영상 특징 통합부(1410)로 출력할 수 있다. (S1430)
오디오/영상 특징 통합부(1410)는 제 1 훈련 오디오/영상 통합 특징 신호(1206)를 제 4-2 DNN(822) 및 제 4-3 DNN(823)로 출력할 수 있다. (S1435)
제 4-2 DNN(822)는 제 1 훈련 3차원 오디오 신호를 보정부(1420)로 출력할 수 있다. (S1440)
훈련 장치(1400)는 제 1 훈련 2차원 오디오 신호(1202) 및 제 1 주파수 도메인 훈련 2차원 오디오 신호(1204)를 제 2 DNN 및 제 3 DNN(420)으로 입력할 수 있다. (S1445)
제 2 DNN 및 제 3 DNN(420)는 제 1 훈련 보정 신호(1208)를 제 4-3 DNN(823)로 출력할 수 있다. (S1450)
제 4-3 DNN(823)는 제 1 훈련 주파수 보정 신호(1209)를 보정부(1420)로 출력할 수 있다. (S1455)
보정부(1420)는 보정된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호(1211)를 훈련 장치(1400)로 출력할 수 있다. (S1460)
훈련 장치(1400)는 보정된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호(1211)와 주파수 변환을 통해 획득된 제 1 주파수 도메인 훈련 3차원 오디오 신호(1213)를 비교하여 생성 손실 정보(1214)를 산출한다(S1465). 그리고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822) 및 제 4-3 DNN(823)은 생성 손실 정보(1214)에 따라 파라메터를 갱신한다(S1470 내지 S1490).
훈련 장치(1400)는 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822) 및 제 4-3 DNN(823)의 파라메터들이 최적화될때까지 전술한 S1410 단계 내지 S1490 단계를 반복할 수 있다.
도 15는 사용자 파라메터를 고려하여, 훈련 장치(1500)에 의한 제 1 DNN, 제 2 DNN, 제 3 DNN, 및 제 4 DNN의 훈련 과정을 설명하기 위한 흐름도이다.
도 14과 관련하여 설명한 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN의 훈련은 훈련 장치(1500)에 의해 수행될 수 있다. 훈련 장치(1500)는 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 및 제 4 DNN(820)을 포함한다. 훈련 장치(1500)는 예를 들어, 동영상 처리 장치(100) 또는 별도의 서버일 수 있다. 별도의 서버에서 훈련된 경우, 동영상 처리 장치(100)로 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN 관련 파라메터 정보가 전송될 수 있고, 동영상 처리 장치(100)는 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN 관련 파라메터 정보를 저장할 수 있다. 동영상 처리 장치(100)는 2차원 오디오 신호로부터 3차원 오디오 신호를 생성하기 위해, 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN 관련 파라메터 정보를 기초로, 제 1 DNN, 제 2 DNN, 제 3 DNN, 제 4 DNN의 파라메터를 업데이트하고, 업데이트된 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN를 이용하여 3차원 오디오 신호를 생성 및 출력할 수 있다.
도 15는, 도 14를 참조하여 전술한 바와 달리, 보정 신호 수정부(1530)를 더 포함할 수 있고, 보정 신호 수정부(1530)는 제 1 훈련 보정 신호(1308)를 사용자 파라메터(1316)를 이용하여 수정하고, 수정된 제 1 훈련 보정 신호(1315)를 제 4-3 DNN(823)으로 출력하는 과정이 추가될 수 있다. 따라서, 도 15는, 도 14와 달리, 사용자 파라메터를 고려하여 훈련되므로, 사용자의 의도가 더 반영되어 보정된 3차원 오디오 신호를 생성 및 출력할 수 있다.
도 16은 사용자가 사용자 단말(1610)을 이용하여 훈련을 위한 데이터를 수집하는 과정을 설명하기 위한 도면이다.
도 16은 사용자(1600)는 사용자 단말(1610)의 마이크와 카메라를 이용하여 제 1 훈련 2차원 오디오 신호 및 제 1 훈련 영상 신호를 획득할 수 있다. 한편, 이와 동시에 사용자(1600)는 앰비소닉 마이크(1620)를 별도로 사용자 단말(1610)에 장착하여 제 1 훈련 3차원 오디오 신호를 획득하거나 사용자 단말(1610)에 포함된 앰비소닉 마이크(1620)를 이용하여 제 1 훈련 3차원 오디오 신호를 획득할 수 있다.
이때, 사용자 단말(1610)은 동영상 처리 장치(100)의 일 예일 수 있고, 사용자 단말(1610)은 획득된 제 1 훈련 2차원 오디오 신호, 제 1 훈련 영상 신호 및 제 1 훈련 3차원 오디오 신호와 같은 훈련 데이터를 기초로, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420)(에 포함된 제 2-1 DNN(421), 제 2-2 DNN(422), 제 3 DNN(423)), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)을 훈련시킬 수 있다. 또는, 사용자 단말(1610)은 훈련 데이터를 별도의 서버 등과 같이 사용자 단말(1610)과 연결된 장치로 전송할 수 있다. 해당 장치는 훈련 장치(1400,1500)의 일 예로, 훈련 데이터를 기초로 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)을 훈련시킬 수 있다. 훈련된 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보가 획득될 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 사용자 단말(1610)로 전송할 수 있다. 사용자 단말(1610)은 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 저장할 수 있다.
이후, 사용자 단말(1610)은 2차원 오디오 신호 및 영상 신호를 획득할 수 있다. 사용자 단말(1610)은 미리 저장된 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 기초로 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터를 업데이트하고, 업데이트된 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)을 이용하여, 2차원 오디오 신호 및 영상 신호로부터 3차원 오디오 신호를 생성 및 출력할 수 있다.
다만, 이에 제한되지 않고, 사용자 단말(1610)은 단순 훈련 정보 수집 장치에 불과하고, 사용자 단말(1610)과 네트워크를 통해 연결된 별도의 서버와 같은 장치로 훈련 데이터를 전송할 수 있다. 이때, 해당 장치는 훈련 장치(1400,1500) 및 동영상 처리 장치(100)의 일 예일 수 있다.
해당 장치는 훈련 데이터를 기초로 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)을 훈련시킬 수 있다. 훈련된 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보가 획득될 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보가 획득될 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 사용자 단말(1610)로 전송하거나, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보는 사용자 단말(1610)이나 사용자 단말(1610)의 식별자에 대응되도록 해당 장치나 연결된 별도의 데이터 베이스에 저장할 수 있다.
이후, 사용자 단말(1610)은 2차원 오디오 신호 및 영상 신호를 획득할 수 있다. 사용자 단말(1610)은 미리 저장된 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보와 함께 2차원 오디오 신호 및 영상 신호를 해당 장치로 전송할 수 있다. 해당 장치는 사용자 단말(1610)로부터 수신한 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터를 업데이트하고, 업데이트된 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)를 이용하여, 사용자 단말(1610)로부터 수신한 2차원 오디오 신호 및 영상 신호로부터, 3차원 오디오 신호를 획득할 수 있다. 또는, 사용자 단말(1610)은 2차원 오디오 신호 및 영상 신호를 해당 장치로 전송할 수 있다. 해당 장치는 사용자 단말(1610)의 식별자에 대응되어 미리 저장된 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 이용하여, 사용자 단말(1610)로부터 수신한 2차원 오디오 신호 및 영상 신호로부터, 3차원 오디오 신호를 획득할 수 있다.
한편, 사용자 단말(1610)와 네트워크를 통해 연결된 훈련 장치(1400,1500)는 동영상 처리 장치(100)와 별도로 존재할 수 있다.
이 경우, 사용자 단말(1610)은 훈련 데이터를 훈련 장치(1400,1500)로 전송하여, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득하고, 2차원 오디오 신호 및 영상 신호와 함께 이전에 획득된 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 획득할 수 있고, 제 1 DNN(220), 제 2 DNN 및 제 3 DNN(420), 제 4-1 DNN(821), 제 4-2 DNN(822), 제 4-3 DNN(823)의 파라메터 정보를 동영상 처리 장치(100)로 전송하여, 동영상 처리 장치(100)로부터 3차원 오디오 신호를 수신할 수 있다.
도 17은 일 실시예에 따른 동영상 처리 방법을 설명하는 순서도이다.
S1710 단계에서, 동영상 처리 장치(100)는 제 1 DNN을 기반으로, 복수의 영상을 포함하는 동영상 신호를 분석하여 복수의 시간별 주파수별 특징 정보를 생성할 수 있다.
S1720 단계에서, 동영상 처리 장치(100)는 제 2 DNN을 기반으로, 동영상 신호로부터 동영상 내 객체의 움직임에 대응하는 제 1 고도 성분 및 제 1 평면 성분을 추출할 수 있다.
S1730 단계에서, 동영상 처리 장치(100)는 제 3 DNN을 기반으로, 고도 성분을 갖지 않는 제 1 오디오 신호로부터 오디오 내 음원의 움직임에 대응하는 제 2 평면 성분을 추출할 수 있다.
S1740 단계에서, 동영상 처리 장치(100)는 제 1 고도 성분, 제 1 평면 성분, 제 2 평면 성분으로부터 제 2 고도 성분을 생성할 수 있다. 이때 생성된 제 2 고도 성분은 제 2 고도 성분 그 자체일 수 있으나, 이에 제한되지 않고, 제2 고도 성분 관련 정보일 수 있다.
S1750 단계에서, 동영상 처리 장치(100)는 특징 정보를 기반으로, 제 2 고도 성분을 포함하는 제 2 오디오 신호를 출력할 수 있다. 이에 제한되지 않고, 동영상 처리 장치(100)는 특징 정보 및 제2 고도 성분 관련 정보를 기반으로, 제 2 고도 성분을 포함하는 제 2 오디오 신호를 출력할 수 있다.
S1760 단계에서, 동영상 처리 장치(100)는 제 2 오디오 신호 및 동영상 신호를 동기화하여 출력할 수 있다.
한편, 상술한 본 개시의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 작성된 프로그램은 매체에 저장될 수 있다.
매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수개 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 애플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
이상, 본 개시의 기술적 사상을 바람직한 실시예를 들어 상세하게 설명하였으나, 본 개시의 기술적 사상은 상기 실시예들에 한정되지 않고, 본 개시의 기술적 사상의 범위 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 여러 가지 변형 및 변경이 가능하다.

Claims (15)

  1. 하나 이상의 인스트럭션을 저장하는 메모리; 및
    상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 프로세서는, 제 1 DNN(Deep Neural Network)을 기반으로 복수의 영상을 포함하는 동영상 신호를 분석하여 복수의 시간별 주파수별 특징 정보를 생성하고,, 제 2 DNN을 기반으로 상기 동영상 신호로부터 동영상 내 객체의 움직임에 대응하는 제 1 고도 성분 및 제 1 평면 성분을 추출하고,
    제 3 DNN을 이용하여 고도 성분을 갖지 않는 제 1 오디오 신호로부터 오디오 내 음원의 움직임에 대응하는 제 2 평면 성분을 추출하고,
    상기 제 1 고도 성분, 상기 제 1 평면 성분 및 상기 제 2 평면 성분으로부터 제 2 고도 성분을 생성하고,
    상기 특징 정보를 기반으로 상기 제 2 고도 성분을 포함하는 제 2 오디오 신호를 출력하고,
    상기 제 2 오디오 신호 및 상기 동영상 신호를 동기화하여 출력하는, 동영상 처리 장치.
  2. 제 1 항에 있어서,
    상기 적어도 하나의 프로세서는 상기 복수의 시간별 주파수별 특징 정보를 생성할 때, 상기 동영상 신호를 상기 제 1 오디오 신호와 동기화하고, 상기 복수의 시간별 주파수별 특징 정보를 생성하기 위한 상기 제 1 DNN을 이용하여 상기 동영상 신호로부터 동영상 내 객체의 움직임에 따른 M개(M은 1보다 크거나 같은 정수)의 1차원 영상 특징 맵 정보를 생성하고, 상기 1차원 영상 특징 맵 정보에 대하여 주파수 관련 타일링(tiling)을 수행하여 시간 및 주파수에 대한 M개의 영상 특징 맵 정보를 포함하는 상기 복수의 시간별 주파수별 특징 정보를 생성하는 것을 특징으로 하는, 동영상 처리 장치.
  3. 제 1 항에 있어서,
    상기 적어도 하나의 프로세서는 상기 제 2 DNN을 기반으로, 상기 제 1 고도 성분 및 제 1 평면 성분을 추출하고, 상기 제 3 DNN을 기반으로, 상기 제 2 평면 성분을 추출할 때, 상기 동영상 신호를 상기 제 1 오디오 신호와 동기화하고,
    상기 제 1 고도 성분에 대응하는, 상기 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하기 위한 제 2-1 DNN을 이용하여 상기 동영상 신호로부터 시간에 대한 N+M개(N, M은 1보다 크거나 같은 정수)의 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하고,
    상기 제 1 평면 성분에 대응하는, 상기 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보를 추출하기 위한 제 2-2 DNN 을 이용하여 상기 동영상 신호로부터 시간에 대한 N+M개(N, M은 1보다 크거나 같은 정수)의 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보를 추출하고,
    상기 제 2 평면 성분에 대응하는, 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하기 위한 제 3 DNN을 이용하여 상기 제 1 오디오 신호로부터 N+M개(N, M은 1보다 크거나 같은 정수)의 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하고,
    상기 프로세서는 상기 제 1 고도 성분, 상기 제 1 평면 성분 및 상기 제 2 평면 성분으로부터, 제 2 고도 성분을 생성할 때, 상기 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보, 상기 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보 및 상기 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 기초로, 상기 제 2 고도 성분에 대응하는, 시간에 대한 N+M개의 보정 맵 정보를 생성하고,
    상기 시간에 대한 N+M개의 보정 맵 정보에 대하여 주파수 관련 타일링을 수행하여 상기 제 2 고도 성분에 대응하는, 시간 및 주파수에 대한 N+M개의 보정 맵 정보를 생성하는 것을 특징으로 하는, 동영상 처리 장치.
  4. 제 1 항에 있어서,
    상기 적어도 하나의 프로세서가 상기 특징 정보를 기반으로 상기 제 2 고도 성분을 포함하는 상기 제 2 오디오 신호를 출력할 때, 상기 제 1 오디오 신호에 대한 주파수 변환 동작을 수행하여, 2채널에 대한 시간 및 주파수 정보를 생성하고,
    상기 제 1 오디오 신호 내 오디오 특징을 생성하기 위한 제 4-1 DNN을 이용하여 상기 2채널에 대한 시간 및 주파수 정보로부터 시간 및 주파수에 대한 N(N은 1보다 크거나 같은 정수)개의 오디오 특징 맵 정보를 생성하고,
    상기 복수의 시간별 주파수별 특징 정보에 포함된 시간 및 주파수에 대한 M개의 영상 특징 맵 정보와 상기 시간 및 주파수에 대한 N(N은 1보다 크거나 같은 정수)개의 오디오 특징 맵 정보를 기초로, N+M개의 오디오/영상 통합 특징 맵 정보를 생성하고,
    주파수 도메인 제 2 오디오 신호를 생성하기 위한 제 4-2 DNN을 이용하여 상기 N+M개의 오디오/영상 통합 특징 맵 정보로부터 n채널(n은 2보다 큰 정수)에 대한 상기 주파수 도메인 제 2 오디오 신호를 생성하고,
    오디오 보정 맵 정보를 생성하기 위한 제 4-3 DNN을 이용하여 상기 N+M개의 오디오/영상 통합 특징 맵 정보 및 상기 제 2 고도 성분에 대응하는, 시간 및 주파수에 대한 N+M개의 보정 맵 정보로부터 n채널에 대한 오디오 보정 맵 정보를 생성하고,
    상기 n채널에 대한 오디오 보정 맵 정보를 기초로, 상기 n채널에 대한 주파수 도메인 제 2 오디오 신호에 대한 보정을 수행하여, n채널에 대한 보정된 주파수 도메인 제 2 오디오 신호를 생성하고,
    상기 n채널에 대한 보정된 주파수 도메인 제 2 오디오 신호를 주파수 역변환하여 n채널에 대한 상기 제 2 오디오 신호를 출력하는 것을 특징으로 하는, 동영상 처리 장치.
  5. 제 3 항에 있어서,
    상기 적어도 하나의 프로세서는, 상기 시간에 대한 N+M개의 보정 맵 정보를 생성할 때,
    상기 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보의 제 1 값과 상기 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보의 제 2 값의 관계를 고려하여 설정된 비례수 및 상기 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보의 제 3 값을 기초로, 상기 시간에 대한 N+M개의 보정 맵 정보의 제 4 값을 생성하고,
    상기 제 4 값을 포함하는 상기 시간에 대한 N+M개의 보정 맵 정보를 생성하는 것을 특징으로 하는 동영상 처리 장치.
  6. 제 1 항에 있어서,
    상기 제 2 오디오 신호를 출력할 때, 상기 제 2 오디오 신호를 출력하기 위한 제 4 DNN을 기반으로 하고,
    상기 복수의 시간별 주파수별 특징 정보를 생성하기 위한 제 1 DNN, 상기 제 1 고도 성분 및 상기 제 1 평면 성분을 추출하기 위한 제 2 DNN, 상기 제 2 평면 성분을 추출하기 위한 제 3 DNN 및 상기 제 2 오디오 신호를 출력하기 위한 제 4 DNN은 제 1 훈련 2차원 오디오 신호, 제 1 훈련 영상 신호를 기초로 복원된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호와, 제 1 훈련 3차원 오디오 신호를 주파수 변환하여 획득된 제 1 주파수 도메인 훈련 3차원 오디오 신호의 비교 결과에 따라 훈련되는 것을 특징으로 하는 동영상 처리장치.
  7. 제 3 항에 있어서,
    상기 제 2 오디오 신호를 출력할 때, 상기 제 2 오디오 신호를 출력하기 위한 제 4 DNN을 기반으로 하고,
    상기 시간 및 주파수에 대한 N+M개의 보정 맵 정보는, 사용자 입력 파라메터 정보를 기초로 수정되고,
    상기 복수의 시간별 주파수별 특징 정보를 생성하기 위한 제 1 DNN, 상기 제 1 고도 성분 및 상기 제 1 평면 성분을 추출하기 위한 제 2 DNN, 상기 제 2 평면 성분을 추출하기 위한 제 3 DNN 및 상기 제 2 오디오 신호를 출력하기 위한 제 4 DNN은 제 1 훈련 2차원 오디오 신호, 제 1 훈련 영상 신호 및 상기 사용자 입력 파라메터 정보를 기초로 복원된 주파수 도메인 훈련 복원 3차원 오디오 신호와 제 1 훈련 3차원 오디오 신호를 주파수 변환하여 획득된 제 1 주파수 도메인 훈련 3차원 오디오 신호의 비교 결과에 따라 훈련되는 것을 특징으로 하는, 동영상 처리 장치.
  8. 제 6 항에 있어서,
    제 1 훈련 2차원 오디오 신호 및 제 1 훈련 영상 신호는 상기 동영상 처리 장치와 동일한 장치이거나 상기 동영상 처리 장치와 연결된 다른 장치인, 휴대용 단말로부터 획득되고,
    상기 제 1 훈련 3차원 오디오 신호는 상기 휴대용 단말에 포함되거나 장착된 앰비소닉 마이크로부터 획득되는 것을 특징으로 하는, 동영상 처리 장치.
  9. 제 6 항에 있어서,
    상기 제 1 DNN, 제 2 DNN, 제 3 DNN 및 제 4 DNN의 훈련 결과 획득된 제 1 내지 제 4 DNN의 파라메터 정보는, 상기 동영상 처리 장치에 저장되거나, 상기 동영상 처리 장치와 연결된 단말로부터 수신되는 것을 특징으로 하는, 동영상 처리 장치.
  10. 제 1 DNN(Deep Neural Network)을 기반으로 복수의 영상을 포함하는 동영상 신호를 분석하여 복수의 시간별 주파수별 특징 정보를 생성하는 단계;
    제 2 DNN을 기반으로 상기 동영상 신호로부터 동영상 내 객체의 움직임에 대응하는 제 1 고도 성분 및 제 1 평면 성분을 추출하는 단계;
    제 3 DNN을 기반으로, 고도 성분을 갖지 않는 제 1 오디오 신호로부터 오디오 내 음원의 움직임에 대응하는 제 2 평면 성분을 추출하는 단계;
    상기 제 1 고도 성분, 상기 제 1 평면 성분 및 상기 제 2 평면 성분으로부터 제 2 고도 성분을 생성하는 단계;
    상기 특징 정보를 기반으로 상기 제 2 고도 성분을 포함하는 제 2 오디오 신호를 출력하는 단계; 및
    상기 제 2 오디오 신호 및 상기 동영상 신호를 동기화하여 출력하는 단계를 포함하는, 동영상 처리 장치의 동영상 처리 방법.
  11. 제 10 항에 있어서,
    상기 복수의 시간별 주파수별 특징 정보를 생성하는 단계는,
    상기 동영상 신호를 상기 제 1 오디오 신호와 동기화하는 단계;
    상기 복수의 시간별 주파수별 특징 정보를 생성하기 위한 상기 제 1 DNN(Deep Neural Network)을 이용하여 상기 동영상 신호로부터 동영상 내 객체의 움직임에 따른 M개(M은 1보다 크거나 같은 정수)의 1차원 영상 특징 맵 정보를 생성하는 단계; 및
    상기 1차원 영상 특징 맵 정보에 대하여 주파수 관련 타일링(tiling)을 수행하여 시간 및 주파수에 대한 M개의 영상 특징 맵 정보를 포함하는 상기 복수의 시간별 주파수별 특징 정보를 생성하는 단계를 포함하는 것을 특징으로 하는, 동영상 처리 방법.
  12. 제 10 항에 있어서,
    상기 제 2 DNN을 기반으로, 상기 제 1 고도 성분 및 제 1 평면 성분을 추출하는 단계 및 상기 제 3 DNN을 기반으로, 상기 제 2 평면 성분을 추출하는 단계는,
    상기 동영상 신호를 상기 제 1 오디오 신호와 동기화하는 단계;
    상기 제 1 고도 성분에 대응하는, 상기 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하기 위한 제 2-1 DNN을 이용하여 상기 동영상 신호로부터 시간에 대한 N+M개(N, M은 1보다 크거나 같은 정수)의 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하는 단계;
    상기 제 1 평면 성분에 대응하는, 상기 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보를 추출하기 위한 제 2-2 DNN 을 이용하여 상기 동영상 신호로부터 시간에 대한 N+M개(N, M은 1보다 크거나 같은 정수)의 동영상 내 수직 방향으로의 움직임 대응 특징 맵 정보를 추출하는 단계;
    상기 제 2 평면 성분에 대응하는, 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하기 위한 제 3 DNN을 이용하여 상기 제 1 오디오 신호로부터 N+M개(N, M은 1보다 크거나 같은 정수)의 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 추출하는 단계;
    상기 제 1 고도 성분, 상기 제 1 평면 성분 및 상기 제 2 평면 성분으로부터, 제 2 고도 성분을 생성할 때,
    상기 동영상 내 수평 방향으로의 움직임 대응 특징 맵 정보, 상기 수직 방향으로의 움직임 대응 특징 맵 정보 및 상기 오디오 내 수평 방향으로의 움직임 대응 특징 맵 정보를 기초로, 상기 제 2 고도 성분에 대응하는, 시간에 대한 N+M개의 보정 맵 정보를 생성하는 단계; 및
    상기 시간에 대한 N+M개의 보정 맵 정보에 대하여 주파수 관련 타일링을 수행하여 상기 제 2 고도 성분에 대응하는, 시간 및 주파수에 대한 N+M개의 보정 맵 정보를 생성하는 단계를 포함하는 동영상 처리 방법.
  13. 제 10 항에 있어서,
    상기 특징 정보를 기반으로 상기 제 2 고도 성분을 포함하는 상기 제 2 오디오 신호를 출력하는 단계는,
    상기 제 1 오디오 신호에 대한 주파수 변환 동작을 수행하여, 2채널에 대한 시간 및 주파수 정보를 획득하는 단계;
    상기 제 1 오디오 신호 내 오디오 특징을 생성하기 위한 제 4-1 DNN을 이용하여 상기 2채널에 대한 시간 및 주파수 정보로부터 시간 및 주파수에 대한 N(N은 1보다 크거나 같은 정수)개의 오디오 특징 맵 정보를 생성하는 단계;
    상기 복수의 시간별 주파수별 특징 정보에 포함된 시간 및 주파수에 대한 M개의 영상 특징 맵 정보와, 상기 시간 및 주파수에 대한 N(N은 1보다 크거나 같은 정수)개의 오디오 특징 맵 정보를 기초로, N+M개의 오디오/영상 통합 특징 맵 정보를 생성하는 단계; 및
    주파수 도메인 제 2 오디오 신호를 생성하기 위한 제 4-2 DNN을 이용하여 상기 N+M개의 오디오/영상 통합 특징 맵 정보로부터 n채널(n은 2보다 큰 정수)에 대한 상기 주파수 도메인 제 2 오디오 신호를 획득하는 단계;
    오디오 보정 맵 정보를 생성하기 위한 제 4-3 DNN을 이용하여 상기 N+M개의 오디오/영상 통합 특징 맵 정보로부터 상기 제 2 고도 성분에 대응하는, n채널에 대한 상기 오디오 보정 맵 정보를 생성하는 단계;
    상기 n채널에 대한 N+M개의 오디오/영상 보정 맵 정보를 기초로, 상기 n채널에 대한 주파수 도메인 제 2 오디오 신호에 대한 보정을 수행하여, n채널에 대한 보정된 주파수 도메인 제 2 오디오 신호를 생성하는 단계; 및
    상기 n채널에 대한 보정된 주파수 도메인 제 2 오디오 신호를 주파수 역변환하여 n채널에 대한 상기 제 2 오디오 신호를 출력하는 단계를 포함하는 동영상 처리 방법.
  14. 제 10 항에 있어서,
    상기 제 2 오디오 신호를 출력할 때, 상기 제 2 오디오 신호를 출력하기 위한 제 4 DNN을 기반으로 하고,
    상기 복수의 시간별 주파수별 특징 정보를 생성하기 위한 제 1 DNN, 상기 제 1 고도 성분 및 상기 제 1 평면 성분을 추출하기 위한 제 2 DNN, 제 2 평면 성분을 추출하기 위한 제 3 DNN 및 상기 제 2 오디오 신호를 출력하기 위한 제 4 DNN은 제 1 2차원 훈련 오디오 신호, 제 1 대응 훈련 영상 신호를 기초로 복원된 제 1 주파수 도메인 훈련 복원 3차원 오디오 신호와, 제 1 대응 3차원 훈련 오디오 신호를 주파수 변환하여 획득된 제 1 주파수 도메인 훈련 3차원 오디오 신호의 비교 결과에 따라 훈련되는 것을 특징으로 하는 동영상 처리 방법.
  15. 하드웨어와 결합하여 제 10 항의 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
PCT/KR2021/013231 2020-09-28 2021-09-28 동영상 처리 장치 및 방법 WO2022065981A1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP21873009.1A EP4203518A4 (en) 2020-09-28 2021-09-28 VIDEO PROCESSING DEVICE AND METHOD
CN202180066099.3A CN116210233A (zh) 2020-09-28 2021-09-28 视频处理设备和方法
US18/126,794 US20230239643A1 (en) 2020-09-28 2023-03-27 Video processing device and method

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20200126361 2020-09-28
KR10-2020-0126361 2020-09-28
KR10-2021-0007681 2021-01-19
KR1020210007681A KR102474248B1 (ko) 2020-09-28 2021-01-19 동영상 처리 장치 및 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/126,794 Continuation US20230239643A1 (en) 2020-09-28 2023-03-27 Video processing device and method

Publications (1)

Publication Number Publication Date
WO2022065981A1 true WO2022065981A1 (ko) 2022-03-31

Family

ID=80846732

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/013231 WO2022065981A1 (ko) 2020-09-28 2021-09-28 동영상 처리 장치 및 방법

Country Status (4)

Country Link
US (1) US20230239643A1 (ko)
EP (1) EP4203518A4 (ko)
CN (1) CN116210233A (ko)
WO (1) WO2022065981A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011071685A (ja) * 2009-09-25 2011-04-07 Nec Corp 映像音響処理システム、映像音響処理方法及びプログラム
WO2017126895A1 (ko) * 2016-01-19 2017-07-27 지오디오랩 인코포레이티드 오디오 신호 처리 장치 및 처리 방법
JP2020144574A (ja) * 2019-03-06 2020-09-10 Kddi株式会社 画像に応じて音オブジェクトを混合するプログラム、装置及び方法
KR20200107757A (ko) * 2019-03-08 2020-09-16 엘지전자 주식회사 음향 객체 추종을 위한 방법 및 이를 위한 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989845B (zh) * 2015-02-25 2020-12-08 杜比实验室特许公司 视频内容协助的音频对象提取

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011071685A (ja) * 2009-09-25 2011-04-07 Nec Corp 映像音響処理システム、映像音響処理方法及びプログラム
WO2017126895A1 (ko) * 2016-01-19 2017-07-27 지오디오랩 인코포레이티드 오디오 신호 처리 장치 및 처리 방법
JP2020144574A (ja) * 2019-03-06 2020-09-10 Kddi株式会社 画像に応じて音オブジェクトを混合するプログラム、装置及び方法
KR20200107757A (ko) * 2019-03-08 2020-09-16 엘지전자 주식회사 음향 객체 추종을 위한 방법 및 이를 위한 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LEE YU JIN, NANG JONGHO: "A Personal Video Event Classification Method based on Multi-Modalities by DNN-Learning", JOURNAL OF KIISE, vol. 43, no. 11, 15 November 2016 (2016-11-15), KR , pages 1281 - 1297, XP055915635, ISSN: 2383-630X, DOI: 10.5626/JOK.2016.43.11.1281 *
See also references of EP4203518A4 *

Also Published As

Publication number Publication date
CN116210233A (zh) 2023-06-02
EP4203518A1 (en) 2023-06-28
US20230239643A1 (en) 2023-07-27
EP4203518A4 (en) 2024-03-13

Similar Documents

Publication Publication Date Title
WO2020141657A1 (ko) 신체 측정 디바이스 및 그 제어 방법
WO2016117836A1 (en) Apparatus and method for editing content
WO2015126044A1 (ko) 이미지를 처리하기 위한 방법 및 그 전자 장치
WO2019074339A1 (ko) 신호 변환 시스템 및 신호 변환 방법
WO2019017698A1 (ko) 전자 장치 및 전자 장치에서 하이 다이나믹 레인지 이미지 데이터를 압축하는 방법
WO2022010122A1 (ko) 영상을 제공하는 방법 및 이를 지원하는 전자 장치
WO2016200013A1 (ko) 광학 장치 및 깊이 정보 생성 방법
WO2019045521A1 (ko) 전자 장치 및 그 제어 방법
EP4320472A1 (en) Device and method for predicted autofocus on an object
WO2022065981A1 (ko) 동영상 처리 장치 및 방법
WO2020145744A1 (ko) 카메라 장치 및 이를 구비하는 전자 장치
WO2021158058A1 (en) Method for providing filter and electronic device supporting the same
WO2023063679A1 (en) Device and method for predicted autofocus on an object
WO2020045834A1 (en) Electronic apparatus and control method thereof
WO2019107769A1 (ko) 이미지 센서의 리드 아웃 속도에 따라 이미지 데이터를 선택적으로 압축하는 전자 장치 및 그의 운용 방법
WO2022065933A1 (ko) 오디오의 부호화 장치 및 방법, 및 오디오의 복호화 장치 및 방법
WO2022080517A1 (ko) 학습 데이터를 생성하는 인공 지능 장치 및 방법
WO2020171576A1 (ko) 이미지 효과 적용 방법 및 이를 지원하는 전자 장치
WO2024043617A1 (ko) Ai에 기반한 영상 부호화 장치 및 영상 복호화 장치, 및 이들에 의한 영상의 부호화 및 복호화 방법
WO2023008678A9 (ko) 영상 처리 장치 및 그 동작 방법
WO2020080701A1 (en) Electronic apparatus and control method thereof
WO2023075408A1 (ko) 영상 처리 장치 및 이에 의한 영상 처리 방법
WO2013077510A1 (ko) 3차원 입체영상의 입체감, 안정성 또는 오류성 측정 장치 및 방법
WO2024085351A1 (ko) Hud 고스트 이미지 측정 방법 및 장치
WO2020153726A1 (ko) 카메라 장치 및 이를 구비하는 전자 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21873009

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021873009

Country of ref document: EP

Effective date: 20230322

NENP Non-entry into the national phase

Ref country code: DE