KR20230059677A - 영상의 배경음원 자동제거 장치 및 방법 - Google Patents

영상의 배경음원 자동제거 장치 및 방법 Download PDF

Info

Publication number
KR20230059677A
KR20230059677A KR1020220003531A KR20220003531A KR20230059677A KR 20230059677 A KR20230059677 A KR 20230059677A KR 1020220003531 A KR1020220003531 A KR 1020220003531A KR 20220003531 A KR20220003531 A KR 20220003531A KR 20230059677 A KR20230059677 A KR 20230059677A
Authority
KR
South Korea
Prior art keywords
component
vocal
data
learning
separation
Prior art date
Application number
KR1020220003531A
Other languages
English (en)
Inventor
김동원
권석봉
박용현
윤종길
임정연
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to PCT/KR2022/015718 priority Critical patent/WO2023075248A1/ko
Publication of KR20230059677A publication Critical patent/KR20230059677A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Machine Translation (AREA)

Abstract

본 개시의 일 측면에 의하면, 영상(video)의 오디오 데이터 배경음원 자동제거 방법에 있어서, 제1 분리모델을 이용하여 적어도 하나의 음원성분을 포함하는 상기 영상의 오디오 데이터를 사람의 목소리에 관한 제1 성분과 사람 목소리 외의 소리에 관한 제2 성분으로 분리하는 과정; 제2 분리모델을 이용하여 상기 제1 성분을 보컬성분 및 스피치성분으로 분리하는 과정; 제3 분리모델을 이용하여 상기 제2 성분을 음악성분 및 노이즈성분으로 분리하는 과정; 및 상기 스피치성분과 상기 노이즈성분을 합성하여 상기 영상의 오디오 데이터에 대한 배경음원이 제거된 오디오 데이터를 생성하는 과정을 포함하는 배경음원 제거방법을 제공한다.

Description

영상의 배경음원 자동제거 장치 및 방법{Method And Apparatus for Removing Background Music from Video}
본 개시는 영상의 배경음원을 자동으로 제거하는 장치와 방법에 관한 것이다.
이하에 기술되는 내용은 단순히 본 개시의 실시예와 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.
영상 제작은 카메라를 이용하여 원본영상을 촬영한 후 타이틀(title), 로고(logo), 캡션(caption), 배경음원(BGM), 효과음 등을 추가하는 마스터링(mastering) 과정을 거친다. 마스터링 이후에는 원본영상, 타이틀, 로고, 캡션, 배경음원 및 효과음은 별도로 저장하지 않으며 마스터링된 영상의 오디오 데이터만이 저장된다.
이러한 영상을 해외 수출하는 경우, 영상사업자는 수출되는 지역에 따라 영상에 사용된 배경음원의 라이센스로 인하여 저작료를 지불해야 하거나, 저작권 문제로 수출을 못하는 경우가 발생한다. 이러한 문제를 해결하기 위해 영상에 사용된 배경음원만을 영상의 오디오 데이터로부터 분리하여 삭제하거나 다른 배경음원으로 교체하여야 하는데, 이를 위하여 마스터링된 오디오 데이터로부터 특정 배경음원만을 분리할 수 있는 방법이 요구된다.
일 실시예에 따르면, 마스터링이 완료된 영상의 오디오 데이터로부터 특정 배경음원만을 정확히 분리할 수 있다.
본 발명이 해결하고자 하는 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
본 개시의 일 측면에 의하면, 영상(video)의 오디오 데이터 배경음원 자동제거 방법에 있어서, 제1 분리모델을 이용하여 적어도 하나의 음원성분을 포함하는 상기 영상의 오디오 데이터를 사람의 목소리에 관한 제1 성분과 사람 목소리 외의 소리에 관한 제2 성분으로 분리하는 과정; 제2 분리모델을 이용하여 상기 제1 성분을 보컬성분 및 스피치성분으로 분리하는 과정; 제3 분리모델을 이용하여 상기 제2 성분을 음악성분 및 노이즈성분으로 분리하는 과정; 및 상기 스피치성분과 상기 노이즈성분을 합성하여 상기 영상의 오디오 데이터에 대한 배경음원이 제거된 오디오 데이터를 생성하는 과정을 포함하는 배경음원 제거방법을 제공한다.
본 개시의 다른 측면에 의하면, 영상의 배경음원 자동제거 장치에 있어서, 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하되, 상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 제1 분리모델을 이용하여 적어도 하나의 음원성분을 포함하는 상기 영상의 오디오 데이터를 사람의 목소리에 관한 제1 성분과 사람 목소리 외의 소리에 관한 제2 성분으로 분리하고, 제2 분리모델을 이용하여 상기 제1 성분을 보컬성분 및 스피치성분으로 분리하고, 제3 분리모델을 이용하여 상기 제2 성분을 음악성분 및 노이즈성분으로 분리하고, 상기 스피치성분과 상기 노이즈성분을 합성하여 상기 영상의 오디오 데이터에 대한 배경음원이 제거된 오디오 데이터를 생성하는 배경음원 제거장치를 제공한다.
본 개시의 일 실시예에 의하면, 마스터링이 완료된 영상의 오디오 데이터로부터 특정 배경음원만을 정확히 분리하여, 배경음원이 정확하게 제거된 영상의 오디오 데이터를 생성할 수 있는 효과가 있다.
도 1은 본 개시의 일 실시예에 따른 영상의 배경음원 자동제거 장치의 블록구성도이다.
도 2는 본 개시의 일 실시예에 따라 제1 분리모델 및 음악성분 검출모델을 학습시키는 과정을 설명하기 위한 도면이다.
도 3은 본 개시의 일 실시예에 따라 제2 분리모델 및 보컬성분 검출모델을 학습시키는 과정을 설명하기 위한 도면이다.
도 4는 본 개시의 일 실시예에 따라 미리 학습이 완료된 보컬성분 검출모델을 이용하여 제2 분리모델을 학습시키는 과정을 설명하기 위한 도면이다.
도 5는 본 개시의 일 실시예에 따른 제2 분리모델의 학습과정에서 결합손실을 계산하는 과정을 설명하기 위한 도면이다.
도 6은 본 개시의 일 실시예에 따라 학습이 완료된 보컬 검출모델을 이용하여 제2 분리모델을 비지도 학습시키는 과정을 설명하기 위한 도면이다.
도 7은 본 개시의 일 실시예에 따른 분리모델의 구조를 나타낸 도면이다.
도 8은 본 개시의 다른 실시예에 따른 분리모델의 구조를 나타낸 도면이다.
도 9는 본 개시의 또 다른 실시예에 따른 분리모델의 구조를 나타낸 도면이다.
도 10은 본 개시의 일 실시예에 따라 학습이 완료된 분리모델을 포함하는 영상의 배경음원 자동제거 장치가 배경음원을 제거하는 과정을 나타낸 도면이다.
도 11는 본 개시의 일 실시예에 따른 영상의 배경음원 자동제거 방법의 순서도이다.
이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한 명세서에 기재된 '…부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
첨부된 도면과 함께 이하에 개시될 발명의 설명은 본 발명의 예시적인 실시 형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시 형태를 나타내고자 하는 것이 아니다.
이하에서, 음악성분은 영상의 오디오 데이터의 배경음원에 해당하는 성분으로서, 악기소리 등의 성분을 의미한다. 보컬성분은 배경음원에 해당하는 성분 중에서 노래하는 목소리와 같은 성분을 의미한다. 스피치성분은 영상의 오디오 데이터에서 배경음원을 제외한 나머지 데이터 중에서 사람의 음성에 관한 성분이며, 노이즈성분은 영상의 오디오데이터 중에서 스피치성분, 보컬성분 및 음악성분을 제외한 나머지 성분을 의미한다.
이하, 첨부된 도면들을 참조하여 본 발명을 설명함에 있어 동일한 구성요소에 대한 중복된 설명은 생략한다.
도 1은 본 개시의 일 실시예에 따른 영상의 배경음원 자동제거 장치의 블록구성도이다.
도 1을 참조하면, 영상의 배경음원 자동제거 장치(100)는 입출력 인터페이스(input output interface, 110), 프로세서(processor, 120) 및 메모리(memory, 130)를 포함한다. 여기서, 영상의 배경음원 자동제거 장치(100)가 포함하는 입출력 인터페이스(110), 프로세서(120) 및 메모리(130)는 버스(140)를 통하여 상호 데이터를 전송하는 것이 가능하다. 버스(140)는 영상의 배경음원 자동제거 장치(100)의 다양한 컴포넌트들 사이의 상호작용을 가능하게 하는 무선 또는 유선 통신 기반 구조를 포함할 수 있다.
입출력 인터페이스(110)는, 영상의 오디오데이터가 영상의 배경음원 자동제거 장치(100)에 입력되면 해당 데이터를 프로세서(120)에 입력한다.
입출력 인터페이스(110)는, 프로세서(120)가 분리한 오디오 데이터를 메모리(130) 및 영상의 배경음원 자동제거 장치(100)에 연결된 외부의 출력장치 중 적어도 하나의 장치에 전송할 수 있다.
프로세서(120)는 영상에서 배경음원을 제거하기 위한 구성요소로서 명령어들의 시퀀스를 처리할 수 있는 임의의 장치를 포함하거나 그의 일부일 수 있다. 예를 들면, 프로세서(120)는 컴퓨터 프로세서, 이동 장치 또는 다른 전자 장치 내의 프로세서 또는 디지털 프로세서를 포함할 수 있다.
프로세서(120)는, 입력된 영상의 오디오 데이터를 미리 설정된 복수의 성분으로 분리하기 위한 하나 이상의 분리모델을 포함할 수 있다. 여기서, 분리모델은 딥러닝 알고리즘을 이용하여 학습된 심층학습 신경망(Deep Neural Network)일 수 있다. 분리모델은 합성곱 신경망(Convolution Neural Network, CNN) 및 순환 신경망(Recurrent Neural Network, RNN) 중 적어도 하나를 포함하는 심층학습 신경망일 수 있다.
프로세서(120)는, 입력된 영상의 오디오 데이터를 분리모델에 입력하기 위하여 입력 데이터를 변환 또는 역변환하는 하나 이상의 연산부를 포함할 수 있다. 여기서, 연산부는 오디오 데이터를 주파수 영역으로 변환 또는 역변환하거나, 오디오 데이터의 크기 또는 위상을 계산할 수 있다.
메모리(130)는 영상의 배경음원 자동제거 장치(100)에 의해 사용되거나 그에 의해 출력되는 정보를 저장하기 위한 휘발성 메모리, 영구, 가상 또는 기타 메모리를 포함할 수 있다. 예를 들면, 메모리(130)는 랜덤 액세스 메모리(random access memory, RAM) 또는 다이내믹 RAM(dynamic RAM, DRAM)을 포함할 수 있다. 메모리(130)는 프로세서(120)의 처리 또는 제어를 위한 프로그램 및 영상의 배경음원 자동제거 장치(100)의 동작을 위한 다양한 데이터를 저장할 수 있다.
도 2는 본 개시의 일 실시예에 따라 제1 분리모델 및 음악성분 검출모델을 학습시키는 과정을 설명하기 위한 도면이다.
도 2를 참조하면, 미리 설정된 복수의 음원성분에 관한 정답을 포함하는 제1 데이터셋(200)이 준비된다. 여기서, 미리 설정된 복수의 음원성분은 스피치성분, 보컬성분, 음악성분 및 노이즈성분 중 적어도 하나를 포함할 수 있다.
믹서(210)는 제1 데이터셋(200)에 포함된 스피치성분에 관한 정답, 보컬성분에 관한 정답, 음악성분에 관한 정답 및 노이즈성분에 관한 정답 중 적어도 둘 이상의 정답을 기초로 조합된 오디오 데이터인 제1 학습데이터(215)를 생성한다. 생성된 제1 학습데이터(215)는 제1 분리모델(220)에 입력된다.
제1 분리모델(220)은 제1 학습데이터(215)를 사람의 목소리에 관한 제1 성분(221)과 사람 목소리 외의 소리에 관한 제2 성분(223)으로 분리하여 출력한다.
제1 분리손실 모듈(230)은 분리된 제1 성분(221), 분리된 제2 성분(223) 및 분리된 각 성분에 대응하는 정답(204)을 기초로 미리 설정된 손실함수를 이용하여 제1 분리손실을 계산한다. 여기서, 미리 설정된 손실함수는 제1 성분(221)과 제1 성분의 정답 간의 오차 및 제2 성분과 제2 성분의 정답 간의 오차를 기초로 제1 분리손실을 계산한다. 제1 성분의 정답 및 제2 성분에 대응하는 정답은 데이터셋(200)으로부터 제공될 수 있다.
제1 분리모델(220)은 역전파 알고리즘(backpropagation algorithm, 235)을 이용하여, 제1 분리손실이 작아지는 방향으로 제1 분리모델(220)의 적어도 하나 이상의 가중치를 업데이트하는 과정을 거쳐 학습된다.
음악성분 검출모델(240)은 제1 데이터셋(200)에 포함된 음악성분에 관한 학습데이터(206)를 이용하여 음악성분을 검출하도록 학습된다. 음악성분 검출모델(240)의 학습은 제1 분리모델(220)의 학습과정과 동시에 진행될 수 있으나 이에 한정되는 것은 아니다.
음악성분 검출모델(240)은 입력된 학습데이터(206)가 음악성분인지 여부를 검출하도록 학습된다. 예를 들면, 음악성분 검출모델(240)은 입력된 학습데이터가 음악성분일 확률에 관한 값을 출력할 수 있다. 음악 검출손실 모듈(250)은 음악성분 검출모델(240)이 출력한 음악성분일 확률에 관한 값 및 입력된 학습데이터(206)에 대응하는 정답(208)을 기초로 미리 설정된 손실함수를 이용하여 음악 검출손실을 계산한다. 여기서, 미리 설정된 손실함수는 음악성분 검출모델(240)이 출력한 확률에 관한 값 및 그에 대응하는 정답(208) 간의 오차를 기초로 음악 검출손실을 계산한다.
음악성분 검출모델(240)은 역전파 알고리즘(255)을 이용하여, 음악 검출손실이 작아지는 방향으로 음악성분 검출모델(240)의 적어도 하나 이상의 가중치를 업데이트하는 과정을 거쳐 학습된다.
도 3은 본 개시의 일 실시예에 따라 제2 분리모델 및 보컬성분 검출모델을 학습시키는 과정을 설명하기 위한 도면이다.
도 3을 참조하면, 스피치성분 및 보컬성분에 관한 정답을 포함하는 제2 데이터셋(300)이 준비된다. 믹서(310)는 제2 데이터셋(300)에 포함된 스피치성분에 관한 정답 및 보컬성분에 관한 정답을 기초로 조합된 제2 학습데이터(315)를 생성한다. 생성된 제2 학습데이터(315)는 제2 분리모델(320)에 입력된다.
제2 분리모델(320)은 제2 학습데이터(315)를 스피치성분(321)과 보컬성분(323)으로 분리하여 출력한다.
제2 분리손실 모듈(330)은 분리된 스피치성분(321), 분리된 보컬성분(323) 및 분리된 각 성분에 대응하는 정답(304)을 기초로 미리 설정된 손실함수를 이용하여 제2 분리손실을 계산한다. 여기서, 미리 설정된 손실함수는 스피치성분(321)과 스피치성분에 대응하는 정답 간의 오차 및 보컬성분(323)과 보컬성분에 대응하는 정답 간의 오차를 기초로 제2 분리손실을 계산한다.
제2 분리모델(320)은 역전파 알고리즘(335)을 이용하여, 제2 분리손실이 작아지는 방향으로 제2 분리모델(320)의 적어도 하나 이상의 가중치를 업데이트하는 과정을 거쳐 학습된다.
보컬성분 검출모델(340)은 제2 데이터셋(300)에 포함된 보컬성분에 관한 학습데이터(306)를 이용하여 보컬성분을 검출하도록 학습된다. 보컬성분 검출모델(340)의 학습은 제2 분리모델(320)의 학습과정과 동시에 진행될 수 있으나 이에 한정되는 것은 아니다.
보컬성분 검출모델(340)은 입력된 학습데이터(306)가 보컬성분인지 여부를 검출하여 입력된 학습데이터(306)가 보컬성분일 확률에 관한 값을 출력하도록 학습된다. 보컬 검출손실 모듈(350)은 학습데이터(306)가 보컬성분일 확률에 관한 값 및 입력된 학습데이터(306)에 대한 정답(308)을 기초로 미리 설정된 손실함수를 이용하여 계산된다. 여기서, 미리 설정된 손실함수는 보컬성분 검출모델(340)이 출력한 확률에 관한 값 및 정답(308) 간의 오차를 기초로 보컬 검출손실을 계산한다.
보컬성분 검출모델(340)은 역전파 알고리즘(355)을 이용하여 보컬 검출손실이 작아지는 방향으로 보컬성분 검출모델(340)의 적어도 하나 이상의 가중치를 업데이트하는 과정을 통하여 학습된다.
도 4는 본 개시의 일 실시예에 따라 미리 학습이 완료된 보컬성분 검출모델을 이용하여 제2 분리모델을 학습시키는 과정을 설명하기 위한 도면이다.
분리모델의 정확한 학습을 위해서, 학습과정에 사용하는 데이터셋에 포함된 데이터들은 각각의 성분에 따라 명확하게 분리되도록 정제(cleaning)되어야 한다. 그러나, 데이터를 정제하여 데이터셋을 생성하는 과정은 많은 인력과 시간이 소요된다. 또한, 생성된 데이터셋의 데이터에는 분리된 어느 한 성분에 다른 성분이 혼입되어 있는 경우, 예를 들면, 보컬성분의 정답에 일부 스피치 성분이 혼입되어 있는 경우와 같은 더티 데이터(dirty data)가 발생할 수 있다. 이러한 성분을 기초로 생성된 학습데이터를 이용하면, 분리모델의 정확한 학습이 어려워진다.
따라서, 미리 학습이 완료된 보컬성분 검출모델을 이용하여 학습데이터에 대한 건전도 검사(Sanity Check)를 수행하여 학습데이터의 품질을 측정하고, 측정된 학습데이터의 품질에 관한 데이터를 분리모델의 가중치 업데이트 과정에서 반영하면, 더티 데이터를 이용한 제2 분리모델의 정확한 학습이 가능하다. 예를 들면, 측정된 학습데이터의 품질이 낮은 경우에는 가중치 업데이트 과정에서 학습 결과의 반영도를 낮게 설정하고, 품질이 높은 경우에는 가중치 업데이트 과정에서 학습 결과의 반영도를 높게 설정하여 더티 데이터가 학습과정에 미치는 부작용을 줄일 수 있다.
도 4를 참조하면, 스피치성분에 관한 정답 및 보컬성분에 관한 정답을 기초로 생성된 제2 학습데이터(400)가 제2 분리모델(410)에 입력된다. 여기서, 스피치성분에 관한 정답 및 보컬성분에 관한 정답 중 적어도 하나의 정답은 더티 데이터일 수 있다.
제2 분리모델(410)은 제2 학습데이터(400)를 스피치성분과 보컬성분으로 분리하고, 분리된 스피치성분과 보컬성분은 제2 결합손실 모듈(420)에 입력된다.
제2 학습데이터(400)를 구성하는 적어도 하나의 정답은 미리 학습이 완료된 보컬 검출모델(430, 440)에 입력된다. 보컬 검출모델(430, 440)은 입력된 제2 학습데이터에 대한 정답의 품질을 측정하여 제2 품질 데이터를 제2 결합손실 모듈(420)에 입력한다. 여기서, 제2 품질 데이터는 보컬 검출모델(430, 440)이 계산한, 제2 학습데이터에 포함된 스피치성분과 보컬성분의 대응하는 정답이 보컬성분일 확률에 관한 값일 수 있다.
제2 학습데이터(400)의 스피치성분에 관한 정답(406)은 미리 학습이 완료된 제1 보컬 검출모델(430)에 입력되고, 제2 학습데이터(400)의 보컬성분에 관한 정답(405)은 미리 학습이 완료된 제2 보컬 검출모델(440)에 입력된다. 제1 보컬 검출모델(403) 및 제2 보컬 검출모델(440)은 각각의 입력이 보컬 성분일 확률에 관한 값을 계산하여 출력한다. 제2 학습데이터(400)의 스피치성분에 관한 정답(406)이 보컬 성분일 확률에 관한 값과 제2 학습데이터(400)의 보컬성분에 관한 정답(406)이 보컬 성분일 확률에 관한 값은 제2 결합손실 모듈(420)에 입력된다.
제2 결합손실 모듈(420)은 제2 분리모델(410)이 분리한 스피치성분과 보컬성분, 분리된 각 성분에 대응하는 정답(401)을 기초로 각 성분에 대한 제2 분리손실을 계산한다. 제2 결합손실 모듈(420)은 제1 보컬 검출모델(403) 및 제2 보컬 검출모델(440)을 이용하여 제2 분리모델(410)이 분리한 스피치성분과 보컬성분에 관한 제2 검출손실을 계산한다.
제2 결합손실 모듈(420)은 제2 분리손실, 제2 검출손실, 제2 학습데이터(400)의 스피치성분에 관한 정답(406)의 품질 데이터 및 제2 학습데이터(400)의 보컬성분에 관한 정답(406)의 품질 데이터를 기초로, 미리 설정된 결합손실함수를 이용하여 제2 결합손실을 계산한다.
제2 분리모델(410)은 역전파 알고리즘(435)을 이용하여 제2 결합손실이 작아지는 방향으로 제2 분리모델(410)의 적어도 하나 이상의 가중치를 업데이트하는 과정을 통하여 학습된다.
상술한 학습 과정을 이용하여 제2 학습데이터(400)에 포함된 정답이 얼마나 정확하게 분리되었는지에 관한 데이터를 제2 결합손실에 반영함으로써, 정답의 품질에 따라 제2 분리모델의 적어도 하나 이상의 가중치가 각기 다르게 업데이트 되도록 한다. 따라서, 더티 데이터로 인한 학습 효율의 저하 없이 제2 분리모델을 정확하게 학습시킬 수 있다.
도 5는 본 개시의 일 실시예에 따른 제2 분리모델의 학습과정에서 결합손실을 계산하는 과정을 설명하기 위한 도면이다.
도 5를 참조하면, 더티 데이터에 해당하는 정답을 적어도 하나 포함하는 제2 학습데이터가 제2 분리모델(500)에 입력된다. 제2 분리모델(500)은 입력된 학습데이터를 스피치성분(501)과 보컬성분(503)으로 분리하여 제2 결합손실 모듈(510)에 입력한다.
보컬 검출모델(530)은 제2 학습데이터에 포함된 스피치성분에 관한 정답 및 보컬성분에 관한 정답 각각의 보컬 성분일 확률에 관한 값을 계산한다. 스피치성분 정답이 보컬성분일 확률(531) 및 보컬성분 정답이 보컬성분일 확률(533)은 제2 결합손실 모듈(510)에 입력된다.
제2 결합손실 모듈(510)은 미리 설정된 결합손실함수를 이용하여 제2 결합손실을 계산한다. 제2 결합손실은 제2 분리손실과 제2 검출손실을 포함한다. 여기서, 제2 분리손실과 제2 검출손실은 제2 결합손실에서 서로 다른 비중을 갖는다.
제2 분리손실은 제2 분리모델(500)이 출력한 스피치성분(501)과 보컬성분(503) 및 각 성분에 대응하는 정답(505)간의 차이를 기초로 계산된다. 제2 분리손실의 계산은 평균절대오차(Mean Absolute Error MAE, 평균제곱오차(Mean Square Error, MSE) 등과 같은 방법을 이용할 수 있으나 이에 한정되는 것은 아니다. 예를 들면, 음성 데이터인 제2 학습데이터를 단시간 푸리에 변환(Short-Time Fourier Transform, STFT)을 이용하여 주파수 영역으로 변환하고, 정답과의 평균절대오차(MAE) 또는 평균제곱오차(MSE)를 이용하여 제2 분리손실을 계산 할 수 있다.
제2 검출손실은 스피치성분(501)과 보컬성분(503)이 보컬 성분일 확률을 기초로 계산된다. 스피치성분(501)이 정확히 분리되었다면 보컬 성분일 확률이 0 %여야 한다. 분리된 스피치성분(501)의 보컬 성분일 확률과 0 % 확률 간의 차이를 기초로 스피치성분(501)에 대한 제2 검출손실이 계산된다. 반면에, 보컬성분(503)은 정확히 분리되었다면 보컬 성분일 확률이 100 %여야 한다. 분리된 보컬성분(503)의 보컬 성분일 확률과 100 % 확률 간의 차이를 기초로 보컬성분(503)에 대한 제2 검출손실이 계산된다.
입력데이터의 품질은 스피치성분(501)과 보컬성분(503)에 대응하는 정답이 보컬성분일 확률을 기초로 계산된다. 스피치성분(501)에 대응하는 정답이 보컬 성분을 일부 포함하고 있는 더티 데이터인 경우에는 보컬 성분이 포함된 정도에 따라서 0 % 보다 큰 확률이 계산된다. 따라서, 스피치성분(501)에 대응하는 정답의 품질이 높을수록 보컬성분일 확률은 낮아진다. 반대로, 보컬성분(503)에 대응하는 정답의 경우에는, 더티 데이터인 경우에는 100 %보다 작은 확률이 계산된다. 보컬성분(503)에 대응하는 정답의 품질이 높을수록 보컬성분일 확률은 100 %에 가까워진다.
미리 학습된 검출모델을 이용하여 분리모델을 학습하는 과정에서의 결합손실은 수학식 1과 같은 손실함수를 이용하여 계산할 수 있다.
Figure pat00001
Figure pat00002
은 결합손실이고,
Figure pat00003
는 분리모델에 의하여 분리된 데이터이다.
Figure pat00004
는 분리된 데이터에 대응하는 정답을 미리 학습된 검출모델에 입력하여 획득한 확률이다. 여기서,
Figure pat00005
는 입력데이터의 품질을 나타낸다. 예를 들면, 보컬성분의 데이터를 보컬 검출모델에 입력하여 획득한 확률이 높을수록 정확한 데이터이고 확률이 작을수록 더티 데이터라고 판단할 수 있다. 따라서, 확률이 높을수록 손실을 계산하는 과정에서 상대적으로 더 큰 비중으로 반영한다.
Figure pat00006
는 검출 손실에 대한 가중치이다.
Figure pat00007
는 분리된 데이터(
Figure pat00008
)를 미리 학습된 검출모델에 입력하여 획득한 확률을 기초로 계산된 검출손실이고
Figure pat00009
는 분리된 데이터(
Figure pat00010
)에 관한 분리 손실이다.
미리 학습된 보컬 검출모델을 이용하여 제2 분리모델을 학습하는 과정에서의 제2 결합손실은 수학식 2와 같은 손실함수를 이용하여 계산할 수 있다.
Figure pat00011
Figure pat00012
은 제2 분리모델의 제2 결합손실이다.
Figure pat00013
는 스피치성분에 대한 손실,
Figure pat00014
는 보컬성분에 대한 손실이고,
Figure pat00015
는 보컬 검출모델을 이용하여 획득한 스피치성분에 대한 정답이 보컬성분이 아닐 확률이며,
Figure pat00016
는 보컬 검출모델을 이용하여 획득한 보컬성분에 대한 정답이 보컬성분일 확률이다.
제2 결합손실은 스피치성분에 대한 손실에 스피치성분에 대한 정답이 보컬성분이 아닐 확률을 곱한 값과 보컬성분에 대한 손실에 보컬성분에 대한 정답이 보컬성분일 확률을 곱한 값의 합이다. 여기서, 스피치성분에 대한 손실은 수학식 3을 기초로 계산할 수 있다.
Figure pat00017
Figure pat00018
는 분리된 스피치성분이다.
Figure pat00019
는 분리된 스피치성분(
Figure pat00020
)을 보컬 검출모델에 입력하여 획득한 보컬이 아닐 확률에 관한 검출손실이며,
Figure pat00021
는 검출손실에 대한 가중치이다.
Figure pat00022
는 스피치성분(
Figure pat00023
)에 대한 분리손실이다.
보컬성분에 대한 손실은 수학식 4를 기초로 계산할 수 있다.
Figure pat00024
Figure pat00025
는 분리된 보컬성분이다.
Figure pat00026
는 분리된 보컬성분(
Figure pat00027
)을 보컬 검출모델에 입력하여 획득한 보컬성분일 확률에 관한 검출손실이며,
Figure pat00028
는 검출손실에 대한 가중치이다.
Figure pat00029
는 보컬성분(
Figure pat00030
)에 대한 분리손실이다.
도 6은 본 개시의 일 실시예에 따라 학습이 완료된 보컬 검출모델을 이용하여 제2 분리모델을 비지도 학습시키는 과정을 설명하기 위한 도면이다.
도 6을 참조하면, 성분이 분리되지 않은 학습데이터(600)가 제2 분리모델(610)에 입력된다. 여기서, 학습데이터(600)는 스피치성분, 보컬성분, 음악성분 및 노이즈성분 중 적어도 하나 이상의 성분을 포함하는 음성 데이터일 수 있다. 학습데이터(600)는 미리 음원성분 별로 분리되지 않은 단일의 믹스처 데이터일 수 있다. 제2 분리모델(610)은 학습데이터(600)로부터 스피치성분(611)과 보컬성분(613)을 분리하여 출력한다.
분리된 스피치성분(611)은 제1 보컬 검출모델(620)에 입력되고, 분리된 보컬성분(613)은 제2 보컬 검출모델(630)에 입력된다. 여기서, 제1 보컬 검출모델(620) 및 제2 보컬 검출모델(630)은 미리 학습이 완료된 보컬 검출모델이다.
제1 보컬 검출모델(620)은 입력된 스피치성분(611)이 보컬성분일 확률(622)을 출력한다. 스피치성분(611)이 정확하게 분리될수록 보컬성분일 확률(622)은 0 %에 가까운 값을 갖는다. 보컬성분일 확률(622)은 제1 보컬 검출손실 모듈에 입력된다.
제2 보컬 검출모델(630)은 입력된 보컬성분(613)이 보컬성분일 확률(632)을 출력한다. 보컬성분(613)이 정확하게 분리될수록 보컬성분일 확률(632)은 100 %에 가까운 값을 갖는다. 보컬성분일 확률(632)은 제2 보컬 검출손실 모듈에 입력된다. 제1 보컬 검출손실 모듈(640)과 제2 보컬 검출손실 모듈(650)은 각각의 모듈에 입력된 확률에 관한 손실을 계산한다.
제2 분리모델(610)은 역전파 알고리즘(645, 655)을 이용하여, 제1 보컬 검출손실 모듈(640)과 제2 보컬 검출손실 모듈(650)이 계산한 손실을 최소화하는 방향으로 제2 분리모델의 적어도 하나 이상의 가중치를 업데이트하며 학습된다. 여기서, 제1 보컬 검출모델(620) 및 제2 보컬 검출모델(630)은 이미 학습이 완료되었으므로 가중치를 고정하고 제2 분리모델의 가중치만을 업데이트한다.
제3 분리모델은 도 3 내지 도 6을 이용하여 상술한 제2 분리모델의 학습과정과 같은 학습과정을 이용하여 입력데이터를 음악성분과 노이즈성분으로 분리하도록 학습된다. 제2 분리모델이 미리 학습이 완료된 보컬검출모델을 이용하여 학습되는 것과 마찬가지로, 제3 분리모델은 미리 학습이 완료된 음악검출모델을 이용하여 학습될 수 있다. 그 외에, 제3 분리모델의 학습과정에 있어서 제2 분리모델의 학습과정과 중복되는 구성요소에 대한 구체적 설명은 생략한다.
분리모델은 인코더(encoder)와 디코더(decoder)를 포함하는 오토인코더(Auto Encoder)와 순환신경망(Recurrnt Neural Network, RNN)이 결합된 구조를 갖는다. 분리모델은 기본 인코더/디코더 순환신경망(Basic En/Decoder RNN), 종단간 인코더/디코더 순환신경망(End to End En/Decoder RNN) 및 복소수 인코더/디코더 순환신경망(Complex Number En/Decoder RNN) 중 어느 하나의 구조일 수 있다. 분리모델의 구조는 분리할 오디오 데이터의 특성에 따라 어느 하나의 구조로 선택될 수 있다.
도 7은 본 개시의 일 실시예에 따른 분리모델의 구조를 나타낸 도면이다.
도 7을 참조하면, 분리모델은 기본 인코더/디코더 순환신경망으로 구성된다. 입력된 음성 데이터를 단시간 푸리에 변환(STFT, 700)을 이용하여 주파수 영역으로 변환한다.
크기위상 변환부(710)는 단시간 푸리에 변환(STFT, 700)에서 복소수 형식으로 변환된 주파수 영역의 오디오 데이터를 크기(Magnitude)와 위상(Phase)으로 변환한다.
너무 큰 차원을 갖는 데이터가 순환신경망(730)에 입력되면 연산량이 많아지므로, 인코더(720)는 오디오 데이터의 크기에 관한 데이터에 대하여 차원축소를 수행하거나 특성(Feature)을 추출한다. 여기서, 인코더(720)는 적어도 하나의 완전연결계층(Fully Connected Layer)을 포함할 수 있다. 인코더(720)는 분리모델이 분리할 성분의 특성에 따라 특정 주파수 대역을 강조하도록 학습될 수도 있다.
인코더(720)에서 출력된 크기에 관한 데이터는 순환신경망(RNN, 730)에 입력된다. 순환신경망(730)을 통과한 데이터는 디코더(740)를 이용하여 마스크(mask)를 생성하고, 오디오 데이터의 크기에 관한 데이터(711)에 마스킹된다.
마스킹된 데이터들에 오디오 데이터의 위상에 관한 데이터(713)를 합산 후 복소 변환부(750)에 입력되어 복소수 형식으로 변환된다. 변환된 데이터는 단시간 푸리에 역변환(Inverse STFT, 750)을 이용하여 다시 시간영역으로 변환되고 분리된 오디오 데이터로 출력된다.
인코더(720) 및 디코더(740)는 완전연결계층, 합성곱 신경망(Convolution Neural Network, CNN), 및 확장 합성곱 신경망(Dilated CNN) 중 적어도 어느 하나 이상의 네트워크를 포함할 수 있다. 순환신경망(730)은 적어도 하나 이상의 순환 신경망(RNN)을 포함한다. 여기서, 순환신경망(730)은 장단기 메모리(Long Term Short Term Memory, LSTM) 및 게이트 순환 유닛(Gated Recurrent Unit, GRU) 중 적어도 하나 이상을 포함할 수 있다.
도 8은 본 개시의 다른 실시예에 따른 분리모델의 구조를 나타낸 도면이다.
도 8을 참조하면, 분리모델은 종단간 인코더/디코더 순환신경망(End to End En/Decoder RNN)의 구조를 갖는다. 입력된 오디오 데이터는 STFT를 이용하여 주파수 영역으로 변환되지 않고, 곧바로 인코더(810)에 입력된다. 여기서, 인코더(810)는 적어도 하나 이상의 합성곱 신경망(CNN) 및 확장 합성곱 신경망(Dilated CNN) 중 적어도 어느 하나 이상의 네트워크를 포함할 수 있다.
인코더(810)가 입력된 오디오 데이터의 특성을 추출하여 순환 신경망(RNN, 820)에 입력하면, 순환신경망(820)은 입력된 특성을 분리한다. 여기서, 인코더가 정확한 특성추출을 하기 위하여 깊고 복잡한 네트워크로 구성되는 경우의 데이터 손실 및 가중치 갱신 오류를 방지하기 위하여 잔차연결(skip connection, 815)이 포함될 수 있다.
디코더(830)는 분리된 특성을 기초로 오디오 데이터의 분리를 수행하고 분리된 오디오 데이터를 출력한다.
이와 같은 분리모델은, STFT를 이용하여 오디오 데이터를 주파수 영역으로 변환하고, 오디오 데이터의 크기 특성만 고려하여 데이터를 분리하는 방식과 달리 데이터의 전체의 특성을 기초로 분리를 수행하므로 더 정확한 분리성능을 가질 수 있다.
도 9는 본 개시의 또 다른 실시예에 따른 분리모델의 구조를 나타낸 도면이다.
도 9의 (a)를 참조하면, STFT(900)를 이용하여 입력된 오디오 데이터를 주파수 영역으로 변환한다. 주파수 영역으로 변환된 오디오 데이터는 복소수(Complex Number) 형식을 갖는다.
오디오 데이터에 관한 복소수의 허수부와 실수부 모두 인코더(910)에 입력된다. 인코더(910)는 복소 합성곱 신경망(Complex CNN)을 이용하여 입력된 허수부와 실수부에 관한 특성을 추출한다.
복소 순환신경망(Complex RNN, 920)은 인코더(910)로부터 입력된 특성을 각각 분리한다. 디코더(930)는 허수부와 실수부에 관하여 분리된 특성을 복소 합성곱 신경망을 이용하여 복소수 형식의 분리된 오디오 데이터로 출력한다.
인코더(910) 및 디코더(930)는 합성곱 신경망(CNN) 및 확장 합성곱 신경망(Dilated CNN) 중 적어도 하나 이상의 네트워크를 포함할 수 있다. 여기서, 데이터 손실 및 가중치 갱신 오류를 방지하기 위하여 잔차연결(skip connection, 915)이 포함될 수 있다.
디코더(930)에서 출력된 복소수 형식의 데이터는 Inverse STFT(940)를 통해 분리된 오디오 데이터로 변환되어 출력된다.
이와 같은 분리모델에서는, 복소 합성곱 신경망과 복소 순환 신경망을 이용하여 인코더(910)에 주파수 영역으로 변환된 오디오 데이터의 실수부와 허수부가 동시에 입력된다.
분리모델의 학습결과 및 분리성능을 향상시키기 위하여, 입력된 오디오 데이터의 주파수별 특징을 가장 잘 반영할 수 있는 크기에 관한 데이터가 실수부와 허수부와 함께 인코더에 입력되도록 9의 (a)에 나타낸 분리모델의 구조를 도 9의 (b)와 같이 변형할 수 있다.
도 9의 (b)를 참조하면, STFT를 이용하여 입력된 오디오 데이터를 복소수 형태의 주파수 영역으로 변환한다. 주파수 영역으로 변환된 복소수 형식의 데이터에 포함된 실수부 및 허수부는 인코더에 입력된다.
주파수 영역으로 변환된 복소수 형식의 데이터는 크기 변환부(950)에 입력된다. 크기 변환부(950)는 오디오 데이터의 주파수 영역에서의 크기를 출력하고, 출력된 크기에 관한 데이터는 인코더에 입력된다. 여기서, 크기에 관한 데이터는 오디오 데이터에 관한 실수부 및 허수부의 값을 기초로 계산된 값일 수 있으나 이에 한정되는 것은 아니며, 별도로 입력된 값이 될 수도 있다.
도 10은 본 개시의 일 실시예에 따라 학습이 완료된 분리모델을 포함하는 영상의 배경음원 자동제거 장치가 배경음원을 제거하는 과정을 나타낸 도면이다.
영상의 배경음원 자동제거 장치(1000)에 마스터링된 영상의 오디오 데이터인 입력 오디오 데이터(1010)가 입력되면 제1 분리모델(1020)은 사람의 목소리에 관한 제1 성분(1023)과 그 외의 소리에 관한 제2 성분(1025)으로 분리한다. 여기서, 제1 성분(1023)은 스피치성분 및 보컬성분 중 적어도 하나를 포함할 수 있으며, 제2 성분(1025)은 음악성분 및 노이즈성분 중 적어도 하나를 포함할 수 있다.
제1 분리모델에서 분리된 제1 성분(1023)은 제2 분리모델(1030)에 입력되고, 제1 분리모델에서 분리된 제2 성분(1025)은 제3 분리모델(1040)에 입력된다. 제2 분리모델(1030)은 제1 성분(1023)을 스피치성분 및 보컬성분으로 분리하여 스피치성분(1035)을 출력한다. 제3 분리모델(1040)은 제2 성분(1025)을 음악성분 및 노이즈성분으로 분리하고 노이즈성분(1045)을 출력한다.
믹서(1050)는 제2 분리모델(1030)에서 출력된 스피치성분(1035)과 제3 분리모델(1040)에서 출력된 노이즈성분(1045)을 합성하여 배경음원이 제거된 출력 오디오 데이터(1060)를 생성하고 출력한다.
품질 측정부(1070)는 입력 오디오 데이터(1010)와 배경음원이 제거된 출력 오디오 데이터(1060)를 비교하여 배경음원의 제거 품질을 판단하여 출력한다. 여기서, 품질 측정부(1070)는 보컬 검출모델 및 음악 검출모델 중 적어도 하나의 검출모델을 이용하여 배경음원이 얼마나 제거되었는지를 판단할 수 있다.
영상의 배경음원 자동제거 장치(1000)는 학습이 완료된 제1 분리모델(1020), 학습이 완료된 제2 분리모델(1030) 및 학습이 완료된 제3 분리모델(1040) 모두를 포함하고 있으나 이에 한정되는 것은 아니며, 분리목적 또는 분리대상에 따라 제1 분리모델(1020), 제2 분리모델(1030) 및 제3 분리모델(1040) 중 적어도 하나의 분리모델을 선택하여 이용할 수 있으며 각 분리모델이 직렬적 또는 병렬적으로 연결되도록 구성할 수도 있다.
예를 들면, 스피치성분, 보컬성분, 음악성분 및 노이즈성분은 상호간 다양한 유사성을 가지므로 한번에 분리하기 어렵다. 따라서, 다양한 소리 성분 중에서 사람의 목소리가 갖는 고유한 특성을 이용하여 먼저 사람의 목소리인지 아닌지를 먼저 분리하고, 분리된 사람의 목소리에 관한 성분을 노래하는 목소리인지 말소리인지 판별할 수 있는 특성을 이용하여 스피치성분과 보컬성분으로 분리하는 과정을 거치면 스피치성분 및 보컬성분이 더 정확하게 분리된다.
본 실시예에서와 같이, 제1 분리모델(1020)을 이용하여 오디오 데이터로부터 사람의 목소리와 관련된 성분과 그 외의 성분 간의 구별되는 하나의 특징, 예를 들면 하모닉스 또는 주파수 특성에 관한 특징을 기준으로 먼저 분리하고, 그 후에 분리된 사람의 목소리와 관련된 성분으로부터 스피치 성분과 보컬성분을 구별할 수 있는 특징, 예를 들면, 음소의 길이와 음정의 변화와 같은 특징을 기준으로 제2 분리모델(1030)을 이용하여 스피치 성분과 보컬성분을 분리하도록 연결하여 분리성능을 향상시킬수 있는 구조를 갖도록 구성할 수 있다.
더 구체적으로는, 본 개시의 또 다른 실시예에 따라, 영상의 배경음원 자동제거 장치(1000)는 학습이 완료된 제1 분리모델(1020) 및 학습이 완료된 제2 분리모델(1030)을 포함하도록 구성될 수 있다. 입력 오디오 데이터(1010)를 학습이 완료된 제1 분리모델(1020)을 이용하여 사람의 목소리에 관한 제1 성분(1023)과 그 외의 소리에 관한 제2 성분(1025)으로 분리하고, 분리된 제2 성분(1025)을 학습이 완료된 제2 분리모델(1030)을 이용하여 스피치성분 및 보컬성분으로 분리한다.
영상의 배경음원 자동제거 장치(1000)는 분리된 스피치성분을 기초로 배경음원이 제거된 출력 오디오 데이터를 생성하고 출력하도록 구성될 수 있다. 여기서, 출력 오디오 데이터는 영상의 오디오 데이터 중에서 스피치 성분만이 추출된 오디오 데이터일 수 있으나 이에 한정되는 것은 아니다. 예를 들면, 영상의 배경음원 자동제거 장치(1000)는 입력된 드라마 또는 영화의 영상의 오디오 데이터 중에서 배경음원 등을 제거하고 영상 내 등장인물의 대사에 관한 음성만을 추출한 뒤, 새로운 효과음을 믹싱한 오디오 데이터를 출력하도록 구성될 수 있다.
도 11는 본 개시의 일 실시예에 따른 영상의 배경음원 자동제거 방법의 순서도이다.
영상의 배경음원 자동제거 장치는 영상의 오디오 데이터를 제1 분리모델을 이용하여 제1 성분 및 제2 성분으로 분리한다(S1100). 제1 분리모델은 영상의 음성을 사람의 목소리에 관한 제1 성분과 그 외의 소리에 관한 제2 성분으로 분리하도록 미리 학습된 분리모델이다.
제1 분리모델은 영상의 음성에 관한 데이터의 특성을 추출하고 이를 분리하여 제1 성분 및 제2 성분으로 분리한다. 여기서, 제1 분리모델은 사람의 목소리에 관한 하모닉스(harmonics) 또는 주파수 특성에 관한 특징을 이용하여 사람의 목소리에 해당하는 성분과 그 외의 성분으로 분리할 수 있다.
영상의 배경음원 자동제거 장치는 제1 성분을 제2 분리모델을 이용하여 스피치성분 및 보컬성분으로 분리한다(S1110).
제2 분리모델은 사람의 목소리에 관한 제1 성분을 스피치성분과 보컬성분으로 분리하도록 미리 학습된 분리모델이다. 여기서, 제 2분리모델은 사람의 목소리에 해당하는 제1 성분을 특정 음소의 길이 또는 음정의 변화에 관한 특징을 이용하여 스피치성분과 보컬성분으로 분리할 수 있다.
제2 분리모델은 미리 학습된 보컬 검출모델을 이용하여 결합손실이 작아지는 방향으로 학습된 분리모델일 수 있다. 그리고, 제2 분리모델은 미리 학습된 보컬 검출모델을 이용하여 비지도학습을 통하여 학습된 분리모델일 수 있다.
영상의 배경음원 자동제거 장치는 제2 성분을 제3 분리모델을 이용하여 음악성분 및 노이즈성분으로 분리한다(S1120).
제3 분리모델은 제1 분리모델에서 분리된 사람의 목소리 외에 관한 제2 성분을 음악성분과 노이즈성분으로 분리하도록 미리 학습된 분리모델이다.
제3 분리모델은 미리 학습된 음악 검출모델을 이용하여 결합손실이 작아지는 방향으로 학습된 분리모델일 수 있다. 그리고, 제3 분리모델은 미리 학습된 음악 검출모델을 이용하여 비지도학습을 통하여 학습된 분리모델일 수 있다.
영상의 배경음원 자동제거 장치는 분리된 스피치성분 및 노이즈성분을 합성하여 영상에서 배경음원이 제거된 오디오 데이터를 생성한다(S1130). 영상의 배경음원을 이루는 보컬성분과 음악성분을 분리하고, 그 외의 성분들을 기초로 오디오 데이터를 생성하면 마스터링된 영상의 오디오 데이터에서 배경음원을 제외한 오디오 데이터를 생성할 수 있다.
순서도에서는 각각의 과정들을 순차적으로 실행하는 것으로 기재하고 있으나, 이는 본 발명의 일부 실시예의 기술 사상을 예시적으로 설명한 것에 불과하다. 다시 말해, 본 발명의 일부 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 일부 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 순서도에 기재된 과정을 변경하여 실행하거나 각각의 과정 중 하나 이상의 과정을 병렬적으로 실행하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이므로, 순서도는 시계열적인 순서로 한정되는 것은 아니다.
본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 디지털 전자 회로, 집적 회로, FPGA(field programmable gate array), ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 프로그래밍가능 시스템 상에서 실행가능한 하나 이상의 컴퓨터 프로그램들로 구현되는 것을 포함할 수 있다. 프로그래밍가능 시스템은, 저장 시스템, 적어도 하나의 입력 디바이스, 그리고 적어도 하나의 출력 디바이스로부터 데이터 및 명령들을 수신하고 이들에게 데이터 및 명령들을 전송하도록 결합되는 적어도 하나의 프로그래밍가능 프로세서(이것은 특수 목적 프로세서일 수 있거나 혹은 범용 프로세서일 수 있음)를 포함한다. 컴퓨터 프로그램들(이것은 또한 프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 혹은 코드로서 알려져 있음)은 프로그래밍가능 프로세서에 대한 명령어들을 포함하며 "컴퓨터가 읽을 수 있는 기록매체"에 저장된다.
컴퓨터가 읽을 수 있는 기록매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 이러한 컴퓨터가 읽을 수 있는 기록매체는 ROM, CD-ROM, 자기 테이프, 플로피디스크, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등의 비휘발성(non-volatile) 또는 비일시적인(non-transitory) 매체일 수 있으며, 또한 데이터 전송 매체(data transmission medium)와 같은 일시적인(transitory) 매체를 더 포함할 수도 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다.
100: 배경음원 자동제거 장치
110: 입출력 인터페이스
120: 프로세서
130: 메모리

Claims (9)

  1. 오디오 데이터 배경음원 자동제거 방법에 있어서,
    제1 분리모델을 이용하여 적어도 하나의 음원성분을 포함하는 상기 오디오 데이터를 사람의 목소리에 관한 제1 성분과 사람 목소리 이외의 소리에 관한 제2 성분으로 분리하는 과정;
    제2 분리모델을 이용하여 상기 제1 성분을 보컬성분 및 스피치성분으로 분리하는 과정; 및
    상기 스피치성분을 기초로 상기 오디오 데이터에 대한 배경음원이 제거된 오디오 데이터를 생성하는 과정을 포함하는,
    배경음원 제거방법.
  2. 제1항에 있어서,
    상기 배경음원 제거방법은,
    제3 분리모델을 이용하여 상기 제2 성분을 음악성분 및 노이즈성분으로 분리하는 과정을 더 포함하고,
    상기 배경음원이 제거된 오디오 데이터는 상기 스피치성분과 상기 노이즈성분을 합성하여 생성되는,
    배경음원 제거방법.
  3. 제1항에 있어서,
    상기 제1 분리모델은,
    제1 데이터셋의 스피치성분 및 보컬성분 중 적어도 하나를 포함하는 제1 성분과 제1 데이터셋의 음악성분 및 노이즈성분 중 적어도 하나를 포함하는 제2 성분을 기초로 제1 학습데이터를 생성하는 과정;
    상기 제1 분리모델을 이용하여 상기 제1 학습데이터를 상기 제1 학습데이터에 대한 제1 성분과 상기 제1 학습데이터에 대한 제2 성분으로 분리하는 과정;
    상기 제1 학습데이터에 대한 제1 성분, 상기 제1 학습데이터에 대한 제2 성분 및 대응하는 정답을 기초로 제1 분리손실을 계산하는 과정; 및
    상기 제1 분리손실을 기초로 상기 제1 분리모델의 적어도 하나 이상의 가중치를 업데이트 하는 과정을 포함하는 학습방법을 이용하여 학습되는,
    배경음원 제거방법.
  4. 제1항에 있어서,
    상기 제2 분리모델은,
    제2 데이터셋의 스피치성분과 보컬성분을 기초로 제2 학습데이터를 생성하는 과정;
    상기 제2 분리모델을 이용하여 상기 제2 학습데이터를 상기 제2 학습데이터에 대한 스피치성분과 상기 제2 학습데이터에 대한 보컬성분으로 분리하는 과정;
    미리 학습이 완료된 보컬 검출모델을 이용하여 상기 제2 학습데이터에 대한 품질 데이터를 계산하는 과정;
    상기 보컬 검출모델을 이용하여 상기 제2 학습데이터에 대한 스피치성분과 상기 제2 학습데이터에 대한 보컬성분에 관한 제2 검출손실을 계산하는 과정;
    상기 제2 분리모델이 분리한 상기 제2 학습데이터에 대한 스피치성분과 상기 제2 학습데이터에 대한 보컬성분 및 대응하는 정답을 기초로 제2 분리손실을 계산하는 과정; 및
    상기 제2 학습데이터의 품질 데이터, 상기 제2 검출손실 및 상기 제2 분리손실을 기초로 제2 결합손실을 계산하는 과정; 및
    상기 제2 결합손실을 기초로 상기 제2 분리모델의 적어도 하나 이상의 가중치를 업데이트 하는 과정을 포함하는 학습방법을 이용하여 학습되는,
    배경음원 제거방법.
  5. 제2항에 있어서,
    상기 제3 분리모델은,
    제3 데이터셋의 음악성분과 노이즈성분을 기초로 제3 학습데이터를 생성하는 과정;
    상기 제3 분리모델을 이용하여 상기 제3 학습데이터를 상기 제3 학습데이터에 대한 음악성분과 상기 제3 학습데이터에 대한 노이즈성분으로 분리하는 과정;
    미리 학습이 완료된 음악 검출모델을 이용하여 상기 제3 학습데이터에 대한 품질 데이터를 계산하는 과정;
    상기 음악 검출모델을 이용하여 상기 제3 학습데이터에 대한 음악성분과 상기 제3 학습데이터에 대한 노이즈성분에 관한 제3 검출손실을 계산하는 과정;
    상기 제3 분리모델이 분리한 상기 제3 학습데이터에 대한 음악성분과 상기 제3 학습데이터에 대한 노이즈성분 및 대응하는 정답을 기초로 제3 분리손실을 계산하는 과정; 및
    상기 제3 학습데이터에 대한 품질 데이터, 상기 제3 검출손실 및 상기 제3 분리손실을 기초로 제3 결합손실을 계산하는 과정; 및
    상기 제3 결합손실을 기초로 상기 제3 분리모델의 적어도 하나 이상의 가중치를 업데이트 하는 과정을 포함하는 학습방법을 이용하여 학습되는,
    배경음원 제거방법.
  6. 제1항에 있어서,
    상기 제2 분리모델은,
    상기 제2 분리모델을 이용하여 학습데이터에서 상기 학습데이터에 대한 스피치성분과 상기 학습데이터에 대한 보컬성분을 분리하는 과정;
    학습이 완료된 보컬 검출모델을 이용하여 상기 학습데이터에 대한 스피치성분이 보컬성분일 확률을 계산하는 과정;
    상기 보컬 검출모델을 이용하여 상기 학습데이터에 대한 보컬성분이 보컬성분일 확률을 계산하는 과정;
    상기 학습데이터에 대한 스피치성분이 보컬성분일 확률을 기초로 제1 보컬 검출손실을 생성하는 과정;
    상기 학습데이터에 대한 보컬성분이 보컬성분일 확률을 기초로 제2 보컬 검출손실을 생성하는 과정; 및
    상기 제1 보컬 검출손실 및 제2 보컬 검출손실을 기초로 상기 제2 분리모델의 적어도 하나의 가중치를 업데이트 하는 과정을 포함하는 학습방법을 이용하여 학습되는,
    배경음원 제거방법.
  7. 제2항에 있어서,
    상기 제3 분리모델은,
    상기 제3 분리모델을 이용하여 학습데이터에서 상기 학습데이터에 대한 음악성분과 상기 학습데이터에 대한 노이즈성분을 분리하는 과정;
    학습이 완료된 음악 검출모델을 이용하여 상기 학습데이터에 대한 음악성분이 음악성분일 확률을 계산하는 과정;
    상기 음악 검출모델을 이용하여 상기 학습데이터에 대한 노이즈성분이 음악성분일 확률을 계산하는 과정;
    상기 학습데이터에 대한 음악성분이 음악성분일 확률을 기초로 제1 음악 검출손실을 생성하는 과정;
    상기 학습데이터에 대한 노이즈성분이 음악성분일 확률을 기초로 제2 음악 검출손실을 생성하는 과정; 및
    상기 제1 음악 검출손실 및 제2 음악 검출손실을 기초로 상기 제3 분리모델의 적어도 하나의 가중치를 업데이트 하는 과정을 포함하는 학습방법을 이용하여 학습되는,
    배경음원 제거방법.
  8. 배경음원 자동제거 장치에 있어서,
    하나 이상의 인스트럭션을 저장하는 메모리; 및
    상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 프로세서를 포함하되,
    상기 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,
    제1 분리모델을 이용하여 적어도 하나의 음원성분을 포함하는 오디오 데이터를 사람의 목소리에 관한 제1 성분과 사람 목소리 외의 소리에 관한 제2 성분으로 분리하고,
    제2 분리모델을 이용하여 상기 제1 성분을 보컬성분 및 스피치성분으로 분리하고,
    상기 스피치성분을 기초로 상기 오디오 데이터에 대한 배경음원이 제거된 오디오 데이터를 생성하는,
    배경음원 제거장치.
  9. 제8항에 있어서,
    상기 프로세서는,
    제3 분리모델을 이용하여 상기 제2 성분을 음악성분 및 노이즈성분으로 분리하되,
    상기 배경음원이 제거된 오디오 데이터는 상기 스피치성분과 상기 노이즈성분을 합성하여 생성되는,
    배경음원 제거장치.
KR1020220003531A 2021-10-26 2022-01-10 영상의 배경음원 자동제거 장치 및 방법 KR20230059677A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2022/015718 WO2023075248A1 (ko) 2021-10-26 2022-10-17 영상의 배경음원 자동제거 장치 및 방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20210144070 2021-10-26
KR1020210144070 2021-10-26

Publications (1)

Publication Number Publication Date
KR20230059677A true KR20230059677A (ko) 2023-05-03

Family

ID=86380432

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220003531A KR20230059677A (ko) 2021-10-26 2022-01-10 영상의 배경음원 자동제거 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20230059677A (ko)

Similar Documents

Publication Publication Date Title
CN111292764B (zh) 辨识系统及辨识方法
US11894014B2 (en) Audio-visual speech separation
CN110197658B (zh) 语音处理方法、装置以及电子设备
JP2019216408A (ja) 情報を出力するための方法、及び装置
CN110148400B (zh) 发音类型的识别方法、模型的训练方法、装置及设备
US10997965B2 (en) Automated voice processing testing system and method
US11514925B2 (en) Using a predictive model to automatically enhance audio having various audio quality issues
CN109637525B (zh) 用于生成车载声学模型的方法和装置
CN110600002B (zh) 语音合成方法、装置及电子设备
KR100888804B1 (ko) 동영상 데이터의 동일성 판단 및 동일 구간 검출 방법 및장치
US11501102B2 (en) Automated sound matching within an audio recording
CN111883107B (zh) 语音合成、特征提取模型训练方法、装置、介质及设备
US20220130407A1 (en) Method for isolating sound, electronic equipment, and storage medium
CN113205793B (zh) 音频生成方法、装置、存储介质及电子设备
CN112770062A (zh) 一种图像生成方法及装置
CN111128211A (zh) 一种语音分离方法及装置
CN114596879A (zh) 一种虚假语音的检测方法、装置、电子设备及存储介质
CN109741761B (zh) 声音处理方法和装置
KR20230059677A (ko) 영상의 배경음원 자동제거 장치 및 방법
US9398387B2 (en) Sound processing device, sound processing method, and program
CN114302301B (zh) 频响校正方法及相关产品
CN115116469A (zh) 特征表示的提取方法、装置、设备、介质及程序产品
CN113990295A (zh) 一种视频生成方法和装置
CN113886639A (zh) 数字人视频生成方法、装置、电子设备及存储介质
CN115148208B (zh) 音频数据处理方法、装置、芯片及电子设备