KR20210047614A - 컨볼루션 신경망 기반 음원 분리 방법 및 장치 - Google Patents

컨볼루션 신경망 기반 음원 분리 방법 및 장치 Download PDF

Info

Publication number
KR20210047614A
KR20210047614A KR1020190131439A KR20190131439A KR20210047614A KR 20210047614 A KR20210047614 A KR 20210047614A KR 1020190131439 A KR1020190131439 A KR 1020190131439A KR 20190131439 A KR20190131439 A KR 20190131439A KR 20210047614 A KR20210047614 A KR 20210047614A
Authority
KR
South Korea
Prior art keywords
convolution
sound source
dense block
input
initial
Prior art date
Application number
KR1020190131439A
Other languages
English (en)
Inventor
김혜미
김정현
박지현
서용석
임동혁
유원영
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020190131439A priority Critical patent/KR20210047614A/ko
Priority to US17/032,995 priority patent/US20210120355A1/en
Publication of KR20210047614A publication Critical patent/KR20210047614A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/056Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

컨볼루션 신경망 기반 음원 분리 장치 및 방법이 개시된다. 본 발명의 일 실시예에 따른 음원 분리 방법은 위상 정보를 포함하는 모노 음원 오디오 신호를 입력으로 수신하여 복수의 신호로 분리하는 방법으로서, 입력되는 상기 오디오 신호에 대해 초기 컨볼루션 및 다운샘플링을 수행하는 단계; 하나 이상의 제1 밀집 블록 및 하나 이상의 다운-전환 레이어를 이용해 입력 신호를 부호화하는 단계; 하나 이상의 제2 밀집 블록 및 하나 이상의 업-전환 레이어를 이용해 부호화된 신호를 복호화하는 단계; 및 상기 복호화된 신호에 대해 최종 컨볼루션 및 크기 조정을 수행하는 단계를 포함할 수 있다.

Description

컨볼루션 신경망 기반 음원 분리 방법 및 장치{APPARATUS AND METHOD FOR SEPARATING AUDIO SOURCE BASED ON CONVOLUTIONAL NEURAL NETWORK}
본 발명은 음원 분리 방법 및 장치에 관한 것으로, 더욱 상세하게는 컨볼루션 신경망 기반 음원 분리 방법 및 장치에 관한 것이다.
스마트폰에서 음악을 식별하는 기존의 서비스는 음악 핑거프린팅 기술을 기반으로 하여 잡음이 거의 없는 전경음 식별을 목적으로 개발되었다. 음원 분리 기술 가운데 다양한 악기와 가수의 목소리가 혼합된 모노 음원에서 특정 악기 또는 가수의 목소리만 추출하는 기술이 현재 활발히 연구되고 있다. 이러한 연구를 위한 공개 데이터셋도 존재하며 최근에는 신경망을 이용한 방법이 제안되고 있다.
한편, 방송물에 포함된 배경 음악을 추출하는 것은 두 가지 측면에서 추가로 해결해야 할 과제가 존재한다.
첫 번째는 추출 대상 신호의 소리가 작은 경우이다. 드라마나 예능의 경우 배우나 출연자가 대사를 할 때 배경 음악이 삽입되는 경우, 배경 음악은 배우의 대사가 들릴 정도로 작은 소리로 삽입되어야 대사가 잘 전달될 수 있기 때문에 배경 음악은 배우의 대사보다 소리의 크기가 훨씬 작다.
두 번째는 음악과 대사를 분리하는 경우 두 신호 모두 사람 목소리를 포함하는 경우가 존재한다. 악기별로 음원을 분리하는 문제의 경우 악기 고유의 특성이 서로 다르나 음악에서 대사를 분리하는 문제의 경우 분리하고자 하는 음성이 음악과 대사에 모두 포함되는 경우가 존재한다. 이처럼 분류하려는 두 클래스가 분리하고자 하는 신호 자체를 공유하는 경우 분리 성능을 저하시킬 수 있다. 대사를 분리할 때의 또 다른 문제점은 사람의 목소리가 남녀노소 및 개인에 따라 모두 다른 특성을 가진다는 점이다.
이상 설명한 바와 같이 방송물과 같이 유사한 발성 구조를 가지는 음원을 분리하기 위한 고성능의 음원 분리 기술 개발이 필요하다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 컨볼루션 신경망 기반 음원 분리 방법을 제공하는 데 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 상기 음원 분리 방법을 이용하는 음원 분리 장치를 제공하는 데 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 음원 분리 방법은 위상 정보를 포함하는 모노 음원 오디오 신호를 입력으로 수신하여 복수의 신호로 분리하는 방법으로서, 입력되는 상기 오디오 신호에 대해 초기 컨볼루션 및 다운샘플링을 수행하는 단계; 하나 이상의 제1 밀집 블록 및 하나 이상의 다운-전환 레이어를 이용해 입력 신호를 부호화하는 단계; 하나 이상의 제2 밀집 블록 및 하나 이상의 업-전환 레이어를 이용해 부호화된 신호를 복호화하는 단계; 및 상기 복호화된 신호에 대해 최종 컨볼루션 및 크기 조정을 수행하는 단계를 포함할 수 있다.
이때, 오디오 신호는 모노 음원의 혼합 신호, 즉 음성, 음악, 노이즈 등을 포함하는 신호일 수 있다.
한편, 제1 밀집 블록의 출력은 대응하는 업-전환 레이어의 출력에 연결될 수 있다.
또한, 상기 제1 밀집 블록 및 제2 밀집 블록은 입력되는 초기 특징맵에 대해 수행되는 하나 이상의 컨볼루션을 포함하되, 상기 초기 특징맵에 대한 제1 컨볼루션의 결과와 상기 초기 특징맵을 연결(concatenation)한 값이 제2 컨볼루션의 입력으로 제공될 수 있다.
여기서, 다운-전환 레이어는, 각각의 제1 밀집 블록이 출력하는 특징맵의 개수를 감소시키는 컨볼루션; 및 제1 밀집 블록이 출력하는 상기 특징맵의 개수를 감소시키는 컨볼루션이 출력하는 특징맵에 대한 다운샘플링을 포함할 수 있다.
상기 업-전환 레이어는, 각각의 제2 밀집 블록이 출력하는 특징맵의 개수를 감소시키는 컨볼루션; 및 제2 밀집 블록이 출력하는 상기 특징맵의 개수를 감소시키는 컨볼루션이 출력하는 특징맵에 대한 업샘플링을 포함할 수 있다.
여기서, 상기 업샘플링은, 상기 다운-전환 레이어를 통해 줄어든 특징 벡터의 길이만큼 상기 특징 벡터의 길이를 늘임으로써 초기 특징맵의 초기 입력의 길이를 유지하도록 수행될 수 있다. 업샘플링은 양선형 크기조정(bilinear resize)을 통해 수행될 수 있다.
한편, 상기 초기 컨볼루션, 상기 최종 컨볼루션, 상기 제1 밀집 블록에 포함된 컨볼루션, 및 상기 제2 밀집 블록에 포함된 컨볼루션은, 배치의 분포를 정규화하는 배치 정규화; 활성화 함수; 및 1차원 컨볼루션을 포함할 수 있다.
상기 다른 목적을 달성하기 위한 본 발명의 일 실시예에 따른 음원 분리 장치는 위상 정보를 포함하는 모노 음원 오디오 신호를 입력으로 수신하여 복수의 신호로 분리하는 장치로서, 프로세서; 및 상기 프로세서를 통해 실행되는 적어도 하나의 명령을 저장하는 메모리를 포함할 수 있다.
상기 적어도 하나의 명령은, 입력되는 상기 오디오 신호에 대해 초기 컨볼루션 및 다운샘플링을 수행하도록 하는 명령; 하나 이상의 제1 밀집 블록 및 하나 이상의 다운-전환 레이어를 이용해 입력 신호를 부호화하도록 하는 명령; 하나 이상의 제2 밀집 블록 및 하나 이상의 업-전환 레이어를 이용해 부호화된 신호를 복호화하도록 하는 명령; 및 상기 복호화된 신호에 대해 최종 컨볼루션 및 크기 조정을 수행하도록 하는 명령을 포함할 수 있다.
이때, 오디오 신호는 모노 음원의 혼합 신호, 즉 음성, 음악, 노이즈 등을 포함하는 신호일 수 있다.
한편, 제1 밀집 블록의 출력은 대응하는 업-전환 레이어의 출력에 연결될 수 있다.
또한, 상기 제1 밀집 블록 및 제2 밀집 블록은 입력되는 초기 특징맵에 대해 수행되는 하나 이상의 컨볼루션을 포함하되, 상기 초기 특징맵에 대한 제1 컨볼루션의 결과와 상기 초기 특징맵을 연결(concatenation)한 값이 제2 컨볼루션의 입력으로 제공될 수 있다.
여기서, 다운-전환 레이어는, 각각의 제1 밀집 블록이 출력하는 특징맵의 개수를 감소시키는 컨볼루션; 및 제1 밀집 블록이 출력하는 상기 특징맵의 개수를 감소시키는 컨볼루션이 출력하는 특징맵에 대한 다운샘플링을 포함할 수 있다.
상기 업-전환 레이어는, 각각의 제2 밀집 블록이 출력하는 특징맵의 개수를 감소시키는 컨볼루션; 및 제2 밀집 블록이 출력하는 상기 특징맵의 개수를 감소시키는 컨볼루션이 출력하는 특징맵에 대한 업샘플링을 포함할 수 있다.
여기서, 상기 업샘플링은, 상기 다운-전환 레이어를 통해 줄어든 특징 벡터의 길이만큼 상기 특징 벡터의 길이를 늘임으로써 초기 특징맵의 초기 입력의 길이를 유지하도록 수행될 수 있다. 업샘플링은 양선형 크기조정(bilinear resize)을 통해 수행될 수 있다.
한편, 상기 초기 컨볼루션, 상기 최종 컨볼루션, 상기 제1 밀집 블록에 포함된 컨볼루션, 및 상기 제2 밀집 블록에 포함된 컨볼루션은, 배치의 분포를 정규화하는 배치 정규화; 활성화 함수; 및 1차원 컨볼루션을 포함할 수 있다.
상기와 같은 본 발명의 실시예들에 따르면 방송물과 같이 유사한 발성 구조를 가지는 여러 음성을 포함하는 음원을 고성능으로 분리할 수 있다.
도 1a는 음성 신호 및 음악 신호가 혼재한 신호의 스펙트로그램을, 도 1b는 음악 신호의 스펙트로그램을, 도 1c는 음성 신호의 스펙트로그램을 나타낸다.
도 2는 본 발명의 일 실시예에 따른 음원 분리에 사용되는 컨볼루션 신경망의 구조도이다.
도 3은 본 발명에 적용되는 밀집 블록의 개념도이다.
도 4는 본 발명의 일 실시예에 따른 컨볼루션 블록도이다.
도 5는 본 발명의 일 실시예에 따른 다운-전환 레이어의 개념도이다.
도 6은 본 발명의 일 실시예에 따른 업-전환 레이어의 개념도이다.
도 7은 본 발명의 일 실시예에 따른 컨볼루션 신경망 기반 음원 분리 방법의 순서도이다.
도 8은 본 발명의 일 실시예에 따른 컨볼루션 신경망 기반 음원 분리 장치의 블록 구성도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는 데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. "및/또는"이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
본 발명은 다양한 악기와 가수의 소리가 혼합된 모노 음원에서 가수의 목소리만을 추출하는 방법을 포함한다. 본 발명은 가수의 목소리뿐만 아니라 하나의 악기만을 추출하는 경우에도 동일하게 적용할 수 있다. 본 발명은 또한, 음악 내 음원 분리에 제한되지 않고 방송 콘텐츠에서 배우나 진행자의 목소리가 혼합된 경우 배경음악과 배우의 대사를 분리하는 데에도 적용 가능하다.
여기서, 모노(mono) 음원(sound source)이란 통상적으로 스테레오 채널을 가지는 음악 또는 후처리된 방송 오디오 신호를 단일 채널로 변환한 것이다. 또한, 본 명세서에서 사용되는 용어 "오디오 신호"는 인간의 음성, 음악, 자연에서 채취 가능한 사운드, 노이즈 등을 포함하는 신호로 사용된다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1a는 음성 신호 및 음악 신호가 혼재한 오디오 신호의 스펙트로그램을, 도 1b는 음악 신호의 스펙트로그램을, 도 1c는 음성 신호의 스펙트로그램을 나타낸다.
TV에서 방영되는 드라마 등 방송물의 경우 배우가 대사를 하고 있을 때 배경으로 나오는 음악은 배우의 대사보다 소리의 크기가 훨씬 작다. 도 1a 내지 도 1c 에서와 같이 음악 신호의 크기가 매우 작아 혼합 신호와 음악 신호가 서로 상이함을 확인할 수 있다. 이렇게 대사와 음악이 혼재한 상황에서 음악 식별을 하게 되면 그 성능이 현저히 떨어지게 된다.
이때 음원 분리 기술을 적용하여 음악과 대사를 분리하고 대사가 제거된 음악을 기존의 음악 식별기에 제공한다면 음악 식별 시 잡음으로 작용하는 배우의 대사로 인한 음악 식별 성능 저해 문제를 해결할 수 있다. 음원 분리 기술 가운데 다양한 악기와 가수의 목소리가 혼합된 모노 음원에서 특정 악기 또는 가수의 목소리만 추출하는 기술이 현재 활발히 연구되고 있다. 이러한 연구를 위한 공개 데이터셋도 존재한다. 최근에는 신경망을 이용한 방법이 제안되고 있다.
음원 분리를 수행하는 기법은 크게 두 가지로 나눌 수 있는데, 그 중 하나는 입력 신호를 푸리에 변환하여 얻은 진폭 스펙트로그램을 입력으로 하는 방법이고, 다른 하나는 파형 신호의 샘플 정보 하나하나를 별다른 처리 없이 그대로 사용하는 방법이다.
스펙트로그램을 입력으로 하는 대표적인 기술은 U-Net 신경망을 기반으로 음악에서 가수의 목소리를 분리하는 방법을 사용한다. 샘플 파형을 입력으로 하는 대표적인 방법으로는 역시 U-Net 신경망을 적용한 Wave-U-Net 방법이 있다. 스펙트로그램을 활용하는 방법의 경우, 연산량이 비교적 적다는 장점이 있으나 위상 정보를 다루지 않으므로 성능에 한계가 있다.
두 기술에서 모두 사용되고 있는 U-Net 신경망은 완전 합성곱 네트워크(fully convolutional network)로 구성되며 부호화부와 복호화부의 구조로 이루어진 네트워크이다. 동일한 계층의 부호화부와 복호화부 간에 스킵 연결(skip connection)을 구성함으로써 음원 분리를 더욱 정교하게 수행한다. 다만, U-Net 신경망은 컨볼루션을 수행하면서 특징맵의 개수가 배로 늘어나는 형태로 파라미터의 개수가 많다는 단점이 존재한다.
또한, 객체 분류 분야에서 제안된 DenseNet은 직전 계층의 결과 값만을 현재 계층의 결과 값과 연결(concatenation)하는 것이 아니라 현재 밀집 블록(dense block) 내 모든 이전 계층의 결과값을 현재 계층의 결과 값과 연결(concatenation)하는 방식으로, 깊은 신경망을 구성하지 않고도 더 우수한 성능을 내는 것으로 알려져 있다.
본 발명에서는 위상 정보까지 포함한 파형 신호를 입력 신호로 하고 객체 분류에서 제안된 DenseNet을 변형하여 음원 분리에 적용 가능한 Wave-DenseNet 방법을 제안하여 음원 분리 성능을 높이고자 한다.
이하 설명되는 실시예들에서는, 음원을 분리하는 본 발명의 일 실시예로서 방송 콘텐츠에서 배경 음악과 배우 또는 출연자의 대사가 혼합된 경우 이를 분리하는 방법에 대해 설명한다.
도 2는 본 발명의 일 실시예에 따른 음원 분리에 사용되는 컨볼루션 신경망의 구조도이다.
본 발명에 따른 음원 분리에 적용되는 컨볼루션 신경망은 초기 컨볼루션부(210), 하나 이상의 밀집 블록(100-1, 100-2, 100-3, 100-4, 100-5), 하나 이상의 다운-전환 레이어(220), 하나 이상의 업-전환 레이어(230), 및 최종 컨볼루션부(250)를 포함하여 구성될 수 있다.
일반적으로 방송물의 오디오는 44kHz 등의 높은 샘플링 주파수를 가지는 고품질의 음원을 사용한다. 따라서, 신호 전처리부(미도시)를 통해 높은 샘플링 주파수의 음원을 22050 Hz로 다운샘플링하여 크기 변환(resize) 또는 리샘플링(resampling)함으로써 처리 효율을 높일 수 있다.
초기 컨볼루션부(210)에서는 전처리를 통해 리샘플링된 음악과 대사 및 잡음 등이 혼합된 입력 신호에 대해 초기 컨볼루션과 다운샘플링을 수행한다. 여기서, 초기 컨볼루션은 1차원 컨볼루션일 수 있다. 또한, 다운샘플링은 예를 들어, 데시메이션(decimation)을 통해 이루어질 수 있으며, 데시메이션은 신호의 샘플링 레이트를 줄이는 과정이다. 즉, 데시메이션은 샘플링 레이트를 증가시키는 보간법의 반대 개념으로서 샘플링 레이트를 변환하는 것이다.
초기 컨볼루션부(210)에서 수행되는 초기 컨볼루션 단계에서는 특정 커널 크기(kernel_size)에 대해 컨볼루션을 수행한다. 이때 컨볼루션 후 샘플의 크기에 변함이 없도록 적절한 제로 패딩(zero padding)이 제공된다.
전처리 과정 이후에는, 부호화 과정이 수행된다. 부호화 과정에서는 밀집 블록(100)과 다운(down)-전환 레이어(transition layer)(220)를 반복적으로 실행함으로써 음악만 분리된 신호의 특징을 추출한다. 도 2에 도시된 실시예에서는 밀집 블록과 다운(down)-전환 레이어를 2회 반복하여 실행한 경우를 도시하였으나, 반복 횟수(s)는 필요에 따라 조정 가능하다.
부호화 과정 이후에는 복호화 과정을 통해 원음과 동일한 차원을 가지는 신호를 도출하기 위해 밀집 블록(100)과 업(up)-전환 레이어(230)를 반복 실행한다. 이때, 도 2를 살펴보면 부호화부의 각 단계별 출력은 복호화부의 동일 계층의 출력에 연결되어, 스킵 커넥션(skip connection)을 제공한다.
복호화 과정의 최종 밀집 블록(1000-5)의 출력 벡터로부터 음악 신호만 분리하기 위하여 최종적으로 컨볼루션 및 다운샘플링(250)을 통해 입력 길이와 동일한 길이로 음악 신호와 대사 신호를 분리하여 추출한다.
최종 컨볼루션부(250)에서 수행되는 다운샘플링에서는 샘플의 크기를 절반으로 줄이기 위해, 영상 분야에서 흔히 사용되는 풀링(pooling) 방식을 사용하지 않고, 단순히 한 샘플을 취하고 다음 샘플은 버리는 방식을 반복하여 수행한다. 이는 샘플의 연속성을 훼손하거나 음원의 왜곡을 최소화하기 위함이다.
도 3은 본 발명에 적용되는 밀집 블록의 개념도이다.
밀집 블록(dense block)은 k개의 초기 특징맵과 L개의 컨볼루션 계층으로 구성된다. 도 3에서는 계층 L=3인 경우의 밀집 블록을 나타내고 있으며, 하나의 화살표가 하나의 컨볼루션 계층을 나타낸다. 도 3에서 입력 벡터(31)는 세로 축이 입력 신호의 차원, 가로 축이 특징맵의 개수를 나타낸다. 밀집 블록은 입력 신호를 컨볼루션하되 다음 컨볼루션의 입력으로 직전 컨볼루션의 출력을 연결할 뿐 아니라, 초기 입력부터 이전의 모든 컨볼루션의 출력을 모두 다음 컨볼루션의 입력으로 연결한다. 이는 학습 과정을 더 원활하게 하는 데에 도움을 주고, 더 적은 파라미터만으로 유사한 성능을 얻을 수 있도록 하는 효과가 있다.
밀집 블록은 부호화 단계인 다운샘플링(downsampling) 과정과 복호화 단계인 업샘플링(upsampling) 과정에 모두 사용될 수 있는 블록이다. 밀집 블록에 포함된 컨볼루션 시 커널 크기는 서로 다르게 설정할 수 있다. L도 계층에 따라 서로 다르게 설정할 수 있다. 일 실시예로 s(밀집 블록 및 전환 레이어의 반복 횟수)가 6인 경우 L = [4, 8, 12, 16, 20, 24]로 설정할 수 있다.
도 4는 본 발명의 일 실시예에 따른 컨볼루션 블록도이다.
도 4에 도시된 컨볼루션 블록은 예를 들어, 도 2에 도시된 신호 전처리부 또는 최종 컨볼루션부, 및 밀집 블록 등에서 사용될 수 있다.
본 발명의 일 실시예에 따른 컨볼루션 블록은 컨볼루션을 수행하기 이전에 배치 정규화(batch normalization)(410) 및 ReLU(Rectified Linear Unit) 활성화 함수(420)를 적용한 후 초기 컨볼루션 단계와 동일한 변수를 가지는 1차원 컨볼루션(430)을 수행한다.
배치는 전체 학습 데이터 중 학습시마다 랜덤으로 선택되는 일부 데이터로 이해될 수 있으며, 배치 정규화는 신경망의 각 레이어에서 배치의 분포를 정규화하는 작업이다. 본 발명의 일 실시예에서는 컨볼루션 블록에 활용되는 활성화 함수 로서 ReLU 함수를 사용할 수 있다. ReLU 함수 입력이 0을 초과하면 그 입력을 그대로 출력하고, 입력이 0 이하이면 0을 출력하는 함수이다.
도 5는 본 발명의 일 실시예에 따른 다운-전환 레이어의 개념도이다.
도 5를 참조하면, 다운-전환 레이어 단계에서는 밀집 블록에 의한 처리를 통해 늘어난 특징맵의 개수를 줄이는 1x1 컨볼루션(S510)을 수행한다. 이때 개수를 줄이는 비율(
Figure pat00001
)에 따라 이전 입력의 특징맵 개수를 줄일 수 있다. 이때,
Figure pat00002
는 0 내지 1 사이의 값을 가질 수 있다. 이후, 다운샘플링 단계(S610)를 통해 특징맵의 개수와 입력 신호의 길이를 줄인다.
도 6은 본 발명의 일 실시예에 따른 업-전환 레이어의 개념도이다.
도 6을 참조하면, 업-전환 레이어 단계에서도 다운-전환 레이어와 동일하게 입력으로 들어온 밀집 블록 출력의 특징맵(61)의 개수를 줄이는 1x1 컨볼루션(S610)을 수행한다. 이후 업샘플링 단계(S620)를 통해 입력 신호의 길이를 2배로 늘인다.
업샘플링을 위하여 영상 분야에서 흔히 쓰이는 전치된 컨볼루션(transposed convolution) 방식을 사용하는 경우 샘플 사이에 0을 추가하여 컨볼루션을 수행하게 되는데 이때 임의로 추가된 0으로 인해 고주파 성분을 갖는 왜곡이 생성된다. 음악 신호는 영상 신호와 다르게 한 샘플의 왜곡으로 인해 고주파 성분의 왜곡이 쉽게 생성되므로, 본 발명에서는 이를 방지하기 위하여 왜곡을 줄이되 업샘플링이 가능하도록 양선형 크기조정(bilinear resize)를 수행한다. 다운-전환 레이어에서 줄어든 길이만큼 업-전환 레이어 단계를 통해 특징 벡터의 길이를 늘임으로써 네트워크를 모두 통과한 후에도 초기 입력의 길이를 유지할 수 있도록 한다.
다시 도 2로 돌아가 최종 컨볼루션(250)에서는 입력된 신호와 동일한 길이의 출력을 음원의 개수만큼 추출한다.
예를 들어, 입력된 신호의 길이가
Figure pat00003
개의 샘플로 이루어져 있고, 분리의 대상이 되는 음원을 배경 음악과 배경 음악이 아닌 부분의 둘로 나누는 것이 목적이라고 하는 경우, 네트워크의 최종 출력은
Figure pat00004
가 된다. 즉,
Figure pat00005
개의 샘플로 이루어진 배경 음악 부분과
Figure pat00006
개의 샘플로 이루어진 비 배경 음악 부분이 출력된다.
한편, 컨볼루션 신경망을 학습시키기 위한 손실 함수 L(x,y)는 아래 수학식 1과 같다.
Figure pat00007
수학식 1에서,
Figure pat00008
는 본 발명에서 제안하는 컨볼루션 신경망,
Figure pat00009
는 혼합된 입력 신호이며
Figure pat00010
는 음악인 신호
Figure pat00011
과 음악이 아닌 신호
Figure pat00012
를 연결하여 나타낼 수 있다. 즉, 본 발명에 따른 컨볼루션 신경망은, 입력 신호를 분리한 결과와 혼합 신호를 이루는 각 음원과의 차를 최소로 하는 네트워크로 학습된다.
본 발명의 또 다른 일 실시예로 음악에서 악기별로 분리하는 경우에,
Figure pat00013
는 분리하고자 하는 악기 개수만큼의 신호를 연결하고,
Figure pat00014
역시 동일한 악기 개수만큼의 특징맵을 가지는 신호를 출력하게 된다.
본 발명은 종래 기술과 다르게 입력 신호를 이후 모든 컨볼루션 계층에 연결하는 형태를 이용해 적은 파라미터만으로도 더욱 우수한 성능을 낼 수 있다.
도 7은 본 발명의 일 실시예에 따른 컨볼루션 신경망 기반 음원 분리 방법의 순서도이다.
본 발명의 일 실시예에 따른 컨볼루션 신경망 기반 음원 분리 방법은, 위상 정보를 포함하는 모노 음원 오디오 신호를 입력으로 수신하여 복수의 신호로 분리한다.
보다 구체적으로, 입력되는 오디오 신호에 대해 초기 컨볼루션 및 다운샘플링을 수행한다(S710). 이때, 오디오 신호는 모노 음원의 혼합 신호, 즉 음성, 음악, 노이즈 등을 포함하는 신호일 수 있다.
초기 컨볼루션 및 다운샘플링이 완료된 오디오 신호에 대해서는, 하나 이상의 제1 밀집 블록 및 하나 이상의 다운-전환 레이어를 이용해 입력 신호를 부호화한다(S720). 여기서, 다운-전환 레이어는, 각각의 제1 밀집 블록이 출력하는 특징맵의 개수를 감소시키는 컨볼루션; 및 제1 밀집 블록이 출력하는 상기 특징맵의 개수를 감소시키는 컨볼루션이 출력하는 특징맵에 대한 다운샘플링을 포함할 수 있다.
부호화 과정이 완료되면, 하나 이상의 제2 밀집 블록 및 하나 이상의 업-전환 레이어를 이용해 부호화된 신호를 복호화한다(S730). 상기 업-전환 레이어는, 각각의 제2 밀집 블록이 출력하는 특징맵의 개수를 감소시키는 컨볼루션; 및 제2 밀집 블록이 출력하는 상기 특징맵의 개수를 감소시키는 컨볼루션이 출력하는 특징맵에 대한 업샘플링을 포함할 수 있다.
여기서, 상기 업샘플링은, 상기 다운-전환 레이어를 통해 줄어든 특징 벡터의 길이만큼 상기 특징 벡터의 길이를 늘임으로써 초기 특징맵의 초기 입력의 길이를 유지하도록 수행될 수 있다. 업샘플링은 양선형 크기조정(bilinear resize)을 통해 수행될 수 있다.
한편, 제1 밀집 블록의 출력은 대응하는 업-전환 레이어의 출력에 연결된다.
또한, 상기 제1 밀집 블록 및 제2 밀집 블록은 입력되는 초기 특징맵에 대해 수행되는 하나 이상의 컨볼루션을 포함하되, 상기 초기 특징맵에 대한 제1 컨볼루션의 결과와 상기 초기 특징맵을 연결(concatenation)한 값이 제2 컨볼루션의 입력으로 제공된다.
복호화된 신호에 대해서는 최종 컨볼루션 및 크기 조정을 수행하고(S740), 각각의 특징맵을 포함하는 복수의 신호를 출력한다(S750).
한편, 상기 초기 컨볼루션, 상기 최종 컨볼루션, 상기 제1 밀집 블록에 포함된 컨볼루션, 및 상기 제2 밀집 블록에 포함된 컨볼루션은, 배치의 분포를 정규화하는 배치 정규화; 활성화 함수; 및 1차원 컨볼루션을 포함할 수 있다.
도 8은 본 발명의 일 실시예에 따른 컨볼루션 신경망 기반 음원 분리 장치의 블록 구성도이다.
본 발명의 일 실시예에 따른 음원 분리 장치는, 적어도 하나의 프로세서(810), 상기 프로세서를 통해 실행되는 적어도 하나의 명령을 저장하는 메모리(820) 및 네트워크와 연결되어 통신을 수행하는 송수신 장치(830)를 포함할 수 있다.
음원 분리 장치(800)는 또한, 입력 인터페이스 장치(840), 출력 인터페이스 장치(850), 저장 장치(860) 등을 더 포함할 수 있다. 초해상도 영상 생성 장치(800)에 포함된 각각의 구성 요소들은 버스(bus)(870)에 의해 연결되어 서로 통신을 수행할 수 있다.
프로세서(810)는 메모리(820) 및 저장 장치(860) 중에서 적어도 하나에 저장된 프로그램 명령(program command)을 실행할 수 있다. 프로세서(810)는 중앙 처리 장치(central processing unit, CPU), 그래픽 처리 장치(graphics processing unit, GPU), 또는 본 발명의 실시예들에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 메모리(820) 및 저장 장치(860) 각각은 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(820)는 읽기 전용 메모리(read only memory, ROM) 및 랜덤 액세스 메모리(random access memory, RAM) 중에서 적어도 하나로 구성될 수 있다.
여기서, 적어도 하나의 명령은, 상기 프로세서로 하여금, 입력되는 오디오 신호에 대해 초기 컨볼루션 및 다운샘플링을 수행하도록 하는 명령; 하나 이상의 제1 밀집 블록 및 하나 이상의 다운-전환 레이어를 이용해 입력 신호를 부호화하도록 하는 명령; 하나 이상의 제2 밀집 블록 및 하나 이상의 업-전환 레이어를 이용해 부호화된 신호를 복호화하도록 하는 명령; 및 상기 복호화된 신호에 대해 최종 컨볼루션 및 크기 조정을 수행하도록 하는 명령을 포함할 수 있다.
이때, 오디오 신호는 모노 음원의 혼합 신호, 즉 음성, 음악, 노이즈 등을 포함하는 신호일 수 있다. 제1 밀집 블록의 출력은 대응하는 업-전환 레이어의 출력에 연결될 수 있다.
또한, 상기 제1 밀집 블록 및 제2 밀집 블록은 입력되는 초기 특징맵에 대해 수행되는 하나 이상의 컨볼루션을 포함하되, 상기 초기 특징맵에 대한 제1 컨볼루션의 결과와 상기 초기 특징맵을 연결(concatenation)한 값이 제2 컨볼루션의 입력으로 제공될 수 있다.
또한, 다운-전환 레이어는, 각각의 제1 밀집 블록이 출력하는 특징맵의 개수를 감소시키는 컨볼루션; 및 제1 밀집 블록이 출력하는 상기 특징맵의 개수를 감소시키는 컨볼루션이 출력하는 특징맵에 대한 다운샘플링을 포함할 수 있다.
한편, 상기 초기 컨볼루션, 상기 최종 컨볼루션, 상기 제1 밀집 블록에 포함된 컨볼루션, 및 상기 제2 밀집 블록에 포함된 컨볼루션은, 배치의 분포를 정규화하는 배치 정규화; 활성화 함수; 및 1차원 컨볼루션을 포함할 수 있다.
본 발명의 실시예에 따른 방법의 동작은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 프로그램 또는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산 방식으로 컴퓨터로 읽을 수 있는 프로그램 또는 코드가 저장되고 실행될 수 있다.
또한, 컴퓨터가 읽을 수 있는 기록매체는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다. 프로그램 명령은 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
본 발명의 일부 측면들은 장치의 문맥에서 설명되었으나, 그것은 상응하는 방법에 따른 설명 또한 나타낼 수 있고, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 상응한다. 유사하게, 방법의 문맥에서 설명된 측면들은 또한 상응하는 블록 또는 아이템 또는 상응하는 장치의 특징으로 나타낼 수 있다. 방법 단계들의 몇몇 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이용하여) 수행될 수 있다. 몇몇의 실시예에서, 가장 중요한 방법 단계들의 하나 이상은 이와 같은 장치에 의해 수행될 수 있다.
이상 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims (20)

  1. 위상 정보를 포함하는 모노 음원 오디오 신호를 입력으로 수신하여 복수의 신호로 분리하는 방법으로서,
    입력되는 상기 오디오 신호에 대해 초기 컨볼루션 및 다운샘플링을 수행하는 단계;
    하나 이상의 제1 밀집 블록 및 하나 이상의 다운-전환 레이어를 이용해 입력 신호를 부호화하는 단계;
    하나 이상의 제2 밀집 블록 및 하나 이상의 업-전환 레이어를 이용해 부호화된 신호를 복호화하는 단계; 및
    복호화된 신호에 대해 최종 컨볼루션 및 크기 조정을 수행하는 단계를 포함하는, 음원 분리 방법.
  2. 청구항 1에 있어서,
    상기 제1 밀집 블록의 출력은 대응하는 업-전환 레이어의 출력에 연결되는, 음원 분리 방법.
  3. 청구항 1에 있어서,
    상기 제1 밀집 블록 및 제2 밀집 블록은,
    입력되는 초기 특징맵에 대해 수행되는 하나 이상의 컨볼루션을 포함하되,
    상기 초기 특징맵에 대한 제1 컨볼루션의 결과와 상기 초기 특징맵을 연결(concatenation)한 값이 제2 컨볼루션의 입력으로 제공되는, 음원 분리 방법.
  4. 청구항 1에 있어서,
    상기 다운-전환 레이어는,
    각각의 제1 밀집 블록이 출력하는 특징맵의 개수를 감소시키는 컨볼루션; 및
    제1 밀집 블록이 출력하는 상기 특징맵의 개수를 감소시키는 컨볼루션이 출력하는 특징맵에 대한 다운샘플링을 포함하는, 음원 분리 방법.
  5. 청구항 1에 있어서,
    상기 업-전환 레이어는,
    각각의 제2 밀집 블록이 출력하는 특징맵의 개수를 감소시키는 컨볼루션; 및
    제2 밀집 블록이 출력하는 상기 특징맵의 개수를 감소시키는 컨볼루션이 출력하는 특징맵에 대한 업샘플링을 포함하는, 음원 분리 방법.
  6. 청구항 5에 있어서,
    상기 업샘플링은,
    상기 다운-전환 레이어를 통해 줄어든 특징 벡터의 길이만큼 상기 특징 벡터의 길이를 늘임으로써 초기 특징맵의 초기 입력의 길이를 유지하도록 수행되는, 음원 분리 방법.
  7. 청구항 5에 있어서,
    상기 업샘플링은 양선형 크기조정(bilinear resize)을 통해 수행되는, 음원 분리 방법.
  8. 청구항 1에 있어서,
    상기 초기 컨볼루션, 상기 최종 컨볼루션, 상기 제1 밀집 블록에 포함된 컨볼루션, 및 상기 제2 밀집 블록에 포함된 컨볼루션은,
    배치의 분포를 정규화하는 배치 정규화;
    활성화 함수; 및
    1차원 컨볼루션을 포함하는, 음원 분리 방법.
  9. 청구항 1에 있어서,
    상기 최종 컨볼루션 및 업샘플링을 수행한 결과로서 상기 복수의 부분 중 각 부분에 대한 특징맵을 포함하는 복수의 신호를 출력하는 단계를 더 포함하는, 음원 분리 방법.
  10. 청구항 1에 있어서,
    상기 복호화된 신호에 대한 크기 조정은,
    제1 샘플을 취하고 상기 제1 샘플에 후속하는 제2 샘플은 버리는 방식을 통해 수행되는, 음원 분리 방법.
  11. 위상 정보를 포함하는 모노 음원 오디오 신호를 입력으로 수신하여 복수의 신호로 분리하는 음원 분리 장치로서,
    프로세서; 및
    상기 프로세서를 통해 실행되는 적어도 하나의 명령을 저장하는 메모리를 포함하고,
    상기 적어도 하나의 명령은,
    입력되는 상기 오디오 신호에 대해 초기 컨볼루션 및 다운샘플링을 수행하도록 하는 명령;
    하나 이상의 제1 밀집 블록 및 하나 이상의 다운-전환 레이어를 이용해 입력 신호를 부호화하도록 하는 명령;
    하나 이상의 제2 밀집 블록 및 하나 이상의 업-전환 레이어를 이용해 부호화된 신호를 복호화하도록 하는 명령; 및
    복호화된 신호에 대해 최종 컨볼루션 및 크기 조정을 수행하도록 하는 명령을 포함하는, 음원 분리 장치.
  12. 청구항 11에 있어서,
    상기 제1 밀집 블록의 출력은 대응하는 업-전환 레이어의 출력에 연결되는, 음원 분리 장치.
  13. 청구항 11에 있어서,
    상기 제1 밀집 블록 및 제2 밀집 블록은 입력되는 초기 특징맵에 대해 하나 이상의 컨볼루션을 수행하되,
    상기 초기 특징맵에 대한 제1 컨볼루션의 결과와 상기 초기 특징맵을 연결(concatenation)한 값이 제2 컨볼루션의 입력으로 제공되는, 음원 분리 장치.
  14. 청구항 11에 있어서,
    상기 다운-전환 레이어는,
    각각의 제1 밀집 블록이 출력하는 특징맵의 개수를 감소시키는 컨볼루션; 및
    제1 밀집 블록이 출력하는 상기 특징맵의 개수를 감소시키는 컨볼루션이 출력하는 특징맵에 대한 다운샘플링을 포함하는, 음원 분리 장치.
  15. 청구항 11에 있어서,
    상기 업-전환 레이어는,
    각각의 제2 밀집 블록이 출력하는 특징맵의 개수를 감소시키는 컨볼루션; 및
    제2 밀집 블록이 출력하는 상기 특징맵의 개수를 감소시키는 컨볼루션이 출력하는 특징맵에 대한 업샘플링을 포함하는, 음원 분리 장치.
  16. 청구항 15에 있어서,
    상기 업샘플링은,
    상기 다운-전환 레이어를 통해 줄어든 특징 벡터의 길이만큼 상기 특징 벡터의 길이를 늘임으로써 초기 특징맵의 초기 입력의 길이를 유지하도록 수행되는, 음원 분리 장치.
  17. 청구항 15에 있어서,
    상기 업샘플링은 양선형 크기조정(bilinear resize)을 통해 수행되는, 음원 분리 장치.
  18. 청구항 11에 있어서,
    상기 초기 컨볼루션, 상기 최종 컨볼루션, 상기 제1 밀집 블록에 포함된 컨볼루션, 및 상기 제2 밀집 블록에 포함된 컨볼루션은,
    배치 정규화;
    ReLU 액티베이션 함수; 및
    1차원 컨볼루션을 포함하는, 음원 분리 장치.
  19. 청구항 11에 있어서,
    상기 적어도 하나의 명령은,
    상기 최종 컨볼루션 및 업샘플링을 수행한 결과로서 상기 복수의 부분 중 각 부분에 대한 특징맵을 포함하는 복수의 신호를 출력하도록 하는 명령을 더 포함하는, 음원 분리 장치.
  20. 청구항 11에 있어서,
    상기 복호화된 신호에 대한 크기 조정은,
    제1 샘플을 취하고 상기 제1 샘플에 후속하는 제2 샘플은 버리는 방식을 통해 수행되는, 음원 분리 장치.
KR1020190131439A 2019-10-22 2019-10-22 컨볼루션 신경망 기반 음원 분리 방법 및 장치 KR20210047614A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190131439A KR20210047614A (ko) 2019-10-22 2019-10-22 컨볼루션 신경망 기반 음원 분리 방법 및 장치
US17/032,995 US20210120355A1 (en) 2019-10-22 2020-09-25 Apparatus and method for audio source separation based on convolutional neural network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190131439A KR20210047614A (ko) 2019-10-22 2019-10-22 컨볼루션 신경망 기반 음원 분리 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20210047614A true KR20210047614A (ko) 2021-04-30

Family

ID=75491716

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190131439A KR20210047614A (ko) 2019-10-22 2019-10-22 컨볼루션 신경망 기반 음원 분리 방법 및 장치

Country Status (2)

Country Link
US (1) US20210120355A1 (ko)
KR (1) KR20210047614A (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11929086B2 (en) * 2019-12-13 2024-03-12 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for audio source separation via multi-scale feature learning
KR20230148579A (ko) 2022-04-18 2023-10-25 한국전자통신연구원 머신 비전을 위한 영상 압축 방법 및 장치
CN115691541B (zh) * 2022-12-27 2023-03-21 深圳元象信息科技有限公司 语音分离方法、装置及存储介质

Also Published As

Publication number Publication date
US20210120355A1 (en) 2021-04-22

Similar Documents

Publication Publication Date Title
CN112289333B (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
US10008218B2 (en) Blind bandwidth extension using K-means and a support vector machine
JP5127754B2 (ja) 信号処理装置
KR20210047614A (ko) 컨볼루션 신경망 기반 음원 분리 방법 및 장치
Biswas et al. Audio codec enhancement with generative adversarial networks
CN112634920A (zh) 基于域分离的语音转换模型的训练方法及装置
CN112712812A (zh) 音频信号生成方法、装置、设备以及存储介质
JP3660937B2 (ja) 音声合成方法および音声合成装置
CN111465982A (zh) 信号处理设备和方法、训练设备和方法以及程序
US20230178084A1 (en) Method, apparatus and system for enhancing multi-channel audio in a dynamic range reduced domain
WO2022078634A1 (en) Audio generator and methods for generating an audio signal and training an audio generator
US20230093726A1 (en) Deep learning segmentation of audio using magnitude spectrogram
WO2020175530A1 (ja) データ変換学習装置、データ変換装置、方法、及びプログラム
CN115602165A (zh) 基于金融系统的数字员工智能系统
CN115691539A (zh) 基于视觉导引的两阶段语音分离方法及系统
CN111462736B (zh) 基于语音的图像生成方法、装置和电子设备
JP5443547B2 (ja) 信号処理装置
EP2489036B1 (en) Method, apparatus and computer program for processing multi-channel audio signals
US20220108711A1 (en) Deep learning segmentation of audio using magnitude spectrogram
CN110544472B (zh) 提升使用cnn网络结构的语音任务的性能的方法
US20230360665A1 (en) Method and apparatus for processing audio for scene classification
CN115315747A (zh) 信号处理装置、方法和程序
CN116705056A (zh) 音频生成方法、声码器、电子设备及存储介质
Xu et al. A multi-scale feature aggregation based lightweight network for audio-visual speech enhancement
CN115035904A (zh) 一种基于生成式对抗神经网络的高质量声码器模型

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
E902 Notification of reason for refusal
X601 Decision of rejection after re-examination