KR102393948B1

KR102393948B1 - 다채널 오디오 신호에서 음원을 추출하는 장치 및 그 방법

Info

Publication number: KR102393948B1
Application number: KR1020170169666A
Authority: KR
Inventors: 임우택; 백승권
Original assignee: 한국전자통신연구원
Priority date: 2017-12-11
Filing date: 2017-12-11
Publication date: 2022-05-04
Also published as: US10552711B2; US20190180142A1; KR20190069198A

Abstract

다채널 오디오 신호에서 음원을 추출하는 장치 및 그 방법이 개시된다. 음원 추출 방법은 다채널 오디오 신호를 2차원 데이터로 변환하는 단계; 적어도 하나의 레이어로 구성된 컨벌루션 신경망에 상기 2차원 데이터를 입력하여 복수의 특징 맵들을 추출하는 단계; 및 상기 특징 맵들을 이용하여 상기 다채널 오디오 신호에서 음원을 추출하는 단계를 포함할 수 있다.

Description

다채널 오디오 신호에서 음원을 추출하는 장치 및 그 방법{APPARATUS AND METHOD FOR EXTRACTING SOUND SOURCES FROM MULTI-CHANNEL AUDIO SIGNALS}

본 발명은 다채널 오디오 신호에서 음원을 추출하는 장치 및 방법에 관한 것이다.

음원 추출 기술은 복수의 음원이 혼합된 다채널 오디오 신호로부터 1개 이상의 혼합 전 오디오 신호를 추출하는 기술이다.

음원 추출 기술은 원본 오디오 신호에서 음성 음원만을 분리해서 이를 음성 강화와 같은 분야에 활용하거나, 반대로 음원을 제거하고 남은 신호를 활용해서 노래방 반주 신호와 같은 분야에 활용하기 위하여 사용될 수 있다.

종래의 음원 추출 방법인 센터 채널 추출 방법은 센터 채널 추출 방법은 양 스테레오 채널간의 음량 차이와 위상 차이 정보를 이용하여 음원을 추출할 수 있다. 구체적으로, 센터 채널 추출 방법은 STFT 과정을 통해 변환된 오디오 신호 중 주파수와 시간 축에서 신호 성분 각각의 연산을 통해 양 채널의 음량, 위상의 차이를 계산할 수 있다. 그리고, 계산 결과와 미리 정해진 기준 값을 이용하여 센터 채널의 신호를 추출할 수 있다.

이러한 시간-주파수 영역 신호의 기준 값 기반의 음원 추출 방법은 미리 정해 둔 기준값을 이용하여 음원을 추출하고 있으므로, 추출하지 못한 센터 음원의 성분이 존재하거나 센터 음원을 추출하는 과정에서 주변 음원들이 포함될 수 있다는 문제가 있었다.

따라서, 복수의 채널에 공통적으로 존재하거나 독립적으로 존재하는 주요한 객체 오디오 신호를 추출하는 방법이 요청되고 있다.
[선행문헌]
한국 공개특허 제2009-0037845호

본 발명은 복수의 오디오 채널들에서 컨벌루션 과정을 통해 각각 추출 된 특징 맵들의 공통 성분, 또는 독립 성분을 이용하여 다채널 오디오 신호에서 음원을 추출하는 장치 및 방법을 제공할 수 있다.

본 발명의 일실시예에 따른 음원 추출 방법은 다채널 오디오 신호를 2차원 데이터로 변환하는 단계; 적어도 하나의 레이어로 구성된 컨벌루션 신경망에 상기 2차원 데이터를 입력하여 복수의 특징 맵들을 추출하는 단계; 및 상기 특징 맵들을 이용하여 상기 다채널 오디오 신호에서 음원을 추출하는 단계를 포함할 수 있다.

본 발명의 일실시예에 따른 음원 추출 방법의 2차원 데이터로 변환하는 단계는, 상기 다채널 오디오 신호를 프레임 단위로 분석하고, 분석 결과에 따라 다채널 오디오 신호를 2차원 데이터로 변환할 수 있다.

본 발명의 일실시예에 따른 음원 추출 방법의 컨벌루션 신경망은, 2차원 데이터로 변환된 다채널 오디오 신호의 채널들 각각에서 특징 맵을 추출하고, 복수의 채널들에서 추출한 특징 맵을 병합하여 출력할 수 있다.

본 발명의 일실시예에 따른 음원 추출 방법의 음원을 추출하는 단계는, 상기 특징 맵들 간의 연산을 수행하여 상기 특징 맵들에 공통적으로 포함된 주요 성분을 예측하고, 예측한 주요 성분에 따라 상기 다채널 오디오 신호에서 음원을 추출할 수 있다.

본 발명의 일실시예에 따른 음원 추출 방법의 음원을 추출하는 단계는, 상기 특징 맵들 간의 연산을 수행하여 상기 특징 맵들 중 하나의 채널에만 포함된 독립 음원을 예측하고, 상기 다채널 오디오 신호에서 예측한 독립 음원을 추출할 수 있다.

본 발명의 일실시예에 따른 음원 추출 장치는 다채널 오디오 신호를 2차원 데이터로 변환하여 컨벌루션 신경망에 입력하는 2차원 신호 변환부; 적어도 하나의 레이어로 구성되며, 상기 2차원 데이터에서 복수의 특징 맵들을 추출하는 컨벌루션 신경망; 및 상기 특징 맵들을 이용하여 상기 다채널 오디오 신호에서 음원을 추출하는 음원 추출부를 포함할 수 있다.

본 발명의 일실시예에 따른 음원 추출 장치의 2차원 신호 변환부는, 상기 다채널 오디오 신호를 프레임 단위로 분석하고, 분석 결과에 따라 다채널 오디오 신호를 2차원 데이터로 변환할 수 있다.

본 발명의 일실시예에 따른 음원 추출 장치의 컨벌루션 신경망은, 2차원 데이터로 변환된 다채널 오디오 신호의 채널들 각각에서 특징 맵을 추출하고, 복수의 채널들에서 추출한 특징 맵을 병합하여 출력할 수 있다.

본 발명의 일실시예에 따른 음원 추출 장치의 음원을 추출하는 단계는, 상기 특징 맵들 간의 연산을 수행하여 상기 특징 맵들에 공통적으로 포함된 주요 성분을 예측하고, 예측한 주요 성분에 따라 상기 다채널 오디오 신호에서 음원을 추출할 수 있다.

본 발명의 일실시예에 따른 음원 추출 장치의 음원을 추출하는 단계는, 상기 특징 맵들 간의 연산을 수행하여 상기 특징 맵들 중 하나의 채널에만 포함된 독립 음원을 예측하고, 상기 다채널 오디오 신호에서 예측한 독립 음원을 추출할 수 있다.

본 발명의 일실시예에 의하면, 복수의 오디오 채널들에서 컨벌루션 과정을 통해 각각 추출 된 특징 맵들의 공통 성분, 또는 독립 성분을 이용하여 다채널 오디오 신호에서 음원을 추출할 수 있다.

도 1은 본 발명의 일실시예에 따른 음원 추출 장치를 나타내는 도면이다.
도 2는 본 발명의 일실시예에 따른 음원 추출 과정의 일례이다.
도 3은 본 발명의 일실시예에 따른 병합 레이어의 일례이다.
도 4는 본 발명의 일실시예에 따른 음원 추출 방법을 도시한 플로우차트이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. 본 발명의 일실시예에 따른 음원 추출 방법은 음원 추출 장치에 의해 수행될 수 있다.

도 1은 본 발명의 일실시예에 따른 음원 추출 장치를 나타내는 도면이다.

음원 추출 장치(100)는 도 1에 도시된 바와 같이 2차원 신호 변환부(110), 컨벌루션 신경망(120) 및 음원 추출부(130)를 포함할 수 있다. 이때, 2차원 신호 변환부(110), 컨벌루션 신경망(120) 및 음원 추출부(130)는 서로 다른 프로세스, 또는 하나의 프로세스에 포함된 프로그램을 수행하기 위한 각각의 모듈일 수 있다.

2차원 신호 변환부(110)는 다채널 오디오 신호를 2차원 데이터로 변환하여 컨벌루션 신경망(120)에 입력할 수 있다. 이때, 2차원 신호 변환부(110)는 다채널 오디오 신호를 프레임 단위로 분석하고, 분석 결과에 따라 다채널 오디오 신호를 2차원 데이터로 변환할 수 있다. 예를 들어, 2차원 신호 변환부(110)는 FFT(Fast Fourier Transform), CQT(Constant Q Transform), Wavelet 중 하나를 이용하여 다채널 오디오 신호를 2차원 데이터로 변환할 수 있다. 또한, 2차원 신호 변환부(110)는 앞서 설명한 예시 이외에도 오디오 신호를 2차원 신호로 표현하는 방법 중 하나를 이용하여 다채널 오디오 신호를 2차원 데이터로 변환할 수 있다.

컨벌루션 신경망(convolutional neural network)(120)은 이미지 인식, 생성, 해석 분야에 주로 사용되고 있는 네트워크일 수 있다.

컨벌루션 신경망(120)은 적어도 하나의 레이어로 구성되며, 입력받은 2차원 데이터에 고정 된 마스크로 컨벌루션을 수행함으로써 복수의 특징 맵(feature map)들을 추출할 수 있다. 이때, 2차원 데이터의 크기는 프레임 길이, 주파수 해상도, 사용자 입력과 같은 복수의 조건에 따라 결정될 수 있다. 그리고, 컨벌루션 신경망(120)은 컨벌루션, 서브샘플링, Activation, Drop out, Softmax, 정규화와 같은 방법들 중 적어도 하나를 수행할 수 있다.

또한, 컨벌루션 신경망(120)은 2차원 데이터로 변환된 다채널 오디오 신호의 채널들 각각에서 특징 맵을 추출하고, 복수의 채널들에서 추출한 특징 맵을 병합하여 출력할 수 있다. 구체적으로, 컨벌루션 신경망(120)은 컨벌루션(Convolution) 동작과 서브 샘플링(Sub-Sampling) 동작을 번갈아 수행함으로써 각각의 레이어들을 구성할 수 있다. 그리고, 컨벌루션 신경망(120)은 레이어들을 이용하여 2차원 데이터에서 특징 맵들을 추출하며, 특징 맵들을 병합하여 오디오 신호에서 음원을 분류할 수 있다. 이때, 컨벌루션 신경망(120)은 2차원 데이터로 변환된 다채널 오디오 신호에서 엣지(edge) 성분을 추출하여 특징 맵을 생성할 수 있다. 이때, 다채널 오디오 신호에서 엣지 성분이 검출되는 영역은 음원의 성분이 존재하는 영역이므로, 2차원 데이터가 컨벌루션 신경망(120)을 통과하면, 음원의 주요 성분들이 존재하는 부분에서 특징 맵이 추출될 수 있다.

음원 추출부(130)는 컨벌루션 신경망(120)에서 추출된 특징 맵들을 이용하여 다채널 오디오 신호에서 음원을 추출할 수 있다. 이때, 음원 추출부(130)는 특징 맵들 간의 연산을 수행하여 특징 맵들에 공통적으로 포함된 주요 성분을 예측하고, 예측한 주요 성분에 따라 다채널 오디오 신호에서 음원을 추출할 수 있다.

또한, 음원 추출부(130)는 특징 맵들 간의 연산을 수행하여 특징 맵들 중 하나의 채널에만 포함된 독립 음원을 예측하고, 다채널 오디오 신호에서 예측한 독립 음원을 추출할 수 있다. 이때, 음원 추출부(130)가 수행하는 특징 맵들 간의 연산은 곱, 차이, 합 중 하나일 수 있다.

예를 들어 특징 맵들 간의 곱을 통해 주요 성분을 예측할 경우, 특징 맵들을 곱하여 생성된 병합 특징맵에서 주요 성분들은 독립 음원들에 비하여 상대적으로 큰 값을 가질 수 있다. 따라서, 음원 추출부(130)가 병합 특징 맵을 정규화한 후 복원하게 되면 병합 특징 맵의 각 성분들이 0~1 사이의 값을 가질 수 있다. 이때, 병합 특징 맵에서는 주요 성분이 1에 근사한 값을 갖게 되고, 독립 음원은 0에 근사한 값을 갖게 되므로 소프트 마스트(soft mask)와 같은 역할을 할 수 있다.

따라서, 음원 추출부(130)는 특징 맵들을 곱하여 생성된 병합 특징맵을 정규화한 후 복원함으로써, 주요 성분이 포함된 음원을 추출할 수 있다.

또한, 음원 추출부(130)는 특징 맵들을 곱하여 생성된 병합 특징맵에서 특정 임계 값 이상인 성분들을 주요 성분으로 판단하고 임계 값 이상의 성분만을 복원함으로써, 1과 0으로 구성된 특징 맵을 생성할 수 있다. 1과 0으로 구성된 특징 맵은 주요 성분이 1인 바이너리 마스트(binary mask)와 같은 역할을 할 수 있으므로, 음원 추출부(130)는 1과 0으로 구성된 특징 맵을 복원하여 주요 성분이 포함된 음원을 추출할 수 있다.

본 발명의 일실시예에 따른 음원 추출 장치(100)는 복수의 오디오 채널들에서 컨벌루션 과정을 통해 각각 추출 된 특징 맵들의 공통 성분, 또는 독립 성분을 이용하여 다채널 오디오 신호에서 음원을 추출할 수 있다. 도 2는 본 발명의 일실시예에 따른 음원 추출 과정의 일례이다.

2차원 신호 변환부(110)는 다채널 오디오 신호의 제1 프레임(210)을 분석하고, 분석 결과에 따라 채널 1의 2차원 데이터(211)를 컨벌루션 신경망(120)에 입력할 수 있다. 또한, 2차원 신호 변환부(110)는 다채널 오디오 신호의 제2 프레임(220)을 분석하고, 분석 결과에 따라 채널 2의 2차원 데이터(221)를 컨벌루션 신경망(120)에 입력할 수 있다.

컨벌루션 신경망(120)의 컨벌루션 레이어(200)는 채널 1의 2차원 데이터(211)에서 엣지 성분(212)을 추출하여 특징 맵(213)을 생성할 수 있다. 다음으로, 컨벌루션 레이어(200)는 특징 맵(213)에서 엣지 성분(214)을 추출하여 특징 맵(215)을 생성할 수 있다.

또한, 컨벌루션 레이어(200)는 채널 2의 2차원 데이터(221)에서 엣지 성분(224)을 추출하여 특징 맵(223)을 생성할 수 있다. 다음으로, 컨벌루션 레이어(200)는 특징 맵(223)에서 엣지 성분(224)을 추출하여 특징 맵(225)을 생성할 수 있다.

그리고, 컨벌루션 레이어(200)는 특징 맵(215)와 특징 맵(225)를 병합한 병합 특징 맵(merged feature map)(230)을 생성하여 출력할 수 있다.

이때, 음원 추출부(130)는 병합 특징 맵(230)에서 특징 맵(215)와 특징 맵(225)에 공통으로 포함된 성분들을 검색하여 음원(240)를 추출할 수 있다. 그리고, 추출한 음원(240)은 2차원 데이터이므로, 음원 추출부(130)는 추출한 음원(240)을 오디오 신호(250)로 변환하여 출력할 수 있다.

도 3은 본 발명의 일실시예에 따른 병합 레이어의 일례이다.

컨벌루션 신경망(120)에서 추출한 제1 특징 맵(310)과 제2 특징 맵(320)는 도 3에 도시된 바와 같이 복수의 특징들을 포함하고 있다. 그리고, 컨벌루션 신경망(120)에서 제1 특징 맵(310)과 제2 특징 맵(320)을 병합하여 생성되는 병합 특징 맵(330)은 제1 특징 맵(310)과 제2 특징 맵(320)에 각각 포함된 특징들 중 제1 특징 맵(310)과 제2 특징 맵(320)에 공통으로 포함된 특징(300)만을 포함할 수 있다.

따라서, 음원 추출부(130)는 병합 특징 맵(330)에 포함된 특징(300)을 검색함으로써, 제1 특징 맵(310)과 제2 특징 맵(320)에 공통으로 포함된 특징을 검색할 수 있다.

도 4는 본 발명의 일실시예에 따른 음원 추출 방법을 도시한 플로우차트이다.

단계(410)에서 2차원 신호 변환부(110)는 다채널 오디오 신호를 2차원 데이터로 변환할 수 있다. 이때, 2차원 신호 변환부(110)는 다채널 오디오 신호를 프레임 단위로 분석하고, 분석 결과에 따라 다채널 오디오 신호를 2차원 데이터로 변환할 수 있다.

단계(420)에서 2차원 신호 변환부(110)는 2차원 데이터를 컨벌루션 신경망(120)에 입력할 수 있다. 이때, 컨벌루션 신경망(120)은 입력받은 2차원 데이터에서 복수의 특징 맵들을 추출할 수 있다.

단계(430)에서 음원 추출부(130)는 특징 맵들 간의 연산을 수행하여 특징 맵들에 공통적으로 포함된 주요 성분, 또는 특징 맵들 중 하나의 채널에만 포함된 독립 음원을 예측할 수 있다.

단계(440)에서 음원 추출부(130)는 단계(430)에서 예측한 주요 성분, 또는 독립 음원에 따라 다채널 오디오 신호에서 음원을 추출할 수 있다.

본 발명은 복수의 오디오 채널들에서 컨벌루션 과정을 통해 각각 추출 된 특징 맵들의 공통 성분, 또는 독립 성분을 이용하여 다채널 오디오 신호에서 음원을 추출할 수 있다.

한편, 본 발명에 따른 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성되어 마그네틱 저장매체, 광학적 판독매체, 디지털 저장매체 등 다양한 기록 매체로도 구현될 수 있다.

본 명세서에 설명된 각종 기술들의 구현들은 디지털 전자 회로조직으로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어로, 또는 그들의 조합들로 구현될 수 있다. 구현들은 데이터 처리 장치, 예를 들어 프로그램가능 프로세서, 컴퓨터, 또는 다수의 컴퓨터들의 동작에 의한 처리를 위해, 또는 이 동작을 제어하기 위해, 컴퓨터 프로그램 제품, 즉 정보 캐리어, 예를 들어 기계 판독가능 저장 장치(컴퓨터 판독가능 매체) 또는 전파 신호에서 유형적으로 구체화된 컴퓨터 프로그램으로서 구현될 수 있다. 상술한 컴퓨터 프로그램(들)과 같은 컴퓨터 프로그램은 컴파일된 또는 인터프리트된 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있고, 독립형 프로그램으로서 또는 모듈, 구성요소, 서브루틴, 또는 컴퓨팅 환경에서의 사용에 적절한 다른 유닛으로서 포함하는 임의의 형태로 전개될 수 있다. 컴퓨터 프로그램은 하나의 사이트에서 하나의 컴퓨터 또는 다수의 컴퓨터들 상에서 처리되도록 또는 다수의 사이트들에 걸쳐 분배되고 통신 네트워크에 의해 상호 연결되도록 전개될 수 있다.

컴퓨터 프로그램의 처리에 적절한 프로세서들은 예로서, 범용 및 특수 목적 마이크로프로세서들 둘 다, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 다로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 요소들은 명령어들을 실행하는 적어도 하나의 프로세서 및 명령어들 및 데이터를 저장하는 하나 이상의 메모리 장치들을 포함할 수 있다. 일반적으로, 컴퓨터는 데이터를 저장하는 하나 이상의 대량 저장 장치들, 예를 들어 자기, 자기-광 디스크들, 또는 광 디스크들을 포함할 수 있거나, 이것들로부터 데이터를 수신하거나 이것들에 데이터를 송신하거나 또는 양쪽으로 되도록 결합될 수도 있다. 컴퓨터 프로그램 명령어들 및 데이터를 구체화하는데 적절한 정보 캐리어들은 예로서 반도체 메모리 장치들, 예를 들어, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 등을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로조직에 의해 보충되거나, 이에 포함될 수 있다.

또한, 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용매체일 수 있고, 컴퓨터 저장매체 및 전송매체를 모두 포함할 수 있다.

본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.

마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 장치 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 장치들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.

한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.

110: 2차원 신호 변환부
120: 컨벌루션 신경망
130: 음원 추출부

Claims

2차원 신호 변환부, 컨벌루션 신경망, 및 음원 추출부가 포함된 음원 추출 장치가 수행하는 음원 추출 방법에 있어서,
상기 2차원 신호 변환부가 다채널 오디오 신호를 2차원 데이터로 변환하는 단계;
상기 컨벌루션 신경망이 2차원 데이터로 변환된 다채널 오디오 신호의 채널들 각각에서 엣지 성분을 추출하여 각각의 특징 맵들을 생성하고, 생성한 특징 맵들을 병합한 병합 특징 맵(merged feature map)을 출력하는 단계; 및
상기 음원 추출부가 상기 병합 특징 맵에 포함된 성분을 검색하여 상기 다채널 오디오 신호에서 음원을 추출하는 단계
를 포함하는 음원 추출 방법.
제1항에 있어서,
상기 2차원 데이터로 변환하는 단계는,
상기 2차원 신호 변환부가 상기 다채널 오디오 신호를 프레임 단위로 분석하고, 분석 결과에 따라 다채널 오디오 신호를 2차원 데이터로 변환하는 음원 추출 방법.
삭제
제1항에 있어서,
상기 음원을 추출하는 단계는,
상기 음원 추출부가 상기 특징 맵들 간의 연산을 수행하여 상기 특징 맵들에 공통적으로 포함된 주요 성분을 예측하고, 예측한 주요 성분에 따라 상기 다채널 오디오 신호에서 음원을 추출하는 음원 추출 방법.
제1항에 있어서,
상기 음원을 추출하는 단계는,
상기 음원 추출부가 상기 특징 맵들 간의 연산을 수행하여 상기 특징 맵들 중 하나의 채널에만 포함된 독립 음원을 예측하고, 상기 다채널 오디오 신호에서 예측한 독립 음원을 추출하는 음원 추출 방법.
다채널 오디오 신호를 2차원 데이터로 변환하여 컨벌루션 신경망에 입력하는 2차원 신호 변환부;
2차원 데이터로 변환된 다채널 오디오 신호의 채널들 각각에서 엣지 성분을 추출하여 각각의 특징 맵들을 생성하고, 생성한 특징 맵들을 병합한 병합 특징 맵을 출력하는 컨벌루션 신경망; 및
상기 병합 특징 맵에 포함된 성분을 검색하여 상기 다채널 오디오 신호에서 음원을 추출하는 음원 추출부
를 포함하는 음원 추출 장치.
제6항에 있어서,
상기 2차원 신호 변환부는,
상기 다채널 오디오 신호를 프레임 단위로 분석하고, 분석 결과에 따라 다채널 오디오 신호를 2차원 데이터로 변환하는 음원 추출 장치.
삭제
제6항에 있어서,
상기 음원을 추출하는 단계는,
상기 특징 맵들 간의 연산을 수행하여 상기 특징 맵들에 공통적으로 포함된 주요 성분을 예측하고, 예측한 주요 성분에 따라 상기 다채널 오디오 신호에서 음원을 추출하는 음원 추출 장치.
제6항에 있어서,
상기 음원을 추출하는 단계는,
상기 특징 맵들 간의 연산을 수행하여 상기 특징 맵들 중 하나의 채널에만 포함된 독립 음원을 예측하고, 상기 다채널 오디오 신호에서 예측한 독립 음원을 추출하는 음원 추출 장치.