KR20230013054A

KR20230013054A - 심층 신경망을 사용하는 시변 및 비선형 오디오 처리

Info

Publication number: KR20230013054A
Application number: KR1020227043586A
Authority: KR
Inventors: 마르코 안토니오 마티네즈 라미레즈; 조슈아 다니엘 레이스; 엠마누일 베네토스
Original assignee: 퀸 메리 유니버시티 오브 런던
Priority date: 2020-05-12
Filing date: 2020-05-12
Publication date: 2023-01-26
Also published as: JP2023534364A; WO2021229197A1; US20230197043A1

Abstract

오디오 데이터를 처리하는 컴퓨터-구현 방법으로서, 상기 방법은 시계열 진폭 값들을 포함하는 입력 오디오 데이터(x)를 수신하는 단계 ; 상기 입력 오디오 데이터(x)를 상기 입력 오디오 데이터(x)의 입력 주파수 대역 분해(X1)로 변환하는 단계 ; 상기 입력 주파수 대역 분해(X1)를 제 1 잠재적 표현(Z)으로 변환하는 단계 ; 제 1 심층 신경망에 의해 상기 제 1 잠재적 표현(Z)을 처리하여 제 2 잠재적 표현(Z^, Z1^)을 획득하는 단계 ; 상기 제 2 잠재적 표현(Z^, Z1^)을 변환하여 이산 근사값(X3^)을 획득하는 단계 ; 상기 이산 근사값(X3^) 및 잔여 특징 맵(R, X5^)을 요소별로(element-wise) 곱하여 수정된 특징 맵을 획득하는 단계 ― 상기 잔여 특징 맵(R, X5^)은 상기 입력 주파수 대역 분해(X1)로부터 도출됨 ― ; 파형 성형 유닛에 의해 예비 성형된 주파수 대역 분해를 처리하여 파형 주파수 대역 분해(X1^, X1^)를 획득하는 단계 ― 상기 예비 성형된 주파수 대역 분해는 상기 입력 주파수 대역 분해(X1)로부터 도출되고, 상기 파형 성형 유닛은 제 2 심층 신경망을 포함함 ― ; 상기 파형 성형된 주파수 대역 분해(X1^, X1.2^) 및 수정된 주파수 대역 분해(X2^,X1.1^)를 합산하여 합산 출력(X0^)을 획득하는 단계 ― 상기 수정된 주파수 대역 분해(X2^,X1^ 1^)는 상기 수정된 특징 맵으로부터 도출됨― ; 및 상기 합산 출력(X0^)을 변환하여 타겟 오디오 데이터(y^)를 획득하는 단계를 포함한다.

Description

심층 신경망을 사용하는 시변 및 비선형 오디오 처리

본 발명은 오디오 처리, 특히 심층 신경망(deep neural networks)을 이용한 오디오 처리에 관한 것이다.

오디오 효과는 음악, 라이브 퍼포먼스, 텔레비전, 영화 또는 비디오 게임과 같은 다양한 매체에 널리 사용된다. 음악 제작의 맥락에서, 오디오 효과는 심미적 이유로 주로 사용되고, 일반적으로 음성 또는 악기 녹음의 다이나믹(dynamics), 공간감, 음색 또는 피치를 조작하는데 적용된다. 이러한 조작은 선형 또는 비선형, 시불변 또는 시변일 수 있고, 단기 또는 장기 메모리를 갖는 효과 유닛, 또는 오디오 프로세서를 통해 달성된다.

이들 효과의 대부분은 디지털 필터 및 딜레이 라인의 사용을 통해 디지털 도메인에서 직접 구현될 수 있다. 그럼에도 불구하고, 특정 효과 유닛 또는 아날로그 회로를 모델링하는 것 및 이들의 현저한 지각 품질이 아주 많이 연구되었고, 활성화 되어있다. 이는 종종 기계적 요소와 함께 인 이들의 아날로그 회로가 디지털로 완전히 모방하기 어려운 비선형 및 시변 시스템을 산출하기 때문이다.

오디오 효과를 모델링하는 방법은 주로 진공 튜브, 연산 증폭기 또는 트랜지스터와 같은 특정 아날로그 컴포넌트에 대한 회로 모델링 및 최적화를 수반한다. 이러한 오디오 프로세서는 쉽게 모델링되지 않고, 복잡한 맞춤형 디지털 신호 처리(DSP) 알고리즘을 필요로 한다. 이는 종종 특정 회로에 대해 너무 특정적이거나 또는 특정 비선형성 또는 컴포넌트를 모델링할 때 특정 가정을 행하는 모델을 필요로 한다. 따라서, 모델링되는 회로의 유형에 대한 전문 지식이 항상 필요하기 때문에, 이러한 모델은 상이한 효과 유닛에 쉽게 전달될 수 없다. 또한, 음악가는 아날로그 대응 장치를 선호하는 경향이 있는데, 이들의 디지털 구현이 아날로그 레퍼런스 장치의 광범위한 동작이 부족할 수 있기 때문이다.

오디오 효과의 모델링을 위한 공지된 기술을 개선할 필요가 일반적으로 존재한다.

오디오 데이터를 처리하는 컴퓨터 구현 방법이 개시되며, 상기 방법은 진폭 값들의 시계열을 포함하는 입력 오디오 데이터(x)를 수신하는 단계 ; 상기 입력 오디오 데이터(x)를 상기 입력 오디오 데이터(x)의 입력 주파수 대역 분해(X1)로 변환하는 단계 ; 상기 입력 주파수 대역 분해(X1)를 제 1 잠재적(latent) 표현(Z)으로 변환하는 단계 ; 제 2 잠재적 표현(Z^, Z1^)을 획득하기 위해 제 1 심층 신경망에 의해 상기 제 1 잠재적 표현(Z)을 처리하는 단계 ; 이산 근사값(X3^)을 획득하기 위해 상기 제 2 잠재적 표현(Z^, Z1^)을 변환하는 단계 ; 수정된 특징 맵을 획득하기 위해 상기 이산 근사값(X3^) 및 잔여 특징 맵(R, X5^)을 요소별로(element-wise) 곱하는 단계 ― 상기 잔여 특징 맵(R, X5^)은 상기 입력 주파수 대역 분해(X1)로부터 도출됨 ― ; 파형 주파수 대역 분해(X1^, X1^)를 획득하기 위해 파형 성형(waveshaping) 유닛에 의해 예비 성형된 주파수 대역 분해를 처리하는 단계 ― 상기 예비 성형(pre-shaped)된 주파수 대역 분해는 상기 입력 주파수 대역 분해(X1)로부터 도출되고, 상기 파형 성형 유닛은 제 2 심층 신경망을 포함함 ― ; 합산 출력(X0^)을 획득하기 위해 상기 파형 성형된 주파수 대역 분해(X1^, X1.2^) 및 수정된 주파수 대역 분해(X2^,X1.1^)를 합산하는 단계 ― 상기 수정된 주파수 대역 분해(X2^,X1.1^)는 상기 수정된 특징 맵으로부터 도출됨― ; 및 타겟 오디오 데이터(y^)를 획득하기 위해 상기 합산 출력(X0^)을 변환하는 단계를 포함한다.

선택적으로, 상기 입력 오디오 데이터(x)를 상기 입력 주파수 대역 분해(X1)로 변환하는 단계는 상기 입력 오디오 데이터(x)를 커널 매트릭스(W1)와 컨볼루션하는 단계를 포함한다.

선택적으로, 상기 타겟 오디오 데이터(y^)를 획득하기 위해 상기 합산 출력(X0^)을 변환하는 단계는 상기 합산 출력(X0^)을 상기 커널 매트릭스(W1T)의 전치와 컨볼루션하는 단계를 포함한다.

상기 입력 주파수 대역 분해(X1)를 상기 제 1 잠재적 표현(Z)으로 변환하는 단계는 특징 맵(X2)을 획득하기 위해 상기 입력 주파수 대역 분해(X1)의 절대값(|X1|)을 가중 매트릭스(W2)와 로컬-연결된 컨볼루션하는 단계; 및 상기 제 1 잠재적 표현(Z)을 획득하기 위해 선택적으로 상기 특징 맵(X2)을 최대-풀링(max-pooling)하는 단계를 포함한다.

선택적으로 상기 파형 성형 유닛은 상기 제 2 심층 신경망에 후속하는 로컬 연결된 평활 적응 활성화 함수층(a locally connected smooth adaptive activation function layer)을 더 포함한다.

선택적으로 상기 파형 성형 유닛은 상기 로컬 연결된 평활 적응 활성화 함수층에 후속하는 제 1 스퀴즈-및-여기층(a first squeeze-and-excitation layer)을 더 포함한다.

상기 파형 성형된 주파수 대역 분해(X1^,X1.2^) 및 상기 수정된 주파수 대역 분해(X2^,X1.1^) 중 적어도 하나는 상기 합산 출력(X0^)을 생성하기 위해 합산하기 전에 이득 팩터(se, se1, se2)에 의해 선택적으로 스케일링된다.

선택적으로, 상기 커널 행렬(W1) 및 상기 가중치 행렬(W2) 각각은 128개 보다 적은 필터, 선택적으로 32개보다 적은 필터, 선택적으로 8개 보다 적은 필터를 포함한다.

선택적으로 상기 제2 심층 신경망은 선택적으로 32, 16, 16 및 32개의 은닉 유닛을 각각 포함하는 제1 내지 제4 밀집 층(dense layers)을 포함하고, 선택적으로 상기 제2 심층 신경망의 상기 제1 내지 제3 밀집 층 각각은 하이퍼볼릭 탄젠트(tanh) 함수가 뒤따른다.

선택적으로 상기 파형 성형 유닛에서, 상기 제1 스퀴즈 및 여기층은 전역 평균 풀링 동작에 선행하는 절대값층을 포함한다.

상기 방법은 상기 잔류 특징 맵(R)으로서 상기 입력 주파수 대역 분해(X1)를 통과시키는 단계를 더 포함할 수 있다. 상기 방법은 상기 예비 성형된 주파수 대역 분해로서 상기 수정된 특징 맵을 통과시키는 단계를 더 포함할 수 있다. 상기 방법은 상기 수정된 주파수 대역 분해(X2^, X1.1^)로서 상기 수정된 특징 맵을 통과시키는 단계를 추가로 포함할 수 있다.

선택적으로 상기 제1 심층 신경망은 복수의 양방향 장단기 메모리층을 포함하고, 선택적으로 평활 적응 활성화 함수층이 뒤따른다.

선택적으로 상기 복수의 양방향 장단기 메모리층은 제1, 제2 및 제3 양방향 장단기 메모리층을 포함하고, 선택적으로 각각 64, 32 및 16개의 유닛을 포함한다.

선택적으로 상기 복수의 양방향 장단기 메모리층은 복수의 평활 적응 활성화 함수층이 뒤따르고, 각각은 -1 내지 +1 사이의 25개의 간격으로 선택적으로 구성된다.

선택적으로 상기 제1 심층 신경망은 복수의 층을 포함하는 피드포워드 웨이브넷을 포함하고, 선택적으로 상기 웨이브넷의 최종층은 완전 연결층이다.

선택적으로 상기 제1 심층 신경망은 복수의 공유된 양방향 장단기 메모리층을 포함하고, 병렬로, 제1 및 제2 독립적인 양방향 장단기 메모리층이 뒤따르고,

선택적으로 상기 제2 잠재적 표현(Z1^)은 상기 제1 독립적인 양방향 장단기 메모리층의 출력으로부터 도출된다. 선택적으로 상기 파형 성형 유닛에서, 상기 제1 스퀴즈 및 여기층은 장단기 메모리층을 추가로 포함한다. 선택적으로 상기 방법은, 상기 예비 성형된 주파수 대역 분해로서 상기 입력 주파수 대역 분해(X1)를 통과시키는 단계를 더 포함한다. 상기 방법은 상기 제2 독립적인 양방향 장단기 메모리층을 사용하여 상기 제1 잠재 표현(Z)을 처리하여 제3 잠재 표현(Z2^)을 획득하는 단계를 포함한다. 상기 방법은 희소 유한 임펄스 응답층을 사용하여 상기 제3 잠재 표현(Z2^)을 처리하여 제4 잠재 표현(Z3^)을 획득하는 단계를 더 포함할수도 있다. 상기 방법은 기 주파수 대역 표현(X1)을 상기 제4 잠재 표현(Z3^)과 컨볼루션하여 상기 잔류 특징 맵(X5^)을 획득하는 단계를 더 포함할 수 있다. 상기 방법은 상기 수정된 주파수 대역 분해(X2^, X1.1^)를 획득하기 위해 장단기 메모리층을 포함하는 제2 스퀴즈 및 여기층에 의해 상기 수정된 특징 맵을 처리하는 단계를 더 포함할 수 있다.

선택적으로 상기 복수의 공유된 양방향 장단기 메모리층은 각각 64 및 32 유닛을 포함하는 제1 및 제2 공유된 양방향 장단기 메모리 층을 포함하고, 선택적으로 상기 제1 및 제2 공유된 양방향 장단기 메모리층 각각은 탄젠트(tanh) 활성화 함수를 갖는다.

선택적으로 상기 희소 유한 임펄스 응답층은 상기 제3 잠재 표현(Z2^)을 입력으로서 취하는 제1 및 제2 독립적인 밀집 층을 포함한다. 상기 희소 임펄스 응답층은 상기 제1 및 제2 독립적인 밀집 층의 각각의 출력을 입력으로서 취하는 희소 텐서(a sparse tensor)를 더 포함할 수도 있고, 상기 희소 텐서의 출력은 상기 제4 잠재 표현(Z3^)이다. 선택적으로 상기 제1 및 제2 독립적인 밀집 층은 각각 하이퍼볼릭 탄젠트(tanh)함수 및 시그모이드(a sigmoid) 함수를 포함한다.

선택적으로 모든 컨볼루션(convolutions)은 시간 차원을 따르고 단위 값의 스트라이드(stride)를 갖는다.

선택적으로 상기 심층 신경망 중 적어도 하나는, 튜브 증폭기, 왜곡, 스피커-증폭기, 래더 필터, 전력 증폭기, 이퀄라이제이션, 이퀄라이제이션-및-왜곡, 컴프레서, 링 변조기, 페이저, 연산 트랜스컨덕턴스 증폭기에 기초한 변조, 버킷 브리가드 지연을 갖는 플랜지러, 버킷 브리가드 지연을 갖는 변조, 레슬리(Leslie) 스피커 혼, 레슬리(Leslie) 스피커 혼-및-우퍼, 플랜지러-및-코러스, 변조 기반, 변조 기반-및-컴프레서, 플레이트-및-스프링 잔향, 에코, 피드백 지연, 스랩백 지연, 테이프-기반 지연, 잡음-구동 확률론적 효과, 입력 신호 레벨에 기초한 동적 등화, 오디오 모핑, 음색 변환, 위상 보코더, 시간 스트레칭, 피치 시프팅, 시간 셔플링, 과립화, 3D 라우드스피커 셋업 모델링 및 룸 음향을 포함하는 그룹으로부터 선택된 하나 이상의 오디오 효과를 나타내는 데이터에 의존하여 트레이닝된다.

컴퓨터에 의해 프로그램이 실행될 때, 상기 컴퓨터로 하여금 상기 개시된 방법을 수행하게 하는 명령어들을 포함하는 컴퓨터 프로그램이 개시된다.

상기 컴퓨터 프로그램을 포함하는 컴퓨터 판독가능 저장 매체가 개시된다.

또한 상기 개시된 방법을 수행하도록 구성된 프로세서를 포함하는 오디오 데이터 처리 디바이스가 개시된다.

도 1.1: CAFx의 블록도; 적응 프론트-엔드, 합성 백-엔드 및 잠재적-공간 DNN
도 1.2: 피드포워드 웨이브넷의 블록도; 확장 컨볼루션 층들의 스택 및 후처리 블록.
도 2.0: 시변 및 비선형 오디오 효과를 모델링할 수 있는 CAFx 및 웨이브넷에 구축된 오디오 처리 아키텍처의 블록도.
도 2.1: CRAFx의 블록도; 적응 프론트-엔드. 잠재적-공간 Bi-LSTM 및 합성 백-엔드.
도 2.2: DNN-SAAF-SE의 블록도.
도 2.3: CWAFx의 블록도; 적응 프론트-엔드, 잠재적-공간 웨이브넷 및 합성 백 엔드.
도 2.4: 레슬리(Leslie) 스피커 태스크(우채널)에 대한 테스트 데이터세트로부터 선택된 샘플을 갖는 결과. 도 2.9a 및 도 2.9b 는 파형 및 이들의 각각의 변조 스펙트럼을 도시한다. 수직축은 각각 진폭 및 감마톤 중심 주파수(Hz)를 나타낸다.
도 3.1: 청취 테스트의 평가 결과를 도시하는 박스 플롯. 도 3.2a 프리앰프, 도 3.2b 리미터, 도 3.2c. 레슬리(Leslie) 스피커 혼-트레몰로(horn-tremolo), 도 3.2d 레슬리(Leslie) 스피커 우퍼-트레몰로(woofer-tremolo), 도 3.2e 레슬리(Leslie) 스피커 혼 코랄(horn chorale) 및 도 3.2f 레슬리(Leslie) 스피커 우퍼 코랄(woofer-chorale)
도 4.1: CSAFx의 블록 다이어그램. 적응 프론트-엔드 잠재적-공간 및 합성 백-엔드.
도 4.2: CSAFx의 잠재적 공간의 블록 다이어그램.
도 4.3: CSAFx의 합성 백-엔드의 블록 다이어그램.
도 4.4: 청취 테스트에 대한 평가 결과를 도시하는 박스 플롯. 상부로부터 하부로: 플레이트 및 스프링 반향 태스크.

구현 예들은 오디오 효과들을 모델링하기 위한 개선된 기술들을 제공한다.

최근에, 음악에 대한 심층 신경망(deep neural networks)(DNN)은 상당한 성장을 경험하였다. 대부분의 음악 애플리케이션들은 음악 정보 검색, 음악 추천, 및 음악 생성의 분야에 있다. 가공전(raw) 오디오가 시스템의 입력 및 출력 둘 다인 종단간 심층 학습 아키텍처들은 입력으로부터 출력으로 학습되어야 하는 단일의 보이지 않는 태스크로서 전체 문제가 취해질 수 있는 블랙-박스 모델링 접근법들을 따른다. 따라서, 원하는 출력은 입력되는 가공전 오디오를 직접 학습 및 처리함으로써 획득되고, 이는 요구되는 사전 지식의 양을 감소시키고 엔지니어링 노력을 최소화한다.

본 발명 이전에, 이러한 원리, 즉, 가공전 오디오를 직접 처리하는 것을 사용하는 심층 학습 아키텍처들은 오디오 효과 모델링과 같은 오디오 처리 태스크들에 대해 탐구되지 않았다.

그럼에도 불구하고 오디오 효과 모델링을 위한 DNN들은 최근에 떠오르는 필드가 되었고, 종단간 방법들로서 또는 오디오 프로세서들의 파라미터 추정기들로서 조사되었다. 대부분의 종단간 연구는 왜곡 효과들과 같은 단기 메모리를 갖는 비선형 오디오 프로세서들을 모델링하는 것에 초점을 맞추었다. 더욱이, 파라미터 추정에 기초한 방법들은 고정된 오디오 처리 아키텍처들에 기초한다. 결과적으로, 상이한 타입들의 오디오 효과 유닛들 사이의 일반화는 일반적으로 어렵다. 이러한 일반화의 결여는 상이한 타입들의 오디오 효과들의 넓은 특성을 고려할 때 강조되고, 그 중 일부는 모델링 방법들이 활성 화되어 있는 고도로 복잡한 비선형 및 시변 시스템들에 기초한다.

오디오 효과 모델링의 맥락에서 오디오 처리를 위한 범용 심층 학습 아키텍처가 개시된다. 따라서, 우리의 동기 부여는 모든 타입들의 오디오 효과들의 일반적인 블랙박스 모델링을 위한 오디오 처리 블록들로서 DNN들의 실현가능성을 입증하는 것이다. 이러한 방식으로, 임의의 오디오 프로세서가 주어지면, 신경망은 이러한 변환의 본질적인 특성들을 학습 및 적용할 수 있다. 아키텍처는 다양한 타입들의 오디오 효과들의 사운드, 거동, 및 메인 지각 특징들을 재생성할 수 있다. 디지털 오디오 효과들로부터의 도메인 지식과 함께 DNN들의 모델링 능력들에 기초하여 우리는 상이한 심층 학습 아키텍처들을 제안한다. 이러한 모델들은 레퍼런스 오디오 효과의 음파 및 지각 품질들과 매칭하는 오디오를 처리 및 출력할 수 있다. 본 개시내용 전반에 걸쳐, 우리는 객관적 지각-기반 평가지표들 및 주관적 청취 테스트들을 통해 모델들의 성능을 측정한다.

공보 I: "End-to-end equalization with convolutional neural networks." Mart

nez Ram

rez, M.A.; Reiss, J.D. In Proceedings of the 21st International Conference on Digital Audio Effects (DAFx-18), Aveiro, Portugal, 4-8 September 2018. http://dafx2018.web.ua.pt/papers/DAFx2018_paper_27.pdf. 참조에 의해 본 명세서에 포함되는 공보 I은 선형 오디오 효과의 종단간 블랙-박스 모델링을 위한 DNN인 컨볼루션 EQ 모델링 네트워크(CEQ)의 도출을 포함한다.

공보 II : "Modeling nonlinear audio effects with end-to-end deep neural networks." Mart

nez Ram

rez, M.A.; Reiss, J.D. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Brighton, UK, 12-17 May 2019. https://ieeexplore.ieee.org/document/8683529. 참조에 의해 본 명세서에 포함되는 공보 II 은 선형 오디오 효과의 종단간 블랙-박스 모델링을 위한 DNN인 컨볼루션 EQ 모델링 네트워크(CEQ)의 도출을 포함한다.

구현 예는 본 문서의 다음의 챕터에 상세히 설명된다.

1 - 비선형 오디오 효과 모델링

이 챕터에서, 왜곡 효과와 같은 훨씬 더 복잡한 변환을 모방하기 위해 공보 I 으로부터의 CEQ 모델링 네트워크를 구축한다. 따라서, CAFx: 단기 메모리를 갖는 비선형 및 선형 오디오 효과를 모델링하기 위한 새로운 딥 러닝 아키텍처를 도입한다. 또한, 본 발명자들은 또한 웨이브넷 아키텍처의 피드포워드 변형에 기초하여 비선형 모델링 네트워크를 제공한다.

왜곡 효과는 심미적 이유로 주로 사용되고 일반적으로 전기 악기에 적용된다. 비선형 모델링을 위한 대부분의 기존 방법은 종종 매우 특정한 회로에 대해 단순화되거나 최적화된다. 따라서, 이 챕터에서, 본 발명자들은 비선형 오디오 효과의 블랙-박스 모델링을 위한 범용 종단간 DNN 을 조사한다.

단기 메모리를 갖는 선형 및 비선형 오디오 효과의 임의의 조합에 대해, 모델은 타겟 오디오와 매칭하기 위해 오디오를 직접 처리하는 방법을 학습한다. 비선형성이 주어지면, x 및 y 는 각각 가공전 및 왜곡된 오디오 신호로 고려된다. 타겟 y와 매칭하는 y^ 를 획득하기 위해, 본 발명자들은 비선형 태스크에 기초하여 x 를 수정하기 위해 DNN 을 트레이닝한다.

본 발명자들은 비선형 시스템의 솔루션을 명시적으로 획득하지 않고 콘텐츠 기반 변환으로서 비선형 에뮬레이션을 제공한다. 본 발명자들은 CAFx, 컨볼루션 및 밀집층에 기초한 모델이 SAAFs 와 같은 적응적 활성화 기능을 포함할 수 있음을 보고한다. 이것은 SAAFs 를 명시적으로 트레이닝하여 비선형 모델링과 같은 오디오 처리 태스크에서 파형 성형기(waveshapers) 로서 작용하도록 한다. 따라서, 왜곡 효과는 그들의 웨이브셰이핑 비선형성에 의해 특징지어지기 때문에, 본 발명자들은 임의의 연속 함수를 근사화할 수 있는 SAAFs의 평활 속성에 의존하여, DNN 모델링 프레임워크 내에서 트레이닝 가능한 웨이브셰이퍼로서 작용한다.

이러한 방식으로, 본 발명자들은 비선형 오디오 효과를 모델링하는 맥락에서 오디오 처리 블록으로서 DNN 의 능력을 제공한다. 웨이브셰이핑 비선형성과 같은 특정 도메인 지식의 사용을 통해, 본 발명자들은 단기 메모리를 갖는 비선형 오디오 처리 태스크를 수행할 때 DNN 의 함수 근사화 능력을 증가시킨다.

동일한 비선형 모델링 작업을 통해, 우리는 웨이브넷(WaveNet)을 분석하고, 모델은 단지 시간 확장된 컨볼루션에 기초한다. 우리는 지각적으로 기반의 객관적 평가지표를 통해 모델들의 성능을 측정하고, 우리는 두 모델들이 왜곡, 오버드라이브, 증폭기 에뮬레이션 및 선형 및 비선형 디지털 오디오 효과들의 조합들을 모델링할 때 유사하게 수행한다고 보고한다.

다음 섹션들에서, 우리는 상이한 모델링 네트워크들의 아키텍처를 제시한다. 모든 모델은 입력으로서 가공전 오디오 및 출력으로서 처리된 오디오를 갖는 시간 도메인 및 종단간(end-to-end)에 전적으로 기초한다. 코드는 온라인으로 이용 가능하다(https://githubcom/mchijmma/DL-AFx/tree/master/src).

1.1 - 컨볼루션 오디오 효과 모델링 네트워크 - CAFX

모델은 3개의 부분, 즉 적응 프론트-엔드, 합성 백-엔드 및 잠재적-공간 DNN 으로 분할된다. 아키텍처는 단기간 메모리를 갖는 비선형 오디오 효과들을 모델링하도록 설계되고, 캐스케이드 입력 필터들, 훈련 가능한 파 성형 비선형성들 및 출력 필터들의 병렬 조합에 기초한다.

모든 컨볼루션(convolutions)은 시간 차원을 따르고 모든 스트라이드(strides)는 단위 값이다. 이는, 컨볼루션 동안, 한 번에 하나의 샘플씩 필터를 이동시키는 것을 의미한다. 게다가, 패딩은 출력이 입력의 해상도를 유지하도록 입력 특징 맵들의 각각의 측에서 행해진다. 확장은 도입되지 않는다.

모델은 도 1.1 에 도시되어 있고, 그 구조는 표 1.1 에 상세히 설명되어 있다. 우리는 1024 크기의 입력 프레임을 사용하고 256 샘플의 홉(hop) 크기로 샘플링한다.

적응 프론트-엔드 및 잠재적-공간 DNN 은 CEQ 에서와 정확하게 동일하다(참고).

공보 I). 주된 차이는 밀집 층 및 SAAFs 의 백-엔드(back-end) 내로의 혼입이다. 이는 모델이 왜곡 효과를 특징짓는 파형 비선형성을 학습할 수 있게 한다.

입력 프레임 크기가 1024 샘플인 CAFx 의 상세 아키텍처

적응 프론트-엔드는 컨볼루션 인코더를 포함한다. 이것은 2개의 컨볼루션 층, 하나의 풀링 층 및 하나의 잔여 연결을 포함한다. 프론트-엔드는 그 컨볼루션 층들이 각각의 모델링 태스크에 대해 그리고 오디오로부터 직접 필터 뱅크를 학습하기 때문에 적응적으로 고려된다.

제 1 컨볼루션층은 비선형 활성화 함수로서 절대값이 뒤따르고, 제 2 컨볼루션층은 국부적으로 연결된다(LC). 이는 우리가 필터 뱅크 아키텍처를 따르는 것을 의미하는데, 그 이유는 각각의 필터가 입력 특징 맵에서 그의 대응하는 행에만 적용되기 때문이다. 나중 층에 연한 비선형성이 뒤따른다. 맥스 풀링 층은 크기 16의 이동 윈도우이고, 각각의 윈도우 내의 최대 값은 출력에 대응하고, 최대 값들의 위치들은 백 엔드에 의해 저장 및 사용된다. 제 1 층에 의해 수행되는 동작은 다음과 같이 설명될 수 있다.

여기서, W1 은 제 1 층으로부터의 커널 행렬이고, X1 은 입력 오디오 x 가 W1 과 컨볼브된 후의 특징 맵이다. 가중치 W1 은 크기 64 의 128개의 1차원 필터를 포함한다. 잔여 접속 R 은 입력 x 의 주파수 대역 분해에 대응하는 X1 과 동일하다. 이것은 Conv1D 의 각각의 필터의 출력이 주파수 대역으로서 보여질 수 있기 때문이다.

제 2 층에 의해 수행되는 동작은 다음의 수학식에 의해 설명된다.

여기서, X2(i) 및 W2(i)는 각각 특징 맵 X2 및 커널 행렬 W2 의 i번째 행이다. 따라서, X2 는 W2 와의 LC 컨볼루션 후에 획득되고, 크기 128의 128개의 필터를 갖는 Conv1D-local 의 가중치 행렬 f2()은 소프트플러스(softplus) 함수이다.

적응 프론트-엔드는 가공전 오디오와의 시간-도메인 컨볼루션을 수행하고, 각각의 오디오 효과 모델링 작업에 대한 잠재적 표현을 학습하도록 설계된다. 그것은 또한 특정 오디오 효과 변환에 기초하여 파형의 합성을 용이하게 하기 위해 백-엔드에 의해 사용되는 잔여 접속을 생성한다,

이것은 완전한 입력 데이터가 잠재적 공간으로 인코딩되는 전통적인 인코딩 실시와는 상이하고, 이것은 디코더 내의 각각의 층이 완전한 원하는 출력 만을 생성하게 한다(He 등 2016). 게다가, Engel 등 (2017) ; Oord 등 2016 과 같은 완전한 인코딩 접근법은 매우 깊은 모델, 큰 데이터 세트 및 어려운 트레이닝 절차를 요구할 것이다.

제 1 층의 활성화 함수로서 절대값을 사용하고 더 큰 필터 W2 를 가짐으로써, 프론트-엔드가 Venkataramani 등(2017)의 엔벨로프와 같은 입력 오디오의 더 매끄러운 표현을 학습할 것으로 기대한다.

잠재적 공간 DNN

잠재적 공간 DNN 은 2개의 밀집 층을 포함한다. 필터 뱅크 아키텍처에 이어서, 제 1 층은 LC 밀집 층에 기초하고, 제 2 층은 FC 층을 포함한다. DNN 은 잠재적 표현 Z 를 합성 백-엔드에 공급되는 새로운 잠재적 표현 Z＾ 로 수정한다. 제 1 층은 행렬 Z 의 각각의 행에 상이한 밀집 층을 적용하고, 제 2 층은 제 1 층으로부터의 출력 행렬의 각각의 행에 적용된다. 양 층에서, 모든 밀집 층은 64개의 숨겨진 유닛을 갖고, 소프트플러스(softplus) 함수(f_h)가 뒤따르고, 채널 차원보다는 완전한 잠재적 표현에 적용된다.

잠재적 공간 DNN에 의해 수행되는 동작은 다음과 같다.

여기서, Zh^(i)는 LC 층의 출력 특징 맵 Zh^의 i번째 행이다. 마찬가지로, V1(i)는 LC 층의 가중치 행렬 V1 에 대응하는 i번째 밀집 층이다. V2 는 FC 층의 가중치에 대응한다.

맥스 풀링 동작 Z 의 출력은 엔벨로프(envelopes)와 같은 EQ 작업에 주어진 입력 오디오의 최적의 잠재적 표현에 대응한다. DNN 은 이러한 엔벨로프를 수정하도록 훈련되었으므로 타켓 작업과 일치하는 오디오 신호를 재구성하기 위해 새로운 잠재 표현 또는 엔벨로프 Z^ 세트가 합성 백-엔드에 공급된다.

합성 백-엔드

합성 백-엔드는 다음의 단계들에 의해 비선형 작업을 달성한다. 먼저, X2^ 인 X2 의 이산 근사값(discrete approximation)은 수정된 엔벨로프들 Z^ 을 풀링 해제(unpooling)하는 것을 통해 획득된다. 그 후, 특징 맵 X^ 은 잔여 연결 R 및 X^ 의 요소별 곱셈의 결과이다. 이는 입력 필터링 동작으로서 보여질 수 있는데, 이는 상이한 엔벨로프 이득이 프론트-엔드에서 획득된 주파수 대역 분해들 각각에 적용되기 때문이다.

제 2 단계는 다양한 웨이브셰이핑 비선형성들(waveshapping nonlinearities) 을 X1^ 에 적용하는 것이다. 이는 밀집 층들 및 평활한 적응적 활성화 함수들(DNN-SAAF)을 포함하는 처리 블록으로 달성된다. DNN-SAAF 는 4개의 FC 밀집 층들을 포함한다. 모든 밀집 층들은 마지막 층을 제외하고 소프트플러스 함수(softplus function)가 뒤따른다. 국부적으로 연결된 SAAF 들은 마지막 층에 대한 비선형성으로서 사용된다. 전체적으로, 각각의 함수는 국부적으로 연결되고 -1 내지 +1 사이의 25개의 간격들로 구성된다.

본 발명자들은 파라매트릭 및 비파라매트릭 ReLU, 하이퍼볼릭 탄젠트(hyperbolic tangent), S자형 및 5차 다항식들과 같은 상이한 표준 및 적응적 활성화 함수들을 테스트하였다. 그럼에도 불구하고, 본 발명자들은 비선형 효과들을 모델링할 때 안정성 문제들 및 최적이 아닌 결과들을 발견하였다. 각각의 SAAF 가 명시적으로 웨이브셰이퍼로서 작용하기 때문에, DNN-SAAF 는 필터 뱅크 아키텍처를 따르고 수정된 주파수 분해 Xi^ 의 채널 치수에 적용되는, 훈련가능한 웨이브셰이핑 비선형성들의 세트로서 거동하도록 제약된다.

최종적으로, 마지막 층은 제 1 층 변환을 전치함(transposing)으로써 구현될 수 있는 디컨볼루션 동작(deconvolution operation)에 대응한다. CEQ 에서와 같이, 이 층은 그것의 커널들이 W1 의 전치된 버전들이므로, 훈련가능하지 않다. 이러한 방식으로, 백-엔드는 그것이 분해되는 것과 동일한 방식으로 오디오 파형을 재구성한다. 완전한 파형은 한(hann) 윈도우 및 일정한 중첩-가산 이득을 사용하여 합성된다.

1.2 피드포워드 웨이브넷 오디오 효과들 모델링 네트워크 - 웨이브넷.

웨이브넷 아키텍처는 원래의 자동회귀 모델의 피드포워드 변동에 대응한다. 비선형 모델링과 같은 회귀 작업에 대해 예측된 샘플들은 모델에 다시 공급되지 않지만, 슬라이딩 입력 윈도우를 통해, 모델은 단일 순방향 전파에서 샘플들의 세트를 예측한다. 피드포워드 웨이브넷 구현은 Damskgg 등 (2019) 과 Rethage 등 (2018) 에서 제안된 아키텍처에 기초한다. 모델은 2개의 부분들: 확장된 컨볼루션들의 스택 및 후처리 블록으로 분할된다. 모델은 도 1.2 에 도시되고, 그것의 구조는 표 1.2 에 설명된다.

입력과 출력 프레임 크기가 1027과 1024 샘플인 웨이브넷의 상세 아키텍처

본 발명자들은 확장된 컨볼루션들의 스택 전에, 1, 2,..., 32의 확장 팩터 및 3의 사이즈의 16개의 필터들을 갖는 6개의 확장된 컨볼루션 층들의 2개의 스택들을 사용한다. 이는 확장된 컨볼루션의 특징 맵 내의 채널의 수와 매칭하기 위함이다. 확장된 컨볼루션들의 스택은 입력 특징 맵 Rin 을 3x1 게이트된 컨볼루션들 및 지수적으로 증가하는 확장 인자들로 처리한다. 이러한 동작은 다음과 같이 설명될 수 있다.

여기서, W_f 및 W_g 는 필터 및 게이팅된 컨볼루션 커널이고, tanh 및 σ은 하이퍼볼릭 탄젠트 및 시그모이드 함수이며, * 및 ×는 컨볼루션 및 요소별 곱셈에 대한 연산자이다. 잔여 출력 연결 R_out 및 스킵 연결 S는 z 에 적용된 1x1 컨볼루션을 통해 획득된다. 따라서 S 는 후처리 블록으로 전송되고 R_out 은 현재 입력 행렬 R_in에 추가되어 다음 확장된 컨볼루션 레이어의 잔여 입력 특징 맵이 된다

후처리 블록은 모든 스킵 접속들(S)에 이어 ReLU 를 합산하는 것으로 이루어진다. 2개의 최종 3x1 컨볼루션이 2048 및 256 필터를 포함하고 ReLU 에 의해 분리되는 결과적인 특징 맵에 적용된다. 마지막 단계로서, 단일 채널 출력 오디오를 획득하기 위해 1x1 컨볼루션이 도입된다.

웨이브넷 아키텍처의 수용 필드 rf 는 다음의 수학식으로 계산될 수 있다(Oord 등 2016).

여기서, n 은 스택의 수이고, f_k 는 필터의 크기이고, D 는 팽창된 층의 수이고, di는 각각의 팽창 인자에 대응한다. 이 아키텍처의 경우, 모델의 수용 필드는 253개의 샘플이고, 타겟 필드 tf 는 1024개의 샘플이다. 따라서, 모델에 제공된 입력 프레임 if는 1276 샘플의 슬라이딩 윈도우를 포함하고, 다음과 같이 계산된다(Rethage 등, 2018).

다음 챕터에서, 우리는 이러한 아키텍처들을 구축하고, 우리는 RNN 들 및 잠재적-공간 시간적 확장 컨볼루션들을 제공하여 동적 범위 압축 또는 상이한 변조 효과들과 같은 장기 메모리를 수반하는 변환들을 모델링한다.

2 - 시변 오디오 효과 모델링

파라미터들이 시간에 따라 주기적으로 수정되는 오디오 효과들은 종종 시변 또는 변조 기반 오디오 효과들로 지칭된다. 더욱이, 시불변 오디오 효과들의 넓은 패밀리는 컴프레서(compressors)와 같이, 장기 의존성들에 기초한다. 선형 거동을 가정하거나 또는 특정 비선형 회로 컴포넌트들을 생략함으로써, 이러한 효과들의 대부분은 디지털 필터들 및 딜레이 라인들의 사용을 통해 디지털 도메인에서 직접 구현될 수 있다.

그럼에도 불구하고, 음악가들은 아날로그 대응장치를 선호하는 경향이 있고, 현재의 방법들은 종종 매우 특정한 회로에 최적화되기 때문에, 이러한 타입의 효과들의 모델링은 활성화되어 있다. 따라서, 모델링되는 회로의 유형의 전문 지식이 항상 요구되고 장기 메모리를 갖는 다른 시변 또는 시불변 오디오 효과들로 효율적으로 일반화될 수 없기 때문에, 이러한 모델들은 상이한 효과 유닛들로 쉽게 전달가능하지 않다.

이전의 챕터들의 아키텍처들은 긴 시간 종속성들을 갖는 변환들에 대해 일반화되지 않기 때문에, 이 챕터에서, 우리는 이러한 효과 유닛들을 특징짓는 장기 메모리를 학습하기 위해 종단간 DNN 들의 능력들을 제공한다. 우리는 CAFx 및 웨이브넷 아키텍처들을 구축하고, 우리는 CRAFx 및 CWAFx의 2개의 신규한 범용 모델링 네트워크들을 제안한다. 이전의 모델들로부터의 적응적 프론트-엔드 및 백-엔드 구조들에 기초하여, 양방향 장단기 메모리(Bi-LSTM) 층 또는 시간 확장된 컨볼루션들에 기초한 잠재적 공간은 시변 변환들을 학습할 수 있다. 코드는 온라인: https://githubcom/mchijmma/DL-AFx/tree/master/src 에서 이용 가능하고 파라미터들의 수 및 계산 복잡도가 부록 A에 도시된다.

따라서, 우리는 장기 메모리를 갖는 오디오 프로세서들의 일반적인 블랙-박스 모델링을 위한 딥 러닝 아키텍처들을 도입한다. 우리는 코러스, 플랜저, 페이저, 트레몰로(tremolo), 비브라토(vibrato), LFO 기반 오토-와(auto-wah), 링 변조기 및 레슬리(Leslie) 스피커와 같은 변조 기반 오디오 효과들의 디지털 구현들을 매칭하는 모델들을 도시한다. 또한, 우리는 엔벨로프 팔로워, 컴프레서 및 다중대역 컴프레서를 갖는 오토-와와 같은 긴 시간 종속성들을 갖는 비선형 시불변 오디오 효과들을 포함함으로써 모델의 애플리케이션들을 확장한다. 또한, 비선형 시변 오디오 트랜스-포메이션들을 모델링할 때 네트워크들의 능력들을 테스트하기 위해, 오버드라이브와 같은 비선형성들을 선형 시변 효과 유닛들에 도입한다.

우리는 시변 시스템의 솔루션을 명시적으로 획득하지 않고 콘텐츠 기반 변환으로서 선형 및 비선형 시변 에뮬레이션을 제공한다. 모델의 성능을 측정하기 위해, 우리는 변조 주파수 지각의 심리음향학(psychoacoustics)에 기초한 객관적 평가지표를 제안한다. 또한, 우리는 모델이 실제로 학습하고 있는 것 및 주어진 태스크가 어떻게 달성되는지를 분석한다.

도 2.0 을 참조하면, 전체 구조는 3개의 부분들: 적응적 프론트-엔드, 잠재적 공간 DNN 및 합성 백-엔드에 기초한다.

먼저, 입력 오디오 x 는 잠재적 표현 Z 로 서브샘플링되는 특징 맵 X2 로 변환된다. 이것은 2개의 연속적인 컨볼루션들을 통해, 예를 들어, 컨볼루션 커널들 W1 및 W2 의 필터 뱅크 아키텍처를 통해 행해질 수 있다.

또한, 제1 컨볼루션을 통해, 주파수 대역 분해 X1 이 획득되고, 그로부터 잔여 특징 맵 R 이 도출될 수 있다. 잔여 특징 맵 R은 추가 입력으로부터 추가로 도출될 수 있다.

잠재적 표현 Z 는 새로운 잠재적 표현들 Z^, Z^1,.으로 수정된다. 이것은 DNN을 통해 행해질 수 있다.

새로운 잠재적 표현은 풀링해제 또는 업샘플링 동작들을 통해 특징 맵 X3^ 으로 업샘플링된다.

X3^ 는 요소별로 X3^ 를 R 과 곱함으로써 잔여 특징 맵 R (또는 미리 수정된 버전 X5^ )을 수정하는데 사용될 수 있으며, 따라서 시변 효과가 있는 오디오 스트림에 해당하는 특징 맵 X2^, X^1.1 을 획득한다.

R, X5^ 는 웨이브셰이핑 DNN 을 통해 더 수정되고, 따라서 숏-텀 메모리 변환들, 즉 웨이브셰이퍼들을 갖는 오디오 스트림에 대응하는 특징 맵을 획득한다.

X2^, X^1.1 및 X1^, X1.2^ 는 주파수 대역 분해 X0^ 로 합산되고, 이로부터 타겟 오디오 y^ 가 재구성된다. 재구성은 디컨볼루션(deconvolution)을 통해 수행될 수 있다. 선택적으로 W1(W1T)의 전치된 커널을 사용하여 디컨볼루션을 구현할 수 있다.

이 합산은 시변 효과를 갖는 오디오 스트림(즉, 변조 기반 또는 장기 메모리를 갖는 엔벨로프 기반)이 시변 효과를 갖지 않는 오디오 스트림(즉, 파형 변환을 갖거나 갖지 않는 입력 오디오 스트림)과 혼합될 수 있게 한다.

2.1 컨볼루션 반복 오디오 효과 모델링 네트워크 - CRAFx

CRAFx 모델은 CAFX 2.1 에 구축된다. 주된 차이는 Bi-LSTM 의 잠재적-공간 내로의 혼입 및 합성 백-엔드 구조의 변형이다. 이것은 모델이 긴 시간 종속성을 갖는 비선형 변환을 학습할 수 있게 한다. 또한, 128 채널 대신에, 반복 레이어의 트레이닝 시간으로 인해, 이 모델은 32 채널 또는 필터의 필터 뱅크 구조를 사용한다.

모델이 장기 메모리 의존성을 학습할 수 있게 하기 위해, 입력은 k개의 이전 및 k개의 후속 프레임과 연결된 현재 시간 단계 t 에서의 오디오 프레임 x 를 포함한다. 이들 프레임은 크기 N 을 갖고 홉 크기 τ 로 샘플링된다. 연결된 입력 x 는 다음과 같이 설명된다.

적응 프론트-엔드는 CAFx 로부터의 것과 정확히 동일하지만, 그 층들은 시간 분배되는데, 즉 동일한 컨볼루션 또는 풀링 동작이 2k+1 입력 프레임들 각각에 적용된다. 맥스 풀링 동작은 크기 N/64 의 이동 윈도우이다. 이 모델에서, R은 현재 입력 프레임 x(0)의 주파수 대역 분해를 위한 X1 에서의 대응하는 행이다. 따라서, 백-엔드는 과거 및 후속 컨텍스트 프레임들로부터 정보를 직접 수신하지 않는다.

입력 프레임 크기 4096 샘플 및 ±4 컨텍스트 프레임을 갖는 CRAFx 의 상세 아키텍처

잠재적 공간 Bi-LSTM

잠재적 공간은 각각 64, 32, 및 16 유닛의 3개의 Bi-LSTM 층을 포함한다. Bi-LSTM 은 프론트 엔드에 의해 학습되고 2k+1 입력 프레임에 관한 정보를 포함하는 잠재적 공간 표현 Z 를 처리한다. 이러한 반복층들은 Z 의 치수를 감소시키도록 트레이닝되는 한편, 비선형 변조기들 Z^ 의 세트를 또한 학습한다. 이러한 새로운 잠재 표현 또는 변조기들은 시변 모델링 태스크와 매칭하는 오디오 신호를 재구성하기 위해 합성 백-엔드로 공급된다. 각각의 Bi-LSTM 은 0.1의 드롭아웃 및 반복 드롭아웃 비율을 가지며, 처음 2개의 층은 활성화 함수로서 탄젠트(tanh)를 갖는다. 또한, 마지막 리커런트(recurrent)층의 비선형성은 국부적으로 연결된 SAAF 이다.

섹션 1.1 에 도시된 바와 같이, 국부적으로 접속된 SAAF들은 마지막 층에 대한 비선형성으로서 사용된다. 이는 각각의 시변 효과 유닛들의 변조기들과 같은 임의의 연속적인 함수에 근사할 수 있는 SAAF 들의 평활한 특성들을 이용하기 위함이다. 각각의 SAAF 는 -1 내지 +1 사이의 25개의 간격들로 구성된다.

합성 백-엔드(synthesis back-end)

합성 백-엔드는 주파수 대역 분해(R) 및 비선형 변조기들(Z^)을 처리함으로써 타겟 오디오의 재구성을 달성한다. CAFx 와 마찬가지로 백엔드는 풀링 레이어, DNN-SAAF 블록 및 최종 컨볼루션 레이어로 구성됩니다. DNN-SAAF 블록은 각각 32, 16, 16 및 32개의 은닉 유닛들의 4개의 밀집 층들을 포함한다. 각각의 밀집 층은 마지막 것을 제외하고는 탄젠트(tanh) 함수가 뒤따르고, 이는 SAAF 층이 뒤따른다. CRAFx 의 백-엔드의 새로운 구조는 DNN-SAAF 블록(DNN-SAAF-SE) 이후의 스퀴즈-및-여기(SE)(Hu 등, 2018) 층을 통합한다.

SE 블록은 특징 맵들의 채널-방향 정보를 적응적으로 스케일링함으로써 채널들 사이의 상호의존성들을 명시적으로 모델링한다(Hu 등, 2018). 따라서, 우리는 DNN-SAAF의 출력인 X1^' 의 특징 맵 채널들 각각에 동적 이득을 적용하는 SE 블록을 제안한다. Kim 등 2018 로부터의 구조에 기초하여, SE 는 2개의 FC 층들이 뒤따르는 글로벌 평균 풀링 동작을 포함한다. FC층들은 그에 따라 ReLU 및 시그모이드 활성화 함수들이 뒤따른다.

백-엔드 내의 특징 맵들이 시간-도메인 파형들에 기초하기 때문에, 우리는 글로벌 평균 풀링 동작 이전에 절대값 층을 통합한다.

백엔드 내의 특징 맵은 시간-도메인 파형을 기반으로 하므로 글로벌 평균 풀링 작업 전에 절대값 레이어를 통합합니다. 그림 2.2 는 DNN-SAAF-SE 의 블록 다이어그램을 나타내며 입력 및 출력은 각각 기능 맵 X2^ 및 X1^ 이다.

필터 뱅크 아키텍처에 후속하여, 백-엔드는 다음의 단계들에 의해 시변 태스크와 매칭한다. 먼저, 업샘플링 동작이 학습된 변조기(Z^)에 적용되고, 이는 잔여 접속(R)과의 엘리먼트-방향 곱셈이 뒤따른다. 이는 R의 채널들 또는 주파수 대역들 각각에 대한 주파수 의존적 진폭 변조로서 보여질 수 있다.

이는 DNN-SAAF-SE 블록으로부터의 비선형 파형형성 및 채널-방향 스케일링된 필터들이 뒤따른다. 따라서, 변조된 주파수 대역 분해(X2^)는 DNN-SAAF 층들로부터의 학습된 파형형성기들에 의해 처리되어, 특징 맵(X1^')을 초래한다. 이는 SE 층으로부터의 주파수 의존적 이득들 자체에 의해 추가로 스케일링된다. 결과적인 특징 맵(X1^')은 오디오 효과 모델링 태스크들 내에서 비선형 단기 메모리 변환들을 모델링하는 것으로 보여질 수 있다.

그 다음, X1^ 는 비선형 피드포워드 지연 라인으로서 작용하는 X2^ 에 다시 부가된다.

따라서, 백-엔드의 구조는 LFO, 디지털 필터 및 지연 라인의 이용을 통해, 변조 기반 효과들이 디지털 도메인에서 구현되는 일반적인 아키텍처에 의해 통지된다.

마지막으로, 완전한 파형은 CAFx 에서와 동일한 방식으로 합성되며, 여기서 마지막 층은 전치 및 비-트레이닝 디컨볼루션 동작에 대응한다. 섹션 2.1 에서 언급된 바와 같이, 우리는 단위 값의 스트라이드를 사용하고, 어떠한 확장도 포함되지 않으며, CAFx 에서와 동일한 패딩을 따른다.

2.2 컨볼루션 및 웨이브넷 오디오 효과 모델링 네트워크 - CWAFx

우리는 CRAFx 로부터의 컨볼루션 및 조밀한 아키텍처와 웨이브넷으로부터의 확장된 컨볼루션의 조합에 기초한 새로운 모델을 제안한다. 전자의 Bi-LSTM 층들은 입력 및 콘텍스트 오디오 프레임들로부터의 긴 시간 종속성들을 학습하는 것을 담당했기 때문에, 우리는 이들 순환 계층들을 피드포워드 웨이브넷으로 대체한다. BatthewDavies 및 Bock 2019 와 같은 순차적인 문제를 학습할 때 확장된 컨볼루션이 반복적인 접근법을 능가하는 것으로 나타났고, 여기서 Bi-LSTM 은 이러한 유형의 시간적 컨볼루션으로 성공적으로 대체된다.

따라서, 적층되어 확장된 컨볼루션에 기초한 잠재적 공간은 주파수 의존 진폭 변조 신호를 학습할 수 있다는 것이 발견된다. 모델은 도 2.3 에 도시되어 있다. 적응 프론트-엔드 및 합성 백-엔드는 CRAFx 에 제시된 것들과 동일하다.

잠재적 공간 웨이브넷

잠재적 공간 웨이브넷의 구조는 표 2.2 에 상세히 기술되어 있다.

4096 샘플 및 ±4 콘텍스트 프레임의 입력 프레임크기를 갖는 CWAFx 에 의해 프론트-엔드로부터의 잠재적 표현(Z)은 64 샘플 및 32 채널의 9 행들에 대응하고, 이는 576 샘플 및 32 채널의 특징 맵으로 언롤링될 수 있다. 따라서, 510 및 64 샘플의 수용 및 타겟 필드를 각각 갖는 잠재적 공간 웨이브넷(latent-space Wavenet)에 의해 이들 입력 치수를 근사화한다. 따라서, 수학식 (1.2) 에 기초하여, 우리는 크기 3의 1,2,...64 및 32 필터들의 확장 인자를 갖는 7개의 확장 컨볼루션 층들의 2개의 스택들을 사용한다. 또한, 스킵 연결(S)의 치수를 유지함으로써 그리고 최종 1x1 컨볼루션을 FC 층으로 대체함으로써 더 양호한 피팅을 달성하였다. 후자는 탄젠트 활성화 함수가 뒤따르는 64개의 숨겨진 유닛들을 가지며, 잠재적인 치수를 따라 적용된다.

잠재적 공간 웨이브넷의 상세 아키텍처. 이는 4096 샘플 및 ±4 콘텍스트 프레임의 입력 프레임크기를 갖는 CWAFx 에 대한 것임

2.3 실험

2.3.1 트레이닝

마찬가지로, CRAFx 및 CWAFx의 트레이닝은 CEQ 및 CAFx 와 동일한 초기화 단계를 포함한다. 일단 프론트-엔드 및 백-엔드의 컨볼루션층이 예비 트레이닝되면, DNN-SAAF-SE 블록 및 잠재적-공간 Bi-LSTM 및 웨이브넷층은 각각의 모델에 통합되고, 모든 가중치들은 종단간 지도 학습(supervised learning) 태스크에 따라 트레이닝된다.

최소화될 손실 함수는 목표 파형과 출력 파형 사이의 평균 절대 오차이다. 1024 내지 8192 샘플의 입력 크기 프레임을 제공하고, 우리는 항상 50% 의 홉 크기를 갖는 직사각형 윈도우를 사용한다. 배치 크기는 오디오 샘플 당 프레임의 총 수로 구성된다.

Adam(Kingma and Ba, 2015)은 최적화기로서 사용되고, 200 에포크에 대한 예비 트레이닝 및 500 에포크에 대한 감독 트레이닝을 수행한다. 수렴을 가속화하기 위해, 제2 트레이닝 단계 동안, 5·10-5의 학습률로 시작하고, 150 에포크마다 50%만큼 감소한다. 검증 서브세트에 대해 가장 낮은 에러를 갖는 모델을 선택한다.

Adam(Kingma and Ba, 2015)을 옵티마이저로 사용하고 200 에포크(epoch)에 대한 예비 훈련과 500 에코프에 대한 지도 학습을 수행합니다. 수렴 속도를 높이기 위해 두 번째 훈련 단계에서 학습률을 5·10-5로 시작하고 150 에포크마다 50% 씩 감소한다. 유효성 검사 하위 집합에 대해 오류가 가장 낮은 모델을 선택합니다.

2.3.2 데이터세트

코러스, 플랜지, 페이저, 트레몰로 및 비브라토와 같은 변조 기반 오디오 효과는 IDMT-SMT-오디오-효과 데이터세트로부터 획득되었다(Stein 등. 2010). 녹음은 전기 기타 및 베이스 기타 가공전(raw) 노트 및 그들 각각의 효과화된 버전을 포함하는 개별적인 2-초 노트에 대응한다. 이들 효과는 VST 오디오 플러그-인과 같은 효과 유닛의 디지털 구현에 대응한다. 우리의 실험에 대해, 상기 효과의 각각에 대해, 우리는 베이스 기타(bass guitar)에 대해 처리되지 않고 처리된 오디오를 획득하는 설정 #2만을 사용한다. 또한, 베이스 기타 가공전 오디오를 처리하는 것은, 중심 주파수가 500 Hz 내지 3 kHz 의 범위이고 5 Hz 정현파에 의해 변조되는 피크 필터를 갖는 LFO 기반 오토-와(auto-wah)를 구현한다.

마지막으로, 우리는 또한 엔벨로프 팔로워에 기초한 컴프레서 및 오토-와와 같은 긴 시간 종속성을 갖는 비선형 시불변 오디오 효과를 갖는 모델의 능력을 제공한다. 우리는 전기 기타 가공전 오디오를 처리하기 위해 SoX 로부터의 컴프레서 및 다중대역 컴프레서를 사용한다.

유사하게, 우리는 500 Hz 내지 3 kHz 사이에서 중심 주파수를 변조하는 엔벨로프 팔로워 및 피크 필터를 갖는 오토-와를 사용한다.

각각의 시변 태스크에 대해, 우리는 624 가공전 및 효과화된 노트를 사용하고, 테스트 및 검증 샘플 둘 모두는 각각 이 서브세트의 5% 에 대응한다. 녹음은 16 kHz 로 다운 샘플링되었고, 진폭 정규화는 시불변 오디오 효과를 제외하고 적용되었다. 표 4.3 은 각각의 오디오 효과에 대한 설정의 상세를 도시한다.

각 오디오 효과 모델링 작업 설정

2.3.3 평가.

다양한 모델링 작업으로 모델을 테스트할 때 세 가지 평가지표가 사용된다. 챕터 1 에 도시된 바와 같이, 우리는 에너지-정규화된 평균 절대 오차(mae)를 사용한다. 시변 태스크들에 대한 객관적인 평가로서, 우리는 진폭 및 주파수 변조의 인간 지각을 모방하는 객관적인 평가지표를 제안한다. 변조 스펙트럼은 변조 주파수 지각의 심리음향학과 통합된 시간-주파수 이론을 사용하므로 시간 변동 패턴들의 장기 지식을 제공한다(Sukittanon 등 2004). 변조 스펙트럼 평균 제곱 오차(ms_mse)는 Mc-Dermott 및 Simoncelli(2011) 및 McKinney 및 Breebaart(2003)의 오디오 기능을 기반으로 하며 다음과 같이 정의된다.

감마톤 필터 뱅크가 타겟에 적용되고 전체 파형들을 출력한다. 총 12 개의 필터들을 사용하며, 중심 주파수들은 대수적으로 26 Hz 내지 6950 Hz 로 이격된다.

각 필터 출력의 엔벨로프는 힐버트 변환(Hahn, 1996)의 크기를 통해 계산되고 400Hz 로 다운샘플링된다.

변조 필터 뱅크는 각각의 엔벨로프에 적용된다. 총 12 개의 필터들을 사용하며, 중심 주파수들은 대수적으로 0.5 Hz 내지 100 Hz 로 이격된다.

FFT 는 각각의 감마톤 필터의 각각의 변조 필터 출력에 대해 계산된다. 에너지는 감마톤 및 변조 필터 뱅크들에 걸쳐 합산되고, ms_mse 평가지표는 FFT 주파수 빈들의 로그 값들의 평균 제곱 오차이다.

비선형 시불변 태스크들(컴프레서 및 다중대역 컴프레서)에 대한 평가는 mfcc_코사인: MFCC들의 평균 코사인 거리에 대응한다(섹션 1.3.3 참조).

2.4 결과 및 분석

장기 시간 종속성들을 학습하기 위한 Bi-LSTM 의 능력들이 아래에서 설명된다. CRAFx 에 대해, 우리는 4096 샘플의 입력 크기 및 과거 및 후속 프레임들의 수에 대해 k = 4 를 사용한다.

트레이닝 절차는 각각의 타입의 시변 및 시불변 오디오 효과에 대해 수행되었다. 그 다음, 모델들은 테스트 데이터세트로부터의 샘플로 테스트되었다. CRAFx에 대한 오디오 예들은 온라인으로 이용가능하다: https://mchijmmagithubio/modeling-time-varying/. 참조를 제공하기 위해 평균 mae 및 ms_mse 및 입력 및 타겟 파형들 사이의 값들은 각각 0.13, 0.83 이다. 컴프레서 및 다중대역 컴프레서에 대해, 평균 mfcc_코사인 값은 0.15 이다.

도 2.4 는 레슬리(Leslie) 스피커를 모델링하기 위한 그들 각각의 변조 스펙트럼과 함께 입력, 타겟 및 출력 파형을 도시한다. 시간-도메인에서, 모델들이 유사한 방식으로 타겟 파형과 매칭한다는 것이 명백하다. 변조 스펙트럼으로부터 모델이 입력에 존재하지 않고 각각의 타겟의 것들과 밀접하게 매칭하는 상이한 변조 에너지를 출력에 동일하게 도입한다는 것이 주목가능하다.

발명자들에 의해 발견되는 바와 같이, 링 변조기 가상 아날로그 구현들과 같은 다른 복잡한 시변 태스크들이 또한 성공적으로 모델링되었다. 이는 링 변조기의 경우처럼 비선형 회로에 의해 도입된 변조의 에뮬레이션을 포함하거나 레슬리 스피커 구현에서와 같이 인공 잔향 및 도플러 효과 시뮬레이션과 함께 다양한 지연 라인을 포함하기 때문에 중요한 결과를 나타낸다.

모델은 또한 선형 및 비선형 시불변 모델링을 수행할 수 있다. 엔벨로프 구동식 오토-와(auto-wah), 컴프레서 및 다중대역 컴프레서의 긴 시간 종속성이 성공적으로 모델링되었다.

전반적으로, 모델은 트레몰로 또는 링 변조기와 같은 진폭 변조 및 페이저와 같은 시변 필터들에 기초하여 효과 유닛들을 모델링할 때 더 양호하게 수행된다. 주파수 변조에 기초한 딜레이 라인 효과는 플랜저 또는 레슬리 스피커 스테레오 채널의 경우와 같이 만족스럽게 모델링된다. 그럼에도 불구하고, 비브라토 및 비브라토-오버드라이브는 가장 높은 에러를 갖는 모델링 태스크를 나타낸다. 이는 진동이 대략 2Hz 의 속도를 갖는 주파수 변조에만 기초한 효과이기 때문일 수 있다. 이것은 레슬리 스피커의 회전 혼보다 더 높은 변조 레이트를 나타내기 때문에, 이것은 레슬리 스피커(챕터 3 참조)의 저속 회전 설정과 같은 저주파수 변조에 기초한 매칭 효과일 때 모델의 성능이 감소하는 것을 나타낸다. 이것은 더 많은 필터들 또는 채널들, 예를 들어 128 필터의 필터 뱅크 아키텍처를 도입함으로써 주파수 분해능을 증가시킴으로써, 또는 더 작은 맥스 풀링을 통해 잠재적 공간의 크기를 증가시킴으로써 개선될 수 있다.

2.5 결론

이 챕터에서, 긴 시간 종속성을 갖는 오디오 효과를 모델링하기 위한 CRAFx 및 CWAFx, 2개의 범용 딥 러닝 아키텍처를 도입하였다. 이들 2개의 아키텍처를 통해, 저주파수 변조와 같은 긴 시간 종속성을 학습하고 그에 따라 오디오를 처리하기 위해 Bi-LSTM 층 및 시간 확장된 컨볼루션을 갖는 종단간 DNN 의 능력을 제공한다. 우리는 두 모델 모두 유사한 성능을 달성하였고 선형 및 비선형 시변 오디오 효과, 시변 및 시불변 오디오 효과의 디지털 구현을 장기 메모리와 성공적으로 매칭할 수 있다고 결론지을 수 있다.

mae 에 기초하여 CRAFx 는 타겟 파형의 보다 근접한 일치를 달성하였다. 그럼에도 불구하고 mfcc_cosine 및 ms_mse와 같은 지각 기반 평가지표로 테스트했을 때 두 모델 모두 똑같이 잘 수행되었다. GPU 의 계산 처리 시간이 CWAFx 의 경우 훨씬 낮다는 점을 언급할 가치가 있다(부록 A 참조). 이는 cuDNN(Chetlur 등, 2014)과 같은 GPU 가속 라이브러리가 컨볼루션 레이어에 최적화되어 있기 때문이다.

두 아키텍처 모두에서, 우리는 특징 맵 채널 또는 주파수 대역 분해 각각에 동적 이득을 학습하고 적용하기 위해 SE 층을 통합하였다. 이는 모델들이 각각의 변조기 신호들을 각각의 채널에 적용한 다음, 이들을 SE 층들을 통해 추가로 스케일링하는 것을 허용한다. 이러한 동적 이득의 도입은 다양한 시변 태스크들을 모델링할 때 더 양호한 피팅을 제공하였다.

이들 시변 태스크들에 적합한 다른 화이트-박스 또는 그레이-박스 모델링 방법들은 특정 회로 분석 및 이산화 기술들과 같은 전문 지식을 요구할 것이다. 더욱이, 이들 방법들은 다른 시변 태스크들로 쉽게 확장될 수 없고, 특정 컴포넌트들의 비선형 거동에 관한 가정들이 종종 이루어진다. 우리의 지식의 최상으로 이 작업은 선형 및 비선형, 시변 및 시불변 오디오 효과들의 블랙-박스 모델링에 대한 제 1 아키텍처들을 나타낸다. 그것은 오디오 프로세서 타겟에 관한 가정들을 더 적게 하고, 오디오 효과 모델링에서의 최신 기술의 개선을 나타낸다.

소량의 트레이닝 예들을 사용하여 우리는 코러스, 플랜저, 페이저, 트레몰로, 비브라토, LFO-기반 및 엔벨로프 팔로워-기반 오토-와, 링 변조기, 레슬리 스피커 및 컴프레서들에 매칭하는 모델을 보여주었다. 우리는 모델의 성능을 측정하기 위한 객관적 지각 평가지표인 ms_mse 를 제안하였다. 평가지표는 감마톤 필터 뱅크의 변조 스펙트럼에 기초하고, 따라서 진폭 및 주파수 변조의 인간 지각을 측정한다.

우리는 모델들이 시변 타겟의 것들과 밀접하게 매칭하는 상이한 변조들을 적용함으로써 입력 오디오를 처리한다는 것을 입증하였다. 지각적으로 가장 높은 주파수들 및 잡음 레벨에서 사소한 불일치들이 있지만 대부분의 출력 파형들은 그들의 타겟 대응물들과 구별가능하지 않다. 이것은 필터 뱅크 구조들에서 더 높은 분해능을 의미하는 CAFx 에서와 같이 더 많은 컨볼루션 필터들을 사용함으로써 개선될 수 있다. 더욱이 공보 I 에 도시된 바와 같이, 시간 및 주파수에 기초한 손실 함수는 청취 테스트들이 요구될 수 있지만, 이 주파수 관련 문제를 개선하는데 사용될 수 있다(챕터 3 참조).

모델이 전기 기타 또는 베이스 기타와 같은 특정 음악 악기의 오디오에 특정 변환을 적용하도록 학습하기 때문에 일반화는 또한 더 철저하게 연구될 수 있다. 게다가 모델이 더 짧은 입력 크기 프레임들로 긴 시간 종속성들을 학습하기 위해 노력하고, 또한 과거 및 후속 프레임들을 필요로 하기 때문에, 이들 아키텍처들은 실시간 구현들에 적응될 수 있다.

실시간 애플리케이션들은 큰 입력 프레임 크기들 및 과거 및 미래 콘텍스트 프레임들에 대한 필요성에 의존하지 않고 장기 메모리를 수반하는 RNN 또는 시간 확장된 컨볼루션들의 구현으로부터 모델 변환들로 상당히 이익을 얻을 것이다. 모델이 레슬리 스피커 구현의 인공 잔향과 매칭할 수 있지만, 플레이트, 스프링 또는 컨볼루션 잔향과 같은 잔향 모델링의 철저한 구현이 필요하다(챕터 4 참조). 게다가 모델이 오디오 효과의 정적 표현을 학습하기 때문에, 파라매트릭 모델을 고안하는 방법들이 또한 제공될 수 있다. 마지막으로 가상 아날로그를 넘는 애플리케이션들이 예를 들어 자동 믹싱 분야에서 연구될 수 있고, 모델은 믹싱 연습들로부터 일반화를 학습하도록 트레이닝될 수 있다.

3 가상 아날로그 실험

이전의 챕터들은 효과 유닛들의 몇몇 선형 및 비선형 시변 및 시불변 디지털 구현들을 모델링하는 것에 초점을 맞췄다. 더욱이 지금까지 우리는 단지 객관적 평가지표들을 갖는 모델들을 평가하였다. 따라서 이것 및 다음의 챕터들에서 우리는 지각적 청취 테스트들을 포함함으로써 그리고 다양한 아날로그 오디오 효과를 모델링함으로써 이전의 아키텍처의 평가를 확장한다. 오디오 효과의 가상 아날로그 모델링이 아날로그 오디오 프로세서 레퍼런스 디바이스의 사운드를 에뮬레이팅하는 것을 포함하는 것을 고려한다. 우리는 유니버설 오디오 진공관 프리앰프(610-B)와 같은 비선형 효과들; 유니버설 오디오 트랜지스터-기반 리미터 앰프(1176LN)와 같은 장기 메모리를 갖는 비선형 효과; 및 145 레슬리 스피커 캐비넷의 회전 혼 및 회전 우퍼와 같은 전기기계적 비선형 시변 프로세서의 가상 아날로그 모델을 도시한다.

객관적 지각-기반 평가지표들 및 주관적 청취 테스트들을 통해 우리는 이들 아날로그 프로세서들을 모델링할 때 챕터 1 및 2: CAFx, WaveNet, CRAFx 및 CWAFx 로부터의 아키텍처들 각각의 성능을 입증한다. 우리는 이들 아키텍처들 사이의 체계적 비교를 수행하고, 우리는 메모리 없이 그리고 긴 시간 종속성들을 갖는 비선형 오디오 효과들을 모델링할 때 CAFx 및 웨이브넷이 유사하게 수행되지만 레슬리 스피커와 같은 시변 태스크들을 모델링하는 것을 실패한다는 것을 보고한다. 다른 한편으로 그리고 모든 태스크들에 걸쳐 CRAFx 및 CWAFx 와 같은 긴 시간 종속성들을 명시적으로 학습하기 위해 잠재-공간 RNN 들 또는 잠재-공간 시간 확장된 컨볼루션들을 통합하는 모델들은 모델들의 나머지를 객관적으로 그리고 주관적으로 능가하는 경향이 있다.

3.1 실험

3.1.1 모델

이 챕터의 실험들에 대해 우리는 CAFx, WaveNet, CRAFx 및 CWAFx 아키텍처들을 사용한다. 공정한 비교를 제공하기 위해 CAFx 및 웨이브넷은 사이즈 4096의 입력 프레임들을 처리하도록 적응되고 2048 샘플들의 홉 사이즈로 샘플링된다. CRAFx 및 CWAFx 는 각각 섹션 2.1 및 섹션 2.2 에서 설명된 바와 같이 정확하게 사용된다.

CAFx 에 대한 주요 수정은 최대-풀링 층을 사이즈 64 의 이동 윈도우로 증가시키는 적응 프론트-엔드에 있다. 모델의 나머지는 섹션 1.1 에서 도시된 바와 같다. 웨이브넷에 관하여, 우리는 모델을 1, 2,..., 128의 확장 팩터를 갖는 8개의 확장된 컨볼루션 층들의 2개의 스택들로 확장한다. 식 (1.2) 에 기초하여 이 아키텍처의 수용 필드는 1021 샘플이다. 타겟 필드는 4096 샘플이고, 따라서 모델에 제시된 입력 프레임은 5116 샘플의 슬라이딩 윈도우들을 포함한다(수학식 (1.3) 참조). 아키텍처의 나머지는 섹션 1.2 에서 제시된 바와 같다.

코드는 온라인으로 이용가능하다: https://githubcom/mchijmma/DL-AFx/tree/master/src. 또한, 부록 A 는 모든 모델에 걸친 파라미터 및 처리 시간의 수를 나타낸다.

3.1.2 트레이닝

이전 챕터에서 언급된 바와 같이, CAFX, CRAFx 및 CWAFx 아키텍처의 트레이닝은 초기화 단계를 포함한다. 일단 프론트-엔드 및 백-엔드가 예비 트레이닝되면, 컨볼루션, 순환, 밀집 및 활성화 층의 나머지는 각각의 모델에 통합되고, 모든 가중치는 종단간 지도 학습 작업에 따라 트레이닝된다. 웨이브넷 모델은 이 제2 단계 직후에 트레이닝된다.

최소화될 손실 함수는 평균 절대 오차이고, Adam(Kingma 및 Ba 2015)이 최적화기로서 사용된다. 이들 실험 및 각각의 모델에 대해, 동일한 지도 학습 트레이닝 절차를 수행하였다.

우리는 25 에포크의 조기 정지 인내(patience), 즉 검증 손실에 개선이 없는 경우 트레이닝을 정지한다. 이 모델은 학습률이 4배 감소하고 25 에포크의 인내로 추가로 미세 조정된다. 초기 학습 속도는 1e-4 이고 배치 크기는 오디오 샘플당 총 프레임 수를 포함한다. 평균적으로 총 에포크 수는 약 750 이다. 유효성 검사 하위 집합에 대해 오류가 가장 낮은 모델을 선택한다(섹션 3.1.3 참조). 레슬리 스피커 모델링 작업에 대해 조기 정지 및 모델 선택 절차는 트레이닝 손실에 기초하였다. 이는 섹션 3.3 에서 더 상세히 설명된다.

3.1.3 데이터세트

다양한 6-스트링 전기 기타 및 4-스트링 베이스 기타의 개별 2-초 노트의 가공전 녹음은 IDMT-SMT-Audio-Effects dataset(Stein 등 2010) 으로부터 획득된다. 우리는 각각의 오디오 효과 모델링 작업의 ?(wet) 샘플을 획득하기 위해 전기 기타 및 베이스의 1250 처리되지 않은 녹음을 사용한다. 가공전 녹음은 진폭 정규화되고, 각각의 작업에 대해 테스트 및 검증 샘플은 각각의 이 데이터세트의 5% 에 대응한다. 아날로그 오디오 프로세서가 가공전 노트로 샘플링된 후, 모든 녹음은 16 kHz로 다운샘플링되었다. 데이터세트는 온라인으로 이용 가능하다: https://zenodoorg/record/3562442.

범용 오디오 진공관 프리앰프(610-B).

이 마이크(microphone) 진공관 프리앰프(프리엠프)는 6176 빈티지 채널 스트립 장치에서 샘플링된다. 고조파 왜곡이 높은 출력 신호를 얻기 위해 프리앰프는 표 3.1의 설정으로 오버드라이브된다.

범용 오디오 트랜지스터 기반 리미터 증폭기(11776LN).

유사하게, 널리 사용되는 전계 효과 트랜지스터 리미터(11776LN)는 동일한 6176 빈티지 채널 스트립 장치로부터 샘플링된다. 리미터 샘플은 표 3.1 에서의 설정으로 녹음된다. 우리는 모델의 장기 메모리를 추가로 테스트하기 위해 가장 느린 어택(attack) 및 릴리스(release) 설정을 사용한다. 모든 압축률 값은 원본 1176의 모든 비율 버튼이 동시에 눌러지는 것에 대응한다. 따라서 이 설정은 어택 및 릴리스 시간의 변화로 인해 왜곡도 발생한다.

145 레슬리 스피커 캐비닛

145 레슬리 스피커 캐비닛의 회전 혼 및 우퍼로부터의 출력 샘플들은 AKG-C451-B 마이크로 녹음된다. 각각의 녹음은 혼 또는 우퍼에 수직으로 그리고 1 미터 떨어져 콘덴서 마이크를 배치함으로써 모노로 행해진다. 각각의 회전 스피커에 대해 2 개의 속도들이 녹음된다; 고속 회전에 대한 트레몰로 및 저속 회전에 대한 코랄(chorale). 혼의 회전 주파수는 대략 7 Hz 및 0.8 Hz이다. 트레몰로 및 코랄 설정들에 대해 각각의 Hz인 반면, 우퍼는 저속 회전들을 갖는다(Herrera 등 2009).

혼 및 우퍼 스피커들에 800 Hz 크로스오버 필터가 선행되기 때문에, 전기 기타의 가공전 노트들에 동일한 컷오프 주파수를 갖는 하이패스 FIR 필터를 적용하고, 혼 스피커에 대한 입력으로서 이들 샘플들만을 사용한다. 마찬가지로, 우퍼 스피커에 대해 로우패스 FIR 필터를 사용하여 가공전 베이스 노트들을 전처리한다. 양 스피커들의 오디오 출력은 각각의 FIR 필터들로 필터링된다. 이것은 기계적 및 전기적 잡음을 감소시키고 또한 진폭 및 주파수 변조들에 모델링 태스크들을 포커싱하기 위한 것이다. 또한 녹음들은 진폭 정규화된다.

각 아날로그 오디오 효과 모델링 작업에 대한 설정

3.1.4 객관적 평가지표

3 개의 평가지표들은 다양한 모델링 태스크로 모델을 테스트할 때 사용된다; 즉, 에너지-정규화된 평균 절대 에러; mfcc_코사인, MFCC들의 평균 코사인 거리(섹션 1.3.3 참조); 및 ms_mse, 변조 스펙트럼 평균 제곱 에러(섹션 2.3.3 참조).

3.1.5 청취 테스트

23세와 46세 사이의 30 명의 참가자들은 런던의 Queen Mary University 의 전문 청취실에서 수행된 실험에서 참여하였다. Queen Mary Ethics of Research Committee 는 참조 번호 QMREC2165 를 갖는 청취 테스트를 승인하였다. Web Audio Evaluation Tool (Jillings 등, 2015)은 테스트를 셋업하기 위해 사용되었고 참가자들은 Beyerdynamic DT-770 PRO 스튜디오 헤드폰들을 사용하였다.

참가자들은 음악가들, 사운드 엔지니어들 또는 중요한 청취 경험이 있는 사람들 사이에서 선택되었다. 청취 샘플들은 테스트 서브세트들로부터 획득되었고 테스트의 각각의 페이지는 참조 사운드, 즉, 원래의 아날로그 디바이스로부터의 녹음을 포함하였다. 테스트의 목적은 어느 사운드가 참조에 더 가까운지를 식별하는 것이었고, 참가자들은 참조 사운드와 관련하여 이들의 유사성에 따라 6개의 상이한 샘플들을 평가하였다.

따라서, 참가자들은 어떤 모델링 태스크가 그들이 청취하고 있는지에 대해 통지받았고, 샘플들을 '최소 유사'에서 '가장 유사'로 평가하도록 요청받았다. 이는 0 내지 100 의 척도에서 0 내지 1의 척도로 맵핑되었다. 샘플은 앵커로서의 드라이 샘플, 4개의 상이한 모델로부터의 출력 및 레퍼런스의 숨겨진 복사본으로 구성되었다. 테스트는 MUSHRA(Union 2003)에 기초한다.

3.2 결과

각각의 아키텍처 및 각각의 모델링 작업에 대해 트레이닝 절차가 수행되었다: 프리앰프는 진공관 프리앰프에 해당하고, 리미터는 트랜지스터 기반 리미터 증폭기에 해당하고, 혼 트레몰로 및 혼 코럴은 빠르고 느린 속도로 혼을 회전시키는 레슬리 스피커에 해당한다. 각각 우퍼 트레몰로와 우퍼 코럴은 해당 속도로 회전하는 우퍼에 연결된다. 그런 다음 테스트 하위 집합의 샘플로 모델을 테스트했으며 오디오 결과는 온라인에서 확인할 수 있다. https://mchijmma.github.io/DL-AFx/

모든 모델링 작업에 대한 청취 테스트의 결과는 도 3.1 에서 노치된 박스 플롯으로서 보여질 수 있다. 노치의 끝은 95% 신뢰 구간을 나타내고, 박스의 끝은 제1 및 제3 사분위수를 나타낸다. 또한, 녹색 선은 중간 점수를 나타내고, 자주색 원은 이상치를 나타낸다. 일반적으로, 앵커 및 숨겨진 레퍼런스 둘 모두는 각각 가장 낮은 중간 및 가장 높은 중간을 갖는다. CRAFx 및 CWAFx 와 같은 긴 시간 의존성을 명시적으로 학습하는 아키텍처가 모델의 나머지를 능가하기 때문에, 지각적 발견은 도 3.1 로부터의 객관적 평가지표와 밀접하게 매칭한다. 또한, 우퍼 코럴 작업에 대해, 후자의 성공하지 못한 성능은 또한 지각 점수(perceptual ratings)에서 입증된다. 이는 잠재적 공간 웨이브넷이 우퍼 코럴 회전 레이트와 같은 저주파수 변조를 학습하는 데 실패함을 나타낸다.

프리앰프 및 리미터 작업의 선택된 테스트 샘플 및 모든 상이한 모델에 대해 도 3.3 및 도 3.4 는 그들 각각의 스펙트로그램과 함께 입력, 레퍼런스, 및 출력 파형을 도시한다. 시간 도메인 및 주파수 도메인 둘 모두에서, 파형 및 스펙트로그램이 객관적 및 주관적 발견과 일치한다는 것이 관찰가능하다. 이들 비선형 작업의 성능을 보다 밀접하게 디스플레이하기 위해 도 3.5 는 각각의 파형의 세그먼트를 도시한다. 테스트 샘플의 개시를 처리할 때 상이한 모델이 오버드라이브 된 프리앰프로부터의 파형 형성뿐만 아니라 리미터의 어택 파형 형성과 어떻게 매칭하는지를 볼 수 있다.

레슬리 스피커 모델링 작업과 관련하여 도 3.6 내지 도 3.9는 그들 각각의 변조 스펙트럼 및 스펙트로그램과 함께 상이한 파형을 도시한다: 도 3.6 혼 트레몰로, 도 3.7 우퍼 트레몰로, 도 3.8 혼 코럴 및 도 3.9 우퍼 코럴. 스펙트럼으로부터 CRAFx 및 CWAFx가 레퍼런스의 진폭 및 주파수 변조를 도입 및 매칭하는 반면, CAFX 및 웨이브넷은 시변 태스크를 달성하지 못한다는 것이 주목할 만하다.

3.3 논의

단기 메모리를 갖는 비선형 태스크 - 프리앰프(preamp)

단기 메모리, 예컨대 CAFx 및 웨이브넷을 갖는 비선형 효과를 모델링하도록 설계된 아키텍처는 시간 종속성을 통합하는 모델에 의해 능가되었다. CRAFx 및 CWAFx 가 객관적으로 및 지각적으로 가장 높은 스코어링 모델이다. 이 태스크는 장기 메모리를 필요로 하지 않지만, CRAFx 및 CWAFx 로부터의 콘텍스트 입력 프레임 및 잠재적 공간 반복 및 웨이브넷층은 각각 프리앰프의 모델링에 이익을 주었다. 이 성능 개선은 프리앰프에 대한 추가적인 테스트가 필요할 수 있지만, 히스테리시스 또는 어택 및 릴리즈 타이밍과 같은 진공관 앰프에 존재하는 시간 거동을 고려할 수 있다.

챕터 1 및 Damskagg 등 (2019), 비선형 오디오 효과 모델링을 위한 최첨단을 대표하는, CRAFx 및 CWAFx가 이러한 아키텍처(CAFx 및 WaveNet)의 성능을 능가한다는 것은 주목할 만 하다. 챕터 1의 CAFx 및 웨이브넷이 1024 샘플의 입력 프레임 크기로 훈련되었다는 점은 주목할 가치가 있다. 이는 4096 샘플과 같은 더 큰 입력 프레임 크기를 처리할 때 모델링 기능이 감소함을 나타낼 수 있다. 마찬가지로 Damskagg 등(2019)에는 확장된 컨볼루션 스택 1개가 포함된 반면 웨이브넷 아키텍처는 2개를 사용했다.

그럼에도 불구하고, 도 3.2a 로부터, 우리는 모든 모델이 프리앰프의 모델링을 성공적으로 달성한 것으로 결론지을 수 있다. 대부분의 출력 오디오는 그들의 타겟 대응물로부터 단지 약간 식별가능하며, CRAFx 및 CWAFx 는 실제 아날로그 디바이스와 사실상 구별가능하지 않다.

시간-의존 비선형 태스크 - 리미터

리미터 태스크는 예상된 바와 같이, 1100 ms 릴리즈 게이트와 같은 긴 시간 종속성을 포함하기 때문에, 메모리를 포함하는 아키텍처는 객관적으로 및 주관적으로 더 높은 성능을 달성하였다. 도 3.4b 로부터, CAFx 및 웨이브넷 은 레퍼런스 스펙트로그램에 존재하지 않는 고주파수 정보를 도입한다는 것을 알 수 있다. 이는 모델이 리미터의 가변 비율과 함께 긴 릴리즈 시간으로 인한 왜곡 톤 특성과 같은, 하나의 입력 프레임을 넘는 정보를 모델링할 때 그들의 제한을 보상한다는 표시일 수 있다. 또한, 도 3.5b 로부터, 각각의 아키텍처가 리미터의 공격 거동을 어떻게 모델링하는지는 주목할 만하다.

우리는 모든 네트워크가 레퍼런스 타겟에 가깝게 매칭되더라도, 오디오 프로세서의 정확한 포화 파형 특성을 달성한 CRAFx 및 CWAFx 인 것으로 결론지을 수 있다. 후자는 CRAFx 및 CWAFx 가 다시 레퍼런스 타겟으로부터 사실상 구별할 수 없는 도 3.2b의 지각 결과들로 강조된다. CAFx 및 웨이브넷은 장기 메모리 능력의 부족으로 인해 뒤에 순위가 매겨져 있지만 이들 모델은 원하는 파형을 면밀히 달성했다는 것은 주목할 만하다.

시변 태스크 - 레슬리 스피커

혼 트레몰로 및 우퍼 트레몰로 모델링 작업과 관련하여, 회전하는 스피커, CRAFx 및 CWAFx 모두에 대해 매우 등급이 매겨지는 반면, CAFx 및 웨이브넷은 이러한 작업을 달성하지 못한다는 것을 알 수 있다. 따라서, 도 3.2c 및 도 3.2d 로부터의 지각적 발견은 ms_mse 평가지표 및 전체로 얻어진 결과를 확인하며, 우퍼 태스크는 혼 태스크와 더 나은 매칭을 갖는다. 그럼에도 불구하고, CRAFx 및 CWAFx 에 대해, 혼 트레몰로 태스크에 대한 객관적 및 주관적 평가는 성능의 상당한 감소를 나타내지 않으며, 시변 태스크 둘 모두가 이들 아키텍처에 의해 성공적으로 모델링되었다고 결론지을 수 있다.

CRAFx 는 CWAFx 보다 약간 더 높게 지각적으로 순위가 매겨진다. 이는 도 3.6 및 도 3.7 로부터의 각각의 변조 스펙트럼 및 스펙트로그램에서 볼 수 있는 레퍼런스 진폭 및 주파수 변조의 더 근접한 매칭을 나타낸다.

혼 코럴 및 우퍼 코럴 모델링 작업에 대해, CRAFx 및 CWAFx는 전자를 성공적으로 모델링한 반면 CRAFx만이 우퍼 코럴 작업을 달성하였다. 우퍼 코럴 작업은 0.8Hz 보다 낮은 변조에 해당하므로 이러한 저주파 변조를 모델링할 때 Bi-LSTM 이 잠재적 공간 웨이브보다 더 적합하다는 결론을 내릴 수 있다. 또한 이것은 비브라토와 같은 저주파 변조를 기반으로 효과를 모델링할 때 CWAFx 가 가장 높은 mae 값을 얻은 섹션 2.4 에 보고된 객관적 평가지표와 밀접하게 연관되어 있다.

일반적으로, 도 3.6 내지 도 3.9 로부터, 출력 파형이 레퍼런스의 파형과 일치하지 않는 것이 관찰가능하다. 이는 모델들이 훈련 데이터의 파형들에 오버피팅(overfitting)되지 않고 성공적인 모델들이 각각의 진폭 및 주파수 변조들을 도입하기 위해 학습하고 있음을 보여준다.

회전하는 스피커들의 위상이 전체 데이터세트에 걸쳐 변하기 때문에, 모델들은 정확한 레퍼런스 파형을 복제할 수 없다. 이러한 이유로 이들 작업의 조기 종료 및 모델 선택 절차는 검증 손실보다는 훈련 손실에 기초하였다. 이것은 또한 레슬리 스피커 모델링 태스크들에 걸친 높은 수의 스코어들의 이유인데 이는 이들 모델들이 타겟 데이터에서 그들의 위상을 정확히 매칭시키지 않으면서 변조들을 적용하기 때문이다. 위상 불변 비용 함수의 추가적인 구현은 상이한 아키텍처들의 성능을 향상시킬 수 있다.

CAFx 및 웨이브넷은 이들 시변 태스크들을 달성할 수 없었다. 양 아키텍처들이 상이한 전략들로 장기 메모리 제한들을 보상하려고 시도한다는 것을 주목할 가치가 있다. CAFx 는 여러 진폭 변조들을 잘못 도입하는 반면, 웨이브넷은 레퍼런스의 파형 엔벨로프를 평균화하려고 시도한다는 것이 제안된다. 이것은 레퍼런스와는 상당히 상이한 출력 오디오를 초래하며, 웨이브넷은 혼 트레몰로 및 혼 코럴 태스크들에 대해 최저로서 지각적으로 평가된다. 이것은 또한 우퍼 코럴 태스크에 대한 도 3.1 로부터의 ms_mse 결과들을 설명하며, 여기서 웨이브넷은 타겟 파형을 평균화하는 것이 레퍼런스 오디오에 존재하는 저주파수 진폭 변조들을 도입할 수 있기 때문에 최상의 스코어를 달성한다.

3.4 결론

이 챕터에서, 우리는 챕터 1 및 2로부터의 상이한 딥 러닝 아키텍처들을 제공한다. 우리는 튜브 프리앰프 및 트랜지스터 기반 리미터와 같은 단기 및 장기 메모리; 및 레슬리 스피커 캐비넷의 회전 혼 및 우퍼와 같은 비선형 시변 프로세서들로 비선형 효과들을 모델링할 때 모델들을 테스트하였다.

객관적 지각 기반 평가지표들 및 주관적 청취 테스트들을 통해, 우리는 모든 모델링 태스크들에 걸쳐 Bi-LSTM 들을 통합하는 아키텍처들 또는 더 적은 정도로 장기 시간 종속성들을 명시적으로 학습하고, 나머지 모델들을 능가하는 잠재적 공간 확장 컨볼루션들을 발견하였다. 이들 아키텍처로 우리는 아날로그 레프런스 프로세서와 사실상 구별할 수 없는 결과를 획득한다. 또한, 단기 메모리로 비선형 효과를 모델링하기 위한 최신 DNN 아키텍처들은 프리앰프 태스크를 매칭하고 리미터 태스크를 상당히 근사화할 때 유사하게 수행하지만 시변 레슬리 스피커 태스크를 모델링할 때 실패한다.

레슬리 스피커의 비선형 증폭기, 회전 스피커 및 나무 캐비닛이 성공적으로 모델링 되었다. 그럼에도 불구하고 모델링 작업에서 크로스오버 필터를 우회하고 그에 따라 드라이 및 ? 오디오를 필터링하였다. 이는 베이스 및 기타 샘플의 제한된 주파수 대역폭 때문이었으므로 이 모델링 작업은 하몬드(Hammond) 오르간 녹음과 같은 보다 적절한 데이터 세트와 함께 추가로 제공될 수 있다.

시간 및 주파수 양쪽 모두에 기초한 비용 함수는 모델들의 모델링 능력을 더 향상시키기 위해 사용될 수 있다. 또한, 가장 높은 순위의 아키텍처들은 과거 및 후속 콘텍스트 입력 프레임을 사용하기 때문에 이 레이턴시를 극복하기 위해 이들 아키텍처들을 적응시키는 것이 가능하다. 따라서, 실시간 애플리케이션들은 큰 입력 프레임 크기들 및 과거 및 미래 콘텍스트 프레임들에 대한 필요성에 의존하지 않고 장기 메모리를 포함하는 종단간 DNN 들로부터 상당히 이익을 얻을 것이다. 또한, CRAFx 및 CWAFx 로부터의 콘텍스트 입력 프레임만큼 큰 수용 필드를 갖는 종단간 웨이브넷 아키텍처가 또한 시변 모델링 작업에 제공될 수 있다.

Damskgg 등(2019)에서 모델이 현재 오디오 효과의 정적 표현을 학습하고 있기 때문에 네트워크에 대한 컨디셔닝 입력으로서의 제어의 도입이 조사될 수 있다. 마지막으로, 가상 아날로그를 넘는 애플리케이션이, 예를 들어, 믹싱 실행으로부터 일반화를 학습하도록 트레이닝될 수 있는 모델을 자동 믹싱 분야에서 구현할 수 있다.

4 인공 잔향 모델링

이 챕터에서, 우리는 플레이트 및 스프링과 같은 인공 잔향기를 모델링하기 위한 딥 러닝 아키텍처를 제시한다. 플레이트 및 스프링 잔향기는 심미적 이유로 주로 사용되고 그들의 특정 음파 품질에 대해 특성화되는 전기기계적 오디오 프로세서이다. 이들 잔향기의 모델링은 그들의 비선형 및 시변 공간 응답으로 인해 활성 연구 필드를 유지한다.

우리는 이러한 고도의 비선형 전기기계적 응답을 학습하기 위한 DNN 의 능력을 제공한다. 따라서, 희소 FIR(SFIR) 필터를 사용하는 디지털 잔향기에 기초하여, 우리는 신호-처리 시스템으로부터의 도메인 지식을 사용하고, 우리는 컨볼루션 리커런트 및 희소 필터링 오디오 효과 모델링 네트워크(CSAFx)를 제안한다.

따라서, 우리는 플레이트 및 스프링 장치에 존재하는 것들과 같은 잡음-형 및 분산 응답을 모델링하기 위해 희소하게 배치된 계수를 갖는 트레이닝가능한 FIR 필터를 통합함으로써 이전 아키텍처를 확장한다. 또한, 우리는 직접 사운드와 반사 사이의 시변 혼합 이득으로서 작용하기 위해 CRAFX 2.1 로부터의 SE(Squeeze-and-Excitation) 블록을 수정한다. 따라서, CSAFx 는 인공 잔향기를 모델링하기 위한 DSP-지정된 DNN 을 표현한다.

챕터 3 으로부터의 가상 아날로그 실험의 결과에 기초하여 우리는 베이스라인 모델로서 CRAFx 를 사용하고, 또한 인공 잔향을 모델링할 때 그의 능력을 테스트한다. 성능을 측정하기 위해, 우리는 지각적 청취 테스트를 수행하고, 또한 주어진 작업이 어떻게 달성되는지 및 모델이 실제로 학습하고 있는지를 분석한다.

이 작업 전에, 종단간 DNN 은 아직 인공 잔향기를 모델링하기 위해, 즉, 입력-출력 데이터로부터 학습하고 드라이 입력 오디오에 직접 반향 효과를 적용하도록 구현되지 않았다. 비록 잔향에 대한 딥 러닝이 깊이 연구된 필드가 되었지만(Feng 등. 2014, Han 등. 2015), 인공 잔향을 적용하는 것 또는 DNN 들을 갖는 모델링 플레이트 및 스프링 반향은 아직 탐구되지 않았다.

우리는 지각적 및 객관적 평가 양측 모두가 제안된 모델이 전기기계적 장치를 성공적으로 시뮬레이팅하고 오디오 효과를 모델링하기 위한 다른 DNN 보다 더 양호하게 수행된다는 것을 나타내는 CSAFx 가 CRAFx 를 능가한다는 것을 보고한다.

4.1 컨볼루션 리커런트 및 희소 필터링 네트워크 - CSAFx

이 모델은 CRAFx 상에 구축되고, 또한 시간-도메인 입력에 완전히 기초하며, 각각 입력 및 출력으로서 가공전 및 처리된 오디오와 함께 작동한다. 이는 3개의 부분들, 즉 적응 프론트-엔드, 잠재-공간 및 합성 백-엔드로 분할된다. 블록도가 도 4.1 에 도시되고, 코드가 온라인에서 이용가능하다: https://githubcom/mchijmma/modeling-plate-spring-reverb/tree/master/src 및 표 A1 은 파라미터의 수 및 계산 처리 시간을 디스플레이한다.

적응 프론트-엔드는 CRAFx 로부터의 것과 정확히 동일하다(표 2.1 참조). 이는 동일한 시간 분산형 컨볼루션 및 풀링 층을 따라, 잠재적 표현 Z 를 학습하는 32개의 채널들의 필터 뱅크 아키텍처를 산출한다. 입력은 크기 4096(256ms)이고, 홉 크기가 50% 인 것으로 샘플링된다. 이들 프레임은 크기 4096(256ms) 이고, 홉 크기가 50% 인 것으로 샘플링된다.

잠재적-공간

잠재적-공간의 블록도가 도 4.2 에 도시될 수 있고, 그 구조가 표 4.1 에 상세히 설명된다. 잠재적-공간은 Z 를 2개의 잠재적 표현, 즉 Z1＾ 및 Z2＾ 로 처리하기 위한 그의 주요 목적을 갖는다. 전자는 엔벨로프 신호의 세트에 대응하고, 후자는 희소 FIR 필터(Z3＾)의 세트를 생성하기 위해 사용된다.

프론트-엔드로부터의 잠재적 표현 Z 는 64 샘플 및 32 채널의 9개의 행에 대응하고, 이는 64 샘플 및 288 채널의 특징 맵으로 언롤링될 수 있다. 잠재적-공간은 활성화 함수로서 tanh 를 갖는 64 및 32 유닛의 2개의 공유된 Bi-LSTM 층을 포함한다. 이들 Bi-LSTM 층으로부터의 출력 특징 맵은 16 유닛들의 2개의 독립적인 Bi-LSTM 층에 공급된다. 이들 층들 각각은 이러한 방식으로 Z1＾ 및 Z2＾ 를 획득하는, 비선형성으로서 국부적으로 접속된 SAAF 에 의해 후속된다. 이전의 챕터들에 도시된 바와 같이, SAAF 은 오디오 처리 태스크에서 비선형성 또는 파형기로서 사용될 수 있다.

우리는 희소 의사-랜덤 잔향 알고리즘의 제약을 따르는 SFIR 층을 제안한다(Vlimki 등. 2012). 잔향 반사는 희소하게 배치된 계수를 갖는 FIR 필터를 통해 모델링된다. 이들 계수는 통상적으로 의사-랜덤 수 시퀀스(예를 들어, 벨벳 잡음)를 통해 획득되고, 이는 -1 및 +1 과 같은 이산 계수 값에 기초하고, 여기서 계수 중 각각의 하나는 Ts 샘플의 간격을 따르는 반면, 모든 다른 샘플들은 0 이다.

그럼에도 불구하고, SFIR에서, 이산 계수 값을 사용하는 대신에 각각의 계수는 -1 내지 +1 내에서 임의의 연속적인 값을 취할 수 있다. 따라서, 계수들 중 각각의 하나는 Ts 샘플의 각각의 간격 내에서 특정 인덱스 위치에 배치되는 반면, 나머지 샘플은 0 이다.

따라서, SFIR 층은 각각 1024 유닛의 2개의 독립적인 밀집 층에 의해 Z2＾를 처리한다. 밀집 층은 탄젠트(tanh) 및 시그모이드 함수가 뒤따르며, 그 출력은 각각 계수 값(coeff) 및 그 인덱스 위치(idx)이다. 특정 idx 값을 획득하기 위해 시그모이드 함수의 출력은 Ts 에 의해 승산되고 가장 가까운 정수로의 반올림이 적용된다. 이 동작은 상이하지 않아서 우리는 아이덴티티 그래디언트를 백워드 패스 근사로서 사용한다(Athalye 등, 2018). 고품질 잔향을 갖기 위해 우리는 초당 2000 계수를 사용하며, 따라서 16 kHz의 샘플링 레이트에 대해 Ts = 8 샘플을 사용한다.

CSAFx의 잠재적 공간의 상세한 아키텍쳐. 이는 입력 프레임 크기 4096 샘플 및 ±4 컨텍스트 프레임을 포함한다.

CSAFx의 합성 백-엔드의 상세한 아키텍쳐. 이는 입력 프레임 크기 4096 샘플 및 ±4 컨텍스트 프레임을 포함한다.

합성 백-엔드(synthesis back-end)

합성 백-엔드는 도 4.3 및 도 4.2 에서 더 상세히 보여질 수 있다. 백-엔드는 파형을 합성하고 잔향 작업을 달성하기 위해 SFIR 출력 Z3＾, 엔벨로프 Z1＾ 및 잔여 접속 R 을 사용한다. 그것은 풀링되지 않은 층, 컨볼루션 및 승산 동작, SAAF 를 갖는 DNN(DNN-SAAF), LSTM층 (SE-LSTM) 및 최종 컨볼루션층을 통합하는 2개의 수정된 스퀴즈-및-여기 블록((Hu 등., 2018)을 포함한다.

필터 뱅크 아키텍처 다음에: X3＾는 Z1＾ 를 업샘플링함으로써 획득되고 특징 맵 X5＾ 는 R과 Z3＾ 사이의 국부적으로 접속된 컨볼루션에 의해 달성된다. CRAFx에서와 같이, R은 X1 로부터 획득되고 현재 입력 프레임 x(0)의 주파수 대역 분해에 대응한다. X5＾ 는 다음의 수학식으로 획득된다.

여기서 i 는 32 채널의 필터 뱅크 아키텍처를 뒤따르는 특징 맵의 i번째 행을 나타낸다. 이 컨볼루션의 결과는 입력 오디오로 주파수 의존 잔향 응답을 명시적으로 모델링하는 것으로 보여질 수 있다. 또한, Bi-LSTM 에 의해 학습된 시간 종속성으로 인해, X5＾ 는 잔향 태스크의 늦은 반사를 개시 응답으로부터 나타낼 수 있다.

그 다음 특징 맵 X2＾ 는 잔향 응답 X5＾ 및 학습된 엔벨로프 X3＾ 의 요소별 곱셈의 결과이다. 엔벨로프는 입력 프레임 사이의 가청 아티팩트를 피하기 위해 적용된다(Jarvelainen and Karjalainen, 2007)

둘째로, 특징 맵 X4＾는 DNN-SAAF 블록으로부터의 파형 비선형성이 R 에 적용될 때 획득된다. 이 동작의 결과는 직접 사운드의 학습된 비선형 변환 또는 파형을 포함한다(섹션 1.1 참조). CRAFx 에서 사용된 바와 같이, DNN-SAAF 블록은 각각 32, 16, 16 및 32 은닉 유닛의 4개의 밀집 층을 포함한다. 각각의 밀집 층은 SAAF 층을 사용하는 마지막 층을 제외하고 비선형성으로서 하이퍼볼릭 탄젠트(tanh)를 사용한다.

X4＾ 및 X2＾ 에 대한 시변 이득으로서 작용하는 SE-LSTM 블록을 제안한다. SE 블록은 기능 맵의 채널별 정보를 명시적이고 적응적으로 확장하므로(Hu 등., 2018) 입력의 장기 컨텍스트를 포함하기 위해 SE 아키텍처에 LSTM 층을 통합한다. 각 SE-LSTM 은 (Kim 등, 2018)의 아키텍처를 기반으로 하는 섹션 2.1 의 SE 블록을 블록을 구축한다.

SE-LSTM 블록들은 절대 값 연산 및 글로벌 평균 풀링 연산에 이은 하나의 LSTM 및 32, 512 및 32 은닉 유닛의 2개의 밀집 층들을 각각 포함한다. LSTM 및 제1 밀집 층은 ReLu 에 이은 반면, 마지막 밀집 층은 S자형 활성화 함수를 사용한다. 도 3 에 도시된 바와 같이, 각각의 SE-LSTM 블록은 각각의 특징 맵 X4＾ 및 X2＾ 를 처리하여, 주파수 의존 시변 믹싱 이득 se1 및 se2 를 적용한다. 결과적인 특징 맵들 X1.1＾ 및 X1.2＾는 X0＾ 를 획득하기 위해 함께 가산된다.

이전의 딥 러닝 아키텍처에서와 같이 마지막 층은 그것의 필터가 제1 컨볼루션 층의 전치된 가중치들이기 때문에 트레이닝가능하지 않은 디컨볼루션 연산에 대응한다. 완전한 파형은 한 윈도우 및 일정한 중첩-가산 이득을 사용하여 합성된다. 이전의 CEQ, CAFx, CRAFx 및 CWAFx 아키텍처에 도시된 바와 같이 모든 컨볼루션은 시간 차원을 따르고 모든 스트라이드는 단위 값이다. 각각의 컨볼루션 층에 대해 우리는 동일한 패딩 및 확장을 사용한다.

전반적으로, 각 SAAF 는 국부적으로 연결되고 각 기능은 -1 에서 +1 사이의 25개 간격을 포함하고 각 Bi-LSTM 및 LSTM 은 0.1의 드롭아웃 및 반복 드롭아웃 비율을 갖는다.

4.2 실험

4.2.1 트레이닝

우리는 CRAFx 에서와 동일한 프리트레이닝 초기화 단계를 따른다. 일단 프론트-엔드 및 백-엔드의 컨볼루션층이 초기화되면, 잠재적-공간 Bi-LSTM, SFIR, DNN-SAAF 및 SE-LSTM 블록은 모델에 통합되고, 모든 가중치들은 잔향 태스크에 기초하여 공동으로 트레이닝된다.

최소화될 손실 함수는 시간 및 주파수에 기초하고 다음에 의해 설명된다.

여기서 MAE 는 평균 절대 오차이고 MSE 는 평균 제곱 오차이다. Y 및 Y＾ 는 각각 타겟 및 출력의 로그 전력 크기 스펙트럼들이고, y 및 y＾ 는 그들 각각의 파형들이다. MAE 를 계산하기 전에 다음의 프리엠퍼시스 필터(pre-emphasis filter)가 y 및 y＾ 에 적용된다.

Damskagg 등. (2019)에서 H(z)는 고주파수에 더 많은 가중치를 추가하기 위해 적용하는 고역 통과 필터이다 Y 와 Y＾ 를 얻기 위해 4096포인트 FFT 를 사용한다. 시간 및 주파수 손실을 조정하기 위해 손실 가중치 α1 및 α2 로 각각 1.0 및 1e-4 를 사용한다. 주파수 및 시간 영역의 명시적 최소화는 이러한 복잡한 잔향 응답을 모델링할 때 매우 중요하였다. 시간 영역과 주파수 영역에서 각각 프리엠퍼시스 필터와 대수 전력 스펙트럼을 통합하여 고주파에 대한 관심을 더욱 강조한다.

양측 트레이닝 단계 모두에 대해 (Adam Kingma and Ba 2015 )가 최적화기로서 사용되고, 우리는 섹션 4.2.1 로부터의 동일한 조기 중지 절차를 사용한다. 우리는 검증 손실에 개선이 없는 경우 25 에포크의 인내 값(patience value)을 사용한다. 유사하게 그 후 모델은 25% 만큼 감소된 학습 속도 및 또한 25 에포크의 인내 값으로 더 미세-조정된다. 초기 학습 속도는 1e-4 이고, 배치 크기(batch size)는 오디오 샘플 당 프레임의 총 수를 포함한다. 우리는 검증 서브세트에 대해 가장 낮은 에러를 갖는 모델을 선택한다.

4.2.2 데이터세트

플레이트 잔향은 IDMT-SMT-Audio-Effects dataset Stein 등. (2010)로부터 획득되고, 이는 개별적인 2-초 노트에 대응하고 다양한 전기 기타 및 베이스 기타의 공통 피치 범위를 커버한다. 우리는 베이스 기타 녹음으로부터 가공전 및 플레이트 잔향 노트를 사용한다. 스프링 잔향 샘플은 전기 기타 가공전 오디오 샘플을 스프링 잔향 탱크 Accutronics 4EB2C1B 로 처리함으로써 획득된다. 플레이트 잔향 샘플은 VST 오디오 플러그-인에 대응하는 반면, 스프링 잔향 샘플은 병렬로 배치된 2개의 스프링에 기초하는 아날로그 잔향 탱크를 사용하여 녹음된다는 것을 주목할 가치가 있다.

각각의 잔향 태스크에 대해, 우리는 624개의 가공전 및 영향받은 노트를 사용하고, 테스트 및 검증 샘플 모두는 각각의 이 서브세트의 5% 에 대응한다. 녹음은 16 kHz 로 다운샘플링되고, 진폭 정규화가 적용된다. 또한, 플레이트 잔향 샘플은 녹음의 마지막 0.5초에 적용된 페이드-아웃을 갖기 때문에 우리는 그에 따라 스프링 잔향 샘플을 처리한다. 데이터세트는 온라인으로 이용가능하다: https://zenodoorg/record/3746119

인공잔향 모델링 작업별 설정

4.2.3 평가

다양한 모델링 작업으로 모델을 테스트할 때 두 가지 객관적 평가지표가 사용됩니다. mae, 에너지 정규화 평균 절대 오차; 및 mfcc_cosine, MFCC의 평균 코사인 거리(섹션 1.3.3 참조).

섹션 3.1.5 에 기술된 바와 같이, 우리는 또한 모델의 성능을 측정하기 위해 지각적 청취 테스트를 수행하였다. 30명의 참가자가 런던의 Queen Mary University의 전문 청취실에서 진행된 테스트를 완료했다. 참가자는 음악가, 사운드 엔지니어 또는 중요한 청취 경험이 있는 사람들 사이에서 선택되었다. 오디오는 Beyerdynamic DT-770 PRO 스튜디오 헤드폰을 통해 재생되었으며 웹 오디오 평가 도구(Jillings 등., 2015)를 사용하여 테스트를 설정하였다.

참가자들에게 테스트 하위 집합의 샘플이 제공되었다. 각 페이지에는 원본 플레이트 또는 스프링 리버브의 참조 사운드가 포함된다. 참가자들에게 레퍼런스 사운드와 관련하여 이들의 유사성에 따라 4개의 다른 샘플을 평가하도록 요청하였다. 테스트의 목적은 어떤 소리가 참조에 더 가까운지 확인하는 것이었다. 따라서 테스트는 MUSHRA 방법(Union, 2003)을 기반으로 한다. 샘플은 CSAFx, CRAFx 의 출력, 참조의 숨겨진 복사본 및 숨겨진 앵커로서의 건조 샘플로 구성되었다.

4.3 결과 및 분석

CSAFx의 잔향 모델링 능력을 비교하기 위해 우리는 CRAFx 를 베이스라인으로서 사용하고, 이는 레슬리 스피커와 같은 장기 메모리 및 저주파수 변조들을 갖는 복잡한 전기기계 장치를 모델링할 수 있는 것으로 입증되었다(챕터 3 참조). 후자는 CSAFx 와 유사한 아키텍처를 제시하지만 그것의 잠재적-공간 및 백-엔드는 시변 오디오 효과들에 매칭하기 위해 진폭 및 주파수 변조들을 명시적으로 학습하고 적용하도록 설계되었다. 양쪽 모델들은 동일한 절차 하에서 트레이닝되고, 테스트 데이터세트로부터의 샘플로 테스트되고, 오디오 결과들은 온라인으로 이용가능하다: https://mchijmmagithubio/modeling-plate-spring-reverb/

표 4.4 는 식(4.6)으로부터의 상응하는 손실 값을 보여준다. 제안된 모델은 양쪽 태스크에서 CRAFx 를 능가한다. 플레이트 잔향의 경우 입력 파형과 대상 파형 사이의 평균 mae 및 mfcc_cosine 값은 각각 0.16 및 0.15 이다. CSAFx 가 더 나은 결과를 달성하면서 양측 모델 모두 mae 측면에서 유사하게 잘 수행되는 것으로 나타났다. 그럼에도 불구하고 mfcc_cosine 의 관점에서 CRAFx로 얻은 값은 지각적으로 드라이 노트가 이 모델의 출력보다 대상에 더 가깝다는 것을 나타낸다.

스프링 리버브 태스크의 경우, 입력 파형과 목표 파형 사이의 평균 mae 및 mfcc_cosine 값은 각각 0.22 및 0.34 이다. 같은 방식으로 mae 값의 개선을 기반으로 파형과 유사한 일치를 볼 수 있다. 또한 mfcc_cosine의 결과를 기반으로 CSAFx 만이 드라이 레코딩의 값을 향상시킬 수 있음을 알 수 있다. 플레이트 및 스프링 리버브 작업 모두에 대해 입력 파형과 대상 파형 사이의 평균 MSE 값이 각각 9.64 및 41.29 이므로 후자가 추가로 확인된다.

청취 테스트의 결과는 도 4.5 에서 노치 박스 플롯(a notched box plot)으로 볼 수 있다. 상자의 끝은 1사분위수와 3사분위수를 나타내고, 노치의 끝은 95% 신뢰 구간을 나타내며, 녹색 선은 중간 등급을 나타내고, 원은 이상값을 나타낸다. 예상대로 앵커와 참조는 각각 중앙값이 가장 낮고 가장 높다. 플레이트 및 스프링 잔향 태스크 모두에서 CSAFx 는 높은 평가를 받는 반면 CRAFx 는 잔향 작업을 수행하지 못하는 것이 분명하다.

따라서, 지각적 발견은 손실, mae 및 mfcc_cosine 평가지표로 얻은 결과를 확인하고 마찬가지로 플레이트 모델은 스프링 잔향기에 더 잘 일치한다. 이러한 결과는 플레이트 잔향 샘플이 플레이트 잔향기의 디지털 에뮬레이션에 해당하는 반면 스프링 잔향 샘플은 아날로그 잔향 탱크에 해당하기 때문이다. 따라서 예상대로 스프링 잔향 샘플은 모델링하기 훨씬 더 어려운 작업을 나타낸다. 또한 스프링에 대한 지각 등급 및 객관적 평가지표 값은 성능의 현저한 감소를 나타내지 않지만 더 많은 수의 필터, 다른 손실 가중치 또는 입력 프레임 크기를 통해 스프링 늦은 반사의 모델링을 추가로 제공할 수 있다.

전반적으로, 초기 시작 응답은 보다 정확하게 모델링되는 반면 늦은 반사는 언급된 바와 같이 모든 모델에서 더 높은 손실을 나타내는 스프링의 경우에 더 현저하게 다르다. 이 모델은 입력 파형에 없는 특정 반사를 도입하여 각 대상의 반사와 거의 일치한다. 또한 CRAFx는 보고된 목표 및 지각 점수와 함께 대상의 높은 주파수와 일치하지 않는다. CSAFx의 경우 대상과 관련된 시간 및 주파수 영역의 차이도 획득한 손실 값에 해당한다.

4.4 결론

이 챕터에서는 인공 잔향기를 모델링하기 위한 신호 처리 정보 딥 러닝 아키텍처인 CSAFx 를 소개하였다.

이 아키텍처에 대해 우리는 SFIR 층을 제안했고, 따라서 희소 FIR 필터의 계수를 학습하기 위해 DNN 의 기능을 탐색하였다. 마찬가지로 우리는 DNN 이 시변 혼합 게인을 학습할 수 있도록 하기 위해 SE-LSTM 블록을 도입하였다. 이는 CSAFx에서 다이렉트 사운드와 각각의 잔향을 동적으로 혼합하는데 사용된다. 따라서 이전 RNN 기반 모델을 능가하는 더 설명 가능한 네트워크를 도입한다.

딥 러닝 아키텍처는 플레이트 및 스프링 잔향기를 모방할 수 있으며 청취 테스트를 통해 모델의 성능을 측정할 수 있다. 우리는 CSAFx 가 이러한 비선형 및 시변 오디오 프로세서의 특징적인 잡음과 같은 분산 응답을 성공적으로 일치시키는 것을 보여준다..

청취 테스트 결과 및 지각 기반 평가지표는 모델이 전자 기계식 잔향기를 밀접하게 에뮬레이션하고 또한 CRAFx 보다 더 높은 점수를 달성함을 보여준다. 후자는 이전 챕터에서 오디오 효과의 블랙박스 모델링을 위한 여러 DNN 보다 우수한 것으로 입증된 오디오 효과 모델링 네트워크에 해당한다. 따라서 CSAFx 에서 얻은 결과는 놀랍고 제안된 아키텍처가 인공 잔향기의 블랙박스 모델링을 위한 최신 딥 러닝을 대표한다고 결론을 내릴 수 있다. 표 A.1 에서 GPU 와 CPU 의 계산 처리 시간은 CSAFx 에서 훨씬 더 높다. 이러한 시간은 실시간으로 최적화되지 않은 파이썬 (Python) 구현을 사용하여 계산되었으므로 CSAFx 에 텐서플로우(tensorflow)와 같은 차별화 가능한 프로그래밍 라이브러리 내에서 최적화되지 않은 SFIR 과 같은 사용자 지정 레이어가 포함되어 있기 때문에 계산 비용이 더 높을 수 있다.

또한 제안된 DNN 과 수치 시뮬레이션 또는 모달 기술과 같은 플레이트 및 스프링 잔향을 모델링하기 위한 현재 분석 방법 사이의 추가적인 체계적인 비교가 제공된다. 또한 실제 전기 기계식 플레이트 잔향을 모델링하면 플레이트 및 스프링 잔향을 모델링할 때 CSAFx 성능을 향상시킬 수 있다.

플레이트 및 스프링 리버브 샘플이 레코딩의 마지막 0.5초 에 적용되는 페이드 아웃을 갖기 때문에 더 긴 감쇠 시간 및 늦은 반사의 모델링도 구현될 수 있다. 파라매트릭 모델은 각각의 컨트롤을 새로운 입력 트레이닝 데이터로 포함하여 제공할 수 있다.

마찬가지로 아키텍처는 빈티지 디지털 잔향기를 모델링하거나 컨볼루션 기반 잔향 응용 프로그램을 통해 추가로 테스트할 수 있다. 후자는 사운드 공간화 및 실내 음향 모델링 분야 내에서 응용 프로그램을 제공한다.

본 명세서에 개시된 각각의 모델 및 아키텍처에 따른 파라매트릭 모델은 또한 모델이 각각의 오디오 효과 모델링 작업의 정적 표현을 학습하고 있기 때문에 달성될 수 있다. 따라서 각 컨트롤을 새로운 입력 트레이닝 데이터로 포함하여 효과 장치의 매개변수 동작을 모델링할 수 있다. 또한 이것은 '예비 설정' 또는 컨트롤 세트로 확장될 수 있다.

제안된 모델은 오프라인 또는 실시간 구현을 통해 작동할 수 있다. 실시간 모델은 예를 들어 C++ 최적화를 통해 얻을 수 있다. 처리 시간이 이미 실시간 임시 제약 조건에 가깝기 때문이다. 인과 모델, 즉 후속 컨텍스트 프레임이 없는 모델도 구현할 수 있다. 이는 과거 및 후속 컨텍스트 입력 프레임을 모두 사용하는 제안된 아키텍처 때문이다. 더 짧은 입력 프레임 크기를 사용하는 인과 관계 모델을 구현하면 대기 시간이 짧고 실시간으로 구현될 수 있다.

잠재적 공간 DNN 에 의해 학습된 가중치는 프런트 엔드의 컨볼루션 층에 의해 학습된 필터의 분석으로 최적화될 수 있다.

프런트 엔드의 컨볼루션 층에 의해 잠재적 공간 DNN 에 의해 학습된 가중치는 입력 오디오가 변환되는 방식을 변경하기 위해 추론 중에 수정될 수 있다. 따라서 일반적인 아날로그 또는 디지털 오디오 프로세서를 사용해서는 불가능했던 새로운 변환을 달성할 수 있다. 이는 딥 러닝 기반 효과를 위한 새로운 제어 세트로 사용할 수 있다.

제안된 아키텍처는 다른 유형의 오디오 프로세서를 모델링하는데 사용될 수 있다. 예를 들어; 피드백 딜레이, 슬랩백 딜레이 또는 테이프 기반 딜레이와 같이 에코를 기반으로 하는 시간적 종속성이 긴 오디오 효과. 제안된 아키텍처는 저주파 변조기 신호 또는 엔벨로프에 의해 구동되는 시변 오디오 효과를 모델링하도록 설계되었지만 확률적 효과, 즉 잡음에 의해 구동되는 오디오 프로세서 모델링도 얻을 수 있다. 예를 들어, 노이즈 생성기는 SE 또는 SE-LSTM 층을 통해 확장될 수 있는 이러한 네트워크의 합성 백엔드에 포함될 수 있다. 또한 입력 신호 레벨에 따라 다른 EQ 곡선을 적용하는 동적 이퀄라이저를 CRAFx 또는 CWAFx 아키텍처로 모델링할 수 있다.

완전히 다른 계열의 효과도 제공될 수 있다. 여기에는 오디오 모핑, 음색 변환, 위상 보코더 효과와 같은 시간-주파수 프로세서가 포함된다; 시간 스트레칭, 피치 이동, 시간 셔플링 및 그래뉼화(granulation)와 같은 시간 세그먼트 프로세서; 3D 확성기 설정 또는 실내 음향 모델링과 같은 공간 오디오 효과 ;"룩어헤드(lookahead)" 설정을 포함하는 오디오 프로세서와 같은 비인과적 효과.

채널 간 교차 적응 시스템의 구현을 위해 저수준 및 지각 기능을 추출하고 매핑하는 적응 디지털 오디오 효과도 구현할 수 있다. 적응 오디오 효과 작업이 주어지면, 다른 프로세서의 매개 변수를 제어하기 위한 사운드 기능의 이러한 매핑은 제안된 다양한 아키텍처를 공동으로 훈련함으로써 제공될 수 있다. 아키텍처는 일련의 오디오 효과로 영향을 받는 대상 사운드를 기반으로 모델이 동일한 변환을 다른 입력 오디오로 복제하는 방법을 배우는 스타일 학습 작업에 사용할 수 있다.

이러한 아키텍처의 가능한 어플리케이션은 자동 믹싱 및 마스터링 분야 내에 있다. 자동 선형 및 비선형 처리는 자동 EQ, 컴프레션 또는 잔향과 같은 자동 믹싱 작업을 위해 구현될 수 있다. 또한 특정 사운드 엔지니어의 스타일 학습을 구현할 수 있다. 여기서 네트워크는 사운드 엔지니어가 믹싱한 여러 트랙으로 훈련되고 엔지니어의 믹싱 관행에서 일반화를 찾는다. 또한 하나 또는 여러 장르의 특정 악기에 대한 자동 포스트 프로덕션을 모델에서 학습하고 구현할 수 있다.

구현 예들은 위에서 설명된 바와 같은 기술들의 다수의 수정들 및 변형들을 포함한다.

오디오 효과 모델링 및 지능형 음악 제작을 넘어서는 애플리케이션, 예를 들어 왜곡 제거, 노이즈 제거 및 잔향 제거와 같은 신호 복원 방법도 구현될 수 있다.

본 명세서의 흐름도 및 그에 대한 설명은 거기에 설명된 방법 단계를 수행하는 고정된 순서를 규정하는 것으로 이해되지 않아야 한다. 오히려, 방법 단계는 실행 가능한 임의의 순서로 수행될 수 있다. 본 발명은 특정한 예시적인 구현 예와 관련하여 설명되었지만 첨부된 청구범위에 기재된 바와 같이 본 발명의 사상 및 범위를 벗어나지 않고 개시된 구현 예에 대해 당업자에게 자명한 다양한 변경, 대체 및 변경이 이루어질 수 있음을 이해해야 한다.

여기에 설명된 방법 및 프로세스는 코드(예: 소프트웨어 코드) 및/또는 데이터로 구현될 수 있다. 이러한 코드 및 데이터는 컴퓨터 시스템에서 사용하기 위한 코드 및/또는 데이터를 저장할 수 있는 임의의 장치 또는 매체를 포함할 수 있는 하나 이상의 컴퓨터 판독 가능 매체에 저장될 수 있다. 컴퓨터 시스템이 컴퓨터 판독 가능 매체에 저장된 코드 및/또는 데이터를 읽고 실행할 때, 컴퓨터 시스템은 컴퓨터 판독 가능 저장 매체 내에 저장된 데이터 구조 및 코드로 구체화된 방법 및 프로세스를 수행한다. 특정 구현 예에서, 본 명세서에 기술된 방법 및 프로세스의 단계 중 하나 이상은 프로세서(예를 들어, 컴퓨터 시스템 또는 데이터 저장 시스템의 프로세서)에 의해 수행될 수 있다. 컴퓨터 판독가능 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 및 사용되는 다른 데이터와 같은 정보의 저장에 사용될 수 있는 착탈식 및 비착탈식 구조/장치를 포함한다는 것을 당업자는 인식해야 한다. 컴퓨팅 시스템/환경에 의해 컴퓨터 판독 가능 매체는 랜덤 액세스 메모리(RAM, DRAM, SRAM)와 같은 휘발성 메모리; 플래시 메모리, 다양한 읽기 전용 메모리(ROM, PROM, EPROM, EEPROM), 자기 및 강자성/강유전체 메모리(MRAM, FeRAM), 상변화 메모리, 자기 및 광 저장 장치(하드 드라이브, 자기 테이프, CD, DVD); 네트워크 장치; 또는 컴퓨터 판독 가능 정보/데이터를 저장할 수 있는 현재 알려져 있거나 나중에 개발된 기타 매체. 컴퓨터 판독 가능 매체는 전파 신호를 포함하는 것으로 해석되거나 해석되지 않아야 한다.

참고문헌

다음의 참조문헌은 본 명세서 전반에 걸쳐 참조되며, 모두 본원에 참조로 포함된다.

Jonathan S Abel and David P Berners. A technique for nonlinear system measurement. In 121st Audio Engineering Society Convention, 2006.

Jonathan S Abel, David P Berners, Sean Costello, and Julius O Smith. Spring reverb emulation using dispersive allpass filters in a waveguide structure. In 121st Audio Engineering Society Convention, 2006.

Jonathan S Abel, David P Berners, and Aaron Greenblatt. An emulation of the emt 140 plate reverberator using a hybrid reverberator structure. In 127th Audio Engineering Society Convention, 2009.

Jerome Antoni and Johan Schoukens. A comprehensive study of the bias and variance of frequency-response-function measurements: Optimal window selection and overlapping strategies. Automatica, 43(10):1723-1736, 2007.

Kevin Arcas and Antoine Chaigne. On the quality of plate reverberation. Applied Acoustics, 71(2):147-156, 2010.

Anish Athalye, Nicholas Carlini, and David Wagner. Obfuscated gradients give a false sense of security: circumventing defenses to adversarial examples. In International Conference on Machine Learning, 2018.

Shaojie Bai, J Zico Kolter, and Vladlen Koltun. Convolutional sequence modeling revisited. In 6th International Conference on Learning Representations (ICLR), 2018.

Daniele Barchiesi and Joshua D. Reiss. Reverse engineering of a mix. Journal of the Audio Engineering Society, 58(7/8):563-576, 2010.

Stefan Bilbao. A digital plate reverberation algorithm. Journal of the Audio Engineer- ing Society, 55(3):135-144, 2007.

Stefan Bilbao. Numerical sound synthesis. Wiley Online Library, 2009.

Stefan Bilbao. Numerical simulation of spring reverberation. In 16th International Conference on Digital Audio Effects (DAFx-13), 2013.

Stefan Bilbao and Julian Parker. A virtual model of spring reverberation. IEEE Transactions on Audio, Speech and Language Processing, 18(4):799-808, 2009.

Stefan Bilbao, Kevin Arcas, and Antoine Chaigne. A physical model for plate reverberation. In IEEE International Conference on Acoustics, Speech, and Signal Processing, 2006.

Christopher M Bishop. Pattern recognition and machine learning. springer, 2006.

Merlijn Blaauw and Jordi Bonada. A neural parametric singing synthesizer. In Interspeech, 2017.

Olafur Bogason and Kurt James Werner. Modeling circuits with operational transconductance amplifiers using wave digital filters. In 20th International Con- ference on Digital Audio Effects (DAFx-17), 2017.

Chi-Tsong Chen. Linear system theory and design. Oxford University Press, Inc.,1998.

Sharan Chetlur, Cliff Woolley, Philippe Vandermersch, Jonathan Cohen, John Tran, Bryan Catanzaro, and Evan Shelhamer. cuDNN: Efficient primitives for deep learning. CoRR, abs / 1410.0759, 2014.

Kyunghyun Cho, Bart Van Merri

nboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. Learning phrase repre- sentations using RNN encoder-decoder for statistical machine translation. arXiv preprint arXiv:1406.1078, 2014.

Francois Chollet. Deep Learning with Python. Manning Publications Co., 2018.

Eero-Pekka Damskδgg, Lauri Juvela, Etienne Thuillier, and Vesa Vδlimδki. Deep learning for tube amplifier emulation. In IEEE International Conference on Acous- tics, Speech, and Signal Processing (ICASSP), 2019.

Brecht De Man, Joshua D Reiss, and Ryan Stables. Ten years of automatic mixing. In Proceedings of the 3rd Workshop on Intelligent Music Production, 2017.

Giovanni De Sanctis and Augusto Sarti. Virtual analog modeling in the wave- digital domain. IEEE Transactions on Audio, Speech, and Language Processing, 2009.

Junqi Deng and Yu-Kwong Kwok. Automatic chord estimation on seventhsbass chord vocabulary using deep neural network. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2016.

Sander Dieleman and Benjamin Schrauwen. End-to-end learning for music audio. In International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2014.

Michele Ducceschi and Craig J Webb. Plate reverberation: Towards the develop- ment of a real-time physical model for the working musician. In International Congress on Acoustics (ICA), 2016.

John Duchi, Elad Hazan, and Yoram Singer. Adaptive subgradient methods for online learning and stochastic optimization. Journal of machine learning research, 12(Jul):2121-2159, 2011.

Simon Durand, Juan P Bello, Bertrand David, and Ga

l Richard. Downbeat track-ing with multiple features and deep neural networks. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2015.

Douglas Eck and Juergen Schmidhuber. A first look at music composition using lstm recurrent neural networks. Istituto Dalle Molle Di Studi Sull Intelligenza Artificiale, 103, 2002.

Felix Eichas and Udo Zolzer. Black-box modeling of distortion circuits with block- oriented models. In 19th International Conference on Digital Audio Effects (DAFx- 16), 2016.

Felix Eichas and Udo Zolzer. Virtual analog modeling of guitar amplifiers with wiener-hammerstein models. In 44th Annual Convention on Acoustics, 2018.

Felix Eichas, Marco Fink, Martin Holters, and Udo Zolzer. Physical modeling of the mxr phase 90 guitar effect pedal. In 17th International Conference on Digital Audio Effects (DAFx-14), 2014.

Felix Eichas, Etienne Gerat, and Udo Zolzer. Virtual analog modeling of dynamic range compression systems. In 142nd Audio Engineering Society Convention, 2017.

Jesse Engel, Cinjon Resnick, Adam Roberts, Sander Dieleman, Mohammad Norouzi, Douglas Eck, and Karen Simonyan. Neural audio synthesis of musical notes with wavenet autoencoders. 34th International Conference on Machine Learning, 2017.

Jesse Engel, Lamtharn Hantrakul, Chenjie Gu, and Adam Roberts. DDSP: Dif- ferentiable digital signal processing. In 8th International Conference on Learning Representations (ICLR), 2020.

Dumitru Erhan, Yoshua Bengio, Aaron Courville, and Pascal Vincent. Visualizing higher-layer features of a deep network. University of Montreal, 1341(3):1, 2009.

Angelo Farina. Simultaneous measurement of impulse response and distortion with a swept-sine technique. In 108th Audio Engineering Society Convention, 2000.

Xue Feng, Yaodong Zhang, and James Glass. Speech feature denoising and dere- verberation via deep autoencoders for noisy reverberant speech recognition. In IEEE International Conference on Acoustics, Speech, and Signal Processing, 2014.

Benjamin Friedlander and Boaz Porat. The modified Yule-Walker method of ARMA spectral estimation. IEEE Transactions on Aerospace and Electronic Systems, (2):158-173, 1984.

Todor Ganchev, Nikos Fakotakis, and George Kokkinakis. Comparative evaluation of various mfcc implementations on the speaker verification task. In International Conference on Speech and Computer, 2005.

Patrick Gaydecki. Foundations of digital signal processing: theory, algorithms and hard- ware design, volume 15. Iet, 2004.

Etienne Gerat, Felix Eichas, and Udo Z

lzer. Virtual analog modeling of a urei 1176ln dynamic range control system. In 143rd Audio Engineering Society Conven- tion, 2017.

Felix A Gers, J

rgen Schmidhuber, and Fred Cummins. Learning to forget: Continual prediction with LSTM. IET, 1999.

Dimitrios Giannoulis, Michael Massberg, and Joshua D Reiss. Parameter automa- tion in a dynamic range compressor. Journal of the Audio Engineering Society, 61 (10):716-726, 2013.

Pere Llu

s Gilabert Pinal, Gabriel Montoro Lσpez, and Eduardo Bertran Alberti. On the wiener and hammerstein models for power amplifier predistortion. In IEEE Asia-Pacific Microwave Conference, 2005.

Xavier Glorot and Yoshua Bengio. Understanding the difficulty of training deep feedforward neural networks. In the 13th International Conference on Artificial Intelligence and Statistics, 2010.

Luke B Godfrey and Michael S Gashler. A continuum among logarithmic, linear, and exponential functions, and its potential to improve generalization in neu- ral networks. In 7th IEEE International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management, 2015.

Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep learning. MIT press, 2016.

Alex Graves and J

rgen Schmidhuber. Framewise phoneme classification with bidirectional lstm and other neural network architectures. Neural Networks, 18 (5-6):602-610, 2005.

Alex Graves, Abdel-rahman Mohamed, and Geoffrey Hinton. Speech recognition with deep recurrent neural networks. In IEEE International Conference on Acous- tics, Speech, and Signal Processing (ICASSP), 2013.

Aaron B Greenblatt, Jonathan S Abel, and David P Berners. A hybrid reverberation crossfading technique. In IEEE International Conference on Acoustics, Speech, and Signal Processing, 2010.

Sina Hafezi and Joshua D. Reiss. Autonomous multitrack equalization based on masking reduction. Journal of the Audio Engineering Society, 63(5):312-323, 2015.

Anna Hagenblad. Aspects of the identification of Wiener models. PhD thesis, Link

pings Universitet, 1999.

Stefan L Hahn. Hilbert transforms in signal processing, volume 2. Artech House Boston, 1996.

Philippe Hamel, Matthew EP Davies, Kazuyoshi Yoshii, and Masataka Goto. Trans- fer learning in MIR: Sharing learned latent representations for music audio classification and similarity. In 14th International Society for Music Information Retrieval Conference (ISMIR), 2013.

Jiawei Han, Jian Pei, and Micheline Kamber. Data mining: concepts and techniques.

Elsevier, 2011.

Kun Han, Yuxuan Wang, DeLiang Wang, William S Woods, Ivo Merks, and Tao Zhang. Learning spectral mapping for speech dereverberation and denoising. IEEE Transactions on Audio, Speech and Language Processing, 23(6):982-992, 2015.

Yoonchang Han, Jaehun Kim, and Kyogu Lee. Deep convolutional neural net- works for predominant instrument recognition in polyphonic music. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 25(1):208-221, 2016.

Aki Harma, Matti Karjalainen, Lauri Savioja, Vesa Valimaki, Unto K Laine, and Jyri Huopaniemi. Frequency-warped signal processing for audio applications. Journal of the Audio Engineering Society, 48(11):1011-1031, 2000.

Scott H Hawley, Benjamin Colburn, and Stylianos I Mimilakis. SignalTrain: Pro- filing audio compressors with deep neural networks. In 147th Audio Engineering Society Convention, 2019.

Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learn- ing for image recognition. In IEEE Conference on Computer Vision and Pattern Recognition, 2016.

Thomas Helie. On the use of volterra series for real-time simulations of weakly nonlinear analog audio devices: Application to the moog ladder filter. In 9th International Conference on Digital Audio Effects (DAFx-06), 2006.

Cifford A Henricksen. Unearthing the mysteries of the leslie cabinet. Recording Engineer/Producer Magazine, 1981.

Jorge Herrera, Craig Hanson, and Jonathan S Abel. Discrete time emulation of the leslie speaker. In 127th Audio Engineering Society Convention, 2009.

Marcel Hilsamer and Stephan Herzog. A statistical approach to automated of- fline dynamic processing in the audio mastering process. In 17th International Conference on Digital Audio Effects (DAFx-14), 2014.

Sepp Hochreiter and Jurgen Schmidhuber. Long short-term memory. Neural com- putation, 9(8):1735-1780, 1997.

Martin Holters and Julian D Parker. A combined model for a bucket brigade device and its input and output filters. In 21st International Conference on Digital Audio Effects (DAFx-17), 2018.

Martin Holters and Udo Zolzer. Physical modelling of a wah-wah effect pedal as a case study for application of the nodal dk method to circuits with variable parts. In 14th International Conference on Digital Audio Effects (DAFx-11), 2011.

Le Hou, Dimitris Samaras, Tahsin M Kurc, Yi Gao, and Joel H Saltz. Neural net- works with smooth adaptive activation functions for regression. arXiv preprint arXiv:1608.06557, 2016.

Le Hou, Dimitris Samaras, Tahsin M Kurc, Yi Gao, and Joel H Saltz. Convnets with smooth adaptive activation functions for regression. In 20th International Conference on Artificial Intelligence and Statistics (AISTATS), 2017.

Jie Hu, Li Shen, and Gang Sun. Squeeze-and-excitation networks. In IEEE Confer- ence on Computer Vision and Pattern Recognition, 2018.

Allen Huang and Raymond Wu. Deep learning for music. CoRR, abs / 1606.04930, 2016.

Eric J Humphrey and Juan P Bello. Rethinking automatic chord recognition with convolutional neural networks. In 11th International Conference on Machine Learn- ing and Applications, 2012.

Eric J Humphrey and Juan P Bello. From music audio to chord tablature: Teaching deep convolutional networks to play guitar. In IEEE international conference on acoustics, speech and signal processing (ICASSP), 2014.

Antti Huovilainen. Enhanced digital models for analog modulation effects. In 8th International Conference on Digital Audio Effects (DAFx-05), 2005.

Leland B Jackson. Frequency-domain Steiglitz-McBride method for least-squares IIR filter design, ARMA modeling, and periodogram smoothing. IEEE Signal Processing Letters, 15:49-52, 2008.

Hanna Jδrvelδinen and Matti Karjalainen. Reverberation modeling using velvet noise. In 30th Audio Engineering Society International Conference, 2007.

Nicholas Jillings, Brecht De Man, David Moffat, and Joshua D Reiss. Web Audio Evaluation Tool: A browser-based listening test environment. In 12th Sound and Music Computing Conference, 2015.

Jean-Marc Jot and Antoine Chaigne. Digital delay networks for designing artificial reverberators. In 90th Audio Engineering Society Convention, 1991.

Matti Karjalainen, Teemu Mδki-Patola, Aki Kanerva, and Antti Huovilainen. Vir- tual air guitar. Journal of the Audio Engineering Society, 54(10):964-980, 2006.

Roope Kiiski, Fabiαn Esqueda, and Vesa Vδlimδki. Time-variant gray-box mod- eling of a phaser pedal. In 19th International Conference on Digital Audio Effects (DAFx-16), 2016.

Taejun Kim, Jongpil Lee, and Juhan Nam. Sample-level CNN architectures for music auto-tagging using raw waveforms. In IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2018.

Diederik Kingma and Jimmy Ba. Adam: A method for stochastic optimization. In 3rd International Conference on Learning Representations (ICLR), 2015.

David M Koenig. Spectral analysis of musical sounds with emphasis on the piano. OUP Oxford, 2014.

Filip Korzeniowski and Gerhard Widmer. Feature learning for chord recognition: The deep chroma extractor. In 17th International Society for Music Information Retrieval Conference (ISMIR), 2016.

Oliver Kr

ning, Kristjan Dempwolf, and Udo Z

lzer. Analysis and simulation of an analog guitar compressor. In 14th International Conference on Digital Audio Effects (DAFx-11), 2011.

Walter Kuhl. The acoustical and technological properties of the reverberation plate. E. B. U. Review, 49, 1958.

Yann A LeCun, Lιon Bottou, Genevieve B Orr, and Klaus-Robert M

ller. Efficient backprop. Neural networks: Tricks of the trade, pages 9-48, 2012.

Honglak Lee, Peter Pham, Yan Largman, and Andrew Y Ng. Unsupervised feature learning for audio classification using convolutional deep belief networks. In Advances in neural information processing systems, pages 1096-1104, 2009.

Jongpil Lee, Jiyoung Park, Keunhyoung Luke Kim, and Juhan Nam. SampleCNN: End-to-end deep convolutional neural networks using very small filters for mu- sic classification. Applied Sciences, 8(1):150, 2018.

Keun Sup Lee, Nicholas J Bryan, and Jonathan S Abel. Approximating measured reverberation using a hybrid fixed/switched convolution structure. In 13th In- ternational Conference on Digital Audio Effects (DAFx-10), 2010.

Teck Yian Lim, Raymond A Yeh, Yijia Xu, Minh N Do, and Mark Hasegawa- Johnson. Time-frequency networks for audio super-resolution. In IEEE Inter- national Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018.

Zheng Ma, Joshua D Reiss, and Dawn AA Black. Implementation of an intelligent equalization tool using yule-walker for music mixing and mastering. In 134th Audio Engineering Society Convention, 2013.

Zheng Ma, Brecht De Man, Pedro DL Pestana, Dawn AA Black, and Joshua D Reiss. Intelligent multitrack dynamic range compression. Journal of the Audio Engineering Society, 63(6):412-426, 2015.

Jarom

r Mac¡αk. Simulation of analog flanger effect using BBD circuit. In 19th International Conference on Digital Audio Effects (DAFx-16), 2016.

Jacob A Maddams, Saoirse Finn, and Joshua D Reiss. An autonomous method for multi-track dynamic range compression. In 15th International Conference on Digital Audio Effects (DAFx-12), 2012.

EP MatthewDavies and Sebastian B

ck. Temporal convolutional networks for mu- sical audio beat tracking. In 27th IEEE European Signal Processing Conference (EUSIPCO), 2019.

Daniel Matz, Estefan

a Cano, and Jakob Abeßer. New sonorities for early jazz recordings using sound source separation and automatic mixing tools. In 16th International Society for Music Information Retrieval Conference (ISMIR), 2015.

Josh H McDermott and Eero P Simoncelli. Sound texture perception via statistics of the auditory periphery: evidence from sound synthesis. Neuron, 71, 2011.

Martin McKinney and Jeroen Breebaart. Features for audio and music classifica- tion. In 4th International Society for Music Information Retrieval Conference (ISMIR), 2003.

Soroush Mehri, Kundan Kumar, Ishaan Gulrajani, Rithesh Kumar, Shubham Jain, Jose Sotelo, Aaron Courville, and Yoshua Bengio. SampleRNN: An uncondi- tional end-to-end neural audio generation model. In 5th International Conference on Learning Representations. ICLR, 2017.

Stylianos I Mimilakis, Konstantinos Drossos, Andreas Floros, and Dionysios Katerelos. Automated tonal balance enhancement for audio mastering appli- cations. In 134th Audio Engineering Society Convention, 2013.

Stylianos I Mimilakis, Konstantinos Drossos, Tuomas Virtanen, and Gerald Schuller. Deep neural networks for dynamic range compression in mastering applications. In 140th Audio Engineering Society Convention, 2016.

Stephan Moller, Martin Gromowski, and Udo Zolzer. A measurement technique for highly nonlinear transfer functions. In 5th International Conference on Digital Audio Effects (DAFx-02), 2002.

Brian CJ Moore. An introduction to the psychology of hearing. Brill, 2012

James A Moorer. About this reverberation business. Computer music journal, pages 13-28, 1979.

M Narasimha and A Peterson. On the computation of the discrete cosine trans- form. IEEE Transactions on Communications, 26(6):934-936, 1978.

Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, and Koray Kavukcuoglu. Wavenet: A generative model for raw audio. In CoRR abs/1609.03499, 2016.

Jyri Pakarinen and David T Yeh. A review of digital techniques for modeling vacuum-tube guitar amplifiers. Computer Music Journal, 33(2):85-100, 2009.

Bryan Pardo, David Little, and Darren Gergle. Building a personalized audio equalizer interface with transfer learning and active learning. In 2nd International ACM Workshop on Music Information Retrieval with User-Centered and Multimodal Strategies, 2012.

Julian Parker. Efficient dispersion generation structures for spring reverb emula- tion. EURASIP Journal on Advances in Signal Processing, 2011a.

Julian Parker. A simple digital model of the diode-based ring-modulator. In 14th International Conference on Digital Audio Effects (DAFx-11), 2011b.

Julian Parker and Stefan Bilbao. Spring reverberation: A physical perspective. In 12th International Conference on Digital Audio Effects (DAFx-09), 2009.

Julian Parker and Fabian Esqueda. Modelling of nonlinear state-space systems using a deep neural network. In 22nd International Conference on Digital Audio Effects (DAFx-19), 2019.

Razvan Pascanu, Tomas Mikolov, and Yoshua Bengio. On the difficulty of training recurrent neural networks. In International Conference on Machine Learning, 2013.

Roy D Patterson. Auditory filters and excitation patterns as representations of frequency resolution. Frequency selectivity in hearing, 1986.

Jussi Pekonen, Tapani Pihlajamδki, and Vesa Vδlimδki. Computationally efficient hammond organ synthesis. In 14th International Conference on Digital Audio Effects (DAFx-11), 2011.

Enrique Perez-Gonzalez and Joshua D. Reiss. Automatic equalization of multi- channel audio using cross-adaptive methods. In 127th Audio Engineering Society Convention, 2009.

Enrique Perez-Gonzalez and Joshua D Reiss. Automatic mixing. DAFX: Digital Audio Effects, Second Edition, pages 523-549, 2011.

Pedro Duarte Leal Gomes Pestana. Automatic mixing systems using adaptive digital audio effects. PhD thesis, Universidade Catσlica Portuguesa, 2013.

George M Phillips and Peter J Taylor. Theory and applications of numerical analysis. Elsevier, 1996.

Jordi Pons, Oriol Nieto, Matthew Prockup, Erik Schmidt, Andreas Ehmann, and Xavier Serra. End-to-end learning for music audio tagging at scale. In 31st Conference on Neural Information Processing Systems, 2017.

Miller Puckette. The theory and technique of electronic music. World Scientific Pub- lishing Company, 2007.

Colin Raffel and Julius O Smith. Practical modeling of bucket-brigade device circuits. In 13th International Conference on Digital Audio Effects (DAFx-10), 2010.

Jussi Ramo and Vesa Valimaki. Neural third-octave graphic equalizer. In 22nd International Conference on Digital Audio Effects (DAFx-19), 2019.

Dale Reed. A perceptual assistant to do sound equalization. In 5th International Conference on Intelligent User Interfaces, pages 212-218. ACM, 2000.

Joshua D Reiss and Andrew McPherson. Audio effects: theory, implementation and application. CRC Press, 2014.

Dario Rethage, Jordi Pons, and Xavier Serra. A wavenet for speech denoising. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2018.

David Ronan, Zheng Ma, Paul Mc Namara, Hatice Gunes, and Joshua D Reiss. Automatic minimisation of masking in multitrack audio using subgroups. IEEE Transactions on Audio, Speech, and Language processing, 2018.

Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional net- works for biomedical image segmentation. In International Conference on Medical Image Computing and Computer-Assisted Intervention, 2015.

Per Rubak and Lars G Johansen. Artificial reverberation based on a pseudo- random impulse response II. In 106th Audio Engineering Society Convention, 1999.

Andrew T Sabin and Bryan Pardo. A method for rapid personalization of audio equalization parameters. In 17th ACM International Conference on Multimedia, 2009.

Jan Schluter and Sebastian Bock. Musical onset detection with convolutional neu- ral networks. In 6th International Workshop on Machine Learning and Music, 2013.

Jan Schluter and Sebastian Bock. Improved musical onset detection with convolu- tional neural networks. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2014.

Thomas Schmitz and Jean-Jacques Embrechts. Nonlinear real-time emulation of a tube amplifier with a long short time memory neural-network. In 144th Audio Engineering Society Convention, 2018.

Manfred R Schroeder and Benjamin F Logan. "Colorless" artificial reverberation. IRE Transactions on Audio, (6):209-214, 1961.

Mike Schuster and Kuldip K Paliwal. Bidirectional recurrent neural networks. IEEE transactions on Signal Processing, 45(11):2673-2681, 1997

Di Sheng and Gy

rgy Fazekas. Automatic control of the dynamic range com- pressor using a regression model and a reference sound. In 20th International Conference on Digital Audio Effects (DAFx-17), 2017.

Di Sheng and Gy

rgy Fazekas. A feature learning siamese model for intelligent control of the dynamic range compressor. In International Joint Conference on Neural Networks (IJCNN), 2019.

Siddharth Sigtia and Simon Dixon. Improved music feature learning with deep neural networks. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2014.

Siddharth Sigtia, Emmanouil Benetos, Nicolas Boulanger-Lewandowski, Tillman Weyde, Artur S d'Avila Garcez, and Simon Dixon. A hybrid recurrent neural network for music transcription. In IEEE international conference on acoustics, speech and signal processing (ICASSP), 2015.

Siddharth Sigtia, Emmanouil Benetos, and Simon Dixon. An end-to-end neural network for polyphonic piano music transcription. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 24(5):927-939, 2016.

Julius O Smith. Introduction to digital filters: with audio applications, volume 2. W3K Publishing, 2007.

Julius O Smith. Physical audio signal processing: For virtual musical instruments and audio effects. W3K Publishing, 2010.

Julius O Smith and Jonathan S Abel. Bark and ERB bilinear transforms. IEEE Transactions on Speech and Audio Processing, 7(6):697-708, 1999.

Julius O Smith, Stefania Serafin, Jonathan Abel, and David Berners. Doppler simu- lation and the leslie. In 5th International Conference on Digital Audio Effects (DAFx- 02), 2002.

Mirko Solazzi and Aurelio Uncini. Artificial neural networks with adaptive multi- dimensional spline activation functions. In IEEE International Joint Conference on Neural Networks (IJCNN), 2000.

Michael Stein, Jakob Abeßer, Christian Dittmar, and Gerald Schuller. Automatic detection of audio effects in guitar and bass recordings. In 128th Audio Engineer- ing Society Convention, 2010.

Karl Steinberg. Steinberg virtual studio technology (VST) plug-in specification 2.0 software development kit. Hamburg: Steinberg Soft-und Hardware GMBH, 1999.

Dan Stowell and Mark D Plumbley. Automatic large-scale classification of bird sounds is strongly improved by unsupervised feature learning. PeerJ, 2:e488, 2014.

Bob L Sturm, Joao Felipe Santos, Oded Ben-Tal, and Iryna Korshunova. Music transcription modelling and composition using deep learning. In 1st Conference on Computer Simulation of Musical Creativity, 2016.

Somsak Sukittanon, Les E Atlas, and James W Pitton. Modulation-scale analysis for content identification. IEEE Transactions on Signal Processing, 52, 2004.

Tijmen Tieleman and Geoffrey Hinton. RMSprop: Divide the gradient by a run- ning average of its recent magnitude. COURSERA: Neural networks for machine learning, 4(2):26-31, 2012.

Aurelio Uncini. Audio signal processing by neural networks. Neurocomputing, 55 (3-4):593-625, 2003.

International Telecommunication Union. Recommendation ITU-R BS.1534-1: Method for the subjective assessment of intermediate quality level of coding systems. 2003.

Vesa Valimaki and Joshua D. Reiss. All about audio equalization: Solutions and frontiers. Applied Sciences, 6(5):129, 2016.

Vesa Valimaki, Julian Parker, and Jonathan S Abel. Parametric spring reverberation effect. Journal of the Audio Engineering Society, 58(7/8):547-562, 2010.

Vesa Valimaki, Julian D Parker, Lauri Savioja, Julius O Smith, and Jonathan S Abel. Fifty years of artificial reverberation. IEEE Transactions on Audio, Speech, and Language Processing, 20(5):1421-1448, 2012.

Aaron Van den Oord, Sander Dieleman, and Benjamin Schrauwen. Deep content- based music recommendation. In Advances in Neural Information Processing Sys- tems, pages 2643-2651, 2013.

Shrikant Venkataramani, Jonah Casebeer, and Paris Smaragdis. Adaptive front- ends for end-to-end source separation. In 31st Conference on Neural Information Processing Systems, 2017.

Vincent Verfaille, U. Zolzer. and Daniel Arfib. Adaptive digital audio effects (A- DAFx): A new class of sound transformations. IEEE Transactions on Audio, Speech and Language Processing, 14(5):1817-1831, 2006.

Xinxi Wang and Ye Wang. Improving content-based and hybrid music recommen- dation using deep learning. In 22nd International Conference on Multimedia, pages 627-636. ACM, 2014.

Kurt J Werner, W Ross Dunkel, and Franηois G Germain. A computational model of the hammond organ vibrato/chorus using wave digital filters. In 19th Inter- national Conference on Digital Audio Effects (DAFx-16), 2016.

Silvin Willemsen, Stefania Serafin, and Jesper R Jensen. Virtual analog simula- tion and extensions of plate reverberation. In 14th Sound and Music Computing Conference, 2017.

Alec Wright, Eero-Pekka Damskδgg, and Vesa Vδlimδki. Real-time black-box mod- elling with recurrent neural networks. In 22nd International Conference on Digital Audio Effects (DAFx-19), 2019.

David T Yeh. Automated physical modeling of nonlinear audio circuits for real- time audio effects part II: BJT and vacuum tube examples. IEEE Transactions on Audio, Speech, and Language Processing, 20, 2012.

David T Yeh and Julius O Smith. Simulating guitar distortion circuits using wave digital and nonlinear state-space formulations. In 11th International Conference on Digital Audio Effects (DAFx-08), 2008.

David T Yeh, Jonathan S Abel, Andrei Vladimirescu, and Julius O Smith. Numeri- cal methods for simulation of guitar distortion circuits. Computer Music Journal, 32(2):23-42, 2008.

David T Yeh, Jonathan S Abel, and Julius O Smith. Automated physical modeling of nonlinear audio circuits for real-time audio effects part I: Theoretical develop- ment. IEEE Transactions on Audio, Speech, and Language Processing, 18(4):728-737, 2010.

Matthew D Zeiler and Rob Fergus. Visualizing and understanding convolutional networks. In European conference on computer vision. Springer, 2014.

Zhichen Zhang, Edward Olbrych, Joseph Bruchalski, Thomas J McCormick, and David L Livingston. A vacuum-tube guitar amplifier model using long/short-term memory networks. In IEEE SoutheastCon, 2018.

Udo Zolzer.DAFX: digital audio effects. John Wiley & Sons, 2011.

줄임말

AI Artificial Intelligence

BBD Bucket Brigade Delay

Bi-LSTM Bidirectional Long Short-Term Memory

CNN Convolutional Neural Network

CAFx Convolutional audio effects modeling network

CEQ Convolutional EQ modeling network

CRAFx Convolutional Recurrent audio effects modeling network

CWAFx Convolutional and WaveNet audio effects modeling network

CSAFx Convolutional recurrent Sparse filtering audio effects modeling network

CPU Central Processing Unit

dBFS Decibels Relative to Full Scale DCT Discrete Cosine Transform DNN Deep Neural Network

DRC Dynamic Range Compression

DSP Digital Signal Processing

EQ Equalization

ERB Equivalent Rectangular Bandwidth

FIR Finite Impulse Response

FC Fully Connected

FFT Fast Fourier Transform

Fx Effects

GPU Graphics Processing Unit

IIR Infinite Impulse Response

JFET Junction Field Effect Transistor

KL Kullback-Leibler divergence

LC Locally Connected

TI Linear Time Invariant

LSTM Long Short-Term Memory

MAE Mean Absolute Error

MFCC Mel-Frequency Cepstral Coefficients

MSE Mean Squared Error

OTA Operational Transconductance Amplifier

ReLU Rectifier Linear Unit

RNN Recurrent Neural Network

SAAF Smooth Adaptive Activation Function

SFIR Sparse FIR

SGD Stochastic Gradient Descent

STFT Short-Time Fourier Transform

VST Virtual Studio Technology

WaveNet Feedforward Wavenet audio effects modeling network

WDF Wave Digital Filter

부록 A - 계산 복잡성

계산 처리 시간은 Titan XP GPU와 Intel Xeon E5-2620 CPU로 계산되었다. 우리는 4096 크기의 입력 프레임을 사용하고 2048 샘플의 홉 크기로 샘플링했으며 이는 모델이 한 배치를 처리하는 데 걸리는 시간, 즉 2초 오디오 샘플 내의 총 프레임 수에 해당한다. GPU 및 CPU 시간은 비실시간 최적화 Python 구현을 사용하여 보고된다. 표 A.1은 모든 모델에서 훈련 가능한 매개변수의 수와 처리 시간을 보여준다.

다양한 모델에 걸친 매개변수 넘버 및 처리 시간

Claims

오디오 데이터를 처리하는 컴퓨터-구현 방법으로서,
시계열 진폭 값들을 포함하는 입력 오디오 데이터(x)를 수신하는 단계;
상기 입력 오디오 데이터(x)를 상기 입력 오디오 데이터(x)의 입력 주파수 대역 분해(X1)로 변환하는 단계;
상기 입력 주파수 대역 분해(X1)를 제 1 잠재적(latent) 표현(Z)으로 변환하는 단계;
제 1 심층 신경망(deep neural network)에 의해 상기 제 1 잠재적 표현(Z)을 처리하여 제 2 잠재적 표현(Z^, Z1^)을 획득하는 단계 ;
상기 제 2 잠재적 표현(Z^, Z1^)을 변환하여 이산 근사값(X3^)을 획득하는 단계 ;
상기 이산 근사값(X3^) 및 잔여 특징 맵(R, X5^)을 요소별로(element-wise) 곱하여 수정된 특징 맵을 획득하는 단계 ― 상기 잔여 특징 맵(R, X5^)은 상기 입력 주파수 대역 분해(X1)로부터 도출됨 ― ;
파형 성형(waveshaping) 유닛에 의해 예비 성형된(pre-shaped) 주파수 대역 분해를 처리하여 파형 성형된 주파수 대역 분해(X1^, X1.2^)를 획득하는 단계 ― 상기 예비 성형된 주파수 대역 분해는 상기 입력 주파수 대역 분해(X1)로부터 도출되고, 상기 파형 성형 유닛은 제 2 심층 신경망을 포함함 ― ;
상기 파형 성형된 주파수 대역 분해(X1^, X1.2^) 및 수정된 주파수 대역 분해(X2^,X1.1^)를 합산하여 합산 출력(X0^)을 획득하는 단계 ― 상기 수정된 주파수 대역 분해(X2^,X1.1^)는 상기 수정된 특징 맵으로부터 도출됨 ― ; 및
상기 합산 출력(X0^)을 변환하여 타겟 오디오 데이터(y^)를 획득하는 단계;
를 포함하는, 방법.
제 1 항에 있어서,
상기 입력 오디오 데이터(x)를 상기 입력 주파수 대역 분해(X1)로 변환하는 단계는
상기 입력 오디오 데이터(x)를 커널 매트릭스(W1)와 컨볼루션하는 단계를 포함하는, 방법.
제 2 항에 있어서,
상기 합산 출력(X0^)을 변환하여 상기 타겟 오디오 데이터(y^)를 획득하는 단계는
상기 합산 출력(X0^)을 상기 커널 매트릭스의 전치(W1T)와 컨볼루션하는 단계를 포함하는, 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
상기 입력 주파수 대역 분해(X1)를 상기 제 1 잠재적 표현(Z)으로 변환하는 단계는,
상기 입력 주파수 대역 분해(X1)의 절대값(|X1|)을 가중 매트릭스(W2)와 로컬-연결된 컨볼루션하여 특징 맵(X2)을 획득하는 단계; 및
상기 특징 맵(X2)을 맥스-풀링(max-pooling)하여 상기 제 1 잠재적 표현(Z)을 획득하는 단계;
를 포함하는, 방법.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
상기 파형 성형 유닛은 상기 제 2 심층 신경망에 후속하는 로컬 연결된 평활 적응 활성화 함수층(a locally connected smooth adaptive activation function layer)을 더 포함하는, 방법.
제 5 항에 있어서,
상기 파형 성형 유닛은 상기 로컬 연결된 평활 적응 활성화 함수층에 후속하는 제 1 스퀴즈-및-여기층(a first squeeze-and-excitation layer)을 더 포함하는, 방법.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
상기 파형 성형된 주파수 대역 분해(X1^,X1.2^) 및 상기 수정된 주파수 대역 분해(X2^,X1.1^) 중 적어도 하나는 합산되기 전에 이득 팩터(se, se1, se2)에 의해 스케일링되어 상기 합산 출력(X0^)을 생성하는, 방법.
제2항 내지 제7항 중 어느 한 항에 있어서,
상기 커널 행렬(W1) 및 상기 가중치 행렬(W2) 각각은 128개 보다 적은 필터, 선택적으로 32개보다 적은 필터, 선택적으로 8개 보다 적은 필터를 포함하는, 방법.
제1항 내지 제8항 중 어느 한 항에 있어서,
상기 제2 심층 신경망은 선택적으로 32, 16, 16 및 32개의 은닉 유닛을 각각 포함하는 제1 내지 제4 밀집 층(dense layers)을 포함하고, 선택적으로 상기 제2 심층 신경망의 상기 제1 내지 제3 밀집 층 각각은 하이퍼볼릭 탄젠트(tanh) 함수가 뒤따르는, 방법.
제6항 내지 제9항 중 어느 한 항에 있어서,
상기 파형 성형 유닛에서, 상기 제1 스퀴즈-및-여기층은 전역 평균 풀링(global average pooling) 동작에 선행하는 절대값 층을 포함하는, 방법.
제1항 내지 제10항 중 어느 한 항에 있어서,
상기 입력 주파수 대역 분해(X1)를 상기 잔류 특징 맵(R)으로 전달하는 단계 ;
상기 수정된 특징 맵을 상기 예비 성형된 주파수 대역 분해로 전달하는 단계 ; 및
상기 수정된 특징 맵을 상기 수정된 주파수 대역 분해(X2^, X1.1^)로 전달하는 단계;
를 더 포함하는, 방법.
제11항에 있어서,
상기 제1 심층 신경망은 복수의 양방향 장단기 메모리층을 포함하고, 선택적으로 평활 적응 활성화 함수층이 뒤따르는, 방법.
제12항에 있어서,
상기 복수의 양방향 장단기 메모리층은 제1, 제2 및 제3 양방향 장단기 메모리층을 포함하고, 선택적으로 각각 64, 32 및 16개의 유닛을 포함하는, 방법.
제12항 또는 제13항에 있어서,
상기 복수의 양방향 장단기 메모리층은 복수의 평활 적응 활성화 함수층이 뒤따르고, 각각은 -1 내지 +1 사이의 25개의 간격으로 선택적으로 구성되는, 방법.
제12항에 있어서,
상기 제1 심층 신경망은 복수의 층을 포함하는 피드포워드 웨이브넷(WaveNet)을 포함하고, 선택적으로 상기 웨이브넷의 최종층은 완전 연결층(fully-connected layer)인, 방법.
제1항 내지 제10항 중 어느 한 항에 있어서,
상기 제1 심층 신경망은 복수의 공유된 양방향 장단기 메모리층을 포함하고, 병렬로, 제1 및 제2 독립 양방향 장단기 메모리층이 뒤따르고,
상기 제2 잠재적 표현(Z1^)은 상기 제1 독립 양방향 장단기 메모리층의 출력으로부터 도출되고,
상기 파형 성형 유닛에서, 상기 제1 스퀴즈 및 여기층은 장단기 메모리층을 더 포함하고,
상기 방법은,
상기 입력 주파수 대역 분해(X1)를 상기 예비 성형된 주파수 대역 분해로 전달하는 단계 ;
상기 제2 독립 양방향 장단기 메모리층을 사용하여 상기 제1 잠재적 표현(Z)을 처리하여 제3 잠재적 표현(Z2^)을 획득하는 단계 ;
희소 유한 임펄스 응답층(sparse finite impulse response layer)을 사용하여 상기 제3 잠재적 표현(Z2^)을 처리하여 제4 잠재적 표현(Z3^)을 획득하는 단계 ;
상기 주파수 대역 표현(X1)을 상기 제4 잠재적 표현(Z3^)과 컨볼루션하여 상기 잔류 특징 맵(X5^)을 획득하는 단계 ; 및
장단기 메모리 층을 포함하는 제2 스퀴즈-및-여기층에 의해 상기 수정된 특징 맵을 처리하여 상기 수정된 주파수 대역 분해(X2^, X1.1^)를 획득하는 단계;
를 더 포함하는, 방법.
제16항에 있어서,
상기 복수의 공유된 양방향 장단기 메모리층은 각각 64 및 32 유닛을 선택적으로 포함하는 제1 및 제2 공유된 양방향 장단기 메모리 층을 포함하고, 선택적으로 상기 제1 및 제2 공유된 양방향 장단기 메모리층 각각은 하이퍼볼릭 탄젠트(tanh) 활성화 함수를 갖는, 방법.
제16항 또는 제17항에 있어서,
상기 제1 및 제2 독립 양방향 장단기 메모리층 각각은 16 유닛을 포함하고, 선택적으로 상기 제1 및 제2 독립 양방향 장단기 메모리층 각각은 로컬 연결된 평활 적응 활성화 함수를 포함하는, 방법.
제16항 내지 제18항 중 어느 한 항에 있어서,
상기 희소 유한 임펄스 응답층은,
상기 제3 잠재적 표현(Z2^)을 입력으로서 취하는 제1 및 제2 독립 밀집 층; 및
상기 제1 및 제2 독립 밀집 층의 각각의 출력을 입력으로서 취하는 희소 텐서(a sparse tensor) - 상기 희소 텐서의 출력은 상기 제4 잠재적 표현(Z3^)임 -;
를 포함하고,
선택적으로 상기 제1 및 제2 독립 밀집 층은 각각 하이퍼볼릭 탄젠트(tanh)함수 및 시그모이드(sigmoid) 함수를 포함하는, 방법.
제1항 내지 제14항 및 제16항 내지 제19항 중 어느 한 항에 있어서,
모든 컨볼루션(convolutions)은 시간 차원을 따르고 단위 값의 스트라이드(stride)를 갖는, 방법.
제1항 내지 제14항 및 제16항 내지 제20항 중 어느 한 항에 있어서,
상기 심층 신경망 중 적어도 하나는, 튜브 증폭기, 디스토션, 스피커-증폭기, 래더 필터, 파워 앰프, 이퀄라이제이션, 이퀄라이제이션-및-디스토션, 컴프레서, 링 변조기, 페이저, 연산 트랜스컨덕턴스 앰프에 기초한 변조, 버킷 브리가드 딜레이(bucket brigade delay)를 갖는 플랜저, 버킷 브리가드 딜레이를 갖는 변조 기반(modulation based), 레슬리(Leslie) 스피커 혼, 레슬리(Leslie) 스피커 혼-및-우퍼, 플랜저-및-코러스, 변조 기반, 변조 기반-및-컴프레서, 플레이트-및-스프링 잔향, 에코, 피드백 딜레이, 슬랩백 딜레이, 테이프-기반 딜레이, 잡음-구동 확률론적 효과, 입력 신호 레벨에 기초한 동적 이퀄라이제이션(equalization), 오디오 모핑, 음색 변환, 위상 보코더, 시간 스트레칭, 피치 시프팅, 시간 셔플링, 그래뉼화(granulation), 3D 라우드스피커 셋업 모델링, 및 룸 음향을 포함하는 그룹으로부터 선택된 하나 이상의 오디오 효과를 나타내는 데이터에 의존하여 트레이닝되는, 방법.
컴퓨터 프로그램으로서,
상기 프로그램이 컴퓨터에 의해 실행될 때, 상기 컴퓨터로 하여금 제1항 내지 제21항의 방법을 수행하게 하는 명령어들을 포함하는, 컴퓨터 프로그램.
제22항의 컴퓨터 프로그램을 포함하는 컴퓨터 판독가능 저장 매체.
제1항 내지 제21항의 방법을 수행하도록 구성된 프로세서를 포함하는 오디오 데이터 처리 장치.