KR20170125058A

KR20170125058A - 타깃 시간 도메인 포락선을 사용하여 처리된 오디오 신호를 얻도록 오디오 신호를 처리하기 위한 장치 및 방법

Info

Publication number: KR20170125058A
Application number: KR1020177027052A
Authority: KR
Inventors: 크리스티안 디트마르; 메이나드 뮬러; 사샤 디쉬
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2015-02-26
Filing date: 2016-02-23
Publication date: 2017-11-13
Also published as: BR112017018145A2; JP6668372B2; RU2679254C1; US20170345433A1; JP2018510374A; CA2976864C; EP3262639B1; KR102125410B1; BR112017018145B1; CN107517593A; EP3262639A1; WO2016135132A1; CN107517593B; CA2976864A1; ES2837107T3; MX2017010593A; US10373623B2

Abstract

본 발명의 대상은 처리된 오디오 신호(6)를 얻도록 오디오 신호(4)를 처리하기 위해 개략적인 블록도로 설명된 장치(2)이다. 이 장치(2)는 오디오 신호(4)의 중첩 프레임들을 나타내는 주파수 도메인 프레임들의 시퀀스(12)의 스펙트럼 값들에 대한 위상 값들(10)을 계산하기 위한 위상 계산기(8)를 포함한다. 더욱이, 위상 계산기(8)는 처리된 오디오 신호(6)와 관련된 타깃 시간 도메인 포락선(14)에 대한 정보를 기초로 위상 값들(10)을 계산하여, 처리된 오디오 신호(6)가 적어도 근사치로 타깃 시간 도메인 포락선(14) 및 주파수 도메인 프레임들의 시퀀스(12)에 의해 결정된 스펙트럼 포락선을 갖도록 구성된다.

Description

타깃 시간 도메인 포락선을 사용하여 처리된 오디오 신호를 얻도록 오디오 신호를 처리하기 위한 장치 및 방법

본 발명은 처리된 오디오 신호를 얻도록 오디오 신호를 처리하기 위한 장치 및 방법에 관한 것이다. 실시예들은 장치를 포함하는 오디오 디코더 그리고 대응하는 오디오 인코더, 오디오 소스 분리 프로세서 및 대역폭 강화 프로세서를 추가로 보여주며, 이 프로세서들 둘 다 장치를 포함한다. 추가 실시예들에 따르면, 신호 재구성에서의 과도부(transient) 복원 및 악보 정보에 기반한(score-informed) 오디오 분해에서의 과도부 복원이 도시된다.

중첩된 음원들의 혼합물을 그것의 구성 성분들로 분리하는 작업은 디지털 오디오 신호 처리에서 중요성을 얻었다. 음성 처리에서, 이러한 성분들은 대개 잡음 또는 동시에 말하는 사람들에 의해 간섭을 받는 타깃 스피커들의 발언들이다. 음악에서, 이러한 성분들은 개별 악기 또는 보컬 멜로디, 타악기들 또는 심지어 개별 음표 이벤트들일 수 있다. 관련된 주제들은 신호 재구성과 과도부 보존 및 악보 정보에 기반한 오디오 구성(즉, 소스 분리)이다.

음악 소스 분리는 폴리포닉 다음색 음악 레코딩을 노래하는 음성, 악기 멜로디들, 타악기들 또는 혼합 신호에서 발생하는 개별 음표 이벤트들과 같은 성분 신호들로 분해하는 것을 목표로 한다. 많은 음악 분석 및 검색 작업들에서 중요한 단계가 되는 것 외에도, 음악 소스 분리는 또한 음악 복원, 업믹싱 및 리믹스와 같은 애플리케이션들에 대한 기본 전제 조건이다. 이러한 목적들을 위해, 분리된 성분들의 지각 품질 면에서 높은 충실도가 바람직하다. 기존의 분리 기술들의 대부분은 혼합 신호의 시간-주파수(TF: time-frequency) 표현, 흔히 단시간 푸리에 변환(STFT: Short-Time Fourier Transform)에 작용한다. 타깃 성분 신호들은 대개 적절한 역변환을 사용하여 재구성되는데, 이는 결국 음악 잡음, 스미어링된(smeared) 과도부들 또는 프리-에코(pre-echo)들과 같은 가청 아티팩트들을 도입할 수 있다. 기존의 접근 방식들은 음악 잡음, 위상 간섭 및 프리-에코들의 형태로 가청 아티팩트들을 겪는다. 이러한 아티팩트들은 종종 인간 청취자에게 상당히 방해가 된다.

음악 소스 분리에 관한 다수의 최근 논문들이 있다. 대부분의 접근 방식들에서, 분리는 크기 스펙트로그램을 수정함으로써 시간-주파수(TF) 영역에서 실행된다. 분리된 성분들의 대응하는 시간 도메인 신호들은 원래의 위상 정보를 사용하고 적절한 역변환들을 적용함으로써 도출된다. 분리된 솔로 신호들의 우수한 지각 품질을 위해 노력할 때, 많은 저자들은 악보 정보에 기반한 분해 기술들로 되돌아간다. 이것은 분리가 성분 신호들의 시간(시작, 오프셋) 및 주파수(피치, 음색) 상의 대략적인 위치에 대한 정보에 의해 안내될 수 있다는 이점을 갖는다. 드럼들과 같은 과도 신호의 소스 분리를 다루는 간행물들은 거의 없다. 다른 것들은 화성 성분과 타악 성분의 분리에 초점을 맞추었다[5].

더욱이, 프리-에코의 문제는 지각 오디오 코딩 분야에서 다루어졌는데, 여기서 프리-에코는 일반적으로 심리 음향 모델에 따른 스펙트럼 크기의 양자화와 같은 TF 빈들의 중간 조작과 함께 비교적 긴 분석 및 합성 윈도우의 사용에 의해 야기된다. 과도 현상들의 주변에서 블록 스위칭을 사용하는 것은 최첨단 기술로 간주될 수 있다[6]. 스펙트럼 계수들이 주파수 축을 따라 선형 예측에 의해 인코딩되어, 프리-에코들을 자동으로 줄이는 흥미로운 접근 방식이 [13]에서 제안되었다. 이후에 신호를 과도 및 잔차 성분들로 분해하고 각각의 스트림에 대해 최적화된 코딩 파라미터들을 사용하는 연구들이 제안되었다[3]. 과도부 보존은 또한 위상 보코더를 기반으로 하는 시간 스케일 수정 방법들의 맥락에서 연구되었다. 과도 성분들의 최적화된 처리 외에도, 여러 저자들은 과도 프레임들에서 위상 고정 또는 위상 재초기화 원리를 따른다[8].

크기 스펙트로그램 반전 또는 위상 추정으로도 또한 알려진 신호 재구성 문제는 잘 연구된 주제이다. Griffin과 Lim은 이들의 고전 논문 [1]에서, 수정된 STFT 크기(MSTFTM: modified STFT magnitude) 스펙트로그램들로부터 반복적인 블라인드 신호 재구성을 위한 소위 LSEE-MSTFTM 알고리즘을 제안했다. [2]에서, Le Roux 등은 TF 일관성 기준을 사용하여 이 방법을 설명함으로써 이 방법에 대한 다른 견해를 발전시켰다. TF 도메인에서 필요한 동작들을 전체적으로 유지함으로써, 원래 프로시저와 비교하여 계산 부하를 줄이는 여러 단순화들 및 근사들이 도입될 수 있다. LSEE-MSTFTM을 사용하여 얻어진 위상 추정치들은 국소 최적 조건들로만 수렴할 수 있기 때문에, 여러 간행물들은 위상 정보에 대한 양호한 초기 추정치를 찾는 것에 관련이 있었다[3, 4]. Sturmel과 Daudet[5]은 신호 재구성 방법들에 대한 심층적인 검토를 제공하였고 해결되지 않은 문제들을 지적했다. 수렴 속도에 관한 LSEE-MSTFTM의 확장은 [6]에서 제안되었다. 다른 저자들은 위상 추정 문제를 볼록 최적화 방식으로서 공식화하려고 시도했으며, 높은 계산 복잡도에 의해 방해 받는 유망한 결과들에 도달했다[7]. 다른 연구[8]는 웨이블릿 기반 크기 스펙트로그램들로부터의 신호 재구성에 스펙트로그램 일관성 프레임워크를 적용하는 것과 관련이 있었다.

그러나 신호 재구성을 위한 기술된 접근 방식들은 예를 들어, 과도부들에 대해 일반적인 오디오 신호의 급격한 변화가 예를 들어, 프리-에코와 같은 이전에 기술된 아티팩트들을 겪을 수 있다는 문제점을 공유한다.

따라서 개선된 접근 방식이 필요하다.

오디오 신호를 처리하기 위한 개선된 개념을 제공하는 것이 본 발명의 과제이다. 이 목적은 독립항들의 요지에 의해 해결된다.

본 발명은 타깃 시간 도메인 진폭 포락선이 시간 또는 주파수 도메인에서 주파수 도메인 프레임들의 시퀀스의 스펙트럼 값들에 적용될 수 있다는 발견에 기초한다. 즉, 신호의 위상은 시간-주파수 및 주파수-시간 변환을 사용하여 신호 처리 후에 보정될 수 있으며, 여기서 이 신호의 진폭 또는 크기는 여전히 유지되거나 계속된다(변경되지 않는다). 위상은 예를 들어, Griffin 및 Lim에 의해 제안된 알고리즘과 같은 반복 알고리즘을 사용하여 복원될 수 있다. 그러나 타깃 시간 도메인 포락선의 사용은 위상 복원의 품질을 크게 향상시키며, 이는 반복 알고리즘이 사용된다면 감소된 횟수의 반복들을 야기한다. 타깃 시간 도메인 포락선은 계산되거나 근사화될 수 있다.

실시예들은 처리된 오디오 신호를 얻도록 오디오 신호를 처리하기 위한 장치를 보여준다. 이 장치는 오디오 신호의 중첩 프레임들을 나타내는 주파수 도메인 프레임들의 시퀀스의 스펙트럼 값들에 대한 위상 값들을 계산하기 위한 위상 계산기를 포함할 수 있다. 위상 계산기는 처리된 오디오 신호와 관련된 타깃 시간 도메인 포락선에 대한 정보를 기초로 위상 값들을 계산하여, 처리된 오디오 신호가 적어도 근사치로 타깃 시간 도메인 포락선 및 주파수 도메인 프레임들의 시퀀스에 의해 결정된 스펙트럼 도메인 포락선을 갖도록 구성될 수 있다. 타깃 시간 도메인 진폭 포락선에 대한 정보는 시간 또는 주파수 도메인에서 주파수 도메인 프레임들의 시퀀스에 적용될 수 있다.

공지된 접근 방식들의 앞서 언급한 한계들을 극복하기 위해, 실시예들은 재구성된 소스 신호들에서 과도 성분들을 보다 잘 보존하기 위한 기술, 방법 또는 장치를 보여준다. 특히, 피아노 및 기타뿐만 아니라 드럼 및 퍼커션의 음표 이벤트들의 온셋 명료도를 떨어뜨리는 프리-에코들을 약화시키는 것이 목적일 수 있다.

실시예들은 예컨대, 과도 신호 성분들을 더욱 잘 보존하는, Griffin 및 Lim[1]에 의한 신호 재구성 프로시저에 대한 확장 또는 개선을 추가로 보여준다. 본래의 방법은 STFT 크기(STFTM)를 고정된 상태로 유지하면서 STFT와 시간 도메인 신호 사이를 왔다갔다하여, 단지 위상 정보를 업데이트함으로써 STFTM으로부터 시간 도메인 재구성에 필요한 위상 정보를 반복적으로 추정한다. 제안된 확장 또는 개선은 과도부들에 잠재적으로 선행하는 프리-에코들을 약화시키기 위해 중간 시간 도메인 재구성들을 조작한다.

제 1 실시예에 따르면, 타깃 시간 도메인 포락선에 대한 정보가 시간 도메인에서 주파수 도메인 프레임들의 시퀀스에 적용된다. 따라서 주파수 도메인 프레임들의 시퀀스로부터 수정된 단시간 푸리에 변환(MSTFT)이 도출될 수 있다. 수정된 단시간 푸리에 변환에 기초하여, 단시간 푸리에 역변환이 수행될 수 있다. 단시간 푸리에 역변환(ISTFT: Inverse Short-Time Fourier Transform)은 중첩 및 합산 프로시저를 수행하므로, 초기 MSTFT의 크기 값들과 위상 값들이 변경(업데이트, 적응 또는 조정)된다. 이는 오디오 신호의 중간 시간 도메인 재구성으로 이어진다. 또한, 타깃 시간 도메인 포락선이 중간 시간 도메인 재구성에 적용될 수 있다. 이는 예를 들어, 임펄스 응답으로 시간 도메인 신호를 컨볼루션함으로써 또는 전달 함수와 스펙트럼을 곱함으로써 수행될 수 있다. 타깃 시간 도메인 포락선(의 근사치)을 갖는 오디오 신호의 중간 시간 도메인 재구성은 단시간 푸리에 변환(STFT)을 사용하여 시간-주파수 변환될 수 있다. 따라서 중첩되는 분석 및/또는 합성 윈도우들이 사용될 수 있다.

타깃 시간 도메인 포락선의 변조가 적용되지 않더라도, 오디오 신호의 중간 시간 도메인 표현의 STFT는 ISTFT 및 STFT의 중첩 및 합산 프로시저로 인해 더 이전 MSTFT와는 다를 것이다. 이것은 반복 알고리즘에서 수행될 수 있는데, 여기서는 업데이트된 MSTFT에 대해, 이전 STFT 연산의 위상 값이 사용되고 대응하는 진폭 또는 크기 값이 폐기된다. 대신에, 잘못된 위상 정보만을 갖는 진폭(또는 크기) 값이 (완전하게) 재구성된다고 가정되기 때문에, 업데이트된 MSTFT에 대한 진폭 또는 크기 값으로서 초기 크기 값이 사용될 수 있다. 따라서 각각의 반복 단계에서, 위상 값들은 정확한(또는 원래의) 위상 값들로 적응된다.

제 2 실시예에 따르면, 타깃 시간 도메인 포락선이 주파수 도메인에서 주파수 도메인 프레임들의 시퀀스에 적용될 수 있다. 따라서 시간 도메인에서 더 이전에 수행된 단계들은 주파수 도메인으로 전달(변환, 적용 또는 전환)될 수 있다. 상세하게는, 이것은 ISTFT의 합성 윈도우 및 STFT의 분석 윈도우의 시간-주파수 변환일 수 있다. 이것은 시간 도메인에서 ISTFT와 STFT가 변환된 후에 현재 프레임과 중첩할 인근 프레임들의 주파수 표현으로 이어진다. 그러나 이 섹션은 현재 프레임 내의 정확한 위치로 이동되고, 오디오 신호의 중간 주파수 도메인 표현을 도출하기 위해 합산이 수행된다. 또한, 타깃 시간 도메인 포락선은 예를 들어, STFT를 사용하여 주파수 도메인으로 변환될 수 있어, 타깃 시간 도메인 포락선의 주파수 표현이 중간 주파수 도메인 표현에 적용될 수 있다. 또, 이 프로시저는 타깃 시간 도메인 포락선의 포락선을 (근사치로) 갖는 중간 주파수 도메인 표현의 업데이트된 위상을 이용하여 반복적으로 수행될 수 있다. 더욱이, 크기가 이미 완벽하게 재구성된 것으로 가정되기 때문에 MSTFT의 초기 크기가 사용된다.

앞서 언급한 장치를 사용하면, 다수의 추가 실시예들은 타깃 시간 도메인 포락선을 도출하기 위한 상이한 가능성들을 갖는 것으로 가정될 수 있다. 실시예들은 앞서 언급한 장치를 포함하는 오디오 디코더를 보여준다. 오디오 디코더는 (관련) 오디오 인코더로부터 오디오 신호를 수신할 수 있다. 오디오 인코더는 오디오 신호를 분석하여, 예를 들어 오디오 신호의 각각의 시간 프레임에 대한 타깃 시간 도메인 포락선을 도출할 수 있다. 도출된 타깃 시간 도메인 포락선은 예시적인 타깃 시간 도메인 포락선의 미리 결정된 리스트와 비교될 수 있다. 오디오 신호의 계산된 타깃 시간 도메인 포락선에 가장 가까운 미리 결정된 타깃 시간 도메인 포락선은 특정 시퀀스의 비트들, 예를 들어 16개의 서로 다른 타깃 시간 도메인 포락선들을 할당하기 위한 4 비트의 시퀀스와 연관될 수 있다. 오디오 디코더는 동일한 미리 결정된 타깃 시간 도메인 포락선들, 예를 들어 코드북 또는 룩업 테이블을 포함할 수 있고, (인코딩된) 미리 결정된 타깃 시간 도메인 포락선을 인코더로부터 전송된 비트들의 시퀀스에 의해 결정(판독, 연산 또는 계산)할 수 있다.

추가 실시예들에 따르면, 앞서 언급한 장치는 오디오 소스 분리 프로세서의 일부일 수 있다. 오디오 신호의 다수의 소스들 중 단 하나의 소스만을 갖는 원래의 오디오 신호는 (대개) 이용 가능하지 않기 때문에, 오디오 소스 분리 프로세서는 타깃 시간 도메인 포락선의 개략적 근사치를 사용할 수 있다. 따라서 과도부 복원의 경우에 특히, 초기 과도부 위치까지 현재 프레임의 일부가 강제로 0이 될 수 있다. 이것은 신호 처리 알고리즘으로 인해 일반적으로 통합되는 과도부 앞에서 프리-에코들을 효과적으로 감소시킬 수 있다. 더욱이, 타깃 시간 도메인 포락선에 대한 근사치로서 공통 온셋이, 예컨대 각각의 프레임마다 동일한 온셋이 사용될 수 있다. 추가 실시예에 따르면, 오디오 신호의 서로 다른 성분들에 대해 서로 다른 온셋이 사용될 수 있는데, 예컨대 온셋들의 미리 결정된 리스트로부터 서로 다른 온셋이 도출될 수 있다. 예를 들어, 피아노의 타깃 시간 도메인 포락선 또는 온셋은 기타, 하이햇 또는 음성의 타깃 시간 도메인 포락선 또는 온셋과는 다를 수 있다. 따라서 오디오 신호에 대한 현재 소스 또는 성분이 분석되어, 예컨대 타깃 시간 도메인 포락선의 (이론상) 최적의 근사치를 결정하기 위한 오디오 정보의 종류(악기, 음성 등)를 검출할 수 있다. 추가 실시예들에 따르면, 오디오 소스 분리가 예를 들어, 오디오 신호의 나머지 부분으로부터 하나 이상의 악기들(예컨대, 기타, 하이햇, 플루트 또는 피아노) 또는 음성을 분리하도록 의도된다면, 오디오 정보의 종류가 (사용자에 의해) 사전 설정될 수 있다. 사전 설정에 기초하여, 분리 또는 격리된 오디오 트랙에 대한 대응하는 온셋이 선택될 수 있다.

추가 실시예들에 따르면, 대역폭 강화 프로세서가 앞서 언급한 장치를 사용할 수 있다. 대역폭 강화 프로세서는 코어 코더를 사용하여 오디오 신호의 하나 이상의 대역들의 고분해능 표현을 코딩한다. 더욱이, 코어 코더를 사용하여 코딩되지 않은 대역들은 대역폭 강화 인코더의 파라미터를 사용하여 대역폭 강화 디코더에서 근사화될 수 있다. 타깃 시간 도메인 포락선은 인코더에 의해 예를 들어, 파라미터로서 송신될 수 있다. 그러나 바람직한 실시예에 따르면, 타깃 시간 도메인 포락선은 인코더에 의해 (파라미터로서) 송신되지 않는다. 따라서 타깃 시간 도메인 포락선은 오디오 신호의 코어 디코딩된 부분 또는 주파수 대역(들)으로부터 직접 도출될 수 있다. 오디오 신호의 코어 디코딩된 부분의 형상 또는 포락선은 원래 오디오 신호의 타깃 시간 도메인 포락선에 대한 양호한 근사치이다. 그러나 오디오 신호의 코어 디코딩 부분에서 고주파 성분들이 누락되어, 원래의 포락선과 비교할 때 덜 강조될 수 있는 타깃 시간 도메인 포락선으로 이어질 수 있다. 예를 들어, 타깃 시간 도메인 포락선은 오디오 신호의 저역 통과 필터링된 버전 또는 오디오 신호의 일부와 유사할 수 있다. 그러나 코어 디코딩된 오디오 신호로부터의 타깃 시간 도메인 포락선의 근사화는 예를 들어, 타깃 시간 도메인 포락선의 정보가 대역폭 강화 인코더로부터 대역폭 강화 디코더로 송신될 수 있는 코드북을 사용하는 것과 비교하여 (평균적으로) 더 정확할 수 있다.

추가 실시예들에 따르면, Griffin과 Lim에 의해 제안된 반복 신호 재구성 알고리즘의 효과적인 확장이 도시된다. 확장은 수정된 단시간 푸리에 변환을 사용하는 반복적인 재구성 내에서의 중간 단계를 보여준다. 중간 단계는 재구성되어야 하는 신호의 원하는 또는 미리 결정된 형상을 보강할 수 있다. 따라서 반복의 각각의 단계 내에서 예를 들어, 진폭 변조를 사용하여, 재구성된 (시간 도메인) 신호 상에 미리 결정된 포락선이 적용될 수 있다. 대안으로, 포락선은 시간-주파수 도메인에서 STFT와 포락선의 컨볼루션을 사용하여, 재구성된 신호에 적용될 수 있다. 역 STFT 및 STFT가 시간-주파수 도메인에서 에뮬레이트(수행, 변환 또는 전달)될 수 있고, 따라서 이러한 단계들이 명시적으로 수행될 필요가 없으므로, 두 번째 접근 방식이 유리하거나 보다 효과적일 수 있다. 더욱이, 예를 들어, 시퀀스 선택적 처리와 같은 추가 단순화들이 실현될 수 있다. 더욱이, 더 빠른 변환이 달성되기 때문에 의미 있는 값들을 갖는 (제 1 MSTFT 단계의) 위상들의 초기화가 유리하다.

첨부된 도면들을 사용하여 실시예들이 상세하게 설명되기 전에, 동일하거나 기능상 동일한 엘리먼트들에는 도면들에서 동일한 참조 번호들이 주어지고 동일한 참조 번호들이 제공된 엘리먼트들에 대한 반복된 설명이 제시된다는 점이 지적되어야 한다. 그러므로 동일한 참조 번호들을 갖는 엘리먼트들에 제공된 설명들은 상호 교환 가능하다.

본 발명의 실시예들은 이들의 첨부된 도면들을 참조로 다음에 논의될 것이다.
도 1은 처리된 오디오 신호를 얻도록 오디오 신호를 처리하기 위한 장치의 개략적인 블록도를 보여준다.
도 2는 시간-주파수 도메인 또는 주파수 도메인 처리를 사용하는 추가 실시예에 따른 장치의 개략적인 블록도를 보여준다.
도 3은 시간-주파수 도메인 처리를 사용하는 추가 실시예에 따른 장치를 개략적인 블록도로 보여준다.
도 4는 주파수 도메인 처리를 사용하는 일 실시예에 따른 장치의 개략적인 블록도를 보여준다.
도 5는 시간-주파수 도메인 처리를 사용하는 추가 실시예에 따른 장치의 개략적인 블록도를 보여준다.
도 6a - 도 6d는 일 실시예에 따른 과도부 복원의 개략도를 보여준다.
도 7은 주파수 도메인 처리를 사용하는 추가 실시예에 따른 장치의 개략적인 블록도를 보여준다.
도 8은 오디오 신호의 하나의 세그먼트를 예시하는 개략적인 시간 도메인 다이어그램을 보여준다.
도 9a - 도 9c는 예시적인 드럼 루프로부터 분리된 상이한 하이햇 성분 신호들의 개략도들을 예시한다.
도 10a - 도 10b는 드럼 루프들의 소스 분리를 위한 소스들로서 3개의 악기들을 포함하는 타악 신호 혼합물의 개략적인 예시를 보여준다.
도 11a는 정규화된 불일치 측정 대 반복 횟수의 전개를 보여준다.
도 11b는 프리-에코 에너지 대 반복 횟수의 전개를 보여준다.
도 12a는 정규화된 불일치 측정 대 반복 횟수의 전개의 개략도를 보여준다.
도 12b는 프리-에코 에너지 대 반복 횟수의 전개를 보여준다.
도 13은 V의 온셋 이벤트들의 프로토타입 버전들(오른쪽 아래 플롯들)과 사실상 유사한 추출된 템플릿들(3개의 가장 왼쪽의 플롯들)을 예시하는 일반적인 NMF 분해 결과의 개략도를 보여준다.
도 14a는 정규화된 일관성 측정 대 반복 횟수의 전개의 개략도를 보여준다.
도 14b는 프리-에코 에너지 대 반복 횟수의 전개의 개략도를 보여준다.
도 15는 일 실시예에 따른 오디오 신호를 인코딩하기 위한 오디오 인코더를 보여준다.
도 16은 장치 및 입력 인터페이스를 포함하는 오디오 디코더를 보여준다.
도 17은 주파수 도메인 프레임들의 시퀀스의 표현 및 타깃 시간 도메인 포락선의 표현을 포함하는 오디오 신호를 보여준다.
도 18은 일 실시예에 따른 오디오 소스 분리 프로세서의 개략적인 블록도를 보여준다.
도 19는 일 실시예에 따른 대역폭 강화 프로세서의 개략적인 블록도를 보여준다.
도 20은 대역폭 강화를 예시하는 개략적인 주파수 도메인 다이어그램을 보여준다.
도 21은 (중간) 시간 도메인 재구성의 개략적인 표현을 보여준다.
도 22는 처리된 오디오 신호를 얻도록 오디오 신호를 처리하기 위한 방법의 개략적인 블록도를 보여준다.
도 23은 오디오 디코딩 방법의 개략적인 블록도를 보여준다.
도 24는 오디오 소스 분리 방법의 개략적인 블록도를 보여준다.
도 25는 인코딩된 오디오 신호의 대역폭 강화 방법의 개략적인 블록도를 보여준다.
도 26은 오디오 인코딩 방법의 개략적인 블록도를 보여준다.

다음에, 본 발명의 실시예들이 보다 상세히 설명될 것이다. 동일하거나 유사한 기능을 갖는 각각의 도면들에 도시된 엘리먼트들은 동일한 참조 부호들과 연관될 것이다.

도 1은 처리된 오디오 신호(6)를 얻도록 오디오 신호(4)를 처리하기 위한 장치(2)의 개략적인 블록도를 보여준다. 이 장치(2)는 오디오 신호(4)의 중첩 프레임들을 나타내는 주파수 도메인 프레임들의 시퀀스(12)의 스펙트럼 값들에 대한 위상 값들(10)을 계산하기 위한 위상 계산기(8)를 포함한다. 더욱이, 위상 계산기(8)는 처리된 오디오 신호(6)와 관련된 타깃 시간 도메인 포락선(14)에 대한 정보를 기초로 위상 값들(10)을 계산하여, 처리된 오디오 신호(6)가 적어도 근사치로 타깃 시간 진폭 도메인 포락선(14) 및 주파수 도메인 프레임들의 시퀀스(12)에 의해 결정된 스펙트럼 포락선을 갖도록 구성된다. 따라서 위상 계산기(8)는 타깃 시간 도메인에 대한 정보를 수신하거나 타깃 시간 도메인 포락선(의 표현)으로부터 타깃 시간 도메인 포락선에 대한 정보를 추출하도록 구성될 수 있다.

주파수 도메인 프레임들(10)의 시퀀스의 스펙트럼 값들은 오디오 신호(4)의 단시간 푸리에 변환(STFT)을 사용하여 계산될 수 있다. 따라서 STFT는 예를 들어, 50%, 67%, 75% 또는 심지어 그 이상의 중첩 범위를 갖는 분석 윈도우들을 사용할 수 있다. 즉, STFT는 예를 들어, 분석 윈도우의 길이의 1/2, 1/3 또는 1/4의 홉 크기를 사용할 수 있다.

타깃 시간 도메인 포락선(14)에 관한 정보는 현재 또는 사용된 실시예와 관련된 상이한 또는 다양한 접근 방식들을 사용하여 도출될 수 있다. 코딩 환경에서, 예를 들어, 인코더는 (인코딩 전의) (원래의) 오디오 신호를 분석하고, 계산된 타깃 도메인 포락선에 가까운 미리 정의된 타깃 도메인 포락선을 나타내는 디코더에 예를 들어, 코드북 또는 룩업 테이블 인덱스를 송신할 수 있다. 인코더와 동일한 코드북 또는 룩업 테이블을 갖는 디코더는 수신된 코드북 인덱스를 사용하여 타깃 시간 도메인 포락선을 도출할 수 있다.

대역폭 강화 환경에서, 오디오 신호의 코어 디코딩된 표현의 포락선은 원래의 타깃 시간 도메인 포락선에 대한 양호한 근사치일 수 있다.

대역폭 강화는 처리 이전의 입력 신호의 대역폭과 비교하여 처리된 신호의 대역폭을 향상시키는 임의의 형태를 커버한다. 대역폭 강화의 한 가지 방법은 예를 들어, WO2015010948에 개시된 지능형 갭 채움 또는 세미-파라메트릭 갭 채움과 같은 갭 채움 구현인데, 여기서는 입력 신호의 스펙트럼 갭들이 송신된 파라메트릭 정보의 도움으로 또는 도움 없이 입력 신호의 다른 스펙트럼 부분들로 채워지거나 "강화"된다. 대역폭 강화의 추가 방법은 HE-AAC(MPEG 4) 또는 관련 프로시저들에서 사용되는 스펙트럼 대역 복제(SBR: spectral band replication)인데, 여기서는 크로스오버 주파수 이상의 대역이 처리에 의해 생성된다. 갭 채움 구현과 달리, SBR에서의 코어 신호의 대역폭은 제한적인데 반해, 갭 채움 구현들은 전대역 코어 신호를 갖는다. 그러므로 대역폭 강화는 크로스오버 주파수보다 더 높은 주파수들에 대한 대역폭 확장 또는 주파수에 대해 코어 신호의 최대 주파수 아래에 위치된 스펙트럼 갭들에 대한 대역폭 확장을 나타낸다.

더욱이, 소스 분리 환경에서, 타깃 시간 도메인 포락선은 근사화될 수 있다. 이는 과도부의 초기 위치까지 제로 패딩하거나 타깃 시간 도메인 포락선의 근사치 또는 대략적인 추정치로서 (상이한) 온셋들을 사용하고 있을 수 있다. 즉, 근사화된 타깃 시간 도메인 포락선은 중간 시간 도메인 신호의 현재 시간 도메인 포락선이 프레임의 시작 또는 오디오 신호의 일부에서부터 과도부의 초기 위치까지 0이 되게 함으로써 현재 시간 도메인 포락선으로부터 도출될 수 있다. 추가 실시예들에 따르면, 현재 시간 도메인 포락선은 하나 이상의 (미리 정의된) 온셋들에 의해(진폭) 변조된다. 온셋은 오디오 신호의 (전체) 처리를 위해 고정될 수 있거나, 다시 말해서, 제 1 (시간) 프레임 또는 오디오 신호의 일부를 처리하기 전에(또는 처리하기 위해) 한번 선택될 수 있다.

타깃 시간 도메인 포락선의 (근사 또는 추정)은 처리된 오디오 신호의 형상을 예를 들어, 진폭 변조 또는 곱셈을 사용하여 형성하여, 처리된 오디오 신호가 적어도 타깃 시간 도메인 포락선의 근사치를 갖게 하는데 사용될 수 있다. 그러나 처리된 오디오 신호의 스펙트럼 포락선은 주파수 도메인 프레임들의 시퀀스에 의해 결정되는데, 타깃 시간 도메인 포락선이 주파수 도메인 프레임들의 시퀀스의 스펙트럼과 비교할 때 주로 저주파 성분들을 포함하여, 주파수들의 대부분이 변하지 않고 그대로이기 때문이다.

도 2는 추가 실시예에 따른 장치(2)의 개략적인 블록도를 보여준다. 도 2의 장치는 중첩 범위에서 중첩 블록들의 일관성을 요구하는 최적화 타깃을 사용하여 스펙트럼 값들에 대한 위상 값들(10)을 초기 위상 값들(18)에서부터 시작하여 계산하기 위해 반복 알고리즘을 수행하기 위한 반복 프로세서(16)를 포함하는 위상 계산기(8)를 보여준다. 더욱이, 반복 프로세서(16)는 추가 반복 단계에서 타깃 시간 도메인 포락선에 따라 업데이트된 위상 추정치(20)를 사용하도록 구성된다. 즉, 위상 값들(10)의 계산은 반복 처리기(16)에 의해 수행되는 반복 알고리즘을 사용하여 수행될 수 있다. 따라서 주파수 도메인 프레임들의 시퀀스의 크기 값들이 알려지며 변경되지 않고 그대로일 수 있다. 초기 위상 값(18)에서부터 시작하여, 반복 프로세서는 각각의 반복 후에 반복들을 수행하기 위해 업데이트된 위상 추정치(20)를 사용하여 스펙트럼 값들에 대한 위상 값들을 반복적으로 업데이트할 수 있다.

최적화 타깃은 예를 들어, 반복 횟수일 수 있다. 추가 실시예들에 따르면, 최적화 타깃은 이전 반복 단계의 위상 값들과 비교할 때 위상 값들이 단지 최소한으로만 업데이트되는 임계치일 수도 있고, 또는 최적화 타깃은 반복 프로세스 이후의 스펙트럼 값들의 크기와 비교할 때 주파수 도메인 프레임들의 시퀀스의 (초기) 상수 크기의 차이일 수도 있다. 따라서 위상 값들은 오디오 신호의 프레임들의 그러한 부분들의 개별 주파수 스펙트럼이 동일하거나 적어도 최소한으로만 상이하도록 개선되거나 업그레이드될 수 있다. 즉, 서로 겹치는 오디오 신호의 중첩 프레임들의 모든 프레임 부분들은 동일하거나 유사한 주파수 표현을 가져야 한다.

실시예들에 따르면, 위상 계산기는 Griffin 및 Lim에 의한 반복 신호 재구성 프로시저에 따라 반복 알고리즘을 수행하도록 구성된다. 추가 (보다 상세한) 실시예들이 다음의 도면들과 관련하여 도시된다. 거기에서, 반복 프로세서는 일련의 처리 블록들, 즉 주파수-시간 변환기(22), 진폭 변조기(24) 및 시간-주파수 변환기(26)로 세분되거나 대체될 것이다. 편의상, 반복 프로세서(16)는 추가 도면들에서 (명시적으로는 아니라) 대개는 지적되지만, 앞서 언급한 처리 블록들은 반복 프로세서(16)와 동일한 동작들을 수행하거나, 반복 프로세서가 예를 들면, 최적화 타깃과 같은 반복적인 처리의 종결 조건(또는 종료 조건)을 감시하거나 모니터링한다. 더욱이, 반복 프로세서는 예를 들어, 도 4 및 도 7에 대해 도시된 주파수 도메인 처리에 따라 동작들을 수행할 수 있다.

도 3은 추가 실시예에 따른 장치(2)를 개략적인 블록도로 보여준다. 장치(2)는 주파수-시간 변환기(22), 진폭 변조기(24) 및 시간-주파수 변환기(26)를 포함하며, 여기서 주파수-시간 변환 및/또는 시간-주파수 변환은 중첩 및 합산 프로시저를 수행할 수 있다. 주파수-시간 변환기(22)는 주파수 도메인 프레임들의 시퀀스(12) 및 초기 위상 값 추정치(18) 또는 선행하는 반복 단계의 위상 값 추정치들(10)로부터 오디오 신호(4)의 중간 시간 도메인 재구성(28)을 계산할 수 있다. 진폭 변조기(24)는 진폭 변조된 오디오 신호(30)를 획득하기 위해 타깃 시간 도메인 포락선(14)(에 대한 정보)을 사용하여 중간 시간 도메인 재구성(28)을 변조할 수 있다. 더욱이, 시간-주파수 변환기는 진폭 변조된 신호(30)를 위상 값들(10)을 갖는 주파수 도메인 프레임들의 추가 시퀀스(32)로 변환하도록 구성된다. 따라서 위상 계산기(8)는 다음 반복 단계를 위해 (주파수 도메인 프레임들의 추가 시퀀스의) 위상 값들(10) 및 (주파수 도메인 프레임들의 추가 시퀀스가 아닌) 주파수 도메인 프레임들의 시퀀스의 스펙트럼 값들을 사용하도록 구성된다. 즉, 위상 계산기는 각각의 반복 단계 후에 주파수 도메인 프레임들의 추가 시퀀스(32)의 업데이트된 위상 값들을 사용한다. 주파수 도메인 프레임들의 추가 시퀀스의 크기 값들은 폐기되거나 추가 처리에 사용되지 않을 수 있다 더욱이, 크기 값들이 이미 (완전히) 재구성되었다고 가정되기 때문에, 위상 계산기(8)는 주파수 도메인 프레임들의 (초기) 시퀀스(12)의 크기 값들을 사용한다.

보다 일반적으로, 위상 계산기(8)는 타깃 시간 도메인 포락선(14)에 기초하여, 예를 들어 진폭 변조기(22)에서의 진폭 변조를 오디오 신호(4)의 중간 시간 도메인 재구성(28)에 적용하도록 구성된다. 진폭 변조는 억제된 반송파 송신을 이용하여 또는 이러한 송신 없이 단측파대 변조, 양측파대 변조를 사용하여 또는 오디오 신호의 중간 시간 도메인 재구성과 타깃 시간 도메인 포락선의 곱을 사용하여 수행될 수 있다. 초기 위상 값 추정치는 오디오 신호의 위상 값, 예를 들어 0과 같은 (임의의) 선택된 값, 또는 오디오 신호의 주파수 대역의 위상의 추정치, 또는 예를 들어, 오디오 소스 분리를 사용할 때, 오디오 신호의 소스의 위상일 수 있다.

추가 실시예들에 따르면, 위상 계산기(8)는 반복 결정 조건(예를 들어, 반복 종료 조건)이 충족될 때 오디오 신호(4)의 중간 시간 도메인 재구성(28)을 처리된 오디오 신호(6)로서 출력하도록 구성된다. 반복 결정 조건은 최적화 타깃과 밀접하게 관련될 수 있으며, 현재 최적화 값에 대한 최적화 타깃의 최대 편차를 정의할 수 있다. 더욱이, 반복 결정 조건은 (최대) 반복 횟수, 주파수 도메인 프레임들의 시퀀스(12)의 크기와 비교할 때 주파수 도메인 프레임들의 추가 시퀀스(32)의 크기의 (최대) 편차, 또는 현재 프레임과 이전 프레임 사이의 위상 값들(10)의 (최대) 업데이트 노력일 수 있다.

도 4는 도 3의 실시예와 비교할 때 대안적인 실시예일 수 있는 일 실시예에 따른 장치(2)의 개략적인 블록도를 보여준다. 위상 계산기(8)는 적어도 하나의 타깃 시간 도메인 포락선(14)의 스펙트럼 표현(14')과 적어도 하나의 중간 주파수 도메인 표현, 또는 오디오 신호(4)의 적어도 하나의 타깃 시간 도메인 포락선(14) 및 적어도 하나의 중간 주파수 도메인 표현(28')의 선택된 부분들 또는 대역들 또는 단지 고역 통과 부분만 또는 단지 여러 개의 대역 통과 부분들만의 컨볼루션(34)을 적용하도록 구성된다. 즉, 도 3의 처리는 시간 도메인 대신에 주파수 도메인에서 수행될 수 있다. 따라서 타깃 시간 도메인 포락선(14), 보다 구체적으로는 그것의 주파수 표현(14')이 진폭 변조 대신에 컨볼루션을 사용하여 중간 주파수 도메인 표현(28')에 적용될 수 있다. 그러나 이 아이디어는 또 각각의 반복에 대해 주파수 도메인 프레임들의 시퀀스의 (원래) 크기를 사용하고, 게다가 제 1 반복 단계에서 초기 위상 값(18)을 사용한 후, 추가 반복 단계마다 업데이트된 위상 값 추정치들(10)을 사용하는 것이다. 즉, 위상 계산기는 컨볼루션(34)에 의해 얻어진 위상 값들(10)을 다음 반복 단계에 대한 업데이트된 위상 값 추정치들로서 사용하도록 구성된다. 더욱이, 이 장치는 타깃 시간 도메인 포락선을 스펙트럼 도메인으로 변환하기 위한 타깃 포락선 변환기(36)를 포함할 수 있다. 더욱이, 장치(2)는 가장 최근의 반복 단계로부터 획득된 위상 값 추정치들(10) 및 주파수 도메인 프레임들의 시퀀스(12)를 사용하여 중간 주파수 도메인 재구성(28')으로부터 시간 도메인 재구성(28)을 계산하기 위한 주파수-시간 변환기(38)를 포함할 수 있다. 즉, 중간 주파수 도메인 표현(28')은 주파수 도메인 프레임들의 시퀀스의 크기 값들 및 업데이트된 위상 값 추정치들의 위상 값(10)을 포함할 수 있다. 시간 도메인 재구성(28)은 처리된 오디오 신호(6) 또는 처리된 오디오 신호(6)의 적어도 일부일 수 있다. 일부는 예를 들어, 처리된 오디오 신호 또는 오디오 신호(4)의 주파수 대역들의 총 개수와 비교할 때 감소된 수의 주파수 대역들과 관련될 수 있다.

추가 실시예들에 따르면, 위상 계산기(8)는 컨볼루션 프로세서(40)를 포함한다. 컨볼루션 프로세서(40)는 오디오 신호(4)의 중간 주파수 도메인 표현(28')을 얻기 위해 컨볼루션 커널, 시프트 커널 및/또는 중심 프레임으로의 추가 동작을 적용할 수 있다. 즉, 컨볼루션 프로세서는 주파수 도메인 프레임들의 시퀀스(12)를 처리할 수 있으며, 여기서 컨볼루션 프로세서(40)는 시간 도메인 중첩 및 합산 프로시저의 주파수 도메인 등가물을 주파수 도메인에서 주파수 도메인 프레임들의 시퀀스(12)에 적용하여 중간 주파수 도메인 재구성을 결정하도록 구성될 수 있다. 추가 실시예들에 따르면, 컨볼루션 프로세서는 현재 주파수 도메인 프레임에 기초하여, 주파수 도메인에서 시간 도메인 중첩 및 합산이 수행된 후에 현재 주파수 도메인 프레임에 기여하는 인접 주파수 도메인 프레임들의 일부를 결정하도록 구성된다. 더욱이, 컨볼루션 프로세서(40)는 현재 주파수 도메인 프레임 내의 인접 주파수 도메인 프레임의 일부의 중첩 위치를 추가로 결정하고 중첩 위치에서 현재 주파수 도메인 프레임과 인접 주파수 도메인 프레임들의 위치들의 합산을 수행할 수 있다. 추가 실시예에 따르면, 컨볼루션 프로세서(40)는 시간 도메인 합성 및 시간 도메인 분석 윈도우를 시간-주파수 변환하여, 주파수 도메인에서 시간 도메인 중첩 및 합산이 수행된 후 현재 주파수 도메인 프레임에 기여하는 인접 주파수 도메인 프레임의 일부를 결정하도록 구성된다. 더욱이, 컨볼루션 프로세서는 인접 주파수 도메인 프레임의 일부를 현재 주파수 도메인 프레임 내의 중첩 위치로 이동시키고 인접 주파수 도메인 프레임의 일부를 중첩 위치에서 현재 프레임에 적용하도록 추가로 구성된다.

즉, 도 3에 도시된 시간 도메인 프로시저는 주파수 도메인으로 전달(변환, 적용 또는 전환)될 수 있다. 따라서 주파수-시간 변환기(22) 및 시간-주파수 변환기(26)의 합성 및 분석 윈도우들은 주파수 도메인으로 전달(변환, 적용 또는 전환)될 수 있다. 합성 및 분석 윈도우들의 (결과적인) 주파수 도메인 표현은 시간 도메인에서 중첩 및 합산 프로시저에서 중첩하고 있었을 현재 프레임에 대한 인접한 프레임들의 부분들을 결정한다(또는 잘라낸다). 더욱이, 잘린 부분들은 현재 프레임 내의 정확한 위치로 이동되고 현재 프레임에 추가되어, 주파수 도메인에서 시간 도메인 주파수-시간 변환 및 시간-주파수 변환이 수행된다. 이는 명백한 신호 변환이 무시되거나 수행되지 않을 수 있기 때문에 유리하며, 이는 위상 계산기(8) 및 장치(2)의 연산 효율을 향상시킬 수 있다.

도 5는 오디오 신호(4)의 분리된 채널들 또는 대역들의 신호 재구성에 초점을 맞추는 추가 실시예에 따른 장치(2)의 개략적인 블록도를 보여준다. 따라서 시간 도메인의 오디오 신호(4)는 시간-주파수 변환기, 예를 들어 STFT(42)를 사용하여 오디오 신호(4)의 중첩 프레임들을 나타내는 주파수 도메인 프레임들의 시퀀스(12)로 변환될 수 있다. 이것의 수정된 크기 추정기(44')는 주파수 도메인 프레임들 또는 성분들의 시퀀스 또는 주파수 도메인 프레임들의 시퀀스의 성분 신호들의 크기(44)를 도출할 수 있다. 더욱이, 초기 위상 추정기(18')를 사용하여 주파수 도메인 프레임들의 시퀀스(12)로부터 초기 위상 추정치(18)가 계산될 수도 있고, 또는 초기 위상 추정기(18')가 예를 들어, 주파수 도메인 프레임들의 시퀀스(12)로부터 도출되지 않는 임의의 위상 추정치(18)를 선택할 수 있다. 주파수 도메인 프레임들의 시퀀스(12)의 크기(44) 또는 초기 위상 추정치(18)에 기초하여, MSTFT(12')는 추가 처리에서 변경되지 않고 그대로인 (완전하게) 재구성된 크기(44), 및 단지 초기 위상 추정치(18)를 갖는 주파수 도메인 프레임들의 초기 시퀀스(12")로서 계산될 수 있다. 초기 위상 추정치(18)는 위상 계산기(8)를 사용하여 업데이트된다.

추가 단계에서, 주파수-시간 변환기(22), 예를 들어 역 STFT(ISTFT)는 주파수 도메인 프레임들의 (초기) 시퀀스(12")의 중간 시간 도메인 재구성(28)을 계산할 수 있다. 중간 시간 도메인 재구성(28)는 타깃 포락선 또는 더 정확하게는 타깃 시간 도메인 포락선(14)과 진폭 변조, 예를 들어 곱해질 수 있다. 시간-주파수 변환기(26), 예를 들어 STFT는 위상 값들(10)을 갖는 주파수 도메인 프레임들의 추가 시퀀스(32)를 계산할 수 있다. MSTFT(12')는 주파수 도메인 프레임들의 업데이트된 시퀀스에서 주파수 도메인 프레임들의 시퀀스(12)의 크기(44) 및 업데이트된 위상 추정기(10)를 사용할 수 있다. 이 반복 알고리즘은 예를 들어, 위상 계산기(8)의 앞서 언급한 처리 단계들을 수행할 수 있는 반복 프로세서(16) 내에서 L회 수행되거나 반복될 수 있다. 예컨대, 반복 프로세스가 완료된 후, 시간 도메인 재구성(28")은 중간 시간 도메인 재구성(28)으로부터 도출된다.

다시 말하면, 다음에서는 표기법 및 신호 모델이 도시되고 이용되는 신호 재구성 방법이 설명된다. 그 후, LSEE-MSTFTM 방법에서의 과도부 보존을 위한 확장이 예시적인 예와 관련하여 도시된다.

실수 값의 이산 시간 도메인 신호

은 동시 성분 신호의 혼합인 것으로 간주된다. 목적은

를 아래와 같이 되도록 과도 타깃 신호

및 잔차 성분 신호

로 분해하는 것이다:

(1')

과도 신호

의 개선된 지각 품질에 초점을 두고 있으며

와

의 중첩이 원래의

를 정확하게 산출하지 않을 수도 있는 것이 허용되기 때문에 분해는 근사치처럼 보인다는 점에 주목한다. 지금은,

가 시간 위치

가 알려져 있는 하나의 과도부를 정확하게 포함한다고 가정된다.

인

를 제 m 시간 프레임에서의 복소 값 TF 빈 및 단시간 푸리에 변환(STFT)의 제 k 스펙트럼 계수인 것으로 한다. 계수는 아래 식에 의해 계산되며:

(2')

여기서

은 블록 크기

의 적당한 윈도우 함수이고

은 홉 크기 파라미터이다. 단순화를 위해, 이는 또한

로 기재될 수 있다.

로부터, 크기 스펙트로그램

와 위상 스펙트로그램

은 다음과 같이 도출되며:

(3')

(4')

이다. 어떤 적절한 소스 분리 프로시저를 통해 과도 성분 신호를 나타내는 수정된 STFT(MSTFT)

를 추정할 수 있다고 가정한다. 보다 구체적으로, 이는

로 설정되는데, 여기서

와

는 각각 크기 및 위상 스펙트로그램의 추정치들이고, 연산자

는 엘리먼트 단위의 곱셈을 나타낸다.

의 시간 도메인 재구성은 먼저 각각의 스펙트럼 프레임에 역 이산 푸리에 변환(DFT: Discrete Fourier Transform)을 적용하여 다음과 같이 정의된 한 세트의 중간 시간 신호들

을 산출함으로써 달성되는데,

에 대해

(5')

그리고

에 대해

이다. 둘째, 최소 제곱 에러 재구성 방법은 다음과 같다:

(6')

가 적용되는데, 여기서 분석 윈도우

는 합성 윈도우로서 재사용된다. 단순화를 위해, 이 프로시저는 ([8]에서 LSEE-MSTFT로 지칭되는)

로 표시된다.

에 대한 추정치는 TF(시간-주파수) 도메인에서 얻어지기 때문에,

가 일관된 신호라고 가정될 수는 없다. 실제로는,

에서 과도부 스미어링 및 프리-에코들을 접할 가능성이 있다. 이는 큰 N에 대해 특히 사실이다. 이 문제를 해결하기 위해, 다음의 프로시저에 따라

를 반복적으로 개선하는 것이 제안되는데, 여기서는 반복 인덱스

가 도입되고 주어진 과도 위치

이 사용된다.

와

이 주어지면, 과도 신호 성분의 초기 MSTFT 추정치는

로서 도입되고,

에 대해 다음 단계들이 반복된다:

1. (5') 및 (6')을 통해

2.

에 대해

을 보강함

3. (2') 및 (4')을 통해

4.

도 5의 실시예는

로 표시된 이전에 기술된 과도 신호들 대신에

로 표시된 성분 신호들을 사용하여 보다 일반적으로 기술될 수 있다. 일반적으로, 모든 설명된 실시예들과 관련하여, 아래 첨자 c로 표시된 신호들은 위 첨자 t로 표시된 대응 신호인 신호로 그리고 그 반대로 대체될 수 있다. 아래 첨자 c는 성분 신호를 나타내는데, 여기서 위 첨자 t는 성분 신호일 수 있는 과도 신호를 나타낸다. 그럼에도, 위 첨자 t를 갖는 신호는 아래 첨자 c를 갖는 (보다 일반적인) 신호로 대체될 수 있다. 과도 신호들과 관련하여 설명되는 실시예들은 과도 신호로 한정되지 않으며 따라서 임의의 다른 성분 신호에 적용될 수 있다. 예컨대,

는

로 바꿀 수 있으며 그 반대도 마찬가지이다.

따라서 실수 값의 이산 시간 도메인 신호

는 개별 소스들(예컨대, 악기들)에 대응하는

개의 성분 신호들

의 선형 혼합물

인 것으로 간주된다. 도 10a에 도시된 바와 같이, 각각의 성분 신호는 대응하는 악기에 의해(이 예의 경우에는 드럼을 침으로써) 생성된 적어도 하나의 과도 오디오 이벤트를 포함한다. 더욱이, 오디오 이벤트들 각각에 대한 온셋 시간(즉, 과도부 위치) 및 악기 타입을 지정하는 심벌 표기가 이용 가능하다고 가정된다. 그 표기로부터, 온셋 이벤트들의 총 개수(S)뿐만 아니라 고유 악기들의 수(C)가 도출된다. 목표는 도 10에 도시된 바와 같이 혼합물

로부터 개별 성분 신호들

를 추출하는 것이다. 평가를 위해, "오라클"(즉, 참) 성분 신호들

를 이용 가능하게 하는 것이 가정된다.

는 TF 도메인에서 분해되고, 이를 위해 STFT가 다음과 같이 이용된다.

를 제 m 시간 프레임에서의 복소 값 TF 계수 및 제 k 스펙트럼 빈인 것으로 한다. 계수는 아래 식에 의해 계산되며:

(1)

여기서

은 블록 크기

의 적당한 윈도우 함수이고

은 홉 크기 파라미터이다. 주파수 빈들의 수는 K = N/2이고, 스펙트럼 프레임들의 수 M ∈ [1 : M]은 이용 가능한 신호 샘플들에 의해 결정된다. 단순화를 위해, 이는

로 기재될 수 있다. [2]에 따라,

는 (1)을 통해 실시간 도메인 신호

로부터 얻어진 복소수 집합이기 때문에 이는 일관성 있는 STFT라 불린다. 이에 반해, 일관성 없는 STFT는 실시간 도메인 신호로부터 얻지 못한 복소수 집합이다.

로부터, 크기 스펙트로그램

와 위상 스펙트로그램

은 다음과 같이 도출되며:

(2)

(3)

이다.

는 혼합물의 크기 스펙트로그램

의 전치된 버전을 보유하는 음이 아닌 행렬이라 한다. 목적은 V를 도 10b에 도시된 바와 같이 개별 악기들에 대응하는 성분 크기 스펙트로그램(V_c)으로 분해하는 것이다. 지금은, 일부 오라클 추정기가 원하는

를 추출한다고 가정된다. 최첨단 분해 기술을 사용하여 성분들의 크기를 추정하는 하나의 가능한 접근 방식은 나중에 설명될 것이다. 특정 성분 신호

를 재구성하기 위해,

를 설정하며, 여기서

및

는 성분 위상 스펙트로그램의 추정치이다.

에 대한 추정치로서 혼합 위상 정보

를 사용하고 결과적인 MSTFT를 [1]로부터의 LSEE-MSTFT 재구성 방법을 통해 반전하는 것이 일반적이다. 이 방법은 먼저

의 각각의 스펙트럼 프레임에 역 이산 푸리에 변환(DFT)을 적용하여, 다음과 같이 정의된

인 한 세트의 중간 시간 신호들

을 산출하는데,

에 대해

(4)

그리고

에 대해

이다. 둘째, 다음에 의해 최소 제곱 에러 재구성이 달성되는데

(5)

이고, 여기서 분석 윈도우(w)는 합성 윈도우로서 재사용된다. 단순화를 위해, 이 프로시저는 ([1]에서 LSEE-MSTFT로 지칭되는)

로 표시된다.

MSTFT

는 TF 도메인에서 구성되기 때문에, 이는 일관성 없는 STFT일 수 있다고 가정되어야 하는데, 즉

를 충족하는 실시간 도메인 신호 [xc]는 존재하지 않을 수 있다. 직관적으로 말하자면, 특정 TF 빈들의 크기가 수정되자마자 크기와 위상 간의 복잡한 상호 작용이 손상될 가능성이 있다. 실제로, 이 불일치는

에서, 큰 N에 대해 특히 과도부 스미어링 및 프리-에코들로 이어질 수 있다.

이 문제를 해결하기 위해, LSEE-MSTFTM 프로시저[1]의 다음 확장으로

의 불일치를 반복적으로 최소화하는 것이 제안된다. 지금은,

가

의 정확한 위치가 알려진 정확히 하나의 과도부 온셋 이벤트를 포함한다고 가정될 수 있다. 이제, 반복 인덱스

가 도입된다.

및 일부 초기 위상 추정치

가 주어지면, 타깃 성분 신호

의 초기 STFT 추정치가 도입되고,

에 대해 다음 단계들이 반복된다.

1. (5') 및 (6')을 통해

2.

에 대해

을 보강함

3. (2') 및 (4')을 통해

4.

실시예들에 따르면, 설명된 방법들, 인코더 또는 디코더의 유리한 점은 LSEE-MSTFTM 프로시저에서 과도부 제약들을 보강하는 중간 단계 2이다.

도 6a - 도 6d는 시간 도메인 신호(46), 분석 신호 포락선(48) 및 과도부 위치(50)를 나타내는 일 실시예에 따른 과도부 복원의 개략도를 보여준다. 도 6은 타깃 성분 신호(46)가 도 6a에서 그 분석 신호(48)의 포락선과 중첩되는 제안된 방법 또는 장치를 예시한다. 예시적인 신호는 파형이 무음으로부터 기하 급수적으로 감소하는 사인 곡선 또는 사인파로 전환 할 때 n₀(50) 주변에서의 과도 동작 또는 과도 신호 성분을 나타낸다. 도 6b는

(즉, 모든 TF 빈들에 대해 0 위상)을 갖는 iSTFT로부터 얻어진 시간 도메인 재구성을 보여준다. 중첩 프레임들의 파괴적인 간섭을 통해 과도부가 완전히 파괴되고, 사인 곡선의 진폭이 크게 감소하며 포락선이 거의 평평하게 보인다. 도 6c는 L = 200회의 LSEE-MSTFTM 반복 후에 확연한 과도부 스미어링을 갖는 재구성을 보여준다. 도 6d는 제안된 방법의 L = 200회 반복들 이후 복원된 과도부가 원래 신호에 훨씬 더 가깝다는 것을 보여준다. n₀ 앞에서 포락선에 작은 리플들이 보일 수 있지만, 전반적인 복원은 원본 신호에 훨씬 가깝다. 실제 레코딩들에서는, 일반적으로 신호 전반에 다수의 과도부 온셋 이벤트가 존재한다. 이 경우, 도 9에 도시된 바와 같이 연속적인 과도부들(각각 온셋들) 사이에 국소화된 신호 발췌 부분들에 제안된 방법을 적용할 수 있다.

도 7은 추가 실시예에 따른 장치(2)의 개략적인 블록도를 보여준다. 도 4와 마찬가지로, 위상 계산기는 주파수 도메인에서 위상 계산을 수행한다. 주파수 도메인 처리는 도 5에 도시된 실시예에 관해 설명한 시간 도메인 처리와 동일할 수 있다. 또, 시간 도메인 신호(4)는 STFT(수행기)(42)를 사용하여 시간-주파수 변환되어 주파수 도메인 프레임들의 시퀀스(12)를 도출할 수 있다. 이것의 수정된 크기 추정기(44')는 주파수 도메인 프레임들의 시퀀스(12)로부터 수정된 크기(44)를 도출할 수 있다. 초기 위상 추정기(18')는 주파수 도메인 프레임들의 시퀀스로부터 초기 위상 추정치(18)를 도출할 수도 있고 또는 예를 들어, 임의의 초기 위상 추정치를 제공할 수도 있다. 수정된 크기 추정치 및 초기 위상 추정치를 사용하여, MSTFT(12')는 주파수 도메인 프레임들의 초기 시퀀스(12")를 계산하거나 결정하며, 이는 각각의 반복 단계 후에 업데이트된 위상 값들을 수신할 것이다. 도 5의 실시예들과 다른 점은 위상 계산기(8)의 주파수 도메인 프레임들의 (초기) 시퀀스(12")이다. 시간 도메인 합성 및 분석 윈도우들, 예를 들어 도 5에서 ISTFT(22) 또는 STFT(26)에서 사용되는 합성 및 분석 윈도우를 기초로, 컨볼루션 커널 계산기(52')가 합성 및 분석 윈도우들의 주파수 도메인 표현을 사용하여 컨볼루션 커널(52)을 계산할 수 있다. 컨볼루션 커널은 ISTFT(22)에서의 중첩 및 합산을 사용하여 현재 프레임과 중첩할 현재 주파수 도메인 프레임의 이웃하거나 인접한 프레임들의 부분들을 잘라낸다(슬라이스하거나 사용한다). 커널 시프트 계산기(54')는 시프트 커널(52)을 계산하고 시프트 커널(52)을 인접 주파수 도메인 프레임들의 부분들에 적용하여 그러한 부분들을 현재 주파수 도메인 프레임의 정확한 중첩 위치로 이동시킬 수 있다. 이는 ISTFT(22)의 중첩 및 합산 프로시저의 중첩 동작을 에뮬레이트할 수 있다. 더욱이, 블록(56)은 중첩 및 합산 프로시저의 합산을 수행하고 인접한 프레임들의 중첩 부분들을 중앙 프레임 기간에 부가한다. 컨볼루션 커널 계산 및 적용, 시프트 커널 계산 및 적용, 그리고 블록(56)에서의 합산은 컨볼루션 프로세서(40)에서 수행될 수 있다. 컨볼루션 프로세서(40)의 출력은 주파수 도메인 프레임들의 시퀀스(12) 또는 주파수 도메인 프레임들의 초기 시퀀스(12")의 중간 주파수 도메인 재구성(28')일 수 있다. 중간 주파수 도메인 재구성(28')은 컨볼루션(34)을 사용하여 타깃 포락선(14)의 주파수 도메인 표현과 (프레임 단위로) 컨볼루션될 수 있다. 컨볼루션(34)의 출력은 위상 값들(10)을 갖는 주파수 도메인 프레임들의 추가 시퀀스(32')일 수 있다. 위상 값들(10)은 추가 반복 단계에서 MSTFT(12')의 초기 위상 추정치(18)를 대체한다. 반복은 반복 프로세서(15)를 사용하여 L회 수행될 수 있다. 반복 프로세스가 중단된 후, 또는 반복 프로세스 내의 특정 시점에서, 컨볼루션 프로세서(40)로부터 최종 주파수 도메인 재구성(28''')이 도출될 수 있다. 최종 주파수 도메인 재구성(28''')은 가장 최근 반복 단계의 중간 주파수 도메인 재구성(28')일 수 있다. 주파수-시간 변환기(38), 예를 들어 ISTFT를 사용하여, 처리된 오디오 신호(6)일 수 있는 시간 도메인 재구성(28")이 얻어질 수 있다.

즉, LSEE-MSTFTM 반복에서 중간 단계를 적용하는 것이 유리하다. 위상들

의 업데이트된 추정치를 얻기 위해 STFT를 다시 계산하기 전에 과도부 앞의 모든 샘플들을 0이 되게 보강할 수 있다. 이 제약은 또한 TF 도메인에서 직접 시행될 수 있다. 따라서 일부 사전 요건들을 설정하는 것이 유리할 수 있다. 첫째,

및

에 특정 제약들을 부과함(예컨대, 대칭 Hann 윈도우를 사용하고 리던던시

가 기수 4가 될 것을 요구함[2])으로써 (6)의 분모에 있는 시간 이동 및 제곱 윈도우 함수들의 합에 대한 정규화가 생략될 수 있다. 프레임당 (공액까지) 고유 스펙트럼 빈들의 수는 K = N/2이며, 주파수 인수는 k ∈ [-K : K에 대해 평가된다. 지금은 단일 스펙트럼 프레임에 초점을 맞추면, iSTFT 및 다시 STFT를 연속적으로 적용하는 동작은 TF 도메인에서 선행 및 후속 프레임으로부터의 가중된 스펙트럼 기여들의 중첩으로서 표현될 수 있다. 중심 프레임과 겹치는 프레임들만이 고려될 필요가 있다. 이것은 인접 프레임 인덱스 q ∈ [-(Q -1) : (Q - 1)로 표현된다. 2개의 TF 커널들이 구성되는데, 첫 번째 커널은 다음과 같은 컨볼루션 커널이고:

(7')

이는 분석 윈도우의 잘림 및 시간 이동 버전과 합성 윈도우의 엘리먼트별 곱의 DFT를 캡처한다. 두 번째 커널은 다음의 곱셈 커널이며:

(8')

이는 이웃하는 프레임들로부터 중앙 프레임 내부의 정확한 위치까지의 기여를 이동시키는데 필요하다. 커널들은 각각의 TF 빈에 연속적으로 적용된다:

(9')

이제 단지 n ₀이 위치한 프레임들에 적용될 필요가 있는 두 번째 컨볼루션 연산에 의해, 제안된 과도부 복원이 간단하게 포함될 수 있다. 해당 컨볼루션 커널들은 적절하게 이동된 Heavyside 함수의 STFT로부터 프레임 단위로 택해질 수 있다

(10')

이 계단 모양의 함수를 사용하는 것 외에도, 임의로 형상화된 포락선 시간 도메인 진폭 포락선 신호들의 STFT를 사용하는 것이 제안된다는 점에 주목한다. TF 도메인에서 각각의 컨볼루션을 시간 도메인에서 적절한 신호 변조를 통해 광범위한 재구성 제약들이 부과될 수 있다고 기술된다.

[4]에 도시된 바와 같이, 주파수 도메인 연산자들을 적용하는 계산 부하는 컨볼루션 커널(α)을 더 적은 수의 중앙 계수들로 절단함으로써 감소될 수 있다. 이것은 가장 확연한 계수들이 k = 0 주위에 위치된다는 관찰에 의해 경험적으로 동기 부여된다. 실험들은 α가 k ∈ [-3 : +3]까지 주파수 방향으로 절단된다면 TF 재구성이 여전히 시간 도메인 재구성에 매우 가깝다는 것을 보여주었다. 또한, 윈도우 함수들이 적절하게 선택된다면 α는 에르미트 행렬이다. 이러한 켤레 복소수 대칭들에 기초하여, 복소 곱들 및 이에 따른 처리 전력이 할애될 수 있다. 게다가, 각각의 주파수 빈의 위상 업데이트를 고려할 필요가 없다. 대신, 가장 큰 크기를 나타내는 빈들의 분수를 선택할 수 있으며, 이들이 재구성을 지배할 것이므로 이들에만 (9')를 적용할 수 있다. 도시된 바와 같이, 위상 정보에 대한 합리적인 첫 번째 추측은 또한 재구성의 수렴 속도를 높이는데 도움이 될 것이다.

평가를 위해, (GL로 표시된) 종래의 LSEE-MSTFTM 재구성은

에 대한 두 가지 서로 다른 초기화 전략들 하에서 (TR로 표시된) 제안된 방법과 비교된다. 다음에서는, 사용된 데이터 세트, 테스트 항목 생성 및 사용된 평가 메트릭들이 설명된다.

모든 실험들에서, 공개적으로 입수할 수 있는 "IDMT-SMT-Drums" 데이터 세트가 사용된다. "WaveDrum02" 서브세트에는, 60개의 드럼 루프들이 있는데, 이들 각각은 3개의 악기들, 즉 킥 드럼, 스네어 드럼 및 하이햇의 완벽하게 분리된 단일 트랙 레코딩들(즉, 오라클 성분 신호들)로서 제공된다. 3x60개의 모든 레코딩들은 44:1㎑ 샘플링 레이트, 16 비트, 모노의 비압축 PCM WAV 포맷이다. 3개의 모든 단일 트랙들을 믹싱하면, 60개의 혼합 신호들이 얻어진다. 추가로, 온셋 시간들 및 이에 따라 모든 온셋들의 근사치(n₀)는 개별 악기별로 이용 가능하다. 이 정보를 사용하면, 타깃 악기의 연속 온셋들 사이에 각각 위치하는 혼합물들로부터 발췌 부분들을 취함으로써 4421개의 드럼 온셋 이벤트들의 테스트 세트가 구성된다. 이렇게 하면, 각각의 발췌 부분 앞의 N 개의 샘플들이 제로 패딩된다. 그 근거는 무음의 한 섹션을 의도적으로 국소 과도부 위치 앞에 두는 것이다. 그 섹션 안에서, 선행하는 음표 온셋들의 쇠퇴 영향이 배제될 수 있고, 잠재적으로 발생하는 프리-에코들이 측정될 수 있다. 결국, 이는 국소 과도부 위치의 n₀ + N으로의 가상 시프트로 이어진다(이는 표기 편의상 또 n₀으로 표시됨).

도 8은 오디오 신호 또는 테스트 항목의 하나의 세그먼트 또는 프레임을 예시하는 개략적인 시간 도메인 다이어그램을 보여준다. 도 8은 혼합 신호(61a), 타깃 하이햇 신호(61b), 과도부 복원(61d)과 비교되는 LSEE-MSTFTM(61c)을 이용한 재구성을 도시하는데, 이들은 둘 다 파선들(60', 60") 사이의 섹션인 온셋 발췌 부분(60)마다 적용된 200회 반복 이후에 얻어진다. 혼합 신호(61a)는 타깃 하이햇 신호(61b)에 대한 킥 드럼 및 스네어 드럼의 영향을 명확하게 나타낸다.

도 9a - 도 9c는 예시적인 드럼 루프의 상이한 하이햇 성분 신호들의 개략도들을 예시한다. 과도부 위치(n₀)(62)는 실선으로 표시되고, 여기서 발췌 경계들(60', 60")은 파선들로 표시된다. 도 9a는 맨 위의 혼합 신호 대 맨 아래의 오라클 하이햇 신호를 보여준다. 도 9b는 오라클 크기 및 제로 위상 기간을 갖고 초기화로부터 얻어진 하이햇 신호를 보여준다. GL의 200과 같은 L회 반복 이후의 재구성은 도 9b의 맨 위에 도시되는 한편, 도 9b의 맨 아래에는 TR이 도시된다. 도 9c는 제로 위상에서 NMFD 기반 크기로 초기화로부터 얻어진 하이햇 신호를 보여주는데, NMFD 기반 처리는 도 12 - 도 14(의 규격)에 관해 기술될 것이다. GL의 200과 같은 L회 반복 이후의 재구성은 도 9c의 맨 위에 제시되고, 도 9c의 맨 아래에는 TR이 제시된다. 분해는 예시적인 드럼 루프에서 매우 잘 작동하기 때문에, 도 9b와 도 9c 사이에는 눈에 띄는 시각적 차이가 거의 없다.

도 10은 신호의 개략적인 예시를 보여준다. 도 10a는 예를 들어, Roland TR808 드럼 머신으로부터의 합성 드럼 사운드 샘플들의 시퀀스들을 각각 포함하는 c = 3개의 성분 신호들(x_c)의 합으로서 혼합 신호(x)(64a)를 나타낸다. x₁(64a''')은 킥 드럼을 나타내고, x₂(64a'')는 스네어 드럼을 나타내고, x₃(64a')은 하이햇을 나타낸다. 도 10b는 혼합물의 크기 스펙트로그램(V) 및 c = 3개의 성분 크기 스펙트로그램들(V_c)의 시간-주파수 표현을 보여준다. 더 나은 가시성을 위해, 주파수 축은 로그 간격으로 재샘플링되고 크기들은 로그 압축되었다. 게다가, 신호들(64a)의 시간-주파수 표현들은 참조 부호(64b)로 표시된다. 더욱이, 도 9에서, 조정된 발췌 경계들은 파선들로 가시화되고 실선으로 실질적으로 시프트된 n₀은 실선으로 가시화된다. 드럼 루프들은 사실적인 리듬들이므로, 발췌 부분들은 동시에 연주되는 나머지 드럼 악기들과 다양한 중첩 정도를 나타낸다. 도 9a에서, 혼합물(상부)은 고립된 하이햇 신호(하단)와 비교하여 킥 드럼의 현저한 영향을 나타낸다. 비교를 위해, 도 10a의 2개의 상부 플롯들은 사용된 예시적인 신호의 혼합물(x) 및 하이햇 성분(x₃)의 확대된 버전을 보여준다. 하단 플롯에서, 킥 드럼(x₁)을 별개로 확인할 수 있다. 이는 예를 들어, Roland TR 808 드럼 컴퓨터로부터 샘플링되며 쇠퇴하는 사인 곡선과 유사하다.

다음에서, MSTFT를 초기화하기 위한 두 가지 테스트 경우들이 사용되는 다양한 테스트 시나리오들에 대한 평가 수치들이 도시될 것이다. 경우 1은 초기 위상 추정치

및 고정 크기 추정치

를 사용한다. 과도부 표기법에 따르면, 경우 1은

의 초기 위상 추정치 및 고정 크기 추정치

를 사용한다. 즉, 분리된 신호 또는 부분 신호의 위상 정보가 예를 들어, 분리된 신호 또는 부분 신호의 위상 대신에 혼합 오디오 신호의 위상으로부터 취해진다. 더욱이, 경우 2는 초기 위상 추정치

및 고정 크기 추정치

를 사용한다. 과도부 표기법에 따르면, 경우 2는 초기 위상 추정치

및 고정 크기 추정치

와 같다. 여기서, 초기 위상 추정치는 도 6b에 도시된 효과가 얻어질 수 있다 하더라도, (임의의) 값(0)을 사용하여 초기화된다. 게다가, 두 테스트 경우들 모두 오디오 신호의 분리된 또는 부분 신호의 진폭 값들을 사용한다. 또한, 표기법은 상호 적용 가능하다는 것이 확인될 수 있다.

는

에 대한 iSTFT 및 STFT(LSEE-MSTFTM 알고리즘에서 핵심임)의 연속 적용을 나타내기 위해 도입된다. [10]에 따라, 각각의 반복

에서 정규화된 일관성 측정(NCM: normalized consistency measure)은 두 테스트 경우들 모두에 대해 다음과 같이 계산된다:

(6)

과도부 복원을 위한 보다 전용되는 측정으로서, 두 테스트 경우들 모두에 대한 중간 시간 도메인 성분 신호 재구성들

에서 발췌 부분 시작과 과도부 위치 사이의 섹션으로부터 프리-에코 에너지가 다음과 같이 계산된다:

(7)

도 11a는 정규화된 일관성 측정 대 반복 횟수의 전개를 보여준다. 도 11b는 프리-에코 에너지 대 반복 횟수의 전개를 보여준다. 곡선들은 평균적인 전체 테스트 발췌 부분들을 보여준다. 더욱이, GL 알고리즘의 사용으로부터 도출된 결과들은 파선들로 표시되며, 여기서 TR 알고리즘으로부터 도출된 결과들은 실선들을 사용하여 표시된다. 더욱이, 경우 1의 초기화는 참조 번호 66a, 66a'로 표시되며, 여기서 경우 2의 초기화를 사용하여 도출된 곡선들은 참조 부호 66b, 66b'로 표시된다. 도 11의 곡선들은 h = 1024 및 n = 4096인 (1)을 통해 각각의 혼합물 발췌 부분의 STFT를 계산함으로써 도출되고 이들을

로 표시한다. 기준 타깃으로서, 동일한 발췌 부분이 취해지고, 동일한 제로 패딩이 각각의 개별 드럼 악기의 단일 트랙으로부터 이 시점에 적용되어, 결과적인 STFT를

로 표시한다. 대응하는 성분 신호는

이다. LSEE-MSTFTM(GL)과 제안된 방법 또는 장치(TR) 모두의 L = 200회 반복들이 사용된다.

에 대한 (11) 및 (12)로부터의 두 품질 측정들 모두의 전개가 도 11에 도시된다. 다이어그램(a)은 평균적으로 제안된 방법(TR)이 불일치 감소 측면에서 LSEE-MSTFTM(GL)과 동등하게 잘 수행됨을 나타낸다. 두 테스트 경우들 모두에서, TR(실선) 및 GL(파선)에 대한 측정들의 동일한 상대적 동작이 관찰될 수 있다. 예상대로, 곡선들(66a, 66a')(경우 1)은 곡선들(66b, 66b')(경우 2)보다 훨씬 더 낮은 초기 불일치에서 시작하는데, 이는 분명히 혼합 위상

로의 초기화에 기인한다. 다이어그램(11b)은 프리-에코 감소에 대한 TR의 이점을 보여준다. 두 테스트 경우들 모두에서, TR 측정들(66a, 66b)(실선들)은 GL 측정들(파선)에 비해 약 20dB 더 낮은 프리-에코 에너지를 나타낸다. 또한, 경우 1(66a, 66a')의 보다 일관된 초기

는 경우 2(66b, 66b')와 비교하여 프리-에코 감소 면에서 상당한 유리함을 나타낼 수 있다. 놀랍게도, 경우 2에 적용되는 제안된 TR 처리는 L > 100에 대한 프리-에코 감소 면에서 경우 1에 적용된 GL을 약간 능가한다. 이러한 결과들로부터, 적정한 초기 위상 및 크기 추정치가 이용 가능한 시나리오들에서 제안된 방법의 단지 몇 번의 반복들(예컨대, L < 20)을 적용하기에 충분한 것으로 추론될 수 있다. 그러나 약한 위상 추정치와 함께 양호한 크기 추정치가 이용 가능하고 그 반대의 경우도 마찬가지인 경우에 더 많은 반복들(예를 들어, L < 200)이 적용될 수 있다. 도 8에는 테스트 경우 2의 하나의 테스트 항목과 상이한 버전들의 세그먼트가 도시된다. TR 재구성(61d)은 LSEE-MSTFTM(61c)에 의한 재구성과 비교하여 명확하게 감소된 프리-에코들을 나타낸다. 위의 경우에는 기준 하이햇 신호(61b) 및 혼합 신호(61a)가 도시된다.

그러나 다음 도면들은 아래에 설명되는 바와 같이 다른 홉 크기 및 다른 윈도우 길이를 사용하여 도출된다.

각각의 혼합물 발췌 부분에 대해, STFT는 (1)을 통해 H = 512 및 N = 2048로 계산되고

로 표시된다. 모든 테스트 항목들은 44:1㎑ 샘플링 레이트를 갖기 때문에, 주파수 분해능은 약 21,5㎐이고 시간 분해능은 약 11,6ms이다. 크기 N의 대칭 Hann 윈도우가 w에 사용된다. 기준 타깃으로서, 동일한 발췌 경계들이 취해지고, 동일한 제로 패딩이, 그러나 이번에는 각각의 개별 드럼 악기의 단일 트랙으로부터 적용되며, 결과적인 STFT는

로 표시된다. 이어서,

의 초기화에 대한 두 가지 서로 다른 경우들이 위에서 설명된 바와 같이 정의된다. 이러한 설명들을 사용하면, 결과적인

의 불일치는 경우 2에 비해 경우 1에서 더 낮을 것으로 예상된다. 일관된

가 존재함을 알면, LSEE-MSTFTM(GL)과 제안된 방법 또는 장치(TR) 모두의 L = 200회 반복들이 진행된다.

도 12a는 정규화된 일관성 측정 대 반복 횟수의 전개의 개략도를 보여준다. 도 12b는 프리-에코 에너지 대 반복 횟수의 전개를 보여준다. 곡선들은 모든 테스트 발췌 부분들의 평균을 보여준다. 즉, 도 12는

에 대한 (6) 및 (7)로부터의 두 품질 측정들 모두의 전개를 보여준다. 도 12a는 평균적으로 제안된 방법(TR)이 불일치 감소 측면에서 LSEE-MSTFTM(GL)과 동등하게 잘 수행됨을 나타낸다. 두 경우들 모두에서, TR(실선) 및 GL(파선)에 대한 곡선들은 거의 구별할 수 없으며, 이는 방법 또는 장치를 의미하는 새로운 접근 방식이 원래의 방법과 유사한 수렴 특성들을 보여줌을 나타낸다. 예상대로, 곡선들(66a, 66a')(경우 1)은 곡선들(66b, 66b')(경우 2)보다 훨씬 더 낮은 초기 불일치에서 시작하는데, 이는 분명히 혼합 위상

로의 초기화에 기인한다. 도 12b는 프리-에코 감소에 대한 TR의 이점을 보여준다. 두 경우들 모두, GL(파선)에 비해 TR(실선들)에 대한 프리-에코 에너지는 약 15dB 더 낮으며 처음 몇 번의 반복들 동안 더 급격한 감소를 보여준다. 또한, 경우 1(66a, 66a')의 보다 일관된 초기

는 경우 2(66b, 66b')와 비교하여 프리-에코 감소 면에서 상당한 유리함을 나타낸다. 이러한 결과들로부터, 적정한 초기 위상 및 크기 추정치가 이용 가능한 시나리오들에서 제안된 방법의 단지 몇 번의 반복들(예컨대, L < 20)을 적용하기에 충분한 것으로 추론된다. 그러나 약한 위상 추정치와 함께 양호한 크기 추정치가 존재하고 그 반대의 경우도 마찬가지인 경우에는 더 많은 반복들(예를 들어, L < 200)을 적용하는 것이 유리할 수 있다.

다음은 악보 정보에 기반한 오디오 분해 시나리오에서 제안된 과도부 복원 방법 또는 장치를 어떻게 적용하는지의 실시예들을 설명할 것이다. 목적은 향상된 과도부 보존에 의해 폴리포닉 드럼 레코딩들로부터 분리된 드럼 사운드들을 추출하는 것이다. 이전에 사용된 이상적인 실험실 조건들과는 달리, 혼합물의 성분 신호들의 크기 스펙트로그램들이 추정된다. 이를 위해, 분해 기술로서 NMFD(Non-Negative Matrix Factor Deconvolution)[3, 4]가 이용될 수 있다. 실시예들은 NMFD에 악보 정보에 기반한 제약들을 시행하는 전략을 기술한다. 마지막으로, 이러한 보다 현실적인 조건들 하에서 실험들이 반복되고 관찰들이 논의된다.

다음으로,

의 TF 표현을 분해하기 위해 이용된 NMFD 방법이 간략하게 설명된다. 이미 지적했듯이, 다양한 대안적인 분리 접근 방식들이 존재한다. 이전 연구들[3, 4]은 드럼 사운드 분리를 위해 NMF의 컨볼루션 버전인 NMFD를 성공적으로 적용하였다. 직관적으로 말하면, 기반이 되는 컨볼루션형의 또는 컨볼루션 모델은 성분 신호들 중 하나의 성분 신호의 모든 오디오 이벤트들이 일부 온셋 관련 활성화(예컨대, 특정 드럼을 치는 것)에 대한 임펄스 응답으로 작용하는 프로토타입 이벤트로 설명될 수 있다고 가정한다. 도 10b에서, 하이햇 성분(V3)의 이러한 종류의 행동을 확인할 수 있다. 여기서, 8개의 온셋 이벤트들의 모든 인스턴스들은 각각의 온셋 위치에 프로토타입 이벤트를 삽입함으로써 설명될 수 있는 서로의 사본들과 다소 유사하게 보이다.

NMF가 인수 분해

를 계산하는데 사용될 수 있는데, 여기서

의 열들은 (템플릿으로도 또한 불리는) 스펙트럼 기반 함수들을 나타내고,

의 행들은 (활성화들로도 또한 불리는) 시간 변화 이득들을 포함한다. NMFD는 2차원 템플릿들을 사용함으로써 이 모델을 컨볼루션 경우까지 확장하여, C 개의 스펙트럼 베이스들 각각이

개의 스펙트럼 프레임들로 구성된 크기 스펙트로그램 스니펫(snippet)으로 해석될 수 있다. 이를 위해, 컨볼루션 스펙트로그램 근사치

는 다음과 같이 모델링되며:

(8)

여기서

는 프레임 시프트 연산자를 나타낸다. 앞에서와 마찬가지로,

내의 각각의 열은 특정 성분의 스펙트럼 기반을 나타내지만, 이번에는 W _T 의 T 개의 서로 다른 버전들이 이용 가능하다. W _T 의 모든 버전들로부터 특정 열을 연결함으로써, 도 13에 도시된 바와 같이 프로토타입 크기 스펙트로그램이 얻어질 수 있다. NMFD는 일반적으로 행렬들 (W _T )⁽⁰⁾ 및 (H)⁽⁰⁾의 적절한 초기화로 시작한다. 이어서, 이러한 행렬들은 반복적으로 업데이트되어, 컨볼루션 근사치

와

사이의 적절한 거리 측정을 최소화한다.

도 13은 도 10으로부터의 예시적인 드럼 레코딩에 대해 계산된 NMFD 템플릿들 및 활성화들을 보여준다. 크기 스펙트로그램(V)은 우측 하부 플롯에 도시된다. 그러한 플롯들에 남은 3개는 NMFD를 통해 추출된 W _T 의 스펙트럼 템플릿들이다. 이들의 대응하는 활성화들(78) 및 악보 정보에 기반한 초기화(70b)((H)⁽⁰⁾)가 3개의 상부 플롯들에 도시된다.

(W _T )⁽⁰⁾ 및 (H)⁽⁰⁾의 적절한 초기화는 NMFD 반복들의 자유도들을 제한하고 음악적으로 의미 있는 원하는 솔루션으로의 수렴을 보강하는 효과적인 수단이다. 한 가지 가능성은 시간 정렬된 심벌 표기로부터 도출된 악보 정보에 기반한 제약들을 부과하는 것이다. 이를 위해, (H)⁽⁰⁾의 개별 행들은 다음과 같이 초기화된다: 각각의 드럼 악기의 온셋에 해당하는 각각의 프레임이 단위 진폭의 임펄스로 초기화되고, 나머지 모든 프레임은 작은 상수로 초기화된다. 그 후 비선형 지수 이동 평균 필터가 적용되어 드럼 이벤트의 일반적인 짧은 감쇠를 모델링한다. 이러한 초기화의 결과(70)는 도 13의 상부 3개의 플롯들에서 곡선(70b)으로 도시된다.

최상의 분리 결과들은 템플릿들과 활성화들 모두의 악보에 기반한 초기화로 얻어질 수 있다. 피치 악기들(예컨대, 피아노)의 분리를 위해, 프로토타입의 배음 시리즈가 (W _T )⁽⁰⁾으로 구성될 수 있다. 드럼들의 경우, 프로토타입 스펙트럼 베이스들을 모델링하는 것이 더 어렵다. 따라서 분리된 드럼 사운드들의 평균화 또는 인수 분해된 스펙트로그램들로 베이스들을 초기화하는 것이 제안되었다[21, 22, 4]. 그러나 활성화들(H) 및 템플릿들(W)이 악보 정보에 기반한 (H)⁽⁰⁾ 및 설정 (W)⁽⁰⁾ := 1에 의해 초기화되는 종래의 NMF를 먼저 계산하는 간단한 대안이 사용된다.

이러한 설정들로, 결과적인 인수 분해 템플릿들은 대개 각각의 관련 드럼 악기의 평균 스펙트럼의 꽤 가까운 근사치이다. 모든

에 대한 이러한 스펙트럼들을 단순히 복제하는 것은 템플릿 스펙트로그램들을 위한 양호한 초기화 역할을 한다. 일부 NMFD 반복들 후에, 각각의 템플릿 스펙트로그램은 일반적으로 해당 드럼 악기들의 프로토타입 스펙트로그램에 해당하며 각각의 활성화 기능은 레코딩 전반에 걸쳐 해당 특정 드럼 악기의 모든 발생에 대한 디컨볼브된 활성화에 해당한다. 일반적인 분해 결과가 도 13에 도시되는데, 여기서는 추출된 템플릿들(3개의 가장 왼쪽의 플롯들)이 V의 온셋 이벤트들의 프로토타입 버전들(오른쪽 아래 플롯들)과 유사함을 확인할 수 있다. 게다가, 추출된 H(70a)(3개의 최상위 플롯들)에서 임펄스들의 위치는 악보 정보에 기반한 초기화의 최대 값에 매우 가깝다.

다음에는, 원하는 성분들을 추출하기 위해 NMFD 결과들을 어떻게 추가 처리할지가 설명된다.

를 NMFD에 의해 학습된 활성화 행렬이라 한다. 그런 다음, 각각의

에 대해 행렬

는 NMFD를 통해 이전에 발견된 원하는 활성화를 포함하는 c번째 행을 제외하고 모든 엘리먼트들을 0으로 설정함으로써 정의된다. c번째 성분 크기 스펙트로그램은

로 근사화된다. NMFD 모델은 V의 낮은 랭크 근사값만을 산출하기 때문에, 스펙트럼 뉘앙스들이 잘 포착되지 않을 수 있다. 이 문제를 해결하기 위해, 혼합물(V)에 대한

의 기여를 반영하는 가중 행렬로서 해석될 수 있는 소프트 마스크들을 계산하는 것이 일반적이다. 원하는 성분에 해당하는 마스크는

로 계산될 수 있는데, 여기서

는 엘리먼트 단위의 나눗셈을 나타내고 ε는 0으로 나누는 것을 피하기 위한 작은 양의 상수이다. 성분 크기 스펙트로그램의 마스킹 기반 추정치는

로서 얻어지며,

는 엘리먼트별 곱셈을 나타낸다. 이 프로시저는 흔히 Wiener 필터링으로도 또한 지칭된다.

다음에, 도 12a 및 도 12b의 이전의 실험이 기본적으로 반복된다. 동일한 STFT 파라미터들 및 발췌 경계들은 이전 예들에서 사용된 대로 유지된다. 그러나 이번에는 성분 크기 스펙트로그램들이 오라클 성분 신호들로부터 도출되는 것이 아니라, 30회의 NMFD 반복들을 사용하여 혼합물로부터 추출된다. 결과적으로, 두 가지 새로운 테스트 경우들이 도입된다. 테스트 경우 3(66c, 66c')은 초기 위상 추정치

및 고정 크기 추정치

를 사용하며, 여기서 테스트 경우 4(66d)는 초기 위상 추정치

및 고정 크기 추정치

를 사용한다.

도 14a는 정규화된 일관성 측정 대 반복 횟수의 전개를 보여준다. 도 14b는 프리-에코 에너지 대 반복 횟수의 전개를 보여준다. 곡선들은 평균적인 전체 테스트 발췌 부분들을 보여주는데, 축 한계들은 도 12에서와 같다. 더욱이, 도 14a에서, TR 재구성(66c, 66d)(실선들)을 사용하여 얻어진 불일치 감소는 GL 방법(66c', 66d')(파선들)과 구별 불가능하다. 개선들은 오라클 크기 추정치들 사용할 때 얻어질 수 있는 수들에 비해 덜 중요하다(도 12a 비교). 평균적으로, (

로 초기화 된) 경우 3의 재구성들(66c, 66c')은 국소 최적 조건에서 신속하게 고착된 것으로 보인다. 짐작하건대, 이것은 모든 악기들이 어느 정도 평평한 크기 분포를 나타내고 이에 따라 증가된 스펙트럼 중첩을 보여주는 온셋 관련 스펙트로그램 프레임들의 불완전한 NMFD 분해에 기인한다.

도 14b에서, NMFD 기반 크기 추정치들

및 제로 위상(경우 4, 플롯(66d, 66d'))에 따른 프리-에코 감소는 경우 2에서보다 약간 더 악화된다(도 12b 비교). 이것은 약한 초기 위상 추정치들이 제안된 방법의 많은 반복들을 적용하는 것으로부터 가장 큰 이점을 얻는다는 더 이전의 발견들을 뒷받침한다.

(경우 3, 플롯(66c, 66c'))를 사용한 GL 재구성은 반복들에 걸쳐 프리-에코 에너지를 약간 증가시킨다. 이에 반해, TR 재구성의 적용은 좋은 개선을 얻는다.

도 9에서, 예시적인 드럼 루프로부터 선택된 하이햇 온셋의 상이한 재구성들이 상세히 도시된다. 사용된 크기 추정치(도 9b의 오라클 또는 도 9c의 NMFD 기반)와 관계 없이, 제안된 TR 재구성(하단)은 종래의 GL 재구성(상단)과 비교하여 명확하게 감소된 프리-에코들을 나타낸다. (바람직하게는 헤드폰들을 사용한) 비공식 청취 테스트들에 의해, MSTFT 초기화들 및 재구성 방법들의 다양한 결합들로 달성될 수 있는 온셋 명확도의 차이들을 명확하게 파악할 수 있다. 불완전한 크기 분해가 단일 성분 신호들에서 원하지 않는 누화(cross-talk) 아티팩트들로 이어지는 경우들에도, 실시예들에 따른 TR 방법은 종래의 GL 재구성보다 과도 특성들을 더 잘 보존한다. 게다가, 오라클 신호들과 비교하여 드럼 이벤트들의 감쇠 위상의 재구성에서 미묘한 차이들을 종종 인지할 수 있으므로 MSTFT 초기화를 위한 혼합 위상의 사용은 좋은 선택으로 여겨진다. 그러나 불완전한 크기 분해로 인해 야기된 음색 차이들은 훨씬 더 확연하다.

실시예들은 음악 소스 분리에서 과도 신호 성분들의 개선된 복원을 위한 Griffin 및 Lim의 반복 LSEE-MSTFTM 프로시저에 대한 효과적인 확장을 보여준다. 장치, 인코더, 디코더 또는 방법은 정보에 기반한 소스 분리 시나리오에서 주어질 수 있는 과도부들의 위치에 관한 추가적인 부가 정보를 사용한다.

추가 실시예들에 따르면, 음악 소스 분리에서 과도 신호 성분들의 개선된 복원을 위한 Griffin 및 Lim의 반복 LSEE-MSTFTM 프로시저에 대한 효과적인 확장이 도시된다. 방법 또는 장치는 정보에 기반한 소스 분리 시나리오에서 주어지는 것으로 추정되는 과도부들의 위치에 관한 추가적인 부가 정보를 사용한다. 공개적으로 입수할 수 있는 "IDMTSMT-Drums" 데이터 세트를 이용한 두 번의 실험들은 실시예들에 따른 방법, 인코더 또는 디코더가 실험실 조건들뿐만 아니라 최첨단 소스 분리 기술을 사용하여 얻어진 성분 신호들에 대해서도 프리-에코들을 감소시키는데 유리하다는 것을 보여주었다.

실시예들에 따르면, 음악 소스 분리의 맥락에서 추출된 과도 신호 성분들의 지각 품질이 개선된다. 많은 최첨단 기술들은 혼합 신호의 크기 단시간 푸리에 변환(STFT)에 적절한 분해를 적용하는 것에 기반한다. 개별 성분 신호들의 재구성에 사용되는 위상 정보는 일반적으로 혼합물로부터 취해져, 복소수 값의 수정된 STFT(MSTFT)를 야기한다. STFT가 타깃 MSTFT를 근사화하는 시간 도메인 신호를 재구성하기 위한 여러 방법들이 있다. 위상 불일치들로 인해, 이러한 재구성된 신호들은 과도 성분들에 선행하는 프리-에코들과 같은 아티팩트들을 포함할 가능성이 있다. 실시예들은 이 문제를 해결하기 위해 Griffin 및 Lim에 의한 반복 신호 재구성 프로시저의 연장을 보여준다. 공개적으로 입수할 수 있는 테스트 세트를 사용하여 신중하게 이루어진 실험은 방법 또는 장치가 원래의 접근 방식과 유사한 수렴 특성들을 여전히 보여주면서 프리-에코들을 상당히 약화시킨다는 것을 보여준다.

추가 실험에서는, 방법 또는 장치가 Griffin 및 Lim에 의한 원래의 접근 방식과 유사한 수렴 특성들을 여전히 보여주면서 프리-에코들을 상당히 약화시키는 것으로 보여진다. 악보 정보에 기반한 오디오 분해를 수반하는 세 번째 실험도 개선점들을 보여준다.

다음의 도면들은 장치(2)와 관련한 추가 실시예들에 관련될 것이다.

도 15는 오디오 신호(4)를 인코딩하기 위한 오디오 인코더(100)를 보여준다. 오디오 인코더는 오디오 신호 프로세서 및 포락선 결정기를 포함한다. 오디오 신호 프로세서(102)는 인코딩된 오디오 신호(108)가 시간 도메인 오디오 신호의 시퀀스 또는 주파수 도메인 프레임들의 표현 및 타깃 시간 도메인 포락선(106)의 표현을 포함하게 시간 도메인 오디오 신호를 인코딩하도록 구성된다. 포락선 결정기는 시간 도메인 오디오 신호로부터 포락선을 결정하도록 구성되며, 여기서 포락선 결정기는 포락선을 한 세트의 미리 결정된 포락선들과 비교하여 비교를 기초로 타깃 시간 도메인 포락선의 표현을 결정하도록 추가로 구성된다. 포락선은 예를 들어, 오디오 신호의 일부의 시간 도메인 포락선 또는 오디오 신호의 프레임 또는 추가 부분의 포락선일 수 있다. 더욱이, 포락선은 인코딩된 오디오 신호에 포락선을 포함하도록 구성될 수 있는 오디오 신호 프로세서에 제공될 수 있다.

즉, (표준) 오디오 인코더는 예를 들어, 오디오 신호의 일부, 예를 들어 프레임의 포락선, 예를 들어 시간 도메인 포락선을 결정함으로써 오디오 인코더(100)로 확장될 수 있다. 도출된 포락선은 코드북 또는 룩업 테이블에서 한 세트의 또는 다수의 미리 결정된 시간 도메인 포락선들과 비교될 수 있다. 가장 잘 맞는 미리 결정된 포락선의 위치는 예를 들어, 다수의 비트들을 사용하여 인코딩될 수 있다. 따라서 예를 들어, 16개의 상이한 미리 결정된 시간 도메인 포락선들을 어드레싱하기 위해 4 비트, 예를 들어 32개의 미리 결정된 시간 도메인 포락선들을 어드레싱하기 위해 5 비트, 또는 상이한 미리 결정된 시간 도메인 포락선들의 수에 따라, 임의의 추가 비트 수들이 사용될 수 있다.

도 16은 장치(2) 및 입력 인터페이스(112)를 포함하는 오디오 디코더(110)를 보여준다. 입력 인터페이스(112)는 인코딩된 오디오 신호를 수신할 수 있다. 인코딩된 오디오 신호는 주파수 도메인 프레임들의 시퀀스의 표현 및 타깃 시간 도메인 포락선의 표현을 포함할 수 있다.

즉, 디코더(110)는 예를 들어, 인코더(100)로부터 인코딩된 오디오 신호를 수신할 수 있다. 입력 인터페이스(112) 또는 장치(2), 또는 추가 수단은 타깃 시간 도메인 포락선(14) 또는 그 표현, 예를 들어 룩업 테이블 또는 코드북에서 타깃 시간 도메인 포락선의 위치를 나타내는 비트들의 시퀀스를 추출할 수 있다. 게다가, 장치(2)는 예를 들어, 여전히 손상되지 않은 크기 값들을 갖는 인코딩된 오디오 신호의 손상된 위상들을 조정함으로써 인코딩된 오디오 신호(108)를 디코딩할 수도 있고, 또는 장치는 예를 들어, 인코딩된 오디오 신호의 스펙트럼 크기를 충분히 또는 심지어 완벽하게 디코딩한 디코딩 유닛으로부터 디코딩된 오디오 신호의 위상 값들을 정정할 수 있으며, 장치는 디코딩 유닛에 의해 손상될 수 있는 디코딩된 오디오 신호의 위상을 추가로 조정한다.

도 17은 주파수 도메인 프레임들의 시퀀스의 표현(12) 및 타깃 시간 도메인 포락선의 표현(14)을 포함하는 오디오 신호(114)를 보여준다. 시간 도메인 오디오 신호의 주파수 도메인 프레임들의 시퀀스의 표현(12)은 표준 오디오 인코딩 방식에 따라 인코딩된 오디오 신호일 수 있다. 게다가, 타깃 시간 도메인 포락선의 표현(14)은 타깃 시간 도메인 포락선의 비트 표현일 수 있다. 비트 표현은 예를 들어, 타깃 시간 도메인 포락선의 샘플링 및 양자화를 사용하여 또는 추가 디지털화 방법에 의해 도출될 수 있다. 더욱이, 타깃 시간 도메인 포락선의 표현(14)은 예를 들어, 다수의 비트들로 표시되거나 코딩된 코드북 또는 룩업 테이블의 인덱스일 수 있다.

도 18은 일 실시예에 따른 오디오 소스 분리 프로세서(116)의 개략적인 블록도를 보여준다. 오디오 소스 분리 프로세서는 장치(2) 및 스펙트럼 마스커(118)를 포함한다. 스펙트럼 마스커는 원래의 오디오 신호(4)의 스펙트럼을 마스킹하여 수정된 오디오 신호(120)를 도출할 수 있다. 원래의 오디오 신호(4)와 비교하여, 수정된 오디오 신호(120)는 감소된 수의 주파수 대역들 또는 시간 주파수 빈들을 포함할 수 있다. 게다가, 수정된 오디오 신호는 오디오 신호(4)의 단 하나의 소스 또는 하나의 악기 또는 하나의 (인간) 스피커만을 포함할 수 있으며, 여기서 다른 소스들, 스피커들 또는 악기들의 주파수 기여들은 숨겨 지거나 마스킹된다. 그러나 수정된 오디오 신호(120)의 크기 값들은 (원하는) 처리된 오디오 신호(6)의 크기 값들과 매칭할 수 있기 때문에, 수정된 오디오 신호의 위상 값들은 손상될 수 있다. 따라서 장치(2)는 타깃 시간 도메인 포락선(14)에 대해 수정된 오디오 신호의 위상 값들을 보정할 수 있다.

도 19는 일 실시예에 따른 대역폭 강화 프로세서(122)의 개략적인 블록도를 보여준다. 대역폭 강화 프로세서(122)는 인코딩된 오디오 신호(124)를 처리하도록 구성된다. 더욱이, 대역폭 강화 프로세서(122)는 강화 프로세서(126) 및 장치(2)를 포함한다. 강화 프로세서(126)는 인코딩된 신호에 포함된 오디오 신호 대역으로부터 강화 신호(127)를 생성하도록 구성되며, 강화 프로세서(126)는 인코딩된 신호(122)에 포함된 인코딩된 표현으로부터 또는 인코딩된 신호에 포함된 오디오 신호 대역으로부터 타깃 시간 도메인 포락선(14)을 추출하도록 구성된다. 게다가, 장치(2)는 타깃 시간 도메인 포락선을 사용하여 강화 신호(126)를 처리할 수 있다.

즉, 강화 프로세서(126)는 오디오 신호 대역을 코어 인코딩하거나 인코딩된 오디오 신호의 코어 인코딩된 오디오 신호 대역을 수신할 수 있다. 게다가, 강화 프로세서(126)는 예를 들어, 오디오 신호의 인코딩된 오디오 신호 및 코어 인코딩된 기저대역 부분의 파라미터들을 사용하여 오디오 신호의 추가 대역들을 계산할 수 있다. 더욱이, 타깃 시간 도메인 포락선(14)은 인코딩된 오디오 신호(124)에 존재할 수도 있고, 또는 강화 프로세서는 오디오 신호의 기저대역 부분으로부터 타깃 시간 도메인 포락선을 계산하도록 구성될 수 있다.

도 20은 스펙트럼의 개략적 표현을 예시한다. 스펙트럼은 스케일 팩터 대역들(SCB)로 세분되는데, 여기서는 도 20의 예시된 예에서 7개의 스케일 팩터 대역들(SCB1 - SCB7)이 존재한다. 스케일 팩터 대역들은 AAC 표준에 정의되며 도 20에 개략적으로 예시된 바와 같이 상위 주파수들까지 증가하는 대역폭을 갖는 AAC 스케일 팩터 대역들일 수 있다. 스펙트럼의 바로 시작에서부터, 즉 저주파들에서 지능형 갭 채움을 수행하는 것이 아니라, 309에 예시된 IGF 시작 주파수에서 IGF 동작을 시작하는 것이 선호된다. 따라서 코어 주파수 대역은 최저 주파수에서부터 IGF 시작 주파수까지 연장한다. IGF 시작 주파수 이상에서는, 스펙트럼 분석이 적용되어 고분해능 스펙트럼 성분들(304, 305, 306, 307)(제 1 스펙트럼 부분들의 제 1 세트)을 제 2 스펙트럼 부분들의 제 2 세트로 표현된 저분해능 성분들로부터 분리한다. 도 20은 강화 프로세서(126)에 예시적으로 입력되는 스펙트럼을 예시하는데, 즉 코어 인코더는 전체 범위에서 동작할 수 있지만, 상당한 양의 0 스펙트럼 값들을 인코딩하며, 다시 말해서, 이러한 0 스펙트럼 값들은 0으로 양자화되거나 양자화 전에 또는 양자화 이후에 0으로 설정된다. 어쨌든, 코어 인코더는 전체 범위에서, 즉 마치 스펙트럼이 예시된 바와 같이 되는 것처럼, 즉, 코어 디코더가 더 낮은 스펙트럼 분해능을 갖는 제 2 스펙트럼 부분들의 제 2 세트의 임의의 지능형 갭 채움 또는 인코딩을 반드시 인지할 필요는 없다.

바람직하게는, 고분해능은 MDCT 라인들과 같은 스펙트럼 라인들의 라인별 코딩에 의해 정의되는 한편, 제 2 분해능 또는 저분해능은 예를 들어, 스케일 팩터 대역당 단일 스펙트럼 값만을 계산함으로써 정의되는데, 여기서 스케일 팩터 대역은 여러 주파수 라인들을 커버한다. 따라서 제 2 저분해능은 그 스펙트럼 분해능과 관련하여, AAC 또는 USAC 코어 인코더와 같은 코어 인코더에 의해 일반적으로 적용되는 라인별 코딩에 의해 정의된 제 1 또는 고분해능보다 훨씬 더 낮다.

인코더가 코어 인코더라는 사실로 인해 그리고 각각의 대역에 스펙트럼 부분들의 제 1 세트의 성분들이 존재할 수 있다(그러나 반드시 그래야 할 필요는 없다)는 사실로 인해, 코어 인코더는 IGF 시작 주파수(309) 아래의 코어 범위뿐만 아니라 샘플링 주파수의 절반, 즉 f_s/2보다 작거나 같은 최대 주파수(f _IGFstop )까지의 IGF 시작 주파수 이상의 각각의 대역에 대한 스케일 팩터를 계산한다. 따라서 도 20의 인코딩된 음색 부분들(302, 304, 305, 306, 307)은 이 실시예에서는 스케일 팩터들(SCB1 - SCB7)과 함께 고분해능 스펙트럼 데이터에 대응한다. 저분해능 스펙트럼 데이터는 IGF 시작 주파수에서 시작하여 계산되며 스케일 팩터들(SF4 - SF7)과 함께 송신되는 에너지 정보 값들(E₁, E₂, E₃, E₄)에 대응한다.

특히, 코어 인코더가 낮은 비트레이트 조건 하에 있을 때, 코어 대역, 즉 IGF 시작 주파수보다 주파수가 더 낮은, 즉 스케일 팩터 대역들(SCB1 - SCB3)에서의 추가 잡음 채움 동작이 추가로 적용될 수 있다. 잡음 채움에서는, 0으로 양자화된 여러 개의 인접한 스펙트럼 라인들이 존재한다. 디코더 측에서, 이러한 0으로 양자화된 스펙트럼 값들은 재합성되고, 재합성된 스펙트럼 값들은 잡음 채움 에너지를 사용하여 이들의 크기가 조정된다. USAC에서와 같이 스케일 팩터에 대해서 특히 절대 항들로 또는 상대 항들로 주어질 수 있는 잡음 채움 에너지는 0으로 양자화된 스펙트럼 값들의 세트의 에너지에 대응한다. 이러한 잡음 채움 스펙트럼 라인들은 또한 소스 범위로부터의 스펙트럼 값들 및 에너지 정보(E₁, E₂, E₃, E₄)를 사용하여 주파수 타일들을 재구성하기 위한 다른 주파수들로부터의 주파수 타일들을 사용하는 주파수 재생성에 어떠한 IGF 동작도 의존하지 않으면서, 간단한 잡음 채움 합성에 의해 재생성되는 제 3 스펙트럼 부분들의 제 3 세트인 것으로 또한 간주될 수 있다.

바람직하게, 에너지 정보가 계산되는 대역들은 스케일 팩터 대역들과 일치한다. 다른 실시예들에서는, 예를 들어, 스케일 팩터 대역들 4 및 5에 대해 단일 에너지 정보 값만이 송신되도록 에너지 정보 값 그룹화가 적용되지만, 이 실시예에서도, 그룹화된 재구성 대역들의 경계들은 스케일 팩터 대역들의 경계들과 일치한다. 다른 대역 분리들이 적용된다면, 특정 재계산들 또는 동기화 계산들이 적용될 수 있으며, 이는 특정 구현에 따라 이해할 수 있다.

인코딩된 오디오 신호(124)의 코어 인코딩된 부분 또는 코어의 인코딩된 주파수 대역은 컷오프 주파수 또는 IGF 시작 주파수(309)까지의 오디오 신호의 고분해능 표현을 포함할 수 있다. 이 IGF 시작 주파수(309) 위에서, 오디오 신호는 예를 들어, 파라메트릭 인코딩을 사용하여 저분해능으로 인코딩된 스케일 팩터 대역들을 포함할 수 있다. 그러나 코어 인코딩된 기저대역 부분 및 예를 들어, 파라미터들을 사용하여, 인코딩된 오디오 신호(124)가 디코딩될 수 있다. 이것은 한 번 또는 여러 번 수행될 수 있다.

이는 제 1 컷오프 주파수(130) 이상에서도 크기 값들의 양호한 재구성을 제공할 수 있다. 그러나 적어도, 연속 스케일 팩터 대역들 사이의 컷오프 주파수들 주위에서, 코어 인코딩된 기저대역 부분이 IGF 시작 주파수(309)보다 더 높은 주파수로 패딩되기 때문에 코어 인코딩된 기저대역 부분(128)의 최상위 또는 최고 주파수가 코어 인코딩된 기저대역 부분의 최하위 주파수에 인접할 수 있어, 위상 값들이 손상될 수 있다. 따라서 기저대역 재구성된 오디오 신호는 장치(2)로 입력되어 대역폭 확장된 신호의 위상들을 재구성할 수 있다.

게다가, 코어 인코딩된 기저대역 부분이 원래 오디오 신호에 관한 많은 정보를 포함하기 때문에 대역폭 강화가 작용한다. 이는 코어 인코딩된 기저대역 부분에 존재하지 않거나 존재하지 않는 오디오 신호의 추가 고주파 성분들로 인해 원래의 오디오 신호의 포락선이 더욱 강조될 수 있더라도, 코어 인코딩된 기저대역 부분의 포락선이 적어도 원래 오디오 신호의 포락선과 유사하다는 결론으로 이어진다.

도 21은 도 21의 상단의 제 1 횟수의 반복 단계들 이후 그리고 하단에서 반복 단계들의 제 1 횟수보다 더 큰 제 2 횟수의 반복 단계들 이후의 (중간) 시간 도메인 재구성의 개략적인 표현을 보여준다. 비교적 높은 리플들(132)은 주파수 도메인 프레임들의 시퀀스의 인접 프레임들의 불일치로부터 발생한다. 일반적으로, 시간 도메인 신호로부터 시작하여, 시간 도메인 신호의 STFT의 역 STFT는 다시 시간 도메인 신호를 야기한다. 여기서, STFT가 적용된 후에는 인접 주파수 도메인 프레임들이 일치하여, 역 STFT 연산의 중첩 및 합산 프로시저가 원래 신호를 합산하거나 드러낸다. 그러나 손상된 위상 값들을 갖는 주파수 도메인에서부터 시작하여, 인접 주파수 도메인 프레임들은 일치하지 않는데(즉, 불일치), 여기서 주파수 도메인 신호의 ISTFT의 STFT는 도 21의 상부에 표시된 바와 같이 적절하거나 일관된 오디오 신호로 이어지지 않는다. 그러나 알고리즘은 원래 크기에 반복적으로 적용된다면, 각각의 반복 단계에서 리플들(132)을 감소시켜, 도 21의 하단에 표시된 (거의 완벽한) 재구성된 오디오 신호로 이어지는 것이 수학적으로 증명된다. 여기서는 리플들(132)이 감소된다. 즉, 중간 시간 도메인 신호의 크기는 각각의 반복 단계 후에 주파수 도메인 프레임들의 시퀀스의 초기 크기 값으로 변환된다. 연속적인 합성 윈도우들(136) 사이의 0.5의 홉 크기는 편의상 선택되고 예를 들어, 0.75와 같은 임의의 적절한 값으로 설정될 수 있다는 점이 주목되어야 한다.

도 22는 처리된 오디오 신호를 얻도록 오디오 신호를 처리하기 위한 방법(2200)의 개략적인 블록도를 보여준다. 이 방법(2200)은 오디오 신호의 중첩 프레임들을 나타내는 주파수 도메인 프레임들의 시퀀스의 스펙트럼 값들에 대한 위상 값들을 계산하는 단계(2205)를 포함하며, 여기서 처리된 오디오 신호와 관련된 타깃 시간 도메인 포락선에 대한 정보를 기초로 위상 값들이 계산되어, 처리된 오디오 신호가 적어도 근사치로 타깃 시간 도메인 포락선 및 주파수 도메인 프레임들의 시퀀스에 의해 결정된 스펙트럼 포락선을 갖는다.

도 23은 오디오 디코딩 방법(2300)의 개략적인 블록도를 보여준다. 방법(2300)은 단계(2305)에서 방법(2200)을 그리고 단계(2310)에서, 인코딩된 신호를 수신하는 단계를 포함하며, 인코딩된 신호는 주파수 도메인 프레임들의 시퀀스의 표현 및 타깃 시간 도메인 포락선의 표현을 포함한다.

도 24는 오디오 소스 분리 방법(2400)의 개략적인 블록도를 보여준다. 방법(2400)은 방법(2200)을 수행하기 위한 단계(2405), 및 처리를 위해 장치에 입력되는 수정된 오디오 신호를 얻기 위해 원래 오디오 신호의 스펙트럼을 마스킹하는 단계(2410)를 포함하며, 여기서 처리된 오디오 신호는 타깃 시간 도메인 포락선에 관련된 분리된 소스 신호이다.

도 25는 인코딩된 오디오 신호의 대역폭 강화 방법의 개략적인 블록도를 보여준다. 방법(2500)은 인코딩된 신호에 포함된 오디오 신호 대역으로부터 강화 신호를 생성하는 단계(2505), 방법(2200)을 수행하기 위한 단계(2510), 및 단계(2515)를 포함하며, 여기서 생성하는 단계는 인코딩된 신호에 포함된 인코딩된 표현으로부터 또는 인코딩된 신호에 포함된 오디오 신호 대역으로부터 타깃 시간 도메인 포락선을 추출하는 단계를 포함한다.

도 26은 오디오 인코딩 방법(2600)의 개략적인 블록도를 보여준다. 방법(2600)은 인코딩된 오디오 신호가 시간 도메인 오디오 신호의 주파수 도메인 프레임들의 시퀀스의 표현 및 타깃 시간 도메인 포락선의 표현을 포함하도록 시간 도메인 오디오 신호를 인코딩하는 단계(2605), 및 시간 도메인 오디오 신호로부터 포락선을 결정하는 단계(2610)를 포함하며, 여기서 포락선 결정기는 포락선을 한 세트의 미리 결정된 포락선들과 비교하여 비교를 기초로 타깃 시간 도메인 포락선의 표현을 결정하도록 추가로 구성된다.

본 발명의 추가 실시예들은 다음 예들에 관련된다: 이는 다음을 위한 방법, 장치 또는 컴퓨터 프로그램일 수 있다:

1) 시간-주파수 도메인 표현으로부터 시간 도메인 신호를 반복적으로 재구성함,

2) 시간-주파수 도메인 표현 및 크기 정보 및 위상 정보에 대한 초기 추정치를 생성함,

3) 반복들 동안 특정 신호 특성들에 중간 신호 조작들을 적용함,

4) 시간-주파수 도메인 표현을 다시 시간 도메인으로 변환함,

5) 중간 시간 도메인 신호를 임의의 진폭 포락선으로 변조함,

6) 변조된 시간 도메인 신호를 다시 시간-주파수 도메인으로 변환함,

7) 결과적인 위상 정보를 사용하여 시간-주파수 도메인 표현을 업데이트함,

8) 인접한 프레임으로부터 중앙 프레임까지 구체적으로 컨볼루션되고 시프트된 기여들을 합산하는 시간-주파수 도메인 프로시저에 의해 역변환 및 순방향 변환의 시퀀스를 에뮬레이트함,

9) 절단된 컨볼루션 커널들을 사용하고 대칭 특성들을 이용함으로써 위의 프로시저를 근사화함,

10) 타깃 포락선의 시간-주파수 표현과 원하는 프레임의 컨볼루션에 의해 시간 도메인 변조를 에뮬레이트함,

11) 시간-주파수 도메인 조작들을 시간-주파수 의존 방식으로 적용함, 예를 들어 시간-주파수 빈들을 선택하기 위한 동작들만을 적용함, 또는

12) 지각 오디오 코딩, 오디오 소스 분리

및/또는 대역폭 강화를 위해 앞서 설명한 프로시저들을 사용함.

오디오 분해 시나리오에서 여러 종류들의 평가들이 실시예들에 따른 장치 또는 방법에 적용되며, 여기서 목적은 폴리포닉 드럼 레코딩으로부터 분리된 드럼 사운드들을 추출하는 것이다. 실제 "오라클" 성분 신호들 및 이들의 정확한 과도부 위치들과 같이 필요한 모든 부가 정보가 풍부한, 공개적으로 입수할 수 있는 테스트 세트가 사용될 수 있다. 한 실험에서는, 실험실 조건들 하에서, 신호 재구성에서의 과도부 보존을 위해 제안된 방법 또는 장치의 이점을 평가하는데 초점을 맞추기 위해 모든 부가 정보의 사용이 이루어진다. 이러한 이상적인 조건 하에서, 제안된 방법은 원래의 방법 또는 장치와 유사한 수렴 특성들을 여전히 나타내면서 프리-에코들을 상당히 약화시킬 수 있다. 추가 실험에서, 최첨단 분해 기술[3, 4]은 혼합물로부터 성분 신호의 STFTM을 추정하기 위해 악보 정보에 기반한 제약들과 함께 이용된다. 이러한 (보다 현실적인) 조건들 하에서, 제안된 방법은 여전히 상당한 개선들을 가져온다.

본 명세서에서, 라인들 상의 신호들은 때로는 라인들에 대한 참조 번호들로 명명되거나 때로는 그 라인들에 기인한 참조 번호들 자체로 표시된다고 이해되어야 한다. 따라서 표기법은 특정 신호를 갖는 라인이 신호 자체를 나타내고 있는 것과 같다. 라인은 하드와이어링된 구현의 물리적 라인일 수 있다. 그러나 컴퓨터화된 구현에서, 물리적 라인은 존재하는 것이 아니라, 라인으로 표현된 신호가 하나의 계산 모듈로부터 다른 계산 모듈로 송신된다.

본 발명은 블록들이 실제 또는 논리적 하드웨어 컴포넌트들을 표현하는 블록도들과 관련하여 설명되었지만, 본 발명은 또한 컴퓨터 구현 방법에 의해 구현될 수 있다. 후자의 경우, 블록들은 대응하는 방법 단계들을 나타내는데, 여기서 이러한 단계들은 대응하는 논리적 또는 물리적 하드웨어 블록들에 의해 수행되는 기능들을 의미한다.

일부 양상들은 장치와 관련하여 설명되었지만, 이러한 양상들은 또한 대응하는 방법의 설명을 나타내며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다는 점이 명백하다. 비슷하게, 방법 단계와 관련하여 설명한 양상들은 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징의 설명을 나타낸다. 방법 단계들의 일부 또는 전부가 예를 들어, 마이크로프로세서, 프로그래밍 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 사용하여) 실행될 수도 있다. 일부 실시예들에서, 가장 중요한 방법 단계들 중 어떤 하나 이상의 단계들이 이러한 장치에 의해 실행될 수도 있다.

본 발명의 송신된 또는 인코딩된 신호는 디지털 저장 매체 상에 저장될 수 있고 또는 송신 매체, 예컨대 무선 송신 매체 또는 유선 송신 매체, 예컨대 인터넷을 통해 송신될 수 있다.

특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전자적으로 판독 가능 제어 신호들이 저장된 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, 블루레이, CD, ROM, PROM 및 EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다. 따라서 디지털 저장 매체는 컴퓨터 판독 가능할 수도 있다.

본 발명에 따른 일부 실시예들은 본 명세서에서 설명한 방법들 중 하나가 수행되도록, 프로그래밍 가능 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능 제어 신호들을 갖는 데이터 반송파를 포함한다.

일반적으로, 본 발명의 실시예들은 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 방법들 중 하나를 수행하기 위해 작동하는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 예를 들어, 기계 판독 가능 반송파 상에 저장될 수 있다.

다른 실시예들은 기계 판독 가능 반송파 상에 저장된, 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.

즉, 본 발명의 방법의 한 실시예는 이에 따라, 컴퓨터 상에서 컴퓨터 프로그램이 실행될 때 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.

따라서 본 발명의 방법의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하여 그 위에 기록된 데이터 반송파(또는 디지털 저장 매체와 같은 비-일시적 저장 매체, 또는 컴퓨터 판독 가능 매체)이다. 데이터 반송파, 디지털 저장 매체 또는 레코딩된 매체는 통상적으로 유형적이고 그리고/또는 비-일시적이다.

따라서 본 발명의 방법의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 데이터 스트림 또는 시퀀스이다. 신호들의 데이터 스트림 또는 시퀀스는 예를 들어, 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.

추가 실시예는 처리 수단, 예를 들어 본 명세서에서 설명한 방법들 중 하나를 수행하도록 구성 또는 적응된 컴퓨터 또는 프로그래밍 가능 로직 디바이스를 포함한다.

추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.

본 발명에 따른 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에(예를 들어, 전자적으로 또는 광학적으로) 전송하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수도 있다. 장치 또는 시스템은 예를 들어, 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수도 있다.

일부 실시예들에서, 프로그래밍 가능 로직 디바이스(예를 들어, 필드 프로그래밍 가능 게이트 어레이)는 본 명세서에서 설명한 방법들의 기능들 중 일부 또는 전부를 수행하는데 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍 가능 게이트 어레이는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게 임의의 하드웨어 장치에 의해 수행된다.

앞서 설명한 실시예들은 단지 본 발명의 원리들에 대한 예시일 뿐이다. 본 명세서에서 설명한 배열들 및 세부사항들의 수정들 및 변형들이 다른 당업자들에게 명백할 것이라고 이해된다. 따라서 이는 본 명세서의 실시예들의 묘사 및 설명에 의해 제시된 특정 세부사항들로가 아닌, 첨부된 특허청구범위로만 한정되는 것을 취지로 한다.

참조들

[1] Daniel W. Griffin and Jae S. Lim, "Signal estimation from modified short-time Fourier transform", IEEE Transactions on Acoustics, Speech and Signal Processing, vol. 32, no. 2, pp. 236-243, April 1984.

[2] Jonathan Le Roux, Nobutaka Ono, and Shigeki Sagayama, "Explicit consistency constraints for STFT spectrograms and their application to phase reconstruction" in Proceedings of the ISCA Tutorial and Research Workshop on Statistical And Perceptual Audition, Brisbane, Australia, September 2008, pp. 23-28.

[3] Xinglei Zhu, Gerald T. Beauregard, and Lonce L. Wyse, "Real-time signal estimation from modified short-time Fourier transform magnitude spectra", IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, no. 5, pp. 1645-1653, July 2007.

[4] Jonathan Le Roux, Hirokazu Kameoka, Nobutaka Ono, and Shigeki Sagayama, "Phase initialization schemes for faster spectrogram-consistency-based signal reconstruction" in Proceedings of the Acoustical Society of Japan Autumn Meeting, September 2010, number 3-10-3.

[5] Nicolas Sturmel and Laurent Daudet, "Signal reconstruction from STFT magnitude: a state of the art" in Proceedings of the International Conference on Digital Audio Effects (DAFx), Paris, France, September 2011, pp. 375-386.

[6] Nathanaёl Perraudin, Peter Balazs, and Peter L. S

ndergaard, "A fast Griffin-Lim algorithm" in Proceedings IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), New Paltz, NY, USA, October 2013, pp. 1-4.

[7] Dennis L. Sun and Julius O. Smith III, "Estimating a signal from a magnitude spectrogram via convex optimization" in Proceedings of the Audio Engineering Society (AES) Convention, San Francisco, USA, October 2012, Preprint 8785.

[8] Tomohiko Nakamura and Hiokazu Kameoka, "Fast signal reconstruction from magnitude spectrogram of continuous wavelet transform based on spectrogram consistency" in Proceedings of the International Conference on Digital Audio Effects (DAFx), Erlangen, Germany, September 2014, pp. 129-135.

[9] Volker Gnann and Martin Spiertz, "Inversion of shorttime fourier transform magnitude spectrograms with adaptive window lengths" in Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, (ICASSP), Taipei, Taiwan, April 2009, pp. 325-328.

[10] Jonathan Le Roux, Hirokazu Kameoka, Nobutaka Ono, and Shigeki Sagayama, "Fast signal reconstruction from magnitude STFT spectrogram based on spectrogram consistency" in Proceedings International Conference on Digital Audio Effects (DAFx), Graz, Austria, September 2010, pp. 397-403.

Claims

처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2)로서,
상기 오디오 신호(4)의 중첩 프레임들을 나타내는 주파수 도메인 프레임들의 시퀀스(12)의 스펙트럼 값들에 대한 위상 값들(10)을 계산하기 위한 위상 계산기(8)를 포함하며,
상기 위상 계산기(8)는 상기 처리된 오디오 신호(6)와 관련된 타깃 시간 도메인 포락선(14)에 대한 정보를 기초로 상기 위상 값들(10)을 계산하여, 상기 처리된 오디오 신호가 적어도 근사치로 상기 타깃 시간 도메인 포락선(14) 및 상기 주파수 영역 프레임들의 시퀀스(12)에 의해 결정된 스펙트럼 포락선을 갖도록 구성되는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2).
제 1 항에 있어서,
상기 위상 계산기(8)는,
중첩 범위에서 중첩 블록들의 일관성을 요구하는 최적화 타깃을 사용하여 상기 스펙트럼 값들에 대한 위상 값들을 초기 위상 값들(18)에서부터 시작하여 계산하기 위해 반복 알고리즘을 수행하기 위한 반복 프로세서(16)를 포함하며,
상기 반복 프로세서(16)는 추가 반복 단계에서 상기 타깃 시간 도메인 포락선에 따라 업데이트된 위상 추정치(20)를 사용하도록 구성되는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2).
제 1 항 또는 제 2 항에 있어서,
상기 위상 계산기(8)는 적어도 하나의 타깃 시간 도메인 포락선(14)의 스펙트럼 표현(14')과 적어도 하나의 중간 주파수 도메인 재구성(28'), 또는 오디오 신호의 상기 적어도 하나의 타깃 시간 도메인 포락선 또는 상기 적어도 하나의 중간 주파수 도메인 재구성의 선택된 부분들 또는 대역들 또는 단지 고역 통과 부분만 또는 단지 여러 개의 대역 통과 부분들만의 컨볼루션을 적용하도록 구성되는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2).
제 3 항에 있어서,
상기 위상 계산기는,
상기 주파수 도메인 프레임들의 시퀀스(12) 및 초기 위상 값 추정치들(18) 또는 선행하는 반복 단계의 위상 값 추정치들(20)로부터 상기 오디오 신호(4)의 중간 시간 도메인 재구성(28)을 계산하기 위한 주파수-시간 변환기(22),
진폭 변조된 오디오 신호(30)를 획득하기 위해 타깃 시간 도메인 포락선(14)을 사용하여 상기 중간 시간 도메인 재구성(28)을 변조하기 위한 진폭 변조기(24), 및
상기 진폭 변조된 신호(30)를 위상 값들(10)을 갖는 주파수 도메인 프레임들의 추가 시퀀스(32)로 변환하기 위한 시간-주파수 변환기(26)를 포함하며,
상기 위상 계산기는 다음 반복 단계를 위해 상기 위상 값들 및 상기 주파수 도메인 프레임들의 시퀀스(12)의 스펙트럼 값들을 사용하도록 구성되는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2).
제1항에 따른 처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2).
제 5 항에 있어서,
상기 위상 계산기(8)는 반복 결정 조건이 충족될 때 상기 중간 시간 도메인 재구성(28)을 상기 처리된 오디오 신호(6)로서 출력하도록 구성되는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2).
제 4 항에 있어서,
상기 위상 계산기는,
상기 오디오 신호(4)의 중간 주파수 도메인 재구성(28')을 얻기 위해 컨볼루션 커널을 적용하고, 시프트 커널을 적용하고 그리고 중심 프레임에 상기 중심 프레임의 인접 프레임의 중첩 부분을 부가하기 위한 컨볼루션 프로세서(40)를 포함하는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2).
제 4 항 또는 제 7 항에 있어서,
상기 위상 계산기(8)는 컨볼루션(34)에 의해 얻어진 위상 값들(10)을 다음 반복 단계에 대한 업데이트된 위상 값 추정치들(20)로서 사용하도록 구성되는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2).
제 4 항, 제 7 항 또는 제 8 항 중 어느 한 항에 있어서,
상기 타깃 시간 도메인 포락선을 상기 스펙트럼 도메인으로 변환하기 위한 타깃 포락선 변환기(36)를 더 포함하는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2).
제 4 항, 제 7 항, 제 8 항 또는 제 9 항 중 어느 한 항에 있어서,
가장 최근의 반복 단계로부터 획득된 위상 값 추정치들(10, 20) 및 상기 주파수 도메인 프레임들의 시퀀스(12)를 사용하여 상기 중간 주파수 도메인 재구성(28', 28''')으로부터 상기 시간 도메인 재구성(28'')을 계산하기 위한 주파수-시간 변환기(38)를 더 포함하는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2).
제 4 항, 제 7 항, 제 8 항, 제 9 항, 제 10 항 중 어느 한 항에 있어서,
상기 위상 계산기(8)는 상기 주파수 도메인 프레임들의 시퀀스(12)를 처리하기 위한 컨볼루션 프로세서(40)를 포함하며,
상기 컨볼루션 프로세서(40)는 시간 도메인 중첩 및 합산 프로시저를 상기 주파수 도메인에서 상기 주파수 도메인 프레임들의 시퀀스(12)에 적용하여 상기 중간 주파수 도메인 재구성을 결정하도록 구성되는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2).
제 11 항에 있어서,
상기 컨볼루션 프로세서(40)는 현재 주파수 도메인 프레임에 기초하여, 상기 주파수 도메인에서 시간 도메인 중첩 및 합산이 수행된 후에 상기 현재 주파수 도메인 프레임에 기여하는 인접 주파수 도메인 프레임의 일부를 결정하도록 구성되고,
상기 컨볼루션 프로세서는 상기 현재 주파수 도메인 프레임 내의 인접 주파수 도메인 프레임의 일부의 중첩 위치를 결정하고 상기 중첩 위치에서 상기 현재 주파수 도메인 프레임과 인접 주파수 도메인 프레임들의 부분들의 합산을 수행하도록 추가로 구성되는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2).
제 11 항 또는 제 12 항에 있어서,
상기 컨볼루션 프로세서(40)는 시간 도메인 합성 및 시간 도메인 분석 윈도우를 주파수-시간 변환하여, 상기 주파수 도메인에서 시간 도메인 중첩 및 합산이 수행된 후 상기 현재 주파수 도메인 프레임에 기여하는 인접 주파수 도메인 프레임의 일부를 결정하도록 구성되고,
상기 컨볼루션 프로세서는 상기 인접 주파수 도메인 프레임의 위치를 상기 현재 주파수 도메인 프레임 내의 중첩 위치로 이동시키고 상기 인접 주파수 도메인 프레임의 일부를 상기 중첩 위치에서 상기 현재 프레임에 적용하도록 추가로 구성되는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2).
제 1 항 내지 제 13 항 중 어느 한 항에 있어서,
상기 위상 계산기(8)는 Griffin 및 Lim에 의한 반복 신호 재구성 프로시저에 따라 반복 알고리즘을 수행하도록 구성되는,
처리된 오디오 신호(6)를 얻도록 오디오 신호(49)를 처리하기 위한 장치(2).
오디오 신호를 인코딩하기 위한 오디오 인코더(100)로서,
인코딩된 오디오 신호(108)가 상기 오디오 신호의 주파수 도메인 프레임들의 시퀀스의 표현 및 타깃 시간 도메인 포락선의 표현을 포함하게 상기 오디오 신호를 인코딩하도록 구성된 오디오 신호 프로세서(102), 및
상기 오디오 신호로부터 시간 도메인 포락선을 결정하도록 구성된 포락선 결정기(104)를 포함하며,
상기 포락선 결정기(104)는 상기 포락선을 한 세트의 미리 결정된 포락선들과 비교하여 상기 비교를 기초로 상기 타깃 시간 도메인 포락선의 표현(14)을 결정하도록 추가로 구성되는,
오디오 신호를 인코딩하기 위한 오디오 인코더(100).
오디오 디코더(110)로서,
제 1 항 내지 제 15 항 중 어느 한 항에 따른 장치(2), 및
인코딩된 신호(108)를 수신하기 위한 입력 인터페이스(112)를 포함하며,
상기 인코딩된 신호는 상기 주파수 도메인 프레임들의 시퀀스의 표현 및 상기 타깃 시간 도메인 포락선(18)의 표현을 포함하는,
오디오 디코더(110).
오디오 신호(114)로서,
시간 도메인 오디오 신호(4)의 주파수 도메인 프레임들의 시퀀스의 표현(12) 및 타깃 시간 도메인 포락선의 표현(14)을 포함하는,
오디오 신호(114).
오디오 소스 분리 프로세서(116)로서,
제 1 항 내지 제 15 항 중 어느 한 항의 처리를 위한 장치(2), 및
처리를 위해 상기 장치에 입력되는 수정된 오디오 신호를 얻기 위해 원래 오디오 신호의 스펙트럼을 마스킹하기 위한 마스커(118)를 포함하며,
상기 처리된 오디오 신호(6)는 상기 타깃 시간 도메인 포락선(14)에 관련된 분리된 소스 신호인,
오디오 소스 분리 프로세서(116).
인코딩된 오디오 신호를 처리하기 위한 대역폭 강화 프로세서(122)로서,
상기 인코딩된 신호에 포함된 오디오 신호 대역으로부터 강화 신호(127)를 생성하기 위한 강화 프로세서(126), 및
제 1 항 내지 제 15 항 중 어느 한 항에 따라 처리하기 위한 장치(2)를 포함하며,
상기 강화 프로세서(126)는 상기 인코딩된 신호에 포함된 인코딩된 표현으로부터 또는 상기 인코딩된 신호에 포함된 오디오 신호 대역으로부터 상기 타깃 시간 도메인 포락선(14)을 추출하도록 구성되는,
인코딩된 오디오 신호를 처리하기 위한 대역폭 강화 프로세서(122).
처리된 오디오 신호를 얻도록 오디오 신호를 처리하기 위한 방법(2200)으로서,
상기 오디오 신호의 중첩 프레임들을 나타내는 주파수 도메인 프레임들의 시퀀스의 스펙트럼 값들에 대한 위상 값들을 계산하는 단계를 포함하며,
상기 처리된 오디오 신호와 관련된 타깃 시간 도메인 포락선에 대한 정보를 기초로 상기 위상 값들이 계산되어, 상기 처리된 오디오 신호가 적어도 근사치로 상기 타깃 시간 도메인 포락선 및 상기 주파수 도메인 프레임들의 시퀀스에 의해 결정된 스펙트럼 포락선을 갖는,
처리된 오디오 신호를 얻도록 오디오 신호를 처리하기 위한 방법(2200).
오디오 디코딩 방법(2300)으로서,
제 20 항의 방법;
인코딩된 신호를 수신하는 단계를 포함하며,
상기 인코딩된 신호는 상기 주파수 도메인 프레임들의 시퀀스의 표현 및 상기 타깃 시간 도메인 포락선의 표현을 포함하는,
오디오 디코딩 방법(2300).
오디오 소스 분리 방법(2400)으로서,
제 20 항의 방법, 및
처리를 위해 장치에 입력되는 수정된 오디오 신호를 얻기 위해 원래 오디오 신호의 스펙트럼을 마스킹하는 단계를 포함하며,
상기 처리된 오디오 신호는 상기 타깃 시간 도메인 포락선에 관련된 분리된 소스 신호인,
오디오 소스 분리 방법(2400).
인코딩된 오디오 신호의 대역폭 강화 방법(2500)으로서,
상기 인코딩된 신호에 포함된 오디오 신호 대역으로부터 강화 신호를 생성하는 단계;
제 20 항의 방법을 포함하며,
상기 생성하는 단계는 상기 인코딩된 신호에 포함된 인코딩된 표현으로부터 또는 상기 인코딩된 신호에 포함된 오디오 신호 대역으로부터 상기 타깃 시간 도메인 포락선을 추출하는 단계를 포함하는,
인코딩된 오디오 신호의 대역폭 강화 방법(2500).
오디오 인코딩 방법(2600)으로서,
인코딩된 오디오 신호가 오디오 신호의 주파수 도메인 프레임들의 시퀀스의 표현 및 타깃 시간 도메인 포락선의 표현을 포함하도록 상기 오디오 신호를 인코딩하는 단계; 및
상기 오디오 신호로부터 시간 도메인 포락선을 결정하고 상기 포락선을 한 세트의 미리 결정된 포락선들과 비교하여 상기 비교를 기초로 상기 타깃 시간 도메인 포락선의 표현을 결정하는 단계를 포함하는,
오디오 인코딩 방법(2600).
컴퓨터 또는 프로세서 상에서 실행될 때, 제 20 항, 제 21 항, 제 22 항, 제 23 항 또는 제 24 항 중 어느 한 항의 방법을 수행하기 위한,
컴퓨터 프로그램.