KR20120031527A

KR20120031527A - 트랜지언트 이벤트를 갖는 오디오 신호를 조작하기 위한 장치 및 방법

Info

Publication number: KR20120031527A
Application number: KR1020127005834A
Authority: KR
Inventors: 사샤 디쉬; 프레드리크 나겔; 리콜라우스 레텔바흐; 마르쿠스 물트루스; 구일라우메 푸흐스
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2008-03-10
Filing date: 2009-02-17
Publication date: 2012-04-03
Also published as: CA2717694C; EP2293294A2; KR20120031525A; RU2012113063A; EP2293295A2; US9230558B2; JP5425249B2; WO2009112141A8; US9275652B2; EP2250643B1; AU2009225027A1; KR20120031526A; CA2897271A1; EP2293294B1; BR122012006269A2; US20110112670A1; RU2012113087A; CN102789784A; CN101971252A; RU2010137429A

Abstract

트랜지언트 이벤트를 갖는 오디오 신호를 조작하기 위한 신호 매니퓰레이터는 트랜지언트 제거기(100), 신호 프로세서(110) 및 조작된 오디오 신호가 그것에 의해 트랜지언트의 수직성 일관성을 파괴할 수 있는, 신호 프로세서(110)에서 실행되는 모든 프로세스 대신에 트랜지언트 이벤트의 수직적 일관성이 유지되는, 프로세싱에 의해 영향을 받지 않은 트랜지언트 이벤트를 포함하기 위하여, 상기 트랜지언트 제거기에 의한 프로세싱 전에 트랜지언트 이벤트가 제거되는 신호 위치에서 프로세스된 오디오 신호에서의 삽입 시간 부를 위한 신호 인서터(120)를 포함할 수 있다.

Description

트랜지언트 이벤트를 갖는 오디오 신호를 조작하기 위한 장치 및 방법{DEVICE AND METHOD FOR MANIPULATING AN AUDIO SIGNAL HAVING A TRANSIENT EVENT}

본 발명은 오디오 신호 프로세싱 및, 특히, 오디오 효과를 트랜지언트 이벤트(transient event)를 포함하는 신호에 적용시키는 상황에서의 오디오 신호의 조작에 관한 것이다.

피치(pitch)가 유지되는 동안에, 재생 속도가 변경되는 것과 같이 오디오 신호를 조작하는 것이 알려져 있다. 그러한 과정에 대하여 알려진 방법들은 예를 들면, 다음에서 설명되는, 위상 보코더(phase vocoder) 혹은 오버랩-추가(ovelap-add), (P)SOLA와 같은 방법에 의해 구현된다: J.L. Flanagan and R. M. Golden, The Bell System Technical Journal, November 1966, pp. 1394-1509; United States Patent 6549884 Laroche, J. & Dolson, M.: Phase-vocoder pitch-shifting; Jean Laroche and Mark Dolson, New Phase-Vocoder Techniques for Pitch-Shifting, Harmonizing And Other Exotic Effects, Proc. 1999 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, New Paltz, New York, Oct. 17-20, 1999; 및 Zolzer, U: DAFX: Digital Audio Effects; Wiley & Sons; Edition: 1 (February 26, 2002); pp. 201-298.

부가적으로, 오디오 신호는 예를 들면, 피치가 변화되는 동안에, 전치된 오디오 신호는 전치 전의 원래의 오디오 신호와 동일한 재생/재현 길이를 갖는, 이러한 종류의 전치(transposition)의 특별한 이슈가 존재하는, 위상 보코더 혹은 (P)SOLA와 같은 방법을 사용하여 전치를 받을 수 있다. 이는 가속된 재생을 실행하기 위한 가속 요소가 시간 내 원래의 오디오 신호를 확장하기 위한 확장 요소에 의존하는 확장된 신호의 가속된 재생에 의해 획득된다. 시간-이산 신호 리프리젠테이션(time-discrete signal representation)을 가질 때, 이러한 절차는 샘플링 주파수가 유지되는 확장 요소와 동등한 요소에 의한 확장된 신호의 다운-샘플링(downsampling) 혹은 확장된 신호의 제거에 상응한다.

그러한 오디오 신호 조작에서의 특별한 도전이 트랜지언트 이벤트이다. 트랜지언트 이벤트는 모든 대역 혹은 특정 주파수 범위에서 신호의 에너지가 급격히 변화하는, 예를 들면 급격히 증가하거나 급격히 감소하는, 신호에서의 이벤트이다. 특정 트랜지언트(트랜지언트 이벤트)의 전형적인 특징은 스펙트럼에서의 신호 에너지의 분산이다. 일반적으로, 트랜지언트 이벤트 동안에 오디오 신호의 에너지는 전체 주파수에 걸쳐 분산되며 반면에, 비-트랜지언트 신호 부(signal portion)에서, 에너지는 정상적으로 오디오 신호의 낮은 주파수 부 혹은 특정 대역에 집중된다. 이는 또한 고정 혹은 음조(tonal) 신호 부로 불리는, 비-트랜지언트 신호 부가 평평하지 않은, 스펙트럼을 갖는다는 것을 의미한다. 바꾸어 말하면, 신호의 에너지는 상대적으로 적은 수의 스펙트럴 라인(spectral line)/스펙트럴 대역에 포함되는데, 이는 오디오 신호의 노이즈 플로어(noise floor)에 걸쳐 강하게 제기된다. 그러나 트랜지언트 부에서, 오디오 신호의 에너지는 서로 다른 주파수 대역에 걸쳐 분포될 것이며, 특히, 오디오 신호의 트랜지언트 부를 위한 스펙트럼이 상대적으로 평평하며, 어떤 이벤트에서도, 오디오 신호의 음조 부의 스펙트럼보다 더 평평하도록 하기 위하여 높은 주파수 부에서 분산될 것이다. 일반적으로, 트랜지언트 이벤트는 시간에 따른 강한 변화인데, 이는 푸리에 분해가 실행될 때 신호가 많은 높은 고조파(harmonics)를 포함할 것임을 의미한다. 이러한 많은 높은 고조파의 중요한 특징은 이러한 높은 고조파의 위상이 이러한 모든 사인 웨이브(sine wave)의 중첩이 신호 에너지의 급격한 변화를 야기하도록 하기 위하여 매우 특별한 상호 관계에 있다는 것이다. 바꾸어 말하면, 스펙트럼에 걸쳐 강한 상호관계가 존재한다.

모든 고조파 중에서 특정 위상 상황은 또한 "수직적 일관성(vertical coherence)"으로 불릴 수 있다. 이러한 "수직적 일관성"은 수평 방향은 시간에 따른 신호의 발달과 상응하며 수직 차원은 주파수에 따른 하나의 단축-시간 스펙트럼에서 스펙트럴 구성요소(변환 주파수 빈)의 주파수에 따른 상호의존성을 나타내는 신호의 시간/주파수 스펙트로그램(spectrogram) 리프리젠테이션과 관련된다.

*시간 확장 혹은 오디오 신호를 단축하기 위하여 실행되는, 일반적인 프로세싱 단계 때문에, 이러한 수직적 일관성이 파괴되는데, 이는 트랜지언트가 시간 확장 혹은 시간 단축 작동을 받을 때, 예를 들면 주파수-의존 프로세싱 소개 위상을 서로 다른 주파수 계수에 대해 다른, 오디오 신호 내로 실행시키는, 위상 보코더 혹은 다른 방법에 의해 실행될 때 트랜지언트가 시간에 따라 "균열되는(smeared)" 것을 의미한다.

트랜지언트의 수직적 일관성이 오디오 신호 프로세싱 방법에 의해 파괴될 때, 조작된 신호는 정지 부 혹은 비-트랜지언트 부에서의 원래 신호와 매우 유사할 것이나, 트랜지언트 부는 조작된 신호에서 감소된 품질을 가질 것이다. 트랜지언트의 수직적 일관성의 제어되지 않은 조작은 동일의 일시적 분산을 야기하는데, 그 이유는 많은 고조파 구성요소가 트랜지언트 이벤트에 기여하며 제어되지 않은 방법에서의 이러한 모든 구성요소의 위상의 변화는 그러한 아티팩트(artifact)를 야기하기 때문이다.

그러나, 트랜지언트 부는 특정 시간에서 에너지의 갑작스러운 변화가 조작된 신호의 품질에 대한 주관적인 유저의 많은 인상을 나타내는 음악 신호 및 음성 신호와 같은, 오디오 신호의 역학(dynamics)을 위하여 매우 중요하다. 바꾸어 말하면, 오디오 신호에서의 트랜지언트는 일반적으로 오디오 신호의 꽤 주목할만한 "획기적 사건"인데, 이는 주관적인 품질 인상에 비례 이상의(over-proportional) 영향을 갖는다. 수직적 일관성이 신호 프로세싱 작동에 의해 파괴되거나 혹은 원래 신호의 트랜지언트 부와 관련하여 떨어지는 조작된 트랜지언트는 청취자에게는 왜곡되고, 잔향의(reverberant), 부자연스러운 소리가 날 것이다.

현재의 몇몇 방법들은 트랜지언트의 기간 동안에, 그 다음으로 전혀 혹은 단지 작은 시간 확장을 실행해야만 하도록 하기 위하여 더 높은 정도까지 트랜지언트 주위의 시간을 확장시킨다. 그러한 선행기술 문헌 및 특허는 시간 및/혹은 피치 조작을 위한 방법을 설명한다. 선행 참조 기술은 다음과 같다: Laroche L., Dolson M.: Improved phase vocoder timescale modification of audio, IEEE Trans. Speech and Audio Processing, vol. 7, no. 3, pp. 323-332; Emmanuel Ravelli, Mark Sandler and Juan P. Bello: Fast implementation for non-linear time-scaling of stereo audio; Proc. of the 8^th Int. Conference on Digital Audio Effects (DAFx'05), Madrid, Spain, September 20-22, 2005; Duxbury, C. M. Davies, and M. Sandler (2001, December). Separation of transient information in musical audio using multiresolution analysis techniques. In Proceedings of the COST G-6 Conference on Digital Audio Effects (DAFX-01), Limerick, Ireland; 및 Robel, A.: A NEW APPROACH TO TRANSIENT PROCESSING IN THE PHASE VOCODER; Proc. of the 6^th Int. Conference on Digital Audio Effects (DAFx-03), London, UK, September 8-11, 2003.

위상 보코더에 의한 오디오 신호의 시간 확장 동안에, 트랜지언트 신호 부는 분산에 의해 "블러드(blurred)"되는데, 그 이유는 이른바 신호의 수직적 일관성이 손상되기 때문이다. (P)SOLA와 같은 이른바 오버랩-추가 방법을 사용하는 방법은 교란시키는 트랜지언트 사운드 이벤트의 전- 및 후-에코를 발생시킨다. 이러한 문제는 실제로 트랜지언트의 환경에서 증가되는 시간 확장에 의해 처리될 수 있다: 그러나, 만일 전치(transposition)가 발생한다면, 전치 요소는 트랜지언트의 환경에서 더 이상 일정하지 않을 것인데, 예를 들면 중첩(가능하게는 음조) 신호 구성요소의 피치는 변할 것이며 교란으로서 인지될 것이다.

본 발명의 목적은 오디오 신호 조작을 위한 고품질 개념을 제공하는 것이다.

이러한 목적은 청구항 1에 따른 오디오 신호를 조작하기 위한 장치, 청구항 12에 따른 오디오 신호를 발생시키기 위한 장치, 청구항 13에 따른 오디오 신호를 조작하기 위한 방법, 청구항 14에 따른 오디오 신호를 발생시키기 위한 방법, 청구항 15에 따른 트랜지언트 부 및 부가 정보를 갖는 오디오 신호 혹은 청구항 16에 따른 컴퓨터 프로그램에 의해 달성된다.

트랜지언트 부의 제어되지 않는 프로세싱에서 발생하는 품질 문제를 다루기 위하여, 본 발명은 트랜지언트 부가, 예를 들면 프로세싱 전에 제거되며 프로세싱 후 혹은 트랜지언트 이벤트가 프로세스된 후에 재삽입되는, 불리한 방법으로 프로세스되지 않고, 프로세스된 신호로부터 제거되고 프로세스되지 않은 트랜지언트 이벤트에 의해 대체되는 것을 확인한다.

바람직하게는, 프로세스되는 신호 내로 삽입되는 트랜지언트 부는 조작된 신호가 트랜지언트를 포함하지 않는 프로세스된 부 및 트랜지언트를 포함하는 프로세스되지 않거나 혹은 다르게 프로세스된 부로 이루어지도록 하기 위하여 원래의 오디오 신호에서 상응하는 트랜지언트 부의 카피(copy)이다. 바람직하게는, 원래의 트랜지언트는 제거 혹은 어떠한 종류의 가중 혹은 파라미터화된 프로세싱일 수 있다. 그러나, 대안으로, 트랜지언트 부는 합성된 트랜지언트 부가 특정 시간에서의 에너지 양 혹은 트랜지언트 이벤트를 특징으로 하는 다른 측정과 같은 몇몇 트랜지언트 파라미터와 관련하여 원래의 트랜지언트 부와 유사한 것과 같은 방법으로 합성되는, 합성으로-창조되는 트랜지언트 부로 대체될 수 있다. 따라서, 한편으로는 원래의 오디오 신호에서 트랜지언트 부를 특징 지울 수 있으며 또 한편으로는 프로세싱 이전에 이러한 트랜지언트를 제거하거나 혹은 트랜지언트 파라미터 정보를 기초로 합성으로 창조된, 합성된 트랜지언트에 의한 프로세스된 트랜지언트를 대체할 수 있다. 그러나, 효율성 이유 때문에, 조작 이전에 원래의 오디오 신호 부를 카피하고 이러한 카피를 프로세스된 오디오 신호 내로 삽입하는 것이 바람직한데, 그 이유는 이러한 과정은 프로세스된 신호에서의 트랜지언트 부가 원래 신호의 트랜지언트와 동일하다는 것을 보증하기 때문이다. 이러한 과정은 사운드 신호 지각 상의 트랜지언트의 특정한 높은 영향이 프로세싱 이전의 원래의 신호와 비교하여 프로세스된 신호에서 유지된다는 것으로 확인될 것이다. 따라서, 트랜지언트와 관련된 주관적 혹은 객관적 품질은 오디오 신호를 조작하기 위한 어떠한 종류의 오디오 신호 프로세싱에 의해서도 떨어지지 않는다.

바람직한 실시 예에서, 본 출원서는 그러한 프로세싱의 구조 내에서 트랜지언트 사운드 이벤트의 지각 있고 유리한 처리를 위한 신규의 방법을 제공하는데, 이는 만약 그렇지 않으면 신호의 분산에 의한 일시적 "블러링(blurring)"을 발생시킨다. 이러한 바람직한 방법은 특히 시간 확장을 위한 신호 조작에 앞선 트랜지언트 사운드 이벤트의 제거 및, 다음의, 시간 확장 및 확장을 고려할 때, 정확한 방법으로 프로세스되지 않은 트랜지언트 신호 부의 추가를 포함한다.

본 발명의 바람직한 실시 예들이 동반하는 도면을 참조하여 다음에 설명된다:

도 1은 트랜지언트 이벤트를 갖는 오디오 신호를 조작하기 위한 본 발명의 장치 혹은 방법의 바람직한 실시 예를 설명한다;
도 2는 도 1의 트랜지언트 신호 제거기(remover)의 바람직한 구현을 설명한다;
도 3a는 도 1의 신호 프로세서의 바람직한 구현을 설명한다;
도 3b는 도 1의 신호 프로세서를 구현하기 위한 뒤따르는 바람직한 실시 예를 설명한다;
도 4는 신호 인서터의 바람직한 구현을 설명한다;
도 5a는 도 1의 신호 프로세서에 사용되는 보코더의 구현의 개요를 설명한다;
도 5b는 도 1의 신호 프로세서의 일부(분석)의 구현을 설명한다;
도 5c는 도 1의 신호 프로세서의 일부(확장)의 구현을 설명한다;
도 5d는 도 1의 신호 프로세서의 일부(합성)의 구현을 설명한다;
도 6은 도 1의 신호 프로세서에 사용되는 위상 보코더의 변환 구현을 설명한다;
도 7a는 대역폭 확장 프로세싱 도표의 인코더 쪽을 설명한다;
도 7b는 대역폭 확장 도표의 디코더 쪽을 설명한다;
도 8a는 트랜지언트 이벤트를 갖는 오디오 입력 신호의 에너지 표현을 설명한다;
도 8b는 도 8a의,그러나 윈도우 트랜지언트를 갖는 신호를 설명한다;
도 8c는 확장되기에 앞서 트랜지언트 부가 없는 신호를 설명한다;
도 8d는 확장 후의 도 8c의 신호를 설명한다;
도 8e는 원래 신호의 상응하는 부가 삽입된 후의 조작된 신호를 설명한다;
도 9는 오디오 신호용 부가 정보를 발생시키기 위한 장치를 설명한다.

도 1은 트랜지언트 이벤트를 갖는 오디오 신호를 조작하기 위한 바람직한 장치를 설명한다. 바람직하게는, 장치는 트랜지언트 이벤트를 갖는 오디오 신호용 입력(101)을 갖는 트랜지언트 신호 제거기(100)를 포함한다. 트랜지언트 신호 제거기(100)의 출력(102)은 신호 프로세서(110)에 연결된다. 신호 프로세서 출력(111)은 신호 인서터(120)에 연결된다. 프로세스되지 않은 "자연적" 혹은 합성된 트랜지언트를 갖는 조작된 오디오 신호가 이용할 수 있는 신호 인서터 출력(121)은 신호 컨디셔너(signal conditioner, 130)와 같은 뒤따르는 장치와 연결될 수 있는데, 이는 도 7a 및 7b와 관련하여 논의되는 것과 같이 대역폭 확장 목적을 필요로 하기 위한 다운-샘플링/데시메이션(decimation)과 같이 조작된 신호의 더 이상의 프로세싱을 실행할 수 있다.

그러나, 만약 신호 인서터(120)의 출력에서 획득된 조작된 오디오 신호가 그대로 사용된다면, 즉 뒤따르는 프로세싱을 위하여 저장되고, 수신기(receiver)에 전송되거나 혹은 결국은, 마침내 조작된 오디오 신호를 표현하는 음성 신호를 발생하기 위한 확성기(loudspeaker) 장비에 연결되는 디지털/아날로그 컨버터로 전송된다면, 신호 컨디셔너(130)는 전혀 사용될 수 없다.

대역폭 확장의 경우에 있어서, 라인(121) 상의 신호는 이미 고 대역 신호일 것이다. 그때에, 신호 프로세서는 입력 저 대역 신호로부터 고 대역 신호를 발생시키며, 오디오 신호(101)로부터 추출된 저 대역 트랜지언트 부는 고 대역의 주파수 범위에 주입되어야 하는데, 바람직하게는 데시메이션과 같이, 수직적 일관성(vertical coherence)을 방해하지 않는 신호 프로세싱에 의해 수행된다. 이러한 제거는 제거된 트랜지언트 부가 블록(110)의 출력에서의 고 대역 신호 내로 삽입되기 위하여 신호 인서터 전에 실행된다. 이 실시 예에서, 신호 컨디셔너는 예를 들면 MPEG-4 스펙트럴 대역 복제(Spectral Band Replication)에서 수행되는 것과 같이 포락(envelope) 형성, 노이즈 추가, 역 필터링 혹은 고저파 등의 추가와 같은 고 대역 신호의 다른 뒤따르는 프로세싱을 실행할 수 있다.

신호 인서터(120)는 바람직하게는 라인(111)에 삽입되는 프로세스되지 않은 신호로부터 적정 부를 선택하기 위하여 라인(123)을 경유하여 제거기(100)로부터 부가 정보를 수신한다.

장치 100, 110, 120, 130을 갖는 실시 예가 구현될 때, 도 8a 내지 8e과 관련하여 논의되는 것과 같은 신호 서열이 획득될 수 있다. 그러나, 신호 프로세서(110)에서 신호 프로세싱 작동을 실행하기 전에 트랜지언트 부를 제거하는 것이 반드시 필요한 것은 아니다. 이 실시 예에서, 트랜지언트 신호 제거기(100)는 필요하지 않으며 출력(111) 상의 프로세스된 신호로부터 제거되고 이러한 제거된 신호를 라인(121)에 의해 간략하게 설명된 것과 같은 원래의 신호 부 혹은 이러한 합성된 신호가 트랜지언트 신호 발생기(140)에 발생될 수 있는 라인(141)에 의해 설명된 것과 같은 합성된 신호에 의해 대체하기 위하여 신호 인서터(120)는 신호 부를 결정한다. 적절한 트랜지언트를 발생할 수 있도록 하기 위하여, 신호 인서터(120)는 트랜지언트 설명 파라미터(transient description parameter)를 트랜지언트 신호 발생기에 전달하도록 설정된다. 그러므로, 아이템(141)에 의해 표시된 블록(140 및 120) 사이의 연결은 두-방향 연결로 설명된다. 특정 트랜지언트 탐지기가 조작을 위한 장비에 제공될 때, 트랜지언트 상의 정보는 이러한 트랜지언트 탐지기(도 1에는 도시되지 않음)로부터 트랜지언트 신호 발생기(140)에 제공될 수 있다. 트랜지언트 신호 발생기는, 신호 인서터(120)에 의해 사용되는 트랜지언트를 실제로 발생시키거나/합성하도록 하기 위하여 트랜지언트 파라미터를 사용하여 가중될 수 있는, 직접적으로 사용될 수 있거나 혹은 미리 저장된 트랜지언트 샘플을 갖기 위하여 사용될 수 있는, 트랜지언트 샘플을 갖도록 구현될 수 있다.

일 실시 예에서, 트랜지언트 신호 제거기(100)는 트랜지언트가 감소된 오디오 신호를 획득하기 위하여 오디오 신호로부터 제 1 시간 부(first time portion)를 제거하도록 설정되는데, 상기 제 1 시간 부는 트랜지언트 이벤트를 포함한다.

더욱이. 신호 프로세서는 바람직하게는 라인(111) 상의 프로세스된 오디오 신호를 획득하기 위하여 트랜지언트 이벤트를 포함하는 제 1 시간 부가 제거된 트랜지언트가 감소된 오디오 신호를 프로세싱하거나 혹은 트랜지언트 이벤트를 포함하는 오디오 신호를 프로세싱하도록 설정된다.

바람직하게는, 신호 인서터(120)는 제 1 시간 부가 제거되거나 혹은 트랜지언트 이벤트가 오디오 신호에서 위치하는 신호 위치에서 제 2 시간 부를 프로세스된 오디오 신호 내로 삽입하기 위하여 설정되는데, 상기 제 2 시간 부는 출력(121)에서 조작된 오디오 신호가 획득되기 위하여 신호 프로세서(110)에 의해 실행된 프로세싱에 의해 영향을 받지 않는 트랜지언트 이벤트를 포함한다.

도 2는 트랜지언트 신호 제거기(100)의 바람직한 실시 예를 설명한다. 오디오 신호가 트랜지언트 상의 어떠한 부가 정보/메타 정보를 포함하지 않는 일 실시 예에서, 트랜지언트 신호 제거기(100)는 트랜지언트 탐지기(103), 페이드-아웃(fade-out)/페이드-인(fade-in) 계산기(104) 및 제 1 부 제거기(105)를 포함한다. 도 9와 관련하여 후에 논의되는 것과 같이 인코딩 장치에 의해 오디오 신호가 부착되는 것과 같이 오디오 신호에서의 트랜지언트 상의 정보가 선택되는 대안의 실시 예에서, 트랜지언트 신호 제거기(100)는 라인(107)에 의해 표시되는 것과 같이 오디오 신호에 부착된 부가 정보를 추출하는, 부가 정보 추출기(106)를 포함한다. 트랜지언트 시간 상의 정보가 라인(107)에 의해 설명되는 것과 같이 페이드-아웃/페이드-인 계산기(104)에 제공될 수 있다. 그러나, 메타 정보로서, 오디오 신호가 트랜지언트 시간, 예를 들면 트랜지언트 이벤트가 발생하는 정확한 시간뿐만 아니라, 오디오 신호로부터 제외되는 부의 시작/멈춤 시간, 예를 들면 "제 1부"의 시작 시간 및 멈춤 시간을 포함할 때, 페이드-아웃/페이드-인 계산기(104)는 필요하지 않으며 시작/멈춤 시간 정보는 라인(108)에 표시되는 것과 같이 직접적으로 제 1부 제거기(105)에 전달될 수 있다. 라인(108)은 선택권을 설명하며 파선에 의해 표시되는, 모든 다른 선도 선택가능하다.

도 2에서, 페이드-인/페이드-아웃 계산기(104)는 바람직하게는 부가 정보(109)를 출력한다. 이러한 부가 정보(109)는 제 1 부의 시작/멈춤 시간과는 다른데, 그 이유는 도 1의 프로세서(110)에서의 프로세싱의 본질이 고려되기 때문이다. 더욱이, 입력 오디오 신호가 바람직하게는 제거기(105) 내로 공급된다.

바람직하게는, 페이드-인/페이드-아웃 계산기(104)가 제 1 부의 시작/멈춤 시간을 위하여 제공된다. 이러한 시간은 트랜지언트 이벤트뿐만 아니라, 트랜지언트 이벤트를 둘러싸는 몇몇 샘플들이 제 1부 제거기(105)에 의해 제거되도록 트랜지언트 시간을 기초로 계산된다. 더욱이, 시간 도메인 직사각형 윈도우에 의해 트랜지언트 부를 제거하는 것이 아니라, 페이드-아웃 부 및 페이드-인 부에 의한 추출을 실행하는 것이 바람직하다. 페이드-아웃 부 혹은 페이드-인 부를 실행하기 위하여, 비록 이것 또한 선택권이지만, 직사각형 윈도우가 적용될 때 이러한 추출의 주파수 반응이 될 수 있는 한 문제가 없도록 하기 위하여 올림형 코사인 윈도우(raised cosine window)와 같은 직사각형 필터와 비교하여 더 매끄러운 트랜지션을 갖는 어떠한 종류의 윈도우도 적용될 수 있다. 이러한 시간 도메인 윈도우 작동은 윈도우 작동의 나머지, 예를 들면 윈도우 부가 없는 오디오 신호를 출력한다.

트랜지언트가 감소되거나 혹은 바람직하게는 트랜지언트 제거 후에 완전한 비-트랜지언트 잔여 신호를 남기는 그러한 트랜지언트 억제 방법을 포함하는 이러한 상황에서 어떠한 트랜지언트 억제 방법도 적용될 수 있다. 오디오 신호가 특정 시간 부를 넘어 0으로 설정되는, 트랜지언트 부의 완전한 제거와 비교하여 트랜지언트 억제는 0으로 설정되는 그러한 부가 오디오 신호에 대하여 매우 부자연스럽기 때문에, 오디오 신호의 뒤따르는 프로세싱이 0으로 설정된 부로부터 곤란을 겪을 수 있는 상황에서 유리하다.

당연히, 트랜지언트 감지기(103) 및 페이드-인/페이드-아웃 계산기(104)에 의해 실행되는 모든 계산은 트랜지언트 시간 및/혹은 제 1 부의 시작/멈춤 시간과 같은 이러한 계산의 결과가 오디오 신호와 함께 부가 정보 혹은 메타 정보로서 혹은 별도의 전송 채널을 경유하여 전송되는 별도의 오디오 메타 데이터 신호 내에서와 같은 오디오 신호로부터 분리되어 신호 매니퓰레이터(manipulator)에 전송되는 한 도 9와 관련하여 논의되는 것과 같이 인코딩 측(encoding side) 상에 잘 적용될 수 있다.

도 3a는 도 1의 신호 프로세서(110)의 바람직한 구현을 설명한다. 이러한 구현은 주파수 선택 분석기(112) 및 다음에 연결되는 주파수-선택 프로세싱 장치(frequency-selective processing device, 113)를 포함한다. 주파수-선택 프로세싱 장치(113)는 원래의 오디오 신호의 수직적 일관성에 부정적인 영향을 적용하는 것과 같이 구현된다. 이러한 프로세싱을 위한 예는 예를 들면, 프로세싱이 위상 변화를 다른 주파수 대역에 대하여 다른, 프로세스된 오디오 신호 내로 도입하기 위하여, 주파수-선택 방법으로 확장 및 단축이 적용되는 때에 신호의 확장 혹은 신호의 단축이다.

프로세싱의 바람직한 방법은 위상 보코더 프로세싱의 상황에서 도 3b에서 설명된다. 일반적으로, 위상 보코더는 부-대역/변환 분석기(sub-band/transform analyzer, 114), 아이템(114)에 의해 제공되는 복수의 출력 신호의 주파수-선택 프로세싱을 실행하기 위한 다음에 연결되는 프로세서(115) 및, 다음으로, 부대역/변환 컴바이너(116)가 주파수-선택 신호의 결합을 실행하기 때문에, 프로세스된 신호(117)의 대역폭이 아이템(115 및 116) 사이의 단일 브랜치(branch)에 의해 표현되는 대역폭보다 더 크기만 한다면 시간 도메인에서의 이러한 프로세스된 신호는, 다시, 전 대역폭 혹은 로우패스 필터(lowpass filtered) 신호인 출력(117)에서의 시간 도메인에서 프로세스된 신호를 최종적으로 획득하기 위하여 아이템(115)에 의해 프로세스된 신호를 결합시키는, 부-대역/변환 컴바이너(116)를 포함한다.

위상 보코더의 뒤따르는 상세한 설명은 도 5a, 5b, 5c 및 6과 관련하여 뒤에 논의된다.

다음으로, 도 1의 신호 인서터(120)의 바람직한 구현이 도 4에 논의되고 묘사된다. 신호 인서터는 바람직하게는 제 2 시간 부의 시간을 계산하기 위한 계산기(122)를 포함한다. 도 1의 신호 프로세서(110)에서 신호 프로세싱 전에 트랜지언트 부가 제거되는 실시 예에서 제 2 시간 부에 대한 시간을 계산할 수 있도록 하기 위하여, 제 2 시간 부의 길이가 아이템(122)에서 계산되기 위하여 제거된 제 1 부 및 시간 확장 요소(혹은 시간 단축 요소)를 필요로 한다. 이러한 데이터 아이템은 도 1 및 2과 관련하여 논의된 것과 같이 외부로부터의 입력일 수 있다. 바람직하게는, 제 2 시간 부의 길이는 확장 요소에 의한 제 1 부의 길이를 증가시킴으로써 계산된다.

제 2 시간 부의 길이는 오디오 신호에서 제 2 시간 부의 제 1 보더(border) 및 제 2 보더를 계산하기 위하여 계산기(123)에 전달된다. 특히, 계산기(133)는 입력(124)에서 공급되는 트랜지언트 이벤트가 없는 프로세스된 오디오 신호 및 트랜지언트 이벤트를 갖는 오디오 신호 사이의 교차-상관 프로세싱을 실행하기 위하여 구현될 수 있는데, 이는 입력(125)에서 공급되는 것과 같이 제 2 부를 제공한다. 바람직하게는, 계산기(123)는 후에 논의되는 것과 같은 트랜지언트 이벤트의 음성 시프트와 비교하여 제 2 시간 부 내의 트랜지언트 이벤트의 양성 시프트가 바람직하도록 하기 위하여 뒤따르는 제어 입력(126)에 의해 제어된다.

제 2 시간 부의 제 1 보더 및 제 2 보더는 추출기(extractor, 127)에 제공된다. 바람직하게는, 추출기(127)는 부, 예를 들면 입력(125)에서 제공되는 원래 오디오 신호 외의 제 2 시간 부를 제거한다. 다음의 크로스-페이더(cross-fader, 128)가 사용되기 때문에, 직사각형 필터를 사용하여 제거가 일어난다. 크로스-페이더(128)에서, 제 2 시간 부의 시작 부 및 제 2 시간 부의 멈춤 부는 이러한 크로스-페이드 구역에서, 추출된 신호의 시작 부와 함께 프로세스된 신호의 단 부(end portion)가 함께 더해질 때, 유용한 신호의 결과에 이르게 하기 때문에 시간 부에 대한 0에서 1까지의 증가 중량 및/혹은 단 부에서의 0에서 1까지의 감소 중량에 의해 가중된다. 추출 후에 제 2 시간 부의 단 및 프로세스된 오디오 신호의 시작에 대하여 유사한 프로세싱이 크로스-페이더에서 실행된다. 크로스-페이딩은 트랜지언트 부가 없는 프로세스된 오디오 신호의 보더 및 제 2 시간 부 보더가 완전히 일치하지 않을 때 아티팩트를 클릭함으로써 달리 인식할 수 있는 어떠한 시간 도메인 아티팩트도 발생하지 않는다는 것을 확인한다.

다음으로, 위상 보코더의 상황에서 신호 프로세서(110)의 바람직한 구현을 설명하기 위하여 도 5a, 5b, 5c 및 6이 참조된다.

다음에서, 도 5 및 6을 참조하여, 보코더에 대한 바람직한 구현이 본 발명에 따라 설명된다. 도 5a는 위상 보코더의 필터뱅크 구현을 도시하는데, 상기 오디오 신호는 입력(500)에서 들어오며 출력(510)에서 획득된다. 특히, 도 5a에서 설명하는 개략적 필터뱅크의 각각의 채널은 밴드패스 필터(bandpass filter, 501) 및 하류 발진기(502)를 포함한다. 모든 채널로부터의 모든 발진기의 출력 신호는 출력 신호를 획득하기 위하여, 예를 들면 가산기로서 구현되며 503에서 나타나는, 컴바이너에 의해 결합된다. 각각의 필터(501)는 한편으로는 진폭(amplitude) 신호를 다른 한편으로는 주파수 신호를 제공하는 것과 같이 구현된다. 진폭 신호 및 주파수 신호는 시간을 통한 필터(501)에서 진폭의 발달을 설명하는 시간 신호이며, 반면에 주파수 신호는 필터(501)에 의해 필터된 신호의 주파수의 발달을 표현한다.

필터(501)의 개략적인 구성이 도 5b에 설명된다. 도 5a의 각각의 필터(501)는 도 5b에서와 같이 설정될 수 있는데, 그러나, 두 개의 입력 믹서(551) 및 가산기(552)에 공급되는 주파수 f_i는 채널에 따라 서로 다르다. 믹서 출력 신호는 모두 로우패스(553)에 의해 필터된 로우패스이며, 90°에 의해 위상이 달라지는, 국부 발진기 주파수에 의해 발생되는 한 상기 로우패스 신호는 서로 다르다. 상부 로우패스 필터(533)는 직각 신호(554)를 제공하며, 반면에 하부 필터(553)는 위상 신호(in-phase signal, 555)를 제공한다. 이러한 두 개의 신호, 즉 I 및 Q는 직사각형 리프리젠테이션으로부터 크기 위상 리프리젠테이션(magnitude phase representation)을 발생시키는 좌표 변환기(coordinate transformer)에 제공된다. 도 5a의 시간에 따른, 각각의 크기 신호 혹은 진폭 신호는 출력(557)에서의 출력이다. 위상 신호는 위상 언랩퍼( unwrapper, 558)에 제공된다. 요소(558)의 출력에서, 항상 0 및 360°사이에 있는 어떠한 위상 값도 존재하지 않으나, 선형으로 증가하는 위상 값은 존재한다. 이러한 "언랩드(unwrapped)" 위상 값은 예를 들면 시간의 현재 점에 대한 주파수 값을 획득하기 위하여 시간의 현재 점에서의 위상으로부터 시간의 이전 점의 위상을 빼는 간단한 위상 차이 형성기(phase difference former)로서 구현될 수 있는 위상/주파수 컨버터(559)에 제공된다. 이러한 주파수 값은 출력(560)에서의 일시적으로 변하는 주파수 값을 획득하기 위하여 필터 채널(i)의 정 주파수 값(constant frequency value, f_i)에 더해진다. 출력(560)에서의 주파수 값은 직접 구성요소 = f_i이며 교번(alternating) 구성요소 = 필터 채널에서의 신호의 현재 주파수가 평균 주파수 f_i으로부터 벗어나게 하는 주파수 편차이다.

따라서, 도 5a 및 5b에서 설명된 것과 같이, 위상 보코더는 스펙트럴 정보 및 시간 정보의 분리를 달성한다. 스펙트럴 정보는 스텍트럴 채널 내 혹은 각각의 채널에 대한 주파수의 직접 부를 제공하는 주파수 f_i 내에 있는데, 반면에 시간 정보는 각각 주파수 편차 혹은 시간에 따른 진폭 내에 포함된다.

도 5c는 특히, 보코더에서, 특히, 도 5a에서의 사선에서 표시되는 설명된 회로의 위치에서, 본 발명에 따른 대역폭 증가를 위하여 실행되는 것과 같은 조작을 도시한다.

시간 스케일링을 위하여, 각각의 채널에서의 진폭 신호(A(t)) 혹은 각각의 신호에서의 신호의 주파수(f(t))는 각각 제거되거나 혹은 삽입될 수 있다. 전치의 목적을 위하여, 본 발명을 위하여 유용하기 때문에, 삽입, 즉 신호(A(t) 및 f(T))의 확장 혹은 확산이 확산된 신호(A'(t) 및 f'(T))를 획득하기 위하여 실행되는데, 상기 삽입은 대역폭 확장 시나리오에서 확산된 요소에 의해 제어된다. 위상 변화의 삽입, 즉 가산기(552)에 의한 정 주파수의 부가 전의 값에 의해, 도 5a에서의 각각의 개별 발진기의 주파수는 변하지 않는다. 그러나, 전체 오디오 신호의 일시적 변화는 예를 들면 요소(2)에 의해 느리게 된다. 그 결과는 원래의 피치, 예를 들면 고조파를 갖는 원래의 기본 파(fundamental wave)를 갖는 일시적 확산 톤이다.

도 5c에 설명된 신호 프로세싱을 실행함으로써, 그러한 상기 프로세싱은 도 5a에서의 모든 필터 대역 채널에서 실행되며, 그리고 나서 데시메이터(decimator)에서 제거되는 그 결과로서의 일시적 신호에 의해, 오디오 신호는 모든 주파수가 동시에 두 배일 동안에 원래의 기간으로 다시 축소된다. 이는 요소(2)에 의해 피치 전치에 이르게 하는데, 그러나, 상기 오디오 신호는 원래의 오디오 신호, 예를 들면 같은 수의 샘플과 같은 동일한 길이를 갖도록 획득된다.

도 5a에서 설명된 필터뱅크 구현의 대안으로서, 도 6에서 설명되는 것과 같이 위상 보코더의 변환 구현이 또한 사용될 수 있다. 여기에서, 오디오 신호(100)는 FFT 프로세서 내로 제공되거나 혹은 더 일반적으로, 시간 샘플의 서열로서 단-시간-푸리에-변환-프로세서(Short-Time-Fourier-Transform-Processor, 600) 내로 제공된다. FFT 프로세서(600)는 도 6에서 대략 FFT에 의해, 스펙트럼의 크기 및 위상을 계산하기 위한 오디오 신호의 시간 윈도우잉(time windowing)을 실행하기 위하여 구현되는데, 이러한 상기 계산은 강하게 오버래핑되는, 오디오 신호의 블록과 관련된 연속의 스펙트럼을 위하여 실행된다.

극단의 경우에 있어서, 모든 새로운 오디오 신호 샘플에 대하여 새로운 스펙트럼이 계산될 수 있는데, 상기 새로운 스펙트럼은 또한 예를 들면 단지 각각의 20번째 새로운 샘플을 위하여 계산될 수 있다. 두 스펙트럼 사이의 샘플에서의 이러한 거리는 바람직하게는 제어기(602)에 의해 주어진다. 제어기(602)는 오버래핑 작동에서 작동하기 위하여 구현되는 IFFT 프로세서(604)를 제공하기 위하여 더 구현된다. 특히, IFFT 프로세서(604)는 결과 시간 신호를 획득할 수 있는, 오버랩 추가 작동을 실행하기 위하여, 변경된 스펙트럼의 진폭 및 위상을 기초로 하여 스펙트럼 당 하나의 IFFT를 실행함으로써 역(inverse) 단-시간 푸리에 변환을 실행하는 것과 같이 구현된다. 오버랩 추가 작동은 분석 윈도우의 효과를 제거한다.

시간 신호의 확산은 그것들이 FFT 스펙트럼의 발생에서 스펙트럼 사이의 거리보다 큰, IFFT 프로세서(604)에 의해 프로세스되기 때문에, 두 스펙트럼 사이의 거리(d)에 의해 달성된다. 기본 개념은 단지 분석 FFT보다 더 멀리 떨어져 있는 역 FFT에 의해 오디오 신호를 확산시키는 것이다.

그러나, 블록(606)에서의 위상 리스케일링(rescaling) 없이, 이것은 아티팩트에 이르게 한다. 예를 들면, 45°로 연속적인 위상 값이 구현되는 하나의 단일 주파수 빈(bin)이 고려될 때, 이는 이러한 필터뱅크 내의 신호가 시간 간격 당 한 사이클의 ⅛의 비율을 갖는, 예를 들면 45°로 위상에서 증가한다는 것을 의미하는데, 상기 시간 간격은 여기서는 연속된 FFT 사이의 시간 간격이다. 만약 역 FFT가 서로 멀리 간격을 둔다면, 이것은 45°위상 증가가 긴 시간 간격에 걸쳐 발생한다는 것을 의미한다. 이는 위상 시프트(shift) 때문에 다음의 오버랩-추가 프로세스에서 원하지 않는 신호 취소에 이르게 하는 불일치가 발생한다는 것을 의미한다. 이러한 아티팩트를 제거하기 위하여, 위상은 오디오 신호가 시간 내에 확산되도록 하는 정확히 동일한 요소에 의해 리스케일된다. 각각의 FFT 스펙트럴 값의 위상은 따라서 이러한 불일치를 제거하기 위하여, 요소(b/a)에 의해 증가된다.

도 5c에서 설명된 실시 예에서 진폭/주파수 제어 신호의 삽입에 의한 확산이 도 5a의 필터뱅크 구현에서 하나의 신호 발진기를 위하여 달성되는 동안에, 도 6에서의 확산은 두 FFT 스펙트럼 사이의 거리보다 큰 두 IFFT 스펙트럼 사이의, 예를 들면 a보다 큰 b, 거리에 의해 달성되는데, 그러나, 아티팩트 예방을 위하여 b/a에 따라 상기 위상 리스케일링이 실행된다.

위상-보코더의 상세한 설명과 관련하여 참조문헌이 다음의 문헌에 나온다:

"The phase Vocoder: A tutorial", Mark Dolson, Computer Music Journal, vol. 10, no. 4, pp. 14-27, 1986, or "New phase Vocoder techniques for pitch-shifting, harmonizing and other exotic effects", L. Laroche und M. Dolson, Proceedings 1999 IEEE Workshop on applications of signal processing to audio and acoustics, New Paltz, New York, October 17-20, 1999, pages 91-94; "New approached to transient processing interphase vocoder", A. Robel, Proceeding of the 6th international conference on digital audio effects (DAFx-03), London, UK, September 8-11, 2003, pages DAFx-1 to DAFx-6; "Phase-locked Vocoder", Meller Puckette, Proceedings 1995, IEEE ASSP, Conference on applications of signal processing to audio and acoustics, or US Patent Application Number 6,549,884.

대안으로, 신호 확산을 위한 다른 방법들이 이용 가능한데, 예를 들면 '피치 동기식 오버랩 추가(Pitch Synchronous Overlap Add)'와 같은 방법이다. 피치 동기식 오버랩 추가, 약자로 PSOLA는 음성 신호의 레코딩이 데이터베이스에 위치하는 합성 방법이다. 이들이 주기 신호(periodic signal)인 한, 동일한 것들이 기본 주파수(피치) 상의 정보에 제공되며 각각의 주기의 시작이 표시된다. 합성에서. 이러한 주기는 윈도우 기능에 의해 특정 환경과 함께 제거되며, 적절한 위치에서 합성되는 신호에 더해진다: 원하는 기본 주파수가 데이터베이스 항목보다 높은가 낮은가에 따라, 그것들이 원래에서보다 더 혹은 덜 조밀하게 결합된다. 청취 기간을 조절하기 위하여, 기간이 생략되거나 혹은 두 배로 출력될 수 있다. 이러한 방법은 또한 TD-POSLA로 불리는데, 상기 TD는 시간 도메인(time domain)을 의미하며 그 방법이 시간 도메인에서 작동한다는 것을 강조한다. 뒤따르는 개발은 다중대역 재합성 오버랩 추가(MultiBand Resynthesis Overlap Add) 방법, 줄여서 MBROLA이다. 여기서 데이터베이스에서의 분할(segment)은 전-프로세싱에 의해 균일한 기본 주파수로부터 가져오며 고조파의 위상 위치는 표준화된다. 이것에 의해, 분할로부터 다음으로의 전치의 합성에서, 덜 지각 있는 간섭이 결과로서 생기며 달성된 음성 신호는 더 높다.

뒤따르는 대안에서, 확산 및 제거 후의 신호가 이미 원하는 부를 포함하며 그 다음의 밴드패스 필터링이 제거될 수 있도록 하기 위하여, 오디오 신호는 확산 전에 이미 밴드패스 필터링이 된다. 이 경우에 있어서, 밴드패스 필터는 대역폭 확장 후에 완전히 필터될 수 있는 오디오 신호 부가 여전히 밴드패스 필터의 출력 신호에 포함되도록 설정된다. 따라서 밴드패스 필터는 확장 및 제거 후의 오디오 신호에서 포함되지 않는 주파수 범위를 포함한다. 이러한 주파수 범위를 갖는 신호가 합성된 고-주파수 신호를 형성하는 원하는 신호이다.

도 1에서 설명된 것과 같은 신호 매니퓰레이터는 부가적으로, 라인(121) 상의 프로세스되지 않은 "자연적" 혹은 합성된 트랜지언트를 갖는 오디오 신호를 더 프로세싱하기 위한 신호 컨디셔너(130)를 포함할 수 있다. 이러한 신호 컨디셔너는 그것의 출력에서, 고-대역 신호를 발생시키는, 그리고 나서 HFR(high frequency reconstruction) 데이터스트림과 함께 전송되는 높은 주파수(high frequency)를 사용함으로써 원래의 고대역 신호의 특징과 매우 닮도록 적용될 수 있는, 대역폭 확장 애플리케이션 내의 신호 제거기일 수 있다.

도 7a 및 7b는 대역폭 확장 시나리오를 설명하는데, 이는 도 7b의 대역폭 확장 코더(720) 내의 신호 컨디셔너의 출력 신호를 유리하게 사용할 수 있다. 오디오 신호는 입력(700)에서의 로우패스/하이패스 조합 내로 들어간다. 로우패스/하이패스 조합은 한편으로는 도 7a에서의 703에서 설명되는, 오디오 신호(700)의 로우패스 필터 버전을 발생시키기 위하여, 로우패스를 포함한다. 이러한 로우패스 필터 오디오 신호는 오디오 인코더(704)와 함께 인코드된다. 오디오 인코더는, 예를 들면, MP3 인코더(MPEG1 레이어 3) 혹은 또한 MP4 인코더로 알려져 있으며 MPEG4 표준에서 설명되는, AAC 인코더이다. 대역 제한된 오디오 신호(703)의 투과성 혹은 유리하고 지각 있게 투과성인 리프리젠테이션을 제공하는 대안의 오디오 인코더는 각각 완전하게 인코드되거나 혹은 지각 있게 인코드되며 바람직하게는 지각 있고 투명성으로 인코드되는 오디오 신호(705)를 발생시키기 위하여 인코더(704)에 사용된다.

오디오 신호의 상부 대역은 "HP"로 지정된, 필터(702)의 하이패스 부에 의한 출력(706)에서의 출력이다. 오디오 신호의 하이패스 부, 즉 상부 대역 혹은 또한 HP 부로 지정된 HP 대역은 서로 다른 파라미터를 계산하기 위하여 구현되는 파라미터 계산기(707)에 제공된다. 이러한 파라미터는 예를 들면 각각의 음향심리학적 주파수 그룹 혹은 바크 스케일(Bark scale) 상의 각각의 바크 대역을 위한 스케일 요소의 표현에 의한, 예를 들면, 상대적으로 조잡한 해상도에서 상부 대역의 스펙트럴 포락이다. 파라미터 계산기(707)에 의해 계산될 수 있는 뒤따르는 계산기는 상부 대역에서의 노이즈 플로어(noise floor)인데, 대역 당 에너지는 바람직하게는 이 대역에서 포락의 에너지와 연관된다. 파라미터 계산기(707)에 의해 계산될 수 있는 뒤따르는 계산기는 대역에 스펙트럴 에너지가 어떻게 분포되는가, 즉 대역에서의 스펙트럴 에너지가 상대적으로 균일하게 분포되는가, 그때에 상기 비-음색의 신호가 이러한 대역에 존재하는가, 혹은 이 대역에서의 에너지가 상대적으로 대역의 특정 위치에 강하게 집중되어 있는가, 그때에 이 대역을 위하여 음색 신호가 존재하는가를 나타내는 상부 대역의 각각의 부분 대역을 위한 음색 측정을 포함한다.

*뒤따르는 파라미터는 그것들의 높이 및 주파수와 관련하여 상부 대역에서 상대적으로 강하게 튀어나오는 뚜렷한 인코딩 피크(peak)가 존재하는데, 그 이유는 대역폭 확장 개념이, 상부 대역에서 현저한 정현 부(sinusoidal portion)의 그러한 명시적 인코딩이 없는 재생에서, 단지 동일한 것을 매우 미숙하게 복구하거나 혹은 전혀 복구하지 못할 것이기 때문이다.

어떠한 경우에서도, 파라미터 계산기(707)는 예를 들면 서로 다른 인코딩, 예측 혹은 허프만(Huffman) 인코딩 등과 같은, 양자화 스펙트럴 값을 위하여 또한 오디오 인코더(704)에서도 실행될 수 있기 때문에 유사한 엔트로피 감소 단계를 받을 수 있는 상부 대역을 위한 파라미터만을 발생시키도록 구현된다. 파라미터 표현(708) 및 오디오 신호(705)는 그리고 나서 예를 들면 MPEG4 표준에서 표준화되기 때문에 일반적으로 특정 포맷에 따른 비트스트림(bitstream)이 되는 출력 측 데이터스트림(710)을 제공하도록 구현되는 데이터스트림 포맷터(datastream formatter, 709)에 제공된다.

디코더 측은, 특히 본 발명을 위하여 적합하기 때문에, 도 7b와 관련하여 다음에서 설명된다. 데이터스트림(710)은 오디오 신호 부(705)로부터 대역폭 확장과 관련된 파라미터 부(708)를 분리하기 위하여 구현되는 데이터스트림 해석기(datastream interpreter, 711)로 들어간다. 파라미터 부(708)는 디코드된 파라미터(713)를 획득하기 위하여 파라미터 디코더(712)에 의해 디코드된다. 이와 동시에, 오디오 신호 부(705)는 오디오 신호를 획득하기 위하여 오디오 디코더(714)에 의해 디코드된다.

구현에 따라, 오디오 신호는 제 1 출력(715)을 경유하는 출력일 수 있다. 그리고 나서 출력(715)에서, 작은 대역폭 및 따라서 낮은 품질을 갖는 오디오 신호가 획득될 수 있다. 그러나, 품질 개량을 위하여, 본 발명의 대역폭 확장(720)은 각각, 확장되거나 혹은 높은 대역폭, 및 그에 따른 고품질을 갖는 출력 면 상의 오디오 신호(712)를 획득하도록 실행된다.

WO 98/57436 특허로부터 오디오 신호를 인코더 측 상의 그러한 상황에서 제한하는 대역에 제시하며 고품질의 오디오 인코더에 의해 단지 오디오 신호의 하부 대역만을 인코드하는 것이 알려져 있다. 그러나, 상부 밴드는 예를 들면 상부 대역의 스펙트럴 포락을 재생하는 한 세트의 파라미터에 의해 매우 조잡한 특징을 갖는다. 디코더 측에서, 상부 대역은 그때에 합성된다. 이러한 목적을 위하여, 고조파 전치가 제안되는데, 상기 디코드된 오디오 신호의 하부 대역은 필터뱅크에 제공된다. 하부 대역의 필터뱅크 채널은 상부 대역의 필터뱅크 채널에 연결되거나 혹은 "패치되며(patched)", 각각의 패치된 밴드패스 신호는 포락 조절을 받는다. 특별한 분석 필터뱅크에 속하는 합성 필터뱅크는 여기서 하부 대역에서의 오디오 신호의 밴드패스 신호 및 상부 대역에서 조화롭게 패치된 하부 대역의 포락-조정된 밴드패스 신호를 수신한다. 합성 필터뱅크의 출력 신호는 대역폭과 관련하여 확장되는 오디오 신호인데, 이는 인코더 측으로부터 디코더 측으로 매우 낮은 데이터 비율로 전송된다. 특히, 필터뱅크 도메인에서의 필터뱅크 계산 및 패칭은 높은 전산 노력이 될 수 있다.

여기에 존재하는 방법은 언급한 문제점들을 해결한다. 본 발명의 신규성은 현존하는 방법과 비교하여, 트랜지언트를 포함하는, 윈도우 부(windowed portion)가 조작하려는 신호로부터 제거되며, 원래의 신호로부터 일시적 포락이 트랜지언트의 환경에서 가능한 한 많이 보존될 수 있는 것과 같이 조작된 신호 내로 재삽입될 수 있는 제 2 윈도우 부(일반적으로 제 1 윈도우 부와 다름)가 부가적으로 선택된다는 사실로 이루어진다. 이러한 제 2 부는 그것이 정확하게 시간-확장 작동에 의해 변하는 리세스(recess)에 적합하도록 선택된다. 정확한 적합(fitting-in)은 원래의 트랜지언트 부의 엣지(edge)와 함께 결과 리세스의 엣지의 교차 상관의 최대를 계산함으로써 실행된다.

따라서, 트랜지언트의 주관적 오디오 품질은 분산 및 에코 효과에 의해 더 이상 손상되지 않는다.

적절한 부를 선택하는 목적을 위한 트랜지언트 위치의 정확한 결정은 예를 들면, 적절한 시간의 기간 동안 에너지의 이동 궤적(moving centroid) 계산을 사용하여 실행될 수 있다.

시간-확장 요소와 함께, 제 1 부의 크기는 제 2 부의 필요로 하는 크기를 결정한다. 바람직하게는, 이러한 크기는 하나 이상의 트랜지언트가 단지 만일 매우 인접한 트랜지언트 사이의 시간 간격이 개인의 일시적 이벤트의 인간 지각성이 한계 아래에 있을 때 재삽입을 위하여 사용되는 제 2 부에 의해 수용되는 것과 같이 선택될 수 있다.

최대 교차-상관에 따른 트랜지언트의 최적 피팅-인(fitting-in)은 동일한 원래 위치와 관련된 시간에서 약간의 오프셋(offset)을 필요로 할 수 있다. 그러나, 일시적인 프리-(pre-) 및 특히, 포스트-마스킹(post-masking) 효과의 존재 때문에, 재삽입된 트랜지언트의 위치는 원래의 위치와 정확하게 일치할 필요는 없다, 포스트-마스킹 활동의 확장된 기간 때문에, 양의 시간 방향에서의 트랜지언트의 이동이 바람직할 수 있다.

원래의 신호 부를 삽입함으로써, 샘플링 비율이 그 후의 제거 단계에 의해 변경될 때 동일한 팀버(timbre) 혹은 피치는 변경될 수 있다. 일반적으로, 그러나, 이것은 음향심리학적의 일시적 마스킹 메카니즘에 의하여 마스킹된다. 특히, 만일 정수 요소에 의한 확장이 발생하면, 트랜지언트 환경의 외부, 단지 모든 n번째(n=확장 요소)의 고조파만이 채워지기 때문에, 팀버는 단지 약간 변경될 것이다.

신규 방법을 사용하여, 시간 확장 및 전치 방법에 의한 트랜지언트의 프로세싱 동안 생기는 아티팩트(분산, 프리-에코 및 포스트-에코)가 효과적으로 예방될 수 있다. 중첩된(가능한 음색) 신호 부 품질의 잠재적인 손상을 피할 수 있다.

방법은 어떠한 오디오 애플리케이션에서도 적합한데 상기 오디오 신호 혹은 그것들의 피치의 재생 속도는 변경될 수 있다.

다음에, 도 8a 내지 8e에서의 바람직한 실시 예가 논의된다. 도 8a는 오디오 신호의 표현을 설명하나, 똑바른 시간 도메인 오디오 샘플 서열과는 대조적으로, 도 8a는 예를 들면, 시간 도메인 샘플 설명에서 각각의 오디오 샘플이 제곱일 때 획득되는 에너지 포락선 표현을 설명한다. 특히, 도 8a는 트랜지언트 이벤트가 시간에 따른 에너지의 뚜렷한 증가 및 감소에 의해 특징되는 트랜지언트 이벤트(801)를 갖는 오디오 신호(800)를 설명한다. 본래, 트랜지언트는 이러한 에너지가 특정한 높은 레벨에 남아 있을 때 뚜렷한 에너지의 증가일 수 있거나 혹은 감소 전에 특정 시간에 대하여 높은 레벨 상에 있을 때 에너지의 뚜렷한 감소일 수 있다. 트랜지언트에 대한 특정 패턴은 예를 들면, 손뼉치기 혹은 타악기에 의해 발생되는 다른 음색이다. 부가적으로, 트랜지언트는 음색을 크게 재생하는, 예를 들면 음성 에너지를 특정 한계 시간 아래의 특정 한계 레벨 위의 특정 대역 혹은 복수의 대역 내로 제공하는, 악기의 빠른 공격이다. 본래, 도 8a에서의 오디오 신호(800)의 에너지 파동(802)과 같은 다른 에너지 파동은 트랜지언트로서 감지되지 않는다. 트랜지언트 감지기는 선행기술에서 알려져 있으며 문헌에 널리 설명되며 주파수-선택 프로세싱 및 한계에 대한 주파수-선택 프로세싱 결과의 비교 및 그 다음의 트랜지언트인지 아닌지의 결정을 포함할 수 있는, 많은 다른 알고리즘에 의존한다.

도 8b는 윈도우 트랜지언트를 설명한다. 실선에 의해 구분되는 지역은 묘사된 윈도우 형태에 의해 가중되는 신호로부터 뺀다. 점선에 의해 표시되는 지역은 프로세싱 후에 다시 더해진다. 특히, 특정 트랜지언트 시간(803)에 발생하는 트랜지언트는 오디오 신호(800)로부터 제거되어야 한다. 안전한 측 상에 있기 위하여, 트랜지언트뿐만 아니라 몇몇 인접하는/이웃의 샘플이 원래의 신호로부터 제거된다. 그러므로 시작 시점부터 멈춤 시점까지 확장되는, 제 1 시간 부(804)가 결정된다. 일반적으로, 제 1 시간 부(804)는 트랜지언트 시간(803)이 제 1 시간 부(804) 내에 포함되도록 선택된다. 도 8c는 확장되기 이전에 트랜지언트가 없는 신호를 설명한다. 천천히 쇠퇴하는 엣지(807 및 808)로부터 볼 수 있는 것과 같이, 제 1 시간 부는 단지 직사각의 핏터/윈도우어(fitter/windower)에 의해 제거되는 것이 아니며, 윈도우잉은 천천히 쇠퇴하는 엣지 혹은 오디오 신호의 측면을 갖도록 실행된다.

중요하게도, 도 8c는 이제 도 1의 라인(102) 상의 오디오 신호, 즉 트랜지언트 신호 제거 후를 설명한다. 천천히 쇠퇴하는/증가하는 측면(flank, 807, 808)은 도 4의 크로스 페이드(128)에 의해 사용되는 페이드-인 혹은 페이드-아웃 지역을 제공한다. 도 8d는 확장 상태에서의, 도 8c의 신호, 즉 신호 프로세서(110)에 의해 적용되는 프로세싱 후의 신호를 설명한다. 따라서, 도 8d에서의 신호는 도 1의 라인(111) 상의 신호이다. 확장 작동 때문에, 제 1 부(804)는 더 길어졌다. 따라서, 도 8d의 제 1 부(804)는 제 2 시간 부(809)로 확장되는데, 이는 제 2 시간 부 시작점(810) 및 제 2 시간 부 멈춤점(811)을 갖는다. 신호의 확장에 의해, 측면(807, 808)은 측면(807', 808')의 시간 길이가 잘 확장되도록 하기 위하여 마찬가지로 확장된다. 이러한 확장은 도 4의 계산기(122)에 의해 실행되는 것과 같이 제 2 시간 부의 길이를 계산할 때 계산되어야 한다.

제 2 시간 부의 길이가 결정되자마자, 제 2 시간 부의 길이에 상응하는 부가 도 8b의 파선에 의해 설명된 것과 같이 도 8a에서 설명된 원래의 오디오 신호로부터 제거된다. 이 단에, 제 2 시간 부(809)가 도 8e 내로 들어간다. 논의된 것과 같이, 시작 시점(812), 즉 원래 오디오 신호에서 제 2 시간 부(809)의 제 1 보더 및 제 2 시간 부의 멈춤 시점(813), 즉 원래 오디오 신호에서 제 2 시간 부의 제 2 보더는 그것이 원래의 신호에 있었기 대문에 트랜지언트(801)가 정확히 동일한 시점 상에 있도록 하기 위하여 트랜지언트 이벤트 시간(803, 803')과 관련하여 반드시 대칭일 필요는 없다. 대신에, 도 8b의 시점(812, 813)은 원래의 신호에서 이러한 보더 상의 신호 형태 사이의 교차 상관 결과가, 가능한 한 많이, 확장 신호에서 상응하는 부와 유사하도록 하기 위하여 약간 변할 수 있다. 따라서, 트랜지언트(803)의 실제 위치는 특정 정도까지, 제 2 시간 부의 중앙의 외부로 이동할 수 있는데, 이는 도 8b의 제 2 시간 부와 관련하여 상응하는 시간(803)으로부터 유래하는, 제 2 시간 부에 관한 특정 시간을 나타내는 참조 숫자(803')에 의해 도 8e에 나타난다. 도 4와 연관하여 논의된 것과 같이, 시간(803)과 관련하여 시간(803')에 대한 트랜지언트의 양성 시프트인, 아이템(126)이 포스트-마스킹(post-masking) 효과 때문에 바람직한데, 이는 전방 마스킹보다 더 뚜렷하다. 도 8e는 부가적으로 트랜지언트가 없는 확장 신호 및 트랜지언트를 포함하는 원래 신호의 카피 사이의 크로스-페이더를 제공하는 크로스오버/전치 구역(813a, 813b)을 설명한다.

도 4에 설명한 바와 같이, 제 2 시간 부(122)의 길이를 계산하기 위한 계산기는 제 1 시간 부의 길이 및 확장 요소를 수신하기 위하여 설정된다. 대안으로, 계산기는 또한 하나 및 동일한 제 1 시간 부 내에 포함되는 이웃하는 트랜지언트의 허용 가능성에 대한 정보를 수신할 수 있다. 그러므로, 이러한 허용 가능성을 기초로 하여, 계산기는 그 자체로 제 1 시간 부(804)의 길이를 결정할 수 있으며, 그리고 나서 확장/단축 요소에 따라, 제 2 시간 부(809)의 길이를 계산한다.

위에서 설명한 것과 같이, 신호 인서터의 기능성은 도 8e의 차이에 대하여 원래 신호로부터 확장된 신호 내에서 커지는 적절한 구역을 제거하며 이러한 적절한 구역, 즉 시점(812 및 813)을 결정하고 바람직하게는, 크로스-페이드 구역(813a 813b)에서 크로스-페이딩 작동을 잘 실행하기 위하여 교차 상관 계산을 사용하여 제 2 시간 부를 프로세스된 신호 내로 맞추는 것이다.

도 9는 오디오 신호에 대한 부가 정보를 발생시키기 위한 장치를 설명하는데, 이는 트랜지언트 감지가 인코더 면 상에서 실행되고 이러한 트랜지언트 감지에 대한 부가 정보가 계산되며 신호 매니퓰레이터로 전송될 때, 본 발명의 상황에서 사용될 수 있으며, 그리고 나서 디코더 면을 나타낼 수 있다. 이를 위하여, 도 2의 트랜지언트 감지기(103)와 유사한 트랜지언트 감지기가 트랜지언트 신호를 포함하는 오디오 신호의 분석을 위하여 적용된다. 트랜지언트 감지기는 트랜지언트 시간, 즉 도 1에서의 시간(803)을 계산하며 이러한 트랜지언트 시간을 메타 데이터 계산기(104')에 전달하는데, 이는 도 2에서의 페이드-아웃/페이드-인 계산기(104')와 유사하게 구성될 수 있다. 일반적으로 메타 데이터 계산기(104')는 이러한 메타 데이터가 트랜지언트 제거를 위한 보더, 즉 제 1 시간 부, 즉 도 8b의 보더(805 및 806) 혹은 도 8b에서의 812, 813에서 설명한 것과 같은 트랜지언트 삽입(제 2 시간 부)을 위한 보더 혹은 트랜지언트 이벤트 시점(803 혹은 803')을 포함할 수 있는 신호 출력 인터페이스(900)로 전달되는 메타 데이터를 계산할 수 있다. 후자의 경우에서조차도, 신호 매니퓰레이터는 요구되는 모든 데이터, 즉 트랜지언트 이벤트 시점(803)을 기초로 하는 제 1 시간 부 데이터, 제 2 시간 부 데이터 등을 결정하는 위치에 있을 수 있다.

아이템(104')에 의해 발생되는 것과 같은 메타 데이터는 신호 출력 인터페이스가 신호, 즉 전송 혹은 저장을 위한 출력 신호를 발생시키기 위하여 신호 출력 인터페이스에 전달된다. 출력 신호는 단지 메타 데이터만을 포함할 수 있으며 혹은 메타 데이터 및 오디오 신호를 포함할 수 있는데, 후자의 경우에, 상기 메타 데이터는 오디오 신호를 위한 부가 정보를 나타낼 수 있다. 이를 위하여, 오디오 신호는 라인(901)을 경유하여 신호 출력 인터페이스(900)로 전달될 수 있다. 신호 출력 인터페이스(900)에 의해 발생되는 출력 신호는 어떠한 종류의 저장 매체에도 저장될 수 있으며 혹은 어떠한 종류의 전송 채널을 경유하여서도 신호 매니퓰레이터 혹은 트랜지언트 정보를 필요로 하는 다른 장치에 전송될 수 있다.

비록 본 발명은 실질적이거나 혹은 논리적인 하드웨어 구성요소를 나타내는 블록도의 상황에서 설명되었지만, 본 발명은 또한 컴퓨터로 구현되는 방법에 의해 구현될 수 있다는 것을 알아야 한다. 후자의 경우에 있어서, 블록은 상응하는 방법의 단계를 나타내는데 이러한 상기 단계는 상응하는 논리적이거나 혹은 물리적 하드웨어 블록에 의해 실행되는 기능성을 대신한다. 설명된 실시 예는 단지 본 발명의 원리를 위하여 설명된 것이다. 배열의 변경 및 변환 및 여기서 설명된 상세한 설명은 통상의 지식을 가진 자에게 자명하다는 것이 이해되어야 한다. 그러므로, 여기에서의 실시 예의 기재 및 설명을 위하여 제시되는 특정한 상세한 설명에 의한 것이 아니라 다음의 특허의 청구항의 범위에 의해서만 제한된다.

본 발명의 방법의 특정한 구현 요구조건에 따라, 본 발명의 방법은 하드웨어 혹은 소프트웨어에서 구현될 수 있다. 본 발명의 방법이 실행되는 것과 같은 프로그래머블 컴퓨터 시스템과 협력하는, 디지털 저장 매체, 특히, 디스크, DVD 혹은 그 위에 저장되는 전기적으로 판독 가능한 신호를 갖는 CD를 사용하여 구현이 실행될 수 있다. 일반적으로, 본 발명은 따라서 기계 판독 가능한 캐리어 상에 저장되는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있는데, 상기 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동될 때 본 발명의 방법을 위하여 작동된다. 바꾸어 말하면, 본 발명의 방법은, 따라서, 컴퓨터 프로그램이 컴퓨터 상에서 구동될 때 적어도 하나 이상의 본 발명의 방법을 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다. 본 발명의 메타 데이터 신호는 디지털 저장 매체와 같은 기계 판독 가능한 어떠한 저장 매체에도 저장될 수 있다.

100 : 트랜지언트 신호 제거기 101 : 오디오 신호용 입력
102 : 출력 103 : 트랜지언트 탐지기
104 : 페이드-아웃/페이드-인 계산기 104' : 메타 데이터 계산기
105 : 제 1부 제거기 106 : 부가 정보 추출기
107, 108 : 라인 109 : 부가 정보
110 : 신호 프로세서 111 : 신호 프로세서 출력
112 : 주파수 선택 분석기 113 : 주파수-선택 프로세싱 장치
114 : 부-대역/변환 분석 115 : 프로세서
116 : 부대역/변환 컴바이너 117 : 프로세스된 신호
120 : 신호 인서터 121 : 신호 인서터 출력
122 : 계산기 123 : 라인
124, 125 : 입력 126 : 제어 입력
127 : 추출기 128 : 크로스-페이더
130 : 신호 컨디셔너 140 : 트랜지언트 신호 발생기
141 : 라인 500 : 입력
501 : 밴드패스 필터 502 : 하류 발진기
510 : 출력 551 : 입력 믹서
552 : 가산기 553 : 상부 로우패스 필터
554 : 직각 신호 555 : 위상 신호
557 : 출력 558 : 위상 언랩퍼
559 : 위상/주파수 컨버터 560 : 출력
600 : 단-시간-푸리에-변환-프로세서 602 : 제어기
604 : IFFT 프로세서 606 : 블록
700 : 입력 702 : 필터
703 : 대역 제한된 오디오 신호 704 : 오디오 인코더
705 : 오디오 신호 706 : 출력
707 : 계산기 708 : 파라미터 부
709 : 데이터스트림 포맷터 710 : 데이터스트림
711 : 데이터스트림 해석기 712 : 파라미터 디코더
713 : 디코드된 파라미터 714 : 오디오 디코더
715 : 제 1 출력 720 : 대역폭 확장 코더
800 : 오디오 신호 801 : 트랜지언트 이벤트
802 : 에너지 파동 803, 803' : 트랜지언트 시간
804 : 제 1 시간 부 805, 806 : 보더
807, 808 : 엣지 807', 808' : 엣지
809 : 제 2 시간 부 810 : 제 2 시간 부 시작점
811 : 제 2 시간 부 멈춤점 812 : 시작 시점
813 : 멈춤 시점 813a, 813b : 크로스오버/전치 구역
900 : 신호 출력 인터페이스 901 : 라인

Claims

트랜지언트 이벤트(801)를 갖는 오디오 신호를 조작하는 장치에 있어서:
트랜지언트 이벤트(801)를 포함하는 제 1 시간 부(804)가 제거된 트랜지언트가 감소된 오디오 신호를 프로세싱하거나 또는 트랜지언트 이벤트(803)를 포함하는 오디오 신호를 프로세싱함으로써, 프로세싱된 오디오 신호를 획득하기 위한 신호 프로세서(110);
제 1 시간 부가 제거되거나 혹은 트랜지언트 이벤트가 프로세스된 오디오 신호가 위치되는 신호 위치에 제 2 시간 부(809)를 프로세스된 오디오 신호 내로 삽입하도록 하되, 상기 제 2 시간 부(809)는 신호 프로세서(110)에 의해 실행된 프로세싱에 의해 영향을 받지 않는 트랜지언트 이벤트(801)를 포함하도록 하여 조작된(manipulated) 오디오 신호가 출력되는 신호 인서터(inserter, 120); 및
상기 오디오 신호와 연관된 사이드 정보를 추출 및 번역하되, 상기 사이드 정보는 상기 트랜지언트 이벤트의 시간 부(803)을 지시하거나 또는 상기 제1 시간 부 또는 상기 제2 시간 부의 시작 타임 인스턴트(start time instant) 또는 정지 타임 인스턴트(stop time instant)를 지시하는, 사이드 정보 익스트렉터(side information extractor, 106)
를 포함하는 것을 특징으로 하는 장치.
제 1항에 따른 장치에 있어서, 트랜지언트가 감소된 오디오 신호를 획득하기 위하여 오디오 신호로부터 제 1 시간 부(804)를 제거하기 위한 트랜지언트 신호 제거기(100)를 더 포함하며, 상기 제 1 시간 부(804)는 트랜지언트 이벤트(801)를 포함하는 것을 특징으로 하는 장치.
제 1항 또는 제 2항에 따른 장치에 있어서, 상기 신호 프로세서(110)는, 주파수-종속 방법(112, 113)으로 트랜지언트가 감소된 오디오 신호를 프로세스함으로써, 상기 프로세싱이 위상 시프트들을 트랜지언트가 감소된 오디오 신호 내로 도입하도록 설정되되, 상기 위상 쉬프트들은 다른 스펙트럴 구성요소들에 대하여 상이한 것을 특징으로 하는 장치.
제 1항 내지 제 3항 중 어느 한 항에 따른 장치에 있어서, 제 2 시간 부가 트랜지언트 이벤트를 갖는 오디오 신호로부터 적어도 하나의 제 1 시간 부의 카피를 갖도록 하기 위하여 상기 신호 인서터(120)는 적어도 제 1 시간 부의 카피에 의해 제 2 시간 부를 발생시키도록 설정되는 것을 특징으로 하는 장치.
제 1항 내지 제 4항 중 어느 한 항에 따른 장치에 있어서, 상기 신호 프로세서는 보코더, 위상 보코더 혹은 (P)SOLA 프로세스를 포함하는 것을 특징으로 하는 장치.
제 1항 내지 제 5항 중 어느 한 항에 따른 장치에 있어서, 조작된 오디오 신호의 시간-이산 버전의 제거 혹은 보간에 의해 조작된 오디오 신호를 컨디셔닝하기 위한 신호 컨디셔너(130)를 더 포함하는 것을 특징으로 하는 장치.
제 1항 내지 제 6항 중 어느 한 항에 따른 장치에 있어서,
오디오 신호에서의 트랜지언트 이벤트를 감지하기 위한 트랜지언트 감지기(103)를 더 포함하거나, 혹은
오디오 신호와 관련된 부가 정보를 추출하고 해석하기 위한 부가 정보 추출기(106)를 더 포함하며, 상기 부가 정보는 트랜지언트 이벤트의 시간 위치(803)를 나타내거나 제 1 시간 부 혹은 제 2 시간 부의 시작 시점 혹은 멈춤 시점을 나타내는 것을 특징으로 하는 장치.
트랜지언트 이벤트(801)를 갖는 오디오 신호를 조작하기 위한 방법에 있어서:
트랜지언트 이벤트(801)를 포함하는 제 1 시간 부(804)가 제거된 트랜지언트가 감소된 오디오 신호를 프로세싱하거나 또는 트랜지언트 이벤트(803)를 포함하는 오디오 신호를 프로세싱함으로써, 프로세싱된 오디오 신호를 획득하는 단계(110);
제 1 시간 부가 제거되거나 혹은 프로세스된 오디오 신호에서 트랜지언트 이벤트가 위치되는 신호 위치에 제 2 시간 부(809)를 프로세스된 오디오 신호 내로 삽입하도록 하되, 상기 제 2 시간 부(809)는 프로세싱에 의해 영향을 받지 않은 트랜지언트 이벤트를 포함하도록 하여, 조작된 오디오 신호가 획득되는 단계(120); 및
상기 오디오 신호와 연관된 사이트 정보를 추출 및 번역하는 단계(106);
를 포함하되,
상기 사이드 정보는 상기 트랜지언트 이벤트의 시간 부(803)을 지시하거나 또는 상기 제1 시간 부 또는 상기 제2 시간 부의 시작 타임 인스턴트(start time instant) 또는 정지 타임 인스턴트(stop time instant)를 지시하는 것을 특징으로 하는 방법.
컴퓨터상에 구동될 때, 제 8항의 방법을 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독가능한 기록 매체.