KR20110139294A

KR20110139294A - 오디오 신호 조작 장치 및 방법

Info

Publication number: KR20110139294A
Application number: KR1020117024647A
Authority: KR
Inventors: 사샤 디쉬; 프레드리크 나겔; 막스 노이엔도르프; 크리스티앙 헴리히; 도미닉 소른
Original assignee: 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date: 2009-03-26
Filing date: 2010-03-22
Publication date: 2011-12-28
Also published as: TW201040943A; MX2011010017A; ES2478871T3; ZA201106971B; JP5328977B2; JP2012521574A; PL2411976T3; HK1148602A1; BRPI1006217A2; RU2011138839A; WO2010108895A1; US8837750B2; BRPI1006217B1; KR101462416B1; CN102365681B; CA2755834A1; PL2234103T3; CN102365681A; RU2523173C2; EP2234103B1

Abstract

오디오 신호를 조작하기 위한 장치 및 방법은 오디오 샘플들의 복수의 연속 블록들을 생성시키기 위한 윈도우어(102), 상기 복수의 연속 블록들은 오디오 샘플들의 적어도 하나의 패딩된 블록을 포함하며, 상기 패딩된 블록은 패딩된 값들과 오디오 신호 값들을 가지고, 상기 패딩된 블록을 스펙트럼 값들을 갖는 스펙트럼 표현으로 변환하기 위한 제1 변환기(104), 변경된 스펙트럼 표현을 얻기 위해 상기 스펙트럼 값들의 위상들을 변경하기 위한 위상 변경기(106) 및 상기 변경된 스펙트럼 표현을 변경된 시간 도메인 오디오 신호로 변환하기 위한 제2 변환기(108)를 포함한다.

Description

오디오 신호 조작 장치 및 방법{DEVICE AND METHOD FOR MANIPULATING AN AUDIO SIGNAL}

본 발명은 대역폭 확장(BWE) 방식 내에서와 같은 오디오 신호의 스펙트럼 값들의 위상들을 변경하여 오디오 신호를 조작하기 위한 방식에 관한 것이다.

오디오 신호들의 저장 또는 전송은 종종 엄격한 비트레이트 제약들을 받는다. 과거에, 오직 매우 낮은 비트레이트만 가능했었을 때에 코더들은 전송된 오디오 대역폭을 대폭적으로 줄이도록 강요되었다. 현대의 오디오 코덱들(codecs)은 오늘날 대역폭 확장 방법들을 이용하여 광대역 신호들을 코딩하는 것이 가능한데, 이는 M. Dietz, L. Liljeryd, K. Kjorling 및 O. Kunz, "스펙트럼 대역 복제, 오디오 코딩에 대한 새로운 접근 방법(Spectral Band Replication, a novel approach in audio coding)," 제112회 AES 컨벤션, 뮌헨, 2002년 5월; S. Meltzer, R. Bohm 및 F. Henn, ""Digital Radio Mondiale"(DRM))과 같은 디지털 방송용 SBR 확장 오디오 코덱(SBR enhanced audio codecs for digital broadcasting such as "Digital Radio Mondiale"(DRM))," 제112회 AES 컨벤션, 뮌헨, 2002년 5월; T. Ziegler, A. Ehret, P. Ekstrand 및 M. Lutzky, "SBR을 이용한 mp3 강화: 새로운 mp3프로 알고리즘의 특징 및 성능(Enhancing mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm)," 제112회 AES 컨벤션, 뮌헨, 2002년 5월; 국제 표준 ISO/IEC 14496-3:2001/FPDAM 1, "대역폭 확장(Bandwidth Extension)," ISO/IEC, 2002. 음성 대역폭 확장 방법 및 장치(Speech bandwidth extension method and apparatus), Vasu Iyengar 외; E. Larsen, R. M. Aarts, 및 M. Danessis. 음악 및 음성에 대한 효율적인 고주파수 대역폭 확장(Efficient high-frequency bandwidth extension of music and speech). AEA 제112회 컨벤션, 뮌헨, 2002년 5월; R. M. Aarts, E. Larsen, 및 O. Ouweltjes. 저 및 고 주파수 대역폭 확장에 대한 통일된 접근 방법(A unified approach to low- and high frequency bandwidth extension). AES 제115회 컨벤션, 미국 뉴욕, 2003년 10월; K. Kayhko. 협대역 음성 신호에 대한 강력한 광대역 향상(A Robust Wideband Enhancement for Narrowband Speech Signal). 연구 논문, 헬싱키 공과대학 음향 및 오디오 신호 처리 연구소(Helsinki University of Technology, Laboratory of Acoustics and Audio Signal Processing), 2001; E. Larsen 및 R. M. Aarts. 오디오 대역폭 확장 - 음향심리학적, 신호 처리 및 라우드스피커 설계에 대한 응용(Audio Bandwidth Extension - Application to psychoacoustics, Signal Processing and Loudspeaker Design), John Wiley & Sons, Ltd, 2004; E. Larsen, R. M. Aarts, 및 M. Danessis. 음악 및 음성에 대한 효율적인 고주파수 대역폭 확장(Efficient high-frequency bandwidth extension of music and speech). AES 제112회 컨벤션, 독일 뮌헨, 2002년 5월; J. Makhoul. 선형 예측에 의한 음성의 스펙트럼 분석(Spectral Analysis of Speech by Linear Prediction). 오디오 및 전기음향에 관한 IEEE 트랙젝션(IEEE Transactions on Audio and Electroacoustics), AU-21(3), 1973년 6월; 미국 특허 출원 제08/951,029호, Ohmori 외. 오디오 대역 폭 확장 시스템 및 방법(Audio band width extending system and method) 및 미국 특허 제6895375호, Malah, D 및 Cox, R. V.: 협대역 음성의 대역폭 확장 시스템(System for bandwidth extension of Narrow-band speech)에 설명되어 있다. 이러한 알고리즘들은 고주파수(high-frequency, HF) 콘텐츠의 파라미터적(parametirc) 표현을 필요로 하는데, 이는 HF 스펙트럼 영역("패칭(patching)")으로의 전위를 이용하여 디코딩된 신호의 저주파수(low-frequency, LF) 부분이 코딩된 파형 및 파라미터에 의해 구동되는 후속 프로세싱에 대한 적용으로부터 생성된다.

최근에, 예를 들어, M. Puckette. 위상 고정 보코더(Phase-locked Vocoder). 오디오 및 음향 신호 처리 응용에 대한 IEEE ASSP 컨퍼런스(IEEE ASSP Conference on Applications of Signal Processing to Audio and Acoustics), 머홍크, 1995년., Robel, A.: 위상 보코더에서의 과도 검출 및 보존(Transient detection and preservation in the phase vocoder); citeseer.ist.psu.edu/679246.html; Laroche L., Dolson M.: "오디오의 개선된 위상 보코더 타임스케일 변경(Improved phase vocoder timescale modification of audio)", IEEE Trans. 음성 및 신호 처리(Speech and Audio Processing), vol. 7, no. 3, pp. 323-332 및 미국 특허 제6549884호 Laroche, J. 및 Dolson, M.: 패치 생성을 위한 위상 보코더 피치 쉬프팅(Phase-vocoder pitch-shifting for the patch generation)에 설명된 위상 보코더들(phase vocoders)을 이용하는 새로운 알고리즘이 Frederik Nagel, Sascha Disch, "오디오 코덱용 고조파 대역폭 확장 방법(A harmonic bandwidth extension method for audio codecs)," 음향, 음성 및 신호 처리에 관한 ICASSP 국제 컨퍼런스(ICASSP International Conference on Acoustics, Speech and Signal Processing), IEEE CNF, 대만 타이페이, 2009년 4월에 나타나 있다. 그러나, Frederik Nagel, Sascha Disch, Nikolaus Rettelbach, "오디오 코덱용 새로운 과도 핸들링을 이용한 위상 보코터에 의해 구동되는 대역폭 확장 방법(A phase vocoder driven bandwidth extension method with novel transient handling for audio codecs", 제126회 AES 컨벤션, 독일 뮌헨, 2009년 5월에 설명된 바와 같이 "고조파 대역폭 확장(harmonic bandwidth extension)"(HBE)으로 불리는 이러한 방법은 오디오 신호에 들어 있는 과도들의 품질을 저하시키기 쉬운데, 이는 보조 대역들에 걸친 수직 간섭(vertical coherence)이 표준 위상 보코더 알고리즘에서 보존되는 것이 보장되지 않고, 게다가, 이산 푸리에 변환(Discrete Fourier Transform, DFT) 위상들의 재산출이 순환 주기를 추정하는 내포된 변형의 분리된 시간 블록들 상에서 수행되어야 하기 때문이다.

블록 기반 위상 보코더 프로세싱으로 인해 구체적으로 두 종류의 인공물들(artifacts)이 관측될 수 있음이 알려져 있다. 특히 이러한 것들은 새롭게 산출된 상들의 적용으로 인한 신호의 시간 주기적 컨볼루션(temporal cyclic convolution) 효과에 의한 파형 및 시간적 에일리어싱(temporal aliasing)의 분산이다.

다시 말해서, BWE 알고리즘에서 오디오 신호의 스펙트럼 값들에 위상 변경을 적용하는 것으로 인해, 오디오 신호의 블록에 들어 있는 과도는 블록 주위에 랩핑(wrap)될 수 있다, 즉 주기적으로 상기 블록 안으로 다시 컨볼빙된다(convolve). 이는 시간적 에일리어싱을 초래하고, 그 결과, 오디오 신호의 감쇠를 가져온다.

그러므로, 과도들이 들어 있는 신호 부분들에 대한 특별한 처리를 위한 방법들이 이용되어야 한다. 그러나, 특히 BWE 알고리즘이 코덱 체인(codec chain)의 디코더 측에서 수행되기 때문에, 연산 복잡도가 심각한 문제이다. 따라서, 방금 언급한 오디오 신호 감쇠에 대한 측정이 크게 증가된 연산 복잡도라는 값을 치루는 것으로 바람직하게 되지 않을 것이다.

예를 들어 방금 언급한 감쇠의 축소와 연산 복잡도 사이의 더 나은 트레이드 오프(tradeoff)의 성취를 가능하게 하는 BWE 방식의 맥락에서 오디오 신호 스펙트럼 값들의 위상들을 변경함으로써 오디오 신호를 조작하기 위한 방식을 제공하는 것이 본 발명의 목적이다.

이러한 목적은 청구항 1에 따른 장치 또는 청구항 19에 따른 방법, 또는 청구항 20에 따른 컴퓨터 프로그램에 의해 성취된다.

본 발명의 기초적인 근본 개념은 상술한 더 나은 트레이드 오프가 패딩된(padded) 값들과 오디오 신호 값들을 갖는 오디오 샘플들의 적어도 하나의 패딩된 블록(padded block)이 패딩된 블록의 스펙트럼 값들에 대한 위상들의 변경 전에 생성될 때 성취될 수 있다는 것이다. 이러한 방법으로, 위상 변경 및 상응하는 시간 에일리어싱으로 인한 블록 경계로의 신호 콘텐츠(content)의 이동이 방지되거나 적어도 더 적게 일어나도록 할 수 있고, 따라서 오디오 품질이 적은 노력으로 유지된다.

오디오 신호 조작에 대한 진보적인 개념은 오디오 샘플들의 복수의 연속 블록들을 생성시키는 것에 기초하며, 복수의 연속 블록들은 오디오 샘플들의 적어도 하나의 패딩된 블록을 포함하며, 패딩된 블록은 패딩된 값들과 오디오 신호 값들을 갖는다. 패딩된 블록은 그리고 나서 스펙트럼 값들을 갖는 스펙트럼 표현으로 변환된다. 스펙트럼 값들은 그 다음에 변경된 스펙트럼 표현을 얻기 위해 변경된다. 마지막으로, 변경된 스펙트럼 표현은 변경된 시간 도메인 오디오 신호로 변환된다. 패딩하기 위해 사용된 값들의 범위가 그리고 나서 제거될 수 있다.

본 발명의 일 실시예에 따라, 패딩된 블록이 시간 블록의 앞 또는 뒤에 바람직하게는 0 값들로 이루어지는 패딩된 값들의 삽입에 의해 생성된다.

일 실시예에 따라, 패딩된 블록들이 과도 이벤트가 들어 있는 것에 제한됨으로써, 이러한 이벤트들에 대한 추가적인 연산 복잡도 오버헤드(overhead)가 제한된다. 좀더 정확하게, 패딩된 블록의 형태로 과도 이벤트(transient event)가 오디오 신호의 이러한 블록에서 검출될 때 예를 들어 BWE 알고리즘에 의한 고급 방법으로 블록이 프로세싱되고, 반면 과도 이벤트가 블록에서 검출되지 않을 때 오디오 신호의 또 다른 블록은 BWE 알고리즘 표준 방법으로 오직 오디오 신호 값들만을 갖는 패딩되지 않은 블록으로 프로세싱된다. 표준 프로세싱과 고급 프로세싱 사이에서 적응적으로 전환하여, 평균 연산 활동이 상당히 감소되는데, 이는 예를 들어 감소된 프로세서 속도 및 메모리를 가능하게 한다.

본 발명의 실시예들에 따라, 패딩된 값들이 과도 이벤트가 검출되는 시간 블록 앞 및/또는 뒤에 배열되어, 패딩된 블록이 예를 들어 각각 DFT 및 IDFT 프로세서를 통해 인식된 제1 및 제2 변환기에 의해 시간 및 주파수 도메인 사이의 변환에 맞게 조정된다. 바람직한 해결책은 시간 블록 주위에 대칭적으로 패딩을 배열하는 것일 것이다.

일 실시예에 따라, 적어도 하나의 패딩된 블록이 오디오 신호의 오디오 샘플들의 블록에 0 값들과 같은 패딩된 값들을 덧붙임으로써 생성된다. 대안으로, 윈도우 함수(window function)의 시작 지점 또는 윈도우 함수의 종료 지점에 덧붙여진 적어도 하나의 가드 구역(guard zone)을 갖는 분석 윈도우 함수가 오디오 신호의 오디오 샘플들의 블록에 이러한 분석 윈도우 함수를 적용함으로써 패딩된 블록을 형성하기 위해 사용된다. 윈도우 함수는 예를 들어, 가드 구역들을 갖는 핸 윈도우(Hann window)를 포함할 수 있다.

상기 새로운 프로세싱의 장점은 이 출원서에서 설명된, 상술한 실시예들, 즉, 장치, 방법들 또는 컴퓨터 프로그램들이 필요치 않은 곳에서의 비용이 드는 과도하게 복잡한 연산 프로세싱을 방지하는 것이다. 이는 예를 들어, 중심에서 벗어난 과도 이벤트들이 들어 있는 시간 블록들을 식별하고 고급 프로세싱으로 스위치하는 과도 위치 검출을 이용하는데, 예를 들어 가드 구간들을 이용하는 오버샘플링된 프로세싱에서는, 그러나, 오직 그러한 경우들에서, 지각적 품질의 맥락에서 개선을 가져온다.

다음에서, 본 발명의 실시예들이 수반되는 도면들을 참조하여 설명되는데:
도 1은 오디오 신호를 조작에 대한 일 실시예의 블록도를 도시하며;
도 2는 오디오 신호를 이용하는 대역폭 확장의 수행에 대한 일 실시예의 블록도를 도시하며;
도 3은 서로 다른 BWE 팩터들(factors)을 이용하는 대역폭 확장 알고리즘의 수행에 대한 일 실시예의 블록도를 도시하며;
도 4는 과도 검출기를 이용하는 패딩된 블록 또는 패딩되지 않은 블록의 변환에 대한 추가적인 실시예의 블록도를 도시하며;
도 5는 도 4의 일 실시예의 구현에 대한 블록도를 도시하며;
도 6은 도 4의 일 실시예의 추가적인 구현에 대한 블록도를 도시하며;
도 7a는 시간 블록에서 중심에 있는 과도를 갖는 신호 파형에 대한 위상 변경의 효과를 보여주기 위한 위상 변경 전후의 모범적인 신호 블록에 대한 그래프를 도시하며;
도 7b는 시간 블록의 제1 샘플 부근에 과도를 갖는 신호 파형에 대한 위상 변경의 효과를 보여주기 위한 위상 변경 전후의 모범적인 신호 블록에 대한 그래프를 도시하며;
도 8은 본 발명의 추가적인 실시예의 개관에 대한 블록도를 도시하며;
도 9a는 거듭되는 0들(constant zeros)에 의해 특징지워지는 가드 구역들을 갖는 핸 윈도우 형태인 모범적인 분석 윈도우 함수에 대한 그래프를 도시하는데, 상기 윈도우는 본 발명의 대안적인 실시예에서 사용될 것이며;
도 9b는 디더들(dithers)에 의해 특징지워지는 가드 구역들을 갖는 핸 윈도우 형태인 모범적인 분석 윈도우 함수에 대한 그래프를 도시하는데, 상기 윈도우는 본 발명의 추가적인 대안적 실시예에서 사용될 것이며;
도 10은 대역폭 확장 방식에서 오디오 신호 스펙트럼 대역의 조작에 대한 도식적인 실례를 도시하며;
도 11은 대역폭 확장 방식의 맥락에서의 오버랩 가산 작동에 대한 도식적인 실례를 도시하며;
도 12는 도 4에 기초한 대안적인 실시예의 구현에 대한 블록도 및 도식적인 실례를 도시하고;
도 13은 일반적인 고조파 대역폭 확장(HBE) 구현에 대한 블록도를 도시한다.

도 1은 본 발명의 일 실시예에 따른 오디오 신호를 조작하기 위한 장치를 도시한다. 상기 장치는 오디오 신호에 대한 입력(100)을 갖는 윈도우어(windower, 102)를 포함한다. 윈도우어(102)는 적어도 하나의 패딩된 블록(padded block)을 포함하는, 오디오 샘플들의 복수의 연속 블록들을 생성시키기 위해 구현된다. 패딩된 블록은, 특히, 패딩된 값들과 오디오 신호 값들을 갖는다. 윈도우어(102)의 출력(103)에 있는 패딩된 블록은 패딩된 블록(103)을 스펙트럼 값들을 갖는 스펙트럼 표현(spectral representation)으로 변환시키기 위해 구현되는 제1 변환기(converter, 104)에 공급된다. 제1 변환기(104)의 출력(105)에서 스펙트럼 값들이 그리고 나서 위상 변경기(phase modifier, 106)에 공급된다. 위상 변경기(106)는 107 단계에서 변경된 스펙트럼 표현을 얻기 위해 스펙트럼 값들(105)의 위상들을 변경하기 위해 구현된다. 상기 출력(107)이 마지막으로 변경된 스펙트럼 표현(107)을 변경된 시간 도메인 오디오 신호(109)로 변환하기 위해 구현되는 제2 변환기(108)에 공급된다. 제2 변환기(108)의 출력(109)은 추가 데시메이터(further decimator)에 연결될 수 있는데, 이는 도 2, 3 및 8과 관련하여 논의되는 대역폭 확장 방식을 위해 요구된다.

도 2는 대역폭 확장 팩터(σ)를 이용하는 대역폭 확장 알고리즘을 수행하기 위한 일 실시예에 대한 도식적인 실례를 도시한다. 여기서, 오디오 신호(100)는 분석 윈도우 프로세서(110) 및 후속하는 패더(padder, 112)를 포함하는 윈도우어(102) 안으로 공급된다. 일 실시예에서, 분석 윈도우 프로세서(110)가 동일한 크기를 갖는 복수의 연속 블록들을 생성시키기 위해 구현된다. 분석 윈도우 프로세서(110)의 출력(111)은 패더(112)에 추가로 연결된다. 특히, 패더(112)는 패더(112)의 출력(103)에서 패딩된 블록을 얻기 위해 분석 윈도우 프로세서(110)의 출력(111)에서 복수의 연속 블록들 중의 한 블록을 패딩하기 위해 구현된다. 여기서, 패딩된 블록이 오디오 샘플들의 연속 블록들의 첫 번째 샘플 앞 또는 오디오 샘플들의 연속 블록의 마지막 샘플 뒤에 특정 시점들에서 패딩된 값들을 삽입함으로써 구해진다. 패딩된 블록(103)은 출력(105)에서 스펙트럼 표현을 얻기 위해 제1 변환기(104)에 의해 추가로 변환된다. 또한, 대역통과 필터(bandpass filter, 114)가 사용되는데, 이는 스펙트럼 표현(105) 또는 오디오 신호(100)로부터 대역통과 신호(113)를 추출하기 위해 구현된다. 대역통과 필터(114)의 대역통과 특징은 대역통과 신호(113)가 적절한 목표 주파수 범위(target frequency range)로 제한되어 선택된다. 여기서, 대역통과 필터(114)는 다운스트림(downstream) 위상 변경기(106)의 출력(115)에서도 있는 대역폭 확장 팩터(σ)를 수신한다. 본 발명의 일 실시예에서, 대역폭 확장 팩터(σ) 2.0이 대역폭 확장 알고리즘을 수행하기 위해 사용된다. 오디오 신호(100)가 예를 들어, 0 내지 4 kHz의 주파수 범위를 갖는 경우에, 대역통과 필터(114)는 2 내지 4 kHz의 주파수 범위를 추출할 것이여서, 대역통과 신호(113)가 예를 들어, 대역폭 확장 팩터(σ) 2.0이 적절한 대역통과 필터(114)를 선택하기 위해 적용되는 것이 제공된 4 내지 8 kHz의 목표 주파수 범위로 후속하는 BWE 알고리즘에 의해 변형될 것이다(도 10 참조). 대역통과 필터(114)의 출력(113)에서 대역통과 신호의 스펙트럼 표현은 진폭 정보와 위상 정보를 포함하는데, 이는 각각 스케일러(scaler, 116)와 위상 변경기(106)에서 추가로 프로세싱된다. 스케일러(116)는 팩터에 의해 진폭 정보의 스펙트럼 값들(113)을 스케일링하기 위해 구현되는데, 여기서 상기 팩터는 윈도우어(102)에 의해 적용된 오버랩 가산에 대한 제1 시간 거리(a)와 다운스트림 오버랩 가산기(124)에 의해 적용된 서로 다른 시간 거리(b)의 관계가 해석되는 오버랩 가산기 특징에 따라 달라진다.

예를 들어, 제1 시간 거리(a), 및 b/a=2인 제1 시간 거리(a)에 대한 제2 시간 거리의 비율(ratio)을 갖는 오디오 샘플들의 연속 블록들의 6겹(sixth-fold) 오버랩 가산을 지닌 오버랩 가산 특징이 있다면, 팩터 b/a×1/6이 직사각형 분석 윈도우라고 가정하고 출력(113)에서 스펙트럼 값들을 스케일링하기 위해 스케일러(116)에 의해 적용될 것이다(도 11 참조).

그러나, 이러한 특정 진폭 스케일링은 오직 다운스트림 데시메이션(decimation)이 오버랩 가산에 후속하여 수행될 때에만 적용될 수 있다. 데시메이션이 오버랩 가산에 앞서 수행되는 경우에, 데시메이션은 일반적으로 스케일러(116)에 의해 해석되는 스펙트럼 값들의 진폭들에 영향을 미칠 수 있다.

위상 변경기(106)는 대역폭 확장 팩터(σ)로 오디오 신호 대역의 스펙트럼 값들(113)의 위상들을 각각 스케일링 또는 증가시키기 위해 구성되어, 오디오 샘플들의 연속 블록의 적어도 하나의 샘플이 상기 블록 안으로 주기적으로 컨볼빙된다.

제1 변환기(104) 및 제2 변환기(108)에 의한 변환의 원치않는 부작용인 순환 주기에 기초한 주기적 컨볼루션(convolution) 영향이 분석 윈도우(704)의 중심에 있는 과도(700)(도 7a) 및 분석 윈도우(704)의 경계 근처에 있는 과도(702)(도 7b)의 예로써 도 7에 도시되어 있다.

도 7a는 분석 윈도우(704)에서 중심에 있는, 즉, 예를 들어, 연속 블록의 첫 번째 샘플(708) 및 마지막 샘플(710)을 갖는 1001 샘플들을 포함하는 샘플 길이(706)를 갖는 오디오 샘플들의 연속 블록 안의 과도(700)를 도시한다. 원 신호(original signal, 700)가 얇은 쇄선(dashed line)으로 나타내진다. 제1 변환기(104)에 의한 변환과 후속하는 위상 변경의 적용 후에, 예를 들어, 원 신호의 스펙트럼에 위상 보코더(phase vocoder)를 사용하여, 과도(700)가 제2 변환기(108)에 의한 변환 후에 분석 윈도우(704) 안으로 쉬프트되고(shift) 다시 주기적으로 컨볼빙될 것인데, 즉, 주기적으로 컨볼빙된 과도(701)는 여전히 분석 윈도우(704) 안에 위치할 것이다. 주기적으로 컨볼빙된 과도(701)는 "가드 없음(no guard)"으로 표시되는 굵은 선으로 나타내어진다.

도 7b는 분석 윈도우(704)의 제1 샘플(708)에 가까운 과도(702)가 들어 있는 원 신호를 도시한다. 과도(702)를 갖는 원 신호는, 다시, 얇은 쇄선으로 나타내어진다. 이 경우, 제1 변환기(104)에 의한 변환 및 후속하는 위상 변경의 적용 후에, 과도(702)가 제2 변환기(108)에 의한 변환 후에 분석 윈도우(704) 안으로 쉬프트되고 다시 주기적으로 컨볼빙될 것이어서, 주기적으로 컨볼빙된 과도(703)가 얻어질 것인데, 이는 "가드 없음"으로 표시되는 굵은 선으로 나타내어진다. 여기서, 주기적으로 컨볼빙된 과도(703)가 위상 변경으로 인해 분석 윈도우(704)의 첫 번째 샘플(708) 앞에서 적어도 과도(702)의 한 부분이 쉬프트되기 때문에 생성되는데, 이는 주기적으로 컨볼빙된 과도(703)의 순환 랩핑을 가져온다. 특히, 도 7b에서 볼 수 있는 바와 같이, 분석 윈도우(704) 밖으로 쉬프트되는 과도(702)의 일부분이 순환 주기의 영향으로 인해 분석 윈도우(704)의 마지막 샘플(710) 왼쪽에 다시 발생한다(705 부분).

스케일러(116)의 출력(117)으로부터 변경된 진폭 정보 및 위상 변경기(106)의 출력(107)으로부터 변경된 위상 정보를 포함하는 변경된 스펙트럼 표현이 제2 변환기(108)에 공급되는데, 이는 변경된 스펙트럼 표현을 제2 변환기(108)의 출력(109)에 있는 변경된 시간 도메인 오디오 신호로 변환하기 위해 구성된다. 제2 변환기(108)의 출력(109)에서 변경된 시간 도메인 오디오 신호는 그리고 나서 패딩 제거기(padding remover, 118)에 공급될 수 있다. 패딩 제거기(118)는 변경된 시간 도메인 오디오 신호의 샘플들을 제거하기 위해 구현되는데, 이는 위상 변경이 위상 변경기(106)의 다운스트림 프로세싱에 의해 적용되기 전에 윈도우어(102)의 출력(103)에서 패딩된 블록을 생성시키기 위해 삽입되는 패딩된 값들의 샘플들에 상응한다. 좀더 정확히, 샘플들이 변경된 시간 도메인 오디오 신호의 시점들에서 제거되는데, 이는 패딩된 값들이 위상 변경에 앞서 삽입되는 특정 시점들에 상응한다.

본 발명의 일 실시예에서, 예를 들어, 도 7에 도시된 바와 같이, 패딩된 값들이 오디오 샘플들의 연속 블록의 첫 번째 샘플(708) 앞 및 연속 블록의 마지막 샘플(710) 뒤에 대칭적으로 삽입되어, 샘플 길이(706)를 가진 중심에 있는 연속 블록을 둘러싸는 두 개의 대칭적인 가드 구역들(712, 714)이 형성된다. 이러한 대칭적인 경우, 가드 구역들 또는 "가드 구간들(guard intervals)"(712, 714)은 각각, 바람직하게는 스펙트럼 값들의 위상 변경 및 그에 후속하는 변경된 시간 도메인 오디오 신호로의 변경 후에 패딩 제거기(118)에 의해 패딩된 블록으로부터 제거될 수 있어, 패딩 제거기(118)의 출력(119)에서 패딩된 값들이 없는 오직 연속 블록만이 얻어진다.

대안적인 구현에서, 가드 구간들이 제2 변환기(108)의 출력(109)으로부터 패딩 제거기(118)에 의해 제거되지 않을 수 있어서, 패딩된 블록의 변경된 시간 도메인 오디오 신호가 중심에 있는 연속 블록의 샘플 길이(706)와 가드 구간들의 샘플 길이들(712, 714)를 포함하는 샘플 길이(716)를 가질 것이다. 이러한 신호는 도 2의 블록도에 도시된 바와 같이 오버랩 가산기(124)에 이르기까지의 후속되는 프로세싱 단계들에서 추가로 프로세싱될 수 있다. 패딩 제거기(118)가 있지 않는 경우에, 가드 구간들 상에서의 작동을 포함하는 이러한 프로세싱은 신호의 오버샘플링(oversampling)으로 또한 해석될 수 있다. 비록 패딩 제거기(118)가 본 발명의 실시예들에서 요구되지는 않지만, 도 2에 도시된 바와 같이 그것을 사용하는 것이 이로운데, 출력(119)에 있는 신호는 패더(112)에 의해 패딩 되기 전에 분석 윈도우 프로세서(110)의 출력(111)에 있는, 각각 원래의 연속 블록 또는 패딩되지 않은 블록과 동일한 샘플 길이를 이미 가질 것이기 때문이다. 그러므로, 후속하는 프로세싱 단계들이 출력(119)에서 순조롭게 신호에 맞게 조정될 것이다.

바람직하게는, 패딩된 제거기(118)의 출력(119)에서 변경된 시간 도메인 오디오 신호가 데시메이터(120)에 공급된다. 데시메이터(120)는 바람직하게는 데시메이터(120)의 출력(121)에서 데시메이팅된 시간 도메인 신호를 얻기 위해 대역폭 확장 팩터(σ)를 이용하여 작동하는 간단한 샘플 레이트 변환기(sample rate converter)에 의해 구현된다. 여기서, 데시메이션 특징은 출력(115)에서 위상 변경기(106)에 의해 제공된 위상 변경 특징에 따라 달라진다. 본 발명의 일 실시예에서, 대역폭 확장 팩터(σ=2)가 데시메이터(120)에 출력(115)을 통해 위상 변경기(106)에 의해 공급되어, 모든 제2 샘플이 출력(119)에서 변경된 시간 도메인 오디오 신호로부터 제거될 것이로, 이는 출력(121)에 있는 데시메이팅된 시간 도메인 신호를 가져온다.

데시메이터(120)의 출력(121)에 있는 데시메이팅된 시간 도메인 신호는 합성 윈도우어(122) 안으로 후속하여 공급되는데, 이는 예를 들어 데시메이팅된 시간 도메인 신호에 합성 윈도우 함수를 적용하기 위해 구현되며, 여기서 합성 윈도우 함수는 윈도우어(102)의 분석 윈도우 프로세서(110)에 의해 적용된 분석 함수에 부합된다. 여기서, 합성 윈도우 함수는 합성 함수를 적용하는 것이 분석 함수의 영향을 보상하는 방식으로 분석 함수에 부합될 수 있다. 대안으로, 합성 윈도우어(122)가 또한 제2 변환기(108)의 출력(109)에서의 변경된 시간 도메인 오디오 신호를 작동하기 위해 구현될 수 있다.

합성 윈도우어(122)의 출력(123)으로부터 데시메이팅되고 윈도윙된(windowed) 시간 도메인 신호가 그리고 나서 오버랩 가산기(124)에 공급된다. 여기서, 오버랩 가산기(124)는 윈도우어(102)에 의해 적용된 오버랩 가산 작동에 대한 제1 시간 거리(a) 및 출력(115)에서 위상 변경기(106)에 의해 적용된 대역폭 확장 팩터(σ)에 관한 정보를 수신한다. 오버랩 가산기(124)는 데시메이팅되고 윈도윙된 시간 도메인 신호에 제1 시간 거리(a)보다 더 큰 서로 다른 시간 거리(b)를 적용한다.

데시메이션이 오버랩 가산 후에 수행되는 경우에, 조건 σ=b/a은 대역폭 확장 방식에 따라 만족될 수 있다. 그러나, 도 2에 도시된 실시예에서, 데시메이션이 오버랩 가산 전에 수행되어, 데시메이션은 일반적으로 오버랩 가산기(124)에 의해 해석되는 상기 조건에 영향을 미칠 수 있다.

바람직하게, 도 2에 도시된 장치는 대역폭 확장 팩터(σ)를 포함하는 BWE 알고리즘을 수행하기 위해 구성되며, 여기서 대역폭 확장 팩터(σ)는 오디오 신호 대역으로부터 목표 주파수 대역으로의 주파수 확장을 제어한다. 이렇게 하여, 대역폭 확장 팩터(σ)에 따라 달라지는 목표 주파수 범위에서의 신호가 오버랩 가산기(124)의 출력(125)에서 얻어질 수 있다.

BWE 알고리즘의 맥락에서, 오버랩 가산기(124)는 확산 신호(spread signal)를 얻기 위해 오디오 신호의 원래의 오버랩핑 연속 블록들보다 서로 더 떨어진 입력 시간 도메인 신호의 연속 블록들에 간격을 둠으로써 오디오 신호의 시간적 확산을 유도하기 위해 구현된다.

데시메이션이 오버랩 가산 후에 수행되는 경우, 팩터 2.0에 의한 시간적 확산은, 예를 들어, 원 오디오 신호(100) 지속시간의 두 배를 갖는 확산 신호를 가져올 것이다. 상응하는 데시메이션 팩터 2.0을 갖는 후속하는 데시메이션은, 예를 들어, 다시 오디오 신호(100)의 원 지속기간을 갖는 데시메이팅되고 대역폭이 확장된 신호를 가져올 것이다. 그러나, 도 2에 도시된 바와 같이 데시메이터(120)가 오버랩 가산기(124) 앞에 배치된 경우에, 데시메이터(120)는 대역폭 확장 팩터(σ) 2.0을 작동시키기 위해 구성될 수 있어서, 예를 들어, 모든 제2 샘플은 그것의 입력 시간 도메인 신호로부터 제거되는데, 이는 원 오디오 신호(100) 지속기간의 반을 갖는 데시메이팅된 시간 도메인 신호를 가져온다. 동시에, 예를 들어 2 내지 4 kHz의 주파수 범위에서 대역통과 필터링된 신호는 팩터 2.0에 의해 그것의 대역폭이 확장될 것으로, 이는 데시메이션 후에 예를 들어 4 내지 8 kHz에 상응하는 목표 주파수 범위 내의 신호(121)를 가져온다. 후속하여, 데시메이팅되고 대역폭이 확장된 신호는 다운스트림 오버랩 가산기(124)에 의해 오디오 신호(100)의 원 지속기간으로 시간적으로 확산될 수 있다. 상기 프로세싱은, 근본적으로, 위상 보코더의 원리와 관련 있다.

오버랩 가산기(124)의 출력(125)으로부터 얻어진 목표 주파수 범위 내의 신호는 후속하여 포락선 조절기(envelope adjuster, 130)에 공급된다. 오디오 신호(100)로부터 파생된 포락선 조절기(130)의 출력(101)에서 수신된 전송된 파라미터들에 기초하여, 포락선 조절기(130)가 결정된 방식으로 오버랩 가산기(124)의 출력(125)에서 신호의 포락선을 조절하기 위해 구현되어, 포락선 조절기(130)의 출력(129)에서 정정된 신호가 얻어지는데, 이는 조절된 포락선 및/또는 정정된 음조(tonality)를 포함한다.

도 3은 본 발명의 일 실시예에 대한 블록도를 도시하는데, 상기 장치는 예를 들어, σ=2, 3, 4, ...와 같은 서로 다른 BWE 팩터들(σ)을 이용하여 대역폭 확장 알고리즘을 수행하기 위해 구성된다. 처음에, 대역폭 확장 알고리즘 파라미터들은 BWE 팩터들(σ)에 의해 함께 작동되는 모든 장치들에게 입력(128)을 통해 보내진다. 특히, 도 3에 도시된 바와 같이 제1 변환기(104), 위상 변경기(106), 제2 변환기(108), 데시메이터(120) 및 오버랩 가산기(124)가 있다. 상기에서 설명된 바와 같이, 대역폭 확장 알고리즘을 수행하기 위한 연속적인 프로세싱 장치들은 데시메이터(120)의 출력들(121-1, 121-2, 121-3, ...)들에서의 상응하는 변경된 시간 도메인 오디오 신호들을 입력(128)에서 서로 다른 BWE 팩터들(σ)에 대해 얻어지는 방식으로 작동하기 위해 구현되는데, 이는 각각 서로 다른 목표 주파수 범위들 또는 대역들에 의해 특징 지워진다. 그리고 나서, 서로 다른 변경된 시간 도메인 오디오 신호들이 서로 다른 BWE 팩터들(σ)에 기초하여 오버랩 가산기(124)에 의해 프로세싱되는데, 이는 오버랩 가산(124)의 출력들(125-1, 125-2, 125-3, ...)에 서로 다른 오버랩 가산 결과들을 야기한다. 이러한 오버랩 가산 결과들은 서로 다른 목표 주파수 대역들을 포함하는 결합된 신호를 얻기 위해 그것의 출력(127)에서 결합기(126)에 의해 최종적으로 결합된다.

실례를 보이기 위해, 대역폭 확장 알고리즘의 기본 원리가 도 10에 도시되어 있다. 특히, 도 10은 예를 들어, 각각 오디오 신호(100) 대역의 일 부분(113-1, 113-2, 113-3)과 목표 주파수 대역(125-1, 125-2, 또는 125-3) 사이의 주파수 편이에서 BWE 팩터(σ)가 어떻게 제어하는지를 도식적으로 도시한다.

우선, σ=2인 경우, 예를 들어 2 내지 4 kHz의 주파수 범위를 갖는 대역통과 필터링된 신호(113-1)가 오디오 신호(100)의 초기 대역으로부터 추출된다. 대역통과 필터링된 신호(113-1)의 대역은 그리고 나서 오버랩 가산기(124)의 제1 출력(125-1)으로 변형된다. 제1 출력(125-1)은 팩터 2.0(σ=2)에 의해 오디오 신호(100) 초기 대역의 대역폭 확장에 상응하는 4 내지 8 kHz의 주파수 범위를 갖는다. σ=2에 대한 이러한 상부 대역(upper band)은 또한 "제1 패칭된 대역"으로 참조될 수 있다. 다음으로, σ=3인 경우, 8/3 내지 4 kHz의 주파수 범위를 갖는 대역통과 필터링된 신호(113-2)가 추출되는데, 이는 그리고 나서 8 내지 12 kHz의 주파수 범위에 의해 오버랩 가산기(124)가 특징지어진 후에 제2 출력(125-2)으로 변형된다. 팩터 3.0(σ)에 의한 대역폭 확장에 상응하는 출력(125-2)의 상부 대역은 또한 "제2 패칭된 대역"으로 참조될 수 있다. 다음으로, σ=4인 경우, 3 내지 4 kHz의 주파수 범위를 갖는 대역통과 필터링된 신호(113-3)이 추출되는데, 이는 그리고 나서 오버랩 가산기(124) 후에 12 내지 16 kHz의 주파수 범위를 제3 출력(125-3)으로 변형된다. 팩터 4.0(σ=4)에 의한 대역폭 확장에 상응하는 출력(125-3)의 상부 대역은 또한 "제3 패칭된 대역"으로 참조될 수 있다. 지금까지, 제1, 2 및 3 패칭된 대역들이 최대 주파수 16 kHz까지의 연속적인 주파수 대역들에 걸쳐 얻어지는데, 이는 바람직하게는 고품질 대역폭 확장 알고리즘의 맥락에서 오디오 신호(100)의 조작을 위해 요구된다. 이론상으로, 대역폭 확장 알고리즘은 심지어 더 고주파수 대역들을 생산하는 BWE 팩터 σ>4인 더 높은 값들에 대해 또한 수행될 수 있다. 그러나, 그러한 고주파수 대역들을 고려하는 것이 일반적으로 조작된 오디오 신호의 지각적 품질에 추가적인 개선을 가져오는 것은 아닐 것이다.

도 3에 도시된 바와 같이, 서로 다른 BWE 팩터들(σ)에 기초한 오버랩 가산 결과들(125-1, 125-2, 125-3, ...)은 결합기(126)에 의해 추가로 결합되어, 출력(127)에서 결합된 신호가 서로 다른 주파수 대역들을 포함하여 얻어진다(도 10 참조). 여기서, 출력(127)에서 결합된 신호는 예를 들어 4 내지 16 kHz인 오디오 신호(100)의 최대 주파수(f_max)로부터 σ배인 최대 주파수(σ×f_max)의 범위의 변형된 고주파수 패칭된 대역으로 이루어진다.

다운스트림 포락선 조절기(130)는 출력(101)에 있는 오디오 신호로부터 전송된 파라미터들에 기초하여 결합된 신호의 포락선을 변경하기 위해 위에서와 같이 구성되는데, 이는 포락선 조절기(130)의 출력(129)에 정정된 신호를 가져 온다. 출력(129)에서 포락선 조절기(130)에 의해 공급된 정정된 신호는 추가 결합기(132)의 출력(131)에서 그것의 대역폭이 확장된 조작된 신호를 최종적으로 얻기 위해 추가 결합기(132)에 의해 원 오디오 신호(100)와 추가로 결합된다. 도 10에 도시된 바와 같이, 출력(131)에서 대역폭이 확장된 신호의 주파수 범위는 오디오 신호(100)의 대역 및 모두 합해서, 예를 들어, 0 내지 16 kHz의 범위인, 대역폭 확장 알고리즘에 따른 변형으로부터 얻어진 서로 다른 주파수 대역들을 포함한다(도 10).

도 2에 따른 본 발명의 일 실시예에서, 윈도우어(102)는 오디오 샘플들의 연속 블록의 첫 번째 샘플 앞 또는 오디오 샘플들의 연속 블록의 마지막 샘플 뒤에 특정 시점들에서 패딩된 값들을 삽입하기 위해 구성되는데, 여기서 패딩된 값들의 수와 연속 블록 안의 값들의 수의 합은 오디오 샘플들의 연속 블록 안에 값들의 수의 적어도 1.4배이다.

특히, 도 7과 관련하여, 샘플 길이(712)를 갖는 패딩된 블록의 제1 부분은 샘플 길이(706)를 갖는 중심에 있는 연속 블록(704)의 제1 샘플(708) 앞에 삽입되고, 반면 샘플 길이(714)를 갖는 패딩된 블록의 제2 부분은 중심에 있는 연속 블록(704)의 뒤에 삽입된다. 도 7에서 연속 블록(704) 또는 분석 윈도우는 각각 "관심 지역(region of interest, ROI)으로 표시됨을 주의하며, 여기서 샘플들 0 및 1000을 가로지르는 수직의 실선들은 순환 주기 조건을 가지고 있는 분석 윈도우(704)의 경계들을 나타낸다.

바람직하게, 연속 블록(704)의 왼쪽에 있는 패딩된 블록의 제1 부분은 연속 블록(704)의 오른쪽에 있는 패딩된 블록의 제2 부분과 동일한 크기를 갖는데, 여기서 패딩된 블록의 전체 크기는 샘플 길이(716)(예를 들어, 샘플 -500부터 샘플 1500까지)를 갖는데, 이는 중심에 있는 연속 블록(704)의 샘플 길이(706)보다 2배나 크다. 도 7b에, 예를 들어, 분석 윈도우(704)의 왼쪽 경계에 가까이에 원래 위치한 과도(702)가 위상 변경기(106)에 의해 적용된 위상 변경으로 인해 타임 쉬프트(time-shift)될 것이어서, 중심에 있는 연속 블록(704)의 제 1 샘플(708) 주위에 집중한 쉬프트된 과도(707)가 얻어질 것임이 도시된다. 이 경우에, 쉬프트된 과도(707)는 샘플 길이(716)의 패딩된 블록 안쪽에 전부 위치하게 될 것이고, 따라서 적용된 위상 변경에 의해 야기되는 주기적 컨볼루션 또는 주기적 랩핑이 방지된다.

만약, 예를 들어, 중심에 있는 연속 블록(704)의 제1 샘플(708)의 왼쪽에 있는 패딩된 블록의 제1 부분이 과도의 가능한 타임 쉬프트를 전적으로 수용할 만큼 충분히 크지 않다면, 마지막 것이 주기적으로 컨볼빙될 것으로, 이는 과도의 적어도 일 부분이 연속 블록(704)의 마지막 샘플(710)의 오른쪽에 있는 패딩된 블록의 제2 부분에 다시 나타나는 것을 의미한다. 과도의 이 부분은, 그러나, 바람직하게는 프로세싱의 후반 단계들에서 위상 변경기(106)를 적용한 후에 패딩 제거기(118)에 의해 제거될 수 있다. 그러나, 패딩된 블록의 샘플 길이(716)는 연속 블록(704)의 샘플 길이(706)보다 적어도 1.4배 커야한다. 예를 들어, 위상 보코더에 의해 실현되는 위상 변경기(106)에 의해 적용된 위상 변경은 시간/샘플 축 상의 왼쪽으로 쉬프트 하는 음의 시간(negative time)으로의 타임 쉬프트를 항상 야기하는 것으로 여겨진다.

본 발명의 실시예들에서, 제1 및 제2 변환기들(104, 108)은 패딩된 블록의 샘플 길이에 상응하는 변환 길이에 의해 작동되기 위해 구현된다. 예를 들어, 만약 연속 블록이 샘플 길이 N을 가지고, 한편 패딩된 블록이 적어도 1.4×N, 예를 들어, 2N과 같은 샘플 길이를 갖는다면, 제1 및 제2 변환기(104, 108)에 의해 적용된 변환 길이는 또한 1.4×N, 예를 들어, 2N이 될 것이다.

이론적으로는, 그러나, 제1 변환기 및 제2 변환기(104, 108)의 변환 길이는 BWE 팩터(σ)가 더 클수록, 변환 길이가 더 커지는 BWE 팩터(σ)에 따라 결정될 것이다. 그러나, 변환 길이가 예를 들어 σ>4와 같은 BWE 팩터의 보다 큰 값들에 대한 어떤 종류의 주기적 컨볼루션 효과를 방지할만큼 충분히 크지 않다고 할지라도, 바람직하게는 패딩된 블록의 샘플 길이만큼 큰 변환 길이를 사용하는 것이 충분하다. 이는 왜냐하면 그러한 경우(σ>4)에, 주기적 컨볼루션으로 인한 과도 이벤트들의 시간적 에일리어싱이, 예를 들어, 변형된 고주파수 패칭된 대역들에서 무시해도 될 정도이고 지각적 품질에 상당히 영향을 주지는 않을 것이다.

도 4에서, 과도 검출기(transient detector, 134)를 포함하는 일 실시예가 도시되어 있는데, 이는, 도 7에 도시된 바와 같이, 예를 들어, 샘플 길이(706)를 갖는 오디오 샘플들의 연속 블록(704)과 같은 오디오 신호(100)의 블록에서 과도 이벤트를 검출하기 위해 구현된다.

구체적으로, 과도 검출기(134)는 오디오 블록의 연속 블록에 과도 이벤트가 들어 있는지를 결정하기 위해 구성되는데, 이는, 예를 들어, 한 시간적 부분으로부터 다음 시간적 부분으로 예를 들어 50% 이상의 에너지 증가 또는 감소와 같은 시간에서 오디오 신호(100) 에너지의 갑작스러운 변화에 의해 특징지어진다.

과도 검출은, 예를 들어, 오디오 신호(100)의 고주파수 대역에 들어 있는 전력 정도 및 미리 결정된 임계치에 대한 전력의 시간적 변화에 대해 후속하는 비교를 나타내는 스펙트럼 표현의 고주파수 부분들에 대한 제곱 연산과 같은 주파수 선택적 프로세싱에 기초할 수 있다.

또한, 한편으로, 예를 들어, 도 7b의 과도 이벤트(702)와 같은 과도 이벤트가 패딩된 블록에 상응하는 오디오 신호(100)의 어떤 블록(133-1)에서 과도 검출기(134)에 의해 검출될 때, 제1 변환기(104)는 패더(112)의 출력(103)에서 패딩된 블록을 변환하기 위해 구성된다. 반면에, 제1 변환기(104)는 과도 검출기(134)의 출력(133-2)에서 오직 오디오 신호 값들만을 갖는 패딩되지 않은 블록을 변환하기 위해 구성되는데, 여기서, 과도 이벤트가 상기 블록에서 검출되지 않을 때, 패딩되지 않은 블록은 오디오 신호(100)의 블록에 상응한다.

여기서, 패딩된 블록은 예를 들어, 도 7b의 중심에 있는 연속 블록(704)의 왼쪽과 오른쪽에 삽입된 0값들과 같은 패딩된 값들 및 도 7b의 중심에 있는 연속 블록(704)의 안에 있는 오디오 신호 값들을 포함한다. 패딩되지 않은 블록은, 그러나, 예를 들어, 도 7b의 연속 블록(704) 안에 있는 오디오 샘플들의 값들과 같은 오직 오디오 신호 값들만을 포함한다.

상기 실시예에서, 제1 변환기(104)에 의한 변환 및 그러므로, 또한 제1 변환기(104)의 출력(105)에 기초한 후속하는 프로세싱 단계들은 과도 이벤트의 검출에 따라 달라지며, 패더(112)의 출력(103)에서 패딩된 블록은 오디오 신호(100)의 특정한 선택된 시간 블록들(즉, 과도 이벤트가 들어 있는 시간 블록들)에 대해서만 오직 생성되는데, 오디오 신호(100)의 추가적인 조작에 앞선 패딩은 지각적 품질 면에서 이로울 것으로 예상된다.

본 발명의 다른 실시예들에서, 도 4에서 각각 "비과도 이벤트" 또는 "과도 이벤트"로 가리켜지는 후속하는 프로세싱에 대한 적절한 신호 경로 선택은 도 5에 도시된 바와 같은 스위치(136)를 이용하여 이루어지는데, 이는 과도 이벤트가 오디오 신호(100)의 블록에서 검출되었는지 아닌지에 대한 정보를 포함하는 과도 이벤트 검출에 대한 정보가 들어 있는 과도 검출기(134)의 출력(135)에 의해 제어된다. 과도 검출기(134)로부터의 이러한 정보는 "과도 이벤트"로 나타내어진 스위치(136)의 출력(135-1) 또는 "비과도 이벤트"로 나타내어진 스위치(136)의 출력(135-2)으로 스위치(136)에 의해 전송된다. 여기서, 도 5의 스위치(136)의 출력들(135-1, 135-2)은 도 4의 과도 검출기(134)의 출력들(133-1, 133-2)과 전적으로 일치한다. 상기와 같이, 패더(112)의 출력(103)에서 패딩된 블록은 과도 이벤트가 과도 검출기(134)에 의해 검출되는 오디오 신호(100)의 블록(135-1)으로부터 생성된다. 또한, 스위치(136)는 과도 이벤트가 과도 검출기(134)에 의해 검출될 때 제1 보조 변환기(sub-converter, 138-1)로 출력(103)에서 패더(112)에 의해 생성된 패딩된 블록을 공급하기 위해, 그리고 과도 이벤트가 과도 검출기(134)에 의해 검출되지 않을 때 제2 보조 변환기(138-2)로 출력(135-2)에서 패딩되지 않은 블록을 공급하기 위해 구성된다. 여기서, 제1 보조 변환기(138-1)는 예를 들어, 2N와 같은 제1 변환 길이를 이용하여 패딩된 블록의 변환을 수행하도록 조정되고, 반면 제2 보조 변환기(138-2)는 예를 들어, N과 같은 제2 변환 길이를 이용하여 패딩되지 않은 블록의 변환을 수행하도록 조정된다. 패딩된 블록이 패딩되지 않은 블록보다 더 큰 샘플 길이를 갖기 때문에, 제2 변환 길이는 제1 변환 길이보다 더 짧다. 최종적으로, 제1 보조 변환기(138-1)의 출력(137-1)에서 제1 스펙트럼 표현 또는 제2 보조 변환기(138-2)의 출력(137-2)에서 제2 스펙트럼 표현이 각각 구해지는데, 이는, 앞에서 설명된 바와 같이, 대역폭 확장 알고리즘의 맥락에서 추가로 프로세싱 될 수 있다.

본 발명의 대안적인 실시예에서, 윈도우어(102)는 예를 들어, 도 7의 연속 블록(704)과 같은 오디오 샘플들의 연속 블록에 분석 윈도우 함수를 적용하기 위해 구성되는 분석 윈도우 프로세서(analysis window processor, 140)를 포함한다. 분석 윈도우 함수는 분석 윈도우 프로세서(140)에 의해 적용되는데, 특히, 예를 들어, 도 7b의 연속 블록(704) 왼쪽의 윈도우 함수(709)의 첫 번째 샘플(718, 즉, 샘플 -500)에서 시작하는 시점과 같은 윈도우 함수의 시작 지점, 또는 예를 들어, 도 7b의 연속 블록(704) 오른쪽의 윈도우 함수(709)의 마지막 샘플(720, 즉, 샘플 1500)에서 끝나는 시점과 같은 윈도우 함수의 종료 지점에 적어도 하나의 가드 구역을 포함한다.

도 6은 과도 검출기(134)의 출력(135)에 의해 제공되는 과도 검출에 관한 정보에 따라 달라지는 분석 윈도우 프로세서(140)를 제어하기 위해 구성되는 가드 윈도우 스위치(142)를 더 포함하는 본 발명의 대안적인 실시예를 도시한다. 분석 윈도우 프로세서(140)는 과도 이벤트가 과도 검출기(134)에 의해 검출되면 제1 윈도우 크기를 갖는 가드 윈도우 스위치(142)의 출력(139-1)에 제1 연속 블록이 생성되고, 과도 이벤트가 과도 검출기(134)에 의해 검출되지 않으면 제2 윈도우 크기를 갖는 가드 윈도우 스위치(142)의 출력(139-2)에 추가적인 연속 블록이 생성되도록 제어된다. 여기서, 분석 윈도우 프로세서(140)는 출력(139-1)에서 연속 불록 또는 출력(139-2)에서 추가적 연속 블록에 예를 들어, 도 9a에 의해 서술된 바와 같이 가드 구역을 지닌 핸 윈도우(Hann window)와 같은 분석 윈도우 함수를 적용하기 위해 구성되어, 출력(141-1)에서 패딩된 블록 또는 출력 (141-2)에서 패딩되지 않은 블록이 각각 구해진다.

도 9a에서, 출력(141-1)에서 패딩된 블록은, 예를 들어, 제1 가드 구역(910) 및 제2 가드 구역(920)을 포함하는데, 여기서 가드 구역들(910, 920)의 오디오 샘플들의 값들은 0으로 설정된다. 여기서, 가드 구역들(910, 920)은 이 경우, 예를 들어, 핸 윈도우의 특징 형태에 의해 주어진 윈도우 함수의 특징들에 상응하는 구역(930)을 둘러싼다. 대안으로, 도 9b와 관련하여, 가드 구역들(940, 950)의 오디오 샘플들의 값들은 또한 0 근처에서 머뭇거릴 수 있다. 도 9에서 수직선들은 구역(930)의 첫 번째 샘플(905) 및 마지막 샘플(915)을 나타낸다. 또한, 가드 구역들(910, 940)은 윈도우 함수의 첫 번째 샘플(901)에서 시작하고, 반면 가드 구역들(920, 950)은 윈도우 함수의 마지막 샘플(903)에서 종료한다. 도 9a의 가드 구역들(910, 920)을 포함하는 중심에 있는 핸 윈도우 부분을 갖는 완전한 윈도우(complete window)의 샘플 길이(900)는, 예를 들어, 구역(930) 샘플 길이의 2배 만큼 크다.

과도 이벤트가 과도 검출기(134)에 의해 검출되는 경우에, 출력(139-1)에서 연속 블록은 도 9a에 도시된 바와 같이 예를 들어, 가드 구역들(910, 920)을 갖는 정규화된(normalized) 핸 윈도우(901)와 같은 분석 윈도우 함수의 특징 형태에 의해 가중되도록 프로세싱되고, 반면 과도 이벤트가 과도 검출기(134)에 의해 검출되지 않는 경우에, 출력(139-2)의 연속 블록은 예를 들어, 도 9a의 정규화된 핸 윈도우(901) 구역(930)과 같은 오직 분석 윈도우 함수 구역(930)의 특징 형태에 의해 가중되도록 프로세싱된다.

출력들(141-1, 141-2)에서 패딩된 블록 또는 패딩되지 않은 블록이 방금 언급한 바와 같이 가드 구역을 포함하는 분석 윈도우 함수의 이용에 의해 생성되는 경우에, 패딩된 값들 또는 오디오 신호 값들은 각각 윈도우 함수의 가드 구역 또는 비가드(non-guarded) (특징) 구역에 의한 오디오 샘플들의 가중으로부터 생긴다. 여기서, 패딩된 값들과 오디오 신호 값들은 모두 가중된 값들을 나타내는데, 여기서 구체적으로 패딩된 값들은 거의 0이다. 구체적으로, 출력들(141-1, 141-2)에서 패딩된 블록 또는 패딩되지 않은 블록은 도 5에 도시된 실시예에서 출력들(103, 135-2)에서의 그것들에 상응할 수 있다.

분석 윈도우 함수의 적용으로 인한 가중 때문에, 과도 검출기(134) 및 분석 윈도우 프로세서(140)는 바람직하게는 과도 검출기(134)에 의한 과도 이벤트의 검출이 분석 윈도우 함수가 분석 윈도우 프로세서(140)에 의해 적용되기 전에 일어나는 것과 같은 식으로 배열되어야 한다. 그렇지 않으면, 과도 이벤트 검출이 가중 프로세싱으로 인해 상당히 영향을 받을 것인데, 이는 특히 과도 이벤트가 가드 구역들 안에 또는 비가드 (특징) 구역의 경계들 가까이에 위치하는 경우로, 왜냐하면 이 지역에서, 분석 윈도우 함수의 값들에 상응하는 가중 팩터들이 항상 0에 가깝기 때문이다.

출력(141-1)에서 패딩된 블록 및 출력(141-2)에서 패딩되지 않은 블록은 제1 변환 길이를 갖는 제1 보조 변환기(138-1) 및 제2 변환 길이를 갖는 제2 보조 변환기(138-2)를 이용하여 출력들(143-1, 143-2)에서 그들의 스펙트럼 표현들로 후속하여 변환되는데, 여기서 제1 및 제2 변환 길이는 각각 변환된 블록들의 샘플 길이들에 상응한다. 출력들(143-1, 143-2)에서 스펙트럼 표현들은 앞서 논의된 실시예들에서처럼 추가로 프로세싱될 수 있다.

도 8은 대역폭 확장 구현의 실시예에 대한 개관을 도시한다. 특히, 도 8은 "저 주파수(low frequency, LF) 오디오 데이터" 출력 블록으로 나타내어지는 오디오 신호(100)를 제공하는 "오디오 신호/추가적 파라미터들"로 나타내어지는 블록(800)을 포함한다. 또한, 블록(800)은 도 2 및 3에서 포락선 조절기(130)의 입력(101)에 상응할 수 있는 디코딩된 파라미터들을 제공한다. 블록(800)의 출력(101)에서 파라미터들이 포락선 조절기(130) 및/또는 음조 정정기(tonality correctior, 150)에 후속하여 이용될 수 있다. 포락선 조절기(130) 및 음조 정정기(150)는 예를 들어, 도 2 및 3의 정정된 신호(129)에 상응할 수 있는 왜곡된 신호(151)를 얻기 위해 결합된 신호(127)에 미리 결정된 왜곡을 적용하기 위해 구성된다.

블록(800)은 대역폭 확장 구현의 인코더 측에 의해 제공되는 과도 검출에 관한 사이드 정보(side information)를 포함할 수 있다. 이 경우에, 이러한 사이드 정보는 디코더 측의 과도 검출기(134)에 쇄선에 의해 가리켜지는 비트스트림(810)에 의해 추가로 전송된다.

바람직하게는, 그러나, 과도 검출은 여기서 "프레이밍(framing)" 장치(102-1)로 불리는 분석 윈도우 프로세서의 출력(111)에서 오디오 샘플들의 복수의 연속 블록들 상에서 수행된다. 다시 말해서, 과도 사이드 정보는 디코더를 나타내는 과도 검출기(134)에서 검출되거나 인코더로부터 비트스트림(810)으로 전송된다(쇄선). 첫 번째 해결책은 전송되는 비트레이트(bitrate)를 증가시키지 않으며, 반면 후자는 원 신호가 여전히 사용 가능하기 때문에 검출을 가능하게 한다.

구체적으로, 도 8은 도 13에 도시된 바와 같은 고조파 대역폭 확장(harmonic bandwidth extension, HBE) 구현을 수행하기 위해 구성된 장치들의 블록도를 도시하는데, 이는 출력(135)에서 과도 이벤트의 발생에 대한 정보에 따라 신호 적응 프로세싱을 실행하기 위해 스위치(136)와 결합되고, 과도 검출기(134)에 의해 제어된다.

도 8에서, 프레이밍 장치(102-1)의 출력(111)에서 복수의 연속 블록들이 분석 윈도우 장치(102-2)에 공급되는데, 이는 예를 들어, 프레이밍 작업에 일반적으로 적용된 직사각형 윈도우 형태와 비교하여 덜 깊은 측면들(flanks)로 특징지어지는 상승형 코사인 윈도우(raised-cosine window)와 같은 미리 결정된 윈도우 형태를 갖는 분석 윈도우 함수를 적용하기 위해 구성된다. 스위치(136)를 이용하여 얻어진 "과도" 또는 "비과도"로 나타내어지는 스위칭 결정에 따라, 과도 검출기(134)에 의해 검출된 윈도우 분석 장치(102-2)의 출력(811)에서 복수의 연속 윈도우화된(즉, 프레임되고 가중된) 블록들의 과도 이벤트를 포함하는 블록(135-1) 또는 과도 이벤트를 포함하지 않는 블록(135-2)은 각각 앞에서 상세히 논의된 바와 같이 추가로 프로세싱된다. 특히, 도 2, 4 및 5에서 윈도우(102)의 패더(112)에 상응할 수 있는 0 패딩 장치(102-3)는 바람직하게는 시간 블록(135-1)의 외부에 0 값들을 입력하기 위해 이용되어, 시간 블록(135-2)의 샘플 길이(N)의 2배만큼 큰 샘플 길이(2N)를 갖는 패딩된 블록(103)과 상응할 수 있는 0이 패딩된 블록(803)이 얻어진다. 여기서, 과도 검출기(134)는 "과도 지점 검출기"로 표시되는데, 그것이 출력(811)에서 복수의 연속 블록들에 대하여 연속 블록(135-1)의 "지점" (즉, 시간 위치)를 결정하기 위해 사용될 수 있기 때문으로, 즉, 과도 이벤트가 들어 있는 각각의 시간 블록들은 출력(811)에서 일련의 연속 블록들로부터 식별된다.

일 실시예에서, 패딩된 블록은 블록 안에서 그것의 위치와 관계없이 과도 이벤트가 검출되는 특정 연속 블록으로부터 항상 생성된다. 이러한 경우에, 과도 검출기(134)는 단순히 과도 이벤트가 들어 있는 블록을 결정(식별)하기 위해 구성된다. 대안적인 실시예에서, 과도 검출기(134)는 블록에 대하여 과도 이벤트의 특정 위치를 결정하기 위해 추가로 구성될 수 있다. 이전의 실시예에서는, 과도 검출기(134)의 더욱 간단한 구현이 사용될 수 있고, 반면 후자의 실시예에서는, 프로세싱 연산 복잡도가 감소될 수 있는데, 패딩된 블록이 과도 이벤트가 바람직하게는 블록 경계 근처인 특정 지점에 위치할 경우에 한해 생성되고 추가로 프로세싱될 것이기 때문이다. 다시 말해, 후자의 실시예에서, 0 패딩 또는 가드 구역들은 과도 이벤트가 블록 경계들 근처에 위치한 경우(즉, 중심을 벗어나 과도들이 발생하는 경우)에만 필요할 것이다.

도 8의 장치들은, 기본적으로, 위상 보코더 프로세싱에 진입하기 전에 각각의 시간 블록 양 말단들을 0으로 패딩하는 것에 의해 소위 "가드 구간들"을 도입함으로써 주기적 컨볼루션 효과에 대응하기 위한 방법을 제공한다. 여기서, 위상 보코더 프로세싱은 예를 들어, 각각 2N 또는 N의 변환 길이를 갖는 FFT 프로세서를 포함하는 제1 또는 제2 보조 변환기(138-1, 138-2)의 작동을 시작한다.

구체적으로, 제1 변환기(104)는 패딩된 블록(103)의 단기 푸리에 변화(short-time Fourier transformation, STFT)을 수행하기 위해 구현될 수 있고, 반면 제2 변환기(108)는 출력(105)에서 변경된 스펙트럼 표현의 크기 및 위상에 기초하여 역 STFT를 수행하기 위해 구현될 수 있다.

도 8에 관하여, 새로운 상들이 산출된 후에, 예를 들어, 역 STFT 또는 역 이산 푸리에 변환 변환(inverse Discrete Fourier Transform, IDFT) 합성이 수행되며, 가드 구간들은 시간 블록의 중앙 부분에서 간단히 제거되는데, 이는 보코더의 오버랩 가산(overlap-add, OLA) 단계에서 더 프로세싱된다. 대안으로, 가드 구간들이 제거되지 않고, OLA 단계에서 추가로 프로세싱된다. 이러한 작동은 또한 사실상 신호의 오버샘플링으로 볼 수 있다.

도 8에 따른 구현으로부터의 결과로, 대역폭이 확장된 조작된 신호가 추가 결합기(132)의 출력(131)에서 얻어진다. 후속하여, 추가 프레이밍 장치(160)가 예를 들어, 추가 프레이밍 장치의 출력(161)에서 오디오 샘플들의 연속 블록이 최초의 오디오 신호(800)와 동일한 윈도우 크기를 가질 것이라는 것과 같은 미리 결정된 방식으로 "고주파수(high frequency, HF)를 지닌 오디오 신호"로 나타내지는 출력(131) 신호에서 조작된 오디오의 프레이밍(즉, 복수의 연속 시간 블록들의 윈도우 사이즈)을 조작하기 위해 사용될 수 있다.

위상 보코더로 과도들을 프로세싱하는 동안 이러한 맥락에서 가드 구간들을 이용하는 것에 대한 가능한 이점이, 예를 들어, 도 8의 실시예에서 개략적으로 나타난 바와 같이, 분석 윈도우("얇은 대시 기호로 된 것"은 원 신호를 가리킴)에서 중심에 있는 과도를 보이는 도 7의 패널 a)에 모범적으로 나타나 있다. 이러한 경우에, 가드 구간은 프로세싱에 중요한 효과를 갖지 않는데, 이는 윈도우가 또한 변경된 과도(가드 구간들을 이용하는 '얇은 선', 가드 구간들이 없는 '두꺼운 선')를 수용할 수 있기 때문이다. 그러나, 패널 b)에 보여지는 바와 같이, 만약 과도가 중심에서 벗어나서 위치한다면("얇은 대시 기호로 된 것"은 원 신호를 가리킨다), 보코더 프로세싱 동안 위상 조작에 의해 타임 쉬프트 될 것이다. 이러한 쉬프트가 윈도우에 의해 커버(cover)되는 시간 기간으로 바로 수용될 수 없으면, 결국 과도 (일부)의 오배치(misplacement)를 야기하는 순환 랩핑이 발생하여(가드 구간들이 없는 '두꺼운 선'), 그로 인해 지각적 오디오 품질을 저하시킨다. 그러나, 가드 구간들의 사용은 가드 구역에서 쉬프트된 부분들을 수용함으로써 순환 컨볼루션 효과를 방지한다(가드 구간들을 이용하는 '얇은 선').

상기 0 패딩 구현에 대한 대안으로, 가드 구역들을 갖는 윈도우들(도 9 참조)이 앞서 언급한 바와 같이 사용될 수 있다. 가드 구역들을 갖는 윈도우들의 경우에, 윈도우들의 일면 또는 양면에서 값들은 거의 0이다. 그것들은 정확히 0이거나 위상 적응을 통해 가드 구역으로부터 윈도우 안으로 0들을 쉬프트하지 않으나 작은 값들을 지닐 수 있는 이점을 가지며 0 근처에서 머뭇거릴 수 있다. 도 9는 두 가지 형태 모두의 윈도우들을 도시한다. 특히, 도 9에서, 윈도우 함수들(901, 902) 사이의 차이점은 도 9a에서 윈도우 함수(901)는 샘플 값들이 정확히 0인 가드 구역들(910, 920)을 포함하고, 반면 도 9b에서 윈도우 함수(902)는 샘플 값들이 0 근처에서 머뭇거리는 가드 구역들(940, 950)을 포함한다는 것이다. 그러므로, 후자의 경우, 0 값들 대신에 작은 값들이 가드 구역(940 또는 950)으로부터 윈도우 구역(930) 안으로 위상 적응을 통해 쉬프트될 것이다.

이전에 언급한 바와 같이, 가드 구간들의 적용은 분석 및 합성 변형들이 상당히 확장된 길이의 신호 블록들 상에서 산출되어야 하기 때문에 오버샘플링에 맞먹게 연산 복잡도를 증가시킬 수 있다. 한편, 이는 적어도 과도 신호 블록들에 대한 개선된 지각적 품질을 보장하는데, 그러나 이는 오직 평균적인 음악 오디오 신호의 선택된 블록들에서만 발생한다. 한편, 프로세싱 능력은 전체 신호의 프로세싱에 내내 서서히 증가된다.

본 발명의 실시예들은 오버샘플링이 오직 특정 선택된 신호 블록들에 대하여만 유리하다는 사실에 기초한다. 구체적으로, 상기 실시예들은 검출 메커니즘을 포함하고 확실히 지각적 품질을 개선하는 곳에 오직 그러한 신호 블록들에 오버샘플링을 적용하는 새로운 신호 적응 프로세싱 방법을 제공한다. 더불어, 표준 프로세싱과 고급 프로세싱 사이에서 적응적으로 스위칭하는 신호 프로세싱으로 인해, 본 발명의 맥락에서 신호 프로세싱의 효율성이 상당히 증가될 수 있고, 따라서 연산에 대한 수고를 줄인다.

표준 프로세싱과 고급 프로세싱의 차이점을 보이기 위해, 도 8의 구현을 이용한 전형적인 고조파 대역폭 확장(HBE) 구현(도 13)과의 비교가 다음에서 이루어질 것이다.

도 13은 HBE의 개관을 도시한다. 여기서, 다중 위상 보코더 단계들은 전체 시스템에서 동일한 샘플링 주파수 상에서 작동한다. 도 8은, 그러나, 오직 그러한 신호의 부분들에 0 패딩/오버샘플링을 적용하는 프로세싱 방법을 도시하는데, 이는 정말로 유익하고 개선된 지각적 품질을 가져온다. 이는 스위칭 결정에 따라 달성되는데, 이는 바람직하게는 후속하는 프로세싱에 대한 적절한 신호 경로를 선택하는 과도 위치 검출에 따라 달라진다. 도 13에 도시된 HBE와 비교하여, (신호 또는 비트스트림으로부터의) 과도 위치 검출기(134), 스위치(136) 및 0 패더(102-3)에 의해 적용된 0 패딩 작동으로 시작하고 패딩 제거기(118)에 의해 수행되는 (선택적) 패딩 제거로 종료하는 오른편의 신호 경로가 도 8에 도시된 바와 같이 상기 실시예들에 추가된다.

본 발명의 일 실시예에서, 윈도우어(102)는 타임 시퀀스(time sequence)를 형성하는 오디오 샘플들의 복수(111)의 연속 블록들을 생성시키기 위해 구성되며, 이는 적어도 패딩되지 않은 블록(133-2, 141-2)과 연속 패딩된 블록(103, 141-1)의 제1 쌍(145-1) 및 패딩된 블록(103, 141-1) 및 연속 패딩되지 않은 블록(133-2, 141-2)의 제2 쌍(145-2)을 포함한다(도 12 참조). 연속 블록들의 제1 및 제2 쌍(145-1, 145-2)은 데시메이터(120)의 출력들(147-1, 147-2)에서 각각 상응하는 데시메이팅된 오디오 샘플들이 얻어질 때까지 대역폭 확장 구현의 맥락에서 추가로 프로세싱된다. 데시메이팅된 오디오 샘플들(147-1, 147-2)은 후속하여 오버랩 가산기(124) 안으로 공급되는데, 이는 제1 쌍(145-1) 또는 제2 쌍(145-2)의 데시메이팅된 오디오 샘플들(147-1, 147-2)의 오버랩핑 블록들을 가산하기 위해 구성된다.

대안으로, 데시메이터(120)는 또한 앞에서 상응하게 설명된 바와 같이 오버랩 가산기(124) 뒤에 위치할 수 있다.

그리고 나서, 제1 쌍(145-1)에 대해, 도 2의 시간 거리(b)에 상응할 수 있는 시간 거리(b')가, 각각 패딩되지 않은 블록(133-2, 141-2)의 제1 샘플(151, 155)과 패딩된 블록(103, 141-1)의 오디오 신호 값들의 제1 샘플들(153, 157) 사이에, 오버랩 가산기(124)에 의해 공급되어, 대역폭 확장 알고리즘의 목표 주파수 범위 내에서 신호가 오버랩 가산기(124)의 출력(149-1)에서 얻어진다.

제2 쌍(145-2)에 대해, 각각 패딩된 블록(103, 141-1)의 오디오 신호 값들의 제1 샘플(153, 157)과 패딩되지 않은 블록(133-2, 141-2)의 제1 샘플(151, 155) 사이에 시간 거리(b')가 오버랩 가산기(124)에 의해 공급되어, 오버랩 가산기(124)의 출력(149-2)에서 대역폭 확장 알고리즘의 목표 주파수 범위 내의 신호가 얻어진다.

다시, 데시메이터(120)가 도 2에 도시된 바와 같이 프로세싱 체인(chain)에서 오버랩 가산기(124) 앞에 위치하는 경우에, 시간 거리(b')에 대한 통신에 관한 데시메이션의 가능한 효과가 고려되어야 할 것이다.

비록 본 발명이 블록들이 실제의 또는 논리적 하드웨어 구성요소들을 나타내는 블록도의 맥락에서 설명되었지만, 본 발명은 또한 컴퓨터 구현 방법으로 구현될 수 있음이 주목된다. 후자의 경우에, 블록들은 해당 단계들이 상응하는 논리적 또는 물리적 하드웨어 블록들에 의해 수행되는 기능성들을 의미하는 것에 상응하는 방법 단계들을 나타낸다.

설명된 실시예들은 단지 본 발명의 원리들에 대한 실례일 뿐이다. 여기에 설명된 배열들 및 상세사항들에 대한 변경 및 변화가 당업자들에게 자명함이 이해된다. 그러므로, 여기의 실시예들에 대한 묘사 및 설명의 방식에 의해 나타내어지는 특정 세부사항들에 의해서가 아니라 오직 곧 이어지는 특허 청구항들의 범위에 의해서 제한되는 것이 목적이다.

진보적인 방법들에 대한 특정 구현 요구조건에 따라, 진보적인 방법들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 상기 구현은 상기 진보적인 방법들이 수행되는 프로그램 가능한 컴퓨터 시스템과 협력하는, 그 위에 저장된 전자적으로 판독가능한 제어 신호들을 갖는 디지털 저장 매체, 특히 디스크, DVD 또는 CD를 이용하여 수행될 수 있다. 일반적으로, 본 발명은 그러므로 기계판독 가능한 매개체에 저장된 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로 구현될 수 있으며, 상기 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동할 때 상기 진보적인 방법들을 수행하기 위해 작동된다. 다시 말해, 상기 진보적인 방법들은, 그러므로, 컴퓨터 프로그램이 컴퓨터 상에서 구동할 때 적어도 하나의 상기 진보적인 방법들을 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다. 진보적인 프로세싱된 오디오 신호는 디지털 저장 매체와 같은 어떠한 기계판독 가능한 저장 매체에도 저장될 수 있다.

묘사된 프로세싱은 예를 들어, 위상 보코더들, 또는 파라미터의 서라운드 사운드 응용들(Herre, J.; Faller, C.; Ertel, C.; Hilpert, J.; Holzer, A.; Spenger, C, 〃MP3 서라운드: 다중-채널 오디오의 효율적이고 호환되는 코딩(MP3 Surround: Efficient and Compatible Coding of Multi-Channel Audio),〃 116회 Conv. Aud. Eng. Soc., 2004년 5월)인 어떠한 블록 기반 오디오 프로세싱 응용에서도 유용한데, 시간적 순환 컨볼루션 효과는 에일리어싱을 가져오며, 동시에, 프로세싱 능력은 한정된 자원이다.

가장 눈에 띄는 응용들은 오디오 디코더들로, 이는 종종 휴대용 장치들에 구현되고 그러므로 배터리 전력 공급으로 작동한다.

Claims

오디오 샘플들(audio samples)의 적어도 하나의 패딩된 블록(padded block, 103; 803; 141-1; 902)을 포함하고, 상기 패딩된 블록(103; 803; 141-1; 902)은 패딩된 값들 및 오디오 신호 값들을 가지며, 상기 오디오 샘플들의 복수(111; 881)의 연속 블록들(consecutive blocks)을 생성시키기 위한 윈도우어(windower, 102);
상기 패딩된 블록(103; 803; 141-1; 902)을 스펙트럼 값들을 갖는 스펙트럼 표현(spectral representatioon, 105)으로 변환시키기 위한 제1 변환기(converter, 104);
변경된 스펙트럼 표현(107)을 얻기 위해 상기 스펙트럼 값들의 위상들(phases)을 변경하기 위한 위상 변경기(phase modifier, 106); 및
상기 변경된 스펙트럼 표현(107)을 변경된 시간 도메인 오디오 신호(109)로 변환시키기 위한 제2 변환기(108);
를 포함하는 오디오 신호(100) 조작 장치.
청구항 1에 있어서,
데시메이팅된 시간 도메인 신호(121)를 얻기 위해 변경된 시간 도메인 오디오 샘플들의 오버랩 가산된 블록들(overlap-added blocks) 또는 상기 변경된 시간 도메인 오디오 신호(109)를 데시메이팅 하기 위한 데이메이터(decimator, 120)를 더 포함하며, 여기서 데시메이션(decimation) 특징은 상기 위상 변경기(106)에 의해 적용된 위상 변경 특징에 따라 달라지는 것을 특징으로 하는 오디오 신호(100) 조작 장치.
청구항 2에 있어서,
상기 오디오 신호(100)를 이용하여 대역폭 확장을 수행하기 위해 조정되며,
상기 스펙트럼 표현(105) 또는 상기 오디오 신호(100)로부터 대역통과 신호(bandpass signal, 113)를 추출하기 위한 대역 통과 필터(band pass filter, 114)를 더 포함하며, 여기서 상기 대역통과 필터(114)의 대역통과 특징은 상기 위상 변경기(106)에 적용된 위상 변경 특징에 따라 선택되어, 상기 대역통과 신호(113)가 상기 오디오 신호(100)에 포함되지 않는 목표 주파수 범위(125-1, 125-2, 125-3)로 후속하는 프로세싱에 의해 변형되는 것을 특징으로 하는 오디오 신호(100) 조작 장치.
청구항 2에 있어서,
대역폭 확장 알고리즘의 목표 주파수 범위(125-1, 125-2, 125-3)에서 신호(125)를 얻기 위해 데시메이팅된 오디오 샘플들 또는 변경된 시간 도메인 오디오 샘플들의 오버랩핑 블록들(121-1, 121-2, 121-3)을 가산하기 위한 오버랩 가산기(overlap adder, 124)를 더 포함하는 오디오 신호(100) 조작 장치.
청구항 4에 있어서,
팩터(factor)에 의해 스펙트럼 값들을 스케일링하기 위한 스케일러(scaler, 116)를 더 포함하며, 여기서 상기 팩터는 상기 윈도우어(102)에 의해 적용된 오버랩 가산에 대한 제1 시간 거리(a) 및 상기 오버랩 가산기(124)에 의해 적용된 서로 다른 시간 거리(b)와 관련된 오버랩 가산 특징에 따라 달라지고 상기 윈도우 특징들이 확인되는 것을 특징으로 하는 오디오 신호(100) 조작 장치.
청구항 1에 있어서,
상기 윈도우어(102)는,
동일한 크기를 갖는 복수(111; 811)의 연속 블록들을 생성시키기 위한 분석 운도우 프로세서(analysis window processor, 110; 102-1, 102-2; 140); 및
오디오 샘플들의 연속 블록(133-1; 135-1; 704)의 첫 번째 샘플(708) 앞 또는 오디오 샘플들의 상기 연속 블록(133-1; 135-1; 704)의 마지막 샘플(710) 뒤에 특정 시점들에서 패딩된 값들을 삽입하여 상기 패딩된 블록(103; 803; 141-1; 902)을 얻기 위해 오디오 샘플들의 복수(111; 811)의 연속 블록들의 블록(133-1; 135-1)을 패딩하기 위한 패더(padder, 112; 103);를 포함하는 오디오 신호(100) 조작 장치.
청구항 1에 있어서,
상기 윈도우어(102)는 오디오 샘플들의 연속 블록(133-1; 135-1; 704)의 첫 번째 샘플(708) 앞 또는 오디오 샘플들의 상기 연속 블록(133-1; 135-1; 704)의 마지막 샘플(710) 뒤에 특정 시점들에서 패딩된 값들을 삽입하기 위해 구성되며,
상기 장치는:
상기 변경된 시간 도메인 오디오 신호(109)의 시점들에서 샘플들을 제거하기 위한 패딩 제거기(padding remover, 118)를 더 포함하며, 상기 시점들은 상기 윈도우어(102)에 의해 적용된 상기 특정 시점들에 상응하는 것을 특징으로 하는 오디오 신호(100) 조작 장치.
청구항 1 또는 2에 있어서,
상기 윈도우어(102)에 의해 적용된 분석 함수에 부합하는 합성 윈도우 함수를 갖는 상기 변경된 시간 도메인 오디오 신호(109) 또는 상기 데시메이팅된 시간 도메인 신호(121)를 윈도윙(windowing)하기 위한 합성 윈도우어(synthesis windower, 122)를 더 포함하는 오디오 신호(100) 조작 장치.
청구항 1에 있어서,
상기 윈도우어(102)는 오디오 샘플들의 연속 블록(133-1; 135-1; 704)의 첫 번째 샘플(708) 앞 또는 오디오 샘플들의 상기 연속 블록(133-1, 135-1, 704)의 마지막 샘플(710) 뒤에 특정 시점들에서 패딩된 값들을 삽입하기 위해 구성되며, 여기서 패딩된 값들의 수 및 오디오 샘플들의 상기 연속 블록(133-1; 135-1; 704)에서의 값들의 수의 합은 오디오 샘플들의 상기 연속 블록(133-1; 135-1; 704)에서의 값들의 수의 적어도 1.4배인 것을 특징으로 하는 오디오 신호(100) 조작 장치.
청구항 7에 있어서,
상기 윈도우어(102)는 오디오 샘플들의 연속 블록(133-1; 135-1; 704)의 상기 첫 번째 샘플(708) 앞 및 오디오 샘플들의 상기 중심에 있는 연속 블록(133-1; 135-1; 704)의 상기 마지막 샘플(710)의 뒤에 상기 패딩된 값들을 대칭적으로 삽입하여, 상기 패딩된 블록(103; 803; 141-1; 902)이 상기 제1 변환기(104) 및 상기 제2 변환기(108)에 의해 변환에 맞게 조정되도록 하기 위해 구성되는 것을 특징으로 하는 오디오 신호(100) 조작 장치.
청구항 1에 있어서,
상기 윈도우어(102)는 윈도우 함수(709; 902)의 시작 지점(718; 901) 또는 상기 윈도우 함수(709; 902)의 종료 지점(720, 903)에 적어도 하나의 가드 구역(guard zone, 712, 714; 910, 920; 940, 950)을 갖는 윈도우 함수(709; 902)를 적용하기 위해 구성되는 것을 특징으로 하는 오디오 신호(100) 조작 장치.
청구항 1에 있어서,
상기 장치는 대역폭 확장 알고리즘을 수행하기 위해 구성되며, 상기 대역폭 확장 알고리즘은 대역폭 확장 팩터(σ)를 포함하며, 상기 대역폭 확장 팩터(σ)는 상기 오디오 신호(100)의 대역(113-1, 113-2, 113-3, ...)과 목표 주파수 대역(125-1, 125-2, 125-3, ...) 사이의 주파수 편이(frequency shift)를 제어하고, 여기서 상기 위상 변경기(106)는 상기 대역폭 확장 팩터(σ)로 상기 오디오 신호(100)의 대역(113-1, 113-2, 113-3, ...)의 스펙트럼 값들의 위상들을 스케일링하기 위해 구성되어, 오디오 샘플들의 연속 블록의 적어도 하나의 샘플이 주기적으로 상기 블록 안으로 컨볼빙되는(convolved) 것을 특징으로 하는 오디오 신호(100) 조작 장치.
청구항 2에 있어서,
상기 장치는 대역폭 확장 알고리즘을 수행하기 위해 구성되며, 상기 대역폭 확장 알고리즘은 대역폭 확장 팩터(σ)를 포함하며, 상기 대역폭 확장 팩터(σ)는 상기 오디오 신호(100)의 대역(113-1, 113-2, 113-3, ...)과 목표 주파수 대역(125-1, 125-2, 125-3, ...) 사이의 주파수 편이를 제어하고,
여기서 상기 제1 변환기(104), 상기 위상 변경기(106), 상기 제2 변환기(108) 및 상기 데시메이터(120) 서로 다른 대역폭 확장 팩터들(σ)을 이용하여 작동하기 위해 구성되어, 서로 다른 목표 주파수 대역들(125-1, 125-2, 125-3, ...)을 갖는 서로 다른 변경된 시간 오디오 신호들(121-1, 121-2, 121-3, ...)이 얻어지며,
상기 서로 다른 대역폭 확장 팩터들(σ)에 기초하여 오버랩 가산을 수행하기 위한 오버랩 가산기(124), 및
상기 서로 다른 목표 주파수 대역들(125-1, 125-2, 125-3)을 포함하는 결합된 신호(127)를 얻기 위해 오버랩 가산 결과들(125-1, 125-2, 125-3, ...)을 결합하기 위한 결합기(126)를 더 포함하는 오디오 신호(100) 조작 장치.
청구항 1에 있어서,
상기 오디오 신호(100)에서 중심에 있지 않은 과도 이벤트(700, 701, 702, 703, 705, 707)를 결정하기 위한 과도 검출기(transient detector, 134)를 더 포함하며,
여기서 상기 제1 변환기(104)는 상기 과도(134)가 상기 패딩된 블록(103; 803; 141-1; 902)에 상응하는 상기 오디오 신호(100)의 블록(133-1; 135-1)에서 상기 과도 이벤트(700, 701, 702, 703, 705, 707)를 검출할 때, 상기 패딩된 블록(103; 803; 141-1; 902)을 변환시키기 위해 구성되고,
여기서 상기 제1 변환기(104)는 상기 과도(700, 701, 702, 703, 705, 707)가 상기 블록 내에서 검출되지 않을 때, 오직 오디오 신호 값들만을 갖는 패딩되지 않은 블록(133-2; 135-2; 141-2; 930)을 변환시키기 위해 구성되며, 상기 패딩되지 않은 블록(133-2; 135-2; 141-2; 930)은 상기 오디오 신호(100)의 상기 블록에 상응하는 것을 특징으로 하는 오디오 신호(100) 조작 장치.
청구항 14에 있어서,
상기 윈도우어(102)는 오디오 샘플들의 연속 블록(133-1; 135-1; 704)의 첫 번째 샘플(708) 앞 또는 오디오 샘플들의 상기 연속 블록(133-1; 135-1; 704)의 마지막 샘플(710) 뒤에 특정 시점들에서 패딩된 값들을 삽입하기 위한 패더(padder, 112; 102-3)를 포함하며,
상기 장치는:
상기 과도 검출기(134)에 의해 제어되는 스위치(switch, 136)를 더 포함하며, 여기서 상기 스위치(136)는 상기 패더(112; 102-3)를 제어하여, 과도 이벤트(700, 701, 702, 703, 705, 707)가 상기 과도 검출기(134)에 의해 검출될 때 패딩된 값들과 오디오 신호 값들을 갖는 패딩된 블록(103; 803)이 생성되도록 하고, 상기 패더(112; 102-3)를 제어하여, 상기 과도 이벤트(700, 701, 702, 703, 705, 707)가 상기 과도 검출기(134)에 의해 검출되지 않을 때, 오직 오디오 신호 값들만을 갖는 상기 패딩되지 않은 블록(133-2; 135-2)이 생성되도록 하기 위해 구성되며,
여기서 상기 제1 변환기(104)는 제1 보조 변환기(sub-converter, 138-1) 및 제2 보조 변환기(138-2)를 포함하며,
여기서 상기 스위치(136)는 상기 과도 이벤트(700, 701, 702, 703, 705, 707)가 상기 과도 검출기(134)에 의해 검출될 때, 제1 변환 길이를 갖는 변환을 수행하도록 상기 제1 보조 변환기(138-1)에 상기 패딩된 블록(103; 803)을 공급하기 위해, 그리고 상기 과도 이벤트(700, 701, 702, 703, 705, 707)가 상기 과도 검출기(134)에 의해 검출되지 않을 때, 상기 제1 길이보다 짧은 제2 길이를 갖는 변환을 수행하도록 상기 제2 보조 변환기(138-2)에 상기 패딩되지 않은 블록(133-2; 135-2)을 공급하기 위해 더 구성되는 것을 특징으로 하는 오디오 신호(100) 조작 장치.
청구항 14에 있어서,
상기 윈도우어(102)는 오디오 샘플들의 연속 블록(139-1, 139-2)에 분석 윈도우 함수를 적용하기 위한 분석 윈도우 프로세서(analysis window processor, 110; 102-1; 102-2; 140)를 포함하며, 상기 분석 윈도우 프로세서는 제어가능하여 상기 분석 윈도우가 상기 윈도우 함수(709; 902)의 시작 지점(718; 901) 또는 상기 윈도우 함수(709; 902)의 종료 지점(720; 903)에 가드 구역(712, 714; 910, 920; 940, 950)을 포함하며,
상기 장치는:
상기 과도 검출기(134)에 의해 제어되는 가드 윈도우 스위치(guard window switch, 142)를 더 포함하며, 여기서 상기 가드 윈도우 스위치(142)는 상기 분석 윈도우 프로세서(110; 102-1, 102-2; 140)를 제어하여, 과도 이벤트(700, 701, 702, 703, 705, 707)가 상기 과도 검출기(134)에 의해 검출될 때 패딩된 값들과 오디오 신호 값들을 갖는 패딩된 블록(141-1; 902)이 상기 가드 구역을 포함하는 상기 분석 윈도우 함수를 이용하여 오디오 샘플들의 연속 블록으로부터 생성되도록 하고, 상기 분석 윈도우 프로세서(102-1, 102-2; 140)를 제어하여, 상기 과도 이벤트(700, 701, 702, 703, 705, 707)가 상기 과도 검출기(134)에 의해 검출되지 않을 때, 오직 오디오 신호 값들만을 갖는 상기 패딩되지 않은 블록(141-2; 930)이 생성되도록 하기 위해 구성되며,
여기서 상기 제1 변환기(104)는 제1 보조 변환기(138-1) 및 제2 보조 변환기(138-2)를 포함하며,
여기서 상기 가드 윈도우 스위치(142)는 과도 이벤트(700, 701, 702, 703, 705, 707)가 상기 과도 검출기(134)에 의해 검출될 때 제1 변환 길이를 갖는 변환을 수행하도록 상기 제1 보조 변환기(138-1)에 상기 패딩된 블록(141-1; 902)을 공급하기 위해, 그리고 상기 과도 이벤트(700, 701, 702, 703, 705, 707)가 상기 과도 검출기(134)에 의해 검출되지 않을 때 상기 제1 길이보다 짧은 제2 길이를 갖는 변환을 수행하도록 상기 제2 보조 변환기(138-2)에 상기 패딩되지 않은 블록(141-2; 930)을 공급하기 위해 더 구성되는 것을 특징으로 하는 오디오 신호(100) 조작 장치.
청구항 4 또는 13에 있어서,
정정된 신호(129)를 얻기 위해 전송된 파라미터들(101)에 기초하여 목표 주파수 범위(125-1, 125-2, 125-3)에서의 상기 신호(125) 또는 상기 결합된 신호(129)의 포락선을 조절하기 위한 포락선 조절기(envelope adjuster, 130); 및
대역폭이 확장된 조작된 신호(131)를 얻기 위해 상기 오디오 신호(100; 102-1) 및 상기 정정된 신호(129)를 결합하기 위한 추가 결합기(further combiner, 132)를 더 포함하는 오디오 신호(100) 조작 장치.
청구항 14에 있어서,
상기 윈도우어(102)는 오디오 샘플들의 복수(111; 811)의 연속 블록들을 생성시키기 위해 구성되며, 상기 복수(111; 811)의 연속 블록들은 적어도 패딩되지 않은 블록(133-2; 135-2; 141-2; 930)과 연속 패딩된 블록(103; 803; 141-1; 902)의 제1 쌍(145-1) 및 패딩된 블록(103; 803; 141-1; 902)과 연속 패딩되지 않은 블록(133-2; 135-2; 141-2; 930)의 제2 쌍(145-2)을 포함하며,
상기 장치는:
상기 제1 쌍(145-1)의 데시메이팅된 오디오 샘플들(147-1)을 얻기 위해 상기 변경된 시간 도메인 오디오 샘플들 또는 상기 제1 쌍(145-1)의 변경된 시간 도메인 오디오 샘플들의 오버랩 가산 블록들을 데시메이팅하기 위한, 또는 상기 제2 쌍(145-2)의 데시메이팅된 오디오 샘플들(147-2)을 얻기 위해 상기 변경된 시간 도메인 오디오 샘플들 또는 상기 제2 쌍(145-2)의 변경된 시간 도메인 오디오 샘플들의 오버랩 가산 블록들을 데시메이팅하기 위한 데이메이터(decimator, 120), 및
오버랩 가산기(overlap adder, 124)를 더 포함하며, 여기서 상기 오버랩 가산기(124)는 상기 제1 쌍(145-1) 또는 상기 제2 쌍(145-2)의 상기 데시메이팅된 오디오 샘플들(147-1, 147-2) 또는 변경된 시간 도메인 오디오 샘플들의 오버랩핑 블록들을 가산하기 위해 구성되며, 상기 대역폭 확장 알고리즘의 목표 주파수 범위에서 신호를 얻기 위해, 여기서 상기 제1 쌍(145-1)에 대해 상기 패딩되지 않은 블록(133-2; 135-2; 141-2; 930)의 제1 샘플(151)과 상기 패딩된 블록(103; 803; 141-1; 902)의 상기 오디오 신호 값들의 제1 샘플(153) 사이의 시간 거리(b')가 상기 오버랩 가산기(124)에 의해 공급되거나, 여기서 상기 제2 쌍(145-2)에 대해 상기 패딩된 블록(103; 803; 141-1; 902)의 상기 오디오 신호 값들의 제1 샘플(153)과 상기 패딩되지 않은 블록(133-2; 135-2; 141-2; 930)의 제1 샘플(157) 사이의 시간 거리(b')가 상기 오버랩 가산기(124)에 의해 공급되는 것을 특징으로 하는 오디오 신호(100) 조작 장치.
복수(111; 811)의 오디오 샘플들의 연속 블록들을 생성시키는 단계(102)로, 상기 복수(111; 811)의 연속 블록들은 오디오 샘플들의 적어도 하나의 패딩된 블록(103; 803)을 포함하며, 상기 패딩된 블록(103; 803)은 패딩된 값들과 오디오 신호 값들을 갖는 단계;
상기 패딩된 블록(103; 803)을 스펙트럼 값들을 갖는 스펙트럼 표현으로 변환시키는 단계(104);
변경된 스펙트럼 표현(107)을 얻기 위해 상기 스펙트럼 값들의 위상들을 변경하는 단계(106); 및
상기 변경된 스펙트럼 표현(107)을 변경된 시간(105) 도메인 오디오 신호(109)로 변환시키는 단계(108);
를 포함하는 오디오 신호 조작 방법.
컴퓨터 프로그램이 컴퓨터 상에서 실행될 때, 청구항 19에 따른 상기 방법을 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램.