KR20100134611A - 오디오 신호를 파라미터화된 표현으로 변환하는 장치 및 방법, 파라미터화된 표현을 변경하는 장치 및 방법 그리고, 오디오 신호의 파라미터화된 표현을 합성하는 장치 및 방법 - Google Patents

오디오 신호를 파라미터화된 표현으로 변환하는 장치 및 방법, 파라미터화된 표현을 변경하는 장치 및 방법 그리고, 오디오 신호의 파라미터화된 표현을 합성하는 장치 및 방법 Download PDF

Info

Publication number
KR20100134611A
KR20100134611A KR1020107021135A KR20107021135A KR20100134611A KR 20100134611 A KR20100134611 A KR 20100134611A KR 1020107021135 A KR1020107021135 A KR 1020107021135A KR 20107021135 A KR20107021135 A KR 20107021135A KR 20100134611 A KR20100134611 A KR 20100134611A
Authority
KR
South Korea
Prior art keywords
band pass
information
frequency
modulation
signal
Prior art date
Application number
KR1020107021135A
Other languages
English (en)
Other versions
KR101196943B1 (ko
Inventor
샤샤 디쉬
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20100134611A publication Critical patent/KR20100134611A/ko
Application granted granted Critical
Publication of KR101196943B1 publication Critical patent/KR101196943B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

오디오 신호를 파라미터화된 표현으로 변환하는 장치는, 분석 결과(104)를 획득하기 위해 오디오 신호의 일부분을 분석하는 신호 분석기(102); 상기 분석 결과(104)에 기초하여 복수개의 대역 통과 필터들의 정보(108)를 추정하는 대역 통과 추정기(106)으로서, 상기 복수개의 대역 통과 필터들에 관한 정보는 상기 오디오 신호의 일부분을 위한 필터 형상에 대한 정보를 포함하고, 대역 통과 필터의 대역폭은 오디오 스펙트럼 상에서 서로 다르며, 상기 대역 통과 필터의 중심 주파수에 좌우되는 대역 통과 추정기(106); 상기 복수개의 대역 통과 필터들에 대한 정보(108)를 이용하여 상기 오디오 신호의 일부분에 대한 상기 복수개의 대역 통과 필터들의 각 대역에 대해 진폭 변조 또는 주파수 변조 또는 위상 변조를 추정하는 변조 추정기(110); 및 상기 오디오 신호의 일부분에 대해 상기 진폭 변조에 대한 정보, 상기 주파수 변조 또는 위상 변조에 대한 정보 또는 상기 복수개의 대역 통과 필터들에 대한 정보를 전송, 저장 또는 변경하는 출력 인터페이스(116)를 포함한다.

Description

오디오 신호를 파라미터화된 표현으로 변환하는 장치 및 방법, 파라미터화된 표현을 변경하는 장치 및 방법 그리고, 오디오 신호의 파라미터화된 표현을 합성하는 장치 및 방법{Apparatus and Method for Converting an Audio Signal into a Parameterized Representation, Apparatus and Method for Modifying a Parameterized Representation, Apparatus and Method for Synthesizing a Parameterized Representation of an Audio Signal}
본 발명은 오디오 코딩에 관한 것으로, 더욱 상세하게는 보코더에 적용되는 오디오 코딩 기법에 관한 것이다.
보코더의 한 종류는 위상 보코더이다. 위상 보코더에 대한 튜토리얼(tutorial)은 1986년 Computer Music Journal, Volume 10, No. 4의 페이지 14 내지 27에서의 마크 돌슨(Mark Dolson)에 의한 출판물 "The Phase Vocoder: A tutorial"이다. 다른 출판물로는 A"New phase vocoder techniques for pitch-shifting, harmonizing and other exotic effects", L. Laroche and M. Dolson, proceedings 1999, IEEE workshop on applications of signal processing to audio and acoustics, New Paltz, New York, October 17 to 20, 1999, pages 91 to 94이 있다.
도 5 및 도 6은 위상 보코더의 서로 다른 구현예 및 응용예를 나타낸다. 도 5는 위상 보코더의 필터 뱅크 구현예를 도시하는데, 여기에서 오디오 신호는 입력(500)에서 제공되고, 출력(510)에서 합성된 오디오 신호가 획득된다. 특히, 도 5에 도시된 필터 뱅크의 각 채널은 대역 통과 필터(501) 및 연속하여 연결된 오실레이터(502)를 포함한다. 모든 채널들로부터의 모든 오실레이터들(502)의 출력 신호들은 가산기(adder)로서 도시된 결합기(503)를 통해 결합된다. 결합기(503)의 출력에서 출력 신호(510)가 획득된다.
각 필터(501)는 한편으로는 진폭 신호 A(t)를 제공하고, 다른 한편으로 주파수 신호 f(t)를 제공하도록 구현된다. 진폭 신호 및 주파수 신호는 시간 신호들이다. 진폭 신호는 시간 상에서 필터 대역 내에서의 진폭의 전개를 나타내고, 주파수 신호는 시간 상에서 필터 출력 신호의 주파수의 전개를 나타낸다.
필터(501)의 모식적인 구현예가 도 6에 도시되어 있다. 들어오는 신호는 두 개의 평행한 경로들로 라우팅된다. 하나의 경로에서, 신호는 1.0의 진폭 및 551에 도시된 대역 통과 필터의 중심 주파수와 동일한 주파수를 갖는 사인파(sign wave)와 곱해진다. 다른 경로에서는, 신호는 551에 도시된 것과 동일한 진폭 및 주파수의 코사인파(cosine wave)와 곱해진다. 따라서, 2개의 평행한 경로들은 곱해지는 파형의 위상을 제외하고 동일하다. 그런 다음, 각 경로에서, 곱셈의 결과는 저역 통과 필터(553)으로 공급된다. 곱셈 동작은 그 자체로 단순 링 변조(simple ring modulation)으로 알려져 있다. 일정한 주파수의 사인파(또는 코사인파)와 곱해지는 어떠한 신호도 원래의 신호의 모든 주파수 성분들을 사인파의 주파수만큼 플러스 그리고 마이너스로 동시에 쉬프트하는 효과를 가져온다. 만약 이 결과물이 적절한 저역 통과 필터를 현재 통과한다면, 오직 저주파수 부분만이 남게 된다. 이러한 동작 순서는 또한 헤테로다이닝(Heterodying)으로도 알려져 있다. 이 헤테로다이닝은 두 개의 평행한 경로 각각에서 수행되지만, 하나의 경로는 사인파와 헤테로다이닝하는 반면, 다른 경로는 코사인파를 사용하기 때문에, 두 개의 경로들에서 결과적인 헤테로다이닝된 신호들은 90°만큼 위상 어긋나 있다. 그러므로, 상부 저역 통과 필터(553)은 직각위상차 신호(quadrate signal)(554)를 제공하고, 하부 필터(553)는 동위상(in-phase) 신호를 제공한다. I 및 Q 신호로도 불리우는 이들 두 개의 신호들은 직각 표현(rectangular representation)으로부터 크기/위상 표현을 발생시키는 좌표 변환기(556)로 제공된다.
진폭 신호는 557에서 출력되고, 도 5의 A(t)에 해당한다. 위상 신호는 위상 언랩퍼(unwrapper)(558)로 입력된다. 구성요소(558)의 출력에서는, 0° 와 360° 사이의 위상 값이 존재하지 않지만, 선형(linear way)으로 증가하는 위상 값은 존재한다. 이 "언랩핑된(unwrapped)" 위상 값은 위상/주파수 변환기(559)로 입력되는데, 이 위상/주파수 변환기는 예컨대, 현재의 시간 순간에 대해 주파수 값을 획득하기 위해 현재의 시간 순간에서의 위상으로부터 앞선 시간 순간에서의 위상을 차감하는 위상-차이-장치로서 구현될 수 있다.
이 주파수 값은 출력(560)에서 시간-변화하는 주파수 값을 획득하기 위해, 필터 채널 i의 일정한 주파수 값 fi에 가산된다.
출력(560)에서의 주파수 값은 DC 부분 fi와 주파수 변동(frequency fluctuation)으로도 일컫어지는 변화하는 부분을 갖는데, 이 부분만큼 필터 채널에서 신호의 현재 주파수는 중심 주파수 fi로부터 벗어난다.
따라서, 도 5 및 도 6에 도시된 바와 같은 위상 보코더는 스펙트럼 정보 및 시간 정보의 분리를 제공한다. 스펙트럼 정보는 주파수 fi에서 특정 필터 뱅크 채널의 위치에 포함되어 있고, 시간 정보는 주파수 변동 및 시간 상에서의 크기에 포함되어 있다.
위상 보코더의 다른 설명은 푸리에 변환 해석(Fourier transform interpretation)이다. 이는 시간에서의 유한-구간 윈도우 상에서 취해진, 연속하는 오버랩핑 푸리에 변환들로 이루어져 있다. 푸리에 변환 해석에서, 단일 시점에서의 서로 다른 필터 대역들 또는 주파수 빈들(bins) 전체에 대한 크기 및 위상 값들을 주목한다. 필터 뱅크 해석에서, 재합성(re-synthesis)은 각 오실레이터에 대해 시간 변화하는 진폭 및 주파수 제어를 이용한 가산 합성(additive synthesis)의 전형적인 예로서 보여질 수 있는 반면, 푸리에 구현에서, 합성은 실수-및-허수 형태로 다시 변환하고 연속하는 역 푸리에 변환들을 가산함으로써 달성된다. 푸리에 해석에서, 위상 보코더의 필터 뱅크들의 개수는 푸리에 변환에서 주파수 지점들의 개수이다. 유사하게, 개별 필터들의 주파수에서의 등간격은 푸리에 변환의 기본 특징으로서 인식될 수 있다. 다른 한편, 필터 통과 대역들의 형상, 즉, 대역 엣지들에서의 컷오프의 가파름(steepness)은 변환을 계산하기 이전에 적용되는 윈도우 함수의 형상에 의해 결정된다. 특정의 특징적인 형상 예컨대, 하밍 윈도우(Hamming window)에 대해, 필터 컷오프의 가파름은 윈도우 기간(duration)에 정비례하여 증가한다.
위상 보코더의 두 개의 서로 다른 해석은 대역 통과 필터들의 뱅크의 구현에만 적용됨을 인지하는 것이 유용하다. 이들 필터의 출력들이 시간-변화하는 진폭 및 주파수로서 표현되도록 하는 동작은 양 구현예들에서 동일하다. 위상 보코더의 기본 목적은 스펙트럼 정보로부터 시간 정보를 분리하는 것이다. 동작 전략은 신호를 다수의 스펙트럼 대역들로 분할하고, 각 대역에서 시간-변화하는 신호를 특징지우는 것이다.
두 가지 기본 동작들은 특히 중요하다.. 이들 동작들은 시간 스케일링 및 피치 스랜스포지션(pitch transposition)이다. 레코딩된 사운드를 단순히 낮은 샘플율로 재생함으로써 속도를 낮추는 것은 항상 가능한다. 이는 낮은 재생 속도로 테이프 레코딩을 플레이하는 것과 유사하다. 그러나, 이러한 종류의 간단한 시간 연장은 동시에 시간 연장과 동일한 인자만큼 피치를 낮춘다. 그 피치를 변경하는 일 없이 사운드의 시간 전개의 속도를 낮추는 것은 시간 및 스펙트럼 정보의 명백한 분리를 요구한다. 전술한 바와 같이, 이는 정확하게 위상 보코더가 하려고 하는 것이다. 시간-변화하는 진폭 및 주파수 신호 A(t) 및 f(t)를 도 5a로 펼치는 것은 개별적인 오실레이터들의 주파수를 전혀 변화시키지 않지만, 복합 사운드(composite sound)의 시간적 전개의 속도를 낮춘다. 이 결과가 원래의 피치를 갖는 시간-연장된 사운드이다. 시간 스케일링의 푸리에 변환 관점은, 사운드를 시간-연장하기 위해, 역 FFTs는 분석 FFTs보다 더 넓게 간격질 수 있도록 한다. 결과적으로, 스펙트럼 변화는 이 어플리케이션에서 오리지널에서보다 합성된 사운드에서 더 천천히 발생하며, 위상은 사운드가 정확히 시간-연장되는 동일한 인자만큼 재스케일링된다.
다른 어플리케이션은 피치 트랜스포지션이다. 위상 보코더는 그 피치를 변화하는 일 없이 사운드의 시간 전개를 변화하는데 사용될 수 있기 때문에, 또한, 그 역을 수행할 수 있는데 즉, 구간을 변화시키는 일 없이 피치를 변화시킬 수 있다. 이는 원하는 피치-변화 인자를 사용하여 시간-스케일링하고, 그런 다음 부적절한(wrong) 샘플율로 결과적인 사운드를 재생하거나, 원하는 인자만큼 다운-샘플링하고 변하지 않은 레이트로 재생함으로써 이루어진다. 예컨대, 피치를 옥타브만큼 올리기 위해, 사운드는 먼저 2의 인자만큼 시간-연장되고, 이 시간-연장은 원래의 샘플율의 두 배로 플레이된다.
보코더(또는 "VODER")는 사람의 음성을 발생시키는 상호-작동된 신시사이저 장치로서 Dudley에 의해 발명되었다[2]. 얼마간의 상당한 시간 후에 그 동작의 이론은 소위 위상-보코더로 확장되었다[3][4]. 위상 보코더는 오버랩하는 짧은 시간 DFT 스펙트럼들 상에서 그에 따라 고정된 중심 주파수를 갖는 일련의 서브대역 필터들 상에서 동작한다. 보코더는 오디오 파일들을 조작하는 기본 이론으로서 넓은 인정을 받아왔다. 예를 들어, 시간-연장 및 피치 트랜스포지션과 같은 오디오 효과들은 보코더에 의해 용이하게 달성된다[5]. 이후, 이 기술에 대한 많은 변형 및 개선이 이루어졌다. 특히, 고정된 주파수 분석 필터들을 갖는 제약은 예컨대, 'STRAIGHT' 보코더에서 기본 주파수(' f0') 도출된 매핑을 추가함으로써 제거되었다[6]. 여전히, 일반적인 사용 케이스는 음성 코딩/프로세싱인 채로 남아있다.
오디오 처리 분야에서 또다른 관심 영역은 음성 신호들을 변조된 성분들로 분해하는 것에 있다. 각 성분은 캐리어, 진폭 변조(AM: amplitude modulation) 및 어떤 종류의 주파수 변조(FM) 부분으로 구성되어 있다. 이러한 분해의 신호 적응적 방식은 예컨대, 일련의 신호 적응적 대역 통과 필터들의 사용을 제안하는 [7]에 개시되어 있다. [8]에서, '사인파 플러스 잡음(sinusoids plus noise)' 파라메트릭(parametric) 코더와의 조합에서 AM 정보를 이용하는 방식이 나타나 있다. 다른 분해 방법이 소위 'FAME' 전략을 사용하는 [9]에 개시되어 있는데: 여기에서, 음성 신호들은 연속하여 AM 및 FM 컨텐트를 추출하기 위해 대역 통과 필터들을 사용하여 4개의 대역들로 분해되었다. 대부분의 최근의 출판물들은 또한, AM 정보(서브대역 포락선들)만으로부터 오디오 신호들을 재생성하는 것을 목적으로 하며, 우세적으로 FM을 포함하는 관련 위상 정보의 복원을 위한 반복적인 방법들을 제안한다[10].
여기에 나타난 본 발명의 접근방식은 음악을 또한 포함하는, 일반적인 오디오 신호들의 처리를 목적으로 한다. 이는 위상 보코더와 유사하지만, 각각 관련 AM및 FM 신호들을 갖는 일련의 서브대역 캐리어 주파수들로의, 신호 의존적인 지각적으로 자극된 서브대역 분해를 수행하기 위해 변경된다. 이 분해는 지각적으로 의미가 있으며, 그 엘리먼트들은 스트라이트 포워드 방식으로 해석될 수 있으며, 그에 따라 분해의 성분들에 대한 모든 종류의 변조 처리가 실현 가능함을 지적하고 싶다.
전술한 목적을 달성하기 위해, 지각적으로 유사한 신호들이 존재한다는 관찰에 의존한다. 충분히 좁은-대역 톤의 대역 통과 신호는 그 스펙트럼 '무게 중심'(COG) 위치 및 그 힐버트 포락선에 의해 지각적으로 잘 표현된다. 이는 양 신호들이 근사적으로 사람의 귀에서 기저막의 동일한 운동을 유발한다[11]. 이를 나타내는 간단한 예는 지각적으로 하나의 (과-)변조된 성분으로 융합되도록 서로 충분히 근접한 주파수들 f1 및 f2을 갖는 2-톤 복소수 (1)이다.
Figure pct00001
(1)
st의 스펙트럼 COG와 동일한 주파수에서 사인파 캐리어로 구성되며, st와 동일한 절대 진폭 포락선을 갖는 신호가 (2)에 따라 sm이다.
Figure pct00002
(2)
도 9b (상부 및 중간 플롯)에서, 양 신호들의 시간 신호 및 힐버트 포락선이 도시된다. 제2 신호와 반대의 포락선의 제로들에서 제1 신호에서 π의 위상 점프를 주목한다. 도 9a는 2개의 신호들(상부 및 중간 플롯)의 파워 스펙트럼 밀도 플롯들을 도시한다.
이들 신호들이 그들의 스펙트럼 컨텐트에서 상당히 다르더라도, 그들의 우세적인 지각적 큐들(cues) - COG에 의해 표현된 '평균' 주파수, 및 진폭 포락선 -은 유사하다. 이는 그들이 도 9a 및 도 9b에 도시된 바와 같이, COG에 중심이 있는 대역-제한된 스펙트럼 영역에 관하여 지각적으로 상호 대체물이 되게 한다. 동일한 이론이 더 복잡한 신호들에 대해 대략적으로 여전히 유효하다.
일반적으로, 광대역 신호를 각각 캐리어, 진폭 변조 및 주파수 변조 정보를 포함하는 성분들의 집합으로 분해하는, 변조 분석/합성 시스템들은 일반적으로 그 작업이 어려운 문제(ill-posed problem)이기 때문에, 많은 자유도를 갖는다. 복소 오디오 스펙트럼들의 서브대역 크기 포락선들을 변경하고, 이어서 재-합성을 위한 그들의 변경되지 않은 위상으로 재결합하는 방법들은 아티펙트를 초래하는데, 왜냐하면, 이들 절차들이 사운드의 최종 듣는 사람, 즉 사람의 귀를 주목하지 않았기 때문이다.
또한, 미세 주파수 솔루션을 획득하기 위해 매우 긴 FFT들 즉, 매우 긴 윈도우들을 적용하는 것은 동시에 시간 해상도를 감소시킨다. 다른 한편, 일시적인 신호들(transient signals)은 고주파수 해상도를 요구하지 않지만, 어떤 시간 순간에 대역 통과 신호들이 "수직 코히어런스(vertical coherence)"로 또한 알려진 매우 강한 상호 상관을 나타내기 때문에, 높은 시간 해상도를 요구한다. 이 전문용어에서, 수평축으로 시간 변수가 사용되고, 수직축으로 주파수 변수가 사용된 시간-스펙트로그램 플롯을 상상한다. 그러므로, 순간 신호를 매우 높은 주파수 해상도로 처리하는 것은 낮은 시간 해상도를 초래하며, 동시에 수직 코히어런스의 거의 완전한 손실을 의미한다. 다시 말해, 사운드의 최종 수신자 즉, 사람의 귀는 이러한 모델에서 고려되지 않는다.
출판물 [22]는 오디오 신호들로부터 정확한 사인파 파라미터들을 추출하는 분석 방법론을 개시한다. 이 방법은 변경된 보코더 파라미터 추정물을 사인파 모델링에서 현재 사용되는 피크 검출 알고리즘과 결합한다. 이 시스템은 입력을 프레임 단위로 처리하고, 사인파 분석 모델과 같이 피크들을 찾지만, 또한 FFT 영역에서 손상된(smeared) 피크들이 처리되는 보코더 채널들을 능동적으로 선택한다. 이렇게, 프레임 내에서 변화하는 주파수의 사인파의 주파수 곡선들이 정확하게 파라미터화될 수 있다. 스펙트럼 파싱(parsing) 단계에서, 크기 FFT에서 피크들 및 계곡들이 식별된다. 피크 해상도에서, 스펙트럼은 관심 피크 외에는 제로로 설정되고, 피크의 양쪽 포지티브 및 네가티브 주파수 버전들은 유지된다. 그러면, 이 스펙트럼의 힐버트 변환이 계산되고, 이어서, 오리지날의 스펙트럼과 힐버트 변환된 스펙트럼의 IFFT가 서로 90°위상이 어긋난 2개의 시간 영역 신호들을 획득하기 위해 계산된다. 신호들은 보코더 분석에서 사용되는 분석 신호를 얻기 위해 사용된다. 의사 피크(spurious peaks)들이 검출되고, 이후 잡음으로서 모델링되거나 모델로부터 제외된다.
다시 말해, 스펙트럼 상에서 사람 귀의 변화하는 대역폭, 즉, 스펙트럼의 낮은 부분에서는 작은 대역폭 및 스펙트럼의 높은 부분에서는 높은 대역폭과 같은 지각적 기준이 고려되지 않는다. 또한, 사람 귀의 중요한 특징은 도 9a, 9b 및 9c와 관련하여 설명된 바와 같이, 사람 귀는 사람 귀의 임계(critical) 대역폭에 대응하는 대역폭 내에서 사인파 톤들을 결합하여, 사람은 작은 주파수 차이를 가진 2개의 안정적인 톤들을 듣지 못하지만, 변화하는 진폭을 갖는 하나의 톤을 인지한다는 것인데, 여기에서 이 톤의 주파수는 원래의 톤들의 주파수들 사이에 위치된다. 이 효과는 사람 귀의 임계 대역폭이 증가하면 더 증대한다.
또한, 스펙트럼에서 임계 대역들의 위치 설정은 일정하지 않지만 신호-의존적이다. 심리음향학에 의해 사람 귀가 스펙트럼에 따라 임계 대역들의 중심 주파수들을 능동적으로 선택한다는 것이 밝혀졌다. 예컨대, 사람 귀가 큰 소리의 톤을 인지하면, 임계 대역은 이 큰 소리의 톤 부근에 중심이 있다. 이후, 큰 소리의 톤이 다른 주파수에서 지각되면, 사람 귀는 이 다른 주파수 부근에서 임계 대역을 위치시키며, 그에 따라 사람의 지각은 시간 상에서 신호-적응적일 뿐만 아니라 낮은 주파수 부분에서 높은 스펙트럼 해상도를 가지며 스펙트럼의 상부 부분에서 낮은 스펙트럼 해상도 즉, 높은 대역폭을 갖는 필터들을 갖는다.
본 발명의 목적은 오디오 신호를 파라미터화하고 변경 또는 합성에 의해 파라미터화된 표현을 처리하는 개선된 개념을 제공하는 것이다.
이 목적은 청구항 1에 따른 오디오 신호를 변환하는 장치, 청구항 14에 따라 오디오 신호를 변환하는 방법, 청구항 15에 따라 파라미터화된 표현을 변경하는 장치, 청구항 19에 따라 파라미터화된 표현을 변경하는 방법, 청구항 20에 따라 파라미터화된 표현을 합성하는 장치, 청구항 26에 따라 오디오 신호의 파라미터화된 표현을 합성하는 방법, 청구항 27에 따른 오디오 신호를 위한 파라미터화된 표현, 또는 청구항 28에 따른 컴퓨터 프로그램에 의해 달성된다.
본 발명은 임계 대역들의 가변 대역폭이 서로 다른 목적을 위해 맞춤적으로 사용될 수 있다는 발견에 기반한다. 하나의 목적은 사람 귀의 저해상도를 이용함으로써 효율을 개선하는 것이다. 이와 관련하여, 효율을 향상시키기 위해 데이터가 요구되지 않는 본 발명은 데이터를 계산하지 않도록 노력한다.
그러나, 두번째 장점은 고해상도가 요구되는 영역에서, 필수적인 데이터가 파라미터화된 것의 품질을 향상시키기 위해 계산되고 다시 신호로 재합성된다는 것이다.
그러나, 주요 장점은 사실, 이 타입의 신호 분해가 예컨대, 거칠음, 피치 등과 같은 속성들을 직접 다루기 위해 직접적이고 직관적이고 지각적으로 적응적인 방식으로 신호 조작을 위한 방법을 제공한다는 점이다.
이를 위해, 오디오 신호의 신호-적응적 분석이 수행되고, 분석 결과에 기초하여, 복수개의 대역통과 필터들이 신호-적응적 방식으로 추정된다. 구체적으로, 대역통과 필터들의 대역폭들은 일정하지 않지만, 대역통과 필터의 중심 주파수에 좌우된다. 그러므로, 본 발명은 변화하는 대역통과-필터 주파수들 및 추가적으로 변화하는 대역통과-필터 대역폭들을 허용하며, 그에 따라 각 지각적으로 올바른 대역통과 신호에 대해, 대략 계산된 대역통과 중심 주파수인 현재의 중심 주파수를 함께 갖는 진폭, 크기 및 주파수 변조가 획득된다. 바람직하게, 가능한 사람 귀를 모델링하기 위해, 대역의 중심 주파수의 주파수 값은 이 대역 내의 에너지의 무게 중심(COG)를 나타낸다. 따라서, 대역통과 필터의 중심 주파수의 주파수 값은 대역에서 특정 톤 상에 존재하도록 필수적으로 선택될 필요는 없지만, 대역통과 필터의 중심 주파수는 주파수 값 사에 용이하게 존재할 수 있으며, 여기에서 피크는 FFT 스펙트럼에 존재하지 않는다.
주파수 변조 정보는 대역 통과 신호를 결정된 중심 주파수와 다운-믹스함으로써 획득된다. 따라서, 중심 주파수가 FFT-기반 (스펙트럼-기반) 결정으로 인해 낮은 시간 해상도로 결정되었더라도, 순간적인 시간 정보는 주파수 변조로 보존된다. 그러나, 함께 진폭 크기를 사용한, 캐리어 주파수로의 장기 변동의 분리 및 주파수 변조 정보로의 단기 변동의 분리는 지각적으로 올바른 감각으로 보코더-형 파라미터화된 표현을 허용한다.
따라서, 본 발명은 추출된 정보가 지각적으로 의미있고 변조 정보에 적용된 변조 처리가 지각적으로 평탄한 결과물을 생성한다는 조건이 만족되면, 변조 표현 자체의 한계에 의해 유입된 바람직하지 않은 아티펙트들을 회피하므로 장점을 갖는다.
본 발명의 다른 장점은 추출된 캐리어 정보만이 오디오 신호의 조악하지만, 지각적으로 유쾌한 전형적인 "스케치" 재구성을 이미 허용하고, AM 및 FM 관련된 정보의 어떠한 연속하는 어플리케이션이 전체 디테일 및 투명도를 가지도록 이 표현을 개량하는데, 이는 본 발명의 개념이, 증가하는 정확도/시간 해상도로 AM 및 FM 관련 정보를 갖는 추가적인 더 높은 스케일링 계층들을 사용하는 고품질까지 이미 지각적으로 유쾌한, 추출된 캐리어 정보만을 사용하여 "스케치" 내구성에 따라 낮은 스케일링 계층으로부터 전체 스케일링을 허용함을 의미한다.
본 발명의 장점은 한편으로 새로운 오디오 효과들의 발전을 위해 그리고, 다른 한편으로 추가의 효율적인 오디오 압축 알고리즘에 대한 빌딩 블록으로서 매우 바람직하다는 것이다. 과거에는 파라메트릭 코딩 방법들 및 파형 코딩 간의 구별이 있어 왔지만, 이 구별은 본 발명에 의해 상당한 정도까지 연결될 수 있다. 파형 코딩 방법들이 제공된 투명도까지 이용가능한 필수적인 비트율을 스케일링하더라도, CELP 또는 ACELP 방식과 같은 파라메트릭 코딩 방식들은 기저의 소스 모델의 한계점에 영향을 받으며, 이들 코더에서 비트율이 더 증가하더라도, 투명도에응 도달하지 못한다. 그러나, 파라메트릭 방법들은 일반적으로 조작 가능성의 넓은 범위를 제공하며, 이는 파형 코딩이 원래의 신호의 가능한 재생성으로서 최상까지 분명하게 한정되더라도, 오디오 효과들의 어플리케이션에 대해 활용될 수 있다.
본 발명은 양 접근법들 간의 끊김없는 전이를 가능하게 함으로써 이 간극을 연결한다.
이하, 본 발명의 실시예들이 첨부된 도면들과 관련하여 설명된다.
도 1a는 오디오 신호의 변환을 위한 장치 및 방법의 일 실시예를 모식적으로 나타낸다.
도 1b는 다른 바람직한 실시예를 모식적으로 나타낸다.
도 2a는 도 1a 실시예와 관련하여 처리 동작을 나타낸 플로우차트이다.
도 2b는 바람직한 일 실시예에서 복수개의 대역 통과 신호들을 발생시키는 동작 프로세스를 나타낸 플로우차트이다.
도 2c는 COG 계산에 기반한 신호-적응적 스펙트럼 분할 및 지각적 한계점들을 도시한다.
도 2d는 도 1b 실시예와 관련하여 수행되는 프로세스를 나타낸 플로우차트를 도시한다.
도 3a는 파라미터화된 표현을 변경하는 컨셉의 일 실시예를 모식적으로 나타낸다.
도 3b는 도 3a에 도시된 컨셉의 바람직한 일 실시예를 도시한다.
도 3c는 AM 정보를 조악하고 미세한 구조 정보로 분해하는 것을 설명하기 위한 모식적 도면을 나타낸다.
도 3d는 도 3c 실시예에 기초한 압축 시나리오를 나타낸다.
도 4a는 합성 컨셉의 모식적 도면을 나타낸다.
도 4b는 도 4a 컨셉의 바람직한 일 실시예를 나타낸다.
도 4c는 오버랩핑의 표현, 처리된 시간-영역 오디오 신호, 오디오 신호의 비트스트림 및 변조 정보 합성을 위한 오버랩/가산 절차를 나타낸다.
도 4d는 파라미터화된 표현을 이용하여 오디오 신호를 합성하는 바람직한 실시예의 플로우차트를 도시한다.
도 5는 종래 분석/합성 보코더 구조를 도시한다.
도 6은 도 5의 종래 필터 구현을 도시한다.
도 7a은 원래의 음악 아이템의 스펙트로그램을 도시한다.
도 7b는 합성된 캐리어만의 스펙트로그램을 도시한다.
도 7c는 조악안 AM 및 FM에 의해 규정된 캐리어들의 스펙트로그램을 도시한다.
도 7d는 조악한 AM 및 FM에 의해 규정된 캐리어들 및 가산된 '그레이스 잡음'의 스펙트로그램을 도시한다.
도 7e는 합성 후 캐리어들 및 처리되지 않은 AM 및 FM의 스펙트로그램을 도시한다.
도 8은 주관적 오디오 품질 테스트의 결과를 도시한다.
도 9a는 2-톤 신호, 멀티-촌 신호 및 근사적으로 대역-제한된 멀티-톤 신호의 파워 스펙트럼 밀도를 도시한다.
도 9b는 2-톤 신호, 멀티-촌 신호 및 근사적으로 대역-제한된 멀티-톤 신호의 파형 및 포락선을 도시한다.
도 9c는 2개의 지각적으로 - 대역 통과 측면에서 - 등가의 신호들을 생생하는 공식들을 도시한다.
도 1a는 오디오 신호(100)를 파라미터화된 표현(180)으로 변환하는 장치를 도시한다. 이 장치는 분석 결과(104)를 획득하기 위해 오디오 신호의 부분을 분석하는 신호 분석기(102)를 포함한다. 분석 결과는 신호 분석 결과에 기초하여 오디오 신호 부분에 대해 복수개의 대역 통과 필터들에 관한 정보를 추정하는 대역 통과 추정기(106)로 입력된다. 따라서, 복수개의 대역-통과 필터들에 관한 정보(108)는 신호-적응적 방식으로 계산된다.
특히, 복수개의 대역-통과 필터들에 관한 정보(108)는 필터 형상(filter shape)에 관한 정보를 포함한다. 필터 형상은 대역-통과 필터의 대역폭 및/또는 오디오 신호의 부분에 대한 대역-통과 필터의 중심 주파수, 및/또는 파라메트릭 형태 또는 비-파라메트릭 형태로 크기 전달 함수의 스펙트럼 형태를 포함할 수 있다. 중요하게는, 대역-통과 필터의 대역폭은 전체 주파수 범위에 걸쳐 일정하지 않지만, 대역-통과 필터의 중심 주파수에 좌우된다. 바람직하게는, 이러한 의존성에 따라 대역폭이 높은 중심 주파수들까지 증가하고, 낮은 중심 주파수들까지 감소한다. 더 바람직하게는, 대역-통과 필터의 대역폭은 바크 스케일(bark scale)과 같은 완전히 지각적으로 올바른 스케일로 결정되어, 대역-통과 필터의 대역폭은 어떤 신호-적응적으로 결정된 중심 주파수에 대해 사람의 귀에 의해 실제로 수행되는 대역폭에 항상 좌우된다.
이를 위해, 신호 분석기(102)는 오디오 신호의 신호 부분의 스펙트럼 분석을 수행하고, 특히, 파워가 집중된 영역들을 찾기 위해, 이러한 영역들은 또한 사운드를 수신하고 추가적으로 처리할 때 사람의 귀에 의해 결정되기 때문에, 스펙트럼에서 파워 분포(power distribution)를 분석한다.
본 발명의 장치는 오디오 신호의 부분에 대해 복수개의 대역-통과 필터들의 각 대역에 대해 진폭 변조(112) 또는 주파수 변조(114)를 추정하는 변조 추정기9110)를 추가적으로 포함한다. 이를 위해, 변조 추정기(110)는 이하 설명되는 바와 같이, 복수개의 대역-통과 필터들(108)에 관한 정보를 이용한다.
도 1a의 본 발명의 장치는 진폭 변조(112)에 관한 정보 또는 주파수 변조(114)에 관한 정보 또는, 복수개의 대역-통과 필터들(108)에 관한 정보를 전송하고, 저장하고 또는 변경하기 위한 출력 인터페이스(116)를 추가적으로 포함하는데, 복수개의 대역-통과 필터들(108)에 관한 정보는 전술한 바와 같이 오디오 신호의 이 특정 부분/블록에 대한 대역-통과 필터들의 중심 주파수들의 값들과 같은 필터 형상 정보 또는 다른 정보를 포함할 수 있다. 출력은 도 1a에 도시된 바와 같이, 파라미터화된 표현(180)이다.
도 1d는 도 1a의 변조 추정기(110) 및 신호 분석기(102) 그리고, 도 1b에서 "캐리어 주파수 추정"으로 명명된 단일 유닛으로 결합된 도 1a의 대역-통과 추정기(106)의 바람직한 일 실시예를 도시한다. 변조 추정기(110)는 대역-통과 신호를 제공하는 대역-통과 필터(110a)를 바람직하게 포함한다. 이는 분석적 신호 변환기(110b)로 입력된다. 블록(110b)의 출력은 AM 정보 및 FM 정보를 계산하는데 유용하다. AM 정보를 계산하기 위해, 분석적 신호의 크기는 블록(110c)에 의해 계산된다. 분석적 신호 블록(110b)의 출력은 곱셈기(110d)로 입력되는데, 상기 곱셈기의 다른 입력에는 대역 통과(110a)의 실제 캐리어 주파수 fc에 의해 제어되는 오실레이터(110e)로부터의 오실레이터 신호를 수신한다. 그런 다음, 곱셈기 출력의 위상은 블록(110f)에서 결정된다. 순간적인 위상은 최종적으로 FM 정보를 획득하기 위해 블록(110g)에서 구별된다.
따라서, 캐리어 신호들 및 이들의 관련 변조 성분들로의 분해는 도 1b에 도시되어 있다.
도면에는, 하나의 성분의 추출을 위한 신호 흐름이 도시되어 있다. 모든 다른 성분들은 유사한 방식으로 획득된다. 추출은 대략 340 ms의 시간 간격 및 85 ms의 폭(stride)에 대응하는, 48 kHz 샘플링 주파수 및 3/4 오버랩에서 N = 214의 블록 사이즈를 사용하여 블록-단위(block-by-block) 방식에 따라 바람직하게 수행된다. 다른 블록 사이즈 또는 오버랩 인자가 또한 사용될 수 있음을 주지한다. 이는 신호의 DFT 스펙트럼의 국지적 COG [12]에 중심을 갖는 신호 적응적 대역 통과 필터로 구성된다. 국지적 COG 후보들은 (3)에서 규정된 CogPos 함수에서 포지티브-투-네가티브 전이들(transitions)을 탐색함으로써 추정된다. 차후-선택 절차(post-selection procedure)는 최종적인 추정된 COG 위치들은 지각적 스케일에 대해 대략적으로 등거리에 있다.
Figure pct00003
(3)
모든 스펙트럼 계수 인덱스 k에 대해, 평탄한 슬라이딩 윈도우 w에 의해 커버되는 스펙트럼 영역에서 무게(gravity)의 국지적 중심을 향해 상대적 오프셋을 산출한다. 윈도우의 폭 B(k)는 지각적 스케일, 예컨대, 바크 스케일을 쫓아간다. X(k,m)은 시간 블록 m에서 스펙트럼 계수 k이다. 추가적으로, 시상수 τ로 1차 회귀(recursive) 시간 평탄화가 이루어진다.
반복적이거나 비반복적인, 무게 값 계산 함수의 다른 중심이 있을 수 있다. 예컨대, 비반복적인 함수는 대역의 서로 다른 부분들을 위한 에너지 값들을 가산하고, 서로 다른 부분들에 대한 가산 동작의 결과물을 비교하는 것을 포함한다.
국지적 COG는 주파수 영역에서 스펙트럼 기여분으로 인해 사람인 청취자에 의해 인지되는 '평균' 주파수에 대응한다. 이 관계를 보기 위해, COG 및 [12]에서 도출한 '세기 가중된 평균 순간 주파수'(IWAIF)의 등가물을 주목한다. COG 추정 윈도우 및 결과적인 필터의 전이 대역폭은 사람의 귀('임계 대역들')의 해상도에 관련하여 선택된다. 여기에서, 대략 0.5 바크의 대역폭은 모든 종류의 시험 항목들(음성, 음악, 주변상황)에 대해 양호한 값이 됨을 경험적으로 발견하였다. 추가적으로 이 선택은 문헌 [13]에 의해 지지된다.
이어서, 분석적 신호는 대역 통과 필터링된 신호의 힐버트(Hilbert) 변환을 사용하여 획득되고, 추정된 COG 주파수에 의해 헤테로다이닝된다. 최종적으로, 신호는 그 진폭 포락선 및, 원하는 AM 및 FM 신호들을 산출하는 순간 주파수(IF) 트랙으로 추가적으로 분해된다. 국지적 COG 위치들에 중심을 갖는 대역 통과 신호들의 사용은 전통적인 위상 보코더의 '작용 영역( regions of influence )'에 해당함을 주지한다. 두가지 방법은: 첫번째 방법은 본질적으로 그리고 나중 방법은 국지적 스펙트럼 위상 코히어런스를 보장함으로써, 대역 통과 신호의 시간 전개를 유지한다.
결과적인 일련의 필터들은 한편으로 스펙트럼을 끊김 없이 커버하고 다른 한편으로 인접한 필터들은 (변경된) 성분들의 합성 후에 원하지않는 맥놀이 효과(beating effects)를 가져오기 때문에 너무 많이 오버랩하지 않는다. 이는 지각적 스케일을 추종하는 필터들의 대역폭에 대해 어떤 절충안을 관련시키지만, 동시에 끊김 없는 스펙트럼 커버리지를 제공해야 한다. 그래서, 캐리어 주파수 추정 및 신호 적응적 필터 설계는 분해 성분들의 지각적 중요성을 위한 결정적인 부분으로 판명되며, 그에 따라 재-합성된(re-synthesized) 신호의 품질에 강한 영향을 미친다. 이러한 보상 분할의 예가 도 2c에 도시된다.
도 2a는 오디오 신호를 도 2b에 도시된 파라미터화된 표현으로 변환하기 위한 바람직한 프로세스를 도시한다. 첫번째 단계 120에서, 오디오 신호의 블록들이 형성된다. 이를 위해, 바람직하게 윈도우 함수가 사용된다. 그러나, 윈도우 함수의 사용은 어떤 경우에도 필수적이지 않다. 그런 다음, 단계 121에서, 고주파수 해상도 스펙트럼(121)으로의 스펙트럼 변환이 수행된다. 그런 다음, 단계 122에서, 무게 함수의 중심(center-of-gravity)이 수식 (3)을 사용하여 바람직하게 계산된다. 이 계산은 신호 분석기(102)에서 수행되며, 이어서 결정된 제로 교차점들(zero crossings)은 도 1a의 신호 분석기(102)로부터 도 1a의 대역-통과 추정기(106)로 제공된 분석 결과(104)가 될 것이다.
수식 (3)으로부터 알 수 있는 바와 같이, 무게 함수의 중심은 서로 다른 대역폭에 기초하여 계산된다. 특히, 수식 (3)에서 분자 nom(k,m) 및 분모 (k,m)를 위한 계산에서 사용된 대역폭 B(k)는 주파수-의존적이다. 그러므로, 주파수 인덱스 k는 B의 값을 결정하고, 더 바람직하게는 B의 값은 증가하는 주파수 인덱스 k에 대해 증가한다. 그러므로, nom(k,m)에 대해 수학식 (3)에서 명백한 바와 같이, 스펙트럼 영역에서 윈도우 폭 B를 갖는 "윈도우"는 대략 어떤 주파수 값 k에 중심을 가지는데, 여기에서 i는 -B(k)/2 내지 +B(k)/2에 있다.
nom 항에서 윈도우 w(i)에 곱해지는 인덱스 i는, 실제 주파수 값 k의 좌측에 대한 스펙트럼 파워 값 X2(여기에서, X는 스펙트럼 진폭임)는 네가티브 부호를 갖는 합산 동작으로 진입하는 반면, 주파수 인덱스 k의 우측에 대한 제곱된 스펙트럼 값들은 포지티브 부호를 갖는 합산 동작으로 진입한다. 당연히, 이 함수는 서로 다를 수 있으며, 그러므로 예컨대, 상위 절반은 네가티브 부호에 진입하고, 하위 절반은 포지티브 부호에 진입하는 것을 보장한다. 함수 B(k)는 무게 중심의 지각적으로 올바른 계산이 발생되도록 보장하며, 이 함수는 예컨대, 도 2c에 도시된 바와 같이, 바람직하게 결정되는데, 도 2c에는 지각적으로 올바른 스펙트럼 분할이 도시되어 있다.
다른 구현예에서, 스펙트럼 값 X(k)은 무게 함수의 중심을 계산하기 전에 대수 영역(logarithmic domain)으로 변환된다. 그런 다음, 수식 (3)에서 분자 및 분모를 위한 항에서의 값 B는 (대수 스케일) 주파수에 관련없다. 여기에서, 지각적으로 올바른 의존성은 이미 스펙트럼 값들 X에 포함되어 있으며, 이 값은 본 실시예에서 대수 스케일로 존재한다. 당연하게, 대수 스케일에서의 동일한 대역폭은 비대수 스케일에서의 중심 주파수에 대해 증가하는 대역폭에 대응한다.
제로 교차점 및 특히 포지티브-투-네가티브 전이가 단계 122에서 계산되자 마자, 후속-선택 절차(post-selection procedure)가 단계 214에서 수행된다. 여기에서, 제로 교차점에서의 주파수 값들은 지각적 기준(perceptual criteria)에 기초하여 변경된다. 이 변경은 몇가지 제한사항들을 가져오는데, 이들 제한사항들은 전체 스펙트럼이 바람직하게 커버되어야 하고, 어떠한 스펙트럼 홀도 바람직하게 허용되지 않는다는 것이다. 게다가, 대역-통과 필터들의 중심 주파수들은 가능한 무게 함수 제로 교차점의 중심에 위치되며, 바람직하게는, 스펙트럼의 낮은 부분에서 중심 주파수들의 위치 는 스펙트럼의 높은 부분에서의 위치에 대해 호의적이다. 이는 신호 적응적 스펙트럼 분할이 스펙트럼의 낮은 부분에서 단계 122의 무게 결과들의 중심을 더 가깝게 추종하려고 하고, 이 결정에 기초하여 스펙트럼의 높은 부분에서 무게들의 중심이 대역-통과 중심 주파수들과 일치하지 않을 때 이 오프셋이 허용됨을 의미한다.
중심 주파수 값들 및 대역 통과 필터들의 대응하는 폭들이 결정되자 마자, 오디오 신호 블록은 단계 124에 의해 획득된 변경된 주파수들에서 대역폭들이 변화함에 따라 대역 통과 필터들을 갖는 필터 뱅크에서 필터링된다(126). 따라서, 도 2c의 예에 대하여, 신호-적응적 스펙트럼 분할에서 도시된 바와 같은 필터 뱅크는 필터 계수들을 계산하고 이들 필터 계수들을 설정함으로써 적용되고, 이 필터 뱅크는 이어서 이들 스펙트럼 분할(segmentation)을 계산하는데 사용되어진 오디오 신호의 부분을 필터링하는데 사용된다.
이 필터링은 필터 뱅크 또는, 윈도우잉된 DFT, 이어진 스펙트럼 가중 및 IDFT와 같은 시간-주파수 변환을 이용하여 수행되는데, 여기에서 단일 대역 통과 필터는 110a에 도시되어 있고, 다른 성분들(101)을 위한 대역 통과 필터들은 대역 통과 필터(110a)와 함께 필터 뱅크를 형성한다. 서브대역 신호들
Figure pct00004
에 기초하여, AM정보 및 FM 정보 즉, 112, 114는 단계 128에서 계산되고 오디오 샘플링 값들의 블록의 파라미터화된 표현으로서 각 대역 통과를 위한 캐리어 주파수와 함께 출력된다.
그런 다음, 하나의 블록을 위한 계산이 완료되고, 단계 130에서, 전진 또는 진행 값이 도 2a에서 120에 의해 지시된 오디오 샘플들의 다음 블록을 획득하기 위해 오버랩하는 방식으로 시간 영역에서 적용된다.
이 절차는 도 4c에 도시되어 있다. 시간 영역 오디오 신호는 상위 부분에 도시되어 있는데, 여기에서 예시적으로 7개의 부분들(각 부분은 바람직하게 동일한 개수의 오디오 샘플들을 바람직하게 포함함)이 도시되어 있다. 각 블록은 N개의 샘플들로 이루어진다. 도시된 바와 같이, 첫번째 블록 1은 첫번째 4개의 인접한 부분들 1, 2, 3 및 4로 이루어진다. 다음 블록 2는 신호 부분들 2, 3, 4, 5로 이루어지며, 세번째 블록, 즉 블록 3은 신호 부분들 3, 4, 5, 6을 포함하고, 네번째 블록 즉, 블록 4는 연속하는 신호 부분들 4, 5, 6 및 7을 포함한다. 비트 스트림에서, 도 2a의 단계 128은 바깥 부분들은, 그에 따라 필터 링잉(filter ringing) 또는 설계된 변환 윈도우의 특징의 롤-오프(roll-off)를 포함할 수 있기 때문에, 각 블록 즉, 블록 1, 블록 2, 블록 3, 블록 4 또는 블록의 선택된 부분, 바람직하게는 N/2 중간 부분에 대해 파라미터화된 표현을 발생시킨다. 바람직하게, 각 블록을 위한 파라미터화된 표현은 시퀀스적 방식으로 비트 스트림에서 전송된다. 도 4c의 상위 플롯에 도시된 예에서, 4-겹 오버랩핑 동작이 형성된다. 선택적으로, 2-겹 오버랩이 단계 130에 적용된 상기 전진 값 또는 진행 값이 하나의 부분 대신에, 도 4c에서 2개의 부분을 갖도록 또한 수행될 수 있다. 기본적으로, 오버랩 동작은 전혀 필요하지 않지만, 블록킹 아티펙트를 회피하기 위해 그리고 본 발명의 바람직한 실시예에 따라 시간 영역에서 수행되지 않지만 도 4c에 도시된 바와 같이 그리고, 도 4a 및 4b에 관련하여 이하 설명되는 바와 같이, AM/FM 영역에서 수행되는, 블록으로부터 블록으로의 크로스-페이드 동작을 허용하기 위해 바람직하다.
도 2b는 수식 (3)에 대해 도 2a에서 특정 절차의 일반적인 구현예를 나타낸다. 도 2b의 절차는 신호 분석기 및 대역 통과 추정기에서 부분적으로 수행된다. 단계 132에서, 오디오 시호의 부분은 파워의 스펙트럼 분포에 관하여 해석된다. 단계 132는 시간/주파수 변환을 포함할 수 있다. 단계 134에서, 스펙트럼에서 국지적 파워 집중에 대해 추정된 주파수 값들은 서로 다른 대역 통과 필터들의 지각적으로 자극된 대역폭들을 가지고 스펙트럼에서 어떠한 홀도 가지지 않은, 도 2c에서의 스펙트럼 분할과 같은 지각적으로 올바른 스펙트럼 분할을 획득하기 위해 적응적이 된다. 단계 135에서, 오디오 신호의 부분은 필터 뱅크 또는 변환 방법을 이용하여 결정된 스펙트럼 분할을 이용하여 필터링되는데, 여기에서 필터 뱅크 분할을 위한 예가 대역 통과(110a) 및 도 1b에서의 다른 성분들(101)을 위한 대응하는 대역 통과 필터들을 갖는 하나의 채널에 대해 도 1b에 주어진다. 단계 135의 결과는 고주파수들까지 증가하는 대역폭을 갖는 대역들에 대해 복수개의 대역 통과 신호들이다. 그런 다음, 단계 136에서, 각 대역 통과 신호는 바람직한 실시예에서 엘리먼트 110a 내지 110g를 사용하여 개별적으로 처리된다. 그러나, 선택적으로, 진폭(A) 변조 및 주파수(F) 변조를 추출하기 위한 모든 다른 방법들이 각 대역 통과 신호를 파라미터화하기 위해 수행될 수 있다.
이어서, 각 대역 통과 신호를 개별적으로 처리하는 바람직한 시퀀스의 단계들이 도시된 도 2d가 설명된다. 단계 138에서, 대역 통과 필터는 계산된 중심 주파수 값을 이용하여 그리고 도 2b의 단계 134에서 획득된 스펙트럼 분할에 의해 결정된 대역폭을 이용하여 설정된다. 이 단계는 대역 통과 필터 정보를 사용하며, 또한, 대역 통과 필터 정보를 도 1a의 출력 인터페이스(116)로 출력하는데 사용될 수 있다. 단계 139에서, 오디오 신호는 단계 138에서 설정된 대역 통과 필터를 사용하여 필터링된다. 단계 140에서 대역 통과 신호의 분석 신호가 형성된다 여기에서, 순수한(ture) 힐버트 변환 또는 근사화된 힐버트 변환 알고리즘이 적용될 수 있다. 이는 도 1b에서 아이템(110b)에 의해 도시되어 있다. 그런 다음, 단계 141에서 도 1b의 박스(110c)의 구현이 수행되는데, 즉, 분석 신호의 크기는 AM 정도를 제공하기 위해 결정된다. 기본적으로, AN 정보는 블록(110a)의 출력에서 대역 통과 신호의 해상도와 동일한 해상도로 획득된다. 이 대량의 AM 정보를 압축하기 위해, 어떠한 부분제거(decimation) 또는 파라미터화 기술이 사용될 수 있는데, 이에 대해 이하 설명된다.
위상 또는 주파수 정보를 획득하기 위해, 단계 142는 분석 신호를 대역 통과 필터의 중심 주파수를 갖는 오실레이터 신호와 곱셈하는 것을 포함한다. 곱셈의 경우, 이어지는 저역 통과 필터링 동작은 단계 132에서 곱셈에 의해 생성된 고주파수 부분을 제거하는데 바람직하다. 오실레이터 신호가 복소수(complex)이면, 필터링이 요구되지 않는다. 단계 142는 다운 믹스된 분석 신호를 초래하는데, 이 다운 믹스된 분석 신호는 도 1b의 박스(110f)에 의해 지시된 바와 같은 순간적인 위상 정보를 추출하도록 단계 143에서 처리된다. 이 위상 정보는 AM 정보에 추가하여 파라메트릭 정보로서 출력될 수 있지만, 114에서 도 1b에 도시된 바와 같이 순수 주파수 변조 정보를 획득하기 위해 박스(114)에서 이 위상 정보를 차별화하는 것이 바람직하다. 다시 말해, 위상 정보는 주파수/위상 관련 변동을 나타내는데 사용될 수 있다. 파라미터화된 정보로서의 위상 정보가 충분하다면, 블록(110g)에서의 차별화는 필수적이지 않다.
도 3a는 시간 부분에 대해, 도 4c의 중간의 플롯에서 블록(1)과 같은, 복수개의 대역 통과 필터들로부터의 대역 통과 필터 정보를 갖는, 오디오 신호의 파라미터화된 표현을 변경하는 장치를 도시한다. 대역 통과 필터 정보는, 대역 통과 필터들에 좌우되는 대역폭을 가지며, 각 시간 부분에 대해 각 대역 통과 필터를 위한 진폭 변조 또는 위상 변조 또는 주파수 변조 정보를 갖는 대역 통과 필터들의 시간/변화하는 대역 통과 중심 주파수들(캐리어 주파수들)을 나타낸다. 변조 장치는, 시간 변화하는 중심 주파수를 변경하거나 진폭 변조 정보 또는 주파수 변조 정보 또는 위상 변조 정보를 변경하도록 동작하고, 오디오 신호 부분 즉, 변경된 AM 정보, 변경된 PM 정보 또는 변경된 FM 정보에 대한 중심 주파수들을 갖는 변경된 파라미터화된 표현을 출력하는 정보 변경기(information modifier)(160)를 포함한다.
도 3b는 도 3a의 정보 변경기(160)의 바람직한 실시예를 도시한다. 바람직하게, AM 정보는 AM 정보를 조악한/미세한 스케일 구조로 분해하는 분해 스테이지로 도입된다. 이 분해는, 바람직하게 도 3c에 도시된 바와 같은 분해와 같이 비선형 분해이다. AM 정보에 대해 전송된 데이터를 압축하기 위해, 조악한 구조만이 예컨대, 합성기로 전송된다. 이 합성기의 일부가 가산기(160e) 및 대역 통과 잡음 소스(160f)가 될 수 있다. 그러나, 이들 구성요소들은 정보 변경기의 부분일 수도 있다. 그러나, 바람직한 실시예에서, 전송 경로는 블록(160a)과 블록(160e) 사이에 있으며, 이 전송 채널 상에서, 조악한 구조의 파라미터화된 표현 및 예컨대, 미세한 구조를 나타내거나 이로부터 도출된 에너지 값이 분석기로부터 합성기로 라인(161)을 통해 전송된다. 그런 다음, 합성기측에서, 잡음 소스(160f)가 특정 대역 통과 신호를 위한 대역 통과 잡음 신호를 제공하기 위해 스케일링되고, 잡음 신호는 라인(161) 상에서 에너지 값과 같은 파라미터를 통해 지시된 에너지를 갖는다. 그런 다음, 디코더/합성기측에서 잡음은 미세한 구조의 인공적 합성(artificial synthesis)으로 인해 전송을 위한 낮은 비트율을 단지 요청한 신호를 합성하기 위해, 조안한 구조에 의해 시간적으로 형상화되고, 그 타겟 에너지만큼 가중되고, 전송된 조악한 구조에 더해진다. 일반적으로, 잡음 가산기(160f)는 어떤 포괄적인 에너지 값과 미리결정된 시간 에너지 분포를 갖는 (의사-랜덤) 잡음 신호를 가산한다. 이는 전송된 보조 정보(side information)를 통해 제어되거나, 예컨대, 각 대역에 대해 결정된 고정 값과 같은, 실험적 그림에 기초하여 고정적으로 설정된다. 다르게는, 이는 변경기 또는 합성기에서의 국지적 분석에 의해 제어되는데, 여기에서 획득가능한 신호가 분석되고, 잡음 가산기 제어 값들이 도출된다. 이들 제어값들은 바람직하게 에너지-관련 값들이다.
정보 변경기(160)는 추가적으로, 중심 주파수들을 구속 다항식 근사 기능(constraint polynomial fit functionality)(160b) 및/또는 곱셈기(160c)를 통해 FM 정보를 트랜스포지션하는 트랜스포저(160d)를 포함할 수 있다. 다르게는, 캐리어 주파수들을 변경하는 데에만 유용하고, FM 정보 또는 AM 정보를 변경하지는 않으며 또는 FM 정보를 변경하는 데에만 유용하고, AM 정보 또는 캐리어 주파수 정보를 변경하지는 않는다.
변조 성분들이 준비되어 있으면, 새롭고 흥미로운 처리 방법들이 실행가능하다. 여기에 나타난 변조 분해의 큰 장점은 제안된 분석/합성 방법은, 어떠한 변조 처리의 결과 - 처리의 정체로부터 크게 확장된 것에 독립적으로 - 지각적으로 평탄한(클릭들, 일시적인 반복 등으로부터 자유로움) 것을 분명하게 보장하는 것이다. 변조 처리의 몇가지 예들은 도 3b에 포함된다.
분명히 우세적인 어플리케이션은 원래의 재생 속도를 유지하면서 오디오 신호의 "트랜스포지셔닝(trnasposing)이다: 이는 모든 캐리어 성분들에 일정한 인자를 곱함으로써 용이하게 달성된다. 입력 신호의 시간적 구조는 캐리어의 스펙트럼 스페이싱(spacing)의 확장에 의해 영향받지 않는 AM 신호에 의해 단독으로 갭쳐된다.
만약 어떤 미리결정된 주파수 간격들에 대응하는 캐리어들의 서브셋만이 적절한 새로운 값들에 맵핑되면, 음악 조각의 키 모드는 단조에서 장조로 또는 그 반대로 변화될 수 있다. 이를 달성하기 위해, 캐리어 주파수들은 MIDI 넘버들로 양자화되고, 이어서 MIDI 넘버들은 적절한 새로운 MIDI 넘버들로 맵핑된다(모드의 선험적 지식 및 처리될 음악 아이템의 키를 이용하여). 마지막으로, 맵핑된 MIDI 넘버들은 합성을 위해 사용되는 변경된 캐리어 주파수들을 획득하기 위해 다시 변환된다. 다시 말해, 지정된 MIDI는 시간 특성이 변경되지 않은 AM에 의해 우세적으로 나타나고 그에 따라 보존되기 때문에, 온셋/오프셋 검출이 요청되지 않음을 나타낸다.
더 개선적인 처리는 신호의 변조 속성들의 변경을 목적으로 한다: 예컨대, 변조 필터링에 의해 신호의 "거칠음(roughness)" [14][15]을 변경하는 것이 바람직할 수 있다. AM 신호에서, 음악 이벤트 등의 온- 및 오프-셋에 관련된 조악한 구조 및 더 빠른 변조 주파수들(~30-300 Hz)에 관련된 미세한 구조가 있다. 이 미세한 구조는 오디오 신호(2 kH까지의 캐리어에 대한)의 거친 속성들을 나타내기 때문에 [15][16], 청각 거칠음은 미세한 구조를 제거하고 조악한 구조를 유지함으로써 변경될 수 있다.
포락선을 조악한 그리고 미세한 구조로 분해하기 위해, 비선형 방법들이 사용될 수 있다. 예컨대, 조악한 AM을 캡쳐하기 위해 (저차수의) 다항식의 구분적 근사(piecewise fit)를 적용할 수 있다. 미세한 구조(잔여물)는 원래의 조악한 포락성의 차이로서 획득된다. AM 미세 구조의 손실(loss)은 - 원한다면 - 잔여물의 에너지에 의해 스케일링되고 조악한 AM 포락선에 의해 시간적으로 형상화된 대역 한정된 '그레이스' 잡음을 더함으로써, 지각적으로 보상될 수 있다.
만약 변경물들이 AM 신호에 적용되면, 처리되지 않은 FM은 하나의 대역 통과 영역 내에 비팅 효과로 인해 갑작스런 피크들을 포함할 수 있기 때문에, FM 신호를 천천히 변화하기만 하도록 한정하는 것은 바람직하다 [17][18]. 이들 피크들은 AM 신호의 제로 [19]에 근사하게 나타나고, 지각적으로 무시할 수 있다. IF에서 이러한 피크의 예는 힐버트 포락선의 제로 위치들에서 파이(pi)의 위상 점프의 형태로, 도 9에서 공식 (1)에 따라 신호에서 보여질 수 있다. 바람직하지 않은 피크들은 원래의 AM 신호가 근사의 바람직한 양호함을 위한 가중치로서 작용하는 FM 상에서 맞춰진, 예컨대, 한정된 다항식에 의해 제거될 수 있다. 따라서, FM에서의 스파이크들은 바람직하지 않은 바이어스를 유입하지 않으면서 제거될 수 있다.
다른 어플리케이션이 신호로부터 FM을 제거해야 한다. 여기에서 간단히 FM을 제로로 설정할 수 있다. 캐리어 신호들은 국지적 COG들에 중심을 가지므로, 이들은 지각적으로 올바른 국지적 평균 주파수를 나타낸다.
도 3a는 대역 통과 신호로부터 조악한 구조를 추출하는 예를 도시한다. 도 3c는 상부 플롯에서 어떤 악기에 의해 생성된 톤을 위한 통상적인 조악한 구조를 나타낸다. 처음에, 악기가 조용하고, 어택 시간 순간에, 진폭의 급한 상승이 보여질 수 있으며, 이는 소위 유지 구간(sustain period)에서 일정하게 유지된다. 그런 다음, 톤은 해제된다. 이는 유지 구간의 끝에서 시작하는 일종의 지수적 쇠퇴에 의해 특징지워진다. 이는 해제 구간의 시작 즉, 해제 시간 순간이다. 유지 구간은 악기들에서 필수적이지 않다. 예컨대, 기타가 고려되면 , 톤이 줄을 자극함으로써 발생되고, 자극 시간 순간에서의 어택 후에, 줄이 해제 시간의 종료인 안정적 상태가 될 때까지 줄 진동이 약하게 된다는 사실에 의해 특징 지워진, 매우 긴 해제 구간이 즉시 뒤따른다는 것은 분명하다. 통상적인 악기에 대해, 이러한 톤들에 대해 통상적인 형태 또는 조악한 구조가 있다. 대역 통과 신호로부터 이러한 조악한 구조들을 추출하기 위해, 다항식 계수들을 결정함으로써 매칭될 수 있는, 다항식 근사가 도 3c의 상부 플롯에서의 형태와 유사한 일반적인 형태를 갖는 경우, 대역 통과 신호로의 다항식 근사를 수행하는 것이 바람직하다. 최상의 매칭 다항식 근사가 획득되자 마자, 신호는 실제 대역 통과 신호로부터 감산된 대역 통과 신호의 조악한 구조인 다항식 피드(feed)에 의해 결정되며, 그에 따라 다항식 근사가 충분히 양호할 때 다항식 계수들이 되는 조악한 구조 정보에 추가하여 분석기측으로부터 합성기측으로 전송될 수 있는 어떤 에너지를 갖는 전적으로 잡음 신호인 미세 구조가 획득된다. 대역 통과 신호의 그 조악한 구조 및 미세한 구조로의 분해는 비선형 분해를 위한 예이다. 다른 비선형 분해는 대역 통과 신호로부터 다른 특징들을 추출하기 위해 그리고 낮은 비트율 어플리케이션에서 AM 정보를 전송하는 데이터율을 크게 감소시키기 위해 수행될 수 있다.
도 3d는 이러한 절차에서의 단계들을 나타낸다. 단계 165dptj, 조악한 구조는 다항식 근사에 의해 그리고 분석기로부터 합성기로 전송될 진폭 변조 정보인 다항식 파라미터들을 계산함으로써 추출된다. 이 전송을 더 효율적으로 수행하기 위해, 전송을 위해 파라미터들의 추가적인 양자화 및 인코딩 동작(166)이 수행된다. 양자화는 균일하거나 비균일할 수 있고, 인코딩 동작은, 비디오 압축으로부터 알려진 콘텍스트 기반 알고리즘 코딩과 같은 산술적 코딩을 이용하여 또는 이용하지 않고, 호프만 코딩과 같은 임의의 공지된 엔트로피 인코딩 동작일 수 있다.
그런 다음, 매우 효율적인 방식으로 전송 채널 상에서 전송될 수 있는, 저비트율의 AM 정보 또는 FM/PM 정보가 형성된다. 합성기측에서, 단계 168이 전송된 파라미터들을 디코딩하고 역양자화하기 위해 수행된다. 그런 다음, 단계 169에서, 조악한 구조가 예컨대, 전송된 다항식 계수들을 갖는 다항식에 의해 규정된 모든 값들을 실제로 계산함으로써 재구성된다. 추가적으로, 바람직하게 전송된 에너지 파라미터들에 기반한 그리고 조악한 AM 정보에 의해 시간적으로 형상화된 대역마다 그레이스 잡음을 더하는데, 다르게는 울트라 비트율 어플리케이션에서, 경험적으로 선택된 에너지를 갖는 (그레이스) 잡음을 더함으로써 유용할 수 있다.
선택적으로, 신호 변경은, 예컨대, 장조 스케일에서 단조 스케일로 또는 그 반대로 음악 피스를 변환하기 위해 전술한 바와 같이, 중심 주파수들을 MIDI 넘버들로 또는 일반적으로 음악 스케일로 맵핑하는 것을 포함한다. 이 경우, 가장 중요하게, 캐리어 주파수들이 변경된다. 바람직하게, AM 정보 또는 PM/FM 정보는 이 경우 변경되지 않는다.
선택적으로, 1보다 큰 정수일 수 있는 또는 1와 0 사이의 분수(fractional number)일 수 있는 트랜스포지션 인자를 사용하여 모든 캐리어 주파수들을 트랜스포지션하는 것과 같은, 다른 종류의 캐리어 주파수 변경들이 수행될 수 있다. 후자의 경우에서, 톤들의 피치는 변경 후에 더 작아지며, 전자의 경우에서는 톤들의 피치가 변경 이전보다 변경 후에 더 커진다.
도 4a는 오디오 신호의 파라미터화된 표현을 합성하는 장치를 도시하는데, 파라미터화된 표현은 캐리어 주파수들, 또는 대역 통과 필터들을 위한 대역 통과 중심 주파수들과 같은 대역 통과 정보를 포함한다. 파라미터화된 정보의 추가적인 성분들은 대역 통과 신호의 진폭 변조에 관한 정보, 주파수 변조에 관한 정보, 또는 위상 변조에 관한 정보이다.
신호를 합성하기 위해, 합성을 위한 장치는 모든 대역 통과 필터들을 위한 정보를 포함하는, 변경되지 않은 또는 변경된 파라미터화된 표현을 수신하는 입력 인터페이스(200)를 포함한다. 예시적으로, 도 4a는 단일의 대역 통과 필터 신호를 위한 합성 모듈을 도시한다. AM 정보를 합성하기 위해, AM 변조에 기초하여 AM 성분을 합성하는 AM 합성기(201)가 제공된다. 추가적으로, 캐리어 주파수들에 대한 정보에 기반한 순간 주파수 또는 위상 정보와 전송된 PM 또는 FM 변조 정보를 합성하는 FM/PM 합성기가 또한 제공된다. 양 구성요소들(201, 202)은 각 필터 뱅크 채널에 대해 AM/FM/PM 변조된 진동 신호(204)인 출력 신호를 발생시키는 오실레이터 모듈에 연결된다. 또한, 결합기(205)가 다른 대역 통과 필터 채널들을 위한 오실레이터들로부터의 신호(204)와 같은 대역 통과 필터 채널들로부터의 신호들을 결합하고, 대역 통과 필터 채널들로부터의 신호들에 기초한 오디오 출력 신호를 발생시키기 위해 제공된다. 바람직한 실시예에서, 매우 간단한 방식으로 대역 통과 신호들을 단지 더하는 것은 합성된 오디오 신호(206)를 발생시킨다. 그러나, 다른 결합 방법들이 또한 사용될 수 있다.
도 4b는 도 4a 합성기의 바람직한 실시예를 도시한다. 유익한 구현은 변조 영역에서, 즉, 시간 영역 대역 통과 신호를 발생시키기 전의 영역에서 오버랩-가산 동작(OLA)에 기반한다. 도 4c의 중간 플롯에서 도시된 바와 같이, 비트스트림이 될 수 있지만, 또한 분석기 또는 변경기에 직접 접속될 수 있는 입력 신호는 AM 성분(207a), FM 성분(207b) 및 캐리어 주파수 성분(207c)로 분리된다. AM 합성기(201)는 바람직하게 오버랩-가산기(201a) 및 추가적으로 블록(201a) 뿐만 아니라 FM 합성기(202) 내에서 오버랩 가산기인 블록(202a)을 포함하는 성분 결합 제어기(component bonding controller)((201b)를 포함한다. FM 합성기(202)는 추가적으로 주파수 오버랩-가산기(202a), 위상 적분기(202b), 위상 결합기(202c)를 포함하는데, 위상 결합기(202c)는 이전 블록으로부터의 신호의 위상이 실제 블록의 위상과 연속적이 되도록 블록으로부터 블록으로 일정한 위상을 재생성하기 위해 일반적인 가산기 및, 성분 결합 제어기(201b)에 의해 제어가능한 위상 쉬프터(202d)로서 구현될 수 있다. 그러므로, 구성요소(202d, 202c)에서의 위상 가산은 분석기측에서 도 1b의 블록(110g)에서 차별화하는 동안 손실되었던 상수(constant)의 재생성에 해당한다. 지각 영역에서의 정보-손실 원근으로부터, 이는 단지 정보 손실 즉, 도 1b의 차별화 장치(110g)에 의한 상수 부분(constant portion)의 손실임이 주지되어야 한다. 이 손실은 도 4b의 성분 결합 장치(201b)에 의해 결정된 일정한 위상을 더함으로써 재생성된다.
이 신호는 모든 성분들의 가산 원칙에 따라 합성된다. 하나의 성분에 대해 프로세싱 체인이 도 4b에 도시되어 있다. 분석과 같이, 합성은 블록 단위 원리(block-by-block basis)에 따라 수행된다. 각 분석 블럭의 중심에 있는 N/2 부분은 합성을 위해 사용되기 때문에, 1/2의 오버랩 인자가 결과적으로 발생한다. 성분 결합 메커니즘은 AM과 FM을 혼합하고, 이전 블록에서 그 전신들의 스펙트럼 부근에서 성분들을 위한 절대 위상을 정렬하는데 사용된다. 스펙트럼 부근은 또한, 피치 지각에 대해 사람의 귀의 민감도를 다시 반영하도록 바크 스케일 법칙에 따라 계산된다.
상세하게 말하면, 먼저 FM 신호가 캐리어 주파수에 더해지고, 그 결과가 오버랩-가산(OLA) 스테이지로 넘겨진다. 그런 다음, 그 결과는 합성될 성분의 위상을 획득하기 위해 적분된다. 사인파 오실레이터는 결과 위상 신호가 공급받는다. AM 신호는 다른 OLA 스테이지에 의해 유사하게 처리된다. 최종적으로, 오실레이터의 출력은 성분들의 출력 신호에 대한 가산 기여분을 획득하기 위해 결과적인 AM 신호에 의해 그 진폭으로 변조된다.
도 4c는, 하부 블록에서, 50% 오버랩의 경우에 오버랩 가산 동작의 바람직한 구현을 도시한다. 이 구현에서, 현재의 블록으로부터 실제로 사용된 정보는 이전 블록의 두번째 부분인 대응하는 부분에 가산된다. 또한, 도 4c는, 하부 블록에서, 페이드-아웃되는 블록 부분이 1에서 0으로 감소하는 가중치들을 수신하는 동시에, 페이드-인될 블록이 0에서 1로 증가하는 가중치들을 수신하는 크로스-페이딩 동작을 도시한다. 이들 가중치들은 분석기측에 이미 적용될 수 있고, 그러면 디코더측의 가산기 동작만이 필요하다. 그러나, 바람직하게, 이들 가중치들은 인코더측에 적용되지 않지만, 미리결정된 방식으로 디코더측에 적용된다. 전술한 바와 같이, 각 분석 블록의 중심에 있는 N/2 부분은 도 4c에 도시된 바와 같이 1/2의 오버랩 인자가 결과로 발생하도록 합성을 위해 사용된다. 그러나, 도 4c의 상부에 도시된 바와 같은 4-겹 오버랩이 나타나도록 오버랩/가산을 위한 각 분석 블록의 갖춰진 부분을 사용할 수 있다. 중심 부분이 사용된 전술한 실시예는, 외부 1/4들이 분석 윈도우의 롤-오프를 포함하고 중심 1/4들만이 평편한-상부 부분을 가지기 때문에 바람직하다.
모든 다른 오버랩 비율이 경우에 따라 구현될 수 있다.
도 4d는 도 4a/4b 바람직한 실시예 내에서 구현될 바람직한 단계 순서를 도시한다. 단계 170에서, AM 정보의 2개의 인접한 블록들은 혼합된다/크로스-페이딩된다. 바람직하게, 이 크로스-페이딩 동작은 용이하게 합성된, 즉 변조된 대역-통과 신호의 영역에서보다는 변조 파라미터 여역에서 수행된다. 따라서, 혼합될 2개의 신호들 간의 비팅 아티펙트들이, 크로스-페이딩이 변조 파라미터 영역이 아니라 시간 영역에서 수행되는 경우와 비교하여 회피된다. 단계 171에서, 어떤 순간에 대한 절대 주파수는 가산기(202c)를 사용하여 대역 통과 신호를 위한 블록-식 중심 주파수를 미세 절대 FM 정보와 결합함으로써 계산된다. 그런 다음, 단계 171에서, 절대 주파수 정보의 2개의 인접한 블록들은 블록(202a)의 출력에서 혼합된 순간 주파수를 획득하기 위해 혼합된다/크로스-페이딩된다. 단계 173에서, OLA 동작(202a)의 결과는 도 4b에서 블록(202b)에 도시된 바와 같이 적분된다. 또한, 성분 결합 동작(201b)은 174에 도시된 이전 블록에서 해당하는 전신 주파수의 절대 위상을 결정한다. 결정된 위상에 기초하여, 도 4b의 위상 쉬프터(202d)는 도 4d에서 단계 175에 의해 또한 도시된 블록(202c)에서 적절한 φ0의 가산에 의해 신호의 절대 위상을 조정한다. 이제, 위상은 단계 176에서 도시된 바와 같이 사인파 오실레이터를 위상-제어할 수 있다. 최종적으로, 오실레이터 출력 신호는 블록(170)의 크로스 페이딩된 진폭 정보를 이용하여 단계 177에서 진폭-변조된다. 곱셈기(203b)와 같으 진폭 변조기는 최종적으로 어떤 대역 통과 채널을 위한 합성된 대역 통과 신호를 출력하는데, 이 대역 통과 신호는 본 발명의 절차로 인해, 증가하는 대역 통과 중심 주파수에 따라 저역에서 고역으로 변화하는 주파수 대역폭을 갖는다.
이하에서, 제안된 변조 처리 방식의 속성들을 나타내는 몇 개의 스펙트로그램이 제공된다. 도 7a는 오케스트라 클래식 음악 아이템(비발디)의 발췌곡의 원래의 로그 스펙트로그램을 나타낸다.
도 7b 내지 도 7e는 다양한 방식의 변조 처리 후에 대응하는 스펙트로그램들을 점점 더 복원된 변조 디테일의 순서대로 도시한다. 도 7b는 캐리어들로부터 신호 재구성만을 나타낸다. 백색 영역들은 높은 스펙트럼 에너지에 대응하며, 도 7a에서 원래의 신호의 스펙트로그램에서 국지적 에너지 집중과 일치한다. 도 7c는 동일하지만 비선형적으로 평탄화된 AM 및 FM에 의해 규정된 캐리어들을 도시한다. 디테일의 가산은 분명하게 보여질 수 있다. 도 7d에서, 추가적으로 AM 디테일의 손실은 신호에 디테일을 다시 더 가산하는, 포락선 형상화된 '그레이스' 잡음의 가산에 의해 보상된다. 최종적으로, 비변경된 변조 성분들로부터 합성된 신호의 스펙트로그램이 도 7e에 도시되어 있다. 도 7e의 스펙트로그램을 도 7a의 원래의 신호의 스펙트로그램과 비교하는 것은 전체 디테일들의 매우 양호한 재생성을 나타낸다.
제안된 방법의 성능을 평가하기 위해, 주관적 듣기 테스트가 수행되었다. MUSHRA [21] 타입의 듣기 테스트가 STAX 고품질 정전기 헤드폰을 이용하여 수행되었다. 전체 6명의 리스너들이 이 테스트에 참가하였다. 모든 피실험자들(subjects)은 경험을 가진(experienced) 리스너들로서 고려될 수 있다.
테스트 셋은 도 8에 리스트화된 아이템들로 구성되었고, 테스트 중의 배치는 도 9에 포함되어 있다.
도 8의 챠트 플롯은 결과를 도시한다. 각 항목에 대해 평균이 95% 신뢰 구간에 있음이 나타난다. 플롯들은 모든 리스너들에 대해 테스트 결과들의 통계적 분석 후의 결과들을 나타낸다. X-축은 처리 타입을 나타내고 Y-축은 0(나쁨)부터 100(있는 그대로)까지의 범위를 갖는 100-포인트 MUSHRA 스케일에 따른 점수를 나타낸다.
그 결과로부터, 모두 AM 및 전체 또는 조악한 FM 디테일을 갖는 2개의 버전들이 대략 최고 점수를 나타낸다. 평균 80 포인트이지만, 여전히 오리지널과 구별가능하다. 양 버전들의 신뢰 구간들은 상당히 오버랩하기 때문에, FM 미세 디테일의 손실은 사실 지각적으로 무시할 수 있다. 조악한 AM 및 FM 그리고 가산된 '그레이스' 잡음을 갖는 버전은 매우 낮은 점수를 가지지만, 그 평균은 여전히 60 포인트에 있다: 이는 미세 AM 디테일 정보의 생략이 증가함에 따라 제안된 방법의 적절한 저하 속성을 반영한다.
가장 큰 저하가 글로켄슈빌 및 하프시코드와 같은 강한 전이 컨텐트를 갖는 항목들에 대해서는 인지된다. 이는 스펙트럼에 걸쳐 서로 다른 성분들 사이의 원래의 위상 관계의 손실로 인한 것이다. 그러나, 이 문제는 모든 성분들에 대해 AM 포락선의 무게의 시간 중심에서의 캐리어 위상을 조정함으로써 제안된 합성 방법의 미래의 버전에서 극복될 수 있다.
테스트 셋에서 클래식 음악 항목들에 대해, 관찰된 저하는 통계적으로 의미가 없다.
나타난 분석/합성 방법은 서로 다른 어플리케이션 시나리오들에서 사용될 수 있다: 오디오 코딩에 대해, 개선된 지각적으로 올바른 미세 그레인 스케일가능한 오디오 코더의 빌딩 블록으로서 기능할 수 있는데, 그 기본 이론은 [1]에 개시되어 있다. 비트율이 감소함에 따라, 더 적은 디테일이 에컨대, 전체 AM 포락선을 조악한 포락선과 가산된 '그레이스 잡음으로 대체함으로써 수신기로 전달될 수 있다.
또한, 예컨대, 높은 대역들을 형성하기 위해 쉬프트된 그리고 변경된 기저대역 성분들을 사용하는, 오디오 대역폭 확장 [20]의 새로운 개념이 고려될 수 있다. 변조 구조의 사람 지각을 추가적으로 평가하기 위해 사람의 청각 특성들에 대한 개선된 경험, 예컨대, 환상의 사운드의 개선된 생성이 실현 가능하다[11].
음악 생성을 위해 최신의 특히 새롭고 흥미로운 예술적 오디오 효과들이 가능하다: 음악 항목의 스케일 및 키 모두가 캐리어 신호들의 적절한 처리에 의해 변경될 수 있으며, 거칠음 지각의 심리 음향적 속성이 AM 성분들에 대한 조작에 의해 접근될 수 있다.
임의의 오디오 신호를 지각적으로 의미있는 캐리어 및 AM/FM 성분들로 분해하는 시스템의 제안이 나타나 있는데, 이는 변조 디테일 변경의 미세 그레인 스케일링을 허용한다. 적절한 재-합성 방법이 주어져 있다. 변조 처리 이론들의 일부 예들이 설명되어 있으며, 예시 오디오 파일의 결과적인 스펙트로그램들이 나타나 있다. 듣기 테스트는 변조 처리 및 후속하는 재합성의 서로 다른 타입들의 지각적 품질을 변화하도록 수행되었다. 이 유망한 새로운 분석/합성 방법을 위한 미래의 어플리케이션 시나리오들이 식별되었다. 그 결과는 제안된 방법이 파라메트릭 및 파형 오디오 처리 사이의 간극을 이어주고 게다가 새로운 매력적인 오디오 효과들을 가능하게 하는 적절한 수단을 제공함을 증명한다.
개시된 실시예들은 본 발명의 이론을 단지 설명한다. 여기에서 설명된 구성들 및 상세들에 대한 변경들 및 변형들이 당업자에게 자명함이 이해된다. 그러므로, 본 발명은 첨부된 청구범위의 범위 뿐만 아니라 여기에서의 실시예들의 기술 및 설명에 의해 나타난 특정 상세들에 의해 제한받지 않도록 의도된다.
본 발명의 방법들의 어떤 구현 요구사항들에 따라, 본 발명의 방법들은 하드웨어적으로 또는 소프트웨어적으로 구현될 수 있다. 구현은 그 위해 저장된 판독가능한 제어 신호를 갖는 디지털 저장 매체, 특히, 플로피 디스크 또는 CD 상에서 실행될 수 있는데, 이러한 디지털 저장 매체는 프로그래머블 컴퓨터 시스템과 연동하여 본 발명의 방법이 수행될 수 있다. 따라서, 일반적으로 본 발명은 컴퓨터 프로그램 제품이 컴퓨터 상에서 동작할 때 본 발명에 따른 방법을 실행하는 기계-판독가능한 캐리어 상에 저장된 프로그램 코드를 갖는 컴퓨터 프로그램 제품에 구성될 수 있다. 다시 말해, 본 발명은 컴퓨터 프로그램이 컴퓨터 또는 다른 프로세서 수단 상에서 동작할 때, 본 발명의 방법을 실행하는 프로그램 코드를 갖는 컴퓨터 프로그램으로서 구현될 수 있다.
참조문헌들
[1] M. Vinton and L. Atlas, "A Scalable And Progressive Audio Codec," in Proc. of ICASSP 2001, pp. 3277-3280, 2001
[2] H. Dudley, "The vocoder," in Bell Labs Record, vol. 17, pp. 122-126, 1939
[3] J. L. Flanagan and R. M. Golden, "Phase Vocoder," in Bell System Technical Journal, vol. 45, pp. 1493-1509, 1966
[4] J. L. Flanagan, "Parametric coding of speech spectra," J. Acoust . Soc . Am., vol. 68 (2), pp. 412-419, 1980
[5] U. Zoelzer, DAFX : Digital Audio Effects, Wiley & Sons, pp. 201-298, 2002
[6] H. Kawahara, "Speech representation and transformation using adaptive interpolation of weighted spectrum: vocoder revisited," in Proc . of ICASSP 1997, vol. 2, pp. 1303-1306, 1997
[7]A. Rao and R. Kumaresan, "On decomposing speech into modulated components," in IEEE Trans . on Speech and Audio Processing, vol. 8, pp. 240-254, 2000
[8] M. Christensen et al., "Multiband amplitude modulated sinusoidal audio modelling," in IEEE Proc . of ICASSP 2004, vol. 4, pp. 169-172, 2004
[9] K. Nie and F. Zeng, "A perception-based processing strategy for cochlear implants and speech coding," in Proc . of the 26 th IEEE - EMBS, vol. 6, pp. 4205-4208, 2004
[10] J. Thiemann and P. Kabal, "Reconstructing Audio Signals from Modified Non-Coherent Hilbert Envelopes," in Proc . Interspeech ( Antwerp , Belgium ), pp. 534-537, 2007
[11] Z. M. Smith and B. Delgutte and A. J. Oxenham, "Chimaeric sounds reveal dichotomies in auditory perception," in Nature, vol. 416, pp. 87-90, 2002
[12] J. N. Anantharaman and A.K. Krishnamurthy, L.L Feth, "Intensity weighted average of instantaneous frequency as a model for frequency discrimination," in J. Acoust . Soc . Am ., vol. 94 (2), pp. 723-729, 1993
[13] O. Ghitza, "On the upper cutoff frequency of the auditory critical-band envelope detectors in the context of speech perception," in J. Acoust . Soc . Amer ., vol. 110(3), pp. 1628-1640, 2001
[14] E. Zwicker and H. Fastl, Psychoacoustics - Facts and Models, Springer, 1999
[15] E. Terhardt, "On the perception of periodic sound fluctuations (roughness)," in Acustica, vol. 30, pp. 201-213, 1974
[16] P. Daniel and R. Weber, "Psychoacoustical Roughness: Implementation of an Optimized Model," in Acustica, vol. 83, pp. 113-123, 1997
[17] P. Loughlin and B. Tacer, "Comments on the interpretation of instantaneous frequency," in IEEE Signal Processing Lett ., vol. 4, pp. 123-125, 1997.
[18] D. Wei and A. Bovik, "On the instantaneous frequencies of multicomponent AM-FM signals," in IEEE Signal Processing Lett ., vol. 5, pp. 84-86, 1998.
[19] Q. Li and L. Atlas, "Over-modulated AM-FM decomposition," in Proceedings of the SPIE, vol. 5559, pp. 172-183, 2004
[20] M. Dietz, L. Liljeryd, K. Kjorling and O. Kunz, "Spectral Band Replication, a novel approach in audio coding," in 112 th AES Convention, Munich, May 2002.
[21] ITU-R Recommendation BS.1534-1, "Method for the subjective assessment of intermediate sound quality (MUSHRA)," International Tele - communi - cations Union, Geneva, Switzerland, 2001.
[22] "Sinusoidal modeling parameter estimation via a dynamic channel vocoder model" A.S. Master, 2002 IEEE International Conference on Acoustics, Speech and Signal Processing.

Claims (28)

  1. 오디오 신호를 파라미터화된 표현으로 변환하는 장치에 있어서,
    분석 결과(104)를 획득하기 위해 오디오 신호의 일부분을 분석하는 신호 분석기(102);
    상기 분석 결과(104)에 기초하여 복수개의 대역 통과 필터들의 정보(108)를 추정하는 대역 통과 추정기(106)로서, 상기 복수개의 대역 통과 필터들에 관한 정보는 상기 오디오 신호의 일부분을 위한 필터 형상에 대한 정보를 포함하고, 대역 통과 필터의 대역폭은 오디오 스펙트럼 상에서 서로 다르며 상기 대역 통과 필터의 중심 주파수에 좌우되는 대역 통과 추정기(106);
    상기 복수개의 대역 통과 필터들에 대한 정보(108)를 이용하여 상기 오디오 신호의 일부분에 대한 상기 복수개의 대역 통과 필터들의 각 대역에 대해 진폭 변조 또는 주파수 변조 또는 위상 변조를 추정하는 변조 추정기(110);
    상기 오디오 신호의 일부분에 대해 상기 진폭 변조에 대한 정보, 상기 주파수 변조 또는 위상 변조에 대한 정보 또는 상기 복수개의 대역 통과 필터들에 대한 정보를 전송, 저장 또는 변경하는 출력 인터페이스(116)를 포함하는 오디오 신호 변환 장치.
  2. 청구항 1에 있어서, 상기 신호 분석기(102)는 상기 부분(132)의 주파수에 걸친 진폭 또는 파워 분포에 대해 상기 부분을 분석하도록 동작하는 오디오 신호 변환 장치.
  3. 청구항 1 또는 2에 있어서, 상기 신호 분석기(120)는 상기 대역들(122)의 중심 주파수에 따라 주파수 대역들에서 오디오 신호 파워 분포를 분석하도록 동작하는 오디오 신호 변환 장치.
  4. 전술한 청구항들 중 한 항에 있어서, 상기 대역 통과 추정기(106)는 상기 복수의 대역 통과 필터들을 위한 정보를 추정하도록 동작하고, 높은 중심 주파수를 갖는 대역 통과 필터의 대역폭은 낮은 주파수를 갖는 대역 통과 필터의 대역폭보다 큰, 오디오 신호 변환 장치.
  5. 전술한 청구항들 중 한 항에 있어서, 상기 중심 주파수와 상기 대역 통과 간의 의존성은 임의의 2개의 주파수 인접 중심 주파수들이 대수 스케일에 대해 서로 주파수에서 유사한 거리를 갖는 오디오 신호 변환 장치.
  6. 전술한 청구항들 중 한 항에 있어서, 상기 신호 분석기(102)는 상기 신호 부분(122)의 스펙트럼 표현을 위한 무게 중심 위치 함수를 계산하도록 동작하고, 상기 무게 중심 위치 함수에서의 미리결정된 이벤트들은 상기 복수개의 대역 통과 필터들의 중심 주파수들의 후보 값들을 지시하며,
    상기 대역 통과 추정기(106)는 상기 후보 값들(124)에 기초하여 상기 중심 주파수들을 결정하도록 동작하는 오디오 신호 변환 장치.
  7. 청구항 1 내지 6 중 어느 한 항에 있어서, 상기 신호 분석기(102)는 대역에 대해 무게 중심 위치 값을 계산하도록 동작하는 오디오 신호 변환 장치.
  8. 청구항 1 내지 7 중 어느 한 항에 있어서, 상기 신호 분석기(102)는 무게 중심 원래 값들(raw values)을 획득하기 위해 대역의 첫번째 절반의 네가티브 파워 값들을 가산하고 대역의 두번째 절반의 포지티브 값들을 가산하도록 동작하고, 상기 무게 중심 위치 원래 값들은 평탄한 무게 중심 위치 값을 획득하기 위해 시간 상에서 평탄하게 되며,
    상기 대역 통과 필터 추정기(106)는 시간 상에서 평탄해진 무게 중심 위치 값들의 제로 교차점(crossing)들의 주파수들을 결정하도록 동작하는 오디오 신호 변환 장치.
  9. 전술한 청구항들 중 어느 한 항에 있어서, 상기 대역 통과 추정기(106)는 상기 중심 주파수의 정보 또는 상기 대역 통과 필터들의 대역폭을 결정하여, 낮은 시작 값으로부터 높은 마지막 값까지의 스펙트럼은 스펙트럼 홀 없이 커버되며, 상기 낮은 시작 값 및 높은 마지막 값은 적어도 5개의 대역 통과필터 대역폭들을 포함하는 오디오 신호 변환 장치.
  10. 청구항 1, 8 또는 9에 있어서, 상기 대역 통과 추정기(106)는, 제로 교차점들의 주파수가 지각적 스케일에 대해 대략 동일한 대역 통과 중심 주파수 간격이 발생하는 방식으로 변경되도록 정보를 변경하도록 동작하고, 상기 대역 통과 중심 주파수들과 무게 중심 위치 함수에서 제로 교차점들의 주파수들 간의 거리는 최소화되는 오디오 신호 변환 장치.
  11. 전술한 청구항들 중 어느 한 항에 있어서, 상기 변조 추정기(110)는 상기 대역 통과 추정기(106)에 의해 제공되는 상기 대역 통과 신호에 대해 상기 중심 주파수에 대한 정보 또는 대역 통과 필터의 대역폭에 대한 정보에 의해 결정된 대역 통과를 이용하여 상기 오디오 신호로부터 대역 통과 신호를 추출하도록 동작하는 오디오 신호 변환 장치.
  12. 전술한 청구항들 중 어느 한 항에 있어서, 상기 변조 추정기(110)는 상기 대역 통과 필터의 대역에서 주파수 변조 또는 위상 변조에 대한 정보를 획득하기 위해 각 대역 통과의 중심 주파수를 갖는 캐리어로 대역 통과 신호를 다운믹스(110d)하도록 동작하는 오디오 신호 변환 장치.
  13. 전술한 청구항들 중 어느 한 항에 있어서, 상기 변조 추정기(110)는 상기 대역 통과를 위한 대역 통과 신호의 분석 신호(110b)를 형성하고, 상기 대역 통과 필터의 상기 대역에서, 상기 오디오 신호의 진폭 변조에 대한 정보를 획득하기 위해 상기 분석 신호의 크기를 계산하도록 동작하는 오디오 신호 변환 장치.
  14. 오디오 신호를 파라미터화된 표현으로 변환하는 방법에 있어서,
    분석 결과(104)를 획득하기 위해 오디오 신호의 일부분을 분석하는 단계(102);
    상기 분석 결과(104)에 기초하여 복수개의 대역 통과 필터들의 정보(108)를 추정하는 단계(106)로서, 상기 복수개의 대역 통과 필터들에 관한 정보는 상기 오디오 신호의 일부분을 위한 필터 형상에 대한 정보를 포함하고, 대역 통과 필터의 대역폭은 오디오 스펙트럼 상에서 서로 다르며, 상기 대역 통과 필터의 중심 주파수에 좌우되는, 단계(106);
    상기 복수개의 대역 통과 필터들에 대한 정보(108)를 이용하여 상기 오디오 신호의 일부분에 대한 상기 복수개의 대역 통과 필터들의 각 대역에 대해 진폭 변조 또는 주파수 변조 또는 위상 변조를 추정하는 단계(110);
    상기 오디오 신호의 일부분에 대해 상기 진폭 변조에 대한 정보, 상기 주파수 변조 또는 위상 변조에 대한 정보 또는 상기 복수개의 대역 통과 필터들에 대한 정보를 전송, 저장 또는 변경하는 단계(116)를 포함하는 오디오 신호 변환 방법.
  15. 오디오 신호의 시간 부분에 대해, 복수개의 대역 통과 필터들을 위한 대역 통과 필터 정보를 갖는 파라미터화된 표현을 변경하는 장치로서, 상기 대역 통과 필터 정보는 대응하는 대역 통과 필터들의 대역 통과 필터 중심 주파수에 좌우되는 대역폭들을 갖는 대역 통과 필터들의 시간-변화하는 대역 통과 필터 중심 주파수들을 나타내며 상기 오디오 신호의 상기 시간 부분에 대해 각 대역 통과 필터를 위한 진폭 변조 또는 위상 변조 또는 주파수 변조 정보를 가지며, 상기 변조 정보는 상기 대역 통과 필터들의 중심 주파수들에 관련되는, 장치에 있어서,
    상기 시간 변화하는 중심 주파수들을 변경하거나 상기 진폭 변조 또는 위상 변조 또는 주파수 변조 정보를 변경하고, 변경된 파라미터화된 표현을 발생시키는 변경기(160)로서, 상기 대역 통과 필터들의 대역폭들은 상기 대응하는 대역 통과 필터들의 대역 통과 필터 중심 주파수들에 좌우되는, 변경기(160)를 포함하는 변경 장치.
  16. 청구항 15에 있어서, 상기 변경기(160)는 예컨대, 장조에서 단조로 또는 그 반대로 음악 조각의 키 모드를 변경하기 위해 상수 인자와의 곱셈에 의해 또는 선택된 캐리어 주파수들만 변경함으로써 모든 캐리어 주파수들을 변경하도록 동작하는 변경 장치.
  17. 청구항 15 또는 16에 있어서, 상기 변경기(160)는 조악한 구조 및 미세한 구조로의 비선형 분해에 의해 또는 상기 조악한 구조 또는 상기 미세한 구조중 하나만을 변경함으로써 상기 진폭 변조 정보 또는 상기 위상 변조 정보 또는 상기 주파수 변조 정보를 변경하도록 동작하는 변경 장치.
  18. 청구항 17에 있어서, 상기 정보 변경기(160)는 타겟 다항식 함수에 기초하여 다항식 근사(polynomial fit)를 계산하고, 상기 타겟 다항식을 위한 계수들을 이용하여 상기 진폭 변조 정보, 상기 위상 변조 정보 또는 상기 주파수 변조 정보를 표현하도록 동작하는 변경 장치.
  19. 오디오 신호의 시간 부분에 대해, 복수개의 대역 통과 필터들을 위한 대역 통과 필터 정보를 갖는 파라미터화된 표현을 변경하는 장치로서, 상기 대역 통과 필터 정보는 대응하는 대역 통과 필터들의 대역 통과 필터 중심 주파수에 좌우되는 대역폭들을 갖는 대역 통과 필터들의 시간-변화하는 대역 통과 필터 중심 주파수들을 나타내며 상기 오디오 신호의 상기 시간 부분에 대해 각 대역 통과 필터를 위한 진폭 변조 또는 위상 변조 또는 주파수 변조 정보를 가지며, 상기 변조 정보는 상기 대역 통과 필터들의 중심 주파수들에 관련되는, 장치에 있어서,
    상기 시간 변화하는 중심 주파수들을 변경하거나 상기 진폭 변조 또는 위상 변조 또는 주파수 변조 정보를 변경하고, 변경된 파라미터화된 표현을 발생시키는 단계(160)로서, 상기 대역 통과 필터들의 대역폭들은 상기 대응하는 대역 통과 필터들의 대역 통과 필터 중심 주파수들에 좌우되는 단계를 포함하는 변경 장치.
  20. 오디오 신호의 시간 부분, 복수개의 대역 통과 필터들을 위한 대역 통과 필터 정보를 포함하는 오디오 신호의 파라미터화된 표현을 합성하는 장치로서, 상기 대역 통과 필터 정보는, 상기 대역 통과 필터 정보는 대응하는 대역 통과 필터들의 대역 통과 필터 중심 주파수에 좌우되는 변화하는 대역폭들을 갖는 대역 통과 필터들의 시간-변화하는 대역 통과 필터 중심 주파수들을 나타내고 상기 오디오 신호의 상기 시간 부분을 위한 각 대역 통과 필터를 위한 진폭 변조 또는 위상 변조 또는 주파수 변조 정보를 갖는, 장치에 있어서,
    상기 진폭 변조 정보에 기초하여 진폭 변조 성분을 합성하는 진폭 변조 합성기(201);
    캐리어 주파수에 대한 정보 및 각 대역폭에 대한 주파수 변조 정보에 기초하여 위상 정보의 순간 주파수를 합성하는 주파수 변조 또는 위상 변조 합성기로서,
    인접한 캐리어 주파수들 간의 주파수에서의 거리는 주파수 스펙트럼 상에서 서로 다른, 주파수 변조 또는 위상 변조 합성기;
    각 대역 통과 필터 채널에 대해 순간적으로 진폭 변조된, 주파수 변조된 또는 위상 변조된 오실레이션 신호(204)를 나타내는 오실레이터(203); 및
    상기 대역 통과 필터 채널들로부터의 신호들을 결합하고, 상기 대역 통과 필터 채널들로부터의 신호들에 기초하여 오디오 출력 신호(206)를 발생시키는 결합기(205)를 포함하는 합성 장치.
  21. 청구항 20에 있어서, 상기 진폭 변조 합성기(201)는
    상기 진폭 변조 성분을 획득하기 위해 진폭 변조 정보의 후속 블록들을 오버랩하고 가중치-가산하는 오버랩 가산기(201a)를 포함하고, 또는
    상기 주파수 변조 또는 위상 변조 합성기(202)는 합성된 주파수 정보를 획득하기 위해 대역 통과 신호에 대해 주파수 변조 또는 위상 변조 정보 또는 주파수 변조 정보와 캐리어 주파수의 결합된 표현의 2개의 후속 블록들을 가중치-가산하는 오버랩-가산기를 포함하는 합성 장치.
  22. 청구항 21에 있어서, 상기 주파수 변조 또는 위상 변조 합성기(202)는 상기 합성된 주파수 정보를 적분하고 상기 합성된 주파수 정보에, 상기 오실레이터(203)의 출력 신호의 이전 블록으로부터 스펙트럼 부근 성분의 위상으로부터 도출된 위상 항(202d, 202c)를 가산한는 적분기(202b)를 포함하는 합성 장치.
  23. 청구항 22에 있어서, 상기 오실레이터(203)는 상기 가산 동작(202c)에 의해 획득된 위상 신호에 의해 제공된 사인파 오실레이터인 합성 장치.
  24. 청구항 23에 있어서, 상기 오실레이터(203)는 상기 대역에 대한 상기 진폭 변조 성분을 이용하여 사인파 오실레이터의 출력 신호를 변조하는 변조기(203b)를포함하는 합성 장치.
  25. 청구항 20에 있어서, 상기 진폭 변조 합성기(201)는 잡음을 가산하는 잡음 가산기(160f)를 포함하고, 상기 잡음 가산기는 전송된 보조 정보를 통해 제어되거나, 고정적으로 설정되거나 또는 국지적 분석에 의해 제어되는 합성 장치.
  26. 오디오 신호의 시간 부분, 복수개의 대역 통과 필터들을 위한 대역 통과 필터 정보를 포함하는 오디오 신호의 파라미터화된 표현을 합성하는 방법으로서, 상기 대역 통과 필터 정보는 대응하는 대역 통과 필터들의 대역 통과 필터 중심 주파수에 좌우되는 변화하는 대역폭들을 갖는 대역 통과 필터들의 시간-변화하는 대역 통과 필터 중심 주파수들을 나타내고 상기 오디오 신호의 상기 시간 부분을 위한 각 대역 통과 필터를 위한 진폭 변조 또는 위상 변조 또는 주파수 변조 정보를 갖는, 합성 방법에 있어서,
    상기 진폭 변조 정보에 기초하여 진폭 변조 성분을 합성하는 단계(201);
    각 대역폭에 대해 캐리어 주파수에 대한 정보 및 주파수 변조 정보에 기초하여 순간 주파수 또는 위상 정보를 합성하는 단계(202)로서
    인접한 캐리어 주파수들 간의 주파수에서의 거리는 주파수 스펙트럼 상에서 서로 다르는, 단계(202);
    각 대역 통과 필터 채널에 대해 순간적으로 진폭 변조된, 주파수 변조된 또는 위상 변조된 오실레이션 신호(204)를 발생시키는 단계(203); 및
    상기 대역 통과 필터 채널들로부터의 신호들을 결합하고, 상기 대역 통과 필터 채널들로부터의 신호들에 기초하여 오디오 출력 신호(206)를 발생시키는 단계(205)를 포함하는 합성 방법.
  27. 오디오 신호를 위한 파라메트릭 표현으로서, 상기 파라메트릭 표현은 오디오 신호의 시간 부분, 복수개의 대역 통과 필터들을 위한 대역 통과 필터 정보에 관련되며, 상기 대역 통과 필터 정보는 상기 대역 통과 필터 정보는 대응하는 대역 통과 필터들의 대역 통과 필터 중심 주파수에 좌우되는 변화하는 대역폭들을 갖는 대역 통과 필터들의 시간-변화하는 대역 통과 필터 중심 주파수들을 나타내고 상기 오디오 신호의 상기 시간 부분을 위한 각 대역 통과 필터를 위한 진폭 변조 또는 위상 변조 또는 주파수 변조 정보를 갖는, 오디오 신호를 위한 파라메트릭 표현.
  28. 컴퓨터 상에서 실행될 때 청구항 14, 19 또는 26에 따른 방법을 수행하는 컴퓨터 프로그램.
KR1020107021135A 2008-03-20 2009-03-10 오디오 신호를 파라미터화된 표현으로 변환하는 장치 및 방법, 파라미터화된 표현을 변경하는 장치 및 방법 그리고, 오디오 신호의 파라미터화된 표현을 합성하는 장치 및 방법 KR101196943B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US3830008P 2008-03-20 2008-03-20
US61/038,300 2008-03-20
EP08015123.6 2008-08-27
EP08015123.6A EP2104096B1 (en) 2008-03-20 2008-08-27 Apparatus and method for converting an audio signal into a parameterized representation, apparatus and method for modifying a parameterized representation, apparatus and method for synthesizing a parameterized representation of an audio signal
PCT/EP2009/001707 WO2009115211A2 (en) 2008-03-20 2009-03-10 Apparatus and method for converting an audio signal into a parameterized representation, apparatus and method for modifying a parameterized representation, apparatus and method for synthensizing a parameterized representation of an audio signal

Publications (2)

Publication Number Publication Date
KR20100134611A true KR20100134611A (ko) 2010-12-23
KR101196943B1 KR101196943B1 (ko) 2012-11-05

Family

ID=40139129

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020107021135A KR101196943B1 (ko) 2008-03-20 2009-03-10 오디오 신호를 파라미터화된 표현으로 변환하는 장치 및 방법, 파라미터화된 표현을 변경하는 장치 및 방법 그리고, 오디오 신호의 파라미터화된 표현을 합성하는 장치 및 방법

Country Status (16)

Country Link
US (1) US8793123B2 (ko)
EP (6) EP3296992B1 (ko)
JP (1) JP5467098B2 (ko)
KR (1) KR101196943B1 (ko)
CN (1) CN102150203B (ko)
AU (1) AU2009226654B2 (ko)
CA (2) CA2867069C (ko)
CO (1) CO6300891A2 (ko)
ES (5) ES2895268T3 (ko)
HK (4) HK1250089A1 (ko)
MX (1) MX2010010167A (ko)
MY (1) MY152397A (ko)
RU (1) RU2487426C2 (ko)
TR (1) TR201911307T4 (ko)
WO (1) WO2009115211A2 (ko)
ZA (1) ZA201006403B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101661713B1 (ko) * 2015-05-28 2016-10-04 제주대학교 산학협력단 파라메트릭 어레이 응용을 위한 변조 방법 및 장치

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3296992B1 (en) 2008-03-20 2021-09-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for modifying a parameterized representation
CN101770776B (zh) * 2008-12-29 2011-06-08 华为技术有限公司 瞬态信号的编码方法和装置、解码方法和装置及处理系统
US9245529B2 (en) * 2009-06-18 2016-01-26 Texas Instruments Incorporated Adaptive encoding of a digital signal with one or more missing values
CN102422531B (zh) * 2009-06-29 2014-09-03 三菱电机株式会社 音频信号处理装置
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
CN102648495B (zh) 2009-10-21 2014-05-28 杜比Ab国际公司 用于利用适应性过取样产生高频音频信号的装置及方法
EP2362375A1 (en) * 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using harmonic locking
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
KR101773631B1 (ko) 2010-06-09 2017-08-31 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 대역 확장 방법, 대역 확장 장치, 프로그램, 집적 회로 및 오디오 복호 장치
JP6075743B2 (ja) * 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
US8762158B2 (en) * 2010-08-06 2014-06-24 Samsung Electronics Co., Ltd. Decoding method and decoding apparatus therefor
BE1019445A3 (fr) 2010-08-11 2012-07-03 Reza Yves Procede d'extraction d'information audio.
EP3975177B1 (en) 2010-09-16 2022-12-14 Dolby International AB Cross product enhanced subband block based harmonic transposition
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP5743137B2 (ja) * 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
US9161035B2 (en) 2012-01-20 2015-10-13 Sony Corporation Flexible band offset mode in sample adaptive offset in HEVC
CN103493130B (zh) * 2012-01-20 2016-05-18 弗劳恩霍夫应用研究促进协会 用以利用正弦代换进行音频编码及译码的装置和方法
BR122020020698B1 (pt) * 2013-04-05 2022-05-31 Dolby International Ab Método para decodificação, meio legível por computador não transitório para decodificação, decodificador, e método de codificação de áudio para codificação em forma de onda intercalada
KR20230020553A (ko) 2013-04-05 2023-02-10 돌비 인터네셔널 에이비 스테레오 오디오 인코더 및 디코더
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
EP2838086A1 (en) 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
EP2830046A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal to obtain modified output signals
CN105493182B (zh) * 2013-08-28 2020-01-21 杜比实验室特许公司 混合波形编码和参数编码语音增强
WO2015041070A1 (ja) 2013-09-19 2015-03-26 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
KR20230042410A (ko) 2013-12-27 2023-03-28 소니그룹주식회사 복호화 장치 및 방법, 및 프로그램
RU2662693C2 (ru) * 2014-02-28 2018-07-26 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство декодирования, устройство кодирования, способ декодирования и способ кодирования
KR102653849B1 (ko) * 2014-03-24 2024-04-02 삼성전자주식회사 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치
JP2015206874A (ja) * 2014-04-18 2015-11-19 富士通株式会社 信号処理装置、信号処理方法、及び、プログラム
RU2584462C2 (ru) * 2014-06-10 2016-05-20 Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования Московский технический университет связи и информатики (ФГОБУ ВПО МТУСИ) Способ передачи и приема сигналов, представленных параметрами ступенчатого модуляционного разложения, и устройство для его осуществления
EP2980796A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
JP6752813B2 (ja) * 2014-12-24 2020-09-09 イヴ ジャン−ポール ギー レザ、 信号を処理して解析するための方法、およびそのような方法を実施するデバイス
CN107924683B (zh) * 2015-10-15 2021-03-30 华为技术有限公司 正弦编码和解码的方法和装置
US20170275986A1 (en) * 2015-11-05 2017-09-28 Halliburton Energy Services Inc. Fluid flow metering with point sensing
RU2714579C1 (ru) * 2016-03-18 2020-02-18 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ реконструкции фазовой информации с использованием структурного тензора на спектрограммах
CN106126172B (zh) * 2016-06-16 2017-11-14 广东欧珀移动通信有限公司 一种音效处理方法及移动终端
CN108023548B (zh) * 2016-10-31 2023-06-16 北京普源精电科技有限公司 一种复合调制信号发生器及复合调制信号发生方法
CN108564957B (zh) * 2018-01-31 2020-11-13 杭州士兰微电子股份有限公司 码流的解码方法、装置、存储介质和处理器
CN109119053B (zh) * 2018-08-08 2021-07-02 瓦纳卡(北京)科技有限公司 一种信号传输方法、装置、电子设备以及计算机可读存储介质
CN112913149A (zh) * 2018-10-25 2021-06-04 Oppo广东移动通信有限公司 消除频率干扰的装置和方法
CN109599104B (zh) * 2018-11-20 2022-04-01 北京小米智能科技有限公司 多波束选取方法及装置
CN110488252B (zh) * 2019-08-08 2021-11-09 浙江大学 一种地基气溶胶激光雷达系统的重叠因子定标装置和标定方法
CN111710327B (zh) * 2020-06-12 2023-06-20 百度在线网络技术(北京)有限公司 用于模型训练和声音数据处理的方法、装置、设备和介质
US11694692B2 (en) 2020-11-11 2023-07-04 Bank Of America Corporation Systems and methods for audio enhancement and conversion
CN113218391A (zh) * 2021-03-23 2021-08-06 合肥工业大学 一种基于ewt算法的姿态解算方法
CN113542980B (zh) * 2021-07-21 2023-03-31 深圳市悦尔声学有限公司 一种抑制扬声器串扰的方法
CN115440234B (zh) * 2022-11-08 2023-03-24 合肥工业大学 基于midi和对抗生成网络的音频隐写方法和系统

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5214708A (en) * 1991-12-16 1993-05-25 Mceachern Robert H Speech information extractor
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US5574823A (en) * 1993-06-23 1996-11-12 Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Communications Frequency selective harmonic coding
JPH07261798A (ja) 1994-03-22 1995-10-13 Secom Co Ltd 音声分析合成装置
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
JPH10319947A (ja) * 1997-05-15 1998-12-04 Kawai Musical Instr Mfg Co Ltd 音域制御装置
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
TW358925B (en) * 1997-12-31 1999-05-21 Ind Tech Res Inst Improvement of oscillation encoding of a low bit rate sine conversion language encoder
TW430778B (en) * 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
US6725108B1 (en) * 1999-01-28 2004-04-20 International Business Machines Corporation System and method for interpretation and visualization of acoustic spectra, particularly to discover the pitch and timbre of musical sounds
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
DE60038251T2 (de) * 1999-12-13 2009-03-12 Broadcom Corp., Irvine Sprach-durchgangsvorrichtung mit sprachsynchronisierung in abwärtsrichtung
ATE320651T1 (de) * 2001-05-08 2006-04-15 Koninkl Philips Electronics Nv Kodieren eines audiosignals
JP3709817B2 (ja) * 2001-09-03 2005-10-26 ヤマハ株式会社 音声合成装置、方法、及びプログラム
JP2003181136A (ja) * 2001-12-14 2003-07-02 Sega Corp 音声制御方法
US6950799B2 (en) * 2002-02-19 2005-09-27 Qualcomm Inc. Speech converter utilizing preprogrammed voice profiles
US7191134B2 (en) * 2002-03-25 2007-03-13 Nunally Patrick O'neal Audio psychological stress indicator alteration method and apparatus
JP3941611B2 (ja) * 2002-07-08 2007-07-04 ヤマハ株式会社 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
ATE352953T1 (de) * 2002-08-28 2007-02-15 Freescale Semiconductor Inc Verfahren und vorrichtung zur detektierung von tonsignalen
US7027979B2 (en) * 2003-01-14 2006-04-11 Motorola, Inc. Method and apparatus for speech reconstruction within a distributed speech recognition system
JP2004350077A (ja) 2003-05-23 2004-12-09 Matsushita Electric Ind Co Ltd アナログオーディオ信号送信装置および受信装置並びにアナログオーディオ信号伝送方法
US7179980B2 (en) * 2003-12-12 2007-02-20 Nokia Corporation Automatic extraction of musical portions of an audio stream
DE102004012208A1 (de) * 2004-03-12 2005-09-29 Siemens Ag Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme
FR2868587A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme de conversion rapides d'un signal vocal
FR2868586A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme ameliores de conversion d'un signal vocal
DE102004021403A1 (de) 2004-04-30 2005-11-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalverarbeitung durch Modifikation in der Spektral-/Modulationsspektralbereichsdarstellung
JP4645241B2 (ja) * 2005-03-10 2011-03-09 ヤマハ株式会社 音声処理装置およびプログラム
JP2008546012A (ja) * 2005-05-27 2008-12-18 オーディエンス,インコーポレイテッド オーディオ信号の分解および修正のためのシステムおよび方法
US7734462B2 (en) * 2005-09-02 2010-06-08 Nortel Networks Limited Method and apparatus for extending the bandwidth of a speech signal
KR101015522B1 (ko) * 2005-12-02 2011-02-16 아사히 가세이 가부시키가이샤 음질 변환 시스템
US7831420B2 (en) * 2006-04-04 2010-11-09 Qualcomm Incorporated Voice modifier for speech processing systems
WO2007118583A1 (en) 2006-04-13 2007-10-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decorrelator
EP1845699B1 (en) * 2006-04-13 2009-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decorrelator
JP2007288468A (ja) * 2006-04-17 2007-11-01 Sony Corp オーディオ出力装置、パラメータ算出方法
JP4966048B2 (ja) * 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
US7974838B1 (en) * 2007-03-01 2011-07-05 iZotope, Inc. System and method for pitch adjusting vocals
US8131549B2 (en) * 2007-05-24 2012-03-06 Microsoft Corporation Personality-based device
EP3296992B1 (en) 2008-03-20 2021-09-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for modifying a parameterized representation
JP5224219B2 (ja) * 2008-06-26 2013-07-03 独立行政法人科学技術振興機構 オーディオ信号圧縮装置、オーディオ信号圧縮方法、オーディオ信号復号装置及びオーディオ信号復号方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101661713B1 (ko) * 2015-05-28 2016-10-04 제주대학교 산학협력단 파라메트릭 어레이 응용을 위한 변조 방법 및 장치

Also Published As

Publication number Publication date
RU2010139018A (ru) 2012-03-27
ES2770597T3 (es) 2020-07-02
EP2104096A3 (en) 2010-08-04
HK1250089A1 (zh) 2018-11-23
EP3242294B1 (en) 2024-05-01
BRPI0906247A8 (pt) 2018-10-16
JP2011514562A (ja) 2011-05-06
US20110106529A1 (en) 2011-05-05
HK1246495A1 (zh) 2018-09-07
EP3273442B1 (en) 2021-10-20
CA2867069A1 (en) 2009-09-24
MX2010010167A (es) 2010-12-07
RU2487426C2 (ru) 2013-07-10
EP3296992A1 (en) 2018-03-21
EP2255357B1 (en) 2019-05-15
EP3273442A1 (en) 2018-01-24
EP3296992B1 (en) 2021-09-22
ZA201006403B (en) 2011-05-25
US8793123B2 (en) 2014-07-29
EP2104096A2 (en) 2009-09-23
EP3242294A1 (en) 2017-11-08
CA2867069C (en) 2016-01-19
WO2009115211A2 (en) 2009-09-24
CN102150203B (zh) 2014-01-29
CO6300891A2 (es) 2011-07-21
HK1251074A1 (zh) 2019-01-18
CA2718513C (en) 2015-09-22
ES2898865T3 (es) 2022-03-09
EP3244407B1 (en) 2019-11-27
AU2009226654A1 (en) 2009-09-24
ES2895268T3 (es) 2022-02-18
JP5467098B2 (ja) 2014-04-09
EP2104096B1 (en) 2020-05-06
WO2009115211A3 (en) 2010-08-19
ES2741200T3 (es) 2020-02-10
MY152397A (en) 2014-09-15
EP2255357A2 (en) 2010-12-01
ES2796493T3 (es) 2020-11-27
EP3244407A1 (en) 2017-11-15
CA2718513A1 (en) 2009-09-24
TR201911307T4 (tr) 2019-08-21
KR101196943B1 (ko) 2012-11-05
HK1246494A1 (zh) 2018-09-07
CN102150203A (zh) 2011-08-10
AU2009226654B2 (en) 2012-08-09

Similar Documents

Publication Publication Date Title
KR101196943B1 (ko) 오디오 신호를 파라미터화된 표현으로 변환하는 장치 및 방법, 파라미터화된 표현을 변경하는 장치 및 방법 그리고, 오디오 신호의 파라미터화된 표현을 합성하는 장치 및 방법
JP5336522B2 (ja) 瞬間的事象を有する音声信号の操作装置および操作方法
JP6229957B2 (ja) 音声信号を再生するための装置および方法、符号化音声信号を生成するための装置および方法、コンピュータプログラム、および符号化音声信号
Nagel et al. A harmonic bandwidth extension method for audio codecs
KR101589942B1 (ko) 외적 향상 고조파 전치
RU2591733C2 (ru) Устройство и способ изменения звукового сигнала посредством формирования огибающей
RU2439721C2 (ru) Аудиокодер для кодирования аудиосигнала, имеющего импульсоподобную и стационарную составляющие, способы кодирования, декодер, способ декодирования и кодированный аудиосигнал
JP6262668B2 (ja) 帯域幅拡張パラメータ生成装置、符号化装置、復号装置、帯域幅拡張パラメータ生成方法、符号化方法、および、復号方法
JP2018510374A (ja) 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法
Disch et al. An amplitude-and frequency modulation vocoder for audio signal processing
BRPI0906247B1 (pt) Equipamento e método para converter um sinal de áudio em uma representação parametrizada, equipamento e método para modificar uma representação parametrizada, equipamento e método para sintetizar uma representação parametrizada de um sinal de áudio

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
AMND Amendment
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20161026

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20171017

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20181015

Year of fee payment: 7