KR100945673B1 - 프리-노이즈를 감소시킴으로써 로우 비트 레이트 오디오코딩 시스템의 과도현상 성능을 개선시키는 방법 - Google Patents

프리-노이즈를 감소시킴으로써 로우 비트 레이트 오디오코딩 시스템의 과도현상 성능을 개선시키는 방법 Download PDF

Info

Publication number
KR100945673B1
KR100945673B1 KR1020037014462A KR20037014462A KR100945673B1 KR 100945673 B1 KR100945673 B1 KR 100945673B1 KR 1020037014462 A KR1020037014462 A KR 1020037014462A KR 20037014462 A KR20037014462 A KR 20037014462A KR 100945673 B1 KR100945673 B1 KR 100945673B1
Authority
KR
South Korea
Prior art keywords
transient
time
audio
audio signal
delete delete
Prior art date
Application number
KR1020037014462A
Other languages
English (en)
Other versions
KR20040034604A (ko
Inventor
브레트 지. 크로켓
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20040034604A publication Critical patent/KR20040034604A/ko
Application granted granted Critical
Publication of KR100945673B1 publication Critical patent/KR100945673B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Analogue/Digital Conversion (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

코딩 블럭들을 사용하는 변환 기반 로우 비트 레이트 오디오 코딩 시스템에 의해 프로세싱되 오디오 신호 스트림의 신호 과도현상에 앞선 왜곡 가공물들은 왜곡 가공물들의 시간 기간이 감소되도록 오디오 신호 스트림의 과도현상을 검출하는 단계와 코딩 블럭들에 관하여 과도현상의 시간적 관계를 시프팅시키는 단계에 의해 감소된다. 오디오 데이터는 과도현상들이 디코딩된 오디오 신호에서 프리-노이즈의 양을 감소시키기 위해서 변환 기반 로우 비트 레이트 오디오 인코더의 양자화 이전에 시간적으로 재위치설정되는 방식으로 타임 스케일링된다. 이와 달리, 또는 부가적으로, 오디오 신호 스트림의 과도현상이 검출되며 왜곡 가공물들의 일부분이 왜곡 가공물들의 기간 기간이 감소되도록 시간 압축된다.

Description

프리-노이즈를 감소시킴으로써 로우 비트 레이트 오디오 코딩 시스템의 과도현상 성능을 개선시키는 방법{IMPROVING TRANSIENT PERFORMANCE OF LOW BIT RATE AUDIO CODIG SYSTEMS BY REDUCING PRE-NOISE}
본 발명은 음악 또는 음성 신호와 같은 오디오 신호들을 나타내는 정보의 고품질, 로우 비트 레이트 디지털 변환 인코딩 및 디코딩에 관한 것이다. 더 상세하게는, 발명은 그러한 인코딩 및 디코딩 시스템에 의해 생성된 오디오 신호 스트림의 신호 과도현상("프리-노이즈(pre-noise)")에 선행하는 왜곡 가공물의 감소에 관한 것이다.
타임 스케일링은 신호의 스펙트럼 콘텐트(인지된 음색) 또는 인지된 피치(피치는 주기적인 오디오 신호와 관련된 특성이다)를 변경시킴 없이 오디오 신호의 시간 전개 또는 기간을 변경하는 것에 관한 것이다. 피치 스케일링은 그 시간 전개 또는 기간에 영향을 끼침없이 오디오 신호의 스펙트럼 콘텐트 또는 인지된 피치를 수정하는 것에 관한 것이다. 타임 스케일링 및 피치 스케일링은 서로 중첩적인 방법이다. 예를 들면, 디지털화된 오디오 신호의 피치는 타임 스케일링에 의해 신호의 시간 기간을 5%까지 증가시키고 그후 샘플들을 5% 더 높은 샘플 레이트에서 판독함으로써(예를 들면, 리샘플링하므로써), 그것의 오리지날 시간 기간을 유지시키 는 것에 의해 시간 기간에 영향을 끼침없이 5%까지 스케일링된다. 결과적인 신호는 수정된 피치 또는 스펙트럼 특성을 갖는다는 것 외에는 오리지날 신호처럼 동일한 시간 기간을 갖는다. 하기에 더 논의되는 것처럼, 리샘플링이 적용될 수 있지만 일정한 출력 샘플링 레이트를 유지하거나 또는 입력 및 출력 샘플링 레이트를 동일하게 유지시키는데 요구되지 않는다면 필수적인 단계는 아니다.
본 발명의 양태들에 있어서, 오디오 스트림의 타임 스케일링 프로세싱이 사용된다. 그러나, 상기 언급된 것처럼, 타임 스케일링은 또한 피치-스케일링 기술을 사용하여 실행될 수 있으며, 그것들은 서로 중첩적이다. 그러므로, 용어 "타임 스케일링"이 본문에 사용되었지만, 이러한 타일 스케일링을 달성하도록 피치 스케일링을 사용하는 기술이 또한 사용될 수 있다.
로우 비트 레이트 오디오 코딩
신호 품질에 인지가능한 손실없이 신호를 나타내는데 요구되는 정보의 양을 최소화하도록 신호 프로세싱 분야의 기술들에 상당한 관심이 있다. 정보 요건을 감소시킴으로써, 신호들은 더 낮은 정보 용량 요건들을 통신 채널들과 저장 매체들에 부과한다. 디지털 코딩 기술들에 관하여, 최소 정보 요건은 최소 이진 비트 요건과 동의어이다.
사람의 가청으로 의도된 오디오 신호들을 코딩하기 위한 몇몇 종래 기술들은 심리음향 효과를 이용함으로써 어떠한 가청 저하도 유발하지 않고 정보 요건을 감소시키고자 시도한다. 사람의 귀는 가변 중심 주파수들을 갖는 매우 비대칭으로 동조된 필터들의 특성을 재조립하는 주파수-분석 특성들을 나타낸다. 별개의 톤을 검 출하는 사람 귀의 능력은 톤 사이의 주파수의 차가 증가함에 따라 일반적으로 증가한다; 그러나, 귀의 분해 능력은 상기 언급된 필터의 대역폭보다 적은 주파수 차에 대해서는 대체로 일정하다. 그러므로, 사람 귀의 주파수-분해 능력은 오디오 스펙트럼을 경유하는 이러한 필터들의 대역폭에 따라 변동한다. 그러한 오디토리 필터의 효과적인 대역폭은 임계 대역으로서 언급된다. 임계 대역내의 지배적인 신호는 그 임계 대역 밖의 주파수에서의 다른 신호들보다도 임계 대역 내의 다른 신호들의 가청도를 더 마스크하기 쉽다. 지배적인 신호는 동시에 마스킹 신호로서 발생할 뿐만 아니라 마스킹 신호 전후에 발생하는 다른 신호들을 마스크한다. 임계 대역내의 프리- 및 포스트-마스킹 효과의 기간은 마스킹 신호의 크기에 좌우하지만, 프리-마스킹 효과들은 일반적으로 포스트-마스킹 효과들보다도 더 기간이 짧다. 일반적으로, Audio Engineering Handbook, K. Blair Benson ed., McGraw-Hill, San Francisco, 1988, 페이지 1.40-1.42 와 4.8-4.10 참조.
유용한 신호 대역폭을 귀의 임계 대역에 근접한 대역폭을 갖는 주파수 대역으로 분할하는 신호 레코딩 및 전송 기술들은 더 넓은 대역 기술들보다도 심리음향 효과들을 더 잘 이용할 수 있다. 심리음향 마스킹 효과들을 이용하는 기술들은 PCM 코딩에 의해 요구되는 비트 레이트 아래의 비트 레이트를 사용하여 오리지날 입력 신호와 구별되지 않는 신호를 인코딩 및 재생성할 수 있다.
임계 대역 기술은 신호 대역을 주파수 대역으로 분할하는 단계, 각 주파수 대역의 신호를 프로세싱하는 단계, 및 각 주파수 대역의 프로세싱된 신호로부터 오리지날 신호의 복사물을 재구성하는 단계를 포함한다. 2가지 그러한 기술은 서브- 대역 코딩과 변환 코딩이다. 서브-대역과 변환 코더들은, 결과적인 코딩 부정확성(노이즈)이 인코딩된 신호의 주관적 품질을 저하시킴없이 이웃하는 스펙트럼 구성요소들에 의해 심리음향적으로 마스킹되는 특정 주파수 대역들에서 전송된 정보 요건들을 감소시킬 수 있다.
디지털 대역통과 필터들의 뱅크는 서브-대역 코딩을 구현한다. 변환 코딩은 디지털 대역통과 필터를 구현하는 몇몇 시간-도메인 대 주파수-도메인 이산 변환에 의해 구현될 수 있다. 더 상세하게는, 나머지 논의는 변환 코더에 관한 것이며, 따라서 용어 "서브-대역"은, 서브-대역 코더 또는 변환 코더 어느 것에 의해 구현되는 것에 상관없이, 전체 신호 대역폭중 선택된 부분들을 언급하도록 사용된다. 서브-대역은 변환 코더에 의해 구현된 것으로서 1개 이상의 인접 변환 계수의 세트로 정의된다; 그러므로, 서브-대역 대역폭은 다수의 변환 계수 대역폭이다. 변환 계수의 대역폭은 입력 신호 샘플링에 비례하며 입력 신호를 나타내는 변환에 의해 발생된 계수의 개수에 반비례한다.
심리음향 마스킹은, 가청 스펙트럼을 통과하는 서브-대역 대역폭이 스펙트럼의 동일한 부분으로 사람 귀의 약 1/2 임계 대역폭이라면, 변환 코더에 의해 더 쉽게 달성될 수 있다. 이는 사람 귀의 임계 대역들이 청각 자극에 적응하는 가변 중심 주파수들을 갖기 때문이지만, 서브-대역 및 변환 코더들은 일반적으로 고정 서브-대역 중심 주파수들을 갖는다. 심리음향-마스킹 효과의 활용을 최적화하기 위해, 지배적인 신호의 존재로 야기되는 임의의 왜곡 가공물들은 지배적인 신호를 포함하는 서브-대역으로 제한되어야 한다. 만일 서브-대역 대역폭이 임계 대역의 1/2 또는 1/2 이라하면 그리고 필터 감응도가 충분히 높다면, 바람직하지 않은 왜곡 생성물의 효과적인 마스킹이 주파수가 거의 서브-대역 통과 대역폭의 에지인 신호에 대해서 조차 발생하기 쉽다. 만일 서브-대역 대역폭이 1/2 임계 대역보다 더 크다면, 지배적인 신호가 귀의 임계 대역을 코더의 서브-대역으로부터 오프셋하도록 야기하여 귀의 임계 대역폭 밖의 몇몇 바람직하지 않은 왜곡 생성물들이 마스킹되지 않을 가능성이 있다. 이러한 효과는 귀의 임계 대역이 더 협소한 저주파수에서 가장 불쾌하다.
지배적인 신호가 귀의 임계 대역을 코더의 서브-대역으로부터 오프셋하도록 야기하여 동일한 코더의 서브-대역의 다른 신호들을 "언커버(uncover)"하는 가능성은, 귀의 임계 대역이 더 협소한 저주파수들에서 더 일반적이다. 변환 코더에서, 가장 협소한 가능한 서브-대역은 하나의 변환 계수이며, 따라서 심리음향 마스킹은 변환 계수 대역폭이 귀의 가장 협소한 임계 대역의 1/2 대역폭을 초과하지 않는다면 더 쉽게 달성될 수 있다. 변환 길이를 증가시키는 것은 변환 계수의 대역폭을 감소시킬 것이다. 변환 길이를 증가시키는 한가지 단점은 변환을 계산하고 다수의 협소한 서브-대역들을 인코딩하는 프로세싱 복잡성을 증가시킨다. 다른 단점들은 하기에서 더 논의된다.
물론, 심리음향 마스킹은 이러한 서브-대역들의 중심 주파수가 귀의 임계 대역 중심 주파수가 시프트하는 것과 매우 동일한 방식으로 지배적인 신호 성분들을 따라서 시프트될 수 있다면 더 넓은 서브-대역들을 사용하여 달성될 수 있다.
심리음향 마스킹 효과를 이용하는 변환 코더의 능력은 변환에 의해 구현되는 필터 뱅크의 감응도에 좌우한다. 필터 "감응도"는, 상기 용어가 본문에 사용된 것처럼, 서브-대역 통과 필터의 2가지 특성을 말한다. 첫번째는 필터 통과 대역과 저지 대역간의 영역의 대역폭(전이 대역의 폭)이다. 둘째는 저지 대역에서의 감쇠 레벨이다. 그러므로, 필터 감응도는 전이 대역내에서 필터 응답 곡선의 경사도(전이 대역 롤오프(rolloff))와, 저지 대역에서 감쇠 레벨(저지 대역 제거(rejection)의 깊이)를 말한다.
필터 감응도는 하기 논의된 3가지 요소를 포함하여 다수의 요소들에 의해 직접적으로 영향을 받는다: 블럭 길이, 윈도우 가중 함수, 및 변환. 매우 일반적인 의미로, 블럭 길이는 코더의 시간 및 주파수 분해능에 영향을 끼치며, 윈도우들과 변환들은 코딩 이득에 영향을 끼친다.
로우 비트 레이트 오디오 코딩/블럭 길이
인코딩되어야 하는 입력 신호는 서브-대역 필터링 이전에 "신호 샘플 블럭들"로 샘플링 및 세그먼트된다. 신호 샘플 블럭에서 샘플들의 개수는 신호 샘플 블럭 길이다.
변환 필터 뱅크(변환 길이)에 의해 발생된 계수들의 개수는 신호 샘플 블럭 길이에 균등한 것이 일반적이지만, 이는 필요한 것이 아니다. 오버랩핑-블럭 변환이 사용될 수 있으며 때때로 신호 샘플 블럭들을 2N 샘플로 변환시키는 길이 N의 변환으로서 당기술 분야에 기술되어 있다. 이 변환은 또한 N 특정 계수만을 발생시키는 길이 2N의 변환으로서 기술될 수 있다. 본문에 논의된 모든 변환들은 신호 샘플 블럭 길이에 균등한 길이를 갖는 것으로 생각될 수 있기 때문에, 2개 길이는 본 문에서 서로 동의어로서 사용된다.
신호 샘플 블럭 길이는 변환 코더의 시간 및 주파수 분해능에 영향을 끼친다. 짧은 블럭 길이들을 사용하는 변환 코더들은, 이산 변환 계수 대역폭이 넓으며 필터 감응도가 낮기 (전이 대역 롤오프의 감소된 레이트 및 저지대역 제거의 감소된 레벨) 때문에 열악한 주파수 분해능을 갖는다. 필터 성능에서의 이러한 감쇠는 단일 스펙트럼 성분의 에너지를 이웃하는 변환 계수로 확산하도록 야기한다. 이러한 바람직하지않은 스펙트럼 에너지의 확산은 "측파대 누설"이라 불리우는 감쇠된 필터 성능의 결과이다.
더 긴 블럭 길이를 사용하는 변환 코더들은 더 열악한 시간 분해능을 갖는데 왜냐하면 양자화 에러들은 변환 인코더/디코더 시스템이 신호 샘플 블럭의 전체 길이에 걸쳐 샘플링된 신호의 주파수 성분들을 손상시키도록 야기하기 때문이다. 역변환으로부터 복원된 신호의 왜곡 가공물들은 신호 샘플 블럭 길보다 매우 짧은 시간 간격중에 발생하는 신호 진폭에서의 대형 변동의 결과로서 가장 가청되기 쉽다. 그러한 진폭 변동들은 본문에서 "과도현상(transients)"로서 언급된다. 그러한 왜곡은 과도현상 바로 전(전-과도현상 노이즈(pre-transient noise) 또는 "프리-노이즈(pre-noise)") 및 바로 후(후-과도현상 노이즈(post-transient noise)) 에코 또는 공명의 형태로 노이즈로서 나타난다. 프리-노이즈가 특히 관심사항인데 왜냐하면 그것은 매우 가청가능하며, 후-과도현상 노이즈와 달리, 최소로 마스킹되기 때문이다(과도현상은 최소 시간 프리-마스킹(pre-masking)만을 제공한다). 프리-노이즈는 과도현상 오디오 제재(material)의 고주파수 성분들이, 과도현상이 발생하는 오디오 코더 블럭의 길이를 통하여 일시적으로 손상된다. 본 발명은 프리-노이즈를 최소화시키는 것에 관한 것이다. 통상적으로 후-과도현상 노이즈가 대체로 마스킹되며 본 발명의 대상은 아니다.
고정 블럭 길이 변환 코더들은 주파수 분해능에 대조하여 시간 분해능을 트레이드 오프하는 절충 블럭 길이를 사용한다. 짧은 블럭 길이는 서브-블럭 필터 감응도를 저하시키며, 이는 더 낮은 또는 모든 주파수에서 귀의 임계 대역폭을 초과하는 명목상의 통과대역 필터 대역폭을 야기한다. 비록 명목상의 서브-대역 대역폭이 귀의 임계 대역폭보다도 협소할지라도, 넓은 전이 대역 및/또는 열악한 저지대역 제거로서 나타난 저하된 필터 특성들은 귀의 임계 대역폭 외측에 중요한 신호 가공물들을 야기한다. 한편, 긴 블럭 길이는 필터 감응도를 개선시키지만 시간 분해능을 감소시켜, 이는 귀의 시간 심리음향 마스킹 간격 외측에서 발생하는 가청 신호 왜곡을 야기한다.
윈도우 가중 함수
이산 변환들은 주파수 계수들의 완벽하게 정확한 세트를 생성하지 않는데 왜냐하면 상기 변환들은 신호 샘플 블럭을 신호의 유한-길이 세그먼트와만 작동시키기 때문이다. 엄격히 말해서, 이산 변환들은 무한 신호 샘플 블럭 길이들을 요구하는 진정한 주파수-도메인 표현보다는 입력 시간-도메인 신호의 시간-주파수 표현을 생성한다. 그러나, 본문에서 논의의 편의를 위해, 이산 변환들의 출력은 주파수-도메인 표현으로서 언급된다. 사실상, 이산 변환들은 샘플링된 신호만이 그 주기가 신호 샘플 블럭 길이의 약수(submultiple)인 주파수 성분들을 갖는다고 추정한다. 이는 유한-길이 신호가 주기적이라는 추정에 상응한다. 물론, 상기 추정은 일반적으로 사실이 아니다. 추정된 주기성은 변환이 허상 스펙트럼 성분들을 생성시키도록 하는 신호 샘플 블럭의 에지에서 불연속성들을 야기한다.
이러한 효과를 최소화시키는 한가지 기술은, 신호 샘플 블럭의 에지 부근에서의 샘플들이 제로이거나 또는 제로에 가깝도록 변환 이전에 신호 샘플들을 가중시킴으로써 불연속성을 감소시키는 것이다. 신호 샘플 블럭의 중심에서의 샘플들은 일반적으로 불변으로 통과된다, 즉, 한개 요소에 의해 가중된다. 이러한 가중 함수는 "분석 윈도우(analysis window)"로 불리운다. 윈도우의 형상은 직접적으로 필터 감응도에 영향을 끼친다.
본문에 사용된 것으로서, 용어 "분석 윈도우"는 포워드 변환의 적용이전에 실행된 윈도우잉 함수만을 말한다. 상기 분석 윈도우는 시간-도메인 함수이다. 윈도우 영향의 어떠한 보상도 제공되지 않는다면, 수신된 또는 "합성된" 신호는 분석 윈도우의 형상에 따라 왜곡된다. 중첩-부가(overlap-add)로서 공지된 한가지 보상 방법이 당 기술에 잘 공지되어 있다. 상기 방법은 입력 신호 샘플들의 중첩된 블럭들을 변환시키기 위해 코더를 필요로한다. 2개의 인접 윈도우들이 중첩 단위체를 부가하도록 분석 윈도우를 신중히 설계함으로써, 윈도우의 효과들은 정확히 보상된다.
윈도우 형상은 필터 감응도에 상당히 영향을 끼친다. 일반적으로, Harris "On the Use of Windows for Harmonic Analysis with the Discrete Fourier Transform", ProcIEEE, vol 66, January, 1978, pp. 51-83을 참조한다. 일반적인 규칙으로서, "더 평탄한(smoother)" 형상 윈도우들과 대형 중첩 간격들은 더 양호한 감응도를 제공한다. 예를 들면, 카이저-베셀 윈도우는 일반적으로 사인-테이퍼된 직사각형 윈도우보다도 더 큰 필터 감응도를 고려한다.
이산 퓨리에 변환(DFT)과 같은 특정 유형의 변환과 함께 사용될 때, 중첩-부가는, 각각의 2개 중첩된 신호 샘플 블럭들에 대해 중첩 간격에서의 신호 부분이 두번 변환 및 전송되어야 하기 때문에, 신호를 나타내는데 요구되는 비트의 개수를 증가시킨다. 중첩-부가를 갖는 그러한 변환을 사용하는 시스템용 신호 분석/합성은 임계적으로 샘플링되지 않는다. 용어 "임계적으로 샘플링된(critically sampled)"은, 시스템이 수신하는 입력 신호 샘플들의 개수처럼 주파수 개수의 동일 개수를 시간 주기 이상으로 발생시키는 신호 분석/합성을 말한다. 그러므로, 비임계적으로 샘플링된 시스템에 대해, 코딩된 신호 정보 요건을 최소화시키기 위해서 가능한한 작은 중첩 간격을 갖는 윈도우를 설계하는 것이 바람직하다.
몇몇 변환은 역변환으로부터의 합성 출력이 윈도우되는 것을 요구한다. 합성 윈도우는 각 합성된 신호 블럭을 형상화하는데 사용된다. 따라서, 합성된 신호는 분석 및 합성 윈도우 모두에 의해 가중된다. 이러한 2-단계 가중은 그 형상이 분석 및 합성 윈도우의 샘플 마다의 곱에 대등한 윈도우에 의해 한번 오리지날 신호를 가중하는 것과 수학적으로 유사하다. 따라서. 윈도우잉 왜곡을 보상하도록 중첩-부가를 활용하기 위해서, 양측 윈도우는 2개의 곱이 중첩-부가 간격에 단위체를 합산하도록 설계되어야 한다.
윈도우의 최적성을 평가하는데 사용되는 단일 기준이 없더라도, 윈도우는, 윈도우와 사용된 필터의 감응성이 "양호"로 고려되면, 일반적으로 "양호"로 고려된다. 따라서, 잘 설계된 분석 윈도우(분석 윈도우만을 사용하는 변환용) 또는 분석/합성 윈도우 쌍(분석 및 합성 윈도우 모두를 사용하는 변환용)은 측대파 누설을 감소시킬 수 있다.
블럭 스위칭
고정 블럭 길이 변환 코더들에서 시간과 주파수 분해능간의 절충을 처리하는 공통적인 해결책은 과도현상 검출 및 블럭 길이 스위칭의 사용이다. 이러한 해결책에서, 오디오 신호 과도현상들의 존재와 위치는 다양한 과도현상 검출 방법을 사용하여 검출된다. 검출되는 과도현상 오디오 신호들이 프리-노이즈를 도입시키기 쉬울 때 긴 오디오 코더 블럭 길이를 사용하여 코딩되면, 로우 비트 레이트 코더는 더 효율적인 긴 블럭 길이를 덜 효율적인 짧은 블럭 길이로 스위칭한다. 이것이 인코딩된 오디오 신호의 주파수 분해능과 코딩 효율성을 감소시키지만, 그것은 또한 코딩 프로세스에 의해 도입된 과도현상 프리-노이즈의 길이를 또한 감소시켜, 로우 비트 레이트 디코딩시 오디오의 인지되는 품질을 개선시킨다. 블럭 길이 스위칭을 위한 기술들은 미국 특허 5,394,473; 5,843,391; 및 6,226,608 B1에 개시되어 있으며, 그 각각은 본문에 참조로 그대로 포함된다. 본 발명이 블럭 스위칭의 복잡성 및 단점없이 프리-노이즈를 감소시키더라도, 블럭 스위칭과 함께 그리고 이에 부가하여 사용될 수 있다.
본 발명의 제 1 양태에 따라, 코딩 블럭을 사용하는 변환-기반 로우-비트-레 이트 오디오 코딩 시스템에 의해 프로세싱된 오디오 신호 스트림에서 신호 과도현상에 선행하는 왜곡 가공물들을 감소시키기 위한 방법은 오디오 신호 스트림에서 과도현상을 검출하는 단계, 및 왜곡 가공물의 시간 기간이 감소되도록 코딩 블럭에 관하여 과도현상의 시간적 관계(temporal relationship)를 시프팅시키는 단계를 포함한다.
오디오 신호가 분석되고 과도현상 신호의 위치가 식별된다. 그후 오디오 데이터는, 디코딩된 오디오 신호에서 프리-노이즈의 양을 감소시키기 위해서 과도현상들이 변환-기반 로우-비트-레이트 오디오 인코더의 양자화에 앞서 일시적으로 재위치되는 방식으로 타임 스케일링된다. 인코딩 및 디코딩에 앞선 그러한 프로세싱은 본문에서 "프리-프로세싱(pre-processing)"으로서 언급된다.
따라서, 인코더에서의 양자화 이전에, 양자화 프로세스는 바람직하지 않은 프리-노이즈 가공물을 생성하는 인코딩 블럭을 통하여 과도현상을 손상시키므로, 과도현상은 타임-스케일링(시간 압축 또는 시간 팽창)을 사용하는 블럭 단부들에 비하여 더 양호한 위치로 시프트된다. 그러한 프리-프로세싱은 또한 "과도현상 타임 시프팅"으로서 언급된다. 과도현상 타임 시프팅은 과도현상의 식별을 요하며 또한 블럭 단부들에 비례하여 그들의 시간 위치에 관한 정보를 요한다. 원칙적으로, 과도현상 타임 시프팅은 포워드 변환의 적용 이전에 시간 도메인에서 또는 포워드 변환의 적용에 이어지지만 양자화 이전의 주파수 도메인에서 달성될 수 있다. 실질적으로, 과도현상 타임 시프팅은 포워드 변환의 적용 이전에, 특히 보상 타임 스케일링이 하기에서 처럼 실행될 때, 시간 도메인에서 더 쉽게 달성된다.
과도현상 타임 시프팅의 결과가 가청가능한데 왜냐하면 과도현상과 오디오 스트림 모두가 그 오리지날 비례 시간 위치에 더 이상 있지 않기 때문이다 - 오디오 스트림의 시간 전개는 과도현상 이전에 오디오 스트림의 시간 압축 또는 시간 팽창의 결과로서 변경된다. 청취자는 이를 예를 들면 음악내에서 리듬의 변경으로서 인식한다.
본 발명의 양태들을 형성하는 오디오 스트림의 시간 전개에서 그러한 변경을 감소시키기 위한 몇가지 보상 기술이 있다. 이러한 보상 기술은 선택적인데 왜냐하면 오디오 신호의 시간 전개에서 약간의 편차가 대부분의 청취자에게는 인식할 수 없기 때문이다. 보상 기술들은 본 발명의 제 2 양태의 논의 이후에 논의된다.
본 발명의 제 2 양태에 따르면, 코딩 블럭을 사용하는 변환-기반 로우-비트-레이트 오디오이 코딩 시스템의 인코더에서, 역변환 이후에 오디오 신호 스트림에서 신호 과도현상에 선행하는 왜곡 가공물들을 감소시키기 위한 방법은 오디오 신호 스트림에서 과도현상을 검출하는 단계, 및 왜곡 가공물의 시간 기간이 감소되도록 왜곡 가공물의 적어도 일부분을 시간 압축하는 단계를 포함한다.
본문에서 "포스트-프로세싱"으로서 언급된, 그러한 프로세싱에 의해서, 로우 비트 레이트 오디오 인코딩을 겪었던 임의의 오디오 신호에의 오디오 품질 개선은 프리-프로세싱이 이용되든지간에, 그리고 만일 이용된다면 인코더가 포스트-프로세싱에 유용한 메타데이터를 전송하든지간에 획득된다. 로우 비트 레이트 오디오 인코딩 및 디코딩을 겪었던 임의의 오디오 신호는 과도현상 신호들의 신호를 식별하고 과도현상 프리-노이즈 가공물의 기간을 예측하도록 분석된다. 그후, 타임 스케 일링 포스트-프로세싱은 과도현상 프리-노이즈을 제거하거나 또는 그 기간을 감소시기키 위해서 오디오에 대해 실행된다.
상기 언급된 것처럼, 오디오 스트림의 시간 전개에서의 변경을 감소시키기 위한 몇가지 보상 기술이 있다. 이러한 타임 스케일링 보상 기술들은 또한 오디오 샘플들의 개수를 일정하게 유지시키는 이로운 결과를 갖는다.
프리-프로세싱과 관련하여 유용한 제 1 타임 스케일링 보상 기술은, 포워드 변환 이전에 적용된다. 그것은 보상 시간 스케일링을 과도현상 후의 오디오 스트림에 적용하며, 타임 스케일링은 과도현상 위치를 시프트시키도록 사용되는 타임 스케일링의 반대되는 의미를 가지며, 바람직하게는 과도현상-시프팅 타임 스케일링처럼 대체로 동일한 기간을 갖는다. 논의의 편의를 의해, 이런 유형의 보상은 본문에서 "샘플 개수 보상"으로서 언급되는데 왜냐하면 오디오 샘플들의 개수를 일정하게 유지시킬 수 있지만 오디오 신호 스트림의 오리지날 시간 전개를 완전히 복원시킬 수 없다(그것은 시간적으로 부적당한 과도현상에 가깝게 신호 스트림의 과도현상과 부분들을 남겨둔다). 바람직하게는, 샘플 개수 보상을 제공하는 타임-스케일링이 밀접하게 과도현상의 다음에 오므로 그것은 시간적으로 과도현상에 의해 포스트-마스킹된다.
비록 샘플 개수 보상은 그 오리지날 시간 위치로부터 시프트된 과도현상을 남겨두지만, 그것은 그 오리지날 비례 시간 위치로의 타임 스케일링 보상에 뒤이어 오디오 스트림을 복원한다. 그러므로, 과도현상 타임 시프팅의 가청 가능성은, 제거되지 않더라도 감소되는데, 왜냐하면 상기 과도현상은 여전히 그 오리지날 위치 밖에 있기 때문이다. 그럼에도 불구하고, 이는 가청도에 충분한 감소를 제공하며 그것은 낮은 비트-레이트 오디오 인코딩이전에 수행되는 이점을 가지며, 표준, 불변경 디코더의 사용을 허용한다. 하기 설명되는 것처럼, 오디오 신호 스트림의 시간 전개의 완전한 복원은 디코더에서 프로세싱하여 또는 디코더에 뒤이음으로써 달성될 수 있다. 과도현상 타임 스케일링의 가청 가능성을 감소시키는 것 이외에, 포워드 변환 이전의 타임-스케일링 보상은 오디오 샘플들의 개수를 일정하게 유지시키는 이점을 가지며, 이는 프로세싱 및/또는 프로세싱을 구현하는 하드웨어의 작동이 중요하다.
포워드 변환 이전에 최적의 타임-스케일링 보상을 제공하기 위해서, 과도현상의 위치 및 과도현상 타임 시프팅의 시간 길이에 관한 정보가 보상 프로세스에 의해 사용되어야 한다.
만일 과도현상 타임 시프팅이 블럭킹 이후 적용된다면(그러한 포워드 변환을 적용하기 이전), 과도현상 타임 시프팅이 블럭 길이를 동일하게 유지시키기 위해서 수행되는 동일 블럭내에서 샘플 개수 보상을 사용하는 것이 필요하다. 결국, 블럭킹 이전에 과도현상 타임 시프팅과 샘플 개수 보상을 실행하는 것이 바람직하다.
샘플 개수 보상은 또한 포스트-프로세싱과 관련하여 역변환이후(디코더에서 또는 디코딩이후에) 사용된다. 이러한 경우에, 보상을 실행하기 위한 유용한 정보는 디코더로부터 보상 프로세스로 전달된다(이 정보는 인코더 및/또는 디코더에서 발생한다).
오디오 샘플들의 오리지날 개수를 복원함에 따라 오디오 신호 스트림의 시간 전개의 더 완전한 복원은 역변환 이후에(디코더에서 또는 디코딩에 이어서), 보상하는 타임 스케일링을 과도현상 위치를 시프트시키는데 사용된 타임 스케일링 및 바람직하게는 과도현상-시프팅 타임 스케일링으로서 대체로 동일 기간의 의미에 대응하는 의미의 과도현상 이전의 오디오 스트림에 적용함으로써 달성된다. 논의의 편의를 위해, 이러한 유형의 보상은 본문에서 "시간 전개 보상"으로서 언급된다. 이러한 타임 스케일링 보상은 과도현상을 포함한 전체 오디오 스트림을 그 오리지날 비례 시간 위치로 복원하는 이점을 갖는다. 그러므로, 타임 스케일링 프로세스의 가청 가능성이, 제거되지 않더라도 매우 감소되는데, 왜냐하면 2개의 타임 스케일링 프로세스 자체가 가청 가공물을 야기하기 때문이다.
최적의 시간-전개 보상을 제공하기 위해서, 과도현상의 위치, 블럭 말단부의 위치, 과도현상 타임 시프팅의 길이, 및 프리-노이즈의 길이와 같은 다양한 정보가 유용하다. 프리-노이즈의 길이는 프리-노이즈중 시간 전개 보상의 타임-스케일링이 발생하지 않음을 보장하므로, 프리-노이즈의 시간 길이를 될수 있는 한 팽창시키는데 유용하다. 과도현상 타임 시프팅의 길이는 만일 오디오 스트림을 그 오리지날 비례 시간 위치로 복원시키며 샘플의 개수를 일정하게 유지시키는 것이 바람직하다면 유용하다. 과도현상의 위치는 프리-노이즈의 길이가 코딩 블럭들의 단부들과 관련하여 과도현상의 오리지날 위치로부터 결정되기 때문에 유용하다. 프리-노이즈의 길이는 신호 파라미터, 이를 테면 고주파수-콘텐트를 측정하여 예측하거나 또는 디폴트 값이 사용될 수 있다. 만일 보상이 디코더에서 또는 디코딩 이후에 실행된다면, 유용한 정보가 인코더에 의해 인코딩된 오디오와 함께 메타데이터로서 전달된 다. 디코딩 이후에 실행될 때, 메타데이터는 디코더로부터 보상 프로세스로 전달된다(이 정보는 인코더 및/또는 디코더에서 발생한다).
상기 언급된 것처럼, 프리-노이즈 가공물의 길이를 감소시키는 포스트-프로세싱은 또한 부가적인 단계로서 타임 스케일링 프리-프로세싱을 실행하며, 선택적으로 메타데이터 정보를 제공하는 오디오 코더에 적용된다. 그러한 포스트-프로세싱은, 프리-프로세싱 이후 여전히 남아있는 프리-노이즈를 감소시킴으로써 부가적인 품질 개선 방식으로서의 역할을 한다.
프로-프로세싱은, 비용, 복잡성 및 시간-지연이 디코더와 관련한 포스트-프로세싱에 비하여 상대적으로 중요하지 않은 전문적인 인코더를 사용하는 코더 시스템에 바람직하며, 이는 통상적으로 낮은 복잡성의 소비자 장치이다.
본 발명의 로우 비트 레이트 코딩 시스템 개선 기술은 임의의 적절한 타임-스케일링 기술 뿐만 아니라 미래에 사용될 어떤것을 사용하여 구현될 수 있다. 한가지 적절한 기술은 "Highly Quality Time-Scaling and Pitch-Scaling of Audio Signals"로 표제되어, 2002년 2월 12일 제출된 국제 특허 출원 제PCT/US02/04317호에 개시되어 있다. 상기 출원은 미국 및 기타 국가를 지정한다. 상기 출원은 본문에 참조로 전체에 포함된다. 상기 논의된 것처럼, 타임 스케일링 및 피치 시프팅은 서로 이중적인 방법으로, 타임 스케일링은 또한 임의의 적절한 피치 스케일링 기술 뿐만 아니라 미래에 이용가능한 어떤것을 사용하여 구현될 수 있다. 입력 샘플 레이트와 상이한 적절한 레이트로 오디오 샘플들을 판독에 이은 피치 스케일링은 오리지날 오디오의 동일한 스펙트럼 콘텐트 또는 피치를 지닌 타임 스케일된 버전을 야기하며 본 발명에 적용 가능하다.
로우 비트 레이트 오디오 코딩 배경 개요에서 논의된 것처럼, 오디오 코딩 시스템에서 블럭 길이의 선택은 주파수와 시간 분해능간의 절충이다. 일반적으로, 더 긴 블럭 길이는 더 짧은 블럭 길이에 비하여 코더의 증가된 효율을 제공(일반적으로 데이터 비트의 감소된 개수를 더 잘 인식된 오디오 품질에 제공)하기 때문에 바람직하다. 그러나, 과도현상 신호들과, 그것들이 발생시키는 프리-노이즈 신호들은 가청 손상을 도입시켜 더 긴 블럭 길이들의 품질 이득을 상쇄시킨다. 이러한 이유 때문에 블럭 스위칭 또는 고정 소형 블럭 길이들은 로우 비트 레이트 오디오 코더의 실제 적용에 사용된다. 그러나, 본 발명에 따른 타임 스케일링 프리-프로세싱을 로우 비트 레이트 오디오 코딩을 겪으며 및/또는 포스트-프로세싱을 겪었던 오디오 데이터에 적용하는 것은 과도현상 프리-노이즈의 기간을 감소시킨다. 이는 더 긴 오디오 코딩 블럭 길이들이 사용되는 것을 허용하여, 증가된 코딩 효율을 제공하며 블럭 길이들을 적합하게 스위칭시킴없이 인지된 오디오 품질을 개선시킨다. 그러나, 본 발명에 따른 프리-노이즈의 감소는 블럭 길이 스위칭을 사용하는 코딩 시스템에서 또한 사용될 수 있다. 그러한 시스템들에서, 몇몇 프리-노이즈는 최소형 윈도우 사이즈에서 조차 존재할 수 있다. 윈도우가 클 수 록, 프리-노이즈가 더 길며, 결국 더 가청되기 쉽다. 일반적인 과도현상들은 대략 5msec의 프리마스킹을 제공하며, 이는 48kHz 샘플링 레이트에서 240개 샘플로 변형시킨다. 만일 윈도우가 블럭 스위칭 어레인지먼트에 공통적인 256 샘플보다 더 길다면, 발명은 몇가지 이점을 제공한다.
오디오 코딩 과도현상 프리-노이즈 가공물
도 1a-1e는 고정 블럭 길이 오디오 코더 시스템에 의해 발생된 과도현상 프리-노이즈 가공물의 예들을 나타낸다. 도 1a는 6개, 50% 중첩된, 고정 길이의 오디오 코딩 윈도우된 블럭들(1 내지 6)을 나타낸다. 본 도면과 본문의 모든 다른 도면들에서, 각 윈도우는 오디오 코딩 블럭과 인접하며 "윈도우된 블럭", "윈도우", 또는 "블럭"으로서 언급된다. 본 도면과 본문의 약간 다른 도면들에서, 윈도우들은 일반적으로 카이저-베셀 윈도우 형상으로 나타나있다. 다른 도면들은 윈도우들을 표현의 간략화를 위해 반원 형태로 나타낸다. 윈도우 형태는 본 발명에 중요하지 않다. 도 1과 다른 도면들에서 윈도우된 블럭들의 길이가 본 발명에 중요하지 않지만, 통상적으로 고정 길이 윈도우된 블럭들이 길이에서 256 내지 2048 샘플들의 범위내에 있다. 도 1b 내지 1e의 4개 오디오 신호 예들은 오디오 코딩 윈도우된 블럭들과 과도현상 프리-노이즈 가공물들간의 시간적 관계의 효과를 각각 도시한다.
도 1b는 코딩되는 입력 오디오 스트림에서 과도현상 신호의 위치와 50% 중첩된 윈도우된 블럭들의 가장자리들간의 관계를 도시한다. 50% 중첩하는 고정 블럭 길이가 나타나있지만, 발명은 고정 및 가변 블럭 길이 코딩 시스템에 그리고 도 2a 내지 5b와 관련하여 하기에 논의되는 중첩을 포함하여 50% 중첩보다 더 갖는 블럭들에 적용가능하다.
도 1c는 도 1b에 나타난 것처럼 오디오 스트림 입력의 경우에 대한 오디오 코딩 시스템의 오디오 신호 스트림 출력을 나타낸다. 도 1b와 1c에 나타난 것처럼, 과도현상은 윈도우된 블럭 3의 말단부와 윈도우된 블럭 4의 말단부 사이에 위치된 다. 도 1c는 과도현상의 위치와 윈도우된 블럭 2의 단부와 관련하여 로우 비트 레이트 오디오 코딩 프로세스에 의해 도입된 과도현상 프리-노이즈의 위치와 길이를 도시한다. 프리-노이즈는 과도현상 이전에 있으며 윈도우된 블럭 4와 5로 제한되며, 그 샘플 블럭들에 과도현상이 있다. 그러므로, 프리-노이즈는 윈도우된 블럭 4의 시작부까지 연장한다.
도 1b와 1c에 유사하게, 도 1d와 1e는 윈도우된 블럭 2의 말단부와 윈도우된 블럭 3의 말단부 사이에 위치된 과도현상을 포함하는 입력 오디오 신호 스트림과 오디오 코딩 시스템에 의해 출력 오디오 신호 스트림에 도입된 프리-노이즈 간의 관계를 각각 나타낸다. 프리-노이즈가, 과도현상이 있는, 윈도우된 블럭 3과 4로 제한되므로, 프리-노이즈가 윈도우된 블럭 3의 시작부까지 미친다. 이러한 경우에, 프리-노이즈가 더 긴 기간을 갖는데 왜냐하면 과도현상이, 도 1b와 1c의 과도현상이 윈도우된 블럭 4의 말단부보다는 윈도우된 블럭 3의 말단부 부근에 있기 때문이다. 이상적인 과도현상 위치는 프리-노이즈가 다음의 이전 블럭 말단부로 연장하도록 최근의 블럭 말단부에 밀접히 이어진다(이러한 50% 블럭 중첩 예의 경우에 블럭 길이의 약 반).
도 1a-1e의 예들은 명백히 코딩 윈도우 경계에서 크로스 페이딩의 효과를 고려하지 않았음을 유의한다. 일반적으로, 오디오 코딩 윈도우들이 점점 작아짐에 따라, 프리-노이즈 가공물들이 그에 따라 스케일링되며 그 가청도가 감소된다. 표현에서의 간략화를 위해, 프리-노이즈 가공물들의 스케일링은 본문 도면들의 이상적인 파형들에 나타나 있지 않다.
도 1a-1e에 제시되고 도 2A, 2B, 3A, 3B, 4A, 4B, 5A 및 5B에 상세히 나타난 것처럼, 오디오 코더의 과도현상 프리-노이즈 가공물들은 과도현상 신호들의 위치가 오디오 코딩 이전에 분명히 위치된다면 최소화될 것이다.
프리-노이즈를 감소시키기 위해서 과도현상의 위치를 재위치시키는 예들은 비중첩 블럭들(도 2a와 2b), 50% 미만의 블럭 중첩(도 3a와 3b), 50% 블럭 중첩(도 4a와 4b), 및 50% 초과의 블럭 중첩(도 5a와 5b)의 경우에 대해 도 2a, 2b, 3a, 3b, 4a, 4b, 5a 및 5b에 나타나 있다. 각각의 경우에, 과도현상의 오리지날 위치가 2개의 연속 블럭 말단부들간에 등거리가 아니라면(이 경우 바람직하지 않음), 과도현상을 가장 가까운 블럭 말단부에 밀접히 이은 위치로 시프트시키는 것이 바람직하다. 시프트가 이전 블럭 말단부로 또는 다음 블럭 말단부로 하며, 가장 가까운 블럭 말단부이든간에, 결과적인 프리-노이즈가 대체로 같다. 그러나, 가장 가까운 블럭 말단부에 이은 위치로 과도현상을 일시적으로 시프팅시킴으로써, 오디오 스트림의 시간 전개에 따른 분열이 최소화되어, 과도현상을 시프팅시키는 가능한 가청도를 최소화시킨다. 그럼에도 불구하고, 일부 경우에는, 더 많은 별개의 블럭 말단부로의 시프팅이 또한 가청되지 않는다. 또한, 더 많은 별개의 블럭 말단부로의 시프팅이 가청된다면, 시간 전개 보상이, 하기에 설명된 것처럼, 그러한 가청도를 감소 또는 제거하는데 사용된다.
도 2a와 2b는 일련의 이상적인 비중첩 윈도우된 블럭들을 나타낸다. 도 2a에서, 과도현상의 초기 위치는 실선 화살표로 지시된 것처럼 다음 윈도우 말단부에 보다는 최근의 윈도우 말단부에 더 가깝다. 과도현상의 초기 위치에 대한 프리-노 이즈가 예시된 것처럼 윈도우의 시작부의 말단부로 제때에 미친다. 만일 과도현상의 일시적 시프트의 정도를 최소화시키는 것이 바람직하다면, 예시된 것처럼, 최근의 윈도우된 블럭의 말단부에 밀접히 이은 위치로 "좌측" 시프트(제때에 백워드) 되어야 한다. 비록 결과적인 프리-노이즈가 여전히 윈도우된 블럭의 시작부로 미치지만, 이 길이는 초기 과도현상 위치로부터 야기되는 프리-노이즈에 비하여 매우 짧다. 본 도면과 기타 도면들에서, 윈도우된 블럭 말단부로부터 시프트된 과도현상의 거리는 표현을 명확히 하기 위해 강조되어 있다. 도 2b에서, 과도현상의 초기 위치는 이전 윈도우 말단부에 보다는 다음 윈도우 말단부에 더 가깝다. 그러므로, 과도현상의 시간적(temporal) 시프트의 정도를 최소화시키는 것이 바람직하다면, 예시된 것처럼, 다음 윈도우된 블럭의 말단부에 밀접히 이은 위치로 "우측"(제대보다 조금 늦게) 시프트되어야 한다. 초기 과도현상 위치가 윈도우된 블럭에서 늦어짐에 따라 프리-노이즈 감소의 개선이 증감됨에 유의한다.
도 3a와 3b는 50% 미만정도 중첩하는 일련의 이상적인 윈도우된 블럭들을 나타낸다. 도 3a에서, 과도현상의 초기 위치는, 실선 화살표로 나타난 것처럼, 다음 윈도우 말단부에 보다는 최근의 윈도우 말단부에 더 가깝다. 과도현상의 초기 위치에 대한 프리-노이즈는 예시된 것처럼 윈도우의 시작부의 말단부로 제때에 연장한다. 만일 과도현상의 시간적 시프트의 정도를 최소화시키는 것이 바람직하다면, 예시된 것처럼, 최근의 윈도우된 블럭의 말단부에 밀접히 이은 위치로 "좌측" 시프트되어야 한다. 도 3b에서, 과도현상의 초기 위치는 이전 윈도우 말단부에 보다는 다은 윈도우 말단부에 더 가깝다. 그러므로, 만일 과도현상의 시간적 시프트의 정도 를 최소화시키는 것이 바람직하다면, 예시된 것처럼, 다음 윈도우된 블럭의 말단부에 밀접히 이은 위치로 "우측" 시프트되어야 한다. 초기 과도현상 위치가 연속 윈도우된 블럭들간의 간격에서 나중에 있으므로 프리-노이즈 감소의 개선이 증감됨에 유의한다.
도 4a와 4b는 50% 정도 중첩하는 일련의 이상적인 윈도우된 블럭들을 나타낸다. 도 4a에서, 과도현상의 초기 위치는, 실선 화살표로 나타난 것처럼, 다음 윈도우 말단부에 보다는 최근의 윈도우 말단부에 더 가깝다. 과도현상의 초기 위치에 대한 프리-노이즈는 예시된 것처럼 윈도우의 시작부의 말단부에 제때에 연장한다. 만일 과도현상의 시간적 시프트의 정도를 최소화시키는 것이 바람직하다면, 예시된 것처럼 최근의 윈도우된 블럭의 말단부에 밀접히 이은 위치로 "좌측" 시프트되어야 한다. 결과적인 프리-노이즈가 여전히 윈도우된 블럭의 시작부로 연장하지만, 이 길이는 초기 과도현상 위치로부터 야기하는 프리-노이즈보다 더 짧다. 도 4b에서, 과도현상의 초기 위치는 이전 윈도우 말단부에 보다도 다음 윈도우 말단부에 더 가깝다. 그러므로, 만일 과도현상의 시간적 시프트의 정도를 최소화시키는 것이 바람직하다면, 예시된 것처럼 다음 윈도우된 블럭의 말단부에 밀접히 이은 위치로 "우측" 시프트되어야 한다. 50% 미만의 중첩된 블럭의 경우에서 처럼, 초기 과도현상 위치가 연속 윈도우된 블럭 말단부간의 간격에서 나중에 있으므로 프리-노이즈 감소의 개선이 증가함을 유의한다.
도 5a와 5b는 50%를 초과하여 중첩하는 일련의 이상적인 윈도우된 블럭들을 나타낸다. 도 5a에서, 과도현상의 초기 위치는, 실선 화살표로 나타난 것처럼, 다 음 윈도우 말단부에 보다는 최근의 윈도우 말단부에 더 가깝다. 과도현상의 초기 위치에 대한 프리-노이즈는 예시된 것처럼 윈도우의 시작부의 말단부에 제때에 연장한다. 만일 과도현상의 시간적 시프트의 정도를 최소화시키는 것이 바람직하다면, 예시된 것처럼, 최근의 윈도우된 블럭의 말단부에 밀접히 이은 위치로 "좌측" 시프트되어야 한다. 결과적인 프리-노이즈는 여전히 윈도우된 블럭의 시작부로 연장하지만, 이 길이는 여전히 초기 과도현상 위치로부터 야기하는 프리-노이즈보다도 다소 더 짧다. 도 5b에서, 과도현상의 초기 위치는 이전 윈도우 말단부에 보다도 다음 윈도우 말단부에 더 가깝다. 그러므로, 과도현상의 시간적 시프트의 정도를 최소화시키는 것이 바람직하다면, 예시된 것처럼, 다음 윈도우된 블럭의 말단부에 밀접히 이은 위치로 "우측" 시프트되어야 한다. 초기 과도현상 위치가 50% 중첩된 블럭의 경우에서 처럼 연속 윈도우된 블럭 말단부들간의 간격에서 나중에 있으므로 프리-노이즈 감소의 개선이 증가함에 유의한다.
프리-노이즈 감소의 개선이 비중첩하는 블럭들에 대해 대단히 크며 블럭 중첩의 정도가 증감함에 따라 감소함을 유의한다
도 1a-1e는 2가지 경우의 입력 신호의 조건에 대해 고정 블럭 길이 오디오 코더 시스템에 의해 발생된 과도현상 프리-노이즈 가공물들의 예들을 도시하는 일련의 이상적인 파형들이다.
도 2a와 2b는, 다음 윈도우 말단부에 보다도 최근의 윈도우 말단부에 더 가까운 초기 위치의 경우에 대해 그리고 이전 윈도우 말단부에 보다도 다음 윈도우 말단부에 더 가까운 초기 위치의 경우에 대해 각각 그러한 위치들의 프리-노이즈와 함께 초기 및 시프트된 과도현상 시간적 위치를 도시하는 일련의 이상적인 비중첩하는 윈도우된 블럭들을 나타낸다.
도 3a와 3b는, 다음 윈도우 말단부에 보다도 최근의 윈도우 말단부에 더 가까운 초기 위치의 경우에 대해 그리고 이전 윈도우 말단부에 보다도 다음 윈도우 말단부에 더 가까운 초기 위치의 경우에 대해 각각 그러한 위치들의 프리-노이즈와 함께 초기 및 시프트된 과도현상 시간적 위치를 도시하는 일련의 이상적인 50% 미만 중첩하는 윈도우된 블럭들을 나타낸다.
도 4a와 4b는, 다음 윈도우 말단부에 보다도 최근의 윈도우 말단부에 더 가까운 초기 위치의 경우에 대해 그리고 이전 윈도우 말단부에 보다도 다음 윈도우 말단부에 더 가까운 초기 위치의 경우에 대해 각각 그러한 위치들의 프리-노이즈와 함께 초기 및 시프트된 과도현상 시간적 위치를 도시하는 일련의 이상적인 50% 중첩하는 윈도우된 블럭들을 나타낸다.
도 5a와 5b는, 다음 윈도우 말단부에 보다도 최근의 윈도우 말단부에 더 가까운 초기 위치의 경우에 대해 그리고 이전 윈도우 말단부에 보다도 다음 윈도우 말단부에 더 가까운 초기 위치의 경우에 대해 각각 그러한 위치들의 프리-노이즈와 함께 초기 및 시프트된 과도현상 시간적 위치를 도시하는 일련의 이상적인 50% 초과하여 중첩하는 윈도우된 블럭들을 나타낸다.
도 6은 로우 비트 레이트 인코딩이전에 타임 스케일링함으로써 과도현상 프리-노이즈 가공물들을 감소시키는 단계를 나타내는 순서도이다.
도 7은 과도현상 검출을 위해 사용되는 입력 데이터 버퍼의 개념도이다.
도 8은, 과도현상이 오디오 코딩 블럭에 존재하며 다음 윈도우된 블럭 말단부에 보다도 최근의 윈도우된 블럭 말단부에 더 가깝게 위치할 때, 본 발명의 양태에 따른 오디오 타임 스케일링 프리-프로세싱의 예를 도시하는 일련의 이상적인 파형들이다.
도 9는, 과도현상이 윈도우된 오디오 코딩 블럭에 존재하며 블럭 말단부 이전에 대략 T 샘플에 위치할 때, 오디오 타임 스케일링 프로세싱의 예를 도시하는 일련의 이상적인 파형들 이다.
도 10a-10d는 다중 과도현상의 경우에 대한 타임 스케일링을 도시하는 일련의 이상적인 파형들이다.
도 11a-11f는 오디오 스트림에 전달되는 메타데이터를 사용하여 타임 스케일링의 지능적 시간 전개 보상을 도시하는 일련의 이상적인 파형들이다.
도 12는 로우 비트 레이트 오디오 디코더와 관련한 타임 스케일링 포스트-프로세싱의 순서도이다.
도 13a-13c는 디코딩 이후의 프리-노이즈 가공물들을 감소시키기 위해서 단일 과도현상에 대한 포스트-프로세싱의 예를 도시하는 일련의 이상적인 파형들이다.
도 14는 타임 스케일링 프리-프로세싱없이 로우 비트 레이트 코딩을 겪은 오디오의 인지된 품질을 개선시키기 위한 포스트-프로세싱 프로세스의 순서도이다.
도 15a-15c는 샘플 개수 보상을 실행시킴 없이 프리-노이즈를 감소시키기 위 해서 각 과도현상 이전에 오디오를 타임 스케일 하기 위해 디폴트 값을 사용하는 기술을 설명하는 일련의 이상적인 파형들이다.
도 16a-16c는 샘플 개수 및 시간 전개 보상으로 프리-노이즈 기간을 감소시키기 위해서 각 과도현상 이전에 오디오를 타임 스케일 하기 위해 계산된 프리-노이즈 기간을 사용하는 기술을 설명하는 일련의 이상적인 파형들이다.
타임 스케일링 프리-프로세싱 개요
도 6은 과도현상 프리-노이즈의 양을 감소시키기 위해서 로우 비트 레이트 오디오 인코딩 이전에 오디오를 타임 스케일링하는 방법을 도시하는 순서도이다(즉, "프리-프로세싱"). 이 방법은 N개 샘플 블럭들의 입력 오디오를 처리하며, 여기서 N은 오디오 코딩 블럭에 사용된 오디오 샘플들의 개수보다 더 많은 개수에 상응하거나 또는 이에 대등하다. 오디오 코딩 블럭의 사이즈보다 더 큰 N을 지닌 프로세싱 사이즈는 타임 스케일링 프로세싱에 유용한 오디오 코딩 블럭 이외에 부가적인 오디오 데이터를 제공하는 것이 바람직하다. 이러한 부가적인 데이터는, 예를 들면, 과도현상의 위치를 개선시키기 위해 실행된 타임 스케일링 프로세싱을 위한 샘플 개수 보상에 사용된다.
도 6 프로세스의 제 1 단계 202는 타임 스케일링 프로세싱을 위한 N개 오디오 데이터 샘플의 이용가능성을 검사한다. 이러한 오디오 데이터 샘플들은, 예를 들면, PC-기반 하드 디스크 또는 하드웨어 장치의 데이터 버퍼상의 화일이다. 상기 오디오 데이터는 오디오 인코딩 이전에 타임 스케일링 프로세서를 수반하는 로우 비트 레이트 오디오 코딩 프로세스에 의해 또한 제공된다. 만일 N개 오디오 데이터 샘플들이 이용가능하다면, 그것들이 패스되며(단계 204) 그리고 다음 단계들에서 타임 스케일링 프리-프로세싱 프로세스에 의해 사용된다.
프리-프로세싱 프로세스의 제 3 단계 206은 프리-노이즈 가공물들을 도입시키기 쉬운 오디오 데이터 과도현상 신호들의 위치를 검출한다. 수많은 상이한 프로세스들은 이러한 기능을 실행시키는데 이용가능하며 특정 구현예는 프리-노이즈 가공물들을 도입시키기 쉬운 과도현상 신호들의 정확한 검출을 제공하는 한 중요하지 않다. 많은 오디오 코딩 프로세스들은 오디오 신호 과도현상 검출을 실행하며 이 단계는 오디오 코딩 프로세스가 입력 오디오 데이터와 함께 후속의 타임 스케일링 프로세싱 블럭(210)에 과도현상 정보를 제공한다면 스킵된다.
과도현상 검출
오디오 신호 과도현상 검출을 실행하기 위한 한가지 적절한 방법은 다음과 같다. 과도현상 검출 분석에서 제 1 단계는 입력 데이터를 필터하는 것이다(시간 함수에 따라 데이터 샘플들을 처리한다). 상기 입력 데이터는, 예를 들면, 대략 8kHz의 3dB 컷오프 주파수를 지닌 2차 IIR 고역 필터로 필터링된다. 상기 필터 특성은 중요하지 않다. 이러한 필터링된 데이터는 그후 과도현상 분석에 사용된다. 입력 데이터를 필터링하는 것은 고주파수 과도현상들을 격리시키고 그것들을 더 쉽게 식별하게 만든다. 다음, 필터링된 입력 데이터는 도 7에 나타난 것처럼 대략 1.5msec의 64 서브블럭(4096 샘플 신호 샘플 블럭의 경우에)(또는 44.1kHz에서 64개 샘플)로 프로세싱된다. 프로세싱 서브-블럭의 실제 사이즈가 1.5msec로 제약되 지 않으며 변동한다면, 이 사이즈는 실시간 프로세싱 요건(더 큰 블럭 사이즈가 적은 프로세싱 오버헤드를 요구하므로)과 과도현상 위치의 분해능(더 작은 블럭들이 과도현상들의 위치에 관한 더 상세한 정보를 제공한다)간의 양호한 절충을 제공한다. 4096 샘플 신호 샘플 블럭들의 사용과 64개 샘플 서브-블럭의 사용은 단순한 예이며 본 발명에 중요하지 않다.
과도현상 검출 프로세싱의 다음 단계는 각 64-샘플 서브-블럭에 포함된 최대 절대 데이터 값들의 저역 필터링을 실행하는 것이다. 이 프로세싱은 상기 최대 절대 데이터를 평탄화시키며 실제 서브-버퍼 피크값이 비교될 수 있는 입력 버퍼의 평균 피크값의 일반적 지시를 제공하도록 실행된다. 하기에 기술된 방법은 상기 평탄화를 행하는 한가지 방법이다.
데이터를 평탄화하기 위해서, 각 64-샘플 서브-블럭은 최대 절대 데이터 신호값을 위해 스캐닝된다. 상기 최대 절대 데이터 신호값은 그후 평탄화된, 이동 평균 피크값을 계산하는데 사용된다. 각 k번째 서브-버퍼에 대한 필터링된, 고주파수 이동 평균, hi_mavg(k)는 각각 식 1과 2를 사용하여 계산된다.
for buffer k=1:1:64
hi_mavg(k)=hi_mavg(k-1)+((hi freq peak val in buffer k)-hi_mavg(k-1))*AVG_WHT) (1)
end
여기서, hi_mavg(0)은 연속적인 프로세싱에 대해 이전 입력 버퍼로부터 hi_mavg(64)로 설정된다. 현재 구현에서 파라미터 AVG_WHT는 0.25로 설정된다. 이 값은 넓은 범위의 공통 오디오 제재(material)를 사용하여 하기의 실험 분석시 결정된다.
다음, 과도현상 검출 프로세싱은 각 서브-블럭의 피크를 평탄화된, 이동 평균 피크값의 어레이와 비교하여 과도현상이 존재하는지를 결정한다. 이러한 2개 치수를 비교하기 위해 다수의 방법들이 존재하지만, 하기 약술된 접근법이 고려되는데 왜냐하면 넓은 범위의 오디오 신호들을 분석하여 결정된 것처럼 최적으로 실행하도록 설정되었던 스케일링 팩터(factor)의 사용에 의해 비교의 튜닝을 허용하기 때문이다.
필터링된 데이터에 대해, k번째 서브-블럭의 피크값은 고주파수 스케일링 값(HI_FREQ_SCALE)에 의해 곱하여지며 각 k의 계산된 평탄화된, 이동 평균 피크값과 비교된다. 만일 서브-블럭의 스케일링된 피크값이 상기 이동 평균 값보다 크다면 과도현상은 존재하는 것으로서 플래그된다. 이러한 비교들은 하기 식 3과 4에 약술되어 있다.
for buffer k=1:1:64
if(((hi freq peak value in buffer k)*HI_FREQ_SCALE)>hi_mavg(k)) (2)
flag high frequency transient in sub-block k=TRUE
end
end
과도현상 검출에 이어, 몇가지 정정 검사가 이루어져 64-샘플 서브-블럭에 대한 과도현상 플래그가 소거(TRUE에서 FALSE로 리셋)되어야 하는지를 결정한다. 이러한 검사들은 거짓(false) 과도현상 검출들을 감소시키도록 실행된다. 첫째, 고주파수 피크값들이 최소 피크값 아래로 떨어지면, 그후 과도현상이 소거된다(로우 레벨 과도현상을 처리하도록). 두번째, 만일 서브-블럭의 상기 피크가 과도현상을 트리거하지만 또한 과도현상 플래그를 트리거하였던 이전 서브-블럭보다도 상당히 크지 않다면, 그후 현재 서브-블럭의 과도현상이 소거된다. 이는 과도현상의 위치상의 정보 손상을 감소시킨다.
도 6을 다시 참조하면, 프로세싱에서 다음 단계 208은 과도현상들이 현재 N개 샘플 입력 데이터 어레이에 존재하는지를 결정하는 것이다. 만일 어떠한 과도현상도 존재하지 않는다면 입력 데이터가 어떠한 타임 스케일링 프로세싱도 실행되지 않은채 출력(또는 로우-비트 레이트 오디오 코더로 패스)될 것이다. 만일 과도현상들이 존재한다면, 오디오 데이터의 현재 N 샘플에 존재하는 과도현상들의 개수와 그 위치(들)가 입력 오디오 데이터의 시간적 변형을 위한 프로세스의 오디오 타임 스케일링 프로세싱 부분(210)으로 패스된다. 적절한 타임-스케일 프로세싱의 결과는 도 8a-8e의 설명과 관련하여 기술되어 있다. 상기 프로세스는 오디오 데이터 스트림에 관련하여 윈도우된 샘플 블럭들의 위치에 대해 인코더로부터 정보를 요구함에 유의한다. 만일, 선택적으로, 타임 스케일링 메타데이터 정보가 출력된다면(도 6에 예시됨), 어떠한 과도현상도 없는 경우에 대해, 어떠한 프리-프로세싱이 실행되지 않았음을 지시한다. 타임 스케일링 메타데이터가 실행된 타임 스케일링의 위치 및 양과 같은 타임 스케일링 파라미터들과, 만일 접합된 오디오 세그먼트들의 크로스 페이딩이 타임 스케일링 기술에 의해 사용된다면, 크로스 페이드 길이를 포 함한다. 인코딩된 오디오 비트 스트림의 메타데이터는 일시적 시프팅 이후 및/또는 그 전후의 그 위치를 포함하여 과도현상들에 대한 정보를 또한 포함한다. 오디오 데이터가 단계 212에서 출력된다.
오디오 프리-프로세싱
도 8a-8e는 과도현상이 오디오 코딩 블럭에 존재하며 그리고 다음 윈도우된 블럭 말단부에 보다도 최근의 윈도우된 블럭 말단부에 더 가깝게 위치될 때의 본 발명의 양태에 따른 오디오 타임 스케일링 프리-프로세싱의 예를 도시한다. 본 예에 대해, 50% 블럭 중첩이 도 1a-1e 및 도 4a와 4b의 방식으로 추정된다. 이미 논의된 것처럼, 로우 비트 레이트 오디오 코딩에 의해 도입된 과도현상 프리-노이즈의 양을 감소시키기 위해서, 오디오 신호 과도현상이 최근의 윈도우된 블럭 말단부에 밀접히 이어 위치이도록 입력 오디오 신호의 시간 전개를 조정하는 것이 바람직하다. 과도현상 위치의 그러한 시프트가 바람직한데 왜냐하면 신호 스트림의 시간 전개에 분열을 최소화시키며 과도현상 프리-노이즈의 길이를 최적으로 제한하기 때문이다. 그러나, 상기 논의된 것처럼, 다음 윈도우된 블럭 말단부에 밀접히 이은 위치로의 시프트가 과도현상 프리-노이즈의 길이를 최적으로 제한하지만 신호 스트림의 시간 전개로의 분열을 최소화시키지 못한다. 차이가 있는 일부 경우에, 분열은, 특히 시간 전개 보상이 또한 사용된다면, 적거나 또는 어떠한 가청 중대성도 없다. 그러므로, 가장 가까운 블럭 말단부중 어느 하나로의 시프트는 본 예시와 본문의 다른 기타 예시들에서 본 발명에 의해 고려된다. 상기 언급된 것처럼, 과도현상 타임 시프팅 타임 스케일링은, 오디오 신호 스트림이 인코더에 의해 블럭들로 분할된 후 프로세싱이 실행되지 않는다면, 단일 블럭에서 달성될 필요가 없다.
도 8a는 연속하여 50% 중첩된 윈도우된 코딩 블럭을 나타낸다. 도 8b는 단일 과도현상을 포함하는 오리지날 입력 오디오 데이터 스트림과 윈도우된 오디오 코딩 블럭 간의 관계를 나타낸다. 과도현상의 징후(onset)는 선행 블럭 말단부 이후의 T 샘플이다. 과도현상이 다음 블럭 말단부에 보다도 선행 블럭 말단부에 더 가까우므로, 과도현상 이전의 T 샘플들을 삭제하는 효과를 갖는 시간 압축을 적용함으로써 선행 블럭 말단부에 밀접히 이은 위치에서 좌측으로 과도현상을 시프트시키는 것이 바람직하다. 도 8c는 오디오 타임 스케일링이 실행되는 오디오 스트림의 2개 영역을 나타낸다. 제 1 영역은, 오디오의 기간을 T 샘플만큼 감소시키는 것이 시간 압축을 제공함으로써 선행 블럭의 말단부에 밀접히 이은 소정의 위치에 남은 과도현상의 위치를 "슬라이드(slide)" 또는 시프트시키는, 과도현상 이전의 오디오 샘플에 해당한다. 도 2A 내지 5B와 기술되는 기타 도면들에서 처럼, 도 8d와 8e의 블럭 말단부로부터 과도현상의 간격이 표현의 명학화를 위해 도면에 과장되어 있다. 제 2 영역은, 오디오 데이터의 전체 길이가 여전히 N개 샘플이도록 시간 팽창을 제공함으로써 오디오의 기간을 T 샘플만큼 증가시키기 위해서 과도현상 이후에 타임 스케일링이 선택적으로 실행되는 영역을 나타낸다. T 샘플의 삭제와 T 샘플의 선택적인 샘플 개수 보상이 윈도우된 오디오 코딩 샘플 블럭내에서 발생하는 것으로서 나타나 있지만, 이는 필수적이지 않다 - 보상 타임 스케일링 프로세싱은, 오디오 신호 스트림이 인코더에 의해 블럭들로 분할된 후 과도현상 타임 시프팅이 실행되지 않는다면 보상 타임 스케일링 프로세싱은 단일 오디오 코딩 블럭내에서 발생할 필 요가 없다. 그러한 타임-스케일링 프로세싱을 위한 최적의 위치는 사용되는 타임-스케일링 프로세스에 의해 결정된다. 과도현상이 유용한 포스트-마스킹을 제공하므로, 샘플 개수 보상 타임 스케일링은 바람직하게 과도현상에 가깝게 수행된다.
도 8d는, 만일 타임 스케일링 프로세싱이 과도현상 이전의 영역에서 오디오 입력 데이터 스트림의 시간 기간을 T 샘플만큼 감소시킴으로써 입력 오디오 데이터 스트림에 실행되고 어떠한 샘플 개수 보상 타임 스케일 팽창이 과도현상 신호 이후에 실행되지 않는 경우의 결과적인 신호 스트림을 논증한다. 이미 논의된 것처럼, 오디오 신호의 시간적 전개에서의 약간의 변동이 대부분의 청취자에게는 식별되지 않는다. 따라서, 만일 타임 스케일링된 오디오 데이터 스트림 샘플의 개수가 입력 샘플의 개수, N에 같을 필요가 없다면, 과도현상 이전의 오디오 스트림을 프로세스하기에 충분하다. 도 8e는 과도현상 이전의 오디오 데이터 스트림이 기간에서 T 샘플만큼 감소되며 상기 과도현상에 이은 오디오 데이터 스트림이 T 샘플만큼 증가되어, N 오디오 샘플들을 타임 스케일링 프로세싱 블럭 전반에서 유지하며 과도현상에 가까운 신호 스트림의 과도현상과 부분들을 제외한 오디오 신호 스트림의 시간 전개를 재저장하는 경우를 도시한다. 도 8b-8e의 신호 파형의 길이에서의 변형은 오디오 데이터 스트림에서의 샘플 개수가 기술된 조건에 따라 변동함을 개략적으로 보여준다. 오디오 샘플의 개수가 도 8d에서 처럼 감소될 때, 부가적인 샘플들은, 부가적인 오디오 코딩이 실행되기 이전에 획득될 필요가 있다. 이는 화일로부터 더 많은 샘플들을 판독하거나 또는 실시간 시스템에서 버퍼링는 더 많은 오디오를 기다림을 의미한다.
도 9a-9e는, 과도현상이 윈도우된 오디오 코딩 블럭에 존재하며 블럭 말단부 이전의 대략 T 샘플에 위치할 때의 오디오 타임 스케일링 프로세싱의 예를 도시한다. 과도현상 시프트중 로우 비트 레이트 오디오 코딩에 의해 도입된 과도현상 프리-노이즈의 양을 감소시키기 위해서, 오디오 신호 과도현상이 다음 블럭 말단부에 밀접히 이어지도록 입력 오디오 신호를 일시적으로 조정하는것이 바람직하다. 50% 중첩된 블럭의 경우에, 다음 블럭 말단부(또는 이전 블럭 말단부)의 말단부로의 시프트는 과도현상 프리-노이즈를 그 블럭과 이전 오디오 블럭에 과도현상 프리-노이즈를 확산시키는 대신에 오디오 코딩 블럭의 1/2로 제한한다.
도 9a는 3개 연속 50% 중첩된 윈도우된 코딩 블럭을 나타낸다. 도 9b는 단일 과도현상을 포함하는 오리지날 입력 오디오 데이터와 오디오 블럭들간의 관계를 나타낸다. 과도현상의 증후는 다음 블럭 말단부 이전의 T 샘플들이다. 과도현상이 이전 블럭 말단부보다도 다음 블럭 말단부에 더 가까우므로, 과도현상 이전에 T 샘플들을 부가하는 효과를 갖는 시간 팽창을 적용함으로써 다음 블럭 말단부에 밀접히 이은 위치로 우측으로 과도현상을 시프트시키는것이 바람직하다. 도 9c는 오디오 타임 스케일링이 실행되는 2개 영역을 나타낸다. 제 1 영역은, 오디오의 기간을 T 샘플들만큼 증가시키는 것이 다음 블럭 말단부 이후의 밀접한 소정의 위치로 과도현상의 위치를 슬라이드시키는, 과도현상 이전의 오디오 샘플들에 해당된다. 도 9c는, 오디오 데이터 스트림의 전체 길이, N개 샘플이 일정하도록 오디오의 기간을 T 샘플들만큼 감소시키기 위해 타임 스케일링이 과도현상 이후에 실행되는 영역을 또한 나타낸다. 도 9d는, 타임 스케일링 프로세싱이 과도현상 이전의 시간 영역에서 T 샘플들만큼 오디오 입력 데이터 스트림의 시간 기간을 증가시키지만 과도현상 신호 이후에는 샘플 개수 보상 타임 스케일 팽창을 실행시킴 없이 입력 오디오 데이터 스트림에 실행되는 결과를 도시한다. 상기 논의된 것처럼, 오디오 신호의 시간적 전개에서의 약간의 변동은 대부분의 청취자들에게 식별되지 않는다. 따라서, 만일 오디오 스트림 샘플들의 개수가 타임 스케일링 이후에 입력, N에 같을 필요가 없다면, 과도현상 이전의 오디오 스트림을 프로세스하기에 충분하다.
도 9e는 과도현상 이전의 오디오가 기간에 있어서 T 샘플만큼 증가되고 과도현상에 이은 오디오가 T 샘플만큼 감소되어, 타임 스케일링 전후로 일정한 개수의 오디오 샘플들을 유지시키는 경우를 도시한다. 다른 도면들에서 처럼, 도 9d와 9e의 블럭 말단부로부터 과도현상의 간격은 표현의 명확화를 위해 도면들에 과장되어 있다.
다수의 과도현상에 대한 오디오 타임 스케일링 프로세싱
오디오 코딩 블럭 사이즈의 길이와 코딩되는 오디오 데이터의 콘텐트에 따라, 프로세싱되는 입력 오디오 데이터 스트림은 프로세싱되는 N 샘플내에 프리-노이즈 가공물들을 도입시키는 1개 이상의 과도현상 신호를 포함하는 것이 가능하다. 상기 언급된 것처럼, 프로세싱되는 N 샘플들은 오디오 코딩 블럭 보다도 더 많이 포함한다.
도 10a-10d는 2개의 과도현상이 오디오 코딩 블럭에 발생할 때의 프로세싱 해결책을 도시한다. 일반적으로, 2개 이상의 과도현상들은, 오디오 데이터 스트림에서 가장 이른 과도현상이 중요 과도현상으로 처리되는 단일 과도현상과 동일한 방식으로 처리된다.
도 10a는 3개 연속 50% 중첩된 윈도우된 코딩 블럭들을 나타낸다. 도 10b는 입력 오디오에서 2개 과도현상이 오디오 코딩 블럭의 말단부에 걸쳐있는 경우를 나타낸다. 이 경우에, 더 이른 과도현상이 대부분의 인식가능한 프리-노이즈를 도입시키는데 왜냐하면 제 2 과도현상으로부터 야기하는 프리-노이즈의 부분이 제 1 과도현상에 의해 포스트-마스킹되기 때문이다. 프리-노이즈 가공물들을 최소화시키기 위해서, 입력 오디오 신호는 제 1 과도현상 이전의 오디오가 T 샘플들 만큼 타임 스케일 팽창되도록 우측으로 제 1 과도현상을 시프트시키기 위해서 타임 스케일링되며, T는 제 1 과도현상을 다음 블럭 말단부에 밀접히 이은 위치로 위치시키는 샘플들의 개수이다.
도 10b의 제 1 과도현상 이전의 타임 스케일 팽창 프로세싱에 대한 샘플 개수 보상을 위해서 그리고 과도현상들을 더 밀접하게 제때에 이동시킴으로써 제 2 과도현상으로부터 야기하는 프리-노이즈의 포스트-마스킹을 최적화하기 위해서, 제 1 과도현상에 이어지며 제 2 과도현상 이전의 오디오는 바람직하게 T 샘플들만큼 기간에서 감소되도록 타임 스케일링된다. 도 10b에 도시된 것처럼, 타임 스케일링 프로세싱을 실행하도록 제 1 및 제 2 과도현상 간에 충분한 오디오 프로세싱 데이터가 있다. 그러나, 일부 경우에, 제 2 과도현상이 제 1 과도현상에 너무 가까워 그들간에 타임 스케일 프로세싱을 실행하기에 충분한 오디오 데이터가 없을 수 있다. 과도현상들간에 요구되는 오디오 데이터의 양은 프로세싱을 위해 사용되는 타임 스케일링 프로세스에 좌우하다. 불충분한 오디오 데이터가 2개 과도현상간에 존 재한다면, 샘플 개수 보상을 제공하기 위해서 제 2 과도현상에 이은 오디오 데이터를 타임 스케일 팽창시키는 것이 필요하다. 제 2 과도현상 이후 오디오 데이터의 팽창을 달성하기 위해서, 타임 스케일 프로세스는 상기 언급된 것처럼 오디오 코딩 프로세스에 사용되는 블럭의 샘플 개수보다도 오디오 데이터의 대형 세그먼트에 액세스하는 것이 필요하다.
도 10c는 제 1 과도현상이 다음 블럭 말단부 보다도 최근의 블럭 말단부에 더 가까우며 모든 과도현상들이(이 경우에 2개) 충분하게 가까워 제 1 과도현상으로부터 야기하는 프리-노이즈가 제 1 과도현상에 의해 대체로 포스트-마스킹되는 경우를 도시한다. 그러므로, 제 1 과도현상 이전의 오디오 스트림은 바람직하게 T 샘플만큼 타임 스케일 압축되므로 제 1 과도현상은 이전 블럭 말단부 바로 이후의 위치로 시프트된다. 오리지날 샘플 개수를 복원시키기 위한 샘플 개수 보상은, 타임 스케일 팽창의 형태로, 제 2 과도현상에 이은 오디오 데이터 스트림에서 실행된다.
도 10d는 제 1 과도현상이 최근의 블럭 말단부 보다도 다음 블럭 말단부에 더 가까우며 모든 과도현상들이(이 경우에 2개) 충분하게 가까워서 제 2 과도현상으로부터 야기하느 프리-노이즈가 제 1 과도현상에 의해 충분히 포스트-마스킹되는 경우를 도시한다. 그러므로, 제 1 과도현상 이전의 오디오 스트림은 T 샘플만큼 타임 스케일 팽창되어 제 1 과도현상이 다음 블럭 말단부 바로 이후의 위치로 시프트된다. 샘플 개수 보상은, 타임 스케일 압축의 형태로, 선택적으로 제 2 과도현상에 이은 오디오 데이터 스트림에서 실행된다.
다수의 과도현상의 경우에 대해, 거의 완벽한 방식으로 프리-프로세싱을 위한 시간 전개 보상이 바람직하다면, 메타데이터 정보는 상기된 단일 과도현상 경우와 유사한 방식으로 각 코딩된 오디오 블럭과 함께 전달된다.
타임 스케일링 프리-프로세싱의 메타데이터 제어 시간 전개 보상
상기 언급된 것처럼, 디코더에 의한 역변환에 이어, 과도현상 이후의 오디오 신호 스트림에 보상 타임 스케일링을 적용하는것이 바람직하므로 프로세싱된 오디오 신호 스트림의 시간 전개가 오리지날 오디오 신호 스트림의 시간 전개와 대체로 동일하며, 따라서 신호 스트림의 오리지날 시간 전개를 복원한다. 그러나, 실험된 연구들은 오디오의 약간의 시간적 변경이 대부분의 청취자들에게는 인지가능하지 않므며 따라서 시간 전개 보상이 필요하지 않음을 나타낸다. 또한, 평균적으로, 과도현상들이 균일하게 진전 및 지연되며, 따라서, 충분히 긴 시간 기간동안, 누적 효과는 시간 전개 보상없이 무시가능하다. 고려되는 또 다른 문제는, 프리-프로세싱을 위해 사용되는 타임 스케일링의 유형에 따라, 부가적인 시간 전개 보상 프로세싱이 오디오에 가청 가공물을 도입시킨다는 것이다. 그러한 가공물들은 타임 스케일링 프로세싱이 수많은 경우에 완벽하게 역 프로세스가 아니기 때문에 발생한다. 즉, 타임 스케일링 프로세스를 사용하여 고정량만큼 오디오를 감소시키고 그후 동일한 오디오를 시간 팽창하는 것이 나중에 가청 가공물을 도입시킨다.
타임 스케일링에 의해 과도현상 요소를 포함하는 오디오를 프로세싱하는 한가지 이점은 타임 스케일링 가공물이 과도현상 신호의 시간적 마스킹 특성에 의해 마스킹된다는 것이다. 과도현상 오디오 요소는 과도현상 전후의 가청 요소를 "마스 크"하므로 바로 이전 및 이후의 오디오는 청취자에게 인식될 수 없다. 프리-마스킹이 측정되었으며 이는 상대적으로 짧으며 단지 몇 밀리초만 지속하지만 포스트-마스킹은 100msec 보더 길게 지속한다. 따라서, 타임 스케일링 시간 전개 보상 프로세싱은 일시적 포스트-마스킹 효과로 인해 가청되지 않는다. 그러므로, 만일 실행된다면, 일시적으로 마스킹된 영역내에서 시간 전개 보상 타임 스케일링을 실행하는 것이 이롭다.
도 11a-11f는 지능형 시간 전개 보상이 메타데이터 정보를 사용하는 디코더에서의 역변환에 이어 실행되는 예를 나타낸다. 메타데이터는 시간 전개 보상을 실행하는데 요구되는 분석량을 매우 감소시키는데 왜냐하면 그것은 타임 스케일링 프로세싱이 실행되며 타임 스케일링의 기간이 요구되는 것을 지시하기 때문이다. 상기 설명된 것처럼, 시간 전개 보상 프로세싱은, 과도현상을 포함한 신호 스트림이 오디오 스트림의 그 오리지날 위치를 갖는 오리지날 시간 전개로 디코딩된 오디오 신호를 리턴시키고자 된 것이다. 도 11a는 3개 연속 50% 중첩된 윈도우된 코딩 블럭을 나타낸다. 도 11b는 블럭 말단부 이후 과도현상 T 샘플을 갖는 프리-프로세싱이전의 입력 오디오 스트림을 나타낸다. 도 11c는 입력 오디오 스트림이 과도현상을 초기 위치로 시프트시키기 위해 과도현상 이전의 T 샘플을 삭제함으로써 프로세싱됨을 나타낸다. T 샘플들은 오디오 데이터 샘플의 개수를 변동되지 않게 하기 위해서 과도현상 이후에 부가된다(샘플 개수 보상). 도 11d는 과도현상이 초기 위치로 시프트되며 과도현상에 이은 오디오가 그 오리지날 위치로 시프트되는 수정된 오디오 스트림을 나타낸다. 도 11e는 T 샘플의 삭제(시간 압축)가 T 샘플을 부가( 시간 팽창)함으로써 보상되며 T 샘플의 부가(시간 팽창)가 T 샘플을 삭제(시간 압축)함으로써 보상하는 요구되는 시간 전개 보상 타임 스케일링 영역을 나타낸다. 도 11f에 나타난 결과는 도 11a의 입력 신호처럼 동일한 시간 전개를 갖는 보상된 "거의 완벽한" 출력 신호이다(타임 스케일링 프로세스의 결함에 주로 해당함).
과도현상 프리-노이즈를 감소시키기 위한 타임 스케일링 포스트-프로세싱
다수의 이전 예에서 설명된 것처럼, 오디오 코딩 블럭에서 과도현상의 최적 배치에도 불구하고, 일부 프리-노이즈는 로우 비트 레이트 오디오 코딩 시스템 프로세스에 의해 여전히 도입된다. 상기 언급된 것처럼, 더 긴 오디오 코딩 블럭들은 더 짧은 코딩 블럭들에 비하여 바람직한데 왜냐하면 그것들은 더 큰 주파수 분해능과 증가된 코딩 이득을 제공하기 때문이다. 그러나, 과도현상들이 오디오 인코딩(프리-프로세싱) 이전의 타임 스케일링에 의해 최적으로 배치되더라도, 오디오 코딩 블럭의 길이가 증가함에 따라, 프리-노이즈가 또한 증가한다. 과도현상 임시 프리-노이즈의 프리-마스킹은 대략 5msec(밀리초)이며, 이는 48kHz에서 샘플링된 오디오의 240개 샘플에 해당한다. 이는, 대략 512 샘플 보다도 더 큰 블럭 사이즈를 지닌 코더에 대해, 과도현상 프리-노이즈가 최적의 배치에도 불구하고 가청되기 시작함을 의미한다(단지 반만이 50% 중첩된 블럭의 경우에 마스킹된다). (이는 코더의 블럭에서 에지 효과를 윈도우잉시킴으로써 야기되는 과도현상 프리-노이즈의 감소를 고려하지 않는다.)
과도현상 프리-노이즈는 로우 비트 레이트 코딩 시스템으로부터 완전히 제거되지 않지만, 프리-프로세싱을 적용하건 하지 않든간에 과도현상 프리-노이즈의 양 을 감소시키기 위해 변환-기반 로우 비트 레이트 오디오 디코더에서 역변환을 겪었던 오디오 데이터에 대한 타임 스케일링 포스트-프로세싱을(자체적으로 또는 프리-프로세싱에 부가하여) 실행시키는 것이 가능하다. 타임 스케일링 포스트-프로세싱은 로우 비트 레이트 오디오 디코더와 관련하여(즉, 디코더의 부분으로서 및/또는 디코더로부터 및/또는 인코더로부터 디코더를 경유하여 메타데이터를 수신함으로써) 또는 독립형(stand-alone) 포스트-프로세스로서 실행된다. 메타데이터를 사용하는 것이 바람직한데 왜냐하면 오디오 코딩 블럭들과 관련한 과도현상들의 위치 이외에 오디오 코딩 블럭 길이(들)와 같은 유용한 정보가 쉽게 이용가능하며 메타데이터를 경유하여 포스트-프로세싱 프로세스로 패스되기 때문이다. 그러나, 포스트-프로세싱은 로우 비트 레이트 오디오 디코더와의 상호작용없이 사용될 수 있다. 양측 방법은 하기에 논의되어 있다.
로우 비트 레이트 오디오 디코더와 관련한
타임 스케일링 포스트-프로세싱(메타데이터 수신)
도 12는 과도현상 프리-노이즈 가공물들을 감소시키기 위해 로우 비트 레이트 오디오 디코더와 관련한 타임 스케일링 포스트-프로세싱을 실행하기 위한 프로세스의 순서도이다. 도 12에 도시된 프로세스는 입력 데이터가 로우 비트 레이트 인코딩된 오디오 데이터인지를 추정한다(단계 802). 압축된 데이터를 오디오로의 디코딩에 이어서(단계 804), 블럭(또는 블럭들)에 상응하는 오디오가 과도현상 프리-노이즈 기간을 감소시키는데 유용한 메타데이터 정보와 함께 타임 스케일러로 전달된다(단계 806). 이 정보는, 예를 들면, 과도현상들의 위치, 오디오 코더 블럭(들)의 길이, 코더 블럭 경계 대 오디오 데이터의 관계, 및 과도현상 프리-노이즈의 소정 길이를 포함한다. 만일 오디오 코더의 블럭 접경에 관련한 과도현상의 위치가 이용가능하다면, 프리-노이즈 가공물의 길이와 위치가 포스트-프로세싱에 의해 예측되고 정확히 감소될 것이다. 과도현상들이 일부 임시 프리-마스킹을 제공하므로, 과도현상 프리-노이즈를 완전히 제거할 필요가 없다. 타임 스케일링 포스트-프로세싱 프로세스에 소정의 프리-노이즈 길이를 제공함으로써, 단계 808에 출력되는 출력 오디오에 남겨진 프리-노이즈의 양에 대한 일부 제어가 달성된다. 단계 806에 대한 적절한 타임 스케일링 프로세싱의 결과는 도 13a-13e의 설명과 관련하여 하기에 설명되어 있다.
프리-프로세싱이 인코딩 이전에 적용되건 또는 그렇지 않건 포스트-프로세싱이 유용함에 유의한다. 과도현상이 블럭 말단부와 관련하여 위치되는 곳에 상관없이, 일부 과도현상 프리-노이즈가 존재한다. 예를 들면, 최저에서 50% 중첩의 경우에 대해 오디오 코딩 윈도우의 1/2 길이이다. 대형 윈도우 사이즈는 여전히 가청 가공물들을 도입시킨다. 포스트 프로세싱을 실행함으로써, 인코더에 의한 양자화 이전에 블럭 말단부와 관련하여 과도현상을 최적으로 배치함으로써 감소되는 것보다도 프리-노이즈의 길이를 감소시키는 것이 가능하다.
도 13a-13c는 역변환 이후에 프리-노이즈를 감소시키기 위해 단일 과도현상에 대한 포스트-프로세싱의 예를 도시한다. 도 13a에 나타난 것처럼, 단일 과도현상이 프리-노이즈 가공물을 도입시킨다. 코딩 블럭 길이에 따라, 프리-노이즈는, 심지어 프리-프로세싱 이후에 조차도, 과도현상 임시 프리-마스킹 효과에 의해 마 스킹되는 것보다도 더 긴 시간을 갖는다. 그러나, 도 13b에 나타난 것처럼, 디코더로부터 과도현상 위치 메타데이터 정보를 사용함으로써, 프리-노이즈를 T 샘플만큼 감소시키기 위해 오디오를 타임 스케일링함으로써 프리-노이즈가 길이에서 감소된 프리-노이즈를 포함하는 오디오의 영역을 식별한다. 개수 T는 프리-노이즈 길이가 프리-마스킹을 이용하도록 최소화되기 위해서 선택되거나 또는 프리-노이즈를 완벽히 또는 거의 완벽히 제거하기 위해서 선택된다. 오리지날 신호에서처럼 동일 개수의 샘플을 유지시키는 것이 바람직하다면, 과도현상에 이은 오디오는 +T 샘플만큼 타임 스케일링 팽창된다. 이와 달리, 도 16A의 예와 관련하여 나타난 것처럼, 그러한 샘플 개수 보상은 프리-노이즈 이전에 적용되며, 이는 시간 전개 보상을 또한 제공하는 이점을 갖는다.
만일 포스트-프로세싱이 타임 스케일링 프리-프로세싱과 관련하여 실행된다면, 부가적인 분산의 양을 출력 오디오 스트림의 시간 전개로 최소화시킴에 유의한다. 초기 논의된 타임 스케일링 프리-프로세싱이 50% 블럭 중첩의 경우에 대해 프리-노이즈의 길이를 N/2 샘플로 감소시키므로(N은 오디오 코딩 블럭의 길이이다), 오리지날 입력 오디오에 비하여 출력 오디오에서 부가적인 시간 전개 분산의 N/2 이하 샘플을 도입시키도록 보장된다. 프리-프로세싱의 부재시, 프리-노이즈는, 50% 블럭 중첩의 경우에 대해, N 샘플, 코딩 블럭 길이까지 증가할 수 있다.
일부 로우 비트 레이트 오디오 코딩 시스템에서, 신호 과도현상의 위치는 인코더가 위치 정보를 전달하지 않는다면 쉽게 이용가능하지 않다. 만일 그러한 경우라면, 디코더 또는 타임 스케일링 프로세스는, 이미 설명된 다수의 효과적인 방법 또는 과도현상 검출 프로세스를 사용하여, 과도현상 검출을 실행한다.
다중 과도현에 대해, 동일한 문제가 상기 논의된 것처럼 프리-프로세싱에 관하여 적용된다.
프리-프로세싱이 없는 타임 스케일링 포스트 프로세싱
상기 언급된 것처럼, 일부 경우에 있어서, 과도현상 프리-노이즈 타임 스케일링 프로세싱(프리-프로세싱)을 구현하지 않는 압축 시스템을 사용하여 로우 비트 레이트 코팅을 겪었던 오디오의 인식된 품질을 개선시키는 것이 바람직하다. 도 14는 그것을 행하기 위한 프로세스를 약술한다.
제 1 단계 1402는 로우 비트 레이트 오디오 인코딩 및 디코딩을 겪었던 N 오디오 데이터 샘플들의 가용성을 검사한다. 이러한 오디오 데이터 샘플들은 PC 기반 하드디스크 상의 화일로부터 또는 하드웨어 장치의 데이터 버퍼로부터 있을 수 있다. 만일 N 오디오 데이터 샘플들이 가용하다면, 그것들은 단계 1404에서 타임 스케일링 포스트-프로세싱 프로세스로 패스된다.
타임-스테일링 포스트-프로세싱 프로세스의 제 3 단계 1406은 프리-노이즈 가공물들을 도입시키기 쉬운 오디오 데이터 과도현상 신호들의 위치의 식별이다. 수많은 서로 다른 프로세스들이 이러한 기능을 실행시키도록 이용가능하며 특정한 구현은 프리-노이즈 가공물들을 도입시키기 쉬운 과도현상 신호들의 정확한 검출을 제공하는 한 중요하지 않다. 그러나, 상기된 프로세스는 사용될 수 있는 효과적이며 정확한 방법이다.
제 4 단계 1408은 단계 1406에서 검출된 것처럼 현재 N개 샘플 입력 데이터 어레이에 과도현상들이 존재하는지를 결정하는 것이다. 어떠한 과도현상도 존재하지 않는다면, 입력 데이터는 어떠한 타임 스케일링 프로세싱이 실행되지 않은 채 단계 1414에서 출력된다. 만일 과도현상이 존재한다면, 과도현상들과 그 위치(들)의 개수는 과도현상 프리-노이즈의 위치와 기간을 기간을 식별하기 위해 프로세스의 과도현상 프리-노이즈 평가 프로세싱 단계 1410으로 패스된다.
프로세싱의 제 5 및 제 6 단계는 과도현상 프리-노이즈 가공물들의 위치와 기간을 평가하는 단계 1410와 타임 스케일링 프로세싱으로 그 길이를 감소시키는 단계 1412를 수반한다. 정의를 내리자면, 프리-노이즈 가공물들은 오디오 데이터에서 과도현상들에 선행하는 영역들로 제한되므로, 검색 영역은 과도현상 검출 프로세싱에 의해 제공되는 정보로 제한된다. 도 1에서 나타난 것처럼, 프리-노이즈의 길이는 최소 N/2에서 최대 N개 샘플로 제한되며, 여기서 N은 50% 중첩된 오디오 코딩 블럭에서 오디오 샘플들의 개수이다. 그러므로, N이 1024 샘플이며 오디오가 48Hz에서 샘플링될 때, 과도현상 프리-노이즈는, 과도현상의 개시 이전에, 오디오 스트림의 과도현상 위치에 좌우하여, 10.7msec에서 21.3msec의 범위이며, 이는 과도현상 신호들로부터 예상되는 어떠한 임시 마스킹을 상당히 초과한다. 이와 달리, 과도현상에 선행하는 프리-노이즈 가공물들의 길이를 예측하는 대신에, 단계 1410은 프리-노이즈 가공물들이 디폴트 길이를 갖는것으로 추정한다.
과도현상 프리-노이즈 감소를 위한 두가지 접근법이 구현될 수 있다. 제 1 접근법은 모든 과도현상들이 프리-노이즈를 포함하며 따라서 모든 과도현상 이전의 오디오가 예상되는 양의 프리-노이즈 과도현상에 기초로 하는 소정의(디폴트) 양만 큼 타임 스케일링(시간 압축) 된다. 만일 이러한 기술이 사용된다면, 임시 프리-노이즈 이전의 오디오의 타임 스케일 팽창은 프리-노이즈의 길이를 감소시키도록 사용된 시간 압축 타임 스케일링 프로세싱의 샘플 개수 보상을 제공하며 시간 전개 보상을 제공하도록 실행된다(프리-노이즈내의 시간 압축을 보상하는 프리-노이즈 이전의 시간 팽창은 오리지날 시각 위치에 또는 그 근처에 과도현상을 남겨둔다). 그러나, 만일 프리-노이즈의 증후의 정확한 위치가 공지되지 않는다면, 그러한 샘플 개수 보상 프로세싱은 프리-노이즈 요소의 부분들의 기간을 부지불식간에 증가시킨다.
도 15a-15e는 프리-노이즈 기간을 감소시키지만 샘플 개수 보상을 실행시키지 못하도록 각 과도현상 이전에 타임-스케일 오디오에 디폴트값을 사용하는 기술을 설명한다. 도 15a에 나타난 것처럼, 로우 비트 레이트 오디오 디코더로부터의 오디오 신호 스트림은 프리-노이즈에 의해 선행되는 과도현상을 갖는다. 도 15b는 타임 스케일링 프로세싱에 의해 실행되어야 하는 시간 압축의 양으로서 사용된 디폴트 프로세싱 길이를 나타낸다. 도 15c는 감소된 프리-노이즈를 갖는 결과적인 오디오 신호 스트림을 나타낸다. 본 예에서, 시간 전개 보상은 오디오 데이터 스트림의 그 오리지날 위치로 과도현상을 리턴시키도록 실행되지 않는다. 그러나, 이전 프로세싱 예들에 유사한 방식으로, 만일 입력 대 출력 샘플들의 일정한 개수가 요구된다면, 과도현상에 뒤어어 타임 스케일 팽창 프로세싱이 도 13b의 예에 유사하게 또는 가능하다면 도 16a-16c의 예와 관련하여 하기되는 것처럼 프리-노이즈 이전에 실행된다. 그러나, 디폴트 프로세싱 길이를 적용할 때, 프리-노이즈의 실제 길이가 디폴트 길이를 초과한다면, 프리-노이즈 이전에 그러한 보상을 제공하는 것은 프리-노이즈내에서 타임 스케일 팽창 프로세싱을 실행하는 모험을 한다(그러므로, 프리-노이즈 길이를 바람직하지 않게 증가시킨다). 게다가, 일부 경우에 있어서, 포스트-프로세싱은 프리-노이즈 이전의 오디오 스트림에 액세스를 갖지 못한다 - 상기 오디오는 대기시간을 감소시키기 위해서 곧 출력된다.
도 16a-16c에 도시된, 제 2 포스트-프로세싱 프리-노이즈 감소 기술은, 그 길이를 결정하기 위해서 과도현상으로부터 야기하는 프리-노이즈의 분석을 실행하는 단계와 프리-노이즈 세그먼트만이 프로세싱되도록 오디오를 프로세싱하는 단계를 수반한다. 상기 언급된 것처럼, 과도현상 프리-노이즈는 과도현상 오디오 제재의 고주파수 성분들이 인코더의 양자화 프로세스의 결과로서 블럭을 통하여 일시적으로 손상될 때 생성된다. 따라서, 검출의 한가지 간단한 방법은 과도현상 이전에 오디오를 고역 필터링하고 고주파수 에너지를 측정하는 것이다. 과도현상 프리-노이즈의 시작은, 과도현상에 관련있으며 이에 의해 야기되는 노이즈형 고주파수 프리-노이즈가 소정의 임계를 초과할 때 식별된다. 과도현상 프리-노이즈의 사이즈와 위치가 공지될 때, 오디오의 타임 스케일 팽창을 보상하는 것은 프리-노이즈의 타임 스케일 감소 이전에 실행되어 오디오를 그 오리지날 시간 전개로 리턴시키고 오디오 스트림의 시간 전개를 대체로 그 오리지날 조건으로 복원시킨다. 본 발명은 고주파수 검출을 사용하는 것으로 제한되지 않는다. 프리-노이즈의 길이를 검출 또는 예츨하기 위한 다른 기술이 사용될 수 있다.
도 16a에서, 로우 비트 레이트 오디오 디코더로부터의 오디오 신호 스트림은 프리-노이즈에 의해 선행하는 과도현상을 갖는다. 도 16b는, 블럭에서 고주파수 오디오 콘텐트에 의해 측정된 것으로서 예측된 프리-노이즈 길이에 기초한 타임 스케일링 프로세싱에 의해 실행되어야 하는 타임 스케일 감소의 양으로서 사용된 시간 압축 프로세싱 길이를 나타낸다. 도 16b는 또한 신호 스트림의 오리지날 시간 전개를 복원시키며 또한 샘플들의 오리지날 개수를 또한 복원시키기 위해서 T 샘플들만큼 시간 팽창의 사용을 나타낸다. 도 16c는 오리지날 시간 전개와 함께 프리-노이즈를 감소시킨 결과적인 오디오 신호 스트림과 동일 개수의 샘플들을 오리지날 신호 스트림으로서 나타낸다.
본 발명과 그 변형 양태들은 디지털 신호 프로세서에서 실행되는 소프트웨어 기능, 프로그래밍된 범용 디지털 컴퓨터, 및/또는 전용 디지털 컴퓨터로서 구현될 수 있다. 아날로그와 디지털 신호 스트림간의 인터페이스는 적절한 하드웨어로 및/또는 소프트웨어 및/또는 펌웨어의 기능으로서 실현될 수 있다.

Claims (51)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 코딩 블럭들을 사용하는 변환 기반 로우 비트 레이트 오디오 코딩 시스템의 디코더에서, 역변환에 후속하는 오디오 신호 스트림의 신호 과도현상에 선행하는 왜곡 가공물들을 감소시키기 위한 방법에 있어서,
    오디오 신호 스트림에서 과도현상을 검출하는 단계;
    상기 왜곡 가공물들의 시간 기간이 감소되도록 신호 과도현상에 선행하는 상기 왜곡 가공물들의 적어도 일부분을 시간 압축하는 단계; 및
    오디오 신호 스트림의 시간 전개와 길이가 실질적으로 변동되지 않도록 상기 시간 압축 이전에 시간 팽창하거나, 오디오 신호 스트림의 길이가 실질적으로 변동되지 않도록 상기 시간 압축에 후속하여 시간 팽창하는 단계;
    를 포함하는 방법.
  33. 제 32 항에 있어서, 왜곡 가공물들의 일부분은 디폴트 파라미터와 검출된 과도현상의 위치에 의해 적어도 부분적으로 결정되는 방법.
  34. 제 32 항에 있어서, 왜곡 가공물들의 일부분은 상기 과도현상에 선행하는 신호 특성과 검출된 과도현상의 위치에 의해 적어도 부분적으로 결정되는 방법.
  35. 제 34 항에 있어서, 상기 신호 특성은 오디오 신호 스트림의 고주파수 성분의 측정을 포함하는 방법.
  36. 삭제
  37. 삭제
  38. 제 32 항에 있어서, 과도현상 사전-잡음 기간을 감소시킬 시 유용한 메타데이터 정보를 수신하는 단계를 더 포함하는 방법.
  39. 제 38 항에 있어서, 상기 메타데이터 정보는 오디오 코더 블럭(들)의 길이, 오디오 데이터에 대한 코더 블럭 경계들의 관계, 및 과도현상 사전-잡음의 소정의 길이 중 하나 이상을 포함하는 방법.
  40. 코딩 블럭들을 사용하는 변환 기반 로우 비트 레이트 오디오 코딩 시스템의 디코더에서, 역변환에 후속하는 오디오 신호 스트림의 신호 과도현상에 선행하는 왜곡 가공물들을 감소시키기 위한 방법에 있어서,
    과도현상 사전-잡음 기간을 감소시킬 시 유용한 신호 과도현상들의 위치를 포함하는 메타데이터 정보를 수신하는 단계; 및
    상기 왜곡 가공물들의 시간 기간이 감소되도록 상기 왜곡 가공물들의 적어도 일부분을 시간 압축하는 단계;
    를 포함하는 방법.
  41. 제 40 항에 있어서, 상기 메타데이터 정보는 또한 오디오 코더 블럭(들)의 길이, 오디오 데이터에 대한 코더 블럭 경계들의 관계, 및 과도현상 사전-잡음의 소정의 길이 중 하나 이상을 포함하는 방법.
  42. 제 38 내지 41 항 중 어느 한 항에 있어서, 오디오 신호 스트림의 시간 전개 및 길이가 실질적으로 변동되지 않도록 상기 시간 압축 이전에 시간 팽창 단계를 더 포함하는 방법.
  43. 제 38 내지 41 항 중 어느 한 항에 있어서, 오디오 신호 스트림의 길이가 실질적으로 변동되지 않도록 상기 시간 압축에 후속하여 시간 팽창 단계를 더 포함하는 방법.
  44. 삭제
  45. 코딩 블럭들을 사용하는 변환 기반 로우 비트 레이트 오디오 코딩 시스템에 의해 프로세싱된 오디오 신호 스트림에서의 신호 과도현상에 선행하는 왜곡 가공물들을 감소시키기 위한 방법에 있어서,
    상기 코딩 시스템에 의한 프로세싱 이전에 오디오 신호 스트림에서 과도현상을 검출하는 단계;
    상기 왜곡 가공물들의 시간 기간이 단축되도록, 상기 신호 과도현상에 선행하는 상기 오디오 신호 스트림의 세그먼트를 타임 스케일링하여 상기 코딩 블럭들에 관련한 상기 과도현상의 시간적 관계를 시프팅하는 단계로서, 상기 타임 스케일링은 코딩 시스템에 적용되는 오디오 신호 스트림들로부터 신호 성분들을 삭제하거나 또는 코딩 시스템에 적용되는 오디오 신호 스트림들에 신호 성분들을 부가하는 효과를 갖는 시프팅 단계; 및
    상기 신호 과도현상에 이은 부가적인 타임 스케일링을 적용하는 단계로서, 상기 부가적인 타임 스케일링은 상기 시프팅 단계에서의 타임 스케일링에 반대 의미로 작용하는 적용 단계;
    를 포함하는 방법.
  46. 코딩 블럭들을 사용하는 변환 기반 로우 비트 레이트 오디오 코딩 시스템에 의해 프로세싱된 오디오 신호 스트림에서의 신호 과도현상에 선행하는 왜곡 가공물들을 감소시키기 위한 방법에 있어서,
    상기 코딩 시스템에 의한 프로세싱 이전에 오디오 신호 스트림에서 과도현상을 검출하는 단계;
    상기 왜곡 가공물들의 시간 기간이 단축되도록, 상기 신호 과도현상에 선행하는 상기 오디오 신호 스트림의 세그먼트를 타임 스케일링하여 상기 코딩 블럭들에 관련한 상기 과도현상의 시간적 관계를 시프팅하는 단계로서, 상기 타임 스케일링은 코딩 시스템에 적용되는 오디오 신호 스트림들로부터 신호 성분들을 삭제하거나 또는 코딩 시스템에 적용되는 오디오 신호 스트림들에 신호 성분들을 부가하는 효과를 갖는 시프팅 단계; 및
    프로세싱된 오디오 신호 스트림의 시간 전개가 상기 시프팅 단계 이전의 오디오 신호 스트림의 시간 전개와 실질적으로 동일하고 상기 오디오 신호 스트림의 시간 기간이 실질적으로 변동되지 않도록, 상기 과도현상에 선행하는 상기 왜곡 가공물들에 선행하며 상기 코딩 시스템의 디코더에서 역변환에 후속하는 오디오 신호 스트림에 타임 스케일링 보상을 적용하는 단계;
    를 포함하는 방법.
  47. 코딩 블럭들을 사용하는 변환 기반 로우 비트 레이트 오디오 코딩 시스템에 의해 프로세싱된 오디오 신호 스트림에서의 신호 과도현상에 선행하는 왜곡 가공물들을 감소시키기 위한 방법에 있어서,
    상기 코딩 시스템에 의한 프로세싱 이전에 오디오 신호 스트림에서 과도현상을 검출하는 단계;
    상기 왜곡 가공물들의 시간 기간이 단축되도록, 상기 신호 과도현상에 선행하는 상기 오디오 신호 스트림의 세그먼트를 타임 스케일링하여 상기 코딩 블럭들에 관련한 상기 과도현상의 시간적 관계를 시프팅하는 단계; 및
    상기 신호 과도현상에 이은 부가적인 타임 스케일링을 적용하는 단계로서, 상기 부가적인 타임 스케일링은 상기 시프팅 단계에서의 타임 스케일링에 반대 의미로 작용하는 적용 단계;
    를 포함하는 방법.
  48. 코딩 블럭들을 사용하는 변환 기반 로우 비트 레이트 오디오 코딩 시스템에 의해 프로세싱된 오디오 신호 스트림에서의 신호 과도현상에 선행하는 왜곡 가공물들을 감소시키기 위한 방법에 있어서,
    상기 코딩 시스템에 의한 프로세싱 이전에 오디오 신호 스트림에서 다중 과도현상들을 검출하는 단계;
    상기 과도현상들 중 첫 번째 과도현상이 단축되기 전에 왜곡 가공물들의 시간 기간이 단축되도록, 상기 첫 번째 과도현상에 선행하는 상기 오디오 신호 스트림의 세그먼트를 타임 스케일링하여 상기 코딩 블럭들에 관련한 상기 첫 번째 과도현상의 시간적 관계를 시프팅하는 단계; 및
    상기 첫 번째 과도현상에 이어 그리고 상기 다중 과도현상들 중 하나 이상의 다른 과도현상 전에 부가적인 시간 스케일링을 적용하는 단계로서, 상기 부가적인 시간 스케일링은 상기 시프팅 단계에서의 타임 스케일링에 반대 의미로 작용하는 적용 단계;
    를 포함하는 방법.
  49. 코딩 블럭들을 사용하는 변환 기반 로우 비트 레이트 오디오 코딩 시스템의 디코더에서, 역변환에 후속하는 오디오 신호 스트림에서의 신호 과도현상에 선행하는 왜곡 가공물들을 감소시키기 위한 방법에 있어서,
    오디오 신호 스트림에서 과도 현상을 검출하는 단계;
    상기 왜곡 가공물들의 시간 기간이 단축되도록, 상기 왜곡 가공물들의 적어도 일부분을 시간 압축하는 단계; 및
    상기 오디오 신호 스트림의 길이가 실질적으로 변동되지 않도록, 상기 시간 압축에 후속하여 시간 팽창하는 단계;
    를 포함하는 방법.
  50. 코딩 블럭들을 사용하는 변환 기반 로우 비트 레이트 오디오 코딩 시스템의 디코더에서, 역변환에 후속하는 오디오 신호 스트림에서의 신호 과도현상에 선행하는 왜곡 가공물들을 감소시키기 위한 방법에 있어서,
    과도현상 사전-잡음 기간을 단축하는데 유용한 메타데이터 정보를 수신하는 단계;
    상기 왜곡 가공물들의 시간 기간이 단축되도록, 상기 왜곡 가공물들의 적어도 일부분을 시간 압축하는 단계; 및
    상기 오디오 신호 스트림의 길이가 실질적으로 변동되지 않도록, 상기 시간 압축에 후속하여 시간 팽창하는 단계;
    를 포함하는 방법.
  51. 제 50 항에 있어서, 상기 메타데이터는 신호 과도현상들의 위치를 포함하는 방법.
KR1020037014462A 2001-05-10 2002-04-25 프리-노이즈를 감소시킴으로써 로우 비트 레이트 오디오코딩 시스템의 과도현상 성능을 개선시키는 방법 KR100945673B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US29028601P 2001-05-10 2001-05-10
US60/290,286 2001-05-10
PCT/US2002/012957 WO2002093560A1 (en) 2001-05-10 2002-04-25 Improving transient performance of low bit rate audio coding systems by reducing pre-noise

Publications (2)

Publication Number Publication Date
KR20040034604A KR20040034604A (ko) 2004-04-28
KR100945673B1 true KR100945673B1 (ko) 2010-03-05

Family

ID=23115313

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020037014462A KR100945673B1 (ko) 2001-05-10 2002-04-25 프리-노이즈를 감소시킴으로써 로우 비트 레이트 오디오코딩 시스템의 과도현상 성능을 개선시키는 방법

Country Status (14)

Country Link
US (1) US7313519B2 (ko)
EP (1) EP1386312B1 (ko)
JP (1) JP4290997B2 (ko)
KR (1) KR100945673B1 (ko)
CN (1) CN1312662C (ko)
AT (1) ATE387000T1 (ko)
AU (1) AU2002307533B2 (ko)
CA (1) CA2445480C (ko)
DE (1) DE60225130T2 (ko)
DK (1) DK1386312T3 (ko)
ES (1) ES2298394T3 (ko)
HK (1) HK1070457A1 (ko)
MX (1) MXPA03010237A (ko)
WO (1) WO2002093560A1 (ko)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4134297A1 (de) * 1991-10-17 1993-04-22 Behringwerke Ag Monoclonale antikoerper gegen mycoplasma pneumoniae, diese produzierende hybridome, verfahren zu deren herstellung sowie deren verwendung
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
EP1386312B1 (en) 2001-05-10 2008-02-20 Dolby Laboratories Licensing Corporation Improving transient performance of low bit rate audio coding systems by reducing pre-noise
US7171367B2 (en) * 2001-12-05 2007-01-30 Ssi Corporation Digital audio with parameters for real-time time scaling
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US20030182106A1 (en) * 2002-03-13 2003-09-25 Spectral Design Method and device for changing the temporal length and/or the tone pitch of a discrete audio signal
JP4076887B2 (ja) * 2003-03-24 2008-04-16 ローランド株式会社 ボコーダ装置
US7548852B2 (en) * 2003-06-30 2009-06-16 Koninklijke Philips Electronics N.V. Quality of decoded audio by adding noise
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
ATE430360T1 (de) 2004-03-01 2009-05-15 Dolby Lab Licensing Corp Mehrkanalige audiodekodierung
CN101023484A (zh) * 2004-07-30 2007-08-22 汤姆森特许公司 机械震动或摆动情况下在光盘系统中缓冲音频数据的方法
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
JP2006084754A (ja) * 2004-09-16 2006-03-30 Oki Electric Ind Co Ltd 音声録音再生装置
US7630902B2 (en) * 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
KR100750115B1 (ko) * 2004-10-26 2007-08-21 삼성전자주식회사 오디오 신호 부호화 및 복호화 방법 및 그 장치
MX2007015118A (es) * 2005-06-03 2008-02-14 Dolby Lab Licensing Corp Aparato y metodo para codificacion de senales de audio con instrucciones de decodificacion.
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
US7562021B2 (en) 2005-07-15 2009-07-14 Microsoft Corporation Modification of codewords in dictionary used for efficient coding of digital media spectral data
US7546240B2 (en) 2005-07-15 2009-06-09 Microsoft Corporation Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
US7917358B2 (en) * 2005-09-30 2011-03-29 Apple Inc. Transient detection by power weighted average
DE102006049154B4 (de) * 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
CN101308655B (zh) * 2007-05-16 2011-07-06 展讯通信(上海)有限公司 一种音频编解码方法与装置
CN101308656A (zh) * 2007-05-17 2008-11-19 展讯通信(上海)有限公司 音频暂态信号的编解码方法
ES2358786T3 (es) * 2007-06-08 2011-05-13 Dolby Laboratories Licensing Corporation Derivación híbrida de canales de audio de sonido envolvente combinando de manera controlable componentes de señal de sonido ambiente y con decodificación matricial.
US7761290B2 (en) * 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US8046214B2 (en) 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US9495971B2 (en) 2007-08-27 2016-11-15 Telefonaktiebolaget Lm Ericsson (Publ) Transient detector and method for supporting encoding of an audio signal
US8249883B2 (en) * 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
JP5328804B2 (ja) * 2007-12-21 2013-10-30 フランス・テレコム 適応型ウィンドウを有する変換ベースの符号化/復号化
CN101488344B (zh) * 2008-01-16 2011-09-21 华为技术有限公司 一种量化噪声泄漏控制方法及装置
EP2293294B1 (en) 2008-03-10 2019-07-24 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Device and method for manipulating an audio signal having a transient event
JP2010017216A (ja) * 2008-07-08 2010-01-28 Ge Medical Systems Global Technology Co Llc 音声データ処理装置,音声データ処理方法、および、イメージング装置
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
PL2311033T3 (pl) 2008-07-11 2012-05-31 Fraunhofer Ges Forschung Dostarczanie sygnału aktywującego dopasowanie czasowe i kodowanie sygnału audio z jego użyciem
US8380498B2 (en) * 2008-09-06 2013-02-19 GH Innovation, Inc. Temporal envelope coding of energy attack signal by using attack point location
US9384748B2 (en) * 2008-11-26 2016-07-05 Electronics And Telecommunications Research Institute Unified Speech/Audio Codec (USAC) processing windows sequence based mode switching
CN101770776B (zh) 2008-12-29 2011-06-08 华为技术有限公司 瞬态信号的编码方法和装置、解码方法和装置及处理系统
EP2214165A3 (en) * 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
US8554348B2 (en) * 2009-07-20 2013-10-08 Apple Inc. Transient detection using a digital audio workstation
US8153882B2 (en) * 2009-07-20 2012-04-10 Apple Inc. Time compression/expansion of selected audio segments in an audio file
KR100940532B1 (ko) 2009-09-28 2010-02-10 삼성전자주식회사 저비트율 복호화방법 및 장치
TWI557723B (zh) 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
EP2372704A1 (en) * 2010-03-11 2011-10-05 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Signal processor and method for processing a signal
CN102222505B (zh) * 2010-04-13 2012-12-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
FR2961938B1 (fr) * 2010-06-25 2013-03-01 Inst Nat Rech Inf Automat Synthetiseur numerique audio ameliore
CN103026406B (zh) 2010-09-28 2014-10-08 华为技术有限公司 用于对已解码多通道音频信号或已解码立体声信号进行后处理的装置和方法
WO2012040898A1 (en) 2010-09-28 2012-04-05 Huawei Technologies Co., Ltd. Device and method for postprocessing decoded multi-channel audio signal or decoded stereo signal
WO2013075753A1 (en) * 2011-11-25 2013-05-30 Huawei Technologies Co., Ltd. An apparatus and a method for encoding an input signal
EP2828854B1 (en) 2012-03-23 2016-03-16 Dolby Laboratories Licensing Corporation Hierarchical active voice detection
CN110232929B (zh) 2013-02-20 2023-06-13 弗劳恩霍夫应用研究促进协会 用于对音频信号进行译码的译码器和方法
US20150179181A1 (en) * 2013-12-20 2015-06-25 Microsoft Corporation Adapting audio based upon detected environmental accoustics
KR20160119859A (ko) * 2014-02-10 2016-10-14 아우디맥스, 엘엘씨 개선된 잡음 내성을 갖는 통신 시스템들, 방법들 및 디바이스들
PL232466B1 (pl) * 2015-01-19 2019-06-28 Zylia Spolka Z Ograniczona Odpowiedzialnoscia Sposób kodowania, sposób dekodowania, koder oraz dekoder sygnału audio
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
US10726851B2 (en) * 2017-08-31 2020-07-28 Sony Interactive Entertainment Inc. Low latency audio stream acceleration by selectively dropping and blending audio blocks

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0863194A (ja) * 1994-08-23 1996-03-08 Hitachi Denshi Ltd 残差駆動形線形予測方式ボコーダ
WO2000022611A1 (en) * 1998-10-09 2000-04-20 Hejna Donald J Jr Method and apparatus to prepare listener-interest-filtered works

Family Cites Families (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4624009A (en) * 1980-05-02 1986-11-18 Figgie International, Inc. Signal pattern encoder and classifier
US4464784A (en) * 1981-04-30 1984-08-07 Eventide Clockworks, Inc. Pitch changer with glitch minimizer
US4723290A (en) * 1983-05-16 1988-02-02 Kabushiki Kaisha Toshiba Speech recognition apparatus
US4700391A (en) * 1983-06-03 1987-10-13 The Variable Speech Control Company ("Vsc") Method and apparatus for pitch controlled voice signal processing
US4792975A (en) * 1983-06-03 1988-12-20 The Variable Speech Control ("Vsc") Digital speech signal processing for pitch change with jump control in accordance with pitch period
US5202761A (en) * 1984-11-26 1993-04-13 Cooper J Carl Audio synchronization apparatus
US4703355A (en) * 1985-09-16 1987-10-27 Cooper J Carl Audio to video timing equalizer method and apparatus
USRE33535E (en) * 1985-09-16 1991-02-12 Audio to video timing equalizer method and apparatus
US5040081A (en) * 1986-09-23 1991-08-13 Mccutchen David Audiovisual synchronization signal generator using audio signature comparison
US4852170A (en) * 1986-12-18 1989-07-25 R & D Associates Real time computer speech recognition system
JPS63225300A (ja) * 1987-03-16 1988-09-20 株式会社東芝 パタ−ン認識装置
GB8720527D0 (en) * 1987-09-01 1987-10-07 King R A Voice recognition
US5055939A (en) 1987-12-15 1991-10-08 Karamon John J Method system & apparatus for synchronizing an auxiliary sound source containing multiple language channels with motion picture film video tape or other picture source containing a sound track
IL84902A (en) * 1987-12-21 1991-12-15 D S P Group Israel Ltd Digital autocorrelation system for detecting speech in noisy audio signal
JP2739950B2 (ja) * 1988-03-31 1998-04-15 株式会社東芝 パターン認識装置
WO1991019989A1 (en) 1990-06-21 1991-12-26 Reynolds Software, Inc. Method and apparatus for wave analysis and event recognition
US5313531A (en) * 1990-11-05 1994-05-17 International Business Machines Corporation Method and apparatus for speech analysis and speech recognition
US5216744A (en) * 1991-03-21 1993-06-01 Dictaphone Corporation Time scale modification of speech signals
FR2674710B1 (fr) * 1991-03-27 1994-11-04 France Telecom Procede et systeme de traitement des preechos d'un signal audio-numerique code par transformee frequentielle.
JP3134338B2 (ja) * 1991-03-30 2001-02-13 ソニー株式会社 ディジタル音声信号符号化方法
US5175769A (en) 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
US5450522A (en) * 1991-08-19 1995-09-12 U S West Advanced Technologies, Inc. Auditory model for parametrization of speech
US5621857A (en) * 1991-12-20 1997-04-15 Oregon Graduate Institute Of Science And Technology Method and system for identifying and recognizing speech
JP3104400B2 (ja) * 1992-04-27 2000-10-30 ソニー株式会社 オーディオ信号符号化装置及び方法
US5630013A (en) 1993-01-25 1997-05-13 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for performing time-scale modification of speech signals
KR100372208B1 (ko) * 1993-09-09 2003-04-07 산요 덴키 가부시키가이샤 음성신호의시간축압축/신장방법
JP3186412B2 (ja) * 1994-04-01 2001-07-11 ソニー株式会社 情報符号化方法、情報復号化方法、及び情報伝送方法
JP3307138B2 (ja) * 1995-02-27 2002-07-24 ソニー株式会社 信号符号化方法及び装置、並びに信号復号化方法及び装置
US5920840A (en) 1995-02-28 1999-07-06 Motorola, Inc. Communication system and method using a speaker dependent time-scaling technique
US5730140A (en) * 1995-04-28 1998-03-24 Fitch; William Tecumseh S. Sonification system using synthesized realistic body sounds modified by other medically-important variables for physiological monitoring
US5699404A (en) 1995-06-26 1997-12-16 Motorola, Inc. Apparatus for time-scaling in communication products
US6002776A (en) * 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
US5960390A (en) * 1995-10-05 1999-09-28 Sony Corporation Coding method for using multi channel audio signals
FR2739736B1 (fr) * 1995-10-05 1997-12-05 Jean Laroche Procede de reduction des pre-echos ou post-echos affectant des enregistrements audio
JPH10513282A (ja) * 1995-11-22 1998-12-15 フィリップス エレクトロニクス ネムローゼ フェンノートシャップ 言語信号再合成方法および装置
US5749073A (en) * 1996-03-15 1998-05-05 Interval Research Corporation System for automatically morphing audio information
US5828994A (en) * 1996-06-05 1998-10-27 Interval Research Corporation Non-uniform time scale modification of recorded audio
JPH1074097A (ja) 1996-07-26 1998-03-17 Ind Technol Res Inst オーディオ信号のパラメータを変更する方法及び装置
US6049766A (en) 1996-11-07 2000-04-11 Creative Technology Ltd. Time-domain time/pitch scaling of speech or audio signals with transient handling
US5893062A (en) * 1996-12-05 1999-04-06 Interval Research Corporation Variable rate video playback with synchronized audio
DE19710545C1 (de) 1997-03-14 1997-12-04 Grundig Ag Effizientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen
US6211919B1 (en) * 1997-03-28 2001-04-03 Tektronix, Inc. Transparent embedment of data in a video signal
TW357335B (en) * 1997-10-08 1999-05-01 Winbond Electronics Corp Apparatus and method for variation of tone of digital audio signals
EP0976125B1 (en) 1997-12-19 2004-03-24 Koninklijke Philips Electronics N.V. Removing periodicity from a lengthened audio signal
US6266003B1 (en) 1998-08-28 2001-07-24 Sigma Audio Research Limited Method and apparatus for signal processing for time-scale and/or pitch modification of audio signals
US6266644B1 (en) 1998-09-26 2001-07-24 Liquid Audio, Inc. Audio encoding apparatus and methods
SE9903552D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Efficient spectral envelope coding using dynamic scalefactor grouping and time/frequency switching
JP3430968B2 (ja) * 1999-05-06 2003-07-28 ヤマハ株式会社 ディジタル信号の時間軸圧伸方法及び装置
JP3430974B2 (ja) * 1999-06-22 2003-07-28 ヤマハ株式会社 ステレオ信号の時間軸圧伸方法及び装置
US6505153B1 (en) * 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
CN1408146A (zh) * 2000-11-03 2003-04-02 皇家菲利浦电子有限公司 音频信号的参数编码
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7283954B2 (en) * 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
WO2002084645A2 (en) 2001-04-13 2002-10-24 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US20020116178A1 (en) * 2001-04-13 2002-08-22 Crockett Brett G. High quality time-scaling and pitch-scaling of audio signals
EP1386312B1 (en) 2001-05-10 2008-02-20 Dolby Laboratories Licensing Corporation Improving transient performance of low bit rate audio coding systems by reducing pre-noise
MXPA03010749A (es) 2001-05-25 2004-07-01 Dolby Lab Licensing Corp Comparacion de audio usando caracterizaciones basadas en eventos auditivos.
MXPA03010751A (es) 2001-05-25 2005-03-07 Dolby Lab Licensing Corp Segmentacion de senales de audio en eventos auditivos.
US7346667B2 (en) 2001-05-31 2008-03-18 Ubs Ag System for delivering dynamic content
US20040122772A1 (en) * 2002-12-18 2004-06-24 International Business Machines Corporation Method, system and program product for protecting privacy

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0863194A (ja) * 1994-08-23 1996-03-08 Hitachi Denshi Ltd 残差駆動形線形予測方式ボコーダ
WO2000022611A1 (en) * 1998-10-09 2000-04-20 Hejna Donald J Jr Method and apparatus to prepare listener-interest-filtered works

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ICASSP 2001, Vol.5, pp.3285-3288, MODIFYING TRANSIENTS FOR EFFICIENT CODING OF AUDIO*

Also Published As

Publication number Publication date
EP1386312A1 (en) 2004-02-04
US7313519B2 (en) 2007-12-25
ES2298394T3 (es) 2008-05-16
MXPA03010237A (es) 2004-03-16
HK1070457A1 (en) 2005-06-17
DE60225130T2 (de) 2009-02-26
CN1312662C (zh) 2007-04-25
EP1386312B1 (en) 2008-02-20
ATE387000T1 (de) 2008-03-15
DK1386312T3 (da) 2008-06-09
CA2445480A1 (en) 2002-11-21
WO2002093560A1 (en) 2002-11-21
AU2002307533B2 (en) 2008-01-31
CA2445480C (en) 2011-04-12
CN1552060A (zh) 2004-12-01
JP4290997B2 (ja) 2009-07-08
DE60225130D1 (de) 2008-04-03
US20040133423A1 (en) 2004-07-08
KR20040034604A (ko) 2004-04-28
JP2004528597A (ja) 2004-09-16

Similar Documents

Publication Publication Date Title
KR100945673B1 (ko) 프리-노이즈를 감소시킴으로써 로우 비트 레이트 오디오코딩 시스템의 과도현상 성능을 개선시키는 방법
AU2002307533A1 (en) Improving transient performance of low bit rate audio coding systems by reducing pre-noise
JP3224130B2 (ja) 高品質オーディオ用符号器・復号器
US11373666B2 (en) Apparatus for post-processing an audio signal using a transient location detection
EP0797313B1 (en) Switched filterbank for use in audio signal coding
US6226608B1 (en) Data framing for adaptive-block-length coding system
Sinha et al. Audio compression at low bit rates using a signal adaptive switched filterbank
KR101376762B1 (ko) 디코더 및 대응 디바이스에서 디지털 신호의 반향들의 안전한 구별과 감쇠를 위한 방법
KR101046982B1 (ko) 전대역 오디오 파형의 외삽법에 기초한 부분대역 예측코딩에 대한 패킷 손실 은닉 기법
KR100630893B1 (ko) 프레임 경계에서 분광 스플래터를 감쇠하기 위한 추가의필터뱅크를 갖는 프레임 기반 오디오 코딩
US10170126B2 (en) Effective attenuation of pre-echoes in a digital audio signal
US11562756B2 (en) Apparatus and method for post-processing an audio signal using prediction based shaping
JPH06242797A (ja) 変換符号化装置のブロックサイズ決定法
JPH113091A (ja) 音声信号の立ち上がり検出装置
JP2917766B2 (ja) 音声高能率符号化装置
KR100930995B1 (ko) 오디오 신호의 톤 주파수 조절 방법 및 장치, 이를 이용한오디오 신호 부호화 방법 및 장치, 그리고 상기 방법을수행하는 프로그램이 기록된 기록 매체

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130208

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140211

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20150206

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160211

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170222

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20180209

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20190212

Year of fee payment: 10