KR101776177B1 - 디지털 오디오 신호 인코더 내의 노이즈­쉐이핑 피드백 루프 제어 - Google Patents

디지털 오디오 신호 인코더 내의 노이즈­쉐이핑 피드백 루프 제어 Download PDF

Info

Publication number
KR101776177B1
KR101776177B1 KR1020137001804A KR20137001804A KR101776177B1 KR 101776177 B1 KR101776177 B1 KR 101776177B1 KR 1020137001804 A KR1020137001804 A KR 1020137001804A KR 20137001804 A KR20137001804 A KR 20137001804A KR 101776177 B1 KR101776177 B1 KR 101776177B1
Authority
KR
South Korea
Prior art keywords
noise
feedback
coding
signal
shaping
Prior art date
Application number
KR1020137001804A
Other languages
English (en)
Other versions
KR20130095726A (ko
Inventor
스테판 라고트
바라즈스 코베시
알라인 레 가야데르
Original Assignee
오렌지
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오렌지 filed Critical 오렌지
Publication of KR20130095726A publication Critical patent/KR20130095726A/ko
Application granted granted Critical
Publication of KR101776177B1 publication Critical patent/KR101776177B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/62Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for providing a predistortion of the signal in the transmitter and corresponding correction in the receiver, e.g. for improving the signal/noise ratio

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 디지털 오디오 입력 신호의 ADPCM 인코딩 동안 인코딩 노이즈의 쉐이핑을 제어하기 위한 방법에 관한 것이다. 필터링 노이즈를 포함하는 피드백의 사용을 통해 노이즈-쉐이핑이 수행된다. 상기 방법은, 신호의 높은 스펙트럼 다이나믹 레인지를 표시하기 위한 파라미터를 획득하는 단계(702) ― 상기 파라미터는 피드백의 불안정성 위험을 표시함 ―; 표시 파라미터를 적어도 하나의 미리결정된 임계치와 비교함으로써 불안정성 위험을 검출하는 단계(705); 불안정성 위험이 검출되는 경우에 피드백을 제한시키는 단계(706); 및 현재 프레임 ― 상기 현재 프레임 동안, 피드백이 제한됨 ― 에 후속하는 미리결정된 개수의 프레임들에 걸쳐 피드백을 점진적으로 재활성화시키는 단계(708, 709, 710)를 포함한다. 또한, 본 발명은 피드백을 갖는 인코더에 관한 것으로, 상기 인코더는 설명된 바와 같은 제어 방법을 구현하는 제어 모듈을 포함한다.

Description

디지털 오디오 신호 인코더 내의 노이즈­쉐이핑 피드백 루프 제어{CONTROLLING A NOISE­SHAPING FEEDBACK LOOP IN A DIGITAL AUDIO SIGNAL ENCODER}
본 발명은 디지털 신호들의 코딩 분야에 관한 것이다.
본 발명에 따른 코딩은 특히, 오디오주파수 신호들(스피치, 음악 등)과 같은 디지털 신호들의 송신 및/또는 저장을 위해 적응된다.
더욱 구체적으로, 본 발명은 ADPCM의 ("적응적 차분 펄스 코드 변조(Adaptive Differential Pulse Code Modulation)"를 위한) 파형 코딩에서 피드백 루프의 제어에 관한 것이고, 그리고 특히, 스케일러블(scalable) 이진 트레인 양자화 인덱스들을 전달하는 것을 가능하게 하는 내장된-코드들 ADPCM-타입 코딩에 관한 것이다.
권고들 ITU-T G.722, ITU-T G.726 또는 ITU-T G.727에 의해 특정된 내장된-코드들 ADPCM 코딩/디코딩의 일반 원리는 도 1 및 도 2를 참조하여 설명되는 바와 같다.
따라서, 도 1은 샘플마다 B 비트와 B+K 비트 사이에서 동작하는 ADPCM 타입(예컨대: G.722 저 대역, G.727)의 내장된-코드들 코더를 표현한다; 넌스케일러블 ADPCM 코딩(예컨대: G.726, G.722 고 대역)의 경우가 K=0에 대응함을 주의하라.
상기 코더는 아래를 포함한다:
- 양자화된 에러 신호
Figure 112013006573919-pct00001
(
Figure 112013006573919-pct00002
) ― 여기서,
Figure 112013006573919-pct00003
는 양자화 스케일 팩터임 ― 의 이전 샘플들에 기초하여, 그리고 재구성된 신호
Figure 112013006573919-pct00004
(
Figure 112013006573919-pct00005
) ― 여기서, n은 현재 순간(current instant)임 ― 에 기초하여, 신호의 예측
Figure 112013006573919-pct00006
을 제공하는 것을 가능하게 하는 예측 모듈(110).
-
Figure 112013006573919-pct00007
으로 표시된 예측 에러 신호를 획득하기 위해, 입력 신호
Figure 112013006573919-pct00008
로부터 상기 입력 신호
Figure 112013006573919-pct00009
의 예측
Figure 112013006573919-pct00010
을 차감하는 뺄셈 모듈(120).
- B+K 비트들로 구성된 양자화 인덱스들
Figure 112013006573919-pct00011
을 제공하기 위해 입력으로서 에러 신호
Figure 112013006573919-pct00012
를 수신하는, 에러 신호에 대한 양자화 모듈(130)
Figure 112013006573919-pct00013
. 상기 양자화 모듈
Figure 112013006573919-pct00014
은 내장된-코드들 타입을 갖는다, 다시 말해 상기 양자화 모듈
Figure 112013006573919-pct00015
은 B 비트들을 이용하는 코어 양자화기 그리고 상기 코어 양자화기 내에 내장되는, B+k(
Figure 112013006573919-pct00016
) 비트들을 이용하는 양자화기들을 포함한다.
ITU-T G.722 표준(저 대역의 코딩)의 경우에, B=4에 대해, 양자화기들
Figure 112013006573919-pct00017
에 대한 결정 레벨들 및 재구성 레벨들은, 1988년 2월 Selected Areas in Communication에 관한 IEEE 저널 Vol.6-2에서, X. Maitre에 의한 G.722 표준 "7㎑ audio coding within 64 kbit/s"를 설명하는 개관 기사의 표 Ⅳ 및 표 Ⅵ에 의해 제공된다.
양자화 모듈
Figure 112013006573919-pct00018
의 출력에서의 B+K 비트들의 양자화 인덱스
Figure 112013006573919-pct00019
는, 도 2를 참조하여 설명되는 바와 같은 디코더에 송신 채널(140)을 통해 송신된다.
또한, 코더는 아래를 포함한다: - 저 비트 레이트 인덱스
Figure 112013013308823-pct00020
를 제공하기 위해, 인덱스
Figure 112013013308823-pct00021
의 K 하위(low-order) 비트들을 삭제하기 위한 모듈(150);
- B 비트들에 대해 양자화된 에러 신호
Figure 112013006573919-pct00022
를 출력으로서 제공하기 위한 역양자화 모듈(121)
Figure 112013006573919-pct00023
;
- 이후 순간 동안, 스케일 팩터로 또한 불리는 레벨 제어 파라미터
Figure 112013006573919-pct00024
를 제공하기 위해, 양자화기들 및 역양자화기들의 적응을 위한 모듈(170)
Figure 112013006573919-pct00025
;
- 저-비트 레이트 재구성된 신호
Figure 112013013308823-pct00026
를 제공하기 위해, 예측
Figure 112013013308823-pct00027
를 양자화된 에러 신호에 더하기 위한 덧셈 모듈(180);
- B 비트들에 대해 양자화된 에러 신호
Figure 112013006573919-pct00028
, 그리고
Figure 112013006573919-pct00029
에 의해 필터링된 신호
Figure 112013006573919-pct00030
에 기초한, 상기 예측 모듈의 적응을 위한 모듈(190)
Figure 112013006573919-pct00031
.
도 1에서, 선이 그어진 파트 ― 155로 참조됨 ― 가 예측기들(165 및 175)과 역양자화기(121)를 포함하는 저-비트 레이트 로컬 디코더를 표현함이 주의될 수 있다. 따라서, 이러한 로컬 디코더는, 170에서 저 비트 레이트 인덱스
Figure 112013013308823-pct00032
에 기초하여 역양자화기를 적응시키는 것, 그리고 재구성된 저 비트 레이트 데이터에 기초하여 예측기들(165 및 175)을 적응시키는 것을 가능하게 한다.
또한, 이러한 파트는 도 2를 참조하여 설명되는 바와 같은 내장된-코드들 ADPCM 디코더 내에서 동일하게 발견된다.
프레임 손실들의 부재시, 도 2의 내장된-코드들 ADPCM 디코더는 송신 채널(140)로부터 나오는 인덱스들
Figure 112013013308823-pct00033
― 여기서,
Figure 112013013308823-pct00034
임 ― 을 입력으로서 수신하고, 상기 인덱스들은 어쩌면 이진 에러들에 의해 방해받은
Figure 112013013308823-pct00035
의 버전이다. 디코더는, 신호
Figure 112013013308823-pct00036
를 획득하기 위해, 샘플마다 B 비트들의 비트 레이트의 역양자화 모듈(210)
Figure 112013013308823-pct00037
을 이용하여 역양자화를 수행한다. 심볼
Figure 112013013308823-pct00038
은, 수신된 비트들에 기초하여 디코딩된 값을 표시하고, 그리고 이는, 송신 에러들 때문에, 코더에 의해 사용된 값과 어쩌면 상이할 수 있다. B 비트들에 대한 출력 신호
Figure 112013013308823-pct00039
는, 신호의 예측
Figure 112013013308823-pct00040
과 B-비트들 역양자화기의 출력
Figure 112013013308823-pct00041
의 합과 동일할 것이다. 디코더의 이러한 파트(255)는 도 1의 저-비트 레이트 로컬 디코더(155)와 동일하다.
비트 레이트 표시자
Figure 112013013308823-pct00042
와 선택기(220)를 사용함으로써, 디코더는 재구성된 신호를 개선시킬 수 있다.
실제로, B+1 비트들이 송신되었다고
Figure 112013006573919-pct00043
가 표시한다면, 출력은, B+1 비트들을 이용한 역양자화기(230)의 출력
Figure 112013006573919-pct00044
과 예측
Figure 112013006573919-pct00045
의 합과 동일할 것이다.
B+2 비트들이 송신되었다고
Figure 112013006573919-pct00046
가 표시한다면, 그러면 출력은, B+2 비트들을 이용한 역양자화기(240)의 출력
Figure 112013006573919-pct00047
과 예측
Figure 112013006573919-pct00048
의 합과 동일할 것이다.
ITU-T 표준 G.722(이하에서는 G.722로 명명됨)의 내장된-코드들 ADPCM 코딩은, [50-7000 ㎐]의 최소 대역폭에 의해 정의되고 그리고 16 ㎑에서 샘플링되는, 광대역 내의 신호들의 코딩을 수행한다. G.722 코딩은, 쿼드러처 미러 필터들을 이용하여 신호를 분해함으로써 획득되는 두 개의 신호 하위-대역들 [0-4000 ㎐] 및 [4000-8000 ㎐] 각각의 ADPCM 코딩이다. 저 대역이 6, 5 및 4 비트들에 대한 내장된-코드들 ADPCM 코딩에 의해 코딩되는 반면에, 고 대역은 샘플마다 2 비트들의 ADPCM 코더에 의해 코딩된다. 총 비트 레이트는, 저 대역을 디코딩하기 위해 사용되는 비트들의 개수에 따라, 64, 56 또는 48 비트/초일 것이다.
첫째로, 이러한 코딩은 ISDN(Integrated Services Digital Network)에서의 사용을 위해 개발되었다. 상기 코딩은, 최근에는, IP 네트워크들을 경유하는, 개선된 품질의 전화 애플리케이션들에서 배치되었다.
많은 개수의 레벨들을 이용하는 양자화기에 대해, 양자화 노이즈의 스펙트럼은 비교적 평탄할(flat) 것이다. 그러나, 신호가 저 에너지를 갖는 주파수 구역들에서, 노이즈는 신호보다 더 높은 레벨을 가질 수 있고 그리고 그러므로 더 이상 반드시 마스크되지 않는다. 그러면, 노이즈는 이들 구역들 내에서 잘 들리게 될 수 있다.
그러므로, 코딩 노이즈의 쉐이핑이 필요하다. 또한, G.722와 같은 코더에서, 내장된-코드들 코딩에 적응된 코딩 노이즈의 쉐이핑은 바람직하다.
일반적으로, 코딩 노이즈 쉐이핑의 목표는, 양자화 노이즈의 스펙트럼 엔벨로프가 단기 마스킹 임계치 뒤를 잇는 상기 양자화 노이즈를 획득하는 것이다; 이러한 원리는, 노이즈의 스펙트럼이 대략 신호의 스펙트럼 뒤를 이어서, 균일한 신호-대-잡음비를 보장하여, 신호의 더 낮은 에너지 구역들에서도 노이즈가 들리지 않는 상태로 유지되도록, 종종 단순화된다.
내장된 코드들을 이용한, PCM 타입의 ("펄스 코드 변조(Pulse Code Modulation)"을 위한) 코딩에 대한 노이즈 쉐이핑 기술은, 2008년 로잔 EUSIPCO에서, Y. Hiwasaki, S. Sasaki, H. Ohmuro, T. Mori, J. Seong, M. S. Lee, B. Koevesi, S. Ragot, J.-L. Garcia, C. Marro, L. M., J. Xu, V. Malenovsky, J. Lapierre, R. Lefebvre.에 의한 ITU-T 권고 G.711.1 "Wideband embedded extension for G.711 pulse code modulation" 또는 "G.711.1: A wideband extenstion to ITU-T G.711"에서 설명된다.
이러한 권고는 도 3에 도시된 바와 같은 노이즈 피드백에 의한 코딩 노이즈의 쉐이핑을 이용하는 코딩을 설명한다. 코딩 노이즈를 쉐이핑하기 위한 지각(perceptual) 필터 F(z)(블록 305)는 역 코어 양자화기(블록 301)로부터 오는 디코딩된 신호들
Figure 112013013308823-pct00049
에 기초하여 64 kbit/s(계층 0에 대해 L0)의 코어 비트 레이트로 계산된다(블록 303). 그러므로, 코어 비트 레이트 로컬 디코더(블록 301)는, 노이즈 쉐이핑 필터 F(z)를 계산하는 것을 가능하게 한다. 따라서, 디코더에서, 코어 비트 레이트 디코딩된 신호들에 기초하여 이러한 동일한 노이즈 쉐이핑 필터를 계산하는 것이 또한 가능하다.
코어 비트들을 전달하는 양자화기(블록 308)와 개선 비트들을 전달하는 양자화기(블록 309)가 G.711.1 코더에서 사용된다.
코어 이진 스트림(L0)과 개선 비트들(L1)을 수신하는 G.711.1 디코더는, 코어 비트 레이트(64 kbit/s) 디코딩된 신호에 기초하여 코더에서 이루어진 것과 동일한 방식으로 코딩 노이즈를 쉐이핑하기 위한 필터 F(z)를 계산하고, 그리고 개선 비트들에 대해 역양자화기의 출력 신호에 이러한 필터를 적용시키고, 이때 필터 신호를 디코딩된 코어 신호에 더함으로써 쉐이핑된 고-비트 레이트 신호가 획득된다.
따라서, 노이즈 쉐이핑은 코어 비트 레이트 신호의 지각 품질을 개선시킨다. 노이즈 쉐이핑은 개선 비트들에 대해 품질에서의 제한된 개선을 제공한다. 실제로, 코딩 노이즈 쉐이핑은 개선 비트들의 코딩을 위해 수행되지 않으며, 이때 양자화기의 입력은 개선된 양자화를 위한 것과 코어 양자화를 위한 것이 동일하다.
그러면, 코어 비트들에 부가하여 개선 비트들이 디코딩될 때, 디코더는 적응된 필터링을 통해 결과 스퓨리어스(spurious) 컴포넌트를 삭제해야 한다.
권고 G.711.1에서 구현되는 바와 같은 노이즈 피드백에 의한 노이즈 쉐이핑은 G.711 이외의 PCM 코더들과 ADPCM 타입의 코딩에 일반화될 수 있다.
PCM/ADPCM 코딩에서의 예시적인 알려진 노이즈 피드백 구조는 도 4에 제시된다.
이하에서는, 아래의 표기법이 사용될 것이다:
Figure 112013006573919-pct00050
: 코딩될 입력 신호
Figure 112013006573919-pct00051
: 코더의 입력 신호(코딩될 수정된 신호)
Figure 112013006573919-pct00052
: 로컬 디코더에 의해 제공되는 디코딩된 신호
Figure 112013006573919-pct00053
: 코더의 양자화 노이즈
도 4는 PCM/ADPCM 코딩 노이즈의 쉐이핑의 예시적 구현을 도시한다. 이러한 코더는 PCM/ADPCM 코딩 블록(502)과 로컬 디코더(503)를 포함한다. 코딩 노이즈
Figure 112013013308823-pct00054
는 필터링되고(블록 504) 그리고 신호
Figure 112013013308823-pct00055
로 재주입된다(블록 505). 예측 계수들이 신호
Figure 112013013308823-pct00056
에 기초하여 추정되고(블록 500), 반면에 G.711.1(도 3)에서는 예측 계수들이 코어 비트 레이트에서 이전 디코딩된 신호에 기초하여 추정된다. 알려진 방식으로, 통상적으로, 선형 예측 필터 A(z)의 계수들을 감쇠시킴으로써, 신호
Figure 112013013308823-pct00057
의 단기 상관들을 모델링하는 선형 예측 필터 A(z)에 기초하여 필터
Figure 112013013308823-pct00058
가 획득된다(블록 500). 코딩 노이즈는 필터
Figure 112013013308823-pct00059
― 이때, 통상적 값으로서
Figure 112013013308823-pct00060
임 ― 에 의해 쉐이핑될 것이다.
실제로, 도 4의 방식에 대해,
Figure 112013013308823-pct00061
로부터 시작해,
Figure 112013013308823-pct00062
를 이용하여 PCM/ADPCM 양자화 잡음은, z-트랜스폼 도메인 내에서:
Figure 112013006573919-pct00063
그렇지 않다고 언급되면, "글로벌" 코딩 노이즈
Figure 112013006573919-pct00064
Figure 112013006573919-pct00065
에 의해 필터링(쉐이핑)된 PCM/ADPCM 양자화 노이즈
Figure 112013006573919-pct00066
에 대응함을 알 수 있다.
특히, 스피치 또는 음악과 같은 "자연적" 오디오 신호들에 대해, 코딩 노이즈를 마스킹함으로써, ADPCM 코딩에 적용되는 노이즈 피드백은 PCM/ADPCM 코더들의 품질을 개선시키기 위한 효과적 기술이다. 도 4의 방식은 마스킹 필터
Figure 112013006573919-pct00067
에 따라 코딩 노이즈를 쉐이핑하는 것을 가능하게 하여, 주파수들에 따라 더욱 균일한 신호-대-잡음비를 획득한다.
그러나, 스피치 또는 음악 이외의 특정한 덜 "자연적" 신호들에 대해, 루프된 시스템들을 이용한 경우에 때때로 그러하듯이, 노이즈 피드백은 불안정하게 될 수 있고 그리고 디코딩된 신호의 품질 저하 및 포화를 유도할 수 있다. 여기서, 디코딩된 신호의 진폭이 유한 정밀도로 표현가능한 최대 값들(예: 16-비트 부호 정수들)을 초과하고 그리고 따라서 신호의 클립핑을 유도한다는 의미에서 볼 때 포화가 취해져야 한다.
노이즈 피드백에 대한 문제적인 신호들의 예들은, 예컨대 침묵의 짧은 세그먼트들로 분리된 상이한 주파수들의 순수 사인곡선들의 시리즈와 같이, 넓은 스펙트럼 다이나믹 레인지(spectral dynamic range)의 정지(stationary) 시퀀스들 사이에서의 고속 전이들을 나타내는 신호들이다.
특히, "토널(tonal)" 신호들(순수 사인곡선들)은, 노이즈 피드백을 이용한 코딩 방식들에서 불안정성 또는 포화의 문제점을 야기시킬 수 있는 위험에 있는 신호들인 것으로 간주된다.
이러한 타입의 신호에 대해, 추정된 마스킹(또는 쉐이핑) 필터
Figure 112013006573919-pct00068
는 사인곡선들 사이의 전이들에서 그리고 공격(attack)들에서 급격히 가변하고, 이때 재주입되는 양자화 노이즈는 종종 매우 높다.
노이즈 피드백에 의해 관찰되는 안정성 및 포화의 문제점은 ADPCM 코딩에서 특히 치명적이다. 실제로, G.722에서 구현된 바와 같은 ADPCM 코딩은 코딩 파라미터들(양자화 간격, 예측 계수들)의 점진적 적응에 의존한다. 이러한 적응은 적응적 필터링에서 LMS ("최소 평균 자승(Least Mean Square)"을 위한) 알고리즘과 유사한 원리에 따라 샘플 단위로 이루어지고, 이로써 적응은 코딩될 신호의 비정지 특징들 바로 뒤를 잇지 않음을 암시한다. 특정 시간 이후 재-수렴(re-converging) 이전 적응이 발산(diverge)한다는 의미에서 볼 때, 특정한 신호들에 대해, PCM 코딩 단독(노이즈 피드백 없음)에서의 적응이 드롭 아웃("미스트랙킹")될 수 있음이 알려져 있다.
문제 있는 신호들에 대해, 노이즈 피드백은 ADPCM 코딩의 적응을 방해할 수 있는데, 그 이유는 ― 도 4로 돌아가면 ― 코딩될 신호
Figure 112013013308823-pct00069
가 재주입된 노이즈
Figure 112013013308823-pct00070
에 의해 수정되어, 신호
Figure 112013013308823-pct00071
를 형성하기 때문이다.
재주입된 노이즈
Figure 112016030649092-pct00072
가 신호
Figure 112016030649092-pct00073
의 레벨과 유사한 레벨을 가질 때 ― 이는, 넓은 스펙트럼 다이나믹 레인지의 정지 시퀀스들 사이에서의 고속 전이들에서의 일반적인 경우임 ―, ADPCM 코더의 입력에 있는 신호
Figure 112016030649092-pct00074
는 신호
Figure 112016030649092-pct00075
및 신호
Figure 112016030649092-pct00076
가 동위상인지 또는 위상이 다른지의 여부에 따라 매우 "불안정"하게 될 수 있다. 또한, ADPCM 코딩이 드롭 아웃("미스트랙킹")하는 적응을 갖는다면, 노이즈 피드백은 드롭아웃의 지속기간 및 크기를 증폭시킬 것이다.
이러한 현상의 근원을 보여주기 위해, 지각 신호-대-잡음비
Figure 112013006573919-pct00077
(코딩 노이즈를 마스킹할 때 목표로 된 노이즈 피드백의 효과를 상기 비율이 포함하므로 지각적임)를 계산하는 것이 가능하다:
Figure 112013006573919-pct00078
아래가 도시될 수 있고:
Figure 112013006573919-pct00079
여기서, 은 ADPCM 코더의 예측 이득이고,
Figure 112013006573919-pct00081
은 ADPCM 양자화기의 신호-대-잡음비(5-비트 라플라스 양자화기에 대해, 약 24 dB)이고, 그리고
Figure 112013006573919-pct00082
는 마스킹 필터의 임펄스 응답
Figure 112013006573919-pct00083
의 에너지이다.
이러한 공식에 따라, 이득
Figure 112013006573919-pct00084
이 낮을수록, 그리고/또는 에너지
Figure 112013006573919-pct00085
가 높을수록,
Figure 112013006573919-pct00086
가 낮음을 안다. 이들 두 개의 조건들(낮은
Figure 112013006573919-pct00087
및 높은
Figure 112013006573919-pct00088
) 둘 다는 순수 사인곡선들의 두 개의 시퀀스들 사이에서의 전이들의 상황들에서 유지되는데, 그 이유는 이득
Figure 112013006573919-pct00089
이 매우 낮아지고(제1 순수 사인곡선에 적응된 ADPCM 코딩에는, 제2 순수 사인곡선에 재적응되기 이전에 특정한 시간이 걸림), 그리고 사인곡선들이 매우 공진적(resonant) 재주입 필터들을 제공하므로
Figure 112013006573919-pct00090
가 높기 때문이다. 이러한 경우, ADPCM 코더는 불안정할 것이거나 또는 불안정성에 가까울 것이다.
이러한 불안정성 및 포화 현상들은 받아들여질 수 없는데, 그 이유는 불안정성 및 포화 현상들이 들을 수 있는 인공물(artifact)들(예컨대: 시간상 국지적인 진폭 스파이크들), 또는 실제로 신호의 시간 레벨의 완전한 포화의 경우 "어쿠스틱 쇼크들"을 생성할 수 있기 때문이다.
그러므로, 피드백을 이용한 코딩 구조들에서, 특히, 다양한 주파수들에 있는 순수 사인곡선들의 시리즈와 같은 문제적인 신호들에 대해, 불안정성 및 포화 현상들을 방지하고(forestall) 그리고 제어할 필요가 존재한다.
본 발명은 상기 상황을 개선시킨다.
이를 위해, 본 발명은, 디지털 오디오 입력 신호의 ADPCM-타입 코딩 동안 코딩 노이즈의 쉐이핑을 제어하기 위한 방법을 제안하고, 상기 노이즈 쉐이핑은, 노이즈의 필터링을 포함하는 피드백의 구현에 의해 수행된다. 상기 방법은, 상기 방법이 아래의 단계들을 포함하도록 이루어진다:
- 신호의 넓은 스펙트럼 다이나믹 레인지를 표시하기 위한 파라미터의 획득 단계 ― 상기 파라미터는 피드백의 불안정성 위험을 표시함 ―;
- 표시하는 파라미터의 적어도 하나의 미리결정된 임계치와의 비교에 의한 불안정성 위험의 검출 단계;
- 불안정성 위험의 검출의 경우 피드백의 제한 단계;
- 현재 프레임 ― 상기 현재 프레임 동안, 피드백이 제한되었음 ― 이후 미리결정된 개수의 프레임들에 걸친 피드백의 점진적 재활성화 단계.
따라서, 상기 방법은 피드백에서 불안정성 현상들을 야기시킬 위험을 가지는 잠재적으로 문제적인 신호들의 고속의 효과적 검출을 착수하는 것을 가능하게 한다. 따라서, 이러한 현상은 방지되는데, 그 이유는 이들 위험에 있는 신호들의 출현시 피드백의 제한이 수행되기 때문이다. 이러한 제한은 심지어, 이러한 피드백의 완벽한 비활성화로 이루어질 수 있다.
그러므로, 방법은, 골칫거리 현상들의 출현에 대한 예방 액션을 갖는다. 그 이후, 피드백 루프의 재활성화는 점진적 방식으로 착수되어, 코딩된 신호들의 매우 갑작스런 변형(variation)들을 야기시키지 않는다.
특정한 실시예에서, 신호의 넓은 스펙트럼 다이나믹 레인지를 표시하기 위한 파라미터는 입력 신호의 선형 예측 분석으로부터 나오는 제2 반사 계수이거나, 또는 그렇지 않으면, 디코딩된 신호의 선형 예측 분석으로부터 나오는 제2 반사 계수이다.
따라서, 이러한 파라미터는 위험에 있는 신호들의 참된 대표자이고 그리고 그러므로 피드백의 불안정성 위험을 표시한다. 이러한 파라미터는, 특히 노이즈 쉐이핑 필터를 계산하기 위해 수행되는 선형 예측 분석 동안 획득된다. 그러므로, 여기서, 피드백을 제어하기 위해 상기 파라미터를 재사용하는 것이 유리하다.
다른 실시예에서, 신호의 넓은 스펙트럼 다이나믹 레인지를 표시하기 위한 파라미터는 입력 신호와 노이즈 사이의 신호-대-잡음비이다.
이러한 파라미터는, 사인곡선들을 나타내는 신호들에 대해서만이 아니라, 임의의 타입의 위험에 있는 신호들에 대해 피드백의 불안정성 위험을 측정하는 것을 가능하게 한다.
가능한 실시예에서, 노이즈 필터링 파라미터들에 적용될 가중치 계수를 0으로 셋팅함으로써 피드백의 제한이 수행된다.
이는, 단순한 방식으로, 노이즈 쉐이핑 필터의 액션을 소거하고 그리고 그러므로 피드백을 비활성화하는 것에 해당된다.
변형 실시예에서, 노이즈 필터링의 출력에서 0 값의 이득을 적용시킴으로써 피드백의 제한이 수행된다.
따라서, 필터는 불변하게 유지되지만, 필터의 액션은 이러한 이득의 적용에 의해 출력에서 소거된다. 이는, 필터의 계산을 수정하지 않고서, 피드백을 비활성화시키는 것을 가능하게 한다.
단순한 방식으로, 가중치 계수를 0으로 셋팅함으로써 피드백 루프의 비활성화가 수행되는 경우에, 피드백의 점진적 재활성화는, 필터링 파라미터들에 가중치 계수를 적용시킴으로써 수행되고, 상기 가중치 계수는 미리결정된 개수의 프레임들에 걸친 증가에 의해 정의된다.
노이즈 필터링의 출력에서 0 값의 이득을 적용시킴으로써 피드백 루프의 비활성화가 수행되는 경우에, 증가하는 이득 값을 노이즈 필터링의 출력에서 미리결정된 개수의 프레임들에 걸쳐 적용시킴으로써 피드백의 점진적 재활성화가 수행된다.
방법은, 계층적 타입의 코더들의 경우에 유리하게 적용되고, 그리고 코어 코딩 동안 그리고 계층적 코딩의 개선 코딩 동안 동시에 구현될 수 있다.
따라서, 코어 코딩 동안 뿐만 아니라 개선 코딩 동안에도, 그러나 코딩의 복잡성이 비례하여 증가함 없이, 불안정성 문제점들이 방지된다.
또한, 본 발명은, 노이즈 필터링 모듈을 포함하는, 코딩 노이즈를 쉐이핑하기 위한 피드백을 포함하는 디지털 오디오 신호 ADPCM-타입 코더에 관한 것이다. 상기 코더는, 상기 코더가 노이즈 쉐이핑 제어 모듈을 포함하도록 이루어지고, 상기 노이즈 쉐이핑 제어 모듈은 아래를 포함한다:
- 신호의 넓은 스펙트럼 다이나믹 레인지를 표시하기 위한 파라미터를 획득하기 위한 수단 ― 상기 파라미터는 피드백의 불안정성 위험을 표시함 ―;
- 표시하는 파라미터를 적어도 하나의 미리결정된 임계치와 비교함으로써 불안정성 위험을 검출하기 위한 수단;
- 불안정성 위험의 검출의 경우에 피드백을 제한시키기 위한 수단;
- 현재 프레임 ― 상기 현재 프레임 동안, 피드백이 제한되었음 ― 이후 미리결정된 개수의 프레임들에 걸친 피드백의 점진적 재활성화 수단.
또한, 본 발명은, 코드 명령들이 프로세서에 의해 실행될 때, 본 발명에 따른 제어 방법의 단계들의 구현을 위해 상기 코드 명령들을 포함한 컴퓨터 프로그램에 관한 것이다.
마지막으로, 본 발명은, 설명된 바와 같은 컴퓨터 프로그램을 저장한, 프로세서에 의해 판독가능한 스토리지 수단에 관한 것이다.
본 발명의 다른 특징들 및 장점들은, 단지 비제한적 예로서 주어진 아래의 설명을 읽을 때 그리고 첨부된 도면들을 참조하여, 더욱 명확하게 명백할 것이다.
도 1은 최신기술 및 위에 설명된 바에 따른 내장된-코드들 ADPCM-타입 코더를 도시한다.
도 2는 최신기술 및 위에 설명된 바에 따른 내장된-코드들 ADPCM-타입 디코더를 도시한다.
도 3은 최신기술 및 위에 설명된 바에 따른 표준화된 G.711.1 타입의 코더 내에서 적용되는 노이즈 쉐이핑을 도시한다.
도 4는 최신기술 및 위에 설명된 바에 따른 PCM/ADPCM 코더의 경우에 예시적 노이즈 쉐이핑을 도시한다.
도 5는 본 발명에 따른 노이즈 쉐이핑 제어 모듈을 포함한, 개선층을 이용하는 PCM/ADPCM 타입의 코더의 실시예를 도시한다.
도 6은 본 발명에 따른 노이즈 쉐이핑 제어 모듈을 포함한 코더의 변형 실시예를 도시한다.
도 7은 본 발명에 따른 노이즈 쉐이핑 제어 방법의 실시예의 단계들을 표현한 흐름도를 도시한다.
도 8은 본 발명에 따른 노이즈 쉐이핑 제어 방법의 변형 실시예의 단계들을 표현한 흐름도를 도시한다.
도 9는 개선층을 이용하는 PCM/ADPCM 타입의 제2 예시적 코더에 대해, 본 발명에 따른 노이즈 쉐이핑 제어 방법 및 모듈의 변형 실시예를 도시한다.
도 10은 본 발명에 따른 코더의 가능한 실시예를 표현한다.
도 5를 참조하여, 본 발명을 포함한 내장된-코드들 코더가 이제 설명된다.
이러한 코더는 5 ㎳의 프레임들을 이용하여 8 ㎑로 샘플링되는 신호들에 대해 동작한다. 상기 코더는, 노이즈 피드백(단계들 606, 604, 605)에 의해 구현되는 코딩 노이즈 쉐이핑을 포함한다. 여기서, 노이즈 피드백은, 노이즈를 획득하는 단계(606), 노이즈를 필터링하는 단계(604) 및 신호를 수정하는 단계(605)를 의미하는 것으로 의도된다. 여기서, 피드백에 의해 수정된 신호가 입력 신호
Figure 112013006573919-pct00091
이지만, ADPCM 코딩의 경우에, 동등한 방식으로, 코딩 단계(601) 이전에 다른 신호가 수정될 수 있다는 것, 예컨대 피드백에 의해 수정된 신호는 입력 신호
Figure 112013006573919-pct00092
와, ADPCM 스칼라 양자화를 적용시키기 이전에 ADPCM 코딩에 의해 예측된 신호 사이의 차이일 수 있다는 것을 주의하라.
여기서 설명된 예에서, 코딩은 부가 샘플마다 하나의 비트를 제공(afford)하는 개선 스테이지들에 의해 수행된다. 여기서, 이러한 선택은, 코더의 프리젠테이션을 단순화시키기 위하여 채택된다. 그러나, 개선 스테이지들이 샘플마다 하나보다 많은 개수의 비트를 제공하는 더욱 일반적인 경우에 이하에서 설명되는 본 발명이 적용됨이 명확하다.
또한, 용어 "코어 코더"는 본 문서에서 넓은 의미로 사용된다. 따라서, 56 또는 64 kbit/s에서 예컨대 ITU-T G.722와 같은 기존 다중-비트 레이트 코더가 "코어 코더"인 것으로 간주될 수 있다.
이러한 코더는, 예컨대, 표준화된 G.722 또는 G.727 코더와 같은 ADPCM 코딩 타입 또는 표준화된 G.711 코더와 같은 PCM ("펄스 코드 변조(Pulse Code Modulation)"를 위한) 타입의 코어 비트 레이트 코딩 스테이지(603) ― B+k-1 비트들에 대한 양자화(블록 601)를 이용함 ― 를 포함한다.
이러한 코어 코딩 스테이지는 로컬 디코딩 모듈(블록 602)을 포함한다.
코어 비트 레이트 코더는 도 4를 참조하여 설명된 것과 유사한 노이즈 쉐이핑 피드백 루프를 포함한다. 따라서, 코딩 노이즈가 계산되고(블록 606), 필터링되고(블록 604), 그리고 재주입된다(블록 605).
또한, 코더는, 샘플마다 하나의 비트를 제공하여, 샘플마다 비트 레이트 B+k-1 비트들로부터 샘플마다 B+k 비트들까지 통과하는 개선 스테이지(613)를 포함한다.
이러한 개선 스테이지는 본 발명의 구현을 위해 선택적인데, 그 이유는 코어 코딩 스테이지 단독이 후속하여 설명되는 바와 같은 노이즈 쉐이핑 제어 방법을 구현할 수 있기 때문이다.
이러한 개선 스테이지는 양자화기(610) 및 로컬 디코더(블록 611)를 사용하고, 그리고 코어 코더와 동일한 마스킹 필터
Figure 112013006573919-pct00093
를 사용하는, 노이즈의 쉐이핑을 수행한다.
따라서, 코어 코더 및 개선 스테이지는 동일한 노이즈 쉐이핑 필터(
Figure 112013006573919-pct00094
)(블록 604, 블록 608) ― 상기 필터의 계수들이 블록(600)에 의해 계산됨 ― 에 의존한다.
도 6은 도 5의 솔루션과 동등한 솔루션을 제공하지만, 필터링 파트에 대해 다른 해석을 제공한다. 예측기들
Figure 112013013308823-pct00095
을 사용하는 대신에, 도 6은 필터들
Figure 112013013308823-pct00096
(모듈 614 및 모듈 615)을 사용하고, 상기 필터들의 입력(각각
Figure 112013013308823-pct00097
Figure 112013013308823-pct00098
)은 아래의 방식으로 블록(616) 및 블록(617)에 의해 각각 준비된다:
Figure 112013006573919-pct00099
그리고
Figure 112013006573919-pct00100
블록(600)은 본 발명에 따른 노이즈 쉐이핑 제어 모듈을 표현한다.
이러한 예에서, 그 중에서도, 제어 모듈(600)은 도 7을 참조하여 후속하여 설명되는 바와 같이 입력 신호
Figure 112013006573919-pct00101
에 기초하여 마스킹 필터의 계수들의 계산을 수행한다. 또한, 마스킹 필터의 계수들의 이러한 계산은 도 3을 참조하여 설명된 G.711.1 코더의 경우에서와 같이 디코딩된 신호에 기초하여 수행될 수 있다.
이러한 모듈은 피드백의 불안정성 위험을 표시하는 파라미터를 획득하기 위한 수단을 특히 포함한다. 이러한 파라미터를 획득하는 여러 예들이 후속하여 설명된다.
이러한 모듈은, 예컨대, 획득된 파라미터의 미리결정된 임계치와의 비교를 수행할 비교기의 형태로, 피드백의 불안정성 위험을 검출하기 위한 수단을 더 포함한다.
모듈은, 예컨대 후속하여 설명되는 바와 같이 이득 또는 가중치 팩터를 0 또는 낮은 값으로 셋팅함으로써, 피드백을 제한시키기 위한 수단을 포함한다.
또한, 모듈은, 현재 프레임 ― 상기 현재 프레임 동안, 피드백이 제한되었음 ― 이후 미리결정된 개수의 프레임들에 걸친 피드백의 점진적 재활성화 수단을 포함한다. 이들 점진적 재활성화 수단들은, 예컨대, 미리결정된 개수의 프레임들과 협력하여 점진적으로 증가하는 가중치 또는 이득의 값들에 기인하기 위한 수단이다.
이제 도 7을 참조하여 설명되는 실시예에서, 이러한 제어 모듈은 흐름도 형태로 표현된 노이즈 쉐이핑 제어 방법을 구현한다.
이러한 실시예에서, 단계(701) 내지 단계(704)는 선택적이고 그리고 반드시 본 발명에 따른 제어 방법의 파트를 형성하는 것은 아니다.
여기서, M은, 노이즈 쉐이핑을 위해 사용되는 선형 예측 오더(order)인 것으로서 정의되고, 상기 선형 예측 오더의 통상적 값은 M=4이다.
따라서, 단계(701)에서, 신호
Figure 112013006573919-pct00102
의 자기상관들, 즉
Figure 112013006573919-pct00103
(
Figure 112013006573919-pct00104
)의 계산 ― 여기서, M은 선형 예측 오더임 ― 이 수행된다. 방법의 성질을 바꾸지 않고서, 이들 자기상관들이 또한 G.711.1에서와 같이 디코딩된 신호
Figure 112013006573919-pct00105
에 기초하여 계산될 수 있음을 주의하라.
따라서, 첫째로, 신호
Figure 112013006573919-pct00106
는 타입(
Figure 112013006573919-pct00107
)의 필터에 의해 미리강조되어, 아래가 획득된다:
Figure 112013006573919-pct00108
여기서, 팩터
Figure 112013006573919-pct00109
는 아래의 공식에 따라 G.711.1에서와 같이 계산된다:
Figure 112013006573919-pct00110
여기서,
Figure 112013006573919-pct00111
은 제로 크로싱들의 개수이다.
그 이후에, 오더 M=4의 선형 예측 필터(LPC)가 프레임마다 한 번(매 5 ㎳마다) 추정된다. 따라서,
Figure 112013006573919-pct00112
을 획득하기 위해, 미리강조된 신호
Figure 112013006573919-pct00113
는, 현재 프레임의 시작에 중심이 맞추어진 80개 샘플들(10 ㎳)의 비대칭적 하이브리드 코사인-해밍 윈도우에 의해 가중된다. 그 이후에, 자기상관은 아래의 공식에 따라 계산된다:
Figure 112013006573919-pct00114
따라서, 획득된 상관들은, G.711.1에서와 같이, 1/1.0001 ― 40 dB의 노이즈 플로어(floor)를 표현함 ― 의 상관 팩터를 포함하는 120 ㎐의 대역 확장부를 갖는
Figure 112013013308823-pct00115
에서 수정된다:
Figure 112013006573919-pct00116
여기서,
Figure 112013006573919-pct00117
이고,
이때,
Figure 112013006573919-pct00118
이고 그리고
Figure 112013006573919-pct00119
이다.
단계(701)에서, 정규화 팩터가 또한 계산되고, 상기 정규화 팩터는 아래에 의해 정의된 G.711.1에서와 같은 고정 소수점 산술 표현으로 이진 시프트의 개수를 계산에 넣는다:
Figure 112013006573919-pct00120
여기서,
Figure 112013006573919-pct00121
는 가장 근접한 정수로의 잘라버림(rounding down)을 표현한다.
단계(702)는 결과로서 아래를 제공하는, ITU-T 권고 G.711.1에서 설명된 레빈슨-더빈 알고리즘에 대응한다:
- 예측 계수들
Figure 112013006573919-pct00122
(
Figure 112013006573919-pct00123
)
- 선형 예측 필터의 트레리스(trellis) 구현과 연관된 반사 계수들
Figure 112013006573919-pct00124
(
Figure 112013006573919-pct00125
).
레빈슨-더비 알고리즘은 회귀적 알고리즘이고, 상기 알고리즘의 단계들은 아래에서 리콜된다:
· 반복 횟수
Figure 112013006573919-pct00126
,
Figure 112013006573919-pct00127
, 그리고
Figure 112013006573919-pct00128
·
Figure 112013006573919-pct00129
계산
·
Figure 112013006573919-pct00130
로 고정
·
Figure 112013006573919-pct00131
에 대해,
Figure 112013006573919-pct00132
계산
·
Figure 112013006573919-pct00133
계산
· i를 1만큼 증가시키고, 그리고 i=M이 될 때까지 단계 2로 감.
결과는, 아래의 선형 예측기
Figure 112013006573919-pct00134
의 계수들인
Figure 112013006573919-pct00135
(
Figure 112013006573919-pct00136
)에 의해, 그리고 1976년 스프링거-페어락에서 J.D. Markel과 A.H. Gray에 의한 레퍼런스 "Linear Prediction of Speech"에서 설명되는 바와 같은 필터 A(z)의 트렐리스 구현에 대응하는 반사 계수들
Figure 112013006573919-pct00137
에 의해 제공된다.
반사 계수
Figure 112016030649092-pct00138
가 선형 예측에 의해 모델링된 신호의 단기 스펙트럼의 "기울기"를 표현하는 반면에, 반사 계수
Figure 112016030649092-pct00139
는 신호의 스펙트럼 다이나믹 레인지(spectral dynamic range)의 표시자인데, 그 이유는 반사 계수
Figure 112016030649092-pct00140
가 레빈슨-더빈 알고리즘의 제2 반복시 발견되는 오더 2의 선형 예측기의 품질 팩터(공진 정도)와 연관되기 때문이다.
여기에서 도시되는 예에서, 이러한 반사 계수
Figure 112013006573919-pct00141
는 도 7을 참조하여 도시된 바와 같은 피드백의 불안정성 위험을 표시하는 파라미터를 구성한다.
여기서, 계수
Figure 112013006573919-pct00142
가 매우 큰 과전압을 갖는 신호들, 특히 사인곡선들의 검출을 허용함이 나타난다.
앞서 설명된 바와 같이, 큰 과전압을 갖는 신호들, 특히 사인곡선들은, 검출되어야 하는, (노이즈 피드백에 대한) 위험에 있는 신호들이다. 이들 위험에 있는 신호들의 검출은, 레빈슨-더빈 알고리즘의 출력부에서 제2 부분 상관 계수를 검사함으로써 수행될 수 있고, 상기 알고리즘은 필터
Figure 112013006573919-pct00143
를 계산하기 위해 사용되고, 상기 필터에 기초하여 가중치 필터
Figure 112013006573919-pct00144
가 계산된다.
우리는, 자신의 주파수 레벨에서 과전압을 가지는 샘플링 주파수 1/T에서 각주파수
Figure 112013006573919-pct00145
의 사인곡선
Figure 112013006573919-pct00146
에 대해 레빈슨-더빈 알고리즘에 의해 제2 부분 상관 계수를 계산할 것이다. 그 상관 함수는 아래와 동일할 것이다:
Figure 112013006573919-pct00147
.
알고리즘의 제1 단계는 아래를 제공한다:
Figure 112013006573919-pct00148
그리고, 제2 단계는 아래를 제공한다:
Figure 112013006573919-pct00149
예측 에러가 0이므로, 2개 샘플들에 기초하여 사인곡선이 예측가능함이 추론된다:
Figure 112013006573919-pct00150
예측기의 계산 이전에 상관 함수의 다양한 댐핑(damping)들 때문에, 과전압 계수는 그 이상적인 값과 동일하지 않다. 3000 ㎐에서의 사인곡선에 대해,
Figure 112013006573919-pct00151
이 통상적으로 발견된다. 그러므로, 구현된 솔루션은, 통상적으로 0.95의 임계치보다 더 큰 부분 상관 계수
Figure 112013006573919-pct00152
를 제공하는 큰 과전압을 갖는 신호들을 검출하는데 있다.
단계(703)는 정규화 팩터
Figure 112013013308823-pct00153
가 제한 값
Figure 112013013308823-pct00154
를 초과하는지의 여부를 검증하고, 이로써 G.711.1에서와 같이 낮은 레벨들의 신호들(침묵 또는 매우 낮은 신호)을 검출하는 것을 가능하게 한다. 이런 정규화 팩터가 미리결정된 임계치를 초과하는 경우에, 즉
Figure 112013013308823-pct00155
경우에, 선형 예측 계수들
Figure 112013013308823-pct00156
(
Figure 112013013308823-pct00157
)이 감쇠되고(단계 704), 이는 노이즈 마스킹(또는 쉐이핑) 필터의 효과를 감소시키는 것이 된다.
이러한 경우, 아래의 공식에 따라 단계(704)에서 획득된 계수들
Figure 112013006573919-pct00158
(
Figure 112013006573919-pct00159
)을 이용함으로써, 마스크 필터
Figure 112013006573919-pct00160
가 획득된다:
Figure 112013006573919-pct00161
반대의 경우에, 노이즈 쉐이핑 필터는 아래의 공식에 따라 정의된다:
Figure 112013006573919-pct00162
감쇠 팩터
Figure 112013006573919-pct00163
의 값이 메모리 내에 보유되고 그리고 각각의 프레임의 프로세싱 시작시 검색됨이 가정된다. 메모리 내에 보유된 이러한 값은
Figure 112013006573919-pct00164
으로 표시된다. 이러한 검색 동작은 단계(711)에서 수행된다.
낮은 레벨의 신호가 검출되는 프레임들에서
Figure 112013006573919-pct00165
, 파라미터
Figure 112013006573919-pct00166
는 단계(712)에서 예컨대
Figure 112013006573919-pct00167
와 동일한 값으로 재초기화된다.
노이즈 쉐이핑 제어 방법은, 표시하는 파라미터를 적어도 하나의 미리결정된 임계치와 비교함으로써 불안정성 위험을 검출하는 단계(705)를 포함한다.
사인곡선들과 같이 넓은 스펙트럼 다이나믹 레인지를 갖는 신호들을 검출하기 위해 여러 기술들이 존재한다. 여기서 설명된 바와 같이, 반사 계수들
Figure 112016030649092-pct00168
을 갖는 선형 예측 분석이 채택되는 경우에, 위에서 설명된 바와 같이 제2 반사 계수를 재사용하는 것이 유리하다.
이러한 예시적 구현에서, 단계(705)는 제2 반사 계수가 미리결정된 값, 여기서는 0.95
Figure 112016030649092-pct00169
를 초과하는지의 여부를 검증하는 것에 있다. 이러한 테스트는, 넓은 스펙트럼 다이나믹 레인지를 갖는 신호들을 검출하는 것을 가능하게 하고 그리고 특히 순수 사인곡선들(강한 진폭 변조가 없으며 비교적 일정한 진폭을 가짐)을 검출하는 것을 가능하게 한다.
테스트가 포지티브인 것으로 판명나면, 피드백을 제한시키는 단계가 수행되는데, 그 이유는 이러한 피드백의 불안정성 위험이 구체화되기 때문이다.
가능한 제한은 예컨대, 단계(706)에서, 계수
Figure 112013006573919-pct00170
를 0으로 고정시킴으로써 피드백의 비활성화이다.
변형에서, 계수
Figure 112013006573919-pct00171
는 매우 낮지만 0이 아닌 값, 예컨대 0.001로 고정된다. 이러한 변형은 피드백의 완벽한 비활성화에 대응하는 것이 아니라, 피드백의 제한에 대응하고, 이는 동일한 효과(불안정성 또는 포화 방지)를 생성한다.
동등한 방식으로, 도 5 및 도 6에서,
Figure 112013013308823-pct00172
일 경우 프레임들 내에서,
Figure 112013013308823-pct00173
로 고정시키는 것이 가능하고, 이는 신호
Figure 112013013308823-pct00174
에 임의의 노이즈를 주입시키지 않는 것에 해당된다.
선형 예측 계수들
Figure 112013006573919-pct00175
(
Figure 112013006573919-pct00176
)이 단계(707)에서
Figure 112013006573919-pct00177
에 의해 가중화되어,
Figure 112013006573919-pct00178
의 계수들이 계산된다.
그 이후에, 메모리 내에 보유된 값
Figure 112013006573919-pct00179
이 단계(708)에서 다음 차례의 프레임에 대해 업데이트된다. 단계(709) 및 단계(710)에서, 이러한 값은 첫째로,
Figure 112013006573919-pct00180
Figure 112013006573919-pct00181
― 예컨대,
Figure 112013006573919-pct00182
― 만큼 증가시킴으로써 계산되고, 그리고 결과는
Figure 112013006573919-pct00183
에서 포화된다. 4로의 나눗셈은, 4개 프레임들 이후
Figure 112013006573919-pct00184
의 값을 검색하는 것을 가능하게 한다.
706에서,
Figure 112013006573919-pct00185
이 매우 낮은 값
Figure 112013006573919-pct00186
으로 고정되는 경우에,
Figure 112013006573919-pct00187
Figure 112013006573919-pct00188
의 값들만큼 증가시키는 것이 가능하다.
이러한 통상적인 경우가 4와 동일한 미리결정된 개수의 프레임들에 대해 설명되지만, 이러한 단계는 4보다 더 많거나 또는 더 적은 개수의 프레임에 대해 완전히 명백하게 수행될 수 있다. 마찬가지로, 증가 값들은 상이할 수 있고, 그리고 증가는 비-선형 방식으로 분포된 간격들로 수행될 수 있다.
이들 단계들(708 내지 710)은 현재 프레임 ― 상기 현재 프레임 동안, 피드백이 제한되었음 ― 이후 미리결정된 개수의 프레임들(여기서는 4개 프레임들)에 걸쳐 피드백의 점진적 재활성화를 수행하는 것이 된다.
따라서, 본 발명에 따른 노이즈 쉐이핑 제어 방법은, 제2 반사 계수 상에서 이러한 실시예에서 수행된 테스트에 의해 신호의 불안정성 또는 포화를 유발하기 쉽고 그리고 이러한 테스트가 포지티브이자마자 노이즈 피드백을 제한시키기 쉬운 문제적인 신호들을 검출하는데 있다. 포지티브 검출 이후,
Figure 112013013308823-pct00189
의 값은 자신의 "정상" 값
Figure 112013013308823-pct00190
까지 점진적으로 증가된다(여기서 설명된 예에서, 4개 프레임들 이후).
Figure 112013013308823-pct00191
의 현재 값이
Figure 112013013308823-pct00192
로 복사되어, 이러한 파라미터의 값이 하나의 프레임으로부터 다음 프레임으로 전달된다.
여러 프레임들에 걸쳐 퍼지는
Figure 112013006573919-pct00193
의 연속적 증가는, 노이즈 피드백을 점진적으로 재저장시키는 것을 가능하게 하고, 그리고 루프된 시스템이, 신호의 "국지적" 통계치들의 변형들을 방해하기를 야기할 수 있는 피드백의 재활성화를 매우 방해하는 것에 후속하여 발산(diverging)하는 것을 방지한다.
노이즈 쉐이핑 방법의 변형 실시예에서, 불안정성 위험을 표시하기 위한 파라미터는 상이하다.
예컨대, LPC 윈도우에 의해 윈도우잉되는 단기 신호에 기초하여 계산된 전력 스펙트럼의 스펙트럼 라인들의 산술 평균과 기하 평균 사이의 비율을 계산함으로써 스펙트럼 평탄도(flatness) 측정이 수행된다. 이러한 측정은 단 하나의 라인(순수 사인곡선)을 포함하는 스펙트럼들에 대해 매우 큰 값인 경향이 있다.
이러한 변형 실시예에서, 단계(705)에서, 검출 임계치는, 콘텍스트(프레임 길이, 윈도우 등)에 따라, 넓은 다이나믹 레인지의 신호를 검출하는 것을 가능하게 한다. 그러나, 이러한 변형은, (푸리에 타입의) 단기 시간-주파수 트랜스폼을 계산하는 것 그리고 위에서 설명된 측정을 계산하는 것과 관련된다.
다른 변형 실시예에서, 연역적으로, 넓은 다이나믹 레인지를 갖는 신호들을 검출하기 위해 노력이 이루어지는게 아니라, 넌파라메트릭 그리고 귀납적 방식으로, 피드백에서 불안정성들을 야기시키는 문제적인 신호들을 검출하기 위해 노력이 이루어진다. 이러한 실시예에서, 불안정성 위험 파라미터는, 도 5 및 도 6에서 정의되는 입력 신호
Figure 112016030649092-pct00194
와 코딩 노이즈
Figure 112016030649092-pct00195
사이의 순간적인 신호-대-잡음비이다. 그런 다음에, 단계(705)에서의 문제적인 신호들의 검출은, 예컨대 이러한 비율이 5 dB 미만으로 되자마자 신호-대-잡음비에 관한 임계치를 고정시킴으로써 이루어진다. 이러한 실시예에서, 입력 신호의 평균과 노이즈의 평균을 계산하여, 잘 정의되는 신호-대-잡음비들을 계산할 수 있을 필요가 있다.
그러나, 불안정성 또는 포화의 문제점들이 부분적으로 이미 관찰가능할 때, 이러한 타입의 귀납적 검출이 종종 발생한다. 또한, 이러한 변형은 꽤 높은 거짓 경보 비율을 갖는 단점을 드러낸다.
피드백의 불안정성 위험을 표시하는 파라미터를 획득하고 그리고 불안정성 위험의 검출을 위한 다른 실시예가 도 8에 도시된다.
이러한 알고리즘은, 단계(702)가 단계(802)가 되고 그리고 단계(705)가 단계(805)가 되는 점에서만, 도 7을 참조하여 설명된 것과 상이하다.
실제로, 단계(802)에서, 선형 예측기
Figure 112013006573919-pct00196
(
Figure 112013006573919-pct00197
)의 계수들 및 도 7을 참조하여 설명된 바와 같이 획득되는 반사 계수들
Figure 112013006573919-pct00198
(
Figure 112013006573919-pct00199
) 뿐만 아니라, 현재 프레임의 마스킹 필터
Figure 112013006573919-pct00200
의 에너지도 아래의 방식으로 획득된다:
Figure 112013006573919-pct00201
위는, 레빈슨-더빈 알고리즘의 출력에서의 예측 이득
Figure 112013006573919-pct00202
Figure 112013006573919-pct00203
로 나누는 것에 의해 근사화될 수 있다.
사실, 마스킹 필터는
Figure 112013006573919-pct00204
과 동일하고, 그리고 자신의 에너지를 계산하기 위해, 부분 상관 계수들 뿐만 아니라
Figure 112013006573919-pct00205
로부터 시작해 더 하위의 연속적인 예측기들을 재계산하는 알고리즘을 사용하는 것이 적절하다.
Figure 112013006573919-pct00206
702에서 계산된 결과 필터의 에너지
Figure 112013006573919-pct00207
는 아래에 의해 주어질 것이다:
Figure 112013006573919-pct00208
그런 다음에, 불안정성 위험을 표시하는 파라미터는
Figure 112013006573919-pct00209
에 의해 제공되고, 이때
Figure 112013006573919-pct00210
는 이전 프레임에 관해 추정된 ADPCM 코더의 예측 이득이다. 상기 파라미터는, 입력 신호
Figure 112013006573919-pct00211
의 에너지에 걸쳐, 양자화기의 포화 임계치
Figure 112013006573919-pct00212
의 몫(quotient)에 의해 근사화, 어쩌면 필터링된다.
그런 다음에, 표시하는 파라미터
Figure 112013006573919-pct00213
를, 위험 정도를 조정하는 팩터
Figure 112013006573919-pct00214
에 의해 곱해진 ADPCM 양자화기의 신호-대-잡음비
Figure 112013006573919-pct00215
로서 여기서 정의된 임계치와 비교함으로써, 불안정성 위험을 검출하는 단계(805)가 수행된다.
실제로,
Figure 112013006573919-pct00216
는 ADPCM 양자화기의 신호-대-잡음비이다(라플라스 양자화기에 대해 24 dB 정도의
Figure 112013006573919-pct00217
). 다양한 개수들의 비트들 및 라플라스 확률 밀도에 대한
Figure 112013006573919-pct00218
의 값이 1972년 4월의 IEEE review Trans.Communications 225-230쪽으로부터, Paez 및 Glisson에 의한 "Minimum Mean-Squared-Error Quantization in Speech PCM and DPCM Systems"란 기사의 표 Ⅱ에 제공된다.
단계(706)의 피드백을 제한시키는 단계가 또한 다양한 방식들로 수행될 수 있다.
상이한 실시예에서, 계수
Figure 112013006573919-pct00219
를 0으로 셋팅함으로써가 아니라, 0 값의 스케일 팩터(또는 이득)
Figure 112013006573919-pct00220
를 필터
Figure 112013006573919-pct00221
의 출력에 적용시킴으로써, 노이즈 피드백이 비활성화된다.
이러한 실시예는 도 9를 참조하여 도시된다.
이러한 도면은 동일한 엘리먼트들을 갖는, 도 5에 표현된 바와 같은 계층적 코더를 도시한다. 유일한 차이는, 이득
Figure 112013013308823-pct00263
― 상기 이득은 상기 이득이 0으로 셋팅될 때 피드백을 비활성화시킴 ― 를 코어 코딩을 위한 필터링 모듈(604)의 출력으로서, 913에서 전달하고 그리고 개선 코딩을 위한 필터링 모듈(608)의 출력으로서, 914에서 전달하는 노이즈 쉐이핑을 위한 제어 모듈(900)로부터 발생한다.
이러한 팩터
Figure 112013006573919-pct00223
는 파라미터
Figure 112013006573919-pct00224
에 대해서와 동일한 방식으로
Figure 112013006573919-pct00225
내에 저장되고, 상기 파라미터
Figure 112013006573919-pct00226
의 값들은 메모리 내에서 도 7의 단계(711)에서
Figure 112013006573919-pct00227
내에 놓인다.
그러므로,
Figure 112013006573919-pct00228
인 경우에 우리가
Figure 112013006573919-pct00229
로 고정시킨다는 것을 제외하고서, 블록(900)에서, 필터
Figure 112013006573919-pct00230
의 계수들의 계산이 블록(600)과 유사하다. 또한, 블록(900)은,
Figure 112013006573919-pct00231
의 함수로서 현재 프레임에 적용가능한 이득
Figure 112013006573919-pct00232
의 값을 제공한다:
Figure 112013006573919-pct00233
이면, 그러면
Figure 112013006573919-pct00234
이다.
대안적으로, 이득
Figure 112013006573919-pct00235
은 매우 낮지만 0이 아닌 값, 예컨대 0.001로 고정된다. 이러한 변형은 피드백의 완벽한 비활성화에 대응하는 것이 아니라, 피드백의 제한에 대응한다.
이러한 변형에서, 0부터 1까지
Figure 112013006573919-pct00236
의 값을 점진적으로 변경시킴으로써, 노이즈 피드백의 점진적 복구가 착수된다. 예컨대, 검출
Figure 112013006573919-pct00237
뒤를 잇고 그리고
Figure 112013006573919-pct00238
인 프레임들에서, 후속하는 각각의 프레임들 내에서
Figure 112013006573919-pct00239
의 값을 0.25, 0.5, 0.75 그리고 1로 고정시키는 것이 가능할 것이다.
Figure 112013006573919-pct00240
에 대해 주어진 제한 값에 따라 이들 값들이 꽤 명백하게 적응될 수 있다(예컨대: 불안정성 위험의 검출의 경우
Figure 112013006573919-pct00241
).
또한, 낮은 레벨의 신호가 703에서 검출되는 프레임들에서
Figure 112013006573919-pct00242
,
Figure 112013006573919-pct00243
의 값을 복구하는 도 7의 단계(712)와 유사한 방식으로 이득
Figure 112013006573919-pct00244
이 값 1로 복구된다.
본 발명에 따른 코더의 예시적 실시예(1000)가 이제 도 10을 참조하여 설명된다.
하드웨어에 대하여, 본 발명의 의미 내에서 도 5, 도 6 및 도 9의 실시예들에 따라 설명된 바와 같은 코더는 메모리 블록(BM) ― 스토리지 및/또는 워킹 메모리를 포함함 ―, 뿐만 아니라 예컨대 불안정성 검출 임계치의 값들을 저장하거나 또는 도 5, 도 6, 도 7, 도 8 및 도 9를 참조하여 설명된 바와 같은 노이즈 쉐이핑 제어 방법의 구현에 필요한 모든 다른 데이터를 저장하기 위한 수단의 모습으로 있는 전술된 버퍼 메모리(MEM)와 상호동작하는 프로세서(
Figure 112013006573919-pct00245
)를 통상적으로 포함한다. 이러한 코더는 입력으로서 디지털 신호
Figure 112013006573919-pct00246
를 수신하고 그리고 다중화된 양자화 인덱스들
Figure 112013006573919-pct00247
을 전달한다.
메모리 블록(BM)은, 코드 명령들이 코더의 프로세서(
Figure 112013013308823-pct00248
)에 의해 실행될 때 본 발명에 따른 방법의 단계들, 그리고 특히, 피드백의 불안정성 위험을 표시하는 파라미터를 획득하는 단계, 표시하는 파라미터를 적어도 하나의 미리결정된 임계치와 비교함으로써 불안정성 위험을 검출하는 단계, 불안정성 위험의 검출의 경우에 피드백을 제한시키는 단계, 및 현재 프레임 ― 상기 현재 프레임 동안, 피드백이 제한되었음 ― 이후 미리결정된 개수의 프레임들에 걸친 피드백의 점진적 재활성화 단계의 구현을 위해 이들 명령들을 포함한 컴퓨터 프로그램을 포함할 수 있다.
더욱 일반적인 방식으로, 컴퓨터 또는 프로세서에 의해 판독가능하고 선택적으로 코더 안에 포함되고, 어쩌면 제거가능한 스토리지 수단은, 본 발명에 따른 노이즈 쉐이핑 제어 방법을 구현하는 컴퓨터 프로그램을 저장한다.
도 7 및 도 8은 예컨대 이러한 컴퓨터 프로그램의 알고리즘을 도시할 수 있다.

Claims (11)

  1. 디지털 오디오 입력 신호의 ADPCM-타입 코딩 동안 코딩 노이즈의 쉐이핑(shaping)을 제어하기 위한 방법으로서,
    상기 노이즈 쉐이핑은, 노이즈 필터링 모듈에 의해 필터링되는 코딩 노이즈의 피드백의 구현에 의해 수행되고,
    상기 방법은,
    상기 입력 신호의 선형 예측 분석으로부터 나오는 제 2 반사 계수를 획득하는 단계(702) ― 상기 제 2 반사 계수는 상기 신호의 스펙트럼 다이나믹 레인지(spectral dynamic range) 및 상기 피드백의 불안정성 위험을 표시함 ―;
    상기 제 2 반사 계수를 적어도 하나의 미리결정된 임계치와 비교함으로써 불안정성 위험을 검출하는 단계(705);
    불안정성 위험을 검출하는 경우 상기 피드백을 비활성화하는 단계(706);
    필터링 파라미터들에 가중치 계수를 적용시킴으로써 상기 피드백이 비활성화된 현재 프레임 이후의 미리결정된 개수의 프레임들에 걸쳐 상기 피드백을 점진적으로 재활성화하는 단계(708, 709, 710)
    를 포함하고,
    상기 가중치 계수는 상기 미리결정된 개수의 프레임들에 걸친 증분(incrementation)에 의해 정의되는,
    코딩 노이즈의 쉐이핑을 제어하기 위한 방법.
  2. 제 1 항에 있어서,
    상기 피드백을 비활성화하는 단계는 노이즈 필터링 파라미터들에 적용될 가중치 계수를 0으로 셋팅함으로써 수행되는(604),
    코딩 노이즈의 쉐이핑을 제어하기 위한 방법.
  3. 제 1 항에 있어서,
    상기 피드백을 비활성화하는 단계는 상기 노이즈 필터링의 출력에서 0 값의 이득(gain)을 적용시킴으로써 수행되는,
    코딩 노이즈의 쉐이핑을 제어하기 위한 방법.
  4. 제 1 항에 있어서,
    상기 방법은 코어 코딩 동안 그리고 계층적 코딩의 개선 코딩 동안 구현되는,
    코딩 노이즈의 쉐이핑을 제어하기 위한 방법.
  5. 노이즈 필터링 모듈을 포함하고, 코딩 노이즈를 쉐이핑하기 위해 상기 노이즈 필터링 모듈에 의해 필터링되는 코딩 노이즈의 피드백을 포함하는 디지털 오디오 신호 ADPCM-타입 코더로서,
    노이즈 쉐이핑 제어 모듈(600, 800)을 포함하고,
    상기 노이즈 쉐이핑 제어 모듈(600, 800)은,
    입력 신호의 선형 예측 분석으로부터 나오는 제 2 반사 계수를 획득하기 위한 수단 ― 상기 제 2 반사 계수는 상기 신호의 스펙트럼 다이나믹 레인지 및 상기 피드백의 불안정성 위험을 표시함 ―;
    상기 제 2 반사 계수를 적어도 하나의 미리결정된 임계치와 비교함으로써 불안정성 위험을 검출하기 위한 수단;
    불안정성 위험을 검출하는 경우 상기 피드백을 비활성화하기 위한 수단;
    필터링 파라미터들에 가중치 계수를 적용시킴으로써 상기 피드백이 비활성화된 현재 프레임 이후의 미리결정된 개수의 프레임들에 걸쳐 상기 피드백을 점진적으로 재활성화하기 위한 수단
    을 포함하고,
    상기 가중치 계수는 상기 미리결정된 개수의 프레임들에 걸친 증분에 의해 정의되는,
    디지털 오디오 신호 ADPCM-타입 코더.
  6. 컴퓨터 프로그램을 저장하고 있는 컴퓨터-판독가능 저장 매체로서,
    상기 컴퓨터 프로그램은, 프로세서에 의해 실행될 때 제 1 항 내지 제 4 항 중 어느 한 항에 따른 제어 방법의 단계들을 구현하기 위한 코드 명령들을 포함하는,
    컴퓨터-판독가능 저장 매체.
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
KR1020137001804A 2010-06-24 2011-06-17 디지털 오디오 신호 인코더 내의 노이즈­쉐이핑 피드백 루프 제어 KR101776177B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1055037A FR2961980A1 (fr) 2010-06-24 2010-06-24 Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique
FR1055037 2010-06-24
PCT/FR2011/051392 WO2011161362A1 (fr) 2010-06-24 2011-06-17 Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique

Publications (2)

Publication Number Publication Date
KR20130095726A KR20130095726A (ko) 2013-08-28
KR101776177B1 true KR101776177B1 (ko) 2017-09-07

Family

ID=43663638

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137001804A KR101776177B1 (ko) 2010-06-24 2011-06-17 디지털 오디오 신호 인코더 내의 노이즈­쉐이핑 피드백 루프 제어

Country Status (7)

Country Link
US (1) US9489961B2 (ko)
EP (1) EP2586133B1 (ko)
JP (1) JP6076247B2 (ko)
KR (1) KR101776177B1 (ko)
CN (1) CN103081366B (ko)
FR (1) FR2961980A1 (ko)
WO (1) WO2011161362A1 (ko)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
JP5997592B2 (ja) * 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
CN105723455B (zh) 2013-11-13 2020-01-24 弗劳恩霍夫应用研究促进协会 用于编码音频信号的编码器、音频发送系统和用于确定校正值的方法
CN106463134B (zh) * 2014-03-28 2019-12-13 三星电子株式会社 用于对线性预测系数进行量化的方法和装置及用于反量化的方法和装置
EP3483880A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
CN110096647B (zh) * 2019-05-10 2023-04-07 腾讯科技(深圳)有限公司 优化量化模型的方法、装置、电子设备及计算机存储介质
US11935546B2 (en) * 2021-08-19 2024-03-19 Semiconductor Components Industries, Llc Transmission error robust ADPCM compressor with enhanced response

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008151410A1 (en) * 2007-06-14 2008-12-18 Voiceage Corporation Device and method for noise shaping in a multilayer embedded codec interoperable with the itu-t g.711 standard

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2481024B1 (fr) * 1980-04-21 1986-07-11 Leguyader Alain Circuit predicteur adaptatif utilisant un filtre en treillis et dispositif de codage ou de decodage mic differentiel correspondant
US4507791A (en) * 1982-05-05 1985-03-26 Dolby Laboratories Licensing Corporation Analog and digital signal apparatus
JP3136797B2 (ja) * 1992-08-31 2001-02-19 カシオ計算機株式会社 音データ処理方法および音データ処理装置
JP3235925B2 (ja) * 1993-11-19 2001-12-04 松下電器産業株式会社 ハウリング抑制装置
US5937377A (en) * 1997-02-19 1999-08-10 Sony Corporation Method and apparatus for utilizing noise reducer to implement voice gain control and equalization
JP3389460B2 (ja) * 1997-07-18 2003-03-24 日本プレシジョン・サーキッツ株式会社 デジタルデータの処理回路及びデジタルデータの処理方法
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008151410A1 (en) * 2007-06-14 2008-12-18 Voiceage Corporation Device and method for noise shaping in a multilayer embedded codec interoperable with the itu-t g.711 standard

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
G.722 : 7 kHz audio-coding within 64 kbit/s. ITU-T Recommendation G.722. 1988-11-25.*

Also Published As

Publication number Publication date
JP6076247B2 (ja) 2017-02-08
US20130204630A1 (en) 2013-08-08
US9489961B2 (en) 2016-11-08
CN103081366B (zh) 2015-07-01
CN103081366A (zh) 2013-05-01
JP2013536450A (ja) 2013-09-19
EP2586133A1 (fr) 2013-05-01
WO2011161362A1 (fr) 2011-12-29
EP2586133B1 (fr) 2016-03-23
FR2961980A1 (fr) 2011-12-30
KR20130095726A (ko) 2013-08-28

Similar Documents

Publication Publication Date Title
KR101776177B1 (ko) 디지털 오디오 신호 인코더 내의 노이즈­쉐이핑 피드백 루프 제어
KR101376762B1 (ko) 디코더 및 대응 디바이스에서 디지털 신호의 반향들의 안전한 구별과 감쇠를 위한 방법
JP6271531B2 (ja) デジタル音声信号における効果的なプレエコー減衰
RU2470385C2 (ru) Система и способ улучшения декодированного тонального звукового сигнала
US8180632B2 (en) Method for limiting adaptive excitation gain in an audio decoder
JP6452759B2 (ja) 先進量子化器
US8332210B2 (en) Regeneration of wideband speech
JP7008756B2 (ja) デジタルオーディオ信号におけるプレエコーを識別し、減衰させる方法及び装置
RU2622863C2 (ru) Эффективное ослабление опережающего эха в цифровом звуковом сигнале
JP2007504503A (ja) 低ビットレートオーディオ符号化
RU2644078C1 (ru) Способ, устройство и система кодирования/декодирования
KR102426050B1 (ko) 피치 지연 선택
JP5923517B2 (ja) 階層型符号器における改良ステージの改良符号化
CN111587456B (zh) 时域噪声整形
KR20170132854A (ko) 오디오 인코더 및 오디오 신호를 인코딩하는 방법
KR100930995B1 (ko) 오디오 신호의 톤 주파수 조절 방법 및 장치, 이를 이용한오디오 신호 부호화 방법 및 장치, 그리고 상기 방법을수행하는 프로그램이 기록된 기록 매체
KR100220783B1 (ko) 음성 양자화 및 에러 보정 방법
CN115428069A (zh) 低音后置滤波器的低成本适配
Lee et al. Tree coding combined with TDHS for speech coding at 6.4 and 4.8 kbps

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant