KR102222838B1 - 다른 샘플링 레이트들을 가진 프레임들간의 전환시 사운드 신호의 선형 예측 인코딩 및 디코딩을 위한 방법, 인코더 및 디코더 - Google Patents

다른 샘플링 레이트들을 가진 프레임들간의 전환시 사운드 신호의 선형 예측 인코딩 및 디코딩을 위한 방법, 인코더 및 디코더 Download PDF

Info

Publication number
KR102222838B1
KR102222838B1 KR1020167026105A KR20167026105A KR102222838B1 KR 102222838 B1 KR102222838 B1 KR 102222838B1 KR 1020167026105 A KR1020167026105 A KR 1020167026105A KR 20167026105 A KR20167026105 A KR 20167026105A KR 102222838 B1 KR102222838 B1 KR 102222838B1
Authority
KR
South Korea
Prior art keywords
sampling rate
power spectrum
internal sampling
synthesis filter
sound signal
Prior art date
Application number
KR1020167026105A
Other languages
English (en)
Other versions
KR20160144978A (ko
Inventor
레드완 살라미
바츨라프 에크슐러
Original Assignee
보이세지 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=54322542&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR102222838(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 보이세지 코포레이션 filed Critical 보이세지 코포레이션
Publication of KR20160144978A publication Critical patent/KR20160144978A/ko
Application granted granted Critical
Publication of KR102222838B1 publication Critical patent/KR102222838B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

서로 다른 샘플링 레이트들을 가진 프레임들간의 전환을 위한 방법, 인코더 및 디코더가 구성된다. 선형 예측(LP) 필터 파라메타들은 샘플링 레이트(S1)에서 샘플링 레이트(S2)로 변환된다. LP 합성 필터의 전력 스펙트럼은 LP 필터 파라메타를 이용하여 샘플링 레이트(S1)로 계산된다. LP 합성 필터의 전력 스펙트럼은 샘플링 레이트(S1)에서 샘플링 레이트(S2)로 변환되도록 수정된다. LP 합성 필터의 수정된 전력 스펙트럼은 샘플링 레이트(S2)로 LP 합성 필텅의 자기 상관을 결정하기 위해 역 변환된다. 자기 상관은 샘플링 레이트(S2)로 LP 필터 파라메타를 계산하는데 이용된다.

Description

다른 샘플링 레이트들을 가진 프레임들간의 전환시 사운드 신호의 선형 예측 인코딩 및 디코딩을 위한 방법, 인코더 및 디코더{METHODS, ENCODER AND DECODER FOR LINEAR PREDICTIVE ENCODING AND DECODING OF SOUND SIGNALS UPON TRANSITION BETWEEN FRAMES HAVING DIFFERENT SAMPLING RATES}
본 개시는 사운드 코딩(sound coding) 분야에 관한 것이다. 보다 구체적으로, 본 개시는 다른 샘플링 레이트(sampling rate)를 가진 프레임들간의 전환시에 사운드 신호들의 선형 예측 인코딩 및 디코딩을 위한 방법, 인코더 및 디코더에 관한 것이다.
오디오/비디오 화상 회의, 멀티미디어 및 무선 애플리케이션, 인터넷 및 패킷 네트워크 애플리케이션과 같은 수많은 애플리케이션의 경우, 양호한 주관적 품질/비트 레이트 트레이드-오프(trade-off)를 가진 효율적인 디지털 광대역 스피치/오디오 인코딩 기술에 대한 요구가 증가하고 있는 중이다. 최근까지, 스피치 코딩 애플리케이션에서는 200-3400Hz 범위의 전화 대역폭이 주로 이용되었다. 그러나, 스피치 신호의 양해도(intelligibility) 및 자연스러움(naturalness)를 증가시키기 위해 광대역 스피치 애플리케이션에 대한 요구가 증가하고 있다. 50-7000Hz 범위의 대역폭이 대면 스피치 품질(face-to-face speech quality)을 전달하기에 충분한 것임을 알게 되었다. 오디어 신호의 경우, 이 범위는 허용 가능한 오디오 품질을 제공하지만, 20-20000Hz 범위에서 동작하는 CD(Compact Disk) 품질보다는 여전히 낮다.
스피치 인코더(speech encoder)는, 스피치 신호를, 통신 채널을 통해 전송되는(또는 저장 매체에 저장되는) 디지털 비트 스트림으로 변환한다. 스피치 신호는 디지털화되고(통상적으로 샘플당 16비트로 샘플링되고 양자화됨), 스피치 인코더는 양호한 주관적 스피치 품질을 유지하면서 보다 소수의 비트들로 이들 디지털 샘플들을 나타내는 역할을 한다. 스피치 디코더(speech decoder) 또는 합성기(synthesizer)는 전송되거나 저장된 비트 스트림에 대해 동작하여 그것을 사운드 신호로 되 변환한다.
양호한 품질/비트 레이트 트레이드-오프를 달성할 수 있는 가장 유용한 기술들 중 하나는 소위 CELP(Code Excited Liner Prediction) 기술이다. 이 기술에 따르면, 샘플링된 스피치 신호가 프레임(frame)이라고 하는 L 샘플들의 연속하는 블럭들로 처리되는데, 여기에서 L은 (10-30ms의 스피치에 대응하는)어느 정도 사전 결정된 개수이다. CELP에 있어서, LP(Linear Prediction) 합성 필터가 계산되고 매 프레임마다 전송된다. L-샘플 프레임은 추가로 N 샘플들의 서브프레임(subframe)이라고 하는 보다 적은 블럭들로 분할되는데, 여기에서 L=kN이고, k는 소정 프레임내의 서브프레임의 개수이다(N은 통상적으로 4-10ms의 스피치에 대응함). 각 서브프레임에서 통상적으로 2개의 성분, 즉, (소위 피치 기여(pitch contribution) 또는 적응적 코드북이라고 하는) 과거 여기로부터의 한 성분과 (소위 고정 코드북이라고 하는) 이노베이티브 코드북(innovative codebook)으로부터의 다른 성분을 구비하는 여기 신호가 결정된다. 이 여기 신호는 전송되어 디코더에서 LP 합성 필터의 입력으로서 이용됨으로써 합성된 스피치가 획득된다.
CELP 기술에 따라 스피치를 합성하기 위해, 스피치 신호의 스펙트럼 특성(spectral characteristics)을 모델링하는 시 가변 필터(time-varying filter)를 통해 이노베이티브 코드북으로부터 적당한 코드벡터(codevector)를 필터링함에 의해, N 샘플들의 각 블럭이 합성된다. 이들 필터들은 피치 합성 필터(통상적으로 과거 여기 신호를 포함하는 적응적 코드북으로서 구현됨) 및 LP 합성 필터를 구비한다. 인코더 단부에서, 이노베이티브 코드북(코드북 탐색)으로부터의 코드벡터들의 모두 또는 서브셋에 대해 합성 출력이 계산된다. 보유된 이노베이티브 코드벡터는 지각 가중 왜곡 측정(perceptually weighted distortion measure)에 따라 원본 스피치 신호(original speech signal)에 가장 가까운 합성 출력을 생성한다. 이 지각 가중은, 통상적으로 LP 합성 필터로부터 도출되는, 소위 지각 가중 필터를 이용하여 실행된다.
CELP와 같은 LP 기반 코더에 있어서, LP 필터는 프레임당 1회씩 계산되고 양자화되고 전송된다. 그러나, LP 합성 필터의 부드러운 이볼루션(smooth evolution)을 보장하기 위해, 과거 프레임으로부터의 LP 파라메타들에 기초하여, 각 서브프레임에서 필터 파라메타들이 보간된다. LP 필터 파라메타는 필터 안정성 문제로 인해 양자화에 적당하지 않다. 통상적으로, 양자화 및 보간에 대해 보다 효율적인 또 다른 LP 표현이 이용된다. 통상적으로 이용된 LP 파라메타 표현은 라인 스펙트럼 주파수(line Spectral frequency: LSF) 도메인이다.
광대역 코딩에 있어서, 사운드 신호는 초당 16000 샘플들로 샘플링되고, 인코딩된 대역폭은 최대 7kHz까지 연장된다. 그러나, 낮은 비트 레이트의 광대역 코딩(16kbits/s 미만)에서는, 최대 7kHz의 신호를 생성하기 위해, 통상적으로 입력 신호를 약간 낮은 레이트로 다운 샘플링(down-sampling)하고, 낮은 대역폭에 CELP 모델을 적용하고, 그 다음 디코더에서 대역폭 연장(bandwidth extension)을 이용하는 것이 보다 효율적이다. 이것은, CELP가 높은 주파수보다 더 양호한 높은 에너지를 가진 보다 낮은 주파수를 모델링한다는 사실에 기인한다. 그래서, 낮은 비트 레이트의 보다 낮은 대역폭에 그 모델을 집중시키는 것이 보다 효율적이다. AMR-WB 표준(참조 [1])이 그러한 코딩 예시이며, 거기에서는 입력 신호가 초당 12800 샘플들로 다운 샘플링되며, CELP는 최대 6.4kHz로 신호를 인코딩한다. 디코더에서는, 6.4 내지 7kHz의 신호를 생성하기 위해 대역폭 연장이 이용된다. 그러나, 16kbit/s보다 높은 비트 레이트에서는, 최대 7kHz로 신호를 인코딩하기 위해 CELP를 이용하는 것이 보다 효율적인데, 그 이유는 전체 대역폭을 나타내기에 충분한 비트들이 있기 때문이다.
가장 최근의 코더들로는 서로 다른 애플리케이션 시나리오들에서 가요성이 가능하도록 넓은 대역의 비트 레이트를 커버(cover)하는 멀티-레이트(multi-rate) 코더들이 있다. 다시, AMR-WB가 그러한 예시로서, 거기에서는, 인코더가 6.6 내지 23.85kbit/s의 비트 레이트로 동작한다. 멀티-레이트 코더에 있어서, 코덱(codec)은 스위칭 아티팩트(switching artifact)의 도입 없이 프레임에 기반하여 다른 비트 레이트들간에 스위칭을 할 수 있어야 한다. AMR-WB에 있어서, 이것은 쉽게 달성되는데, 그것은 모든 레이트들이 12.8kHz 내부 샘플링 레이트로 CELP를 이용하기 때문이다. 그러나, 16bit/s 아래의 비트 레이트로 12.8kHz 샘플링을 이용하고 16kbit/s보다 높은 비트 레이트로 16kHz 샘플링을 이용하는 최근의 코더에서는, 서로 다른 샘플링 레이트를 이용하여 프레임들간의 비트 레이트를 스위칭하는 것과 관련된 문제가 처리될 필요가 있다. 주요한 문제는 LP 필터 전환시에 존재하며, 또한 합성 필터와 적응적 코드북의 메모리에 존재한다.
그러므로, 서로 다른 내부 샘플링 레이트를 가진 2개의 비트 레이트들간에 LP-기반 코덱을 스위칭하기 위한 효율적인 방법에 대한 필요성이 존재한다.
본 개시에 따르면, 선형 예측(LP) 필터 파라메타를 사운드 신호 샘플링 레이트(S1)에서 사운드 신호 샘플링 레이트(S2)로 변환하는 사운드 신호 인코더에 구현되는 방법이 제공된다. LP 필터 파라메타를 이용하여, 샘플링 레이트(S1)로 LP 합성 필터의 전력 스펙트럼이 계산된다. LP 합성 필터의 전력 스펙트럼은 수정되어, 샘플링 레이트(S1)에서 샘플링 레이트(S2)로 변환된다. LP 합성 필터의 수정된 전력 스펙트럼은 샘플링 레이트(S2)로 LP 합성 필터의 자기 상관을 결정하도록 역 변환된다. 자기 상관은 샘플링 레이트(S2)로 LP 필터 파라메타를 계산하는데 이용된다.
본 개시에 따르면, 수신된 선형 예측(LP) 필터 파라메타를 사운드 신호 샘플링 레이트(S1)에서 사운드 신호 샘플링 레이트(S2)로 변환하는 사운드 신호 디코더에 구현되는 방법이 제공된다. 수신된 LP 필터 파라메타를 이용하여, 샘플링 레이트(S1)로 LP 합성 필터의 전력 스펙트럼이 계산된다. LP 합성 필터의 전력 스펙트럼은 수정되어, 샘플링 레이트(S1)에서 샘플링 레이트(S2)로 변환된다. LP 합성 필터의 수정된 전력 스펙트럼은 샘플링 레이트(S2)로 LP 합성 필터의 자기 상관을 결정하도록 역 변환된다. 자기 상관은 샘플링 레이트(S2)로 LP 필터 파라메타를 계산하는데 이용된다.
본 개시에 따르면, 선형 예측(LP) 필터 파라메타를 사운드 신호 샘플링 레이트(S1)에서 사운드 신호 샘플링 레이트(S2)로 변환하는 사운드 신호 인코더에서 이용하기 위한 디바이스가 제공된다. 그 디바이스는,
● LP 필터 파라메타를 이용하여, 샘플링 레이트(S1)로 LP 합성 필터의 전력 스펙트럼을 계산하고,
● LP 합성 필터의 전력 스펙트럼이 샘플링 레이트(S1)에서 샘플링 레이트(S2)로 변환되도록 LP 합성 필터의 전력 스펙트럼을 수정하고,
● 샘플링 레이트(S2)로 LP 합성 필터의 자기 상관을 결정하도록 LP 합성 필터의 수정된 전력 스펙트럼을 역 변환하고,
● 자기 상관을 이용하여 샘플링 레이트(S2)로 LP 필터 파라메타를 계산하도록 구성된
프로세서를 포함한다.
본 개시는 수신된 선형 예측(LP) 필터 파라메타를 사운드 신호 샘플링 레이트(S1)에서 사운드 신호 샘플링 레이트(S2)로 변환하는 사운드 신호 디코더에 이용하기 위한 디바이와 관련된다. 그 디바이스는,
● 수신된 LP 필터 파라메타를 이용하여, 샘플링 레이트(S1)로 LP 합성 필터의 전력 스펙트럼을 계산하고,
● LP 합성 필터의 전력 스펙트럼이 샘플링 레이트(S1)에서 샘플링 레이트(S2)로 변환되도록 LP 합성 필터의 전력 스펙트럼을 수정하고,
● 샘플링 레이트(S2)로 LP 합성 필터의 자기 상관을 결정하도록 LP 합성 필터의 수정된 전력 스펙트럼을 역 변환하고,
● 자기 상관을 이용하여 샘플링 레이트(S2)로 LP 필터 파라메타를 계산하도록 구성된
프로세서를 포함한다.
본 개시의 상술한 목적 및 다른 목적과, 장점 및 특징은 첨부된 도면을 참조하여 단지 예시로서 주어진 예시적인 실시 예의 이하의 비-제한적 설명을 읽으면 더욱 분명하게 될 것이다.
첨부 도면에 있어서,
도 1은 사운드 인코딩 및 디코딩의 이용 예를 도시한 사운드 통신 시스템의 개략적인 블럭도,
도 2는 도 1의 사운드 통신 시스템의 일부인, CEL-기반 인코더 및 디코더의 구조를 도시한 개략적인 블럭도,
도 3은 LP 파라메타의 프레임화(framing) 및 보간의 예시를 도시한 도면,
도 4는 2개의 서로 다른 샘플링 레이트들간의 LP 필터 파라메타의 변환을 위한 실시 예를 도시한 블럭도,
도 5는 도 1 및 도 2의 인코더 및/또는 디코더를 형성하는 하드웨어 부품의 예시적인 구성의 단순화된 블럭도이다.
본 개시의 비-제한적인 예시적 실시 예는 LP 기반 코덱에서, 서로 다른 내부 샘플링 레이트를 이용하여 프레임들간의 효율적 스위칭을 수행하는 방법 및 디바이스와 관련된다. 그 스위칭 방법 및 디바이스는, 스피치 및 오디오 신호를 포함하는 임의 사운드 신호와 함께 이용될 수 있다. 16kHz와 12.8kHz 내부 샘플링 레이트들간의 스위칭이 예시로서 제공되지만, 그 스위칭 방법 및 디바이스는 또한 다른 샘플링 레이트에 적용될 수 있다.
도 1에는, 사운드 인코딩 및 디코딩의 이용의 예시를 도시한 사운드 통신 시스템의 개략적인 블럭도가 도시된다. 사운드 통신 시스템(100)은 통신 채널(101)을 통한 사운드 신호의 전송 및 재생을 지원한다. 통신 채널(101)은, 예를 들어, 유선, 광학 또는 섬유 링크를 포함할 수 있다. 대안적으로, 통신 채널(101)은 무선 주파수 링크를 적어도 부분적으로 포함할 수 있다. 무선 주파수 링크는 셀룰러 전화에서 발견될 수 있는 것과 같은 공유 대역폭 리소스(shared bandwidth resource)를 요구하는 다수의 동시 스피치 통신을 지원한다. 도시되지는 않았지만, 추후의 재생(playback)을 위한 인코딩된 사운드 신호를 기록하고 저장하는 통신 시스템(101)의 단일 디바이스 실시 예에 있어서의 저장 디바이스에 의해 통신 채널(101)이 대체될 수 있다.
도 1을 다시 참조하면, 예를 들어, 마이크로폰(102)은 원본 아날로그 사운드 신호(103)를 생성하고, 원본 아날로그 사운드 신호(103)는 아날로그-디지털(A/D) 변환기(104)로 공급되어 원본 디지털 사운드 신호(105)로 변환된다. 또한, 원본 디지털 사운드 신호(105)는 저장 디바이스(도시되지 않음)로부터 기록되고 공급될 수 있다. 사운드 인코더(106)는 원본 디지털 사운드 신호(105)를 인코딩하고, 그에 의해 인코딩 파라메타(107)들의 세트가 생성되어 이진 형태로 코딩되고 선택 채널 인코더(108)로 전달된다. 선택 채널 인코더(108)는, 존재할 경우, 코딩 파라메타의 이진 표현에 리던던시(redundancy)를 추가하는데, 이는 통신 채널(101)을 통해 그들을 전송하기 전에 이루어진다. 수신기 측상에서, 선택 채널 디코더(109)는 디지털 비트 스트림(111) 형태의 상술한 리던던시 정보를 이용하여, 통신 채널(101)을 통해 전송되는 동안에 발생할 수 있는 채널 에러를 검출 및 정정하고, 수신 인코딩 파라메타들(112)을 생성한다. 사운드 디코더(110)는 합성 디지털 사운드 신호(113)를 생성하기 위해 수신 인코딩 파라메타들(112)을 변환한다. 사운드 디코더(110)에서 재구성된 합성 디지털 사운드 신호(113)는 디지털-아날로그 (D/A) 변환기(115)에서 합성 아날로그 사운드 신호(114)로 변환되고, 확성기 유닛(116)에서 재생된다. 대안적으로, 합성 디지털 사운드 신호(113)는 저장 디바이스(도시되지 않음)에 공급되어 기록될 수 있다.
도 2에는 도 1의 사운드 통신 시스템의 일부인, CLEP-기반 인코더의 구조를 도시한 개략적인 블럭도가 도시된다. 도 2에 도시된 바와 같이, 사운드 코덱은 2개의 기본적인 부분, 즉, 도 1의 상술한 설명에서 도입된 사운드 인코더(106)와 사운드 디코더(110)를 포함한다. 인코더(106)는 원본 디지털 사운드 신호(105)를 공급받아, 원본 아날로그 사운드 신호(103)를 나타내는, 이하에서 설명할 인코딩 파라메타들(107)을 결정한다. 이들 파라메타들(107)은 디지털 비트 스트림(111)으로 인코딩되어, 예를 들어, 도 1의 통신 채널(101)과 같은 통신 채널을 이용하여 디코더(110)로 전송된다. 사운드 디코더(110)는 합성 디지털 사운드 신호(113)가 가능한 원본 디지털 사운드 신호(105)와 유사하게 되도록 합성 디지털 사운드 신호(113)를 재구성한다.
현재, 가장 널리 퍼진 스피치 코딩 기법은 LP(Linear Prediction), 특히, CELP에 기초한다. LP-기반 코딩에 있어서, 합성 디지털 사운드 신호(113)는 전달 함수 1/A(z)를 가진 LP 합성 필터(216)을 통해 여기(214)를 필터링함에 의해 생성된다. CELP에 있어서, 여기(214)는 전형적으로 2개의 부분, 즉, 적응적 코드북(218)로부터 선택되고 적응적 코드북 이득(gp)(226)에 의해 증폭된 적응적 코드북 기여(222)인, 제 1 스테이지와, 고정 코드북(220)에 의해 선택되고 고정 코드북 이득(gc)(228)에 의해 증폭된 고정 코드북 기여(224)인, 제 2 스테이지로 구성된다. 일반적으로, 적응적 코드북 기여(222)는 여기의 주기적인 부분을 모델링하고, 고정 코드북 기여(214)는 사운드 신호의 이볼루션(evolution)을 모델링하도록 추가된다.
사운드 신호는 전형적으로 20ms의 프레임들에 의해 처리되고, LP 필터 파라메타들은 프레임당 1회씩 전송된다. CELP에 있어서, 프레임은 여기를 인코딩하기 위해 여러개의 서브프레임으로 추가 분할된다. 서브프레임의 길이는 전형적으로 5ms이다.
CELP는 소위 합성에 의한 분석(Analysis-by-Synthesis)이라고 하는 원리를 이용하는데, 거기에서는 가능한 디코더 출력이 인코더(106)에서의 코딩 프로세스동안에 이미 시도되어(합성되고) 원본 디지털 사운드 신호(105)와 비교된다. 따라서, 인코더(106)는 디코더(110)와 유사한 요소들을 포함한다. 이 요소들은 적응적 코드북(242)로부터 선택된 적응적 코드북 기여(250)를 포함하고, 적응적 코드북(242)은 과거 여기 신호(v(n))를 공급하며, 과거 여기 신호(v(n))는 (LP 합성 필터(1/A(z))와 지각 가중 필터(W(z))의 캐스케이드(cascade)인) 가중된 합성 필터(H(z))(238 참조)의 임펄스 응답과 콘볼루션되고, 그 결과(y1(n))는 적응적 코드북 이득(gp)(240)에 의해 증폭된다. 또한, 고정 코드북(244)로부터 선택된 고정 코드북 기여(252)가 포함되며, 고정 코드북(244)은 이노베이티브 코드벡터(ck(n))를 공급하고, 이노베이티브 코드벡터(ck(n))는 가중된 합성 필터(H(z))(246 참조)의 임펄스 응답과 콘볼루션되고, 그 결과(y2(n))는 고정 코드북 이득(gc)(248)에 의해 증폭된다.
인코더(106)는 지각 가중 필터(W(z))(233)와, LP 합성 필터(1/A(z))와 지각 가중 필터(W(z))의 캐스케이드(H(z))의 제로-입력 응답(zero-input response)의 제공자(234)를 포함한다. 감산기들(236,254 및 256)은, 각각, 지각 가중 필터(233)에 의해 필터링된 원본 디지털 사운드 신호(105)로부터 제로-입력 응답, 적응적 코드북 기여(250) 및 고정 코드북 기여(252)를 감산하여, 원본 디지털 사운드 신호(105)와 합성 디지털 사운드 신호(113)간의 평균 제곱 에러(232)를 제공한다.
코드북 탐색은 지각 가중 도메인에 있어서 합성 디지털 사운드 신호(113)와 원본 디지털 사운드 신호(105)간의 평균 제곱 에러(232)를 최소화하는데, 여기에서, 이산 시간 인덱스(discrete time index) n=0,1,...,N-1이고, N은 서브프레임의 길이이다. 지각 가중 필터(W(z))는 주파수 마스킹 효과(frequency masking effect)를 이용하며, 전형적으로 LP 필터(A(z))로부터 도출된다.
WB(광대역, 50 - 7000Hz의 대역폭) 신호에 대한 지각 가중 필터(W(z))의 예시는 참조 [1]에서 발견될 수 있다.
LP 합성 필터(1/A(z))와 가중 필터(W(z))의 메모리는 탐색된 코드벡터와 무관하기 때문에, 이 메모리는 고정 코드북 탐색 전에 원본 디지털 사운드 신호(105)로부터 감산될 수 있다. 그 다음, 도 2에서 H(z)로 표현된 필터들(1/A(z) 및 W(z))의 캐스케이드의 임펄스 응답과의 콘볼루션에 의해 후보 코드벡터들의 필터링이 수행될 수 있다.
인코더(106)로부터 디코더(110)로 전송되는 디지털 비트 스트림(111)은 전형적으로 이하의 파라메타들(107), 즉, LP 필터(A(z))의 양자화 파라메타들, 적응적 코드북(242) 및 고정 코드북(244)의 인덱스들, 적응적 코드북(242) 및 고정 코드북(244)의 이득들(gp(240) 및 gc(248))을 포함한다.
다른 샘플링 레이트를 가진 프레임 경계(frame boundaries)에서 스위칭시의 LP 필터 파라메타들의 변환
LP-기반 코딩에 있어서, LP 필터(A(z))는 프레임당 1회씩 결정되고, 그 다음 각 서브프레임마다 보간된다. 도 3에는 LP 파라메타의 프레임화 및 보간의 예시가 도시된다. 본 예시에 있어서, 현재 프레임은 4개의 서브프레임들(SF1, SF2, SF3 및 SF4)로 분할되며, LP 분석 윈도우(window)의 중심이 마지막 서브프레임(SF4)에 위치한다. 따라서, 현재 서브프레임(F1)에 있어서의 LP 분석으로부터 결과하는 LP 파라메타들은 마지막 서브프레임에서처럼 이용된다. 즉, SF4 = F1이다. 첫번째 3개의 서브프레임(SF1, SF2 및 SF3)의 경우, 현재 프레임(F1) 및 이전 프레임(F0)에 있어서의 파라메타들을 보간함에 의해 LP 파라메타들이 획득된다. 즉,
SF1 = 0.75FO + 0.25F1;
SF2 = 0.5F0 + 0.5F1;
SF3 = 0.25F0 + 0.75F1;
SF4 = F1이다.
LP 분석 윈도우 형상, 길이 및 위치에 의거하여 다른 보간 예시들이 대안적으로 이용될 수 있다. 다른 실시 예에 있어서, 코더는 12.8kHz 및 16kHz 내부 샘플링 레이트간의 스위칭을 수행하며, 12kHz에서는 프레임당 4개의 서브프레임이 이용되고, 16kHz에서는 프레임당 5개의 서브프레임이 이용된다. 또한 현재 프레임의 중간(Fm)에서 LP 파라메타가 양자화된다. 이러한 다른 실시 예에 있어서, 12.8kHz 프레임에 대한 LP 파라메타 보간은 아래에 의해 제공된다.
SF1 = 0.5F0 + 0.5Fm;
SF2 = Fm;
SF3 = 0.5Fm + 0.5F1;
SF4 = F1.
16kHz 샘플링의 경우, 보간은 아래에 의해 제공된다.
SF1 = 0.55F0 + 0.45Fm;
SF2 = 0.15F0 + 0.85Fm;
SF3 = 0.75Fm + 0.25F1;
SF4 = 0.35Fm + 0.65F1;
SF5 = F1.
LP 분석은 수학식 (1)을 이용하여 LP 합성 필터의 파라메타를 계산하는것으로 결과한다.
Figure 112016091786428-pct00001
(1)
여기에서, ai(i = 1, ...,M)는 LP 필터 파라메타이고, M은 필터 차수이다.
LP 필터 파라메타는 양자화 및 보간을 위해 다른 도메인으로 변환된다. 통상적으로 이용되는 다른 LP 파라메타 표현은 반사 계수, 로그-영역 비율(log-area ratio), 이미턴스 스펙트럼 페어(immitance spectrum pairs)(AMR-WB에서 이용됨; 참조 [1]), 및 라인 스펙트럼 주파수(LSF)라고 하는 라인 스펙트럼 페어이다. 본 예시적인 실시 예에 있어서, 라인 스펙트럼 주파수 표현이 이용된다. LP 파라메타를 LSF 파라메타로 변환하고 그 역으로 변환하는데 이용될 수 있는 예시적인 방법은 참조 [2]에서 발견될 수 있다. 이전 문단에서의 보간 예시는 0과 Fs/2(Fs는 샘플링 주파수) 사이의 범위내의 주파수 도메인내에 있을 수 있거나, 0과 π 사이의 스케일링된 주파수 도메인(scaled frequency domain)내 또는 코사인 도메인(스케일링된 주파수의 코사인(cosine of scaled frequency))내에 있을 수 있는, LSF 파라메타에 적용된다.
상술한 바와 같이, 멀티-레이트 LP 기반 코딩을 개선하기 위해 다른 내부 샘플링 레이트가 다른 비트 레이트에서 이용될 수 있다. 이 예시적인 실시 예에 있어서, 멀티-레이트 CELP 광대역 코더가 이용되는데, 거기에서는 12.8kHz의 내부 샘플링 레이트가 보다 낮은 비트 레이트에서 이용되고, 16kHz의 내부 샘플링 레이트가 보다 높은 비트 레이트에서 이용된다. 12.8kHz 샘플링 레이트에서는, LSF가 0 내지 6.4kHz 대역폭을 커버하지만, 16kHz 샘플링 레이트에서는 그들이 0 내지 8kHz 범위를 커버한다. 내부 샘플링 레이트가 서로 다른 2개의 프레임들간에 비트 레이트를 스위칭할 때, 원활한 스위칭을 보장하기 위해 일부 이슈가 처리된다. 이들 이슈는 LP 파라메타들의 보간, 서로 다른 샘플링 레이트의 합성 필터와 적응적 코드북의 메모리들을 포함한다.
본 개시는 서로 다른 샘플링 레이트로 2개의 프레임들간의 LP 파라메타들을 효율적으로 보간하는 방법을 도입한다. 예를 들어, 12.8kHz와 16kHz 샘플링 레이트들 간의 스위칭이 고려된다. 개시된 기술은 이들 특정 샘플링 레이트들에 제한되지 않으며 다른 내부 샘플링 레이트에 적용될 수 있다.
인코더가 내부 샘플링 레이트(S1)를 가진 프레임(F1)에서 내부 샘플링 레이트(S2)를 가진 프레임(F2)로 스위칭하고 있는 중이라고 하자. 제 1 프레임에 있어서의 LP 파라메타는 LSF1S1이고, 제 2 프레임에 있어서의 LP 파라메타는 LSF2S2이다. 프레임(F2)의 각 서브프레임에 있어서의 LP 파라메타를 갱신하기 위하여, LP 파라메타들(LSF1 및 LSF2)이 보간된다. 보간을 실행하기 위해, 필터는 동일 샘플링 레이트로 설정되어야 한다. 이것은, 샘플링 레이트(S2)로 프레임(F1)의 LP 분석을 실행할 것을 요구한다. 프레임(F1)에 있어서 2개의 샘플링 레이트로 LP 필터를 2회 전송하는 것을 피하기 위해, 인코더 및 디코더에서 이용할 수 있는 과거 합성 신호에 대해 샘플링 레이트(S2)로의 LP 분석이 실행될 수 있다. 이 방식은 레이트(S1)에서 레이트(S2)까지 과거 합성 신호를 재-샘플링하고 완전한 LP 분석을 실행하는 것을 수반하는데, 이 동작은 디코더에서 반복되며, 이것은 통상적으로 계산에 있어서 부담이 된다.
본 명세서에서는 과거 합성을 재-샘플링하고 완전한 LP 분석을 실행할 필요없이, LP 합성 필터 파라메타(LSF1)를 샘플링 레이트(S1)에서 샘플링 레이트(S2)로 변환하는 대안적인 방법 및 디바이스가 개시된다. 그 방법은, 인코딩 및/또는 디코딩시에 이용되며, LP 합성 필터의 전력 스펙트럼을 레이트(S1)로 계산하고, 전력 스펙트럼이 레이트(S1)에서 레이트(S2) 변환되도록 전력 스펙트럼을 수정하고, 수정된 전력 스펙트럼을 시간 도메인으로 되변환하여, 레이트(S2)의 필터 자기 상관을 획득하고, 최종적으로 자기 상관을 이용하여 LP 필터 파라메타를 레이트(S2)로 계산하는 것을 포함한다.
적어도 일부 실시 예들에 있어서, 전력 스펙트럼을 레이트(S1)에서 레이트(S2)로 변환하기 위해 전력 스펙트럼을 수정하는 것은, 이하의 동작을 포함한다.
S1이 S2보다 크면, 전력 스펙트럼을 수정하는 것은 K-샘플 전력 스펙트럼을 K(S2/S1) 샘플들까지로 단축하는 것을 포함한다. 즉, K(S1-S2)/S1 샘플들을 제거한다.
다른 한편, S1이 S2보다 더 작으면, 전력 스펙트럼을 수정하는 것은, K-샘플 전력 스펙트럼을 K(S2/S1) 샘플들까지 연장하는 것을 포함한다. 즉, K(S2-S1)S1 샘플들을 추가한다.
LP 필터를 자기 상관으로부터의 레이트(S2)로 계산하는 것은, 레빈슨-더빈(Levinson-Durbin) 알고리즘(참조 [1])을 이용하여 실행될 수 있다. LP 필터가 레이트(S2)로 변환되면, LP 필터 파라메타는, 본 예시적인 실시 예에서는 LSF 도메인인 보간 도메인으로 변환된다.
상술한 절차는 2개의 서로 다른 샘플링 레이트들 간에 LP 필터 파라메타들을 변환하는 실시 예를 도시한 블럭도인 도 4에 요약된다.
동작의 시퀀스(300)는, LP 합성 필터(1/A(z))의 전력 스펙트럼의 계산에 대한 단순한 방법이 0 내지 2π의 K 주파수로 필터의 주파수 응답을 평가하는 것을 보여준다.
아래에 의해 합성 필터의 주파수 응답이 주어진다.
Figure 112016091786428-pct00002
합성 필터의 스펙트럼은, 아래에 의해 주어진 합성 필터의 주파수 응답의 에너지로서 계산된다.
Figure 112016091786428-pct00003
초기에, LP 필터는 S1과 동일한 레이트이다(동작 310). LP 합성 필터의 K-샘플(즉, 이산) 전력 스펙트럼은 0 내지 2π의 주파수 범위를 샘플링함에 의해 계산된다(동작 320). 즉,
Figure 112016091786428-pct00004
이다.
π 내지 2π의 전력 스펙트럼이 0 내지 π의 그것과 미러(mirror)이기 때문에, k = 0, ..., K/2에 대해서만 P(k)를 계산함에 의해 동작 복잡성을 줄일 수 있음을 알아야 한다.
테스트(동작 330)는 이하의 경우들 중 어느것이 적용되는지 판정한다. 제 1 경우에 있어서, 샘플링 레이트(S1)는 샘플링 레이트(S2)보다 더 크며, 프레임(F1)에 대한 전력 스펙트럼은, 샘플들의 새로운 개수가 K(S2/S1)이 되도록 단축된다(동작 340).
보다 상세하게, S1이 S2보다 크면, 단축된 전력 스펙트럼의 길이는 K2 = K(S2/S1) 샘플들이다. 전력 스펙트럼이 단축되면, 그것은 k = 0,...,K2/2로부터 계산된다. 전력 스펙트럼이 K2/2를 중심으로 대칭이기 때문에, k = 0,...,K2/2 - 1로부터,
Figure 112016091786428-pct00005
인 것이 상정된다.
신호의 자기 상관의 퓨리에 변환은 그 신호의 전력 스펙트럼을 제공한다. 단축된 전력 스펙트럼에 역 퓨리에 변환을 적용하면, 샘플링 레이트(S2)의 합성 필터의 임펄스 응답의 자기 상관으로 결과한다.
아래에 의해 단축된 전력 스펙트럼의 역 이산 퓨리에 변환(IDFT)이 주어진다.
Figure 112016091786428-pct00006
필터 차수가 M이기 때문에, IDFT는 단지 i = 0,...,M에 대해서만 계산된다. 전력 스펙트럼이 실수이고 대칭이기 때문에, 전력 스펙트럼의 IDFT도 또한 실수이고 대칭이다. 전력 스펙트럼의 대칭성이 주어지고, 단지 M+1 상관만이 필요한 것으로 주어지면, 전력 스펙트럼의 역 변환은 아래와 같이 주어질 수 있다.
Figure 112016091786428-pct00007
즉,
Figure 112016091786428-pct00008
Figure 112016091786428-pct00009
(i = 1,3,...,M-1에 대해)
Figure 112016091786428-pct00010
(i = 2,4,...,M에 대해)
샘플링 레이트(S2)로 자기 상관이 계산된 후, 샘플링 레이트(S2)로 LP 필터의 파라메타들을 계산하기 위하여, 레빈슨-더빈 알고리즘(참조 [1])이 이용될 수 있다. 그 다음, LP 필터 파라메타는 프레임(F2)의 LSF와의 보간을 위해 LSF 도메인으로 변환되어, 각 서브프레임에서 LP 파라메타들이 획득된다.
코더가 광대역 신호를 인코딩하고 내부 샘플링 레이트 S1 = 16kHz를 가진 프레임에서 내부 샘플링 레이트 S2 = 12.8kHz를 가진 프레임으로 스위칭하는 예시에 있어서, K = 100이라고 가정하면, 단축된 전력 스펙트럼의 길이는 K2 = 100(12800/16000) = 80 샘플들이다. 수학식 (4)를 이용하여 41 샘플들에 대해 전력 스펙트럼이 계산되고, 그 다음, K2 = 80인 수학식(7)을 이용하여 자기 상관이 계산된다.
제 2 경우에 있어서, S1이 S2보다 작다고 테스트(동작 330)가 판정하면, 연장된 전력 스펙트럼의 길이는 K2 = K(S2/S1) 샘플들(동작 350)이다. k = 0,...,K/2로부터 전력 스펙트럼을 계산한 후, 전력 스펙트럼은 K2로 연장된다. K/2와 K2/2들사이에 원본 스펙트럼 콘텐츠가 없기 때문에, 전력 스펙트럼을 연장하는 것은, 매우 낮은 샘플값들을 이용하여 다수의 샘플들을 K2/2까지 삽입함에 의해 실행될 수 있다. 단순한 방식은, K2/2까지 K/2에 있는 샘플들을 반복하는 것이다. 전력 스펙트럼은 K2/2을 중심으로 대칭이기 때문에, k = 0,...,K2/2 - 1로부터,
Figure 112016091786428-pct00011
인 것으로 가정한다.
어째든, 역 DFT는 샘플링 레이트(S2)로 자기 상관을 획득하기 위해 수학식 (6)에서 처럼 계산되고(동작 360), 샘플링 레이트(S2)로 LP 파라메타들을 계산하기 위해 레빈슨-더빈 알고리즘(참조 [1])이 이용된다(동작 370). 그 다음, 각 서브프레임에서 LP 파라메타들을 획득하기 위해, 필터 파라메타들은 프레임(F2)의 LSF들과의 보간을 위해 LSF 도메인으로 변환된다.
다시, 코더가 내부 샘플링 레이트 S1 = 12.8kHz를 가진 프레임에서 내부 샘플링 레이트 S2 = 16kHz를 가진 프레임으로 스위칭하는 예시를 참조하고, K= 80이라고 하자. 연장된 전력 스펙트럼의 길이는 K2 = 80(16000/12800) = 100 샘플들이다. 수학식 (4)를 이용하여 51 샘플들에 대해 전력 스펙트럼이 계산되며, 그 다음 K2 = 100인 수학식 (7)을 이용하여 자기 상관이 계산된다.
본 개시의 사상을 벗어나지 않고 전력 스펙트럼의 역 DFT 또는 LP 합성 필터의 전력 스펙트럼을 계산하기 위해 다른 방법이 이용될 수 있음을 알아야 한다.
본 예시에 있어서, 각 서브프레임에 있어서의 보간된 합성 필터 파라메타들을 결정하기 위해 서로 다른 내부 샘플링 레이트들간에 LP 필터 파라메타들을 변환하는 것이 양자화된 LP 파라메타들에 적용되고, 이것은 디코더에서 반복됨을 알아야 한다. 가중 필터는 양자화되지 않은 LP 필터 파라메타를 이용하지만, 각 서브프레임에서의 가중 필터의 파라메타들을 결정하기 위해 새로운 프레임(F2)에서의 양자화되지 않은 필터 파라메타와 과거 프레임(F1)으로부터의 샘플링-변환 양자화된 LP 파라메타들간에 보간하는 것이 충분함을 알게 되었다. 또한, 이에 따라 양자화되지 않은 LP 필터 파라메타들에 대한 LP 필터 샘플링 변환을 적용할 필요성이 제거된다.
다른 샘플링 레이트들을 가진 프레임 경계에서의 스위칭시의 다른 고려 사항
서로 다른 내부 샘플링 레이트를 가진 프레임들간의 스위칭시에 고려될 다른 이슈는 통상적으로 과거 여기 신호를 포함하는 적응적 코드북의 콘텐츠이다. 새로운 프레임이 내부 샘플링 레이트(S2)를 가지고 이전 프레임이 내부 샘플링 레이트(S1)를 가지면, 적응적 코드북의 콘텐츠는 레이트(S1)에서 레이트(S2)로 다시 샘플링되는데, 이것은 인코더 및 디코더 모두에서 실행된다.
본 개시에 있어서, 복잡성을 줄이기 위해, 새로운 프레임(F2)은 과거 여기 이력과 무관한 과도 인코딩 모드(transient encoding mode)를 이용해야 하며, 따라서 적응적 코드북의 그 이력을 이용하지 않는다. 과도 인코딩 모드의 예는 PCT 특허 출원 WO 2008/049221 A1의 "Method and device for coding transition frames in speech signals"에 개시되어 있으며, 그 개시는 본 명세서에서 참조로서 수록된다.
서로 다른 샘플링 레이트를 가진 프레임 경계들에서의 스위칭 시의 또 다른 고려 사항은 예측 양자화기의 메모리이다. 예를 들어, LP-파라메타 양자화기들은 통상적으로 예측 양자화를 이용함으로써, 파라메타들이 다른 샘플링 레이트일 때는 적절하게 작업하지 못할 수 있다. 스위칭 아티팩트를 줄이기 위해, LP-파라메타 양자화기는 서로 다른 샘플링 레이트들간의 스위칭시에 비-예측 코딩 모드로 되어야 한다.
추가적인 고려사항은, 다른 샘플링 레이트를 가진 프레임들간의 스위칭시에 재 샘플링될 수 있는, 합성 필터의 메모리이다.
최종적으로, 서로 다른 내부 샘플링 레이트들을 가진 프레임들간의 스위칭시에 LP 필터 파라메타들을 변환함으로부터 발생하는 추가적인 복잡성은 인코딩 또는 디코딩 프로세싱의 일부분들을 수정함에 의해 보상될 수 있다. 예를 들어, 인코더 복잡성을 증가시키지 않기 위해, 프레임의 제 1 서브 프레임에 있어서 반복 횟수를 낮춤에 의해 고정 코드북 탐색이 수정될 수 있다(고정 코드북 탐색의 예에 대한 참조 [1]).
추가적으로, 디코더 복잡성을 증가시키지 않기 위해, 특정 후 처리가 스킵될 수 있다. 예를 들어, 본 예시적인 실시 예에 있어서, US 특허 7,529,660호의 "Method and device for frequency-selective pitch enhancement of synthesized speech"에 설명된 후 처리 기술이 이용될 수 있으며, 그의 개시는 본 명세서에서 참조로서 인용된다. 이러한 후-필터링은 다른 내부 샘플링 레이트로 스위칭한 후 제 1 프레임에서 스킵된다(이러한 후-필터링의 스킵은 후-필터에서 이용된 과거 합성의 필요성을 극복한다).
또한, 샘플링 레이트에 의존하는 다른 파라메타들이 그에 따라 스케일링될 수 있다. 예를 들어, 프레임 소거 은닉과 디코더 분류기에 이용된 과거 피치 지연은 계수 S2/S1에 의해 스케일링 될 수 있다.
도 5에는 도 1 및 2의 인코더 및/또는 디코더를 형성하는 하드웨어 부품들의 예시적인 구성의 간략화된 블럭도가 도시된다. 디바이스(400)는 이동 터미널의 일부, 휴대형 미디어 플레이어의 일부, 기지국, 인터넷 장비로서 구현되거나 임의의 유사한 디바이스에 구현될 수 있으며, 인코더(106), 디코더(110) 또는 인코더(106)와 디코더(110)의 둘 다를 포함할 수 있다. 디바이스(400)는 프로세서(406)와 메모리(408)를 포함한다. 프로세서(406)는 도 4의 동작을 실행하기 위한 코드 명령을 실행시키는 하나 이상의 개별적인 프로세서들을 포함할 수 있다. 프로세서(406)는 도 1 및 도 2의 인코더(106) 및 디코더(110)의 여러 소자들을 포함할 수 있다. 프로세서(406)는 이동 터미널, 휴대형 미디어 플레이어, 기지국, 인터넷 장비들의 작업을 수행할 수 있다. 메모리(408)는 프로세서(406)에 동작 가능하게 접속된다. 비 일시적 메모리일 수 있는 메모리(408)는 프로세서(406)에 의해 실행할 수 있는 코드 명령을 저장한다.
오디오 입력(402)은 인코더(106)로서 이용될 경우 디바이스(400)에 존재한다. 오디오 입력(402)은, 예를 들어, 마이크로폰 또는 마이크로폰에 접속 가능한 인터페이스를 포함할 수 있다. 오디오 입력(402)은 마이크로폰(102) 및 A/D 변환기(104)를 포함할 수 있으며, 원본 아날로그 사운드 신호(103) 및/또는 원본 디지털 사운드 신호(105)를 생성할 수 있다. 대안적으로, 오디오 입력(402)은 원본 디지털 사운드 신호(105)를 수신할 수 있다. 유사하게, 디바이스(400)가 인코더(106)로서 이용될 때 인코딩된 출력(404)이 나타나며, 저장을 위해 추가 메모리(도시되지 않음)로, 또는 예를 들어 통신 채널(101)과 같은 통신 링크롤 통해 원격 디코더에, LP 필터 파라메타들을 포함하는 파라메타들(107)를 함유한 디지털 비트 스트림(111) 또는 인코딩 파라메타(107)을 전송하도록 구성된다. 인코딩된 출력(404)의 비-제한적 구현 예시는 이동 터미널의 무선 인터페이스, 휴대용 미디어 플레이어의 범용 시리얼 버스(USB) 포트와 같은 물리적 인터페이스등을 포함한다.
인코딩된 입력(403) 및 오디오 출력(405)은 둘 모두 디코더(110)로서 이용될 때 디바이스(400)에 존재한다. 인코딩된 입력(403)은 인코더(106)의 인코딩된 출력(404)로부터 LP 필터 파라메타를 포함하는 파라메타(107)를 함유하는 디지털 비트 스트림(111) 또는 인코딩 파라메타(107)를 수신하도록 구성될 수 있다. 디바이스(400)가 인코더(106)와 디코더(110) 모두를 포함하면, 인코딩된 출력(404)과 인코딩된 입력(403)은 공통 통신 모듈을 형성한다. 오디오 출력(405)은 D/A 변환기(115)와 확성기 유닛(116)을 포함할 수 있다. 대안적으로, 오디오 출력(405)은 오디오 플레이어, 확성기, 기록 디바이스 등에 접속 가능한 인터페이스를 포함할 수 있다.
오디오 입력(402) 또는 인코딩된 입력(403)은 저장 디바이스(도시되지 않음)로부터 신호를 수신할 수 있다. 동일한 방식으로, 인코딩된 출력(404)과 오디오 출력(405)은 기록을 위한 저장 디바이스(도시되지 않음)에 출력 신호를 공급할 수 있다.
오디오 입력(402), 인코딩된 입력(403), 인코딩된 출력(404) 및 오디오 출력(405)는 모두 프로세서(406)에 동작 가능하게 접속된다.
당업자라면, 사운드 신호들의 선형 예측 인코딩 및 디코딩을 위한 방법, 인코더 및 디코더의 설명이 단지 예시적인 것이며 임의 방식으로 제한하고자 하는 것은 아님을 알 것이다. 본 개시의 혜택을 본 당업자에게는 다른 실시 예들이 쉽게 제안될 수 있을 것이다. 또한, 개시된 방법, 인코더 및 디코더는 다른 샘플링 레이트를 가진 2개의 비트 레이트들 간에 선형 예측 기반 코덱들을 스위칭하는 과제 및 기존의 필요성에 대한 가치있는 해법을 제공하도록 맞춤화될 수 있다.
명확성을 위해, 그 방법, 인코더 및 디코더의 구현의 루틴한 특징들 모두가 도시되고 설명된 것은 아니다. 물론, 그 방법, 인코더 및 디코더의 그러한 실질적인 구현의 개발에 있어서, 애플리케이션 관련 제약, 시스템 관련 제약, 네트워크 관련 제약 및 비지니스 관련 제약의 준수와 같은 개발자의 특정 목표를 달성하기 위해 많은 구현 지정적 결정이 이루어질 필요가 있으며, 이들 특정 목표는 또 다른 개발자 또는 개발자마다 하나의 구현으로부터 가변될 것임을 알 것이다. 또한, 개발 노력은 복잡하면서 시간 소모적이지만 그럼에도 불구하고 본 개시의 혜택을 본 사운드 코딩 분야의 당업자에게는 일상적인 작업임을 알 것이다.
본 개시에 따르면, 본 명세서에서 설명된 부품, 프로세스 동작 및/또는 데이터 구조는 여러 유형의 운영 시스템, 컴퓨팅 플랫폼, 네트워크 디바이스, 컴퓨터 프로그램 및/또는 범용 머신을 이용하여 구현될 수 있다. 추가적으로, 당업자라면, 하드와이어형 디바이스, 필드 프로그램가능 게이트 어레이(FPGA), 애플리케이션 지정 집적 회로(ASIC)등과 같은 보다 덜 범용적인 본질의 디바이스가 이용될 수 있음을 알 것이다. 일련의 동작들을 포함하는 방법이 컴퓨터 또는 머신에 의해 구현되고 이들 동작들이 머신에 의해 독출 가능한 일련의 명령어로서 저장될 경우, 그들은 유형의 매체상에 저장될 수 있다.
본 명세서에서 설명된 시스템 및 모듈은 소프트웨어, 펌웨어, 하드웨어 또는 본 명세서에서 설명한 목적에 적합한 소프트웨어, 펌웨어 또는 하드웨어의 임의 조합을 포함할 수 있다.
본 개시가 비 제한적이고 예시적인 실시 예에 의해 상기에서 설명되었지만, 이들 실시 예들은 본 개시의 사상 및 본질을 벗어남이 없이 첨부된 청구항들의 범주내에 수정될 수 있을 것이다.
참조
이하의 참조는 본 명세서에서 참조로서 수록된다.
[1] 3GPP Technical Specification 26.190, "Adaptive Multi-Rate-Wideband(AMR-WB) speech codec; Transcoding functions," July 2005; http://www.3gpp.org.
[2] ITU-T Recommendation G.729 "Coding of speech at 8kbit/s using conjugate-structure algebraic-code-excited linear prediction (CS-ACELP)", 01/2007.

Claims (36)

  1. 인코더의 제 1 내부 샘플링 레이트(S1)에서 인코더의 제 2 내부 샘플링 레이트(S2)로 선형 예측(LP) 필터 파라메타를 변환하는 사운드 신호 인코더에 구현되는 방법으로서,
    LP 필터 파라메타를 이용하여 LP 합성 필터의 전력 스펙트럼을 내부 샘플링 레이트(S1)로 계산하고;
    LP 합성 필터의 전력 스펙트럼이 내부 샘플링 레이트(S1)에서 내부 샘플링 레이트(S2)로 변환되도록 LP 합성 필터의 전력 스펙트럼을 수정하고;
    내부 샘플링 레이트(S2)로 LP 합성 필터의 자기 상관을 결정하기 위해 LP 합성 필터의 수정된 전력 스펙트럼을 역 변환하고;
    자기 상관을 이용하여 내부 샘플링 레이트(S2)로 LP 필터 파라메타를 계산하는 것을 포함하는
    방법.
  2. 제 1 항에 있어서,
    LP 합성 필터의 전력 스펙트럼이 내부 샘플링 레이트(S1)에서 내부 샘플링 레이트(S2)로 변환되도록 LP 합성 필터의 전력 스펙트럼을 수정하는 것은,
    S1이 S2보다 작으면, S1과 S2간의 비율에 기초하여 LP 합성 필터의 전력 스펙트럼을 연장하고,
    S1이 S2보다 크면, S1과 S2간의 비율에 기초하여 LP 합성 필터의 전력 스펙트럼을 단축하는 것을 포함하는
    방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    LP 필터 파라메타의 변환은, 인코더가 내부 샘플링 레이트(S1)를 이용하는 사운드 신호 프로세싱 프레임에서 내부 샘플링 레이트(S2)를 이용하는 사운드 신호 프로세싱 프레임으로 스위칭할 때, 실행되는
    방법.
  4. 제 3 항에 있어서,
    내부 샘플링 레이트(S1)에서 내부 샘플링 레이트(S2)로 변환된 이전 사운드 신호 프로세싱 프레임의 LP 파라메타들과 내부 샘플링 레이트(S2)의 현재 프레임의 LP 필터 파라메타를 보간함에 의해 현재 사운드 신호 프로세싱 프레임의 각 서브프레임에 있어서의 LP 파라메타들을 계산하는 것을 포함하는
    방법.
  5. 제 4 항에 있어서,
    이전 사운드 신호 프로세싱 프레임과 현재 사운드 신호 프로세싱 프레임이 서로 다른 내부 샘플링 레이트들을 이용할 경우, 현재 사운드 신호 프로세싱 프레임이 과거 여기와 무관한 인코딩 모드로 되게 하는 것을 포함하는
    방법.
  6. 제 4 항에 있어서,
    이전 사운드 신호 프로세싱 프레임과 현재 사운드 신호 프로세싱 프레임이 서로 다른 내부 샘플링 레이트들을 이용할 경우, LP 파라메타 양자화기가 현재 사운드 신호 프로세싱 프레임에 있어서의 비-예측 코딩 모드로 되게 하는 것을 포함하는
    방법.
  7. 제 1 항 또는 제 2 항에 있어서,
    LP 합성 필터의 전력 스펙트럼은 이산 전력 스펙트럼인
    방법.
  8. 제 1 항 또는 제 2 항에 있어서,
    K 샘플들에서 LP 합성 필터의 전력 스펙트럼을 계산하고,
    내부 샘플링 레이트(S1)가 내부 샘플링 레이트(S2)보다 작으면, LP 합성 필터의 전력 스펙트럼을 K(S2/S1) 샘플들로 연장하고,
    내부 샘플링 레이트(S1)가 내부 샘플링 레이트(S2)보다 더 크면, LP 합성 필터의 전력 스펙트럼을 K(S2/S1) 샘플들로 단축하는 것을 포함하는
    방법.
  9. 제 1 항 또는 제 2 항에 있어서,
    LP 합성 필터의 전력 스펙트럼을 LP 합성 필터의 주파수 응답의 에너지로서 계산하는 것을 포함하는
    방법.
  10. 제 1 항 또는 제 2 항에 있어서,
    역 이산 퓨리에 변환을 이용하여 LP 합성 필터의 수정된 전력 스펙트럼을 역 변환하는 것을 포함하는
    방법.
  11. 제 1 항 또는 제 2 항에 있어서,
    이전 사운드 신호 프로세싱 프레임과 현재 사운드 신호 프로세싱 프레임이 서로 다른 내부 샘플링 레이트들을 이용할 경우, 현재 사운드 신호 프로세싱 프레임에 있어서 고정 코드북을 탐색하기 위한 반복들의 횟수를 감소시키는 것을 포함하는
    방법.
  12. 디코더의 제 1 내부 샘플링 레이트(S1)에서 디코더의 제 2 내부 샘플링 레이트(S2)로 수신된 선형 예측(LP) 필터 파라메타를 변환하는 사운드 신호 디코더에 구현되는 방법으로서,
    수신된 LP 필터 파라메타를 이용하여 LP 합성 필터의 전력 스펙트럼을 내부 샘플링 레이트(S1)로 계산하고;
    LP 합성 필터의 전력 스펙트럼이 내부 샘플링 레이트(S1)에서 내부 샘플링 레이트(S2)로 변환되도록 LP 합성 필터의 전력 스펙트럼을 수정하고;
    내부 샘플링 레이트(S2)로 LP 합성 필터의 자기 상관을 결정하기 위해 LP 합성 필터의 수정된 전력 스펙트럼을 역 변환하고;
    자기 상관을 이용하여 내부 샘플링 레이트(S2)로 LP 필터 파라메타를 계산하는 것을 포함하는
    방법.
  13. 제 12 항에 있어서,
    LP 합성 필터의 전력 스펙트럼이 내부 샘플링 레이트(S1)에서 내부 샘플링 레이트(S2)로 변환되도록 LP 합성 필터의 전력 스펙트럼을 수정하는 것은,
    S1이 S2보다 작으면, S1과 S2간의 비율에 기초하여 LP 합성 필터의 전력 스펙트럼을 연장하고,
    S1이 S2보다 크면, S1과 S2간의 비율에 기초하여 LP 합성 필터의 전력 스펙트럼을 단축하는 것을 포함하는
    방법.
  14. 제 12 항 또는 제 13 항에 있어서,
    수신된 LP 필터 파라메타의 변환은, 디코더가 내부 샘플링 레이트(S1)를 이용하는 사운드 신호 프로세싱 프레임에서 내부 샘플링 레이트(S2)를 이용하는 사운드 신호 프로세싱 프레임으로 스위칭할 때, 실행되는
    방법.
  15. 제 14 항에 있어서,
    내부 샘플링 레이트(S1)에서 내부 샘플링 레이트(S2)로 변환된 이전 사운드 신호 프로세싱 프레임의 LP 필터 파라메타들과 내부 샘플링 레이트(S2)의 현재 사운드 신호 프로세싱 프레임의 LP 필터 파라메타를 보간함에 의해 현재 사운드 신호 프로세싱 프레임의 각 서브프레임에 있어서의 LP 파라메타들을 계산하는 것을 포함하는
    방법.
  16. 제 12 항 또는 제 13 항에 있어서,
    LP 합성 필터의 전력 스펙트럼은 이산 전력 스펙트럼인
    방법.
  17. 제 12 항 또는 제 13 항에 있어서,
    K 샘플들에서 LP 합성 필터의 전력 스펙트럼을 계산하고,
    내부 샘플링 레이트(S1)가 내부 샘플링 레이트(S2)보다 작으면, LP 합성 필터의 전력 스펙트럼을 K(S2/S1) 샘플들로 연장하고,
    내부 샘플링 레이트(S1)가 내부 샘플링 레이트(S2)보다 더 크면, LP 합성 필터의 전력 스펙트럼을 K(S2/S1) 샘플들로 단축하는 것을 포함하는
    방법.
  18. 제 12 항 또는 제 13 항에 있어서,
    LP 합성 필터의 전력 스펙트럼을 LP 합성 필터의 주파수 응답의 에너지로서 계산하는 것을 포함하는
    방법.
  19. 제 12 항 또는 제 13 항에 있어서,
    역 이산 퓨리에 변환을 이용하여 LP 합성 필터의 수정된 전력 스펙트럼을 역 변환하는 것을 포함하는
    방법.
  20. 제 12 항 또는 제 13 항에 있어서,
    디코딩 복잡성을 줄이기 위해 후 필터링(post filtering)이 스킵(skip)되는
    방법.
  21. 인코더의 제 1 내부 샘플링 레이트(S1)에서 인코더의 제 2 내부 샘플링 레이트(S2)로 선형 예측(LP) 필터 파라메타를 변환하는 사운드 신호 인코더로서,
    프로세서를 포함하고,
    상기 프로세서는,
    LP 필터 파라메타를 이용하여 LP 합성 필터의 전력 스펙트럼을 내부 샘플링 레이트(S1)로 계산하고;
    LP 합성 필터의 전력 스펙트럼이 내부 샘플링 레이트(S1)에서 내부 샘플링 레이트(S2)로 변환되도록 LP 합성 필터의 전력 스펙트럼을 수정하고;
    내부 샘플링 레이트(S2)로 LP 합성 필터의 자기 상관을 결정하기 위해 LP 합성 필터의 수정된 전력 스펙트럼을 역 변환하고;
    자기 상관을 이용하여 내부 샘플링 레이트(S2)로 LP 필터 파라메타를 계산하는 것을 포함하도록 구성되는
    사운드 신호 인코더.
  22. 제 21 항에 있어서,
    상기 프로세서는,
    S1이 S2보다 작으면, S1과 S2간의 비율에 기초하여 LP 합성 필터의 전력 스펙트럼을 연장하고,
    S1이 S2보다 크면, S1과 S2간의 비율에 기초하여 LP 합성 필터의 전력 스펙트럼을 단축하도록 구성되는
    사운드 신호 인코더.
  23. 제 21 항 또는 제 22 항에 있어서,
    프로세서는,
    내부 샘플링 레이트(S1)에서 내부 샘플링 레이트(S2)로 변환된 이전 사운드 신호 프로세싱 프레임의 LP 필터 파라메타들과 내부 샘플링 레이트(S2)의 현재 사운드 신호 프로세싱 프레임의 LP 필터 파라메타를 보간함에 의해 현재 사운드 신호 프로세싱 프레임의 각 서브프레임에 있어서의 LP 파라메타들을 계산하도록 구성되는
    사운드 신호 인코더.
  24. 제 21 항 또는 제 22 항에 있어서,
    프로세서는,
    K 샘플들에서 LP 합성 필터의 전력 스펙트럼을 계산하고,
    내부 샘플링 레이트(S1)가 내부 샘플링 레이트(S2)보다 작으면, LP 합성 필터의 전력 스펙트럼을 K(S2/S1) 샘플들로 연장하고,
    내부 샘플링 레이트(S1)가 내부 샘플링 레이트(S2)보다 더 크면, LP 합성 필터의 전력 스펙트럼을 K(S2/S1) 샘플들로 단축하도록 구성되는
    사운드 신호 인코더.
  25. 제 21 항 또는 제 22 항에 있어서,
    프로세서는,
    LP 합성 필터의 전력 스펙트럼을 LP 합성 필터의 주파수 응답의 에너지로서 계산하도록 구성되는
    사운드 신호 인코더.
  26. 제 21 항 또는 제 22 항에 있어서,
    프로세서는,
    역 이산 퓨리에 변환을 이용하여 LP 합성 필터의 수정된 전력 스펙트럼을 역 변환하도록 구성되는
    사운드 신호 인코더.
  27. 제 21 항 또는 제 22 항에 있어서,
    프로세서가 실행 할 수 있는 코드 명령어들을 저장하는 비-일시적 메모리를 더 포함하는
    사운드 신호 인코더.
  28. 디코더의 제 1 내부 샘플링 레이트(S1)에서 디코더의 제 2 내부 샘플링 레이트(S2)로 수신된 선형 예측(LP) 필터 파라메타를 변환하는 사운드 신호 디코더로서,
    프로세서를 포함하고,
    상기 프로세서는,
    수신된 LP 필터 파라메타를 이용하여 LP 합성 필터의 전력 스펙트럼을 내부 샘플링 레이트(S1)로 계산하고;
    LP 합성 필터의 전력 스펙트럼이 내부 샘플링 레이트(S1)에서 내부 샘플링 레이트(S2)로 변환되도록 LP 합성 필터의 전력 스펙트럼을 수정하고;
    내부 샘플링 레이트(S2)로 LP 합성 필터의 자기 상관을 결정하기 위해 LP 합성 필터의 수정된 전력 스펙트럼을 역 변환하고;
    자기 상관을 이용하여 내부 샘플링 레이트(S2)로 LP 필터 파라메타를 계산하도록 구성되는
    사운드 신호 디코더.
  29. 제 28 항에 있어서,
    프로세서는,
    S1이 S2보다 작으면, S1과 S2간의 비율에 기초하여 LP 합성 필터의 전력 스펙트럼을 연장하고,
    S1이 S2보다 크면, S1과 S2간의 비율에 기초하여 LP 합성 필터의 전력 스펙트럼을 단축하도록 구성되는
    사운드 신호 디코더.
  30. 제 28 항 또는 제 29 항에 있어서,
    프로세서는,
    내부 샘플링 레이트(S1)에서 내부 샘플링 레이트(S2)로 변환된 이전 사운드 신호 프로세싱 프레임의 LP 필터 파라메타들과 내부 샘플링 레이트(S2)의 현재 사운드 신호 프로세싱 프레임의 LP 필터 파라메타를 보간함에 의해 현재 사운드 신호 프로세싱 프레임의 각 서브프레임에 있어서의 LP 파라메타들을 계산하도록 구성되는
    사운드 신호 디코더.
  31. 제 28 항 또는 제 29 항에 있어서,
    프로세서는,
    K 샘플들에서 LP 합성 필터의 전력 스펙트럼을 계산하고,
    내부 샘플링 레이트(S1)가 내부 샘플링 레이트(S2)보다 작으면, LP 합성 필터의 전력 스펙트럼을 K(S2/S1) 샘플들로 연장하고,
    내부 샘플링 레이트(S1)가 내부 샘플링 레이트(S2)보다 더 크면, LP 합성 필터의 전력 스펙트럼을 K(S2/S1) 샘플들로 단축하도록 구성되는
    사운드 신호 디코더.
  32. 제 28 항 또는 제 29 항에 있어서,
    프로세서는,
    LP 합성 필터의 전력 스펙트럼을 LP 합성 필터의 주파수 응답의 에너지로서 계산하도록 구성되는
    사운드 신호 디코더.
  33. 제 28 항 또는 제 29 항에 있어서,
    프로세서는,
    역 이산 퓨리에 변환을 이용하여 LP 합성 필터의 수정된 전력 스펙트럼을 역 변환하도록 구성되는
    사운드 신호 디코더.
  34. 제 28 항 또는 제 29 항에 있어서,
    프로세서가 실행할 수 있는 코드 명령어들을 저장하는 비-일시적 메모리를 더 포함하는
    사운드 신호 디코더.
  35. 삭제
  36. 삭제
KR1020167026105A 2014-04-17 2014-07-25 다른 샘플링 레이트들을 가진 프레임들간의 전환시 사운드 신호의 선형 예측 인코딩 및 디코딩을 위한 방법, 인코더 및 디코더 KR102222838B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201461980865P 2014-04-17 2014-04-17
US61/980,865 2014-04-17
PCT/CA2014/050706 WO2015157843A1 (en) 2014-04-17 2014-07-25 Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates

Publications (2)

Publication Number Publication Date
KR20160144978A KR20160144978A (ko) 2016-12-19
KR102222838B1 true KR102222838B1 (ko) 2021-03-04

Family

ID=54322542

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167026105A KR102222838B1 (ko) 2014-04-17 2014-07-25 다른 샘플링 레이트들을 가진 프레임들간의 전환시 사운드 신호의 선형 예측 인코딩 및 디코딩을 위한 방법, 인코더 및 디코더

Country Status (20)

Country Link
US (6) US9852741B2 (ko)
EP (4) EP4336500A3 (ko)
JP (2) JP6486962B2 (ko)
KR (1) KR102222838B1 (ko)
CN (2) CN106165013B (ko)
AU (1) AU2014391078B2 (ko)
BR (2) BR112016022466B1 (ko)
CA (2) CA3134652A1 (ko)
DK (2) DK3511935T3 (ko)
ES (2) ES2717131T3 (ko)
FI (1) FI3751566T3 (ko)
HR (1) HRP20201709T1 (ko)
HU (1) HUE052605T2 (ko)
LT (1) LT3511935T (ko)
MX (1) MX362490B (ko)
MY (1) MY178026A (ko)
RU (1) RU2677453C2 (ko)
SI (1) SI3511935T1 (ko)
WO (1) WO2015157843A1 (ko)
ZA (1) ZA201606016B (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112016022466B1 (pt) * 2014-04-17 2020-12-08 Voiceage Evs Llc método para codificar um sinal sonoro, método para decodificar um sinal sonoro, dispositivo para codificar um sinal sonoro e dispositivo para decodificar um sinal sonoro
EP3471095B1 (en) * 2014-04-25 2024-05-01 Ntt Docomo, Inc. Linear prediction coefficient conversion device and linear prediction coefficient conversion method
EP3859734B1 (en) 2014-05-01 2022-01-26 Nippon Telegraph And Telephone Corporation Sound signal decoding device, sound signal decoding method, program and recording medium
EP2988300A1 (en) * 2014-08-18 2016-02-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Switching of sampling rates at audio processing devices
CN107358956B (zh) * 2017-07-03 2020-12-29 中科深波科技(杭州)有限公司 一种语音控制方法及其控制模组
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483878A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
CN114420100B (zh) * 2022-03-30 2022-06-21 中国科学院自动化研究所 语音检测方法及装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004289196A (ja) 2002-03-08 2004-10-14 Nippon Telegr & Teleph Corp <Ntt> ディジタル信号符号化方法、復号化方法、符号化装置、復号化装置及びディジタル信号符号化プログラム、復号化プログラム
US20080077401A1 (en) 2002-01-08 2008-03-27 Dilithium Networks Pty Ltd. Transcoding method and system between CELP-based speech codes with externally provided status
JP2009508146A (ja) 2005-05-31 2009-02-26 マイクロソフト コーポレーション オーディオコーデックポストフィルタ

Family Cites Families (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4058676A (en) * 1975-07-07 1977-11-15 International Communication Sciences Speech analysis and synthesis system
JPS5936279B2 (ja) * 1982-11-22 1984-09-03 博也 藤崎 音声分析処理方式
US4980916A (en) 1989-10-26 1990-12-25 General Electric Company Method for improving speech quality in code excited linear predictive speech coding
US5241692A (en) * 1991-02-19 1993-08-31 Motorola, Inc. Interference reduction system for a speech recognition device
EP0649557B1 (en) * 1993-05-05 1999-08-25 Koninklijke Philips Electronics N.V. Transmission system comprising at least a coder
US5673364A (en) * 1993-12-01 1997-09-30 The Dsp Group Ltd. System and method for compression and decompression of audio signals
US5684920A (en) * 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
US5574747A (en) * 1995-01-04 1996-11-12 Interdigital Technology Corporation Spread spectrum adaptive power control system and method
US5864797A (en) 1995-05-30 1999-01-26 Sanyo Electric Co., Ltd. Pitch-synchronous speech coding by applying multiple analysis to select and align a plurality of types of code vectors
JP4132109B2 (ja) * 1995-10-26 2008-08-13 ソニー株式会社 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置
US5867814A (en) * 1995-11-17 1999-02-02 National Semiconductor Corporation Speech coder that utilizes correlation maximization to achieve fast excitation coding, and associated coding method
JP2778567B2 (ja) 1995-12-23 1998-07-23 日本電気株式会社 信号符号化装置及び方法
KR100455970B1 (ko) 1996-02-15 2004-12-31 코닌클리케 필립스 일렉트로닉스 엔.브이. 복잡성이감소된신호전송시스템,전송기및전송방법,인코더및코딩방법
DE19616103A1 (de) * 1996-04-23 1997-10-30 Philips Patentverwaltung Verfahren zum Ableiten charakteristischer Werte aus einem Sprachsignal
US6134518A (en) 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
WO1999010719A1 (en) 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
DE19747132C2 (de) * 1997-10-24 2002-11-28 Fraunhofer Ges Forschung Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
US6311154B1 (en) 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding
JP2000206998A (ja) 1999-01-13 2000-07-28 Sony Corp 受信装置及び方法、通信装置及び方法
AU3411000A (en) 1999-03-24 2000-10-09 Glenayre Electronics, Inc Computation and quantization of voiced excitation pulse shapes in linear predictive coding of speech
US6691082B1 (en) * 1999-08-03 2004-02-10 Lucent Technologies Inc Method and system for sub-band hybrid coding
SE9903223L (sv) * 1999-09-09 2001-05-08 Ericsson Telefon Ab L M Förfarande och anordning i telekommunikationssystem
US6636829B1 (en) 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
CA2290037A1 (en) * 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
US6732070B1 (en) * 2000-02-16 2004-05-04 Nokia Mobile Phones, Ltd. Wideband speech codec using a higher sampling rate in analysis and synthesis filtering than in excitation searching
FI119576B (fi) * 2000-03-07 2008-12-31 Nokia Corp Puheenkäsittelylaite ja menetelmä puheen käsittelemiseksi, sekä digitaalinen radiopuhelin
US6757654B1 (en) 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
SE0004838D0 (sv) * 2000-12-22 2000-12-22 Ericsson Telefon Ab L M Method and communication apparatus in a communication system
US7155387B2 (en) * 2001-01-08 2006-12-26 Art - Advanced Recognition Technologies Ltd. Noise spectrum subtraction method and system
JP2002251029A (ja) * 2001-02-23 2002-09-06 Ricoh Co Ltd 感光体及びそれを用いた画像形成装置
US6941263B2 (en) 2001-06-29 2005-09-06 Microsoft Corporation Frequency domain postfiltering for quality enhancement of coded speech
US6895375B2 (en) * 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
JP2005515486A (ja) * 2002-01-08 2005-05-26 ディリチウム ネットワークス ピーティーワイ リミテッド Celpによる音声符号間のトランスコーディング・スキーム
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
CA2388358A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for multi-rate lattice vector quantization
CA2388352A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
US7346013B2 (en) * 2002-07-18 2008-03-18 Coherent Logix, Incorporated Frequency domain equalization of communication signals
US6650258B1 (en) * 2002-08-06 2003-11-18 Analog Devices, Inc. Sample rate converter with rational numerator or denominator
US7337110B2 (en) 2002-08-26 2008-02-26 Motorola, Inc. Structured VSELP codebook for low complexity search
FR2849727B1 (fr) 2003-01-08 2005-03-18 France Telecom Procede de codage et de decodage audio a debit variable
WO2004090870A1 (ja) * 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
JP2004320088A (ja) * 2003-04-10 2004-11-11 Doshisha スペクトル拡散変調信号発生方法
JP4679049B2 (ja) * 2003-09-30 2011-04-27 パナソニック株式会社 スケーラブル復号化装置
CN1677492A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
GB0408856D0 (en) 2004-04-21 2004-05-26 Nokia Corp Signal encoding
BRPI0514940A (pt) 2004-09-06 2008-07-01 Matsushita Electric Ind Co Ltd dispositivo de codificação escalável e método de codificação escalável
US20060235685A1 (en) * 2005-04-15 2006-10-19 Nokia Corporation Framework for voice conversion
US20060291431A1 (en) * 2005-05-31 2006-12-28 Nokia Corporation Novel pilot sequences and structures with low peak-to-average power ratio
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
CN101199005B (zh) * 2005-06-17 2011-11-09 松下电器产业株式会社 后置滤波器、解码装置以及后置滤波处理方法
KR20070119910A (ko) 2006-06-16 2007-12-21 삼성전자주식회사 액정표시장치
US8589151B2 (en) * 2006-06-21 2013-11-19 Harris Corporation Vocoder and associated method that transcodes between mixed excitation linear prediction (MELP) vocoders with different speech frame rates
RU2462769C2 (ru) * 2006-10-24 2012-09-27 Войсэйдж Корпорейшн Способ и устройство кодирования кадров перехода в речевых сигналах
US20080120098A1 (en) * 2006-11-21 2008-05-22 Nokia Corporation Complexity Adjustment for a Signal Encoder
US8566106B2 (en) 2007-09-11 2013-10-22 Voiceage Corporation Method and device for fast algebraic codebook search in speech and audio coding
US8527265B2 (en) 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
EP2269188B1 (en) 2008-03-14 2014-06-11 Dolby Laboratories Licensing Corporation Multimode coding of speech-like and non-speech-like signals
CN101320566B (zh) * 2008-06-30 2010-10-20 中国人民解放军第四军医大学 基于多带谱减法的非空气传导语音增强方法
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
KR101261677B1 (ko) * 2008-07-14 2013-05-06 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
US8463603B2 (en) * 2008-09-06 2013-06-11 Huawei Technologies Co., Ltd. Spectral envelope coding of energy attack signal
CN101853240B (zh) * 2009-03-31 2012-07-04 华为技术有限公司 一种信号周期的估计方法和装置
MX2012011943A (es) 2010-04-14 2013-01-24 Voiceage Corp Libro de códigos de innovacion combinado, flexible y escalable para uso en codificador y decodificador celp.
JP5607424B2 (ja) * 2010-05-24 2014-10-15 古野電気株式会社 パルス圧縮装置、レーダ装置、パルス圧縮方法、およびパルス圧縮プログラム
CN103270553B (zh) * 2010-08-12 2015-08-12 弗兰霍菲尔运输应用研究公司 对正交镜像滤波器式音频编译码器的输出信号的重新取样
US8924200B2 (en) * 2010-10-15 2014-12-30 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
KR101747917B1 (ko) * 2010-10-18 2017-06-15 삼성전자주식회사 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법
EP2671323B1 (en) 2011-02-01 2016-10-05 Huawei Technologies Co., Ltd. Method and apparatus for providing signal processing coefficients
BR112013020587B1 (pt) * 2011-02-14 2021-03-09 Fraunhofer-Gesellschaft Zur Forderung De Angewandten Forschung E.V. esquema de codificação com base em previsão linear utilizando modelagem de ruído de domínio espectral
JP5969513B2 (ja) 2011-02-14 2016-08-17 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 不活性相の間のノイズ合成を用いるオーディオコーデック
PL2777041T3 (pl) * 2011-11-10 2016-09-30 Sposób i urządzenie do wykrywania częstotliwości próbkowania audio
US9043201B2 (en) * 2012-01-03 2015-05-26 Google Technology Holdings LLC Method and apparatus for processing audio frames to transition between different codecs
CA2887009C (en) * 2012-10-05 2019-12-17 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. An apparatus for encoding a speech signal employing acelp in the autocorrelation domain
JP6345385B2 (ja) 2012-11-01 2018-06-20 株式会社三共 スロットマシン
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
CN103235288A (zh) * 2013-04-17 2013-08-07 中国科学院空间科学与应用研究中心 基于频域的超低旁瓣混沌雷达信号生成及数字实现方法
BR112016022466B1 (pt) * 2014-04-17 2020-12-08 Voiceage Evs Llc método para codificar um sinal sonoro, método para decodificar um sinal sonoro, dispositivo para codificar um sinal sonoro e dispositivo para decodificar um sinal sonoro
EP3471095B1 (en) * 2014-04-25 2024-05-01 Ntt Docomo, Inc. Linear prediction coefficient conversion device and linear prediction coefficient conversion method
EP2988300A1 (en) * 2014-08-18 2016-02-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Switching of sampling rates at audio processing devices

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080077401A1 (en) 2002-01-08 2008-03-27 Dilithium Networks Pty Ltd. Transcoding method and system between CELP-based speech codes with externally provided status
JP2004289196A (ja) 2002-03-08 2004-10-14 Nippon Telegr & Teleph Corp <Ntt> ディジタル信号符号化方法、復号化方法、符号化装置、復号化装置及びディジタル信号符号化プログラム、復号化プログラム
JP2009508146A (ja) 2005-05-31 2009-02-26 マイクロソフト コーポレーション オーディオコーデックポストフィルタ

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Low-complexity, full-band audio coding for high-quality, conversational applications. Recommendation ITU-T G.719. 2008.06.

Also Published As

Publication number Publication date
AU2014391078A1 (en) 2016-11-03
KR20160144978A (ko) 2016-12-19
US20180075856A1 (en) 2018-03-15
RU2016144150A3 (ko) 2018-05-18
CN106165013B (zh) 2021-05-04
CA3134652A1 (en) 2015-10-22
BR112016022466B1 (pt) 2020-12-08
RU2677453C2 (ru) 2019-01-16
WO2015157843A1 (en) 2015-10-22
BR122020015614B1 (pt) 2022-06-07
SI3511935T1 (sl) 2021-04-30
FI3751566T3 (fi) 2024-04-23
AU2014391078B2 (en) 2020-03-26
MX2016012950A (es) 2016-12-07
JP2019091077A (ja) 2019-06-13
EP3132443A1 (en) 2017-02-22
US9852741B2 (en) 2017-12-26
US20180137871A1 (en) 2018-05-17
HRP20201709T1 (hr) 2021-01-22
US11282530B2 (en) 2022-03-22
MY178026A (en) 2020-09-29
EP3751566B1 (en) 2024-02-28
EP3132443B1 (en) 2018-12-26
US20230326472A1 (en) 2023-10-12
RU2016144150A (ru) 2018-05-18
JP6692948B2 (ja) 2020-05-13
ES2717131T3 (es) 2019-06-19
US20210375296A1 (en) 2021-12-02
CN113223540A (zh) 2021-08-06
JP2017514174A (ja) 2017-06-01
US11721349B2 (en) 2023-08-08
EP3511935B1 (en) 2020-10-07
EP3751566A1 (en) 2020-12-16
US10468045B2 (en) 2019-11-05
CA2940657A1 (en) 2015-10-22
EP4336500A3 (en) 2024-04-03
HUE052605T2 (hu) 2021-05-28
ZA201606016B (en) 2018-04-25
US10431233B2 (en) 2019-10-01
EP3132443A4 (en) 2017-11-08
MX362490B (es) 2019-01-18
DK3751566T3 (da) 2024-04-02
BR112016022466A2 (pt) 2017-08-15
LT3511935T (lt) 2021-01-11
ES2827278T3 (es) 2021-05-20
CA2940657C (en) 2021-12-21
DK3511935T3 (da) 2020-11-02
CN106165013A (zh) 2016-11-23
US20200035253A1 (en) 2020-01-30
US20150302861A1 (en) 2015-10-22
EP3511935A1 (en) 2019-07-17
EP4336500A2 (en) 2024-03-13
JP6486962B2 (ja) 2019-03-20
CN113223540B (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
JP6692948B2 (ja) 異なるサンプリングレートを有するフレーム間の移行による音声信号の線形予測符号化および復号のための方法、符号器および復号器
KR101698905B1 (ko) 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법
KR20040095205A (ko) Celp를 기반으로 하는 음성 코드간 변환코딩 방식
RU2667973C2 (ru) Способы и системы переключения технологий кодирования в устройстве
KR100480341B1 (ko) 광대역 저전송률 음성 신호의 부호화기

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant