KR20130090413A - Celp 기반 음성 코더에서의 오디오 신호 대역폭 확장 - Google Patents

Celp 기반 음성 코더에서의 오디오 신호 대역폭 확장 Download PDF

Info

Publication number
KR20130090413A
KR20130090413A KR1020137009388A KR20137009388A KR20130090413A KR 20130090413 A KR20130090413 A KR 20130090413A KR 1020137009388 A KR1020137009388 A KR 1020137009388A KR 20137009388 A KR20137009388 A KR 20137009388A KR 20130090413 A KR20130090413 A KR 20130090413A
Authority
KR
South Korea
Prior art keywords
signal
celp
audio
excitation signal
decoder
Prior art date
Application number
KR1020137009388A
Other languages
English (en)
Other versions
KR101452666B1 (ko
Inventor
조나단 에이 깁스
제임스 피. 애슐리
우다르 미탈
Original Assignee
모토로라 모빌리티 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모토로라 모빌리티 엘엘씨 filed Critical 모토로라 모빌리티 엘엘씨
Publication of KR20130090413A publication Critical patent/KR20130090413A/ko
Application granted granted Critical
Publication of KR101452666B1 publication Critical patent/KR101452666B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

CELP 기반 디코더 엘리먼트를 포함하는 오디오 디코더에서 CELP 여기 신호의 대역폭을 초과하는 대역폭을 갖는 오디오 신호를 디코딩하는 방법. 방법은 CELP 여기 신호의 오디오 대역폭을 초과하는 오디오 대역폭을 갖는 제2 여기 신호를 얻는 단계, 대역 통과 필터의 세트로 제2 여기 신호를 필터링함으로써 신호의 세트를 얻는 단계, 에너지 기반 파라미터의 세트를 이용하여 신호의 세트를 스케일링하는 단계, 및 스케일링된 신호의 세트를 CELP 기반 디코더 엘리먼트에 의해 디코딩된 오디오 신호에 기초한 신호와 결합함으로써 복합 출력 신호를 얻는 단계를 포함한다.

Description

CELP 기반 음성 코더에서의 오디오 신호 대역폭 확장{AUDIO SIGNAL BANDWIDTH EXTENSION IN CELP-BASED SPEECH CODER}
관련 출원의 상호 참조
본 출원은 2011년 9월 28일에 제출된 공동 계류 중이고 공통 양도된 미국 출원 13/247140 (모토롤라 대리인 도켓 넘버 CS37811AUD)에 관한 것이며, 그 전체 내용은 참조에 의해 여기에 포함된다.
본 개시물은 일반적으로 오디오 신호 처리에 관한 것으로, 특히, CELP(code excited linear prediction) 기반 음성 코더에서의 오디오 신호 대역폭 확장 및 해당 방법에 관한 것이다.
ITU-T G.718 및 G.729.1 순응 음성 코더 등의 일부 매립형 음성 코더는 입출력 오디오 대역폭보다 낮은 대역폭에서 동작하는 코어 CELP 음성 코덱을 갖는다. 예를 들어, G.718 순응 코더는 12.8kHz의 샘플 레이트에서 동작하는 AMR-WB(adaptive multi-rate wideband) 아키텍쳐에 기초한 코어 CELP 코덱을 이용한다. 이것은 6.4kHz의 공칭 CELP 코딩 대역폭을 초래한다. 그러므로, 광대역 신호에 대한 6.4kHz 내지 7kHz의 대역폭 및 초광대역 신호에 대한 6.4kHz 내지 14kHz의 대역폭의 코딩은 개별적으로 처리되어야 한다.
CELP 코어 차단(cut-off) 주파수를 넘어 확장되는 대역의 코딩을 처리하기 위한 하나의 방법은 본래의 신호의 스펙트럼과 CELP 코어의 스펙트럼 간의 차를 계산하고 이 차 신호를 일반적으로 MDCT(Modified Discrete Cosine Transform)을 채용하여 스펙트럼 도메인에서 코딩하는 것이다. 본 방법은, ITU-T 권고 G.729.1, 보정 6 및 ITU-T 권고 G.718 메인 바디 및 보정 2에 더 충분히 기재된 바와 같이, CELP 인코딩 신호가 차 신호를 도출하기 위하여 인코더에서 디코딩되고, 윈도우되고 분석되어야 한다는 것이다. 그러나, 이것은 CELP 인코딩 지연이 MDCT 분석 지연과 순차적이기 때문에 종종 긴 알고리즘 지연을 유발한다. 예에서, 알고리즘 지연은 CELP 부분에 대한 대략 26 내지 30ms와 스펙트럼 MDCT 부분에 대한 대략 10 내지 20ms의 합이다. 도 1a는 종래의 인코더를 나타내고 도 1b는 종래의 디코더를 나타내며, 이들은 MDCT 코어 및 CELP 코어와 연관된 대응 지연을 갖는다. 따라서, 일반적으로 알고리즘 지연을 감소시키기 위하여 코어 CELP 코덱의 대역폭을 넘어 확장되는 오디오 신호 대역을 코딩하는 다른 방법이 필요하다.
모토롤라에 양도된 미국 특허 5,127,054는 기지의 음성 대역을 비선형적으로 처리하고 처리된 신호를 대역 통과 필터링하여 원하는 신호를 도출함으로써 부대역(subband) 코딩된 음성 신호의 손실 대역을 재생성하는 것을 기재한다. 모토롤라 특허는 음성 신호를 처리하고 따라서 순차적인 필터링 및 처리를 필요로 한다. 모토롤라 특허는 또한 모든 부대역에 대한 공통 코딩 방법을 채용한다.
스펙트럼 도메인에서 코딩 영역으로부터 컴포넌트를 트랜스포즈(transpose)하고 변환(translate)함으로써 손실 대역의 미세 구조를 코딩하고 재생하는 것은 일반적으로 알려져 있으며 때때로 SBR(Spectral Band Replication)이라 한다. 음성 코덱이 입출력 오디오 대역폭 이외의 대역폭에서 동작하는 SBR 처리를 채용하기 위하여, ITU-T 권고 G.729.1, 보정 6 및 ITU-T 권고 G.718 메인 바디 및 보정 2에 따라 디코딩된 음성의 분석이 필요할 것이고, 비교적 긴 알고리즘 지연을 초래한다.
본 발명의 다양한 형태, 특징 및 이점은 첨부된 도면을 참조하여 다음의 상세한 설명에 의해 당업자에게 명백해질 것이다. 도면은 명료화를 위하여 간략화되었으며 반드시 일정한 비율로 그려진 것이 아니다.
도 1a는 종래의 광대역 오디오 신호 인코더의 개략 블록도.
도 1b는 종래의 광대역 오디오 신호 디코더의 개략 블록도.
도 2는 오디오 신호를 디코딩하는 처리도.
도 3은 오디오 신호 디코더의 개략 블록도.
도 4는 디코더 내의 대역 통과 필터 뱅크의 개략 블록도.
도 5는 인코더 내의 대역 통과 필터 뱅크의 개략 블록도.
도 6은 상보 필터 뱅크의 개략 블록도.
도 7은 대안적인 상보 필터 뱅크의 개략 블록도.
도 8a는 제1 스펙트럼 정형 프로세스의 개략 블록도.
도 8b는 도 8a의 프로세스와 동등한 제2 스펙트럼 정형 프로세스의 개략 블록도.
본 개시물의 일 양태에 따르면, CELP(code excited linear prediction) 여기 신호의 오디오 대역폭을 넘어 확장되는 오디오 대역폭을 갖는 오디오 신호가 CELP 기반 디코더 엘리먼트를 포함하는 오디오 디코더에서 디코딩된다. 이러한 디코더는 협대역 또는 광대역 음성 신호의 광대역 또는 초광대역 대역폭 확장이 있는 애플리케이션에서 사용될 수 있다. 더 일반적으로, 이러한 디코더는 처리될 신호의 대역폭이 근본적인 디코더 엘리먼트의 대역폭보다 큰 임의의 애플리케이션에 이용될 수 있다.
프로세스는 도 2의 다이어그램(200)에 일반적으로 도시된다. 210에서, CELP 여기 신호의 오디오 대역폭을 초과하는 오디오 대역폭을 갖는 제2 여기 신호가 얻어지거나 생성된다. 여기서, CELP 여기 신호는 제1 여기 신호로 간주되고, "제1" 및 "제2" 수식어는 상이한 여기 신호 사이를 식별하는 라벨이다.
더 특정한 구현예에서, 제2 여기 신호는 후술하는 바와 같이 CELP 여기 신호, 즉, 제1 여기 신호에 기초한 업샘플링된 CELP 여기 신호로부터 얻어진다. 도 3의 개략 블록도(300)에서, 업샘플링된 고정 코드북 신호(c'(n))는 업샘플링 엔티티(304)로 고정 코드북 컴포넌트, 예를 들어, 고정 코드북 벡터를 고정 코드북(302)으로부터 더 높은 샘플 레이트로 업샘플링함으로써 얻어진다. 업샘플링 인자는 샘플링 승수 또는 인자(L)로 표시된다. 위에서 참조된 업샘플링된 CELP 여기 신호는 도 3에서 업샘플링된 고정 코드북 신호(c'(n))에 대응한다.
일반적으로, 업샘플링된 여기 신호는 업샘플링된 고정 코드북 신호 및 업샘플링된 피치 주기 값에 기초한다. 일 구현예에서, 업샘플링된 피치 주기 값은 업샘플링된 적응 코드북 출력의 특성이다. 이 구현예에 따르면, 도 3에서, 업샘플링된 여기 신호(u'(n))는 업샘플링된 레이트에서 동작하는 제2 적응 코드북(305)으로부터의 출력(v'(n)) 및 업샘플링된 고정 코드북 신호(c'(n))에 기초하여 얻어진다. 도 3에서, "업샘플링된 적응 코드북"(305)은 제2 적응 코드북에 대응한다. 적응 코드북 출력 신호(v'(n))는 적응 코드북의 메모리를 구성하는 업샘플링된 여기 신호(u'(n))의 이전 값들 및 업샘플링된 피치 주기(Tu)에 기초하여 얻어진다. 따라서, 업샘플링된 피치 주기(Tu) 및 업샘플링된 여기 신호(u'(n))는 업샘플링된 적응 코드북(305)에 입력된다. CELP 기반 디코더 엘리먼트로부터 직접 취한 2개의 이득 파라미터(gc 및 gp)가 스케일링에 이용된다. 파라미터(gc)는 고정 코드북 신호(c'(n))를 스케일링하고 이는 고정 코드북 이득으로서 알려져 있다. 파라미터(gp)는 적응 코드북 신호(v'(n))를 스케일링하고 이는 피치 이득이라 한다.
일 실시예에서, 업샘플링된 피치 주기(Tu)는 도 3에 도시된 바와 같이 샘플링 승수(L) 및 CELP 기반 디코더 엘리먼트의 피치 주기(T)의 곱에 기초한다. CELP 기반 코더는 일반적으로 1/4, 1/3 또는 1/2 샘플 해상도를 갖는 피치 주기 값의 소수 표시를 사용하는 것이 일반적이다. 샘플링 승수(L) 및 해상도가 수치적으로 관련되지 않는 경우, 예를 들어, 1/4 샘플 해상도 및 L=5인 경우, 업샘플링된 적응 코드북에 대한 개별 피치 값은 L에 의한 승산 후 비정수 값을 가질 것이다. CELP 기반 디코더 엘리먼트의 적응 코드북 및 업샘플링된 적응 코드북이 서로 동기된 것을 유지하도록 하기 위하여 업샘플링된 적응 코드북은 또한 소수 샘플 해상도로 구현될 수 있다. 그러나, 이것은 정수 샘플 해상도의 사용에 비해 적응 코드북의 구현에 추가의 복잡도를 필요로 한다. 업샘플링된 적응 코드북 내의 정수 샘플 해상도를 이용하기 위하여, 이전의 업샘플링된 피치 주기 값으로부터 근사화 에러를 누적하고 다음의 업샘플링된 피치 주기 값을 설정할 때 그것을 정정함으로써 정렬 에러가 최소화될 수 있다.
도 3에서, 업샘플링된 여기 신호(u'(n))는 gc에 의해 스케일링된 업샘플링된 고정 코드북 신호(c'(n))를 gp에 의해 스케일링된 업샘플링된 적응 코드북 신호(v'(n))와 결합함으로써 얻어진다. 이 업샘플링된 여기 신호(u'(n))는 또한 상술한 바와 같이 미래의 서브프레임에 사용되기 위하여 업샘플링된 적응 코드북(305)에 피드백된다.
대안적인 구현예에서, 업샘플링된 피치 주기 값은 업샘플링된 장기(long-term) 예측기 필터의 특성이다. 이 대안적인 구현예에 따르면, 업샘플링된 여기 신호(u'(n))는 업샘플링된 고정 코드북 신호(c'(n))를 업샘플링된 장기 예측기 필터에 통과시킴으로써 얻어진다. 업샘플링된 고정 코드북 신호(c'(n))는 업샘플링된 장기 예측기 필터에 적용되기 전에 스케일링되거나 스케일링이 업샘플링된 장기 예측기 필터의 출력에 적용될 수 있다. 업샘플링된 장기 예측기 필터(Lu(z))는 업샘플링된 피치 주기(Tu) 및 gp와 다를 수 있는 이득 파라미터(G)에 의해 특징화되고, 형태에 있어서 다음의 수학식과 유사한 z 도메인 전달 함수를 갖는다.
Figure pct00001
일반적으로, 제2 여기 신호의 오디오 대역폭은, 비선형 오퍼레이션을 제2 여기 신호 또는 제2 여기 신호의 프리커서(precursor)에 적용함으로써 CELP 기반 디코더 엘리먼트의 오디오 대역폭을 넘어 확장된다. 도 3에서, 업샘플링된 여기 신호(u'(n))의 오디오 대역폭은, 비선형 연산자(306)를 업샘플링된 여기 신호(u'(n))에 적용함으로써 CELP 기반 디코더 엘리먼트의 오디오 대역폭을 넘어 확장된다. 대안으로, 업샘플링된 고정 코드북 신호(c'(n))의 오디오 대역폭은, 업샘플링된 여기 신호(u'(n))의 생성 전에 비선형 연산자를 업샘플링된 고정 코드북 신호(c'(n))에 적용함으로써 CELP 기반 디코더 엘리먼트의 오디오 대역폭을 넘어 확장된다. 비선형 연산된 도 3의 업샘플링된 여기 신호(u'(n))는 상술한 바와 같이 도 2의 블록(210)에서 얻어진 제2 여기 신호에 대응한다.
무성 음성(unvoiced speech)을 처리하도록 특별히 설계된 일부의 실시예에서, 제2 여기 신호는 필터링 전에 스케일링되고, 스케일링된 광대역 가우스 신호와 결합될 수 있다. 혼합 프로세스를 제어하기 위하여 디코딩 음성 신호의 보이스 레벨(V)의 추정치와 관련된 혼합 파라미터가 사용된다. V의 값은 에너지 기반 파라미터에 의해 기재된 바와 같이 저주파수 영역(CELP 출력 신호) 내의 신호 에너지 대 고주파수 영역 내의 신호 에너지의 비로부터 추정된다. 높은 무성 신호는 낮은 주파수에서 높은 에너지를 갖고 높은 주파수에서 낮은 에너지를 갖는 것으로 특징화되어, 1(unity)에 접근하는 V값을 산출한다. 반면에, 높은 보이스 신호는 높은 주파수에서 높은 에너지를 갖고 낮은 주파수에서 낮은 에너지를 갖는 것으로 특징화되어 제로에 근접하는 V 값을 산출한다. 이 절차는 더 부드러운 사운딩 무성 음성 신호를 초래하고 에릭슨 텔레폰 아베(Ericsson Telefon AB)에 양도된 미국 특허 6,301,556에 기재된 것과 유사한 결과를 달성한다.
제2 여기 신호가 상술한 바와 같이 스케일링되고 스케일링된 광대역 가우스 신호와 결합되든 되지 않든 간에 제2 여기 신호는 대역 통과 필터링 프로세싱된다. 특히, 신호의 세트는 제2 여기 신호를 대역 통과 필터의 세트로 필터링함으로써 얻어지거나 생성된다. 일반적으로, 오디오 디코더에서 수행된 대역 통과 필터링 프로세스는 인코더에서 입력 오디오 신호에 적용된 동등한 필터링 프로세스에 대응한다. 도 3에서, 310에서, 신호의 세트는 업샘플링된 여기 신호(u'(n))를 대역 통과 필터의 세트로 필터림함으로써 생성된다. 오디오 디코더에서 대역 통과 필터의 세트에 의해 수행되는 필터링은 도 5를 참조하여 후술하는 바와 같이 에너지 기반 파라미터 또는 스케일링 파라미터의 세트를 도출하는데 사용되는 인코더에서 입력 오디오 신호의 부대역에 적용되는 동등한 프로세스에 대응한다. 인코더에서의 대응하는 동등한 필터링 프로세스는 정상적으로 유사한 필터 및 구조물을 포함하는 것으로 기대된다. 그러나, 디코더에서의 필터링 프로세스는 신호 재구성을 위해 시간 도메인에서 수행되지만, 인코더 필터링은 주로 대역 에너지를 얻기 위하여 필요하다. 그러므로, 대안적인 실시예에서, 이들 에너지는 동등 주파수 도메인 필터링 어프로치를 이용하여 얻어질 수 있고, 필터링은 푸리에 변환 도메인에서의 승산으로서 구현되고 대역 에너지는 주파수 도메인에서 먼저 계산된 후에 예를 들어 파시발(Parseval) 관계를 이용하여 시간 도메인에서 에너지로 변환된다.
도 4는 초광대역 신호를 위해 디코더에서 수행되는 필터링 및 스펙트럼 정형(spectral shaping)을 나타낸다. 저주파수 컴포넌트는 비(rational ratio) M/L(이 경우 5/2)에 의해 보간 스테이지를 통해 코어 CELP 코덱에 의해 생성되지만, 고주파수 컴포넌트는 6.4kHz보다 높고 15kHz보다 낮은 나머지 주파수로 동조된 제1 대역 통과 프리필터(pre-filter)를 갖는 대역 통과 필터 장치로 대역폭 확장된 제2 여기 신호를 필터링함으로써 생성된다. 6.4kHz 내지 15kHz의 주파수 범위는 추가로 종종 "임계 대역(critical band)"라 불리우는 사람의 청력과 가장 연관된 대역을 근사화하는 대역폭의 4개의 대역 통과 필터로 세분된다. 이들 필터의 각각으로부터의 에너지는, 인코더에 의해 양자화되고 송신된 에너지 기반 파라미터를 이용하여 인코더에서 측정된 것과 매칭된다.
도 5는 초광대역 신호를 위해 인코더에서 수행되는 필터링을 나타낸다. 32kHz에서의 입력 신호는 2개의 신호 경로로 분리된다. 저주파수 컴포넌트는 비 L/M(이 경우 2/5)에 의해 데시메이션(decimation) 스테이지를 통해 코어 CELP 코덱으로 향하지만, 고주파수 컴포넌트는 6.4kHz보다 크고 15kHz보다 낮은 나머지 주파수로 동조된 대역 통과 필터로 필터링(filtered out)된다. 6.4kHz 내지 15kHz의 주파수 범위는 사람의 청력과 가장 연관된 대역을 근사화하는 대역폭의 4개의 대역 통과 필터(BPF #1 내지 #4)로 세분된다. 이들 필터의 각각으로부터의 에너지가 측정되고 에너지와 관련된 파라미터는 디코더로의 송신을 위해 양자화된다. 인코더 및 디코더에서 동일한 필터링을 이용하는 것은 2개의 프로세스가 동등하게 되는 것을 보장한다. 그러나, 인코더 및 디코더 필터링 프로세스가 유사한 동등 대역폭 및 대역 통과 코너 주파수를 이용하면 동등성은 또한 유지될 수 있다. 상이한 필터 구조물 간의 이득 차는 설계 및 특성화 도중에 보상되어 신호 스케일링 절차에 포함될 수 있다.
일 구현예에서, 디코더에서의 대역 통과 필터링 프로세스는 상보적인 전역 통과 필터의 세트의 출력을 결합하는 것을 포함한다. 상보적인 전역 통과 필터의 각각은 비균일 위상 응답과 결합된 전 주파수 범위에 걸쳐 동일한 고정 1 이득을 제공한다. 위상 응답은 각각의 전-통과 필터가 차단 주파수보다 작은 일정한 시간 지연(선형 위상) 및 차단 주파수보다 높은 일정한 시간 지연 +
Figure pct00002
위상 시프트를 갖는 것으로서 특징화될 수 있다. 하나의 전-통과 필터가 일정한 시간 지연(z-d)을 포함하는 전-통과 필터에 부가되면, 출력은 차단 주파수보다 낮은 주파수에서 같은 위상으로 저역 통과 특성을 가져 서로 강화하고, 반면에 차단 주파수보다 높으면 컴포넌트가 다른 위상이어서 서로 제거한다. 2개의 필터로부터 출력을 감산하는 것은 강화 영역과 제거 영역이 교환됨에 따라 고역 통과 응답을 산출한다. 2개의 전-통과 필터의 출력이 서로 감산되면, 2개의 필터의 동상 컴포넌트는 서로 제거하지만 상이한 위상의 컴포넌트는 강화하여 대역 통과 응답을 산출한다. 이것은 도 6에 도시된 전-통과 원리를 이용하여 초광대역 신호에 대한 필터링 프로세스의 바람직한 실시예를 나타내는 도 6에 도시된다.
도 7은 상보적인 전역 통과 필터로 6.4kHz 내지 15kHz의 주파수 범위를 4개의 대역으로 대역 분할하는 특정한 구현예를 나타낸다. 7.7kHz, 9.5kHz 및 12.0kHz의 교차 주파수를 갖는 3개의 전-통과 필터가 채용되어 6.4kHz 내지 15kHz 대역으로 동조된 상술한 제1 대역 통과 프리필터와 결합될 때 4개의 대역 통과 응답을 제공한다.
다른 구현예에서, 디코더에서 수행되는 필터링 프로세스는 대역 통과 프리필터없이 단일 대역 통과 필터링 스테이지에서 수행된다.
일부의 구현예에서, 대역 통과 필터링으로부터 출력된 신호의 세트는 먼저 결합 전에 에너지 기반 파라미터의 세트를 이용하여 스케일링된다. 에너지 기반 파라미터는 상술한 바와 같이 인코더로부터 얻어진다. 스케일링 프로세스는 도 2의 250에 도시된다. 도 3에서, 필터링에 의해 생성된 신호의 세트는 316에서 스펙트럼 정형 및 스케일링된다.
도 8a는 4개의 대역을 갖는 6.4kHz 내지 15kHz의 초광대역 신호에 대한 스케일링 동작을 나타낸다. 4개의 이산 대역 통과 필터의 각각에 대하여, 스케일 인자(S1, S2, S3, S4)는 해당 대역 통과 필터의 출력에서의 승수로서 사용되어, 확장된 대역폭의 스펙트럼을 정형한다. 도 8b는 도 8a에 도시된 것에 대한 동등 스케일링 동작을 나타낸다. 도 8b에서, 컴플렉스 진폭 응답을 갖는 단일 필터는 도 8a에 도시된 이산 대역 통과 필터 모델과 유사한 스펙트럼 특성을 제공한다.
일 실시예에서, 에너지 기반 파라미터의 세트는 일반적으로 인코더에서의 입력 오디오 신호를 나타낸다. 다른 실시예에서, 디코더에서 사용된 에너지 기반 파라미터의 세트는 인코더에서 입력 오디오 신호를 대역 통과 필터링하는 프로세스를 나타내고, 인코더에서 수행되는 대역 통과 필터링 프로세스는 디코더에서의 제2 여기 신호의 대역 통과 필터링과 동등하다. 인코더 및 디코더에서 동등 또는 심지어 동일한 필터를 채용하고 디코더 필터의 출력에서의 에너지를 인코더에서의 에너지와 매칭함으로써, 인코더 신호는 가능한한 정확히 재생될 것이라는 점은 분명할 것이다.
일 구현예에서, 신호의 세트는 오디오 디코더에서의 대역 통과 필터의 세트의 출력에서의 에너지에 기초하여 스케일링된다. 오디오 디코더에서의 대역 통과 필터의 세트의 출력에서의 에너지는 CELP 기반 디코더 엘리먼트의 피치 주기에 기초한 에너지 측정 간격에 의해 결정된다. 에너지 측정 간격(Ie)은 CELP 기반 디코더 엘리먼트의 피치 주기(T)와 관련되고, 다음의 식에 의해 디코더에서의 보이스 추정 레벨(V)에 의존한다.
Figure pct00003
여기서, S는 음성 합성 간격에 대응하는 고정된 수의 샘플이고, L은 업샘플링 승수이다. 음성 합성 간격은 통상 CELP 기반 디코더 엘리먼트의 서브프레임 길이와 동일하다.
도 2에서, 230에서, 제2 여기 신호 및 신호의 세트가 얻어지는 동안 오디오 신호는 CELP 기반 디코더 엘리먼트에 의해 디코딩된다. 240에서, 복합 출력 신호는 신호의 세트를 CELP 기반 디코더 엘리먼트에 의해 디코딩된 오디오 신호에 기초한 신호와 결합함으로써 얻어지거나 생성된다. 복합 출력 신호는 CELP 여기 신호의 대역폭을 초과하는 대역폭 부분을 포함한다.
도 3에서, 일반적으로, 복합 출력 신호는 필터링 및 스케릴링 후의 업샘플링된 여기 신호(u'(n)) 및 CELP 기반 디코더 엘리먼트의 출력 신호에 기초하여 얻어지고, 복합 출력 신호는 CELP 기반 디코더 엘리먼트의 오디오 대역폭을 넘어 확장되는 오디오 대역폭 부분을 포함한다. 복합 출력 신호는 CELP 기반 디코더 엘리먼트로의 대역폭 확장된 신호를 CELP 기반 디코더 엘리먼트의 출력 신호와 결합함으로써 얻어진다. 일 실시예에서, 신호의 결합은 공통 샘플링 레이트에서 다양한 신호의 간단한 샘플별 부가(sample-by-sample addition)를 이용하여 달성될 수 있다.
본 개시물 및 그 최상의 모드는, 소유를 확립하고 당업자가 동일물을 만들고 사용하도록 하는 방식으로 기재되지만, 여기에 개시된 예시적인 실시예와의 동등물이 존재하고 예시적인 실시예에 의해 제한되지 않고 청구범위에 의해 제한되는 본 발명의 범위 및 사상을 벗어나지 않고 그 변형이 가능하다는 것이 이해되고 인식될 것이다.

Claims (14)

  1. CELP 기반 디코더 엘리먼트를 포함하는 오디오 디코더에서 CELP 여기 신호(excitation signal)의 오디오 대역폭을 넘어 확장되는 오디오 대역폭을 갖는 오디오 신호를 디코딩하는 방법으로서,
    상기 CELP 여기 신호의 오디오 대역폭을 넘어 확장되는 오디오 대역폭을 갖는 제2 여기 신호를 얻는 단계;
    상기 제2 여기 신호를 대역 통과 필터의 세트로 필터링함으로써 신호들의 세트를 얻는 단계;
    상기 신호들의 세트를 에너지 기반 파라미터들의 세트를 이용하여 스케일링(scaling)하는 단계; 및
    상기 스케일링된 신호들의 세트를 상기 CELP 기반 디코더 엘리먼트에 의해 디코딩된 오디오 신호에 기초한 신호와 결합함으로써 복합 출력 신호를 얻는 단계
    를 포함하는 방법.
  2. 제1항에 있어서, 상기 제2 여기 신호를 얻으면서, 그리고 상기 신호들의 세트를 얻으면서 상기 CELP 기반 디코더 엘리먼트로 상기 오디오 신호를 디코딩하는 단계를 더 포함하는 방법.
  3. 제2항에 있어서, 상기 복합 출력 신호는 CELP 여기 신호의 대역폭을 넘어 확장되는 대역폭 부분을 포함하는 방법.
  4. 제1항에 있어서,
    상기 CELP 여기 신호에 기초하여 업샘플링된 CELP 여기 신호를 얻는 단계; 및
    상기 업샘플링된 CELP 여기 신호로부터 상기 제2 여기 신호를 얻는 단계
    를 포함하는 방법.
  5. 제1항에 있어서, 상기 오디오 디코더에서 대역 통과 필터의 세트에 의해 수행되는 필터링은 상보적인 전역 통과 필터(complementary all-pass filter)들의 세트의 출력들을 결합하는 것을 포함하는 방법.
  6. 제1항에 있어서, 상기 대역 통과 필터들의 세트에 의해 수행되는 필터링은 광대역 통과 필터에 의한 필터링을 포함하는 방법.
  7. 제4항에 있어서, 상기 대역 통과 필터들의 세트에 의해 수행되는 필터링은 상보적인 전역 통과 필터들의 세트에 의한 필터링을 포함하는 방법.
  8. 제1항에 있어서, 상기 오디오 디코더에서 대역 통과 필터들의 세트에 의해 수행되는 필터링은 상기 인코더에서 입력 오디오 신호의 부대역에 적용되는 동등한 프로세스에 대응하는 방법.
  9. 제1항에 있어서, 상기 오디오 디코더에서 대역 통과 필터들의 세트에 의해 수행되는 필터링은 상기 인코더에서 입력 오디오 신호에 적용되는 등가의 대역 통과 필터링 프로세스에 대응하는 방법.
  10. 제1항에 있어서, 상기 디코더에서 사용되는 에너지 기반 파라미터들의 세트는 상기 인코더에서 입력 오디오 신호를 대역 통과 필터링하는 프로세스를 나타내고, 상기 인코더에서 수행되는 상기 대역 통과 필터링 프로세스는 상기 디코더에서의 상기 제2 여기 신호의 대역 통과 필터링과 동등한 방법.
  11. 제1항에 있어서, 상기 에너지 기반 파라미터들의 세트는 인코더에서의 입력 오디오 신호를 나타내는 방법.
  12. 제1항에 있어서, 상기 오디오 디코더에서 상기 대역 통과 필터들의 세트의 출력에서의 에너지에 기초하여 상기 신호들의 세트를 스케일링하고,
    상기 오디오 디코더에서 상기 대역 통과 필터들의 세트의 출력에서의 에너지는 CELP 기반 디코더 엘리먼트의 피치 주기(T)에 기초하여 에너지 측정 간격에 의해 결정되는 방법.
  13. 제12항에 있어서, 에너지 측정 간격(Ie)은 CELP 기반 디코더 엘리먼트의 피치 주기(T)와 관련되고, 또한 이하의 수식
    Figure pct00004

    에 의해 상기 디코더에서 추정되는 보이스 레벨(V)에 의존하고,
    여기서, S는 음성 합성 간격에 대응하는 고정된 샘플 수이고, L은 업샘플링 인자인 방법.
  14. 제1항에 있어서, 상기 제2 여기 신호의 프리커서(precursor)에 비선형 연산을 적용함으로써 CELP 여기 신호의 오디오 대역폭을 넘어 확장되도록 상기 제2 여기 신호의 오디오 대역폭을 확장하는 방법.
KR1020137009388A 2010-10-15 2011-10-05 Celp 기반 음성 코더에서의 오디오 신호 대역폭 확장 KR101452666B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IN2457/DEL/2010 2010-10-15
IN2457DE2010 2010-10-15
PCT/US2011/054862 WO2012051012A1 (en) 2010-10-15 2011-10-05 Audio signal bandwidth extension in celp-based speech coder

Publications (2)

Publication Number Publication Date
KR20130090413A true KR20130090413A (ko) 2013-08-13
KR101452666B1 KR101452666B1 (ko) 2014-10-22

Family

ID=44800282

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137009388A KR101452666B1 (ko) 2010-10-15 2011-10-05 Celp 기반 음성 코더에서의 오디오 신호 대역폭 확장

Country Status (5)

Country Link
US (1) US8868432B2 (ko)
EP (1) EP2628155B1 (ko)
KR (1) KR101452666B1 (ko)
CN (1) CN103155035B (ko)
WO (1) WO2012051012A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
US9258428B2 (en) 2012-12-18 2016-02-09 Cisco Technology, Inc. Audio bandwidth extension for conferencing
US9728200B2 (en) 2013-01-29 2017-08-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding
US10049684B2 (en) * 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
JP6611042B2 (ja) * 2015-12-02 2019-11-27 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5127054A (en) * 1988-04-29 1992-06-30 Motorola, Inc. Speech quality improvement for voice coders and synthesizers
US5839102A (en) * 1994-11-30 1998-11-17 Lucent Technologies Inc. Speech coding parameter sequence reconstruction by sequence classification and interpolation
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US6301556B1 (en) 1998-03-04 2001-10-09 Telefonaktiebolaget L M. Ericsson (Publ) Reducing sparseness in coded speech signals
US7920697B2 (en) * 1999-12-09 2011-04-05 Broadcom Corp. Interaction between echo canceller and packet voice processing
ATE368279T1 (de) * 2003-05-01 2007-08-15 Nokia Corp Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate
FI118550B (fi) * 2003-07-14 2007-12-14 Nokia Corp Parannettu eksitaatio ylemmän kaistan koodaukselle koodekissa, joka käyttää kaistojen jakoon perustuvia koodausmenetelmiä
US7619995B1 (en) * 2003-07-18 2009-11-17 Nortel Networks Limited Transcoders and mixers for voice-over-IP conferencing
WO2006000842A1 (en) * 2004-05-28 2006-01-05 Nokia Corporation Multichannel audio extension
CN1989548B (zh) * 2004-07-20 2010-12-08 松下电器产业株式会社 语音解码装置及补偿帧生成方法
US7630396B2 (en) * 2004-08-26 2009-12-08 Panasonic Corporation Multichannel signal coding equipment and multichannel signal decoding equipment
JP4871501B2 (ja) 2004-11-04 2012-02-08 パナソニック株式会社 ベクトル変換装置及びベクトル変換方法
DE602005015426D1 (de) * 2005-05-04 2009-08-27 Harman Becker Automotive Sys System und Verfahren zur Intensivierung von Audiosignalen
DE102005032724B4 (de) * 2005-07-13 2009-10-08 Siemens Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
EP1979901B1 (de) * 2006-01-31 2015-10-14 Unify GmbH & Co. KG Verfahren und anordnungen zur audiosignalkodierung
KR101244310B1 (ko) * 2006-06-21 2013-03-18 삼성전자주식회사 광대역 부호화 및 복호화 방법 및 장치
WO2008022181A2 (en) * 2006-08-15 2008-02-21 Broadcom Corporation Updating of decoder states after packet loss concealment
CN101140759B (zh) 2006-09-08 2010-05-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
ATE425532T1 (de) * 2006-10-31 2009-03-15 Harman Becker Automotive Sys Modellbasierte verbesserung von sprachsignalen
US8036886B2 (en) * 2006-12-22 2011-10-11 Digital Voice Systems, Inc. Estimation of pulsed speech model parameters
US8688437B2 (en) * 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
US8630863B2 (en) * 2007-04-24 2014-01-14 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding audio/speech signal
KR101373004B1 (ko) * 2007-10-30 2014-03-26 삼성전자주식회사 고주파수 신호 부호화 및 복호화 장치 및 방법
EP2491556B1 (en) * 2009-10-20 2024-04-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, corresponding method and computer program
US8990074B2 (en) * 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification

Also Published As

Publication number Publication date
EP2628155A1 (en) 2013-08-21
CN103155035B (zh) 2015-05-13
US8868432B2 (en) 2014-10-21
CN103155035A (zh) 2013-06-12
WO2012051012A1 (en) 2012-04-19
EP2628155B1 (en) 2018-07-25
KR101452666B1 (ko) 2014-10-22
US20120095757A1 (en) 2012-04-19

Similar Documents

Publication Publication Date Title
KR101484426B1 (ko) Celp 기반 음성 코더에서의 오디오 신호 대역폭 확장
JP6173288B2 (ja) マルチモードオーディオコーデックおよびそれに適応されるcelp符号化
CA2556797C (en) Methods and devices for low-frequency emphasis during audio compression based on acelp/tcx
JP6515157B2 (ja) 音声周波数信号復号器における周波数帯域拡張のための最適化スケール因子の判定方法及び判定装置
US8260620B2 (en) Device for perceptual weighting in audio encoding/decoding
JP4740260B2 (ja) 音声信号の帯域幅を疑似的に拡張するための方法および装置
CN103477387B (zh) 使用频谱域噪声整形的基于线性预测的编码方案
EP2676268B1 (en) Apparatus and method for processing a decoded audio signal in a spectral domain
US20070147518A1 (en) Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
EP2502230B1 (en) Improved excitation signal bandwidth extension
US20060122828A1 (en) Highband speech coding apparatus and method for wideband speech coding system
KR102426029B1 (ko) 오디오 신호 디코더에서의 개선된 주파수 대역 확장
JP2016528539A5 (ko)
KR101452666B1 (ko) Celp 기반 음성 코더에서의 오디오 신호 대역폭 확장

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170929

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190927

Year of fee payment: 6