KR101058761B1 - 광대역 보코더의 프레임들의 시간-워핑 - Google Patents

광대역 보코더의 프레임들의 시간-워핑 Download PDF

Info

Publication number
KR101058761B1
KR101058761B1 KR1020097005598A KR20097005598A KR101058761B1 KR 101058761 B1 KR101058761 B1 KR 101058761B1 KR 1020097005598 A KR1020097005598 A KR 1020097005598A KR 20097005598 A KR20097005598 A KR 20097005598A KR 101058761 B1 KR101058761 B1 KR 101058761B1
Authority
KR
South Korea
Prior art keywords
speech signal
speech
pitch
time
low band
Prior art date
Application number
KR1020097005598A
Other languages
English (en)
Other versions
KR20090053917A (ko
Inventor
로히트 카푸르
세라핀 스핀돌라 디아즈
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20090053917A publication Critical patent/KR20090053917A/ko
Application granted granted Critical
Publication of KR101058761B1 publication Critical patent/KR101058761B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

잔여 저대역 스피치 신호의 확장된 또는 압축된 버전으로 잔여 저대역 스피치 신호를 시간-워핑하는 단계, 고대역 스피치 신호의 확장된 또는 압축된 버전으로 고대역 스피치 신호를 시간-워핑하는 단계, 및 시간 워핑된 저대역 및 고대역 스피치 신호를 병합하여 전체 시간-워핑된 스피치 신호를 제공하는 단계를 포함하는 스피치 전달 방법. 저대역에 있어서, 잔여 저대역 스피치 신호는 잔여 저대역 신호의 시간-워핑 이후에 합성되지만, 고대역에 있어서, 워핑되지 않은 고대역 신호는 고대역 스피치 신호의 시간-워핑 전에 합성된다. 그 방법은 스피치 세그먼트들을 분류하는 단계 및 스피치 세그먼트들을 인코딩하는 단계를 더 포함할 수도 있다. 스피치 세그먼트들의 인코딩은 코드-여기 선형 예측, 잡음-여기 선형 예측 또는 1/8 프레임 (묵음) 코딩 중 하나일 수도 있다.
Figure R1020097005598
시간-워핑, 보코더, 스피치

Description

광대역 보코더의 프레임들의 시간-워핑{TIME-WARPING FRAMES OF WIDEBAND VOCODER}
배경
기술분야
본 발명은 일반적으로 보코더에 있어서의 프레임들을 시간-워핑하는 것, 즉, 확장 또는 압축하는 것에 관한 것으로서, 상세하게는, 광대역 보코더에 있어서의 프레임들을 시간-워핑하는 방법에 관한 것이다.
배경기술
시간-워핑은, 보코더 패킷들이 비동기적으로 도달할 수도 있는 패킷-스위칭 네트워크들에 있어서 다수의 애플리케이션들을 가진다. 시간-워핑이 보코더 내부 또는 그 외부에서 수행될 수도 있지만, 보코더 내에서 수행하는 것은 워핑된 프레임들의 더 우수한 품질 및 감소된 계산 부하와 같은 다수의 이점을 제공한다.
개요
본 발명은 스피치 신호를 조작함으로써 스피치 프레임들을 시간-워핑하는 장치 및 방법을 포함한다. 일 양태에 있어서, 제 4 세대 보코더 (4GV) 광대역 보코더의 코드-여기 선형 예측 (CELP) 및 잡음-여기 선형 예측 (NELP) 프레임들을 시간-워핑하는 방법이 개시된다. 더 상세하게, CELP 프레임들에 있어서, 그 방법은 각각 스피치를 확장 또는 압축하기 위해 피치 주기들을 가산 또는 삭제함으로써 스피치 페이즈를 유지한다. 이 방법에 있어서, 하위 대역 신호는 잔여물 (residual) 에 있어서, 즉, 합성 전에 시간-워핑될 수도 있지만, 상위 대역 신호는 8kHz 도메인에 있어서 합성 이후에 시간-워핑될 수도 있다. 개시된 방법은, 저 대역에 대해 CELP 및/또는 NELP 를 사용하고/하거나 하위 대역 및 상위 대역을 별개로 인코딩하기 위한 스플릿-대역 기술을 사용하는 임의의 광대역 보코더에 적용될 수도 있다. 4GV 광대역에 대한 표준 명칭은 EVRC-C 임을 유의해야 한다.
상기의 관점에서, 본 발명의 설명되는 특징들은 일반적으로 스피치를 전달하기 위한 하나 이상의 개선된 시스템, 방법 및/또는 장치에 관한 것이다. 일 실시형태에 있어서, 본 발명은 잔여 저대역 스피치 신호를 잔여 저대역 스피치 신호의 확장된 또는 압축된 버전으로 시간-워핑하는 단계, 고대역 스피치 신호를 고대역 스피치 신호의 확장된 또는 압축된 버전으로 시간-워핑하는 단계, 및 시간-워핑된 저대역 스피치 신호와 고대역 스피치 신호를 병합하여 전체 시간-워핑된 스피치 신호를 제공하는 단계를 포함하는, 스피치를 전달하는 방법을 포함한다. 본 발명의 일 양태에 있어서, 잔여 저대역 스피치 신호는 잔여 저대역 신호의 시간-워핑 이후에 합성되지만, 고대역에 있어서 합성은 고대역 스피치 신호의 시간-워핑 이전에 수행된다. 그 방법은 스피치 세그먼트들을 분류하는 단계 및 스피치 세그먼트들을 인코딩하는 단계를 더 포함할 수도 있다. 스피치 세그먼트들의 인코딩은 코드-여기 선형 예측, 잡음-여기 선형 예측 또는 1/8 (묵음) 프레임 코딩 중 하나일 수도 있다. 저대역은 약 4kHz 까지의 주파수 대역을 나타낼 수도 있고, 고대역은 약 3.5kHz 내지 약 7kHz 의 대역을 나타낼 수도 있다.
다른 실시형태에 있어서, 적어도 하나의 입력부 및 적어도 하나의 출력부를 갖는 보코더가 개시되며, 그 보코더는 그 보코더의 입력부에 동작가능하게 접속된 적어도 하나의 입력부 및 적어도 하나의 출력부를 갖는 필터를 포함하는 인코더; 및 인코더의 적어도 하나의 입력부에 동작가능하게 접속된 적어도 하나의 입력부 및 보코더의 적어도 하나의 출력부에 동작가능하게 접속된 적어도 하나의 출력부를 갖는 합성기를 포함하는 디코더를 포함한다. 이 실시형태에 있어서, 디코더는 메모리를 포함하며, 여기서, 그 디코더는, 잔여 저대역 스피치 신호를 잔여 저대역 스피치 신호의 확장된 또는 압축된 버전으로 시간-워핑하는 것, 고대역 스피치 신호를 고대역 스피치 신호의 확장된 또는 압축된 버전으로 시간-워핑하는 것, 및 시간-워핑된 저대역 스피치 신호와 고대역 스피치 신호를 병합하여 전체 시간-워핑된 스피치 신호를 제공하는 것을 포함하는, 메모리에 저장된 소프트웨어 명령들을 실행하도록 구성된다. 합성기는 시간-워핑된 잔여 저대역 스피치 신호를 합성하는 수단, 및 고대역 스피치 신호를 시간-워핑하기 전에 합성하는 수단을 포함할 수도 있다. 인코더는 메모리를 포함하며, 스피치 세그먼트들을 1/8 (묵음) 프레임, 코드-여기 선형 예측 또는 잡음-여기 선형 예측으로서 분류하는 것을 포함하는, 메모리에 저장된 소프트웨어 명령들을 실행하도록 구성될 수도 있다.
본 발명의 적용가능성의 추가적인 범위는 다음의 상세한 설명, 특허청구범위 및 도면으로부터 명백하게 될 것이다. 하지만, 상세한 설명 및 특정 실시예들은, 본 발명의 바람직한 실시형태들을 나타내지만, 본 발명의 사상 및 범위 내에서 다양한 변경예 및 변형예가 당업자에게 명백하게 될 것이기 때문에, 오직 예시로 제공된다.
도면의 간단한 설명
본 발명은 본 명세서에서 이하 제공되는 상세한 설명, 첨부된 특허청구범위, 및 첨부 도면으로부터 더 완전히 이해하게 될 것이다.
도 1 은 선형 예측 코딩 (LPC) 보코더의 블록도이다.
도 2a 는 음성형 스피치를 포함하는 스피치 신호이다.
도 2b 는 무음형 스피치를 포함하는 스피치 신호이다.
도 2c 는 과도형 스피치를 포함하는 스피치 신호이다.
도 3 은 저대역 및 고대역의 시간-워핑을 나타내는 블록도이다.
도 4a 는 보간을 통해 피치 지연을 결정하는 것을 도시한 것이다.
도 4b 는 피치 주기들을 식별하는 것을 도시한 것이다.
도 5a 는 오리지널 스피치 신호를 피치 주기들의 형태로 나타낸 것이다.
도 5b 는 중첩/가산을 이용하여 확장된 스피치 신호를 나타낸 것이다.
도 5c 는 중첩/가산을 이용하여 압축된 스피치 신호를 나타낸 것이다.
상세한 설명
단어 "예시적인" 은 "예, 예증 또는 예시로서 기능하는" 을 의미하도록 본 명세서에서 사용된다. "예시적인" 것으로서 본 명세서에서 설명되는 임의의 실시형태는 다른 실시형태들에 비해 반드시 바람직하거나 유리한 것으로서 해석되어야 할 필요는 없다.
시간-워핑은, 보코더 패킷들이 비동기적으로 도달할 수도 있는 패킷-스위칭 네트워크들에 있어서 다수의 애플리케이션들을 가진다. 시간-워핑이 보코더 내부 또는 그 외부에서 수행될 수도 있지만, 보코더 내에서 수행하는 것은 워핑된 프레임들의 더 우수한 품질 및 감소된 계산 부하와 같은 다수의 이점을 제공한다. 본 명세서에서 설명되는 기술들은, 음성 데이터를 보코딩하기 위해, 그 표준 명칭이 EVRC-C 인 4GV-광대역과 같은 유사한 기술들을 이용하는 다른 보코더들에 용이하게 적용될 수도 있다.
보코더 기능의 설명
인간 음성은 2개의 컴포넌트들로 이루어진다. 하나의 컴포넌트는 피치-민감형인 기본파를 포함하고, 다른 컴포넌트는 피치 민감하지 않은 고정된 고조파이다. 사운드의 인지된 피치는 주파수에 대한 귀의 응답이며, 즉, 가장 실용적인 목적으로, 피치는 주파수이다. 고조파 컴포넌트들은 특유의 특성을 인간 음성에 부가한다. 고조파 컴포넌트들은 성대와 함께 그리고 성도의 물리적 형상과 함께 변하며, 포르만트로 지칭된다.
인간 음성은 디지털 신호 (s(n); 10) 에 의해 표현될 수도 있다 (도 1 참조). s(n) (10) 은, 상이한 음성 사운드 및 묵음 주기를 포함하는 통상적인 대화 중에 획득되는 디지털 스피치이다고 가정한다. 도 2a 내지 도 2c 에 도시된 바와 같이, 스피치 신호 (s(n); 10) 는 프레임들 (20) 로 분할될 수도 있다. 일 양태에 있어서, s(n) (10) 은 8kHz 에서 디지털 샘플링된다. 다른 양태들에 있어서, s(n) (10) 은 16kHz 또는 32kHz 또는 기타 다른 샘플링 주파수에서 디지털 샘플링될 수도 있다.
현재의 코딩 방식들은, 스피치에 내재한 자연적 리던던시 (즉, 상관된 엘리먼트들) 모두를 제거함으로써, 디지털화된 스피치 신호 (10) 를 저 비트 레이트 신호로 압축한다. 통상적으로, 스피치는 입술 및 혀의 기계적인 액션으로부터 기인한 단기 리던던시 및 성대의 진동으로부터 기인하는 장기 리던던시를 나타낸다. 선형 예측 코딩 (LPC) 은 잔여 스피치 신호를 생성하는 리던던시들을 제거함으로써 스피치 신호 (10) 를 필터링한다. 그 후, 결과적인 잔여 신호를 백색 가우시안 잡음으로서 모델링한다. 스피치 파형의 샘플링된 값은 다수의 이전 샘플들의 합을 가중함으로써 예측될 수도 있으며, 이전 샘플들 각각은 선형 예측 계수에 의해 승산된다. 따라서, 선형 예측 코더들은 풀 대역폭 스피치 신호 (10) 보다는 양자화된 잡음 및 필터 계수들을 송신함으로써 감소된 비트 레이트를 달성한다.
LPC 보코더 (70) 의 일 실시형태의 블록도가 도 1 에 도시되어 있다. LPC 의 기능은, 유한한 지속기간 동안 추정된 스피치 신호와 오리지널 스피치 신호 간의 제곱된 차의 합을 최소화하는 것이다. 이것은, 일반적으로 추정된 모든 프레임 (20) 인 예측기 계수들의 고유 세트를 생성할 수도 있다. 통상적으로, 프레임 (20) 은 20ms 길이이다. 시변 디지털 필터 (75) 의 전달 함수는
Figure 112009016547893-pct00001
로 주어질 수도 있으며, 여기서, 예측기 계수들은
Figure 112009016547893-pct00002
에 의해 표현되고 이득은 G 에 의해 표현될 수도 있다.
그 합산은 k = 1 로부터 k = p 까지 연산된다. LPC-10 방법이 사용된다면, p = 10 이다. 이는, 오직 최초 10개의 계수들만이 LPC 합성기 (80) 에 송신된다는 것을 의미한다. 계수들을 연산하기 위한 2개의 가장 통상적으로 사용되는 방법은 공분산 방법 및 자기상관 방법이지만 이에 한정되지 않는다.
통상적인 보코더들은, 선호된 8kHz 레이트에서의 160개 샘플 또는 16kHz 레이트에서의 320개 샘플을 포함하는, 20msec 지속기간의 프레임들 (20) 을 생성한다. 이 프레임 (20) 의 시간-워핑된 압축 버전은 20msec 미만의 지속기간을 갖지만, 시간-워핑된 확장 버전은 20msec 초과의 지속기간을 가진다. 음성 데이터의 시간-워핑은, 음성 패킷들의 송신에 있어서 지연 지터를 도입하는, 패킷-스위칭 네트워크들을 통해 음성 데이터를 전송할 때 현저한 이점을 가진다. 그러한 네트워크에 있어서, 시간-워핑은 그러한 지연 지터의 효과를 저감시키고 "동기식" 룩킹 (looking) 음성 스트림을 생성하는데 이용될 수도 있다.
본 발명의 실시형태들은 스피치 잔여물을 조작함으로써 보코더 (70) 내부에서 프레임들 (20) 을 시간-워핑하는 장치 및 방법에 관한 것이다. 일 실시형태에 있어서, 본 방법 및 장치는 4GV 광대역에서 이용된다. 개시된 실시형태들은 코드-여기 선형 예측 (CELP) 또는 잡음-여기 선형 예측 (NELP) 코딩을 이용하여 인코딩된 상이한 타입의 4GV 광대역 스피치 세그먼트들을 확장/압축하기 위한 방법 및 장치 또는 시스템을 포함한다.
통상적으로, 용어 "보코더" (70) 는 인간 스피치 생성의 모델에 기초하여 파라미터들을 추출함으로써 음성형 스피치를 압축하는 디바이스들을 지칭한다. 보코더들 (70) 은 인코더 (204) 및 디코더 (206) 를 포함한다. 인코더 (204) 는 입력 스피치를 분석하고 관련 파라미터들을 추출한다. 일 실시형태에 있어서, 인코더는 필터 (75) 를 포함한다. 디코더 (206) 는, 송신 채널 (208) 을 통해 인코더 (204) 로부터 수신한 파라미터들을 이용하여 스피치를 합성한다. 일 실시형태에 있어서, 디코더는 합성기 (80) 를 포함한다. 스피치 신호 (10) 는 종종 데이터의 프레임들 (20) 로 분할되고, 보코더 (70) 에 의해 블록 프로세싱된다.
당업자는 인간 스피치가 다수의 상이한 방식으로 분류될 수도 있음을 인식할 것이다. 스피치의 3개의 종래의 분류는 음성형, 무음형 사운드 및 과도형 스피치이다.
도 2a 는 음성형 스피치 신호 (s(n); 402) 이다. 도 2a 는 피치 주기 (100) 로서 공지된 음성형 스피치의 측정가능한 공통 특성을 도시한 것이다.
도 2b 는 무음형 스피치 신호 (s(n); 404) 이다. 무음형 스피치 신호 (404) 는 유색 잡음과 유사하다.
도 2c 는 과도형 스피치 신호 (s(n); 406), 즉, 음성형도 아니고 무음형도 아닌 스피치를 도시한 것이다. 도 2c 에 도시된 과도형 스피치 (406) 의 예는 무음형 스피치와 음성형 스피치 사이를 천이하는 s(n) 을 나타낼 수도 있다. 이들 3개의 분류는 모든 것을 포괄하는 것은 아니다. 필적하는 결과들을 달성하기 위해 본 명세서에서 설명된 방법들에 따라 채용될 수도 있는 스피치의 다수의 상이한 분류가 존재한다.
4 GV 광대역 보코더
제 4 세대 보코더 (4GV) 는, "Time Warping Frames Inside the Vocoder by Modifying the Residual" 의 명칭으로 2005년 5월 5일자로 출원되어 본 명세서에 참조로서 완전히 포함되는 공동 계류 중인 특허출원번호 제 11/123,467 호에 더 설명된 바와 같은 무선 네트워크들을 통해 사용하기 위한 매력적인 특징들을 제공한다. 이들 특징들의 일부는 품질 대 비트 레이트를 트레이드-오프시키는 능력, 증가된 패킷 에러 레이트 (PER) 에 직면할 시의 더 복원력있는 보코딩, 이레이저의 더 우수한 은닉 등을 포함한다. 본 발명에 있어서, 스플릿-대역 기술을 이용하여 스피치를 인코딩하는, 즉, 하위 대역과 상위대역이 별개로 인코딩되는 4GV 광대역 보코더가 개시된다.
일 실시형태에 있어서, 입력 신호는 16kHz 에서 샘플링되는 광대역 스피치를 나타낸다. 8kHz 에서 샘플링되는 협대역 (저대역) 신호 및 7kHz 에서 샘플링되는 고대역 신호를 생성하는 분석 필터뱅크가 제공된다. 이 고대역 신호는 입력 신호에 있어서 약 3.5kHz 내지 약 7kHz 의 대역을 나타내지만, 저대역 신호는 약 4kHz 까지의 대역을 나타내며, 최종 복원된 광대역 신호는 대역폭에 있어서 약 7kHz 로 제한될 것이다. 저대역과 고대역 사이에서 대략 500Hz 중첩이 존재하여 그 대역들 간에 더 점진적인 천이를 허용함을 유의해야 한다.
일 양태에 있어서, 협대역 신호는, 20 밀리초의 프레임 사이즈를 갖는 CELP 코더인 협대역 EVRC-B 스피치 코더의 변형된 버전을 이용하여 인코딩된다. 협대역 코더로부터의 수개의 신호들이 고대역 분석 및 합성에 의해 사용되며, (1) 협 대역 코더로부터의 여기 (즉, 양자화된 잔여) 신호; (2) (협대역 신호의 스펙트럼 틸트의 표시자로서의) 양자화된 제 1 반사 계수; (3) 양자화된 적응적 코드북 이득; 및 (4) 양자화된 피치 래그가 존재한다.
4GV 광대역에서 사용되는 변형된 EVRC-B 협대역 인코더는 각각의 프레임 음성 데이터를, 3개의 상이한 프레임 타입, 즉, 코드-여기 선형 예측 (CELP); 잡음-여기 선형 예측 (NELP); 또는 묵음 1/8 레이트 프레임 중 하나로 인코딩한다.
CELP 는, 주기적인 스피치 뿐아니라 불량한 주기성을 갖는 스피치를 포함하는 스피치의 대부분을 인코딩하는데 이용된다. 통상적으로, 비-묵음 프레임들의 약 75% 가 CELP 를 이용하여 변형된 EVRC-B 협대역 인코더에 의해 인코딩된다.
NELP 는 특성에 있어서 잡음과 유사한 스피치를 인코딩하는데 이용된다. 그러한 스피치 세그먼트들의 잡음-유사 특성은 디코더에서 랜덤 신호들을 생성하고 적절한 이득을 그 랜덤 신호들에 적용함으로써 복원될 수도 있다.
1/8 레이트 프레임은 배경 잡음, 즉, 사용자가 말하고 있지 않는 주기를 인코딩하는데 이용된다.
4 GV 광대역 프레임들의 시간-워핑
4GV 광대역 보코더가 하위 대역 및 상위 대역을 별개로 인코딩하기 때문에, 동일한 원리가 프레임들을 시간-워핑함에 있어서 수반된다. 하위 대역은 "Time Warping Frames Inside the Vocoder by Modifying the Residual" 의 명칭인 상술한 공동 계류 중인 특허출원에서 설명된 바와 유사한 기술을 이용하여 시간-워핑된다.
도 3 을 참조하면, 잔여 신호 (30) 에 적용되는 하위 대역 워핑 (32) 이 도 시되어 있다. 잔여 도메인에서 시간-워핑 (32) 을 수행하는 주요 이유는, 이는 LPC 합성 (34) 이 시간-워핑된 잔여 신호에 적용되게 하기 때문이다. LPC 계수들은 스피치가 어떻게 소리나는지에 중요한 역할을 하며, 워핑 (32) 이후에 합성 (34) 을 적용하는 것은 정확한 LPC 정보가 신호에 유지된다는 것을 보장한다. 한편, 시간-워핑이 디코더 이후에 수행된다면, LPC 합성은 시간-워핑 이전에 이미 수행되었다. 따라서, 워핑 절차는, 특히 피치 주기 추정이 그리 정확하지 않았다면 신호의 LPC 정보를 변경할 수도 있다.
스피치 세그먼트가 CELP 일 경우 잔여 신호의 시간- 워핑
잔여물을 워핑하기 위해, 디코더는 인코딩된 프레임에 포함된 피치 지연 정보를 이용한다. 이 피치 지연은 실제로 프레임의 종단에서의 피치 지연이다. 여기서, 주기적인 프레임에 있을지라도, 피치 지연은 조금씩 변하고 있을 수도 있음을 유의해야 한다. 프레임의 임의의 포인트에서의 피치 지연들은 마지막 프레임의 종단의 피치 지연과 현재 프레임의 종단에서의 피치 지연 사이를 보간함으로써 추정될 수도 있다. 이는 도 4 에 도시되어 있다. 일단 프레임의 모든 포인트들에서의 피치 지연들이 공지된다면, 프레임은 피치 주기들로 분할될 수도 있다. 피치 주기들의 경계는 프레임의 다양한 포인트들에서의 피치 지연들을 이용하여 결정된다.
도 4a 는 프레임을 그 피치 주기들로 분할하는 방법의 일 예를 도시한 것이다. 예를 들어, 샘플 번호 70 은 대략 70 의 피치 지연을 가지며, 샘플 번호 142 는 대략 72 의 피치 지연을 가진다. 따라서, 피치 주기들은 [1-70] 및 [71-142] 로부터이다. 이는 도 4b 에 도시되어 있다.
일단 프레임이 피치 주기들로 분할되었으면, 이들 피치 주기들은 잔여물의 사이즈를 증가/감소시키기 위해 중첩/가산될 수도 있다. 중첩/가산 기술은 공지의 기술이며, 도 5a 내지 도 5c 는 중첩/가산 기술이 잔여물을 확장/압축하는데 어떻게 사용되는지를 도시한 것이다.
대안적으로, 피치 주기들은, 스피치 신호가 확장될 필요가 있다면 반복될 수도 있다. 예를 들어, 도 5b 에 있어서, 피치 주기 PP1 은 여분의 피치 주기를 생성하기 위해 (PP2 와 중첩-가산되는 것 대신) 반복될 수도 있다.
더욱이, 피치 주기들의 중첩/가산 및/또는 반복은 요구된 확장/압축의 양을 생성하는데 요구되는 것보다 수배 더 수행될 수도 있다.
도 5a 를 참조하면, 4개의 피치 주기들 (PPs) 로 이루어진 오리지널 스피치 신호가 도시되어 있다. 도 5b 는 이러한 스피치 신호가 중첩/가산을 이용하여 어떻게 확장될 수 있는지를 도시한 것이다. 도 5b 에 있어서, 피치 주기들 (PP2 및 PP1) 은, PP2 의 기여가 감소하게 되고 PP1 의 기여는 증가하고 있도록 중첩/가산된다. 도 5c 는 잔여물을 압축하는데 중첩/가산이 어떻게 이용되는지를 나타낸 것이다.
피치 주기가 변하고 있을 경우, 중첩-가산 기술은 동일하지 않은 길이의 2개의 피치 주기들의 병합을 요구할 수도 있다. 이 경우, 중첩/가산하기 전에 2개의 피치 주기들의 피크들을 정렬함으로써, 더 우수한 병합이 달성될 수도 있다.
최종적으로, 확장/압축된 잔여물은 LPC 합성을 통해 전송된다.
일단 하위 대역이 워핑된다면, 상위 대역은 하위 대역으로부터의 피치 주기를 이용하여 워핑될 필요가 있으며, 즉, 확장에 있어서, 샘플들의 피치 주기는 가산되지만, 압축에 있어서, 피치 주기는 제거된다.
상위 대역을 워핑하는 절차는 하위 대역과는 상이하다. 도 3 을 다시 참조하면, 상위 대역은 잔여 도메인에서 워핑되지 않지만, 대신, 상위 대역 샘플들의 합성 (36) 이후에 워핑 (38) 이 수행된다. 이 이유는, 상위 대역이 7kHz 에서 샘플링되지만 하위 대역은 8kHz 에서 샘플링되기 때문이다. 따라서, (8kHz 에서 샘플링된) 하위 대역의 피치 주기는, 샘플링 레이트가 상위 대역에서와 같은 7kHz 일 경우에 샘플들의 분수가 될 수도 있다. 일 예로서, 피치 주기가 하위 대역에서 25 이다면, 상위 대역의 잔여 도메인에서, 이는, 상위 대역의 잔여물로부터 가산/제거될 25×7/8 = 21.875개 샘플이 필요할 것이다. 분명하게, 샘플들의 분수는 발생될 수 없으므로, 상위 대역은 8kHz 로 재샘플링된 이후에 워핑 (38) 되며, 이는 합성 (36) 이후의 경우이다.
일단 하위 대역이 워핑 (32) 된다면, (160개 샘플로 이루어진) 워핑되지 않은 하위 대역 여기가 상위 대역 디코더에 전달된다. 이 워핑되지 않은 하위 대역 여기를 이용하여, 상위 대역 디코더는 7kHz 에서 상위 대역의 140개 샘플을 생성한다. 그 후, 이들 140개 샘플은 합성 필터 (36) 를 통해 전달되고, 8kHz 에서 재샘플링되어, 160개 상위 대역 샘플을 제공한다.
그 후, 8kHz 에서의 이들 160개 샘플은 하위 대역으로부터의 피치 주기, 및 하위 대역 CELP 스피치 세그먼트를 워핑하는데 이용되는 중첩/가산 기술을 이용하 여 시간-워핑 (38) 된다.
최종적으로, 상위 대역 및 하위 대역은 전체 워핑된 신호를 제공하기 위해 가산 또는 병합된다.
스피치 세그먼트가 NELP 일 경우 잔여 신호의 시간- 워핑
NELP 스피치 세그먼트들에 있어서, 인코더는 하위 대역에 대한 스피치 세그먼트의 상이한 부분들의 이득들 뿐 아니라 오직 LPC 정보만을 인코딩한다. 그 이득들은 16개 PCM 샘플들의 "세그먼트들" 에서 각각 인코딩될 수도 있다. 따라서, 하위 대역은 10개의 인코딩된 이득 값들 (스피치의 16개 샘플들에 대해 각각 하나) 로서 표현될 수도 있다.
디코더는, 랜덤 값들을 생성하고 그 후 그 랜덤 값들에 대해 각각의 이득들을 적용함으로써 하위 대역 잔여 신호를 생성한다. 이 경우, 피치 주기의 어떠한 개념도 존재하지 않으며, 이와 같이, 하위 대역 확장/압축이 피치 주기의 입도 (granularity) 이어야 하는 것은 아니다.
NELP 인코딩된 프레임의 하위 대역을 확장/압축하기 위해, 디코더는 10 보다 크거나/작은 수의 세그먼트들을 생성할 수도 있다. 이 경우에 있어서의 하위 대역 확장/압축은 16개 샘플의 배수 만큼이어서, N = 16×n개 샘플을 안내하며, 여기서, n 은 세그먼트들의 수이다. 확장의 경우, 여분의 부가된 세그먼트들은 제 1 의 10개 세그먼트들의 일부 함수의 이득을 취할 수 있다. 일 예로서, 여분의 세그먼트들은 제 10 의 세그먼트의 이득을 취할 수도 있다.
대안적으로, 디코더는 10개의 디코딩된 이득들을 (16 대신) y개 샘플들의 세 트에 적용함으로써 NELP 인코딩된 프레임의 하위 대역을 확장/압축하여, 확장된 (y > 16) 또는 압축된 (y < 16) 하위 대역 잔여물을 생성할 수도 있다.
그 후, 확장/압축된 잔여물은 LPC 합성을 통해 전송되어, 하위 대역 워핑된 신호를 생성한다.
일단 하위 대역이 워핑된다면, (160개 샘플로 이루어진) 워핑되지 않은 하위 대역 여기가 상위 대역 디코더에 전달된다. 이 워핑되지 않은 하위 대역 여기를 이용하여, 상위 대역 디코더는 7kHz 에서 상위 대역의 140개 샘플을 생성한다. 그 후, 이들 140개 샘플은 합성 필터를 통해 전달되고, 8kHz 에서 재샘플링되어, 160개 상위 대역 샘플을 제공한다.
그 후, 8kHz 에서의 이들 160개 샘플은 CELP 스피치 세그먼트들의 상위 대역 워핑과 유사한 방식으로, 즉, 중첩/가산을 이용하여 시간-워핑된다. NELP 의 상위 대역에 대한 중첩/가산을 이용할 경우, 압축/확장하는 양은 하위 대역에 이용되는 양과 동일하다. 즉, 중첩/가산 방법에 이용되는 "중첩" 은 하위 대역에 있어서의 확장/압축의 양인 것으로 가정된다. 일 예로서, 하위 대역이 워핑 이후에 192개 샘플을 생성하였다면, 중첩/가산 방법에 이용되는 중첩 주기는 192 - 160 = 32 샘플이다.
최종적으로, 상위 대역 및 하위 대역은 전체 워핑된 NELP 스피치 세그먼트를 제공하기 위해 가산된다.
당업자는 정보 및 신호들이 임의의 다양한 서로 다른 기술 및 기법들을 이용하여 표현될 수도 있음을 이해할 것이다. 예를 들어, 상기의 설명 전반에 걸쳐 참조될 수도 있는 데이터, 명령, 커맨드 (commands), 정보, 신호, 비트, 심볼, 및 칩은 전압, 전류, 전자기파, 자계 또는 자성 입자, 광계 또는 광자, 또는 이들의 임의의 조합에 의해 표현될 수도 있다.
당업자는 또한, 본 명세서에서 개시된 실시형태들과 관련하여 설명된 다양한 예시적인 논리 블록들, 모듈들, 회로들, 및 알고리즘 단계들이 전자 하드웨어, 컴퓨터 소프트웨어, 또는 이들의 조합으로서 구현될 수도 있음을 인식할 것이다. 하드웨어와 소프트웨어의 이러한 대체 가능성을 분명히 설명하기 위하여, 다양한 예시적인 컴포넌트들, 블록들, 모듈들, 회로들 및 단계들이 주로 그들의 기능의 관점에서 상술되었다. 그러한 기능이 하드웨어로서 구현될지 소프트웨어로서 구현될지는 전체 시스템에 부과된 특정 애플리케이션 및 설계 제약들에 의존한다. 당업자는 설명된 기능을 각각의 특정 애플리케이션에 대하여 다양한 방식으로 구현할 수도 있지만, 그러한 구현의 결정이 본 발명의 범위를 벗어나게 하는 것으로 해석하지는 않아야 한다.
본 명세서에서 개시된 실시형태들과 관련하여 설명된 다양한 예시적인 논리 블록들, 모듈들, 및 회로들은 범용 프로세서, 디지털 신호 프로세서 (DSP), 주문형 집적회로 (ASIC), 필드 프로그래머블 게이트 어레이 (FPGA) 또는 다른 프로그래머블 로직 디바이스, 별개의 게이트 또는 트랜지스터 로직, 별개의 하드웨어 컴포넌트들, 또는 본 명세서에서 설명된 기능들을 수행하도록 설계된 이들의 임의의 조합으로 구현 또는 수행될 수도 있다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안적으로, 그 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로 제 어기, 또는 상태 기계일 수도 있다. 또한, 프로세서는 컴퓨팅 디바이스들의 조합, 예를 들어, DSP 와 마이크로프로세서의 조합, 복수의 마이크로프로세서들, DSP 코어와 결합된 하나 이상의 마이크로프로세서들, 또는 임의의 기타 다른 구성으로서 구현될 수도 있다.
본 명세서에 개시된 실시형태들과 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로, 프로세서에 의해 실행되는 소프트웨어 모듈로, 또는 그 2 개의 조합으로 직접 구현될 수도 있다. 소프트웨어 모듈은 랜덤 액세스 메모리 (RAM), 플래시 메모리, 판독 전용 메모리 (ROM), 전기적 프로그래머블 ROM (EPROM), 전기적 소거가능 프로그래머블 ROM (EEPROM), 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM, 또는 당업계에 알려진 임의의 다른 형태의 저장 매체에 상주할 수도 있다. 예시적인 저장 매체는 프로세서에 커플링되어, 그 프로세서는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 대안적으로, 저장 매체는 프로세서와 일체형일 수도 있다. 프로세서 및 저장 매체는 ASIC 내에 상주할 수도 있다. ASIC 은 사용자 단말기 내에 상주할 수도 있다. 대안적으로, 프로세서 및 저장 매체는 사용자 단말기 내에 별개의 컴포넌트들로서 상주할 수도 있다.
개시된 실시형태들에 대한 상기의 설명은 당업자로 하여금 본 발명을 제조 또는 이용할 수 있도록 제공된다. 이들 실시형태들에 대한 다양한 변형들은 당업자에게 명백할 것이며, 본 명세서에서 정의된 일반적인 원리들은 본 발명의 사상 또는 범위를 벗어나지 않고도 다른 실시형태들에 적용될 수도 있다. 따라서, 본 발명은 본 명세서에 설명된 실시형태들에 한정되도록 의도되지 않고, 본 명세서에서 개시된 원리 및 신규한 특징들과 부합하는 최광의 범위를 부여하려는 것이다.

Claims (56)

  1. 잔여 저대역 스피치 신호의 확장된 또는 압축된 버전으로 상기 잔여 저대역 스피치 신호를 시간-워핑하는 단계;
    고대역 스피치 신호의 확장된 또는 압축된 버전으로 상기 고대역 스피치 신호를 시간-워핑하는 단계로서, 상기 고대역 스피치 신호를 시간-워핑하는 단계는,
    상기 잔여 저대역 스피치 신호로부터 복수의 피치 주기들을 결정하는 단계;
    상기 잔여 저대역 스피치 신호로부터의 복수의 피치 주기들을 이용하는 단계;
    상기 고대역 스피치 신호가 압축된다면 하나 이상의 피치 주기들을 중첩/가산하는 단계; 및
    상기 고대역 스피치 신호가 확장된다면 하나 이상의 피치 주기들을 중첩/가산 또는 반복하는 단계를 포함하는, 상기 고대역 스피치 신호를 시간-워핑하는 단계; 및
    상기 시간 워핑된 잔여 저대역 스피치 신호와 상기 시간-워핑된 고대역 스피치 신호를 병합하여 전체 시간-워핑된 스피치 신호를 제공하는 단계를 포함하는, 스피치 전달 방법.
  2. 제 1 항에 있어서,
    상기 시간-워핑된 잔여 저대역 스피치 신호를 합성하는 단계를 더 포함하는, 스피치 전달 방법.
  3. 제 2 항에 있어서,
    상기 고대역 스피치 신호를 시간-워핑하기 전에 합성하는 단계를 더 포함하는, 스피치 전달 방법.
  4. 제 3 항에 있어서,
    스피치 세그먼트들을 분류하는 단계; 및
    상기 스피치 세그먼트들을 인코딩하는 단계를 더 포함하는, 스피치 전달 방법.
  5. 제 4 항에 있어서,
    상기 스피치 세그먼트들을 인코딩하는 단계는 코드-여기 선형 예측, 잡음-여기 선형 예측 또는 1/8 프레임 코딩을 이용하는 단계를 포함하는, 스피치 전달 방법.
  6. 제 4 항에 있어서,
    상기 인코딩은 코드-여기 선형 예측 인코딩인, 스피치 전달 방법.
  7. 제 4 항에 있어서,
    상기 인코딩은 잡음-여기 선형 예측 인코딩인, 스피치 전달 방법.
  8. 제 7 항에 있어서,
    상기 인코딩하는 단계는 선형 예측 코딩 정보를 스피치 프레임의 상이한 부분들의 이득들로서 인코딩하는 단계를 포함하는, 스피치 전달 방법.
  9. 제 8 항에 있어서,
    상기 이득들은 스피치 샘플들의 세트들에 대해 인코딩되는, 스피치 전달 방 법.
  10. 제 9 항에 있어서,
    랜덤 값들을 생성한 후 상기 랜덤 값들에 상기 이득들을 적용함으로써 잔여 저대역 신호를 생성하는 단계를 더 포함하는, 스피치 전달 방법.
  11. 제 9 항에 있어서,
    상기 선형 예측 코딩 정보를 상기 잔여 저대역 스피치 신호에 대한 10개의 인코딩된 이득 값들로서 나타내는 단계를 더 포함하며,
    각각의 인코딩된 이득 값은 스피치의 16개 샘플을 나타내는, 스피치 전달 방법.
  12. 제 7 항에 있어서,
    워핑되지 않은 저대역 여기 신호로부터 상기 고대역 스피치 신호의 140개 샘플을 생성하는 단계를 더 포함하는, 스피치 전달 방법.
  13. 제 7 항에 있어서,
    상기 잔여 저대역 스피치 신호를 시간-워핑하는 단계는, 더 큰/더 작은 수의 샘플들을 생성하는 단계, 및 스피치 프레임의 부분들의 디코딩된 이득들의 일부 함수를 잔여물에 적용한 후 그 잔여물을 합성하는 단계를 포함하는, 스피치 전달 방 법.
  14. 제 13 항에 있어서,
    상기 스피치 프레임의 부분들의 디코딩된 이득들의 일부 함수를 잔여물에 적용하는 것은 하위 대역이 확장될 경우에 마지막 스피치 세그먼트의 이득을 부가적인 샘플들에 적용하는 것을 포함하는, 스피치 전달 방법.
  15. 제 7 항에 있어서,
    상기 고대역 스피치 신호를 시간-워핑하는 단계는,
    상기 고대역 스피치 신호가 압축된다면 하위 대역에서 압축된 것과 동일한 수의 샘플들을 중첩/가산하는 단계; 및
    상기 고대역 스피치 신호가 확장된다면 상기 하위 대역에서 확장된 것과 동일한 수의 샘플들을 중첩/가산하는 단계를 포함하는, 스피치 전달 방법.
  16. 제 6 항에 있어서,
    상기 잔여 저대역 스피치 신호를 시간-워핑하는 단계는,
    적어도 하나의 피치 주기들을 추정하는 단계; 및
    상기 잔여 저대역 스피치 신호를 수신한 후, 상기 피치 주기들 중 적어도 하나를 가산 또는 감산하는 단계를 포함하는, 스피치 전달 방법.
  17. 삭제
  18. 제 6 항에 있어서,
    상기 잔여 저대역 스피치 신호를 시간-워핑하는 단계는,
    피치 지연을 추정하는 단계;
    스피치 프레임을 피치 주기들로 분할하는 단계로서, 상기 피치 주기들의 경계는 상기 스피치 프레임의 다양한 포인트들에서의 피치 지연을 이용하여 결정되는, 상기 분할하는 단계;
    상기 잔여 저대역 스피치 신호가 압축된다면 상기 피치 주기들을 중첩/가산하는 단계; 및
    상기 잔여 저대역 스피치 신호가 확장된다면 하나 이상의 피치 주기들을 중첩/가산 또는 반복하는 단계를 포함하는, 스피치 전달 방법.
  19. 삭제
  20. 제 18 항에 있어서,
    상기 피치 지연을 추정하는 단계는 마지막 프레임의 종단의 피치 지연과 현재 프레임의 종단의 피치 지연 사이를 보간하는 단계를 포함하는, 스피치 전달 방법.
  21. 제 18 항에 있어서,
    상기 하나 이상의 피치 주기들을 중첩/가산 또는 반복하는 단계는 상기 스피치 세그먼트들을 병합하는 단계를 포함하는, 스피치 전달 방법.
  22. 제 18 항에 있어서,
    상기 잔여 저대역 스피치 신호가 확장된다면 하나 이상의 피치 주기들을 중첩/가산 또는 반복하는 단계는 제 1 피치 주기 세그먼트 및 제 2 피치 주기 세그먼트로부터 생성된 부가적인 피치 주기를 가산하는 단계를 포함하는, 스피치 전달 방법.
  23. 제 21 항에 있어서,
    유사한 스피치 세그먼트들을 선택하는 단계를 더 포함하며,
    상기 유사한 스피치 세그먼트들은 병합되는, 스피치 전달 방법.
  24. 제 21 항에 있어서,
    상기 스피치 세그먼트들을 상관시켜 유사한 스피치 세그먼트들이 선택되는 단계를 더 포함하는, 스피치 전달 방법.
  25. 제 22 항에 있어서,
    상기 제 1 피치 주기 세그먼트 및 제 2 피치 주기 세그먼트로부터 생성된 부가적인 피치 주기를 가산하는 단계는, 상기 제 1 피치 주기 세그먼트의 기여가 증가하고 상기 제 2 피치 주기 세그먼트의 기여가 감소하도록 상기 제 1 피치 주기 세그먼트와 상기 제 2 피치 세그먼트를 가산하는 단계를 포함하는, 스피치 전달 방법.
  26. 제 1 항에 있어서,
    상기 저대역은 4kHz 를 포함하여 4kHz 까지의 대역을 나타내는, 스피치 전달 방법.
  27. 제 1 항에 있어서,
    상기 고대역은 약 3.5kHz 내지 약 7kHz 의 대역을 나타내는, 스피치 전달 방법.
  28. 적어도 하나의 입력부 및 적어도 하나의 출력부를 갖는 보코더로서,
    상기 보코더의 상기 입력부에 동작가능하게 접속된 적어도 하나의 입력부 및 적어도 하나의 출력부를 갖는 필터를 포함하는 인코더; 및
    상기 인코더의 상기 적어도 하나의 출력부에 동작가능하게 접속된 적어도 하나의 입력부 및 상기 보코더의 상기 적어도 하나의 출력부에 동작가능하게 접속된 적어도 하나의 출력부를 갖는 합성기 및 메모리를 포함하는 디코더를 포함하고,
    상기 디코더는 상기 메모리에 저장된 소프트웨어 명령들을 실행하도록 구성되며,
    상기 소프트웨어 명령들은,
    잔여 저대역 스피치 신호의 확장된 또는 압축된 버전으로 상기 잔여 저대역 스피치 신호를 시간-워핑하는 것;
    고대역 스피치 신호의 확장된 또는 압축된 버전으로 상기 고대역 스피치 신호를 시간-워핑하는 것으로서, 상기 고대역 스피치 신호를 시간-워핑하는 것은 상기 잔여 저대역 스피치 신호로부터 복수의 피치 주기들을 결정하는 것, 상기 잔여 저대역 스피치 신호로부터의 복수의 피치 주기들을 이용하는 것, 상기 고대역 스피치 신호가 압축된다면 하나 이상의 피치 주기들을 중첩/가산하는 것 및 상기 고대역 스피치 신호가 확장된다면 하나 이상의 피치 주기들을 중첩/가산 또는 반복하는 것을 포함하는, 상기 고대역 스피치 신호를 시간-워핑하는 것; 및
    상기 시간-워핑된 잔여 저대역 스피치 신호와 상기 시간-워핑된 고대역 스피치 신호를 병합하여 전체 시간-워핑된 스피치 신호를 제공하는 것을 포함하는, 보코더.
  29. 삭제
  30. 제 28 항에 있어서,
    상기 합성기는 상기 시간-워핑된 잔여 저대역 스피치 신호를 합성하는 수단을 포함하는, 보코더.
  31. 제 30 항에 있어서,
    상기 합성기는 상기 고대역 스피치 신호를 시간-워핑 전에 합성하는 수단을 더 포함하는, 보코더.
  32. 제 28 항에 있어서,
    상기 인코더는 메모리를 포함하고,
    상기 인코더는 상기 메모리에 저장된 소프트웨어 명령들을 실행하도록 구성되며,
    상기 소프트웨어 명령들은, 스피치 세그먼트들을 1/8 프레임, 코드-여기 선형 예측 또는 잡음-여기 선형 예측으로서 분류하는 것을 포함하는, 보코더.
  33. 제 31 항에 있어서,
    상기 인코더는 메모리를 포함하고,
    상기 인코더는 상기 메모리에 저장된 소프트웨어 명령들을 실행하도록 구성되며,
    상기 소프트웨어 명령들은, 코드-여기 선형 예측 인코딩을 이용하여 스피치 세그먼트들을 인코딩하는 것을 포함하는, 보코더.
  34. 제 31 항에 있어서,
    상기 인코더는 메모리를 포함하고,
    상기 인코더는 상기 메모리에 저장된 소프트웨어 명령들을 실행하도록 구성되며,
    상기 소프트웨어 명령들은, 잡음-여기 선형 예측 인코딩을 이용하여 스피치 세그먼트들을 인코딩하는 것을 포함하는, 보코더.
  35. 제 34 항에 있어서,
    상기 잡음-여기 선형 예측 인코딩을 이용하여 스피치 세그먼트들을 인코딩하는 소프트웨어 명령은 선형 예측 코딩 정보를 스피치 세그먼트의 상이한 부분들의 이득들로서 인코딩하는 것을 포함하는, 보코더.
  36. 제 35 항에 있어서,
    상기 이득들은 스피치 샘플들의 세트들에 대해 인코딩되는, 보코더.
  37. 제 36 항에 있어서,
    상기 잔여 저대역 스피치 신호를 시간-워핑하는 명령은, 랜덤 값들을 생성한 후 상기 랜덤 값들에 상기 이득들을 적용함으로써 잔여 저대역 스피치 신호를 생성하는 것을 더 포함하는, 보코더.
  38. 제 36 항에 있어서,
    상기 잔여 저대역 스피치 신호를 시간-워핑하는 명령은, 상기 선형 예측 코딩 정보를 상기 잔여 저대역 스피치 신호에 대한 10개의 인코딩된 이득 값들로서 나타내는 것을 더 포함하며,
    각각의 인코딩된 이득 값은 스피치의 16개 샘플을 나타내는, 보코더.
  39. 제 34 항에 있어서,
    워핑되지 않은 저대역 여기 신호로부터 상기 고대역 스피치 신호의 140개 샘플을 생성하는 것을 더 포함하는, 보코더.
  40. 제 34 항에 있어서,
    상기 잔여 저대역 스피치 신호를 시간-워핑하는 소프트웨어 명령은, 더 큰/더 작은 수의 샘플들을 생성하는 것 및 스피치 프레임의 부분들의 디코딩된 이득들의 일부 함수를 잔여물에 적용한 후 그 잔여물을 합성하는 것을 포함하는, 보코더.
  41. 제 40 항에 있어서,
    상기 스피치 프레임의 부분들의 디코딩된 이득들의 일부 함수를 잔여물에 적용하는 것은, 하위 대역이 확장될 경우에 마지막 스피치 세그먼트의 이득을 부가적인 샘플들에 적용하는 것을 포함하는, 보코더.
  42. 제 33 항에 있어서,
    상기 고대역 스피치 신호를 시간-워핑하는 소프트웨어 명령은,
    상기 고대역 스피치 신호가 압축된다면 하위 대역에서 압축된 것과 동일한 수의 샘플들을 중첩/가산하는 것; 및
    상기 고대역 스피치 신호가 확장된다면 상기 하위 대역에서 확장된 것과 동일한 수의 샘플들을 중첩/가산하는 것을 포함하는, 보코더.
  43. 제 33 항에 있어서,
    상기 잔여 저대역 스피치 신호를 시간-워핑하는 소프트웨어 명령은,
    적어도 하나의 피치 주기를 추정하는 것; 및
    상기 잔여 저대역 스피치 신호를 수신한 후, 상기 적어도 하나의 피치 주기를 가산 또는 감산하는 것을 포함하는, 보코더.
  44. 삭제
  45. 제 33 항에 있어서,
    상기 잔여 저대역 스피치 신호를 시간-워핑하는 소프트웨어 명령은,
    피치 지연을 추정하는 것;
    스피치 프레임을 피치 주기들로 분할하는 것으로서, 상기 피치 주기들의 경계는 상기 스피치 프레임의 다양한 포인트들에서의 피치 지연을 이용하여 결정되는, 상기 분할하는 것;
    상기 잔여 저대역 스피치 신호가 압축된다면 상기 피치 주기들을 중첩/가산하는 것; 및
    상기 잔여 저대역 스피치 신호가 확장된다면 하나 이상의 피치 주기들을 중첩/가산 또는 반복하는 것을 포함하는, 보코더.
  46. 삭제
  47. 제 45 항에 있어서,
    상기 잔여 저대역 스피치 신호가 압축된다면 상기 피치 주기들을 중첩/가산하는 명령은,
    입력 샘플 시퀀스를 샘플들의 블록으로 세그먼트화하는 것;
    상기 잔여 저대역 스피치 신호의 세그먼트들을 일정한 시간 간격으로 제거하는 것;
    상기 제거된 세그먼트들을 병합하는 것; 및
    상기 제거된 세그먼트들을 병합된 세그먼트로 대체하는 것을 포함하는, 보코더.
  48. 제 45 항에 있어서,
    상기 피치 지연을 추정하는 명령은 마지막 프레임의 종단의 피치 지연과 현재 프레임의 종단의 피치 지연 사이를 보간하는 것을 포함하는, 보코더.
  49. 제 45 항에 있어서,
    상기 하나 이상의 피치 주기들을 중첩/가산 또는 반복하는 명령은 상기 스피치 세그먼트들을 병합하는 것을 포함하는, 보코더.
  50. 제 45 항에 있어서,
    상기 잔여 저대역 스피치 신호가 확장된다면 하나 이상의 피치 주기들을 중첩/가산 또는 반복하는 명령은 제 1 피치 주기 세그먼트 및 제 2 피치 주기 세그먼트로부터 생성된 부가적인 피치 주기를 가산하는 것을 포함하는, 보코더.
  51. 제 47 항에 있어서,
    상기 제거된 세그먼트들을 병합하는 명령은 제 1 피치 주기 세그먼트의 기여를 증가시키는 것 및 제 2 피치 주기 세그먼트의 기여를 감소시키는 것을 포함하는, 보코더.
  52. 제 49 항에 있어서,
    유사한 스피치 세그먼트들을 선택하는 것을 더 포함하며,
    상기 유사한 스피치 세그먼트들은 병합되는, 보코더.
  53. 제 49 항에 있어서,
    상기 잔여 저대역 스피치 신호를 시간-워핑하는 명령은, 상기 스피치 세그먼트들을 상관시켜 유사한 스피치 세그먼트들이 선택되는 것을 더 포함하는, 보코더.
  54. 제 50 항에 있어서,
    상기 제 1 피치 주기 세그먼트 및 제 2 피치 주기 세그먼트로부터 생성된 부가적인 피치 주기를 가산하는 명령은, 상기 제 1 피치 주기 세그먼트의 기여가 증가하고 상기 제 2 피치 주기 세그먼트의 기여가 감소하도록 상기 제 1 피치 주기 세그먼트와 상기 제 2 피치 주기 세그먼트를 가산하는 것을 포함하는, 보코더.
  55. 제 28 항에 있어서,
    상기 저대역은 4kHz 를 포함하여 4kHz 까지의 대역을 나타내는, 보코더.
  56. 제 28 항에 있어서,
    상기 고대역은 약 3.5kHz 내지 약 7kHz 의 대역을 나타내는, 보코더.
KR1020097005598A 2006-08-22 2007-08-06 광대역 보코더의 프레임들의 시간-워핑 KR101058761B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/508,396 US8239190B2 (en) 2006-08-22 2006-08-22 Time-warping frames of wideband vocoder
US11/508,396 2006-08-22
PCT/US2007/075284 WO2008024615A2 (en) 2006-08-22 2007-08-06 Time-warping frames of wideband vocoder

Publications (2)

Publication Number Publication Date
KR20090053917A KR20090053917A (ko) 2009-05-28
KR101058761B1 true KR101058761B1 (ko) 2011-08-24

Family

ID=38926197

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097005598A KR101058761B1 (ko) 2006-08-22 2007-08-06 광대역 보코더의 프레임들의 시간-워핑

Country Status (10)

Country Link
US (1) US8239190B2 (ko)
EP (1) EP2059925A2 (ko)
JP (1) JP5006398B2 (ko)
KR (1) KR101058761B1 (ko)
CN (1) CN101506877B (ko)
BR (1) BRPI0715978A2 (ko)
CA (1) CA2659197C (ko)
RU (1) RU2414010C2 (ko)
TW (1) TWI340377B (ko)
WO (1) WO2008024615A2 (ko)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
WO2009112141A1 (en) * 2008-03-10 2009-09-17 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Zur Förderung E.V. Device and method for manipulating an audio signal having a transient event
US8768690B2 (en) 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
ES2758799T3 (es) * 2008-07-11 2020-05-06 Fraunhofer Ges Forschung Método y aparato para codificar y decodificar una señal de audio y programas informáticos
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
US8428938B2 (en) * 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
RU2586848C2 (ru) 2010-03-10 2016-06-10 Долби Интернейшнл АБ Декодер звукового сигнала, кодирующее устройство звукового сигнала, способы и компьютерная программа, использующие зависящее от частоты выборки кодирование контура деформации времени
KR101809298B1 (ko) 2010-10-06 2017-12-14 파나소닉 주식회사 부호화 장치, 복호 장치, 부호화 방법 및 복호 방법
CN102201240B (zh) * 2011-05-27 2012-10-03 中国科学院自动化研究所 基于逆滤波的谐波噪声激励模型声码器
JP6303340B2 (ja) * 2013-08-30 2018-04-04 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
US10083708B2 (en) * 2013-10-11 2018-09-25 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal
EP3136387B1 (en) * 2014-04-24 2018-12-12 Nippon Telegraph and Telephone Corporation Frequency domain parameter sequence generating method, encoding method, decoding method, frequency domain parameter sequence generating apparatus, encoding apparatus, decoding apparatus, program, and recording medium
CN112820305B (zh) * 2014-05-01 2023-12-15 日本电信电话株式会社 编码装置、编码方法、编码程序、记录介质
DE102018206689A1 (de) * 2018-04-30 2019-10-31 Sivantos Pte. Ltd. Verfahren zur Rauschunterdrückung in einem Audiosignal

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010023399A1 (en) * 2000-03-09 2001-09-20 Jun Matsumoto Audio signal processing apparatus and signal processing method of the same
US20020016711A1 (en) * 1998-12-21 2002-02-07 Sharath Manjunath Encoding of periodic speech using prototype waveforms
US20060184861A1 (en) * 2005-01-20 2006-08-17 Stmicroelectronics Asia Pacific Pte. Ltd. (Sg) Method and system for lost packet concealment in high quality audio streaming applications

Family Cites Families (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2412987A1 (fr) * 1977-12-23 1979-07-20 Ibm France Procede de compression de donnees relatives au signal vocal et dispositif mettant en oeuvre ledit procede
US4570232A (en) * 1981-12-21 1986-02-11 Nippon Telegraph & Telephone Public Corporation Speech recognition apparatus
CA1204855A (en) * 1982-03-23 1986-05-20 Phillip J. Bloom Method and apparatus for use in processing signals
US5210820A (en) * 1990-05-02 1993-05-11 Broadcast Data Systems Limited Partnership Signal recognition system and method
JP3277398B2 (ja) * 1992-04-15 2002-04-22 ソニー株式会社 有声音判別方法
DE4324853C1 (de) 1993-07-23 1994-09-22 Siemens Ag Spannungserzeugungsschaltung
US5517595A (en) * 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
US5717823A (en) 1994-04-14 1998-02-10 Lucent Technologies Inc. Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders
US5594174A (en) * 1994-06-06 1997-01-14 University Of Washington System and method for measuring acoustic reflectance
US5787387A (en) * 1994-07-11 1998-07-28 Voxware, Inc. Harmonic adaptive speech coding method and system
US5598505A (en) * 1994-09-30 1997-01-28 Apple Computer, Inc. Cepstral correction vector quantizer for speech recognition
JP2976860B2 (ja) 1995-09-13 1999-11-10 松下電器産業株式会社 再生装置
EP0858650B1 (en) * 1995-10-23 2003-08-13 The Regents Of The University Of California Control structure for sound synthesis
TW321810B (ko) * 1995-10-26 1997-12-01 Sony Co Ltd
US5749073A (en) * 1996-03-15 1998-05-05 Interval Research Corporation System for automatically morphing audio information
US5828994A (en) * 1996-06-05 1998-10-27 Interval Research Corporation Non-uniform time scale modification of recorded audio
US6766300B1 (en) * 1996-11-07 2004-07-20 Creative Technology Ltd. Method and apparatus for transient detection and non-distortion time scaling
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
FR2786308B1 (fr) * 1998-11-20 2001-02-09 Sextant Avionique Procede de reconnaissance vocale dans un signal acoustique bruite et systeme mettant en oeuvre ce procede
US6691084B2 (en) 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US7315815B1 (en) 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
US6842735B1 (en) * 1999-12-17 2005-01-11 Interval Research Corporation Time-scale modification of data-compressed audio information
US6735563B1 (en) 2000-07-13 2004-05-11 Qualcomm, Inc. Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
US6671669B1 (en) 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US6477502B1 (en) * 2000-08-22 2002-11-05 Qualcomm Incorporated Method and apparatus for using non-symmetric speech coders to produce non-symmetric links in a wireless communication system
US6754629B1 (en) 2000-09-08 2004-06-22 Qualcomm Incorporated System and method for automatic voice recognition using mapping
KR20020070374A (ko) * 2000-11-03 2002-09-06 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호들의 매개변수적 코딩
US7472059B2 (en) * 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
US20020133334A1 (en) * 2001-02-02 2002-09-19 Geert Coorman Time scale modification of digitally sampled waveforms in the time domain
US6999598B2 (en) * 2001-03-23 2006-02-14 Fuji Xerox Co., Ltd. Systems and methods for embedding data by dimensional compression and expansion
CA2365203A1 (en) 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
US20030182106A1 (en) * 2002-03-13 2003-09-25 Spectral Design Method and device for changing the temporal length and/or the tone pitch of a discrete audio signal
US7254533B1 (en) * 2002-10-17 2007-08-07 Dilithium Networks Pty Ltd. Method and apparatus for a thin CELP voice codec
US7394833B2 (en) * 2003-02-11 2008-07-01 Nokia Corporation Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification
US7024358B2 (en) * 2003-03-15 2006-04-04 Mindspeed Technologies, Inc. Recovering an erased voice frame with time warping
US7433815B2 (en) * 2003-09-10 2008-10-07 Dilithium Networks Pty Ltd. Method and apparatus for voice transcoding between variable rate coders
US7672838B1 (en) * 2003-12-01 2010-03-02 The Trustees Of Columbia University In The City Of New York Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals
US20050137730A1 (en) * 2003-12-18 2005-06-23 Steven Trautmann Time-scale modification of audio using separated frequency bands
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
EP1750397A4 (en) 2004-05-26 2007-10-31 Nippon Telegraph & Telephone SOUND PACKET PLAY PROCESS, SOUND PACKET PLAYER, SOUNDPACK PLAYBACK PROGRAM AND RECORDING MEDIUM
ES2405750T3 (es) * 2004-08-30 2013-06-03 Qualcomm Incorporated Procedimiento y aparato de memoria intermedia de supresión de fluctuación adaptativa
US8085678B2 (en) * 2004-10-13 2011-12-27 Qualcomm Incorporated Media (voice) playback (de-jitter) buffer adjustments based on air interface
US8155965B2 (en) 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
US8355907B2 (en) * 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
DE602006012637D1 (de) * 2005-04-01 2010-04-15 Qualcomm Inc Vorrichtung und Verfahren für die Teilband-Sprachkodierung
US7945305B2 (en) * 2005-04-14 2011-05-17 The Board Of Trustees Of The University Of Illinois Adaptive acquisition and reconstruction of dynamic MR images
US7490036B2 (en) * 2005-10-20 2009-02-10 Motorola, Inc. Adaptive equalizer for a coded speech signal
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020016711A1 (en) * 1998-12-21 2002-02-07 Sharath Manjunath Encoding of periodic speech using prototype waveforms
US20010023399A1 (en) * 2000-03-09 2001-09-20 Jun Matsumoto Audio signal processing apparatus and signal processing method of the same
US20060184861A1 (en) * 2005-01-20 2006-08-17 Stmicroelectronics Asia Pacific Pte. Ltd. (Sg) Method and system for lost packet concealment in high quality audio streaming applications

Also Published As

Publication number Publication date
WO2008024615A3 (en) 2008-04-17
CN101506877B (zh) 2012-11-28
US20080052065A1 (en) 2008-02-28
US8239190B2 (en) 2012-08-07
WO2008024615A2 (en) 2008-02-28
TW200822062A (en) 2008-05-16
EP2059925A2 (en) 2009-05-20
TWI340377B (en) 2011-04-11
BRPI0715978A2 (pt) 2013-08-06
JP2010501896A (ja) 2010-01-21
KR20090053917A (ko) 2009-05-28
RU2009110202A (ru) 2010-10-27
CN101506877A (zh) 2009-08-12
RU2414010C2 (ru) 2011-03-10
CA2659197C (en) 2013-06-25
JP5006398B2 (ja) 2012-08-22
CA2659197A1 (en) 2008-02-28

Similar Documents

Publication Publication Date Title
KR101058761B1 (ko) 광대역 보코더의 프레임들의 시간-워핑
KR100957265B1 (ko) 잔여분 변경에 의한 보코더 내부의 프레임들을 시간 와핑하는 시스템 및 방법
JP5373217B2 (ja) 可変レートスピーチ符号化
JP2010501896A5 (ko)
KR100956526B1 (ko) 보코더에서 프레임을 위상 매칭하는 방법 및 장치
US9653088B2 (en) Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
EP3039676B1 (en) Adaptive bandwidth extension and apparatus for the same
KR101436715B1 (ko) 광대역 스피치 코딩을 위한 시스템들, 방법들, 장치, 및 컴퓨터 프로그램 제품들
RU2585999C2 (ru) Генерирование шума в аудиокодеках
KR100982638B1 (ko) 고대역 시간 왜곡을 위한 시스템들, 방법들, 및 장치들
EP3352169B1 (en) Unvoiced decision for speech processing
JP2009522588A (ja) 音声コーデック内の効率的なフレーム消去隠蔽の方法およびデバイス
KR20170117621A (ko) 대역폭 확장 방법 및 장치
Alipoor et al. Wide-band speech coding based on bandwidth extension and sparse linear prediction
JP2000514207A (ja) 音声合成システム
JPH02160300A (ja) 音声符号化方式

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140730

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160629

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170629

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20180628

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190624

Year of fee payment: 9