KR20070112832A - 잔여분 변경에 의한 보코더 내부의 시간 와핑 프레임들 - Google Patents

잔여분 변경에 의한 보코더 내부의 시간 와핑 프레임들 Download PDF

Info

Publication number
KR20070112832A
KR20070112832A KR1020077022667A KR20077022667A KR20070112832A KR 20070112832 A KR20070112832 A KR 20070112832A KR 1020077022667 A KR1020077022667 A KR 1020077022667A KR 20077022667 A KR20077022667 A KR 20077022667A KR 20070112832 A KR20070112832 A KR 20070112832A
Authority
KR
South Korea
Prior art keywords
pitch
speech
residual
signal
segment
Prior art date
Application number
KR1020077022667A
Other languages
English (en)
Other versions
KR100956623B1 (ko
Inventor
로히트 카푸어
세라핀 디아즈 스핀돌라
Original Assignee
콸콤 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=36575961&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR20070112832(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 콸콤 인코포레이티드 filed Critical 콸콤 인코포레이티드
Publication of KR20070112832A publication Critical patent/KR20070112832A/ko
Application granted granted Critical
Publication of KR100956623B1 publication Critical patent/KR100956623B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electric Clocks (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

일 실시예에서, 본 발명은 적어도 하나의 입력 및 적어도 하나의 출력을 갖는 보코더, 상기 보코더의 입력에 동작가능하게 연결된 적어도 하나의 입력 및 적어도 하나의 출력을 갖는 필터를 포함하는 인코더, 상기 인코더의 적어도 하나의 출력에 동작가능하게 연결된 적어도 하나의 입력 및 상기 보코더의 적어도 하나의 출력에 동작가능하게 연결된 적어도 하나의 출력을 갖는 합성기를 포함하며, 상기 인코더는 메모리를 포함하며, 상기 인코더는 음성 세그먼트들을 분류하고 음성 세그먼트들을 인코딩하는, 메모리에 저장된 명령을 실행하도록 적용되며,
상기 디코더는 메모리를 포함하며, 상기 디코더는 잔여 신호를 확장 또는 압축된 버젼의 잔여 음성 신호로 시간-와핑하는 것을 포함하는, 상기 메모리에 저장된 소프트웨어 명령을 실행하도록 적용된다.

Description

잔여분 변경에 의한 보코더 내부의 시간 와핑 프레임들{TIME WARPING FRAMES INSIDE THE VOCODER BY MODIFYING THE RESIDUAL}
본 출원은 2005년 3월 11일 출원된 "Time Warping Frames Inside the Vocoder by Modifying the Residual"이라는 명칭의 미국 가출원 60/660,824를 우선권으로 주장하는데, 상기 가출원은 본 출원의 일부로서 본 명세서에 참조된다.
본 발명은 통상적으로 보코더에서 보코더 프레임들을 시간 와핑(확장 또는 비교)하는 방법에 관한 것이다. 시간 와핑은 패킷 스위칭된 네트워크에서 다수의 애플리케이션을 가지며, 보코더 패킷은 동기적으로 도달할 수도 있다. 시간 와핑이 보코더 내부 또는 보코더 외부에서 실행될 수도 있지만, 보코더에서 이를 실행하는 것은 와핑된 프레임의 더욱 우수한 품질 및 감소된 계산 로드와 같은 다수의 장점을 제공한다. 본 문서에 제공된 방법은 음성 데이터를 보코딩하기 위해 본 명세서에서 참조되는 유사한 기술을 이용하는 소정의 보코더에 적용될 수 있다.
본 발명은 음성 신호를 조작함으로써 음성 프레임들을 시간 와핑하는 장치 및 방법을 포함한다. 일 실시예에서, 본 발명 및 장치는 4세대 보코더(4GV)에 사용되며, 이에 한정되지는 않는다. 개시된 실시예는 음성 세그먼트의 상이한 타입을 확장/압축하기 위한 방법 및 장치를 포함한다.
전술한 관점에서, 본 발명의 설명된 특징은 일반적으로 음성 통신을 위해 하나 이상의 개선된 시스템, 방법 및/또는 장치에 관련된다.
일 실시예에서, 본 발명은 음성 세그먼트를 분류하는 단계, 코드 여기 선형 예측을 이용하여 음성 세그먼트를 인코딩하는 단계, 및 잔여 음성 신호의 확장 또는 압축된 버젼에 대해 잔여 음성 신호를 시간 와핑하는 단계를 포함한다.
다른 실시예에서, 음성을 통신하는 방법은 선형 예측 코딩 필터를 통해 음선 신호를 전송하는 단계를 더 포함하며, 그로 인해 음선 신호에서 단기간 상관이 제거되고, 선형 예측 코딩 상수 및 잔여 신호를 출력한다.
다른 실시예에서, 인코딩은 코더 여기된 선형 예측 인코딩이며, 시간 와핑 단계는 피치 지연을 추정하는 단계, 음성 프레임을 피치 기간으로 분할하는 단계를 포함하며, 여기서 피치 기간의 경계는 음성 프레임의 다양한 포인트에서 피치 지연을 이용하고, 만일 피치 지연 신호가 압축된 경우 피치 기간을 오버랩핑하고, 만일 피치 잔여 신호가 확장된 경우 피치 기간을 부가하여 결정된다.
다른 실시예에서, 인코딩은 피치 기간 인코딩이며, 시간 와핑의 단계는 적어도 하나의 피치 기간을 추정하는 단계, 적어도 하나의 피치 기간을 인터폴레이팅하는 단계, 잔여 음성 신호를 확장할 때 적어도 하나의 피치 기간을 부가하는 단계, 및 잔여 음성 신호를 압축할 때 적어도 하나의 피치 기간을 감산하는 단계를 포함한다.
다른 실시예에서, 인코딩은 잡음 여기 선형 예측 인코딩이며, 시간 와핑 단계는 음성 세그먼트를 동기화하기 전에 음성 세그먼트의 상이한 부분에 대해 가능한 상이한 이득을 적용하는 단계를 포함한다.
다른 실시예에서, 본 발명은 적어도 하나의 입력 및 적어도 하나의 출력을 갖는 보코더를 포함하며, 인코더는 적어도 하나의 출력 및 보코더의 입력에 동작가능하게 연결된 적어도 하나의 입력을 갖는 보코더를 포함하며, 디코더는 인코더의 적어도 하나의 출력에 동작가능하게 연결된 적어도 하나의 입력 및 보코더의 적어도 하나의 출력에 동작가능하게 연결된 적어도 하나의 출력을 갖는 합성기를 포함한다.
다른 실시예에서, 인코더는 메모리를 포함하는데, 여기서 인코더는 1/8 프레임, 프로토타입 피치 기간, 코드 여기 선형 예측 또는 잡음 여기 선형 예측으로 음성 세그먼트를 분류하는 것을 포함하는, 메모리에 포함된 명령을 실행하도록 적용된다.
다른 실시예에서, 디코더는 메모리를 포함하며, 디코더는 잔여 신호의 확장 또는 압축된 버젼에 대해 잔여 신호를 시간 와핑하는 것을 포함하는, 메모리에 저장된 명령을 실행하도록 적용된다.
본 발명의 추가의 응용예는 이하의 설명, 청구항 및 도면을 통해 명백할 것이다. 그러나 상세한 설명 및 특정예는 단지 설명을 위해 제공되는 것이며, 당업자에게 본 발명의 사상 내에서 다양한 변경 및 변형이 가능하기 때문에, 본 발명은 한정하는 것은 아니다.
본 발명은 이하의 도면, 상세한 설명 및 청구항을 통해 완전하게 이해될 것이다.
도1은 선형 예측 코딩(LPC) 보코더의 블록도이다.
도2A는 유성음을 포함하는 음성 신호이다.
도2B는 무성음을 포함하는 음성 신호이다.
도2C는 과도 음성을 포함하는 음성 신호이다.
도3은 잔여분의 인코딩 이전의 음성의 LPC 필터링을 나타낸 블록도이다.
도4A는 원음의 그래프이다.
도4B는 LPC 필터링 후, 잔여 음성 신호의 그래프이다.
도5는 이전과 현재의 프로토타입 피치 기간 사이의 인터폴레이션을 이용하는 파형의 생성을 도시한다.
도6A는 인터폴레이션을 통해 피치 지연을 결정하는 도면이다.
도6B는 피치 기간을 설명하는 도면이다.
도7A는 피치 기간의 형태로 원음 신호를 표현한다.
도7B는 중첩-가산법을 이용하여 확장된 음선 신호를 나타낸다.
도7C는 음성-가산법을 이용하여 압축된 음선 신호를 나타낸다.
도7D는 가중치가 잔여 신호를 압축하기 위해 어떻게 사용되는 지를 나타낸다.
도7E는 중첩-가산법을 이용하지 않고 압축된 음성 신호를 나타낸다.
도7F는 가중치가 잔여 신호를 확장하기 위해 어떻게 사용되는 지를 나타낸 다.
도8은 가중-중첩법에 사용되는 두 식을 나타낸다.
"설명"이라는 용어는 "예, 실례, 또는 예증"을 의미하는데 사용된다. "예"로서 설명된 소정의 실시예는 반드시 다른 실시예에 비해 바람직하거나 장점을 갖는 것을 한정하는 것은 아니다. 보코더에서 시간- 와핑을 이용하는 특징
인간의 음성은 두 성분으로 구성된다. 하나의 성분은 피치-민감성 기본 파형을 포함하며, 다른 성분은 피치-민감성이 아닌 고정된 주파수이다. 소리의 인식된 피치는 주파수에 대한 귀의 반응, 즉 대부분 실질적이 목적의 경우, 피치는 주파수이다. 고조파 성분은 인간 음성에 대해 구별되는 특성을 부가한다. 이들은 음성 코드 및 음성 트랙의 물리적 형태와 함께 변경되며, 포먼트(formant)라고 불린다.
인간의 음성은 디지털 신호(s(n)(10))로 표현될 수 있다. s(n)(10)이 상이한 음성 및 침묵 기간을 포함하는 통상의 대화 동안 획득되는 디지털 음성 신호라고 가정하자. 음선 신호(s(n)(10))는 프레임(20)으로 분할된다. 일 실시예에서, s(n)(10)은 8kHz로 디지털적으로 샘플링된다.
현재의 코딩 방식은 음성에 고유한 모든 자연적인 반복성을 제거함으로써 디지털화된 음성 신호(10)를 낮은 비트 레이트 신호로 압축한다. 음성은 통상적으로, 입술 및 혀의 기계적 종작으로부터 기인하는 단기간 반복성, 및 음성 코드의 진동에서 기인하는 장기적 반복성을 보인다. 선형 예측 코딩(LPC)은 잔여 음성 신호(30)를 생성하는 중복성을 제거함으로써 음성 신호(10)를 필터링한다. 이어 LPC는 최종 잔여 신호를 백색 가우시안 잡음으로서 모델링한다. 음성 파형의 샘플링된 값은 다수의 과거 샘플(40)의 합을 가중함으로써 예측될 수도 있는데, 이들 각각에는 선형 예측 상수(50)가 곱해진다. 따라서, 선형 예측 코더는 필터 상수(50) 및 전체 대역폭 음선 신호(10)가 아닌 양자화된 잡음을 전송함으로써 감소된 비트 레이트를 달성한다. 잔여 신호(30)는 잔여 신호(30)의 현재 프레임(20)으로부터 프로토타입 기간(100)을 추출함으로써 인코딩된다.
본 발명의 방법 및 장치에 의해 사용된 LPC 보코더(70)의 일 실시예의 블록도가 도1에 도시된다. LPC의 기능은 원음 신호와 유한 기간에 걸친 추정된 음성 신호 사이의 제곱차의 합을 최소화하는 것이다. 이는 프레임(20) 마다 통상적으로 추정된 예측 상수(50)의 유일한 세트를 생성할 수도 있다. 프레임(20)은 통상적으로 20ms 기간이다. 시변 디지털 필터(75)의 전달 함수는 이하와 같이 주어진다:
Figure 112007071341120-PCT00001
여기서 예측 상수(50)는 ak 및 G에 의해 표현된다.
합은 k=1부터 k=p까지 계산된다. 만일 LPC-10 방법이 사용되면, P=10이다. 이는 처음 10개의 상수(50)가 LPC 합성기(80)로 전송되는 것을 의미한다. 상수를 계산하기 위한 2개의 가장 공통적으로 사용된 방법은 공분산법 및 자동상관 방법이지만, 이에 한정되지는 않는다.
상이한 화자가 상이한 속도로 말하는 것은 통상적인 것이다. 시간 압축은 개별 화자들에 대한 속도 변화의 효과를 감소시키는 한 방법이다. 두 음성 패턴 사이의 시간 차는, 최대 일치가 서로 달성되도록, 한 화자의 시간 축을 와핑함으로써 감소될 수도 있다. 이러한 시간 압축 기술은 시간-와핑으로 알려져 있다. 더욱이, 시간-와핑은 이들의 피치를 변화시키지 않고 음성 신호를 압축 또는 확장시킨다.
통상적인 보코더는 바람직한 8kHz 레이트로 160 샘플(90)을 포함하여, 20msec 기간의 프레임(20)을 생성한다. 이러한 프레임(20)의 시간-와핑된 압축 버젼은 20msec보다 작은 기간을 갖는 반면, 시간-와핑된 확장 버젼은 20msec보다 긴 기간을 갖는다. 음성 데이터의 시간-와핑은 패킷 스위칭된 네트워크를 통해 음성 데이터를 전송할 때 현저한 장점을 가지며, 이는 음성 패킷의 전송에서 지연 지터를 유도한다. 이러한 네트워크에서, 시간-와핑은 상기한 지연 지터의 효과를 완화시키고 "동기성"(synchronous looking) 음성 스트림을 생성한다.
본 발명의 실시예는 음성 잔여분(30)을 곱함으로써 보코더(70) 내부의 시간-와핑 프레임(20)에 대한 장치 및 방법과 관련된다. 일 실시예에서, 본 발명의 방법 및 장치는 4GV에서 사용된다. 개시된 실시예는 프로토타입 피치 기간(PPP), 코드 여기 선형 예측(CELP) 또는 (비여기 선형 예측(NELP)) 코딩을 이용하여 인코딩된 상이한 타입의 4GV 음성 세그먼트(110)를 확장/압축하기 위한 방법 및 장치 또 는 시스템을 포함한다.
"보코더"(70)라는 용어는 통상적으로 인간 음성 생성의 모델에 기초하여 파라미터를 추출함으로써 유성음화된 음성을 압축하는 장치를 의미한다. 보코더(70)는 인코더(204) 및 디코더(206)를 포함한다. 인코더(204)는 입중계 음성을 분석하고 관련 파라미터를 추출한다. 일 실시예에서, 인코더는 필터(75)를 포함한다. 디코더(206)는 자신이 전송 채널(208)을 통해 인코더(204)로부터 수신하는 파라미터를 이용하여 음성을 분석한다. 일 실시예에서, 디코더는 합성기(80)를 포함한다. 음성 신호(10)는 보코더(70)에 의해 프로세싱된 데이터 및 블록의 프레임(20)으로 분할된다.
기술 분야의 당업자는 인간 음성이 많은 다양한 방식으로 분류될 수 있음을 이해할 것이다. 음성의 통상의 분류는 유성음, 무성음, 및 과도 음성이다. 도2A는 유성화된 음성 신호(s(n)(402))이다. 도2A는 피치 기간(100)으로 알려진 유성음의 측정가능한 공통 특성을 도시한다.
도2B는 무성음 신호(s(n)(404))이다. 무성음 신호(404)는 컬러링된 음성과 유사하다.
도2C는 과도 음성 신호(s(n)(406))(즉, 유성음화도 무성음화도 되지 않은 음성)를 도시한다. 도2C에 도시된 과도 음성(406)의 예는 무성음과 유성음 사이의 과도현상을 나타낼 수도 있다. 이러한 3개의 분류가 총괄적인 것은 아니다. 비교가능한 결과를 달성하기 위해, 설명된 방법에 따라 사용될 수도 있는 음성의 많은 상이한 분류가 존재한다. 4 GV 보코더 는 4개의 상이한 프레임 타입을 사용
본 발명의 일 실시예에 사용된 4세대 보코더(4GV)(70)는 무선 네트워크를 통한 사용을 위해 관심을 끄는 특징을 제공한다. 이러한 특징 중 일부는 품질 대 비트율의 균형을 위한 성능, 증가된 패킷 에러 레이트(PER)에도 불구한 더욱 탄력적인 보코딩, 소거의 우수한 은폐 등을 포함한다. 4GV 보코더(70)는 4개의 상이한 인코더(204) 및 디코더(206) 중 소정의 것을 이용할 수 있다. 상이한 인코더(204) 및 디코더(206)는 상이한 코딩 방식에 따라 동작한다. 소정의 인코더(204)는 소정의 특성을 나타내는 음성 신호(s(n))(10)의 코딩 부분에서 더욱 효과적이다. 따라서, 일 실시예에서, 인코더(204) 및 디코더(206) 모드는 현재 프레임(20)의 분류에 기초하여 선택될 수도 있다.
4GV 인코더(204)는 음성 데이터의 각각의 프레임(20)을 4개의 상이한 프레임(20) 타입: 프로토타입 피치 기간 파형 인터폴레이션(PPPWI), 코드 여기 선형 예측(CELP), 잡음 여기 선형 예측(NELP), 또는 묵음 1/8번째 레이트 프레임 중 하나로 인코딩한다. CELP는 불충분한 주기를 갖는 음성 또는 하나의 주기적 세그먼트(110)로부터 다른 세그먼트로의 변화를 포함하는 음성을 인코딩하기 위해 사용된다. 따라서, CELP 모드는 과도 음성으로 분류된 프레임을 코딩하기 위해 통상적으로 선택된다. 이러한 세그먼트(110)는 단지 하나의 프로토타입 피치 기간으로부터 정확하게 재구성될 수 없기 때문에, CELP는 완전한 음성 세그먼트(110)의 특성을 인코딩한다. CELP 모드는 선형 예측 잔여 신호(30)의 양자화된 버젼으로 선형 예측 음성 트랙 모델을 여기시킨다. 설명된 모든 인코더(204) 및 디코더(206) 중에 서, CELP는 일반적으로 더욱 정확한 음성 재생을 제공하지만, 더 높은 비트 레이트를 필요로 한다.
프로토타입 피치 기간(PPP) 모드는 유성음으로 분류된 프레임(20)들을 코딩하기 위해 선택될 수 있다. 유성음은 PPP 모드에 의해 활용되는 느린 시변 주기적 성분을 포함한다. PPP 모드는 각각의 프레임(20) 내에서 피치 기간의 서브 세트를 코딩한다. 음성 신호(10)의 잔여 기간(100)은 이러한 프로토타입 기간들(100) 사이에 인터폴레이팅함으로써 재구성된다. 유성음의 주기성을 활용함으로써, PPP는 CELP보다 더 낮은 비트 레이트를 달성할 수 있으며, 지각적으로 정확한 방식으로 음성 신호(10)를 여전히 재생할 수 있다.
PPPWI는 사실상 주기적인 음성 데이터를 인코딩하는데 사용된다. "프로토타입" 피치 기간(PPP)과 유사한 상이한 피치 기간(100)이 이러한 음성의 특성을 나타낸다. 이러한 PPP는 인코더(204)가 인코딩을 필요로 하는 유일한 음성 정보이다. 디코더는 음성 세그먼트(110)에서 다른 피치 기간(100)을 재구성하도록 이러한 PPP를 사용할 수 있다.
"잡음 여기된 선형 예측"(NELP) 인코더(204)는 무성음으로 분류된 프레임들(20)을 코딩하도록 선택된다. NELP 코딩은 신호 재생의 관점에서 효율적으로 동작하며, 여기서 음성 신호(10)는 피치 구조를 아주 조금 갖거나 갖지 않는다. 특히, NELP는 무성음 또는 배경 잡음과 같은 특성상 잡음 유사한 음성을 인코딩하는데 사용된다. NELP는 무성음을 모델링하기 위해 필터링된 의사-랜덤 잡음 신호를 이용한다. 이러한 음성 세그먼트(110)의 잡음 유사 특성은 디코더(206)에서 랜덤 신호를 생성하고 이들에 적절한 게인을 적용함으로써 재구성될 수 있다. NELP는 코딩된 음성에 대한 가장 간단한 모델을 이용하며, 결국 더 낮은 비트레이트를 달성한다.
1/8번째 레이트 프레임들은 예를 들어, 사용자가 말하지 않은 기간인, 묵음을 인코딩하는데 사용된다.
전술한 4개의 보코딩 방식 모두는 도3에 도시된 바와 같이 초기 LPC 필터링 절차를 공유한다. 음성은 4개의 카테고리 중 하나로 특성화한 후, 음성 신호(10)는, 선형 예측을 이용하여 음성에서 단기간 상관을 필터링하는 선형 예측 코딩(LPC) 필터(80)를 통해 전달된다. 이러한 블록의 출력은 LPC 상수(50), 및 음성 신호로부터 제거된 단기간 상관을 갖는 기본적으로 원음 신호(10)인 "잔여" 신호(30)이다. 이어 잔여 신호(30)는 프레임(20)에 대해 선택된 보코딩 방법에 의해 사용된 특정 방법을 이용하여 인코딩된다.
도4A-4B는 원음 신호(10) 및 LPC 블록(80) 이후의 잔여 신호(30)의 예를 도시한다. 잔여 신호(30)는 원음(10)보다 더욱 명료한 피치 기간(100)을 나타낸다. 따라서, 이는 잔여 신호(30)가 원음 신호(10)(이는 또한 단기간 상관을 포함함)보다 더욱 명료하게 음성 신호의 피치 기간(100)을 결정하기 위해 사용될 수 있는 이유를 설명한다. 잔여 시간 와핑
전술한 바와 같이, 시간-와핑은 음성 신호(10)의 확장 또는 압축을 위해 사용될 수 있다. 다수의 방법이 이를 달성하기 위해 사용될 수 있는 반면, 이들 방 법 대부분은 신호(10)로부터 피치 기간을 부가 또는 삭제하는 것에 기초한다. 치기 기간(100)의 부가 또는 삭제는 잔여 신호(30)를 수신한 후, 신호(30)가 합성되기 전에 디코더(206)에서 행해질 수 있다. CELP 또는 PPP(NELP 아님)를 이용하여 인코딩된 음성 데이터의 경우, 신호는 다수의 피치 기간(100)을 포함한다. 따라서, 피치 기간 보다 더 작은 소정의 유닛이 현저한 음성 인공물의 도입을 초래하는 위상 불연속을 유발하기 때문에, 음성 신호(10)로부터 부가 또는 삭제될 수 있는 가장 작은 유닛은 피치 기간(100)이다. 따라서, CELP 또는 PPP 음성에 대해 적용된 시간-와핑 방법의 일 단계는 피치 기간(100)의 추정이다. 이러한 피치 기간(100)은 CELP/PPP 음성 프레임(20)에 대한 디코더(206)에 이미 알려져 있다. PPP 및 CELP의 경우, 피치 정보는 자동 상관 방법을 이용하여 인코더(204)에 의해 계산되고 디코더(206)로 전송된다. 따라서, 디코더(206)는 피치 기간(100)의 정확한 정보를 갖는다. 이는 디코더(206)에서 본 발명의 시간-와핑 방법을 적용하는 것을 간단하게 한다.
더욱이, 전술한 바와 같이, 신호(10)를 합성하기 전에 신호(10)를 시간 와핑하는 것이 더욱 간단하다. 만일 이러한 시간-와핑 방법이 신호(10)를 디코딩한 후 적용되면, 신호(10)의 피치 기간(100)은 추정될 필요가 있다. 이는 추가의 계산을 필요로 할 뿐만 아니라, 잔여 신호(30)가 또한 LPC 정보(170)를 포함하므로, 피치 기간(100)의 추정이 매우 정확하지 않게 할 수도 있다.
다른 한편으로, 만일 추가의 피치 기간(100) 추정이 너무 복잡하지 않으면, 디코딩 후 시간 와핑의 실행은 디코더(206)에 대한 변경을 필요로 하지 않으며, 따 라서 모든 보코더(80)에 대해 단지 한 차례 실행될 수 있다.
LPC 코딩 합성을 이용하여 신호를 합성하기 이전에 디코더(206)에서 시간-와핑을 실행하는 다른 이유는 압축/확장이 잔여 신호(30)에 적용될 수 있다는 것이다. 이는 선형 예측 코딩(LPC) 합성이 시간-와핑된 잔여 신호(30)에 적용되게 한다. LPC 상수(50)는 음성이 어떻게 소리를 내고 와핑 후에 합성을 적용하는 것이 올바른 LPC 정보(170)가 신호(10)에 유지되는 것을 보장하는가에 기여한다.
다른 한편으로, 만일 시간-와핑이 잔여 신호(30)의 디코딩 후에 행해지면, LPC 합성은 시간-와핑 전에 이미 행해진다. 따라서, 특히, 만일 피치 기간(100) 예측 포스트-디코딩이 매우 정확하지 않다면, 와핑 절차는 신호(10)의 LPC 정보(170)를 변경시킬 수 있다. 일 실시예에서, 본 출원에 개시된 시간-와핑 방법에 의해 실시된 단계는 소프트웨어에 위치된 명령 또는 메모리(82)에 위치된 펌웨어(81)와 같이 저장된다. 도1에서, 메모리는 디코더(206) 내부에 위치된 것으로 도시된다. 메모리(82)는 또한 디코더(206) 외부에 위치될 수 있다.
(4GV 중 하나와 같은) 인코더(204)는 프레임(20)이 유성, 무성 또는 과도 음성을 나타내는 지에 따라, 음성 프레임(20)을 PPP(주기적), CELP(약간 주기적) 또는 NELP(잡음)으로 분류할 수도 있다. 음성 프레임(20) 타입에 대한 정보를 이용함으로써, 디코더(206)는 상이한 방법을 이용하여 상이한 프레임(20)을 시간-와핑할 수 있다. 예를 들어, NELP 음성 프레임(20)은 피치 기간의 어떠한 개념도 없으며, 그 잔여 신호(30)는 "랜덤" 정보를 이용하여 디코더(206)에서 생성된다. 따라서, CELP/PPP의 피치 기간(100) 추정은 NELP에 적용되지 않으며, 통상적으로 NELP 프레임(20)은 피치 기간(100)보다 더 작은 기간에 의해 와핑(확장/압축)될 수도 있다. 이러한 정보는, 시간-와핑이 디코더(206)에서 잔여 신호(30)를 디코딩한 후 실행되는 경우 유용하지 않다. 통상적으로, 디코딩 후, NELP 유사 프레임(20)의 시간-와핑은 음성 인공물을 초래한다. 다른 한편으로, 디코더(206)에서 NELP 프레임(20)의 와핑은 훨씬 양호한 품질을 생성한다.
따라서, 포스트-디코더(즉, 잔여 신호(30)가 합성된 후)와 대조적으로 디코더(206)에서 시간-와핑(즉, 잔여 신호(30)의 합성 이전)을 실행하는 것은 두 가지 장점이 있다: (i) 계산 오버헤드의 감소(예를 들어, 피치 기간(100)에 대한 탐색이 방지됨) 및 (ii) a) 프레임(20) 타입의 정보, b) 와핑된 신호에 대한 LPC 합성을 실행 및 c) 피치 기간의 더욱 정확한 추정/정보로 인한 개선된 와핑 품질. 잔여 시간 와핑 방법
본 발명의 방법 및 장치가 PPP, CELP 및 NELP 디코더에서 음성 잔여분(30)을 시간-와핑하는 실시예가 이하에 개시된다. 이하의 두 단계, (i)확장 또는 압축된 버젼에 대해 잔여 신호(30)를 시간-와핑하는 단계, 및 (ii)LPC 필터(80)를 통해 시간 와핑된 잔여분(30)을 전송하는 단계는 각각의 디코더(206)에서 실행된다. 더욱이, 단계(i)는 PPP, CELP 및 NELP 음성 세그먼트(110)에 대해 상이하게 실행된다. 실시예는 이하에 설명될 것이다. 음성 세그먼트(110)가 PPP 일 경우 잔여 신호의 시간- 와핑
전술한 바와 같이, 음성 세그먼트(110)가 PPP인 경우, 신호로부터 부가 또는 삭제될 수 있는 가장 작은 유닛은 피치 기간(100)이다. 신호(10)가 프로토타입 피치 기간(100)으로부터 디코딩(및 잔여분(30) 재구성)될 수 있기 전에, 디코더(206)는 앞선 프로토타입 피치 기간(100)(이는 저장됨)으로부터 현재 프레임(20)의 프로토타입 피치 기간(100)으로 신호(10)를 인터폴레이팅하여, 누락 피치 기간(100)을 프로세스에 부가한다. 프로세스는 도5에 도시된다. 이러한 인터폴레이션은 다소의 인터폴레이팅된 피치 기간(100)을 생성함으로써 그 자체를 더욱 용이하게 시간-와핑에 제공한다. 이는 PLC 합성을 통해 전송되는, 압축 또는 확장된 잔여 신호(30)를 생성한다. 음성 세그먼트(110)가 CELP 일 때 잔여 신호의 시간- 와핑
앞서 설명한 바와 같이, 음성 세그먼트(110)가 PPP인 경우, 신호로부터 부가 또는 삭제될 수 있는 가장 작은 유닛은 피치 기간(100)이다. 다른 한편, CELP의 경우, 와핑은 PPP의 경우와 같이 간단하지 않다. 잔여분(30)을 와핑하기 위해, 디코더(206)는 인코딩된 프레임(20)에 포함된 피치 지연(180) 정보를 이용한다. 피치 지연(180)은 실제로 프레임(20)의 단부에서의 피치 지연(180)이다. 심지어 주기적 프레임(20)에서도, 피치 지연(180)은 다소 변경될 수도 있음을 이해해야 한다. 프레임의 소정의 포인트에서 피치 지연(180)은 최종 프레임(20)의 단부에서의 피치 지연(180)과 현재 프레임(20)의 단부에서의 피치 지연 사이의 인터폴레이터에 의해 추정될 수 있다. 이는 도6에 도시된다. 프레임(20)의 모든 포인트에서 피치 지연(180)이 알려지면, 프레임(20)은 피치 기간(100)으로 분할된다. 피치 기간(100)의 경계는 프레임(20)의 다양한 포인트에서 피치 지연(180)을 이용하여 결 정된다.
도6은 프레임(20)을 자신의 피치 기간(100)으로 분할하는 방법의 예를 도시한다. 예를 들어, 샘플 번호(70)는 대략 70과 동일한 피치 지연(180)을 가지며, 샘플 번호(142)는 대략 72와 같은 피치 지연(180)을 갖는다. 따라서, 피치 기간(100)은 샘플 번호[1-70] 및 샘플 번호[71-142]에서 기원한다. 도6B 참조.
일단 프레임(20)이 피치 기간(100)으로 분할되면, 이러한 피치 기간(100)은 잔여분(30)의 크기를 증가/감소시키기 위해 중첩-부가될 수 있다. 도7B 내지 7F를 참조. 중첩 및 부가 합성에서, 변경된 신호는 입력 신호(10)로부터 세그먼트를 여기시키고, 이들을 시간 축을 따라 재위치 설정하고, 합성 신호(150)를 구성하기 위해 가중된 중첩 부가를 실행함으로써 얻어진다. 일 실시예에서, 세그먼트(110)는 피치 기간(100)과 동일할 수 있다. 중첩 가산법은 두 개의 음성 세그먼트(110)를 음성의 세그먼트(110)를 "합"함으로써 하나의 음성 세그먼트(110)로 대체한다. 음성의 합은 가능하면 많은 음성 품질을 유지하는 방식으로 행해진다. 음성 품질을 유지하고 음성으로의 인공물의 도입을 최소화하는 것은 합할 세그먼트를 주의 깊게 선택함으로써 달성된다. (인공물은 클릭, 팝 등과 같은 원치 않는 아이템이다.) 음성 세그먼트(110)의 선택은 세그먼트 "유사성"에 기초한다. 음성 세그먼트의 "유사성"이 밀접할수록, 최종 음성 품질이 더욱 우수하며, 음성의 두 세그먼트(110)가 음성 잔여분(30)의 크기를 감소/증가시키도록 중첩될 때 음성 인공물이 도입될 확률은 더욱 낮아진다. 피치 기간이 중첩 가산되는 지를 결정하기 위한 유용한 법칙은 두 세그먼트가 유사한지의 여부이다(예로써, 만일 피치 지연이 15샘플들보다 작게 상이하면, 이는 약 1.8msec에 대응함).
도7C는 중첩-가산이 잔여분(30)을 압축하기 위해 어떻게 사용되는 지를 나타낸다. 중첩/가산법의 제1 단계는 입력 샘플 시퀀스(s[n])(10)를 앞서 설명된 바와 같이 피치 기간으로 세그먼팅하는 것이다. 도7A에서, 4피치 기간(100)(PPs)을 포함하는 원음 신호(10)가 도시된다. 다음 단계는 도7A에 도시된 신호(10)의 피치 기간(100)을 제거하는 단계 및 이러한 피치 기간(100)을 합해진 피치 기간(100)으로 대체하는 단계를 포함한다. 예를 들어, 도7C에서, 피치 기간(PP2) 및 (PP3)이 제거되고, 이어 PP2 및PP3가 중첩-가산되는 하나의 피치 기간(100)으로 대체된다. 특히, 도7C에서, 피치 기간(100)(PP2) 및 (PP3)는 제2 피치 기간(100)(PP2)의 기여가 계속 감소하고 PP3의 기여가 증가하도록 중첩-가산된다. 가산-중첩법은 두 개의 상이한 음성 세그먼트(110)로부터 하나의 음성 세그먼트(110)를 생성한다. 일 실시예에서, 가산-중첩은 가중된 샘플을 이용하여 실행된다. 이는 도8에서 식a) 및 b)로 설명된다. 가중은 세그먼트1(110)의 제1 PCM(펄스 코딩된 변조) 샘플과 세그먼트2(110)의 최종 PCM 샘플 사이의 원만한 전이를 제공하기 위해 사용된다.
도7D는 중첩-가산되는 PP2 및 PP3의 다른 그래픽 설명이다. 교차 표시는, 하나의 세그먼트(110)를 제거하고 나머지 이웃한 세그먼트(110)를 인접(도7E에 도시됨)하게 하는 것을 간단하게 하는 것과 비교할 때, 이러한 방법에 의해 압축된 신호(10) 시간의 인식된 품질을 향상시킨다.
피치 기간(100)이 변경될 때, 중첩-가산법은 동등하지 않은 길이의 두 피치 기간(110)을 합할 수도 있다. 이러한 경우, 더욱 우수한 합산이 두 피치 기 간(100)의 피크를 중첩-가산하기 전에 이들을 정렬시킴으로써 달성될 수도 있다. 확장/압축된 잔여분은 이어 LPC 합성을 통해 전송된다. 음성 확장
음성을 확장하는 간단한 방식은 동일한 PCM 샘플의 다수의 반복을 행하는 것이다. 그러나 한 차례 이상 동일한 PCM 샘플의 반복은 인간에 의해 용이하게 검출되는 인공물인 피치 평탄부를 갖는 영역(음성은 다소 "로봇" 같이 소리를 낼 수도 있음)을 생성할 수 있다. 음성 품질을 보존하기 위해, 부가-중첩법이 사용될 수도 있다.
도7B는 이러한 음성 신호(10)가 본 발명의 중첩-가산법을 이용하여 어떻게 확장될 수 있는지를 나타낸다. 도7B에서, 피치 기간(100)(PP1 및 PP2)으로부터 생성된 부가 피치 기간(100)이 부가된다. 부가 피치 기간(100)에서, 피치 기간(100)(PP2 및 PP1)은 제2 피치(PP2) 기간(100)의 기여가 계속 감소하고 PP1의 기여가 증가하도록 중첩-가산된다. 도7F는 중첩 가산되는 PP2 및 PP3의 다른 그래픽 설명이다. 음성 세그먼트가 NELP 일 때 잔여 신호의 시간- 와핑
NELP 음성 세그먼트의 경우, 인코더는 LPC 정보 및 음성 세그먼트(110)의 상이한 부분에 대한 이득을 인코딩한다. 음성이 사실상 매우 잡음과 유사하므로, 소정의 다른 정보를 인코딩하는 것이 필수적이지 않다. 일 실시예에서, 게인은 16 PCM 샘플의 세트로 인코딩된다. 따라서, 예를 들어, 160 샘플의 프레임은 10 인코딩된 게인 값으로 표현될 수 있는데, 음성의 각각의 16 샘플에 대해 1이다. 디코 더(206)는 랜덤 값들을 생성하고 이들에 대해 각각의 게인을 적용함으로써 잔여 신호(30)를 생성한다. 이러한 경우, 피치 기간(100)의 개념이 없을 수도 있으며, 그 때문에, 확장/압축은 피치 기간(100)의 입도이어야 하는 것은 아니다.
NELP 세그먼트를 확장 또는 압축하기 위해, 디코더(206)는 세그먼트(110)이 확장 또는 압축되는지에 따라, 160보다 더 크거나 더 작은 수의 세그먼트(110)를 생성한다. 따라서, 10 디코딩된 게인이 확장 또는 압축된 잔여분(30)을 생성하도록 샘플에 부가된다. 이러한 10 디코딩된 게인이 원래의 160 샘플에 대응하기 때문에, 확장/압축된 샘플에 직접 적용되지 않는다. 다양한 방법이 이러한 게인을 적용하기 위해 사용될 수 있다. 이러한 소정의 방법은 이하에서 설명된다.
만일 생성될 샘플의 수가 160보다 작으면, 모든 10게인이 적용될 필요는 없다. 예를 들어, 만일 샘플의 수가 144이면, 첫 번째 9 게인이 적용될 수도 있다. 이러한 예에서, 제1 게인이 첫 번째 16 샘플, 샘플 1-16에 적용되며, 두 번째 게인은 다음 16 샘플, 샘플 17-32에 적용되는 방식이다. 유사하게, 만일 샘플이 160보다 크면, 10번째 게인은 1회 이상 적용될 수 있다. 예를 들어, 만일 샘플의 수가 192이면, 10번째 게인은 샘플145-160, 161-176, 및 177-192에 적용될 수 있다.
택일적으로, 샘플은 동일한 수의 10세트로 분할될 수 있으며, 각각의 세트는 동일한 수의 샘플을 가지며, 10 게인은 10세트에 적용될 수 있다. 예를 들어, 만일 샘플의 수가 140이면, 10게인은 각각 14 샘플의 세트에 적용될 수 있다. 이러한 예에서, 제1 게인은 첫 번째 14 샘플, 샘플 1-14에 적용되며, 제2 게인은 다음 14 샘플, 샘플 15-28에 적용되는 방식이다.
샘플의 수가 10으로 완전하게 나눠질 수 없는 경우, 10번째 게인은 10으로 나눈 후 얻어지 나머지 샘플에 적용될 수 있다. 예를 들어, 만일 샘플의 수가 145이면, 10게인은 각각 14 샘플의 세트에 적용될 수 있다. 택일적으로, 10번째 게인은 샘플 141-145에 적용된다.
시간-와핑 이후, 확장/압축된 잔여분(30)은 소정의 전술한 인코딩 방법을 사용할 때 LPC 합성을 통해 전송된다.
당업자는 정보 및 신호들이 임의의 다수의 상이한 기술들 및 테크닉들을 사용하여 표현될 수 있음을 인식할 것이다. 예를 들어, 상기 설명을 통해 참조될 수 있는 데이터, 지시들, 명령들, 정보, 신호들, 비트들, 심볼들 및 칩들은 전압들, 전류들, 전자기파들, 전자기장들, 또는 전자기 입자들, 광학계들 또는 광학 입자들, 또는 그들의 임의의 조합에 의해 표시될 수 있다.
당업자는 또한 본 명세서에 개시된 실시예들과 관련하여 설명된 논리적인 블럭들, 모듈들, 회로들, 및 알고리즘 단계들이 전자하드웨어, 컴퓨터 소프트웨어, 또는 그들의 조합으로서 실행될 수 있음을 인식할 것이다. 상기 하드웨어 및 소프트웨어의 상호교환가능성을 명백히 설명하기 위해, 다양한 요소들, 블럭들, 모듈들, 회로들, 및 단계들이 그들의 기능성에 관련하여 전술되었다. 상기 기능성이 하드웨어로 실행되는지 또는 소프트웨어로 실행되는지의 여부는 전체 시스템에 부과된 특정 애플리케이션 및 설계 제약에 따라 결정한다. 당업자는 각각의 특정 애플리케이션을 위해 다양한 방식들로 설명된 기능성을 실행할 수 있지만, 상기 실행 결정들은 본 발명의 영역으로부터 벗어나는 것으로 해석될 수 없다.
본 명세서에서 개시된 실시예와 관련하여 다양하게 설명되는 논리들, 논리 블럭들, 모듈들, 및 회로들은 범용 프로세서, 디지털 신호 처리기(DSP), 응용 집적 회로(ASIC), 현장 프로그램가능한 게이트 어레이(FPGA), 또는 다른 프로그램가능한 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 요소들, 또는 본 명세서에 개시된 기능을 수행하도록 설계된 그들의 임의의 조합을 사용하여 실행되거나 수행될 수 있다. 범용 프로세서는 마이크로프로세서가 될 수 있지만, 선택적으로 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 기계가 될 수 있다. 프로세서는 또한 예를 들어, DSP 및 마이크로프로세서의 조합, 복수의 마이크로프로세서, DSP 코어와 결합된 하나 또는 그 이상의 마이크로프로세서, 또는 임의의 다른 구성과 같은 컴퓨팅 장치들의 조합으로서 실행될 수 있다.
본 명세서에 개시된 실시예와 관련하여 설명되는 방법 또는 알고리즘의 단계는 하드웨어에서, 프로세서에 의해 실행되는 소프트웨어 모듈에서, 또는 그들의 조합에서 즉시 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터들, 하드디스크, 제거가능한 디스크, CD-ROM 또는 임의의 다른 저장 매체 형태로 당업자에게 공지된다. 예시적인 저장 매체는 저장매체로부터 정보를 판독하고 정보를 기록할 수 있는 프로세서에 접속된다. 선택적으로, 저장 매체는 프로세서의 필수 구성요소이다. 프로세서 및 저장 매체는 ASIC 내에 상주할 수 있다. ASIC은 사용자 터미널 내에 상주할 수 있다. 선택적으로, 프로세서 및 저장 매체는 사용자 디바이스내에서 이산요소들로서 상주할 수 있다.
개시된 실시예의 전술된 설명은 당업자가 본 발명을 구현하고 이용하기에 용이하도록 하기 위하여 제공되었다. 이들 실시예에 대한 여러 가지 변형은 당업자에게 자명하며, 여기서 한정된 포괄적인 원리는 본 발명의 사용 없이도 다른 실시예에 적용될 수 있다. 따라서, 본 발명은 설명된 실시예에 한정되는 것이 아니며, 여기에 개시된 원리 및 신규한 특징에 나타낸 가장 넓은 범위에 따른다.

Claims (46)

  1. 음성 통신 방법으로서,
    잔여 음성 신호를 상기 잔여 음성 신호의 확장 또는 압축된 버젼으로 시간-와핑하는 단계; 및
    상기 시간-와핑된 잔여 음성 신호를 합성하는 단계를 포함하는,
    음성 통신 방법.
  2. 제1항에 있어서,
    음성 세그먼트들을 분류하는 단계; 및
    상기 음성 세그먼트들을 인코딩하는 단계를 더 포함하는 것을 특징으로 하는 음성 통신 방법.
  3. 제2항에 있어서,
    상기 음성 세그먼트들을 인코딩하는 단계는, 프로토타입 피치 기간, 코드 여기된 선형 예측, 잡음 여기된 선형 예측 또는 1/8 프레임 코딩을 이용하는 단계를 포함하는 것을 특징으로 하는 음성 통신 방법.
  4. 제2항에 있어서,
    선형 예측 코딩 필터를 통해 상기 음성 신호를 전송하여, 상기 음성 신호의 단기간 상관이 제거되는 단계; 및
    선형 예측 코딩 상수 및 잔여 신호를 출력하는 단계를 더 포함하는 것을 특징으로 하는 음성 통신 방법.
  5. 제2항에 있어서,
    상기 음성 세그먼트들을 분류하는 단계는, 상기 프레임들이 유성음, 무성음 또는 과도 음성을 나타내는 지에 따라, 음성 프레임들을 주기적, 약간 주기적 또는 잡음으로 카테고리화하는 단계를 포함하는 것을 특징으로 하는 음성 통신 방법.
  6. 제2항에 있어서,
    상기 코딩은 코드 여기된 선형 예측 인코딩인 것을 특징으로 하는 음성 통신 방법.
  7. 제2항에 있어서,
    상기 인코딩은 프로토타입 피치 기간 인코딩인 것을 특징으로 하는 음성 통신 방법.
  8. 제2항에 있어서,
    상기 인코딩은 잡음 여기된 선형 예측 인코딩인 것을 특징으로 하는 음성 통신 방법.
  9. 제6항에 있어서, 상기 시간-와핑 단계는,
    피치 기간을 추정하는 단계; 및
    상기 잔여 신호를 수신한 후, 상기 피치 기간 중 적어도 하나를 가산 또는 감산하는 단계를 포함하는 것을 특징으로 하는 음성 통신 방법.
  10. 제6항에 있어서, 상기 시간-와핑 단계는,
    피치 지연을 추정하는 단계;
    음성 프레임을 피치 기간들로 분할하는 단계를 포함하는데, 상기 피치 기간들의 경계는 상기 음성 프레임의 다양한 포인트에서 상기 피치 지연을 이용하여 결정되며;
    만일 상기 잔여 음성 신호가 감소될 때 상기 피치 기간들을 중첩하는 단계; 및
    만일 상기 잔여 음성 신호가 증가될 때 상기 피치 기간들을 부가하는 단계를 포함하는 것을 특징으로 하는 음성 통신 방법.
  11. 제7항에 있어서, 상기 시간 와핑 단계는,
    적어도 하나의 피치 기간을 추정하는 단계;
    상기 적어도 하나의 피치 기간을 인터폴레이팅하는 단계;
    상기 잔여 음성 신호를 확장할 때, 상기 적어도 하나의 피치 기간을 부가하 는 단계; 및
    상기 잔여 음성 신호를 압축할 때, 상기 적어도 하나의 피치 기간을 감산하는 단계를 포함하는 것을 특징으로 하는 음성 통신 방법.
  12. 제8항에 있어서,
    상기 인코딩 단계는 선형 예측 코딩 정보를 음성 세그먼트의 상이한 부분들의 게인으로서 인코딩하는 단계를 포함하는 것을 특징으로 하는 음성 통신 방법.
  13. 제10항에 있어서, 만일 상기 음성 잔여 신호가 감소되는 경우, 상기 피치 기간들을 중첩하는 단계는,
    입력 샘플 시퀀스를 샘플들의 블록으로 세그먼팅하는 단계;
    일정한 시간 간격들로 상기 잔여 신호의 세그먼트들을 제거하는 단계;
    상기 제거된 세그먼트들을 합하는 단계; 및
    상기 제거된 세그먼트들을 합해진 세그먼트로 대체하는 단계를 포함하는 것을 특징으로 하는 음성 통신 방법.
  14. 제10항에 있어서,
    상기 피치 지연을 추정하는 단계는 최종 프레임의 단부의 피치 지연과 현재 프레임의 단부 사이에 인터폴레이팅하는 단계를 포함하는 것을 특징으로 하는 음성 통신 방법.
  15. 제10항에 있어서,
    상기 피치 기간들을 부가하는 단계는 음성 세그먼트를 합하는 단계를 포함하는 것을 특징으로 하는 음성 통신 방법.
  16. 제10항에 있어서,
    만일 상기 잔여 음성 신호가 증가되는 경우 상기 피치 기간들을 부가하는 단계는, 제1 피치 세그먼트 및 제2 피치 기간 세그먼트로부터 생성된 추가의 피치 기간을 부가하는 단계를 포함하는 것을 특징으로 하는 음성 통신 방법.
  17. 제12항에 있어서,
    상기 게인은 음성 샘플들의 세트들에 대해 인코딩되는 것을 특징으로 하는 음성 통신 방법.
  18. 제13항에 있어서,
    상기 제거된 세그먼트를 합하는 단계는, 제1 피치 기간 세그먼트의 기여를 증가시키고 제2 피치 기간 세그먼트의 기여를 감소시키는 단계를 포함하는 것을 특징으로 하는 음성 통신 방법.
  19. 제15항에 있어서,
    유사한 음성 세그먼트들을 선택하는 단계를 더 포함하며, 상기 유사한 음성 세그먼트들을 합해지는 것을 특징으로 하는 음성 통신 방법.
  20. 제15항에 있어서,
    음성 세그먼트들을 상관시키는 단계를 더 포함하며, 그로 인해, 유사한 음성 세그먼트들이 선택되는 것을 특징으로 하는 음성 통신 방법.
  21. 제16항에 있어서,
    제1 피치 세그먼트 및 제2 피치 기간 세그먼트로부터 생성된 추가의 피치 기간을 부가하는 단계는, 상기 제1 피치 기간 세그먼트의 기여가 증가하고 상기 제2 피치 기간 세그먼트의 기여가 감소하도록 상기 제1 및 제2 피치 세그먼트들을 부가하는 단계를 포함하는 것을 특징으로 하는 음성 통신 방법.
  22. 제17항에 있어서,
    랜덤 값들을 생성하고 상기 게인을 상기 랜덤 값들에 적용시킴으로써, 잔여 신호를 생성하는 단계를 더 포함하는 것을 특징으로 하는 음성 통신 방법.
  23. 제17항에 있어서,
    10 인코딩된 게인 값들로서 상기 선형 예측 코딩 정보를 나타내는 단계를 더 포함하며, 각각의 인코딩된 게인 값은 음성의 16 샘플들을 나타내는 것을 특징으로 하는 음성 통신 방법.
  24. 적어도 하나의 입력 및 적어도 하나의 출력을 갖는 보코더로서,
    상기 보코더의 입력에 동작가능하게 연결된 적어도 하나의 입력 및 적어도 하나의 출력을 갖는 필터를 포함한 인코더; 및
    상기 인코더의 적어도 하나의 출력에 동작가능하게 연결된 적어도 하나의 입력 및 상기 보코더의 적어도 하나의 출력에 동작가능하게 연결된 적어도 하나의 출력을 갖는 합성기를 포함하는 디코더를 포함한,
    보코더.
  25. 제24항에 있어서,
    상기 디코더는 메모리를 포함하는데, 상기 디코더는 잔여 음성 신호를 상기 잔여 신호의 확장 또는 압축된 버젼으로 시간-와핑하는 것을 포함하는, 상기 메모리에 저장된 소프트웨어 명령을 실행하도록 적용된 것을 특징으로 하는 보코더.
  26. 제24항에 있어서,
    상기 인코더는 메모리를 포함하며, 상기 인코더는 1/8 프레임, 프로토타입 피치 기간, 코드-여기된 선형 예측 또는 잡음-여기된 선형 예측으로서 음성 세그먼트를 분류하는 것을 포함하는, 메모리에 저장된 소프트웨어 명령을 실행하도록 적용된 것을 특징으로 하는 보코더.
  27. 제26항에 있어서,
    상기 디코더는 메모리를 포함하며, 상기 디코더는 잔여 신호를 상기 잔여 음성 신호의 확장 또는 압축된 버젼으로 시간-와핑하는 것을 포함하는, 상기 메모리에 저장된 소프트웨어 명령을 실행하도록 적용된 것을 특징으로 하는 보코더.
  28. 제27항에 있어서, 상기 필터는,
    음선 신호의 단기간 상관을 제거하고; 및
    선형 예측 코딩 상수 및 잔여 신호를 출력하도록 적용된 선형 예측 코딩 필터인 것을 특징으로 하는 보코더.
  29. 제27항에 있어서,
    상기 인코더는 메모리를 포함하며, 상기 인코더는 코드-여기된 선형 예측 인코딩을 이용하여 상기 음성 세그먼트들을 인코딩하는 것을 포함하는, 상기 메모리에 저장된 소프트웨어 명령을 실행하도록 적용된 것을 특징으로 하는 보코더.
  30. 제27항에 있어서,
    상기 인코더는 메모리를 포함하며, 상기 인코더는 프로토타입 피치 기간 인코딩을 이용하여 상기 음성 세그먼트들을 인코딩하는 것을 포함하는, 상기 메모리에 저장된 소프트웨어 명령을 실행하도록 적용된 것을 특징으로 하는 보코더.
  31. 제27항에 있어서,
    상기 인코더는 메모리를 포함하며, 상기 인코더는 잡음-여기된 선형 예측 인코딩을 이용하여 상기 음성 세그먼트를 인코딩하는 것을 포함하는, 상기 메모리에 저장된 소프트웨어 명령을 실행하도록 적용된 것을 특징으로 하는 보코더.
  32. 제29항에 있어서, 상기 시간-와핑 소프트웨어 명령은,
    적어도 하나의 피치 기간을 추정하고; 및
    상기 잔여 신호를 수신한 후, 상기 적어도 하나의 피치 기간을 가산 또는 감산하는 것을 포함함을 특징으로 하는 보코더.
  33. 제29항에 있어서, 상기 시간-와핑 소프트웨어 명령은,
    피치 지연을 추정하고;
    음성 프레임을 피치 기간들로 분할하는 것을 포함하는데, 상기 피치 기간들의 경계는 상기 음성 프레임의 다양한 포인트에서 상기 피치 지연을 이용하여 결정되며;
    만일 상기 잔여 음성 신호가 감소되는 경우 상기 피치 기간들을 중첩하고; 및
    만일 상기 잔여 음성 신호가 증가되는 경우 상기 피치 기간들을 부가하는 것을 포함함을 특징으로 하는 보코더.
  34. 제30항에 있어서, 상기 시간-와핑 소프트웨어 명령은,
    적어도 하나의 피치 기간을 추정하고;
    상기 적어도 하나의 피치 기간을 인터폴레이팅하고;
    상기 잔여 음성 신호를 확장할 때, 상기 적어도 하나의 피치 기간을 부가하고; 및
    상기 잔여 음성 신호를 압축할 때, 상기 적어도 하나의 피치 기간을 감산하는 것을 포함함을 특징으로 하는 보코더.
  35. 제31항에 있어서,
    잡음-여기된 선형 예측 인코딩 소프트웨어 명령을 이용하여 상기 음성 세그먼트를 인코딩하는 것은 선형 예측 코딩 정보를 음성 세그먼트의 상이한 부분의 게인으로서 인코딩하는 것을 포함함을 특징으로 하는 보코더.
  36. 제33항에 있어서,
    만일 상기 음성 잔여 신호가 감소되는 경우, 상기 피치 기간들을 중첩하는 명령은,
    입력 샘플 시퀀스를 샘플들의 블록들로 세그먼팅하고;
    일정한 시간 간격들로 상기 잔여 신호의 세그먼트들을 제거하고;
    상기 제거된 세그먼트들을 합치고; 및
    상기 제거된 세그먼트들을 합쳐진 세그먼트로 대체하는 것을 포함함을 특징으로 하는 보코더.
  37. 제33항에 있어서,
    상기 피치 지연을 추정하는 명령은, 최종 프레임의 단부의 피치 지연과 현재 프레임의 단부 사이의 인터폴레이팅을 포함하는 것을 특징으로 하는 보코더.
  38. 제33항에 있어서,
    상기 피치 기간들을 부가하는 명령은 음성 세그먼트들을 합치는 것을 포함함을 특징으로 하는 보코더.
  39. 제33항에 있어서,
    만일 상기 음성 잔여 신호가 증가되는 경우 상기 피치 기간들을 부가하는 명령은, 제1 피치 세그먼트 및 제2 피치 기간 세그먼트로부터 생성된 추가의 피치 기간을 부가하는 것을 포함함을 특징으로 하는 보코더.
  40. 제35항에 있어서,
    상기 게인은 음성 샘플들의 세트에 대해 인코딩된 것을 특징으로 하는 보코더.
  41. 제36항에 있어서,
    상기 제거된 세그먼트들을 합하는 명령은 제1 피치 기간 세그먼트의 기여를 증가시키고 제2 피치 기간 세그먼트의 기여를 감소시키는 것을 포함함을 특징으로 하는 보코더.
  42. 제38항에 있어서,
    유사한 음성 세그먼트들을 선택하는 단계를 더 포함하며, 상기 유사한 음성 세그먼트들은 합쳐지는 것을 특징으로 하는 보코더.
  43. 제38항에 있어서,
    상기 시간-와핑 명령은 음성 세그먼트들을 상관시키는 것을 더 포함하며, 그로 인해, 유사한 음성 세그먼트들이 선택되는 것을 특징으로 하는 보코더.
  44. 제39항에 있어서,
    제1 피치 세그먼트 및 제2 피치 기간 세그먼트로부터 생성된 추가의 피치 기간을 부가하는 명령은, 상기 제1 피치 기간 세그먼트의 기여가 증가하고 상기 제2 피치 기간 세그먼트의 기여가 감소하도록 상기 제1 및 제2 피치 세그먼트들을 부가하는 것을 포함함을 특징으로 하는 보코더.
  45. 제40항에 있어서,
    상기 시간-와핑 명령은 랜덤 값들을 생성하고 상기 게인들을 상기 랜덤 값들에 적용시킴으로써, 잔여 음성 신호를 생성하는 것을 더 포함함을 특징으로 하는 보코더.
  46. 제40항에 있어서,
    상기 시간-와핑 명령은, 10 인코딩된 게인 값들로서 상기 선형 예측 코딩 정보를 나타내는 것을 더 포함하며, 각각의 인코딩된 게인 값은 음성의 16 샘플들을 나타내는 것을 특징으로 하는 보코더.
KR1020077022667A 2005-03-11 2006-03-13 잔여분 변경에 의한 보코더 내부의 프레임들을 시간 와핑하는 시스템 및 방법 KR100956623B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US66082405P 2005-03-11 2005-03-11
US60/660,824 2005-03-11
US11/123,467 2005-05-05
US11/123,467 US8155965B2 (en) 2005-03-11 2005-05-05 Time warping frames inside the vocoder by modifying the residual

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020097022915A Division KR100957265B1 (ko) 2005-03-11 2006-03-13 잔여분 변경에 의한 보코더 내부의 프레임들을 시간 와핑하는 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20070112832A true KR20070112832A (ko) 2007-11-27
KR100956623B1 KR100956623B1 (ko) 2010-05-11

Family

ID=36575961

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020077022667A KR100956623B1 (ko) 2005-03-11 2006-03-13 잔여분 변경에 의한 보코더 내부의 프레임들을 시간 와핑하는 시스템 및 방법
KR1020097022915A KR100957265B1 (ko) 2005-03-11 2006-03-13 잔여분 변경에 의한 보코더 내부의 프레임들을 시간 와핑하는 시스템 및 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020097022915A KR100957265B1 (ko) 2005-03-11 2006-03-13 잔여분 변경에 의한 보코더 내부의 프레임들을 시간 와핑하는 시스템 및 방법

Country Status (14)

Country Link
US (1) US8155965B2 (ko)
EP (1) EP1856689A1 (ko)
JP (1) JP5203923B2 (ko)
KR (2) KR100956623B1 (ko)
AU (1) AU2006222963C1 (ko)
BR (1) BRPI0607624B1 (ko)
CA (1) CA2600713C (ko)
IL (1) IL185935A (ko)
MX (1) MX2007011102A (ko)
NO (1) NO20075180L (ko)
RU (1) RU2371784C2 (ko)
SG (1) SG160380A1 (ko)
TW (1) TWI389099B (ko)
WO (1) WO2006099529A1 (ko)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
WO2006026635A2 (en) * 2004-08-30 2006-03-09 Qualcomm Incorporated Adaptive de-jitter buffer for voice over ip
US7674096B2 (en) * 2004-09-22 2010-03-09 Sundheim Gregroy S Portable, rotary vane vacuum pump with removable oil reservoir cartridge
US8085678B2 (en) * 2004-10-13 2011-12-27 Qualcomm Incorporated Media (voice) playback (de-jitter) buffer adjustments based on air interface
US8355907B2 (en) * 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
CA2603255C (en) * 2005-04-01 2015-06-23 Qualcomm Incorporated Systems, methods, and apparatus for wideband speech coding
EP1875464B9 (en) * 2005-04-22 2020-10-28 Qualcomm Incorporated Method, storage medium and apparatus for gain factor attenuation
US8259840B2 (en) * 2005-10-24 2012-09-04 General Motors Llc Data communication via a voice channel of a wireless communication network using discontinuities
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
US8279889B2 (en) * 2007-01-04 2012-10-02 Qualcomm Incorporated Systems and methods for dimming a first packet associated with a first bit rate to a second packet associated with a second bit rate
US9653088B2 (en) 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US8401865B2 (en) 2007-07-18 2013-03-19 Nokia Corporation Flexible parameter update in audio/speech coded signals
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
KR101400535B1 (ko) 2008-07-11 2014-05-28 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 시간 워프 활성 신호의 제공 및 이를 이용한 오디오 신호의 인코딩
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
US20100191534A1 (en) * 2009-01-23 2010-07-29 Qualcomm Incorporated Method and apparatus for compression or decompression of digital signals
US8428938B2 (en) * 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
EP2491555B1 (en) 2009-10-20 2014-03-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-mode audio codec
US8996364B2 (en) * 2010-04-12 2015-03-31 Smule, Inc. Computational techniques for continuous pitch correction and harmony generation
TWI409802B (zh) * 2010-04-14 2013-09-21 Univ Da Yeh 音頻特徵處理方法及其裝置
MY160265A (en) 2011-02-14 2017-02-28 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Apparatus and Method for Encoding and Decoding an Audio Signal Using an Aligned Look-Ahead Portion
SG185519A1 (en) 2011-02-14 2012-12-28 Fraunhofer Ges Forschung Information signal representation using lapped transform
EP2676264B1 (en) 2011-02-14 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder estimating background noise during active phases
SG192734A1 (en) 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
JP5625126B2 (ja) 2011-02-14 2014-11-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル領域ノイズ整形を使用する線形予測ベースコーディングスキーム
JP5800915B2 (ja) 2011-02-14 2015-10-28 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ信号のトラックのパルス位置の符号化および復号化
BR112013020482B1 (pt) 2011-02-14 2021-02-23 Fraunhofer Ges Forschung aparelho e método para processar um sinal de áudio decodificado em um domínio espectral
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
ES2623291T3 (es) 2011-02-14 2017-07-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación de una porción de una señal de audio utilizando una detección de transitorios y un resultado de calidad
CN103092330B (zh) * 2011-10-27 2015-11-25 宏碁股份有限公司 电子装置及其语音辨识方法
TWI584269B (zh) * 2012-07-11 2017-05-21 Univ Nat Central Unsupervised language conversion detection method
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal

Family Cites Families (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5643800A (en) 1979-09-19 1981-04-22 Fujitsu Ltd Multilayer printed board
JPS57158247A (en) 1981-03-24 1982-09-30 Tokuyama Soda Co Ltd Flame retardant polyolefin composition
JPS59153346A (ja) * 1983-02-21 1984-09-01 Nec Corp 音声符号化・復号化装置
JPS61156949A (ja) 1984-12-27 1986-07-16 Matsushita Electric Ind Co Ltd 音声パケツト通信方式
BE1000415A7 (nl) 1987-03-18 1988-11-22 Bell Telephone Mfg Asynchroon op basis van tijdsverdeling werkend communicatiesysteem.
JPS6429141A (en) 1987-07-24 1989-01-31 Nec Corp Packet exchange system
JP2760810B2 (ja) 1988-09-19 1998-06-04 株式会社日立製作所 音声パケット処理方法
SE462277B (sv) 1988-10-05 1990-05-28 Vme Ind Sweden Ab Hydrauliskt styrsystem
JPH04113744A (ja) 1990-09-04 1992-04-15 Fujitsu Ltd 可変速度パケット伝送方式
AU642540B2 (en) * 1990-09-19 1993-10-21 Philips Electronics N.V. Record carrier on which a main data file and a control file have been recorded, method of and device for recording the main data file and the control file, and device for reading the record carrier
JP2846443B2 (ja) 1990-10-09 1999-01-13 三菱電機株式会社 パケット組立分解装置
US5283811A (en) * 1991-09-03 1994-02-01 General Electric Company Decision feedback equalization for digital cellular radio
US5371853A (en) * 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
US5317604A (en) * 1992-12-30 1994-05-31 Gte Government Systems Corporation Isochronous interface method
JP3186315B2 (ja) * 1993-02-27 2001-07-11 ソニー株式会社 信号圧縮装置、信号伸張装置、信号送信装置、信号受信装置及び信号送受信装置
US5490479A (en) * 1993-05-10 1996-02-13 Shalev; Matti Method and a product resulting from the use of the method for elevating feed storage bins
US5440562A (en) * 1993-12-27 1995-08-08 Motorola, Inc. Communication through a channel having a variable propagation delay
WO1996005697A1 (en) * 1994-08-12 1996-02-22 Sony Corporation Video signal editing device
NL9401696A (nl) 1994-10-14 1996-05-01 Nederland Ptt Bufferuitleesbesturing van ATM ontvanger.
US5602959A (en) * 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms
US5699478A (en) 1995-03-10 1997-12-16 Lucent Technologies Inc. Frame erasure compensation technique
US5929921A (en) 1995-03-16 1999-07-27 Matsushita Electric Industrial Co., Ltd. Video and audio signal multiplex sending apparatus, receiving apparatus and transmitting apparatus
JP3286110B2 (ja) 1995-03-16 2002-05-27 松下電器産業株式会社 音声パケット補間装置
KR0164827B1 (ko) * 1995-03-31 1999-03-20 김광호 프로그램 가이드신호 수신기
JPH09127995A (ja) 1995-10-26 1997-05-16 Sony Corp 信号復号化方法及び信号復号化装置
US5640388A (en) * 1995-12-21 1997-06-17 Scientific-Atlanta, Inc. Method and apparatus for removing jitter and correcting timestamps in a packet stream
JPH09261613A (ja) 1996-03-26 1997-10-03 Mitsubishi Electric Corp データ受信再生装置
US5940479A (en) * 1996-10-01 1999-08-17 Northern Telecom Limited System and method for transmitting aural information between a computer and telephone equipment
JPH10190735A (ja) 1996-12-27 1998-07-21 Secom Co Ltd 通話システム
US6073092A (en) * 1997-06-26 2000-06-06 Telogy Networks, Inc. Method for speech coding based on a code excited linear prediction (CELP) model
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6259677B1 (en) * 1998-09-30 2001-07-10 Cisco Technology, Inc. Clock synchronization and dynamic jitter management for voice over IP and real-time data
US6370125B1 (en) * 1998-10-08 2002-04-09 Adtran, Inc. Dynamic delay compensation for packet-based voice network
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
US6922669B2 (en) * 1998-12-29 2005-07-26 Koninklijke Philips Electronics N.V. Knowledge-based strategies applied to N-best lists in automatic speech recognition systems
EP1088302B1 (en) 1999-04-19 2008-07-23 AT & T Corp. Method for performing packet loss concealment
US7117156B1 (en) * 1999-04-19 2006-10-03 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
GB9911737D0 (en) * 1999-05-21 1999-07-21 Philips Electronics Nv Audio signal time scale modification
US6785230B1 (en) * 1999-05-25 2004-08-31 Matsushita Electric Industrial Co., Ltd. Audio transmission apparatus
JP4218186B2 (ja) 1999-05-25 2009-02-04 パナソニック株式会社 音声伝送装置
JP4895418B2 (ja) 1999-08-24 2012-03-14 ソニー株式会社 音声再生方法および音声再生装置
EP1221694B1 (en) 1999-09-14 2006-07-19 Fujitsu Limited Voice encoder/decoder
US6377931B1 (en) * 1999-09-28 2002-04-23 Mindspeed Technologies Speech manipulation for continuous speech playback over a packet network
US6859460B1 (en) * 1999-10-22 2005-02-22 Cisco Technology, Inc. System and method for providing multimedia jitter buffer adjustment for packet-switched networks
US6665317B1 (en) 1999-10-29 2003-12-16 Array Telecom Corporation Method, system, and computer program product for managing jitter
US6496794B1 (en) * 1999-11-22 2002-12-17 Motorola, Inc. Method and apparatus for seamless multi-rate speech coding
US6366880B1 (en) * 1999-11-30 2002-04-02 Motorola, Inc. Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies
US6693921B1 (en) * 1999-11-30 2004-02-17 Mindspeed Technologies, Inc. System for use of packet statistics in de-jitter delay adaption in a packet network
GB2360178B (en) * 2000-03-06 2004-04-14 Mitel Corp Sub-packet insertion for packet loss compensation in Voice Over IP networks
US6813274B1 (en) * 2000-03-21 2004-11-02 Cisco Technology, Inc. Network switch and method for data switching using a crossbar switch fabric with output port groups operating concurrently and independently
AU2001247578A1 (en) 2000-04-03 2001-10-15 Ericsson Inc. Method and apparatus for efficient handover in packet data communication system
US6584438B1 (en) * 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
EP2040253B1 (en) 2000-04-24 2012-04-11 Qualcomm Incorporated Predictive dequantization of voiced speech
US7246057B1 (en) * 2000-05-31 2007-07-17 Telefonaktiebolaget Lm Ericsson (Publ) System for handling variations in the reception of a speech signal consisting of packets
US7016970B2 (en) * 2000-07-06 2006-03-21 Matsushita Electric Industrial Co., Ltd. System for transmitting stream data from server to client based on buffer and transmission capacities and delay time of the client
US7155518B2 (en) * 2001-01-08 2006-12-26 Interactive People Unplugged Ab Extranet workgroup formation across multiple mobile virtual private networks
US20020133334A1 (en) * 2001-02-02 2002-09-19 Geert Coorman Time scale modification of digitally sampled waveforms in the time domain
US20040204935A1 (en) * 2001-02-21 2004-10-14 Krishnasamy Anandakumar Adaptive voice playout in VOP
US7212517B2 (en) * 2001-04-09 2007-05-01 Lucent Technologies Inc. Method and apparatus for jitter and frame erasure correction in packetized voice communication systems
WO2002087137A2 (en) 2001-04-24 2002-10-31 Nokia Corporation Methods for changing the size of a jitter buffer and for time alignment, communications system, receiving end, and transcoder
US7006511B2 (en) 2001-07-17 2006-02-28 Avaya Technology Corp. Dynamic jitter buffering for voice-over-IP and other packet-based communication systems
US7266127B2 (en) * 2002-02-08 2007-09-04 Lucent Technologies Inc. Method and system to compensate for the effects of packet delays on speech quality in a Voice-over IP system
US7079486B2 (en) * 2002-02-13 2006-07-18 Agere Systems Inc. Adaptive threshold based jitter buffer management for packetized data
US7158572B2 (en) * 2002-02-14 2007-01-02 Tellabs Operations, Inc. Audio enhancement communication techniques
US7126957B1 (en) * 2002-03-07 2006-10-24 Utstarcom, Inc. Media flow method for transferring real-time data between asynchronous and synchronous networks
US7263109B2 (en) * 2002-03-11 2007-08-28 Conexant, Inc. Clock skew compensation for a jitter buffer
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
JP3761486B2 (ja) * 2002-03-29 2006-03-29 Necインフロンティア株式会社 無線lanシステム、主装置およびプログラム
AU2002307884A1 (en) * 2002-04-22 2003-11-03 Nokia Corporation Method and device for obtaining parameters for parametric speech coding of frames
US7496086B2 (en) * 2002-04-30 2009-02-24 Alcatel-Lucent Usa Inc. Techniques for jitter buffer delay management
US7280510B2 (en) * 2002-05-21 2007-10-09 Nortel Networks Limited Controlling reverse channel activity in a wireless communications system
WO2003107591A1 (en) * 2002-06-14 2003-12-24 Nokia Corporation Enhanced error concealment for spatial audio
US7336678B2 (en) * 2002-07-31 2008-02-26 Intel Corporation State-based jitter buffer and method of operation
US8520519B2 (en) * 2002-09-20 2013-08-27 Broadcom Corporation External jitter buffer in a packet voice system
JP3796240B2 (ja) 2002-09-30 2006-07-12 三洋電機株式会社 ネットワーク電話機および音声復号化装置
JP4146708B2 (ja) 2002-10-31 2008-09-10 京セラ株式会社 通信システム、無線通信端末、データ配信装置及び通信方法
US6996626B1 (en) * 2002-12-03 2006-02-07 Crystalvoice Communications Continuous bandwidth assessment and feedback for voice-over-internet-protocol (VoIP) comparing packet's voice duration and arrival rate
KR100517237B1 (ko) 2002-12-09 2005-09-27 한국전자통신연구원 직교 주파수 분할 다중화 무선 통신 시스템에서의채널품질 추정과 링크적응 방법 및 그 장치
US7525918B2 (en) * 2003-01-21 2009-04-28 Broadcom Corporation Using RTCP statistics for media system control
US7394833B2 (en) * 2003-02-11 2008-07-01 Nokia Corporation Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification
JP2004266724A (ja) 2003-03-04 2004-09-24 Matsushita Electric Ind Co Ltd リアルタイム音声用バッファ制御装置
JP3825007B2 (ja) * 2003-03-11 2006-09-20 沖電気工業株式会社 ジッタバッファの制御方法
US7551671B2 (en) * 2003-04-16 2009-06-23 General Dynamics Decision Systems, Inc. System and method for transmission of video signals using multiple channels
JP2005057504A (ja) 2003-08-05 2005-03-03 Matsushita Electric Ind Co Ltd データ通信装置及びデータ通信方法
CA2446469A1 (en) * 2003-08-15 2005-02-15 M-Stack Limited Apparatus, and an associated method, for preserving communication service quality levels during hand-off of communications in a radio communication system
US7596488B2 (en) 2003-09-15 2009-09-29 Microsoft Corporation System and method for real-time jitter control and packet-loss concealment in an audio signal
US7505764B2 (en) * 2003-10-28 2009-03-17 Motorola, Inc. Method for retransmitting a speech packet
US7272400B1 (en) * 2003-12-19 2007-09-18 Core Mobility, Inc. Load balancing between users of a wireless base station
US7424026B2 (en) * 2004-04-28 2008-09-09 Nokia Corporation Method and apparatus providing continuous adaptive control of voice packet buffer at receiver terminal
JP4076981B2 (ja) 2004-08-09 2008-04-16 Kddi株式会社 通信端末装置およびバッファ制御方法
US8085678B2 (en) * 2004-10-13 2011-12-27 Qualcomm Incorporated Media (voice) playback (de-jitter) buffer adjustments based on air interface
SG124307A1 (en) * 2005-01-20 2006-08-30 St Microelectronics Asia Method and system for lost packet concealment in high quality audio streaming applications
US8102872B2 (en) * 2005-02-01 2012-01-24 Qualcomm Incorporated Method for discontinuous transmission and accurate reproduction of background noise information
US20060187970A1 (en) * 2005-02-22 2006-08-24 Minkyu Lee Method and apparatus for handling network jitter in a Voice-over IP communications network using a virtual jitter buffer and time scale modification
US8355907B2 (en) 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
CA2603255C (en) * 2005-04-01 2015-06-23 Qualcomm Incorporated Systems, methods, and apparatus for wideband speech coding

Also Published As

Publication number Publication date
AU2006222963B2 (en) 2010-04-08
CA2600713A1 (en) 2006-09-21
JP5203923B2 (ja) 2013-06-05
KR100957265B1 (ko) 2010-05-12
MX2007011102A (es) 2007-11-22
IL185935A (en) 2013-09-30
JP2008533529A (ja) 2008-08-21
US8155965B2 (en) 2012-04-10
NO20075180L (no) 2007-10-31
TWI389099B (zh) 2013-03-11
RU2371784C2 (ru) 2009-10-27
RU2007137643A (ru) 2009-04-20
KR100956623B1 (ko) 2010-05-11
BRPI0607624A2 (pt) 2009-09-22
KR20090119936A (ko) 2009-11-20
US20060206334A1 (en) 2006-09-14
AU2006222963A1 (en) 2006-09-21
EP1856689A1 (en) 2007-11-21
TW200638336A (en) 2006-11-01
BRPI0607624B1 (pt) 2019-03-26
CA2600713C (en) 2012-05-22
SG160380A1 (en) 2010-04-29
AU2006222963C1 (en) 2010-09-16
WO2006099529A1 (en) 2006-09-21
IL185935A0 (en) 2008-01-06

Similar Documents

Publication Publication Date Title
KR100957265B1 (ko) 잔여분 변경에 의한 보코더 내부의 프레임들을 시간 와핑하는 시스템 및 방법
KR100956526B1 (ko) 보코더에서 프레임을 위상 매칭하는 방법 및 장치
JP5373217B2 (ja) 可変レートスピーチ符号化
US8239190B2 (en) Time-warping frames of wideband vocoder
JP4824167B2 (ja) 周期的スピーチコーディング
JP2010501896A5 (ko)
CN101180676A (zh) 用于谱包络表示的向量量化的方法和设备
KR20020052191A (ko) 음성 분류를 이용한 음성의 가변 비트 속도 켈프 코딩 방법
JP2003501675A (ja) 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置
CN113826161A (zh) 用于检测待编解码的声音信号中的起音以及对检测到的起音进行编解码的方法和设备
Yaghmaie Prototype waveform interpolation based low bit rate speech coding

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
A107 Divisional application of patent
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130329

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160330

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170330

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20180329

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20190327

Year of fee payment: 10