KR20020033737A - 음성 코더에서 선스펙트럼 정보 양자화법을 인터리빙하는방법및 장치 - Google Patents

음성 코더에서 선스펙트럼 정보 양자화법을 인터리빙하는방법및 장치 Download PDF

Info

Publication number
KR20020033737A
KR20020033737A KR1020027000784A KR20027000784A KR20020033737A KR 20020033737 A KR20020033737 A KR 20020033737A KR 1020027000784 A KR1020027000784 A KR 1020027000784A KR 20027000784 A KR20027000784 A KR 20027000784A KR 20020033737 A KR20020033737 A KR 20020033737A
Authority
KR
South Korea
Prior art keywords
vector
moving average
frame
quantization
quantized
Prior art date
Application number
KR1020027000784A
Other languages
English (en)
Other versions
KR100752797B1 (ko
Inventor
아라사니팔라이 케이. 아낸더패드마나한
사라쓰 만주나쓰
Original Assignee
러셀 비. 밀러
콸콤 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 러셀 비. 밀러, 콸콤 인코포레이티드 filed Critical 러셀 비. 밀러
Publication of KR20020033737A publication Critical patent/KR20020033737A/ko
Application granted granted Critical
Publication of KR100752797B1 publication Critical patent/KR100752797B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Analogue/Digital Conversion (AREA)
  • Processing Of Color Television Signals (AREA)
  • Image Processing (AREA)

Abstract

음성 코더에서 선 스펙트럼 정보 양자화 방법을 인터리브하기 위한 방법과 장치는 두가지 벡터 양자화 기술로 선 스펙트럼을 양자화하는 것을 포함하고 있다. 첫 번째 양자화 기술은 비 이동평균 예측 기반 기술이고 두번째 기술은 이동평균 예측기반 기술이다. 선 스펙트럼 정보 벡터는 첫 번째 기술로 양자화된 양자화된 벡터이다. 첫 번째 기술에 대한 등가 이동평균 코드벡터들이 계산된다. 코드 벡터의 이동평균 코드북 메모리는 음성 코더에 의해 이전에 처리된 일정한 수의 프레임에 대한 등가 이동평균 코드 벡터로 업데이트 된다. 두번째 기술에 대한 목표 양자화 벡터가 업데이트된 이동평균 코드 북 메모리를 바탕으로 계산된다. 목표 양자화 벡터는 양자화된 목표 코드 벡터를 발생하기 위해 두번째 기술을 이용해 양자화 된다. 이동 평균 코드 북 메모리는 양자화된 목표 코드벡터을 이용해 업데이트 된다. 양자화된 선 스펙트럼 정보 벡터는 양자화된 목표 코드벡터로부터 유도된다.

Description

음성 코더에서 선스펙트럼 정보 양자화법을 인터리빙하는 방법및 장치{METHOD AND APPARATUS FOR INTERLEAVING LINE SPECTRAL INFORMATION QUANTIZATION METHODS IN A SPEECH CODER}
디지털 기술을 이용하여 음성을 전송하는 것은 일반적이 되어가고 있으며 특히 장거리 및 디지털 무선 전화 분야에서는 더욱 그러하다.이는 재구성된 음성의 인지 품질을 유지하면서 하나의 채널을 통하여 전송되는 가장 적은 정보량을 결정하는데에 관심을 불려 일으켰다.
만약 음성이 단순한 샘플링과 디지타이징(digitizing)만으로 전송된다면 상업용 아날로그 전화의 음질을 유지하기 위해 64kbps의 데이타 율이 요구된다. 하지만 음성 분석에 이는 적정한 코딩과 전송 그리고 수신기에서 재합성을 통해 데이타 율의 상당한 감소가 이루어질 수 있다. 음성을 압축하기 위한 장치는 여러 통신 분야에서 사용된다. 그 한 예가 무선 통신이다. 무선 통신 분야는 무선 전화, 무선 호출, 무선 가입자 회선, 핸드폰이나 개인휴대통신(PCS) 시스템과 같은 무선 통화법, 이동 인터넷 프로토콜(IP) 통화법, 그리고 위성 통신 시스템과 같은 많은응용들이 있다. 특히 중요한 응용은 이동 전화 가입자를 위한 무선 통화법이다.
주파수 분할다중접속(FDMA), 시간분할 다중 접속(TDMA), 그리고 코드 분할 다중 접속(CDMA)와 같이 무선 통신 시스템을 위한 여러 무선 인터페이스가 개발되고 있다. 이와 관련하여 Adanced Mobile Phone Service(AMPS) ,Global System for Mobile Communcation(GSM) ,그리고 Interim Standard 95(IS-95)와 같은 국내외 기준이 만들어 졌다. 무선 전화 통화 시스템의 한 예는 코드 분할 다중 접속(CDMA) 시스템이다. IS-95 표준 그리고 이것에서 비롯한, IS-95A, ANSI J-STD-008, IS-95B, 그리고 3세대 표준인 IS-95C 와 IS-2000은 미국 전기 통신 공업 협회 (TIA)와 다른 저명한 표준화 기관에 의해 핸드폰이나 PCS 전화 통신 시스템을 위한 CDMA 무선 인터페이스의 사용을 특정화하기 위해 발표되었다. IS-95 표준의 사용과 관련하여 만들어진 무선 통신 시스템의 예는 본 발명의 출원인에게 양도되고 이하 참고가 되는 미국 특허 번호 5103459와 4901307에 설명되어 있다.
인간 음성 발생 모델과 관련된 파라미터를 뽑아내어 음성을 압축하는 기술을 이용하는 장치는 음성 코더라고 불린다. 음성코더는 입력 음성 신호를 시간 블럭, 또는 분석 프레임으로 나눈다. 음성코더는 전형적으로 인코더와 디코더로 구성되어 있다. 인코더는 음성 프레임을 분석하여 특정 관련 파라미터를 뽑아내고 그 파라미터를 비트 조합이나 이진 데이터 패킷과 같이 이진 표현으로 양자화 한다. 그 데이터 패킷은 통신 채널을 통하여 수신기와 디코더에 전달된다. 디코더는 데이타 패킷을 처리하고 파라미터를 생성하기 위해 데이타 패킷을 비양자화하며 비양자화된 파라미터를 이용하여 음성프레임을 재합성한다.
음성 코더의 기능은 음성에서 본질적인 모든 잉여를 제거함으로써 디지탈화된 음성 신호를 낮은비트 율의 신호로 압축하는 것이다. 이러한 디지털 압축은 입력 음성 신호를 파라미터 조합으로 나타내고 상기 파라미터를 비트 조합으로 표현하기 위해 양자화를 함으로 이루어 진다. 만약 입력음성 프레임이 Ni개의 비트를 가지고 있고 음성 코더에 의해 생성된 데이타 패킷이 No개의 비트을 가지고 있다면 음성코더에 의해 이루어진 압축 인자는 Cr=Ni/No이다. 과제는 목표 압축 인자를 가지고 디코드된 음성의 높은 음질을 유지하는 것이다. 음성 코더의 성능은 (1) 음성 모델 또는 위에서 설명한 분석과 합성 과정의 조합이 얼마나 잘 작동하는지와 (2)프레임 당 No의 목표 비트율로 파라미터 양자화 과정을 얼마나 잘 수행되는지에 달려있다. 따라서 음성 모델의 목표는 각 프레임 당 파라미터의 적은 조합으로 음성 신호의 본질 또는 목표 음질을 획득하는 것이다.
아마도 음성코더를 디자인하느데 가장 중요한 것은 음성 신호를 표현하기 위해 벡터를 포함하는 파라미터의 좋은 조합을 찾는 것이다. 파라미터의 좋은 조합은 인지적으로 정확한 음성 신호를 재복구하기 위해 적은 시스템 밴드폭을 요구하는 것이다. 간격, 신호 전력, 스펙트럼 포락선 (포르만트), 크기, 위상 스펙트럼들이 음성 코딩 파라미터의 예이다.
음성 코더는 시간 영역 코더로 구성되는데 시간 영역 코더는 전형적으로 5ms의 서브프레임과 같이 작은 음성 단위를 인코더하기 위해 높은 시간 분해 처리를 사용하여 시간 영역 음성파를 잡는다. 각각의 서브프레임에 대해 코드북 공간으로부터 높은 정밀도 표현은 당업계에서 알여진 여러 탐색 알고리즘에 의해 찾을수 있다. 선택적으로 음성 코더는 주파수 영역 코더로 구성될수 있는데 이는 파라미터 조합을 가지고 입력 음성 프레임의 단기간 음성 스펙트럼을 획득하고 스펙트럼 파라미터에서 음파를 재생하기 위해 상응하는 합성 과정을 사용한다. 파라미터 양자화기는 A.Gersho&R.M.Gray의 " 벡터 양자화와 신호 압축"이라는 책에서 설명하고 있는 공지의 양자화 기술과 일치하게 코드 벡터의 저장된 표현으로 파라미터를 표현함으로써 파라미터를 보존한다.
잘 알려진 시간 영역 음성 코더는 L.B. Rabiner &R.W.Schafer의 " 음성 신호의 디지탈 처리"라는 책 396-453(1978)에 설명된 Code Exited Linear Predictive(CELP)이며 본 발명에서 참고로 하고 있다. CELP 코더에서 음성 신호에 이어서의 단기간 상관관계 또는 잉여분은 선형예측(LP) 분석에 의해 제거되는데 여기서 선형 예측 분석 방식은 단기간 포르만트 필터(short-term formant filter)의 계수를 판단한다. 입력 음성 프레임에 단기간 예측 필터를 적용하는 것은 LP잔여 신호를 생성하는데, LP잔여 신호는 장기 예측 필터 파라미터나 후속의 추계 코드 북을 가지고 좀더 모델되고 양자화된다. 그러므로 CELP 코딩은 시간 영역 음성파의 인코딩 작업을 LP 단시간 필터 계수의 인코딩과 LP잔여를 인코딩하는 작업으로 분리한다. 시간 영역 코딩은 정해진 비율, 즉 각 프레임 당 같은 수의 비트No을 이용하는것 또는 다양한 비율 즉 프레임 내용의 다른 종류에 대해 다른 비트율을 사용할 수 있다. 다양한 율의 코더는 목표를 얻을수 있을 정도의 코덱 파라미터를 인코드하기 위해 필요한 비트 양만을 사용하려 한다. 다양한 비율을 갖는 CELP코더의 예는 본 발명의 출원인에게 양도되었고 본 발명에 참고되어진 미국 특허 번호 5,414,796에 설명되어 있다.
CELP코더와 같은 시간 영역 코더는 전형적으로 시간 영역 음파의 정확성을 유지하기 위해 프레임 당 높은 비트 수 No에 의존한다. 이러한 코더는 프레임 당 상대적으로 높은 비트 수 No(8kbps또는 그 이상)를 제공하기 때문에 좋은 음질을 제공한다. 그러나 낮은 비트율에서는(4kbps 또는 그 이하) 시간 영역 코더는 좋은 음질이나 확고한 기능을 수행할 수 없는데 이는 사용할 수 있는 비트의 수가 한정이 되어 있기 때문이다. 낮은 비트율에서 제한된 코드 북 공간은 종래의 시간 영역 코더의 파형 매칭 기능을 낮는데 이는 보다 높은 율의 상업용 응용에는 성공적으로 전개되었다. 그러므로 낮은 비트율에서 작동하는 여러 CELP코딩 시스템은 잡음으로 인식되는 상당한 왜곡을 겪는다.
현재는 낮은 비트 율(2.4kbps에서 4kbps의 범위 및 그 이하)에서 높은 음질을 갖는 음성 코더의 발견에 많은 관심과 상업적 필요성이 고조되고 있다. 그리고 그 응용 범위는 무선 전화, 위성 통신, 인터넷 전화, 여러 멀티미디어, 그리고 음성 스트림 응용 분야, 음성 메일, 다른 음성 저장 시스템이다. 그리고 그러한 발전의 추진력은 높은 성능과 패킷을 잃는 상태에서도 확실한 성능에 대한 요구이다. 최근 여러 음성 코딩 표준화 노력은 낮은 율의 음성 코딩 알고리즘에 대한 개발과 연구를 가속하는 다른 추진력이 되고 있다. 낮은 율의 음성코더는 허용된 응용 밴드폭 당 보다 많은 채널과 사용자를 생성하며 적당한 채널 코딩과 결합한 낮은 율의 음성 코더는 채널 에러 상태에서도 확실한 기능을 수행한다.
낮은 비트 율에서 음성을 효과적으로 인코더하는 효과적인 기술은 다중모드 코딩이다. 다중 모드 코딩 기술의 예는 1998년 12월 21에 출원된 "여러 속도의 음성 코딩"라는 제하의 미국 특허 출원 제 09/217341호에 기재되어 있으며 상기의 발명은 본 발명의 출원인에게 양도되었다. 종래의 다중모드 코더는 입력 음성 프레임의 다른 형태에 다른 모드 또는 인코딩-디코딩 알고리즘을 적용한다. 각각의 모드 또는 인코딩-디코딩 처리는 유음 음성, 무음 음성, 전이 음성(유음과 무음 사이), 그리고 주위 잡음(무음성)과 같은 음성 부분의 일정 종류를 최적으로 표현하도록 만들어 진다. 외부, 개방 루프 모드 결정 기기는 입력 음성 프레임을 조사하여 어떤 모드를 프레임에 적용할 것인지를 결정한다. 상기 개방루프 모드 결정은 전형적으로 입력 프레임으로부터 수개의 파라미터를 뽑아내 그 파라미터의 일시적이고 스펙트럴한 특성을 평가하고 그 평가에 근거하여 모드 결정을 한다.
종래의 많은 음성 코더에서 선 스펙트럼 페어 또는 선 스펙트럼 코사인과 같은 선 스펙트럼 정보는 코딩율을 충분히 감소시키지 않고 유음 음성 프레임을 인코딩함에 있어 정상상태 성질을 이용하지 않고 전송된다. 따라서 유용한 밴드폭이 낭비된다. 다른 종래의 음성코더, 다중 모드 음성코더, 또는 낮은 비트 율 음성 코더에서는 유음 음성의 정상상태 특성은 매 프레임마다 이용이 된다. 따라서 비정상 상태 프레임은 감소하고 음질은 떨어진다. 각 프레임의 음성 내용의 특징에 따라 반응하는 코딩 방법을 제공하는 것이 바람직하다. 게다가 음성 신호는 보통 비정상 상태, 비정상이므로 음성 코딩에서 이용되는 선 스펙트럼 정보 파라미터의양자화의 효율은 음성의 각 프레임의 LSI파라미터가 이동평균 예측 기반 벡터 양자화(이하 VQ)또는 다른 표준 VQ방법을 선택적으로 이용하여 코드되는 구조를 사용하여 효율을 향상시킬 수 있다. 그러한 구조는 상기 VQ의 두가지 방법의 장점을 적절히 이용할 수 있다. 따라서 한 방법에서 다른 방법으로 바뀌는 경계에서 두 구조를 적당히 조합함으로 VQ의 두 방법을 인터리브하는 음성 코더를 제공함이 바람직하다. 따라서 주기적 프레임과 비주기적 프레임간의 변화에 적응하기 위해 다중 벡터 양자화 방법을 이용하는 음성 코더의 필요성이 있다.
본 발명은 일반적으로 음성 처리 분야에 관한 것이며, 특히 음성코더에서 선스펙트럼 정보를 양자화하는 방법과 장치에 관한 것이다.
도면 1은 무선 전화 시스템의 블럭 다이아그램이다.
도면 2는 음성코더에 의해 가 끝에서 지배되는 통신 채널의 다이아그램이다.
도면 3은 인코더의 다이아그램이다.
도면 4는 디코더의 다이아그램이다.
도면 5는 음성 코딩 결정 과정을 나타내고 있는 흐름도이다.
도면 6A는 시간에 대한 음성 신호 크기의 그래프이고 도면 6B 는 시간에 대한 선형 예측 잔여 크기에 대한 그래프이다.
도면 7은 선 스펙트럼 정보 벡터 양자화의 두 방법을 인터리브하기 위해 음성 코더에 의해 수행되는 방법 과정을 설명하고 있다.
본 발명은 주기적 프레임과 비주기적 프레임의 변화에 적응하기 위해 다중 벡터 양자화 방법을 사용하는 음성 코더이다. 따라서 발명의 한 관점에서 음성코더는 프레임을 분석하고 이를 바탕으로 선 스펙트럼 정보 코드벡터를 발생하기 위해 구성된 선형 예측 필터와 양자화기로 구성되는데 본 양자화기는 선형예측 필터와 연결되어 있고 비평균 이동 예측 기반 벡터 양자화구조를 사용하는 첫 번째 기술로 선 스펙트럼 정보 벡터하기 위해 구성된 양자화 기술를 포함한다. 여기서 양자화기는 등가 이동 평균 코드 벡터를 계산하고 등가 음성 코더에 의해 이 전에 처리된 일정한 수개의 프레임에 대한 코드 벡터의 이동 평균 코드북 메모리를 등가 이동 평균 코드 벡터로 업그레이드 한다. 업데이트된 이동평균 코드북 메모리를 바탕으로 두번째 기술을 이용하여 목표 양자화 벡터를 계산한다.그리고 양자화된 목표 코드 벡터를 발생하기 위해 이동 평균 예측 기반 구조를 이용하는 두 번째 벡터 양자화 기술을 가지고 목표 양자화 벡터를 양자화하고 양자화된 목표 코드 벡터를 가지고 이동평균 코드북 메모리를 업데이트 하고 양자화된 선 스펙트럼 정보 벡터를 양자화된 목표 코드 벡터로부터 계산한다.
본 발명의 또 다른 관점에서 첫 번째와 두 번째 벡터 양자화 기술을 이용하여 프레임의 선 스펙트럼 정보 벡터를 벡터 양자화 하는 방법으로 첫번째 기술은 비이동평균 예측기반 벡터 양자화 구조를 사용하고 두번째 기술은 이동평균 예측기반 벡터 양자화 구조를 이용한다. 상기 방법은 첫 번째 벡터 양자화 기술을 가지고 선 스펙트럼 정보 벡터를 양자화하는 과정, 첫 번째 기술에 대해 등가 이동평균 코드벡터를 계산하는 과정, 음성 코드에 의해 이전에 처리된 일정한 수개의 프레임에 대한 코드 벡터의 이동 평균 코드 북 메모리를 등가 이동 평균 코드 북 벡터로 업그레이드 하는 과정, 업그레이드된 이동 평균 코드 북을 기반으로 두 번째 기술에 대해 목표 양자화 벡터를 계산하는 과정, 두 번째 벡터 양자화 기술을 가지고 양자화된 목표 코드 벡터를 생성하기 위해 목표 양자화벡터를 양자화하는 과정, 양자화된 목표 코드 벡터를 가지고 이동 평균 코드 북의 메모리를 업그레이드하는 과정, 양자화된 목표 코드 벡터로부터 양자화된 선 스펙트럼 정보를 유도하는 과정을 포함한다.
본 발명의 또 다른 관점에서 바람직하게 음성 코더는 비이동평균 예측 기반 양자화 구조를 이용하는 첫번째 기술을 가지고 프레임의 선 스펙트럼 정보 벡터를 양자화 하는 수단; 첫번째 기술에 대해 등가 평균이동 코드벡터를 계산하는 수단; 음성 코더에 의해 이전에 처리된 일정한 수의 프레임에 대한 코드 벡터의 이동 평균 코드 북 메모리를 등가 이동 평균 코드 벡터로 업그레이드 하는 수단; 업데이트된 이동평균 코드북 메모리를 기반으로 한 두 번째 기술에 대해 목표 양자화 벡터를 계산하는 수단; 두 번째 벡터 양자화 기술을 가지고 양자화된 목표 코드벡터를 생성하기 위해 목표 양자화 벡터를 양자화하는 수단; 양자화된 목표 코드벡터를 가지고 이동평균 코드북의 메모리를 업데이트하는 수단; 양자화된 목표 코드벡터로 부터 양자화된 선 스펙트럼 정보 벡터를 유도하는 수단을 포함하는 음성 코더이다
여기서 이하 설명하는 실시예는 무선 인터페이스에서 CDMA를 사용하기 위해 구성된 무선 전화 통신 시스템에 있다. 그럼에도 불구하고 당업자에게는 부표본화 방법과 현재의 발명의 특징을 드러내는 장치는 공지의 기술의 광 범위에 존재할 수 있는 것으로 이해가 될 것이다.
도면1에서와 같이 무선 통신 시스템은 보통 다수의 이동통신 가입자(10)와 다수의 기지국(12), 기지국 제어기(14) ,그리고 이동전화 교환기(MSC)(16)를 포함한다. 이동전화 교환기(16)은 종래의 공중전화망(18)과 접속되도록 구성되어져 있다. 또한 이동전환 교환기(16)은 기지국 제어기(14)와도 접속되어 있다.기지국 제어기(14)는 기지국 (12)와 backhaul line를 통해 연결되어 있다.backhaul line은 E1/T1,ATM,IP,PPP,프레임 릴레이,HDSL,ADSL,또는 xDSL과 같이 알려진 매개체 수 개를 지원할수 있도록 구성되어져 있다. 시스템에서 기지국 제어기(14)가 2개 이상 있어야 함을 알 수 있다. 각각의 기지국(12)는 바람직하게 적어도 하나의 섹터(보이지 않음)를 가지고 있어야 하고 각각의 섹터는 무지향성 안테나 또는 기지국(12)로 부터 특정 방향으로 방사적으로 날아갈수 있도록 위치되어진 안테나로 이루어져 있다.선택적으로 각각의 섹터는 다이버시티 수신을 위해 2개의 안테나로 이루어 질수 있다. 각각의 기지국(12)는 바람직하게 다수의 주파수 할당을 지원할수 있도록 만들어져야 한다. 세터의 교차 그리고 주파수 할당은 CDMA채널이라고도 한다. 기지국(12)은 또한 BTSs(12)라고도 알려져 있다. 선택적으로 기지국은 산업에서 기지국 제어기(14) 그리고 한개 이상의 BTSs(12)를 참조하기 위해 사용할수 있다. 주어진 BTSs(12)는 cell sites라 표시될 수 있다. 선택적으로 주어진 BTSs(12)의 개개 섹터는 cell sites라고도 한다. 이동통신 가입자 기기(10)은 특히 핸드폰 또는 PCS 전화(10)이다. 시스템은 바람직하게 IS-95에따른 사용을 위해 만들었다.
보통 핸드폰으로 통화를 하는 동안 기지국 (12)은 이동기기(10)세트으로 부터 역방향 링크 신호세트를 받는다. 이동기기(10)은 전화를 걸거나 다른 통신을한다. 주어진 기지국(12)로부터 받아진 각각의 역방향 링크신호는 그 기지국(12)에서 처리된다. 결과 데이터는 기지국 제어기(14)로 보내진다. 기지국 제어기(14)는 call resource allocation을 생성하고 기지국(12)들 간에 소프트 핸드오프를 조정하는 것을 포함하는 이동도 조정 기능을 수행한다. 기지국 제어기(14)는 또한 받은 데이타를 이동전화 교환기(16)로 보내는데 이동전화 교환기(16)은 공중전화망(18)에 접속하기 위한 추가적인 경로를 제공한다. 비슷하게 공중전화망(18)은 이동전화 교환기(16)과 연결되어 있고 이동전화 교환기(16)은 기지국 제어기(14)와 연결되어 있으며 순방향 링크 신호 세트를 이동기기(10) 세트로 전달하기 위해 기지국(12)를 조절한다.
도면2에서 첫번째 인코더(100)은 디지탈화된 음성 샘플s(n)을 받고 전달 매체 (102)또는 통신 채널 (102)를 통해 첫번째 디코더 (104)로 전송하기 위해 샘플 s(n)을 인코드한다. 디코더(104)는 인코드된 음성 샘플을 디코드하고 출력 음성신호 Ssynth(n)을 합성한다. 반대 방향으로 전송을 위해 두번째 인코더(106)은 디지털화된 음성샘플 s(n)을 인코드하고 통신 채널 (108)로 전달 된다. 두번째 디코더(110)은 인코드된 음성 샘플을 받아 디코드를 하며, 합성된 출력 음성 신호 Ssynth생성한다.
음성 샘플s(n)은 펄스 부호 변조(PCM),companded law,또는 A-law과 같이 당업계에서 알려진 여러 방법에 따라 디지털화되고 양자화된 음성신호를 나타낸다. 당업계 에서 알려진 것과 같이 음성샘플 s(n)은 미리 결정된 수개의 디지털화된음성샘플 s(n)로 구성된 입력 정보 플레임을 만든다. 실시예에서 8kHz의 표본화율이 적용되고, 각각의 20ms의 플레임은 160개 샘플로 이루어 졌다. 아래 있는 실시예에서 정보 전송율은 바람직하게 프레임간 단위에서 13.2kbps(최대 전송량)으로부터 6.2kbps(중간전송량), 2.6kbps(4분의 1 전송량), 1kbps(8분의 1 전송량)까지 다양히 할 수 있다. 정보 전송량의 변화는 상대적으로 적은 음성 정보를 가지고 있는 프레임에서는 낮은 비트 율을 사용할 수 있기 때문이다. 당업계에서 알고 있듯이 다른 표본율, 프레임 크기, 그리고 정보 전송율이 사용될 수 잇다.
첫번째 인코더(100)과 두번째 디코더(110)은 함께 첫번째 음성 코더 또는 음성 코덱을 구성한다. 음성코더는 도면1에서 설명한 이동국, BTSs 또는 기지국 제어기(14)와 같이 음성 신호 전달을 위한 어떤 통신장비에서도 사용될 수 있다. 이와 비슷하게 두번째 인코더(106)과 첫번째 디코더 (104)는 함께 음성코더를 구성하고 있다. 당업자는 음성코더는 디지털 신호 처리기(DSP),주문형 반도체(ASIC),discrete gate logic,펌웨어,또는 상업적으로 프로그램된 소프트웨어 모듈 그리고 소형 처리기로 이루어져 있음을 알수 있다. 소프트웨어 모듈은 RAM기억장치, 플레시 기억장치, 레지스터, 또는 당업계에서 알려진 다른 형태의 쓸수있는 기억장치에 존재한다. 선택적으로 종래의 처리기, 제어기, 또는 상태 기계는 소형처리기를 대신할수 있다.음성 코딩을 위해 특별히 제작된 주문형 반도체의 예는 본 발명의 출원인에게 양도되고 본 출원에 완전히 결합된 미국 특허 제5,727,123과 1994년 2월 16일에 출원되어 "보코더 주문형 반도체"라는 제하의 미국 특허 제 08/197417에 설명되어 있다.
도면3에서 음성 코더에 사용되는 인코더(200)은 모드결정모듈(202), 간격평가모듈(204), LP분석모듈(206), LP필터모듈(208), LP양자화모듈(210), 잔여양자화모듈(212)로 구성되어 있다. 입력음성 프레임 s(n)은 모드결정모듈(202), 간격평가모듈(204), LP분석모듈(206) 그리고 LP분석모듈(208)에 전해진다. 모드결정모듈(202)는 각각의 입력프레임 s(n)의 다른 특징 중에 주기, 에너지, 신호대 잡음 비 , 또는 부호 변환비율에 따라 모드 인덱스 IM과 모드 M을 만든다. 주기에 따라 음성 프레임을 분류하는 여러 방법은 본 발명의 출원인에게 양도되어 있고 여기서 참고하고 있는 미국 특허 제 5,911,128에 설명되어 있다. 그러한 방법은 또한 TIA/EIA IS-127과 TIA/EIA IS-733에 결합되어 있다. 모드 결정 구조의 실시예는 전술한 미국 특허출원 제 09/217341에 설명되어 있다.
간격 평가 모듈(204)는 각각의 입력 음성프레임 s(n)에 따라 간격 인덱스 IP와 래그 값 P0을 만든다. LP분석모듈(206)은 각각의 입력 음성프레임 s(n)에 대해 LP파라미터a를 생성하기 위해 선형 예상 분석을 수행한다. LP파라미터 a는 LP양자화 모듈(210)에 전해진다. LP양자화 모듈 (210)은 모드 M을 받아들이고 그것에 따라 모드 의존 방법에 의해 양자화 과정을 수행한다. LP양자화 모듈은 LP인덱스 ILP와 양자화된 LP파라미터을 생성한다. LP분석필터(208)은 입력 음성프레임 s(n)과 양자화된 LP파라미터를 받아들인다. LP분석 필터(208)은 입력 음성프레임 s(n)과 양자화된 선형예상 파라미터에 근거하여 재구성된 음성과의 오차를나타내는 LP잔여 신호 R[n]을 생성한다. LP잔여신호R[n],모드M, 그리고 양자화된 LP파라미터는 잔여 양자화 모듈(212)에 전해진다. 이러한 값에 의해 잔여 양자화 모듈(212)는 잔여 인덱스 IR과 양자화된 잔여 신호을 생성한다.
도면 4에서 음성 코더에서 사용될수 있는 디코더(300)은 LP파라미터 디코딩 모듈(302), 잔여 신호 디코딩 모듈(304), 모드 디코딩 모듈(306) 그리고 LP합성 필터(308)을 포함한다. 모드 디코딩 모듈(306)은 인덱스IM을 받아들이고 디코딩을 하여 모드 M을 생성한다. LP파라미터 디코딩 모듈(302)은 모드 M 그리고 LP인덱스 ILP을 받아들인다. LP파라미터 디코딩 모듈은 양자화된 LP파라미터을 생성하기 위해 받아들인 값을 디코딩한다. 잔여 신호 디코딩 모듈 (304)은 잔여 인덱스 IR, 간격 인덱스 IP, 및 모드 인덱스 IM을 받아 들인다. 잔여 신호 디코딩 모듈(304)은 양자화된 잔여 신호을 생성하기 위해 받아들인 값을 디코딩한다. 양자화된 잔여 신호와 양자화된 LP파라미터는 디코딩된 출력 음성 신호 s^[n]을 합성하는 LP합성 필터에 주어진다.
도면 3에 있는 인코더(200)과 도면 4에 있는 디코더(300)에 있는 여러가지 모듈의 작동과 구현은 전술한 미국 특허 제 5,414,796 와 L.B라빈너와 R.W스카펄(1978)의 "음성 신호의 디지털 처리"라는 책의 396-453에 설명되어 있다.
도면5의 흐름도에서 설명되어진 것과 같이 한 실시예에서의 음성 코더는 음성 샘플 전송을 처리함에 있어 일련의 과정을 따라간다. (400)과정에서 음성 코더는 연속적인 프레임에서 음성 신호의 디지털 샘플을 받아들인다. 주어진 샘플을 받으면서, 음성 코더는 (402)과정을 수행한다. (402)과정에서 음성코더는 프레임의 에너지를 탐지한다. 에너지는 프레임의 음성 활동의 정도이다. 음성 탐지는 디지털화된 음성 샘플의 크기의 제곱을 합하고 임계값에 대한 결과적인 에너지의 비교함으로 수행된다. 한 실시예에서 임계값은 주위 잡음의 크기 변화에 따라 달라진다. 가변 임계음성 활동 탐지기는 전술한 미국 특허 제 5,414,796에 설명되어 있다. 어떤 무음 음성은 오류로 주위 잡음으로 인코드되어 낮은 에너지 샘플이 될수 있다. 이것을 방지하기 위해 전술한 미국 특허 제 5,414,796에 설명되어진 것과 같이 낮은 에너지 샘플의 스펙트럼 각을 이용하여 무음 음성과 주위 잡음을 구별하기 위해 사용한다.
프레임의 에너지를 탐지한 후에 음성 코더는 (404)과정을 수행한다. (404)과정에서 음성 코더는 탐지된 프레임 에너지가 음성 정보를 가지고 있는 프레임으로 분류하기에 충분한 에너지를 가지고 있는지 아닌지를 별정한다. 만약 탐지된 에너지가 미리 결정된 임계값 이하의 값을 가지면 음성 코더는 (406)과정을 수행한다. (406)과정에서는 음성 코더는 주위 잡음,(예를 들어 말하지 않는것 ,침묵) 프레임으로 인코드한다. 한 실시예에서 주위 잡음은 1/8 비율 또는 1kbps로 인코드 된다. 만약 (404)과정에서 탐지된 프레임 에너지가 미리 결정된 임계값 이상인 경우에는 그 프레임은 음성으로 분류되고 음성 코더는 (408)과정을 수행한다.
(408)과정에서 음성코더는 프레임의 주기를 조사하여 그 프레임이 무음음성(unvoiced speech)인지 아닌지를 판단한다. 공지의 여러 주기 결정은 부호 변환법을 이용하거나 정규화된 자기 상관 함수(NACFs)를 이용하는 것을 포함한다. 특히 주기를 탐지하기 위해 부호 변환과 자기 상관함수를 이용함은 전술한 미국 특허 제 5,911,128과 미국 출원 제 09/21734에 설명되어 있다. 게다가 유음 음성과 무음 음성을 구별하기 위해 위에서 설명한 방법은 Telecommunication Industry Accociation Interim Standards TIA/EIA IS-127 과 TIA/EIA IS-733에 포함되어 있다. 만약 (408)과정에서 프레임이 무음 음성으로 결정되면 음성코더는 (410)과정을 수행한다. (410)과정에서 음성코더는 무음 음성의 프레임으로 인코드한다. 한 실시예에서 무음 음성의 프레임은 1/4비율 또는 2.6kbps로 인코드된다. 만약 (408)과정에서 프레임이 무음 음성이 아니라고 결정이 나면 음성 코더는 (412)과정을 수행한다.
(412)과정에서 음성 코더는 전술한 미국 특허 제 5,911,128에서 설명하고 있는 주기 결정법을 이용하여 프레임이 전이 음성인지 아닌지를 판단한다. 만약 그 프레임이 전이 음성이라고 판단이 나면 음성코더는 (414)과정을 수행한다. (414)과정에서 그 프레임은 전이 음성으로 인코드된다.(무음 음성으로부터 유성 음성으로의 전이) 한 실시예에서 전이 음성 프레임은 "전이 음성 프레임의 멀티펄스 보간 코딩"라는 제하의 1999년 5월 7일에 출원된 미국 특허 출원 제 09/307,294에 설명된 멀티펄스 보간 방법에따라 인코드되며 상기 발명은 본 발명의 출원인에게 양도되었고 본 발명에서 참고로 한다. 다른 실시예에서 전이 음성 프레임은 꽉찬 비율 또는 13.2 kbps로 인코드된다.
만약 (412)과정에서 음성 코더가 프레임이 전이 음성이 아니라고 결정을 하면 음성 코더는 (416)과정을 수행한다. (416)과정에서 음성 코더는 프레임을 유음 음성으로 인코드한다. 한 실시예에서 유성음성 프레임은 1/2비율 또는 6.2kbps로 인코드될수 있다. 또한 유음 음성 프레임을 꽉찬 비율 또는 13.2kbps(또는 8k CELP인코더에서는 꽉찬 비율,8kbps)로 인코드할수 있다.그러나 당업자는 1/2비율로 유음 음성 프레임을 인코드하는 것은 코더가 유음 음성 프레임의 정상상태의 특성을 이용하여 상당한 밴드폭을 절약학 수 있다는 것을 알고 있다. 게다가 유음 음성을 인코드하는데 사용된 비율에 관계없이 유음 음성은 바람직하게 지난 프레임의 정보를 이용하여 인코드되며 그러므로 예상적으로 인코드된다고 말할수 있다.
당업자는 음성 신호 또는 대응하는 LP잔여 신호는 도면 5에서 보여지는 과정을 따라 인코드된다는 것을 알 수 있을 것이다. 잡음, 무음 음성, 전이 음성, 그리고 유음 음성의 파형 특성은 시간의 함수로 도면 6A에 보여져 있다. 잡음,무음 음성, 전이 음성,유음 음성 LP잔여 신호의 파형 특성은 도면 6B에 시간의 함수로 보여져 있다.
한 실시예에서 음성 코더는 선 스펙트럼 정보(LSI) 벡터 양자화(VQ)의 두 방법들을 인터리브하기 위해 도면7의 흐름도에서 보여지는 알고리즘 과정을 수행한다. 음성 코더는 음성 코더가 LSI VQ의 두 방법을 인터리브할 수 있도록 하기 위해 비이동평균예측기반 LSI VQ에 대해 등가 이동평균 코드북 벡터를 계산한다. 이동평균 예상 구조에서 이동평균은 그 전에 수행된 P개의 프레임에 의해 계산되는데 이동평균은 이하 설명하는것과 같이 각각의 벡터 코드 북 입력에 파라미터 가중치를 곱하여 구한다. 또한 이하 설명하는 것과 같이 목표 양자화 벡터를 생산하기 위해 선 스펙트럼 정보파라미터의 입력 벡터로부터 이동평균을 뺀다. 당업자들은 비이동평균 벡터 양자화 방법이 이동 평균 벡터 양자화 구조를 사용하지 않는 벡터 양자화의 방법이라는 것을 알 수 있을 것이다.
선 스펙트럼 정보(LSI) 파라미터는 프레임간 이동평균 예측 기반 벡터 양자화를 이용하여 양자화되거나 분할 VQ , MSVQ , SPVQ 또는 이와 같은 방법을 조합하여 사용하는 것과 같이 벡터 양자화 방법에 기반을 둔 비이동평균 벡터 양자화를 이용하여 양자화된다. 도면 7을 참고로 하여 설명한 한 실시예에서 그 구조는 위에서 언급한 벡터 양자화 방법과 이동평균 예측 기반 벡터 양자화 방법을 혼합하기 위해 사용한다. 그 이유는 이동평균 예측기반 방법은 자연 상태에서 정상 상태 또는 정적 음성 프레임(도면 6A-6B에서 정적 음성이라고 표현된 신호)에 가장 좋은 반면 비이동 평균 예측 기반 벡터 양자화 방법은 비정상상태 또는 변화하는 음성 프레임(도면 6A-6B에서 무음 음성 프레임과 전이음성 프레임이라고 표현된 신호)에 가장 좋기 때문이다.
N차원의 선 스펙트럼 정보 파라미터를 양자화하기 위한 비이동평균 예측 기반 벡터 양자화 구조에서 Mth프레임 입력벡터은 직접적으로 양자화를 위한 목표로 이용되고 위에서 언급한 표준 벡터 양자화 기술을 이용하여로 양자화 된다.
프레임간 이동평균 예측 구조에서 양자화를 위한 목표는 다음과 같이 계산된다.
여기서은 M프레임 이전에 있는 P개의 선 스펙트럼 정보 파라미터에 대응하는 코드 북 입력이고와 같은 값을 갖는 가중치이다. 목표 양자화 UM은 위에서 설명한 벡터 양자화 기술을 이용하여으로 양자화 한다. 양자화된 선 스펙트럼 정보 벡터는 다음과 같이 계산된다.
이동평균 예측 기반 구조는 이전P개의 코드 북 입력 ,,의 값을 요구한다. 이전 P개의 프레임 중 이동평균 구조를 이용하여 자신을 양자화한 프레임에 대해서는 코드 북 입력이 자동적으로 이용가능한 반면 나머지 그렇지 않은 나머지 P프레임은 비이동평균 예측기반 벡터 양자화를 이용하여 양자화할 수 있으며 이러한 프레임은 코드 북 입력을 직접적으로 이용할 수 없다. 이것이 벡터 양자화의 두가지 방법들을 인터리브하거나 혼합하기 힘들게 한다.
도면 7을 참고로 한 실시예에서 다음식은경우 코드북 입력가 명백하게 이용가능하지 않을 경우 코드북 입력의 추정치,을 계산하는데 유용하다.
이 식에서의 조건을 만족하는 각각의 가중치이고은 초기값이다. 실시예에서 초기값은와 같으며 여기서 LB는 선 스펙트럼 정보의 바이어스 값이다. 다음은 가중치 조합의 한 예이다.
도면7의 흐름도의 (500)과정에서 음성 코더는 이동 평균 예측 기저 벡터양자화 기술을 이용하여 입력 선 스펙트럼 정보 벡터 LM을 양자화 할 것인지를 결정한다. 이러한 결정은 바람직하게는 프레임의 음성 내용을 바탕으로 이루어진다. 예를 들어 정적 유음 음성 프레임에 대한 선 스펙트럼 정보 파라미터는 이동평균 예측 기저 벡터 양자화방법을 이용하여 양자화하는 반면 무음 음성 프레임 또는 전이음성 프레임에 대한 선 스펙트럼 정보 파라미터는 비이동평균예측 기저 벡터 양자화 방법을 이용하여 양자화된다. 만약 음성 코더가 이동평균예측기저 벡터 양자화 기술로 입력 선 스펙트럼 정보 벡터 IM을 양자화하기로 결정을 하면 음성 코더는 (502)과정을 수행한다. 한편 반대로 음성 코더가 이동평균예측 기저 벡터 양자화 기술로 입력선 스펙트럼 정보 벡터IM을 양자화하지 않기로 결정을 하면 음성 코더는 (504)과정을 수행한다.
(502)과정에서 음성 코더는 위의 (1) 식을 이용하여 양자화를 위하여 UM을 계산한다. 그리고 나서 음성 코더는 (506)과정을 수행한다. (506)과정에서 음성코더는 당업계에서 알려진 여러 벡터 양자화 기술을 이용하여 UM을 양자화한다. 그 다음 음성 코더는 (508)과정을 수행한다. (508)과정에서 음성 코더는 위의 식(2)에 따라 양자화된으로부터 양자화된 선 스펙트럼 정보 파라미터 벡터을 계산한다.
(504)과정에서 음성코더는 당업계에서 잘 알려진 여러 비이동평균 예측기저 벡터 양자화 기술을 이용하여 LM을 양자화한다. ( 당업자가 이해할수 있듯이 비이동평균예측 기저 벡터 양자화 기술에서 양자화를 위한 벡터는 UM이 아니고 LM`이다). 그 다음 음성 코더는 (510)과정을 수행한다. (510)과정에서 음성 코더는 위의 식(3)에 따라 양자화된 선 스펙트럼 정보 벡터으로부터 등가 이동평균 코드벡터을 계산한다.
(512)과정에서 음성 코더는 그 전의 P개의 프레임의 이동평균 코드북 벡터의 메모리를 갱신하기 위해 (506)과정에서 구한 양자화된과 (510)과정에서 구한 등가 이동평균 코드벡터을 이용한다. 갱신된 지난 P개 프레임의 이동평균 코드 북 벡터의 메모리는 (502)과정에서 다음 프레임을 위해 입력 선 스펙트럼정보벡터의 양자화를 위한 UM을 계산한다.
따라서 음성 코더에서 선스펙트럼 정보를 양자화하는 방법들의 인터리빙을 위한 새로운 방법과 장치는 설명되었다. 당업자는 여러 로직 블럭과 알고리즘 과정으로 설명한 실시예는 디지털 신호 처리 칩(DSP), 주문형 직접 회로(ASIC),이산 게이트 또는 트랜지스터 로직, 저항 그리고 피포(FIFO)와 같은 이산 하드웨어 부품,펌웨어 명령을 수행하는 처리기, 또는 종래의 프로그램할 수 있는 모듈 과 처리기로 구성되어 기능을 수행한다. 처리기는 바람직하게는 마이크로 프로세서이지만 선택적으로 종래의 처리기 ,제어기 , 마이크로 제어기,또는 상태 기계로도 가능하다. 소프트웨어 모듈은 RAM메모리, 플래시 메모리 , 저항, 또는 당업계에서 알려진 다른 저장성 매체에 존재할수 있다. 당업자는 위의 설명에서 기술한 데이타, 지시, 명령, 정보, 신호, 비트, 심벌, 그리고 칩(CHIP)은 전압, 전류, 전자기파, 자장, 또는 자기 입자, OPTICAL FIELDS OR PARTICAL, 또는 이들의 조합으로 나타난다는 것을 알수있을 것이다.
바람직한 본 발명의 실시예는 이상 설명되었다. 그러나 당업자의 기술 수준에서는 여기서 기술한 본 발명을 벗어나지 않는 범위에서 수많은 다른 실시예를 만들수 있으므로 본 발명은 다음 청구항만으로 제한되지 않는다.

Claims (20)

  1. 음성 코더에 있어서
    프레임을 분석하고 분석한 프레임을 바탕으로 선 스펙트럼 정보 코드벡터를 발생하는 선형 예측 필터및
    선형 예측 필터와 연결되어 있고 비 이동평균 예측 기반 벡터 양자화 구조를 이용하는 첫번째 양자화 기술을 가지고 선 스펙트럼 정보 벡터를 양자화하기 위해 구성된 양자화기로
    상기의 양자화기는 첫번째 기술에 대해 등가 이동평균 코드벡터를 계산하고, 음성 코더에 의해 이전에 처리된 일정한 수의 프레임에 대한 코드 벡터의 이동평균 코드북 메모리를 등가이동 평균 코드 벡터로 업그레이드하고 업그레이드된 이동평균 코드북 메모리를 기반으로 두번째 기술에 대해 목표 양자화 벡터를 계산하며,이동 평균 예측 기반을 사용하는 두번째 벡터 양자화 기술로 양자화된 목표 코드벡터를 생성하기 위해 목표 양자화 벡터를 양자화하며 양자화된 목표 코드벡터로 평균이동 코드 북 메모리를 업그레이드하고 양자화된 목표 코드벡터로 부터 양자화된 선 스펙트럼 정보 벡터를 계산하기 위해 구성된 양자화기를 포함하는 음성 코더.
  2. 제1항에 있어서, 프레임은 음성 프레임으로하는 음성 코더.
  3. 제1항에 있어서, 프레임은 선형예측잔여 프레임으로하는 음성 코더.
  4. 제1항에 있어서, 목표 양성화 벡터는 다음과 같은 식으로 계산되는데
    여기서는 상기 프레임 이전에 처리된 미리 결정된 수개의 프레임의 선 스펙트럼 정보 파라미터에 대응하는 코드북 입력이고의 조건을 만족하는 각각의 파라미터 가중치인것을 특징으로 하는 음성 코더.
  5. 제1항에 있어서, 양자화된 선 스펙트럼 정보 벡터는 다음과 같은 식으로 계산되는데
    여기서은 상기 프레임 이전에 처리된 미리 결정된 수개의 프레임의 선 스펙트럼 정보 파라미터에 대응하는 코드북 입력이고의 조건을 만족하는 각각의 파라미터 가중치인것을 특징으로 하는 음성 코더.
  6. 제1항에 있어서, 등가 이동평균 코드벡터는 다음과 같은 식으로 계산되는데.
    여기서의 조건을 만족하는 각각의 등가 이동 평균 코드벡터 요소의 가중치이고 여기서 초기값은인것을 특징으로 하는 음성 코더.
  7. 제1항에 있어서, 음성 코더는 무선 통신 시스템 가입자의 기기에 존재하는 것을 특징으로 하는 음성 코더.
  8. 프레임의 선 스펙트럼 정보 벡터 양자화하는 방법에 있어서 두개의 양자화 기술을 사용하느데 첫번째 기술은 비이동 평균 예측기반 벡터 양자화의 구조를 사용하고 두번째 기술은 이동평균 예측기반 벡터 양자화 구조를 사용하는데 그 방법은 다음의 과정으로 구성되는데:
    첫 번째 양자화 기술로 선 스펙트럼 정보 벡터를 양자화하는 과정;
    첫 번째 기술에 대해 등가 이동평균 코드벡터를 계산하는 과정;
    등가 이동평균 코드벡터를 가지고 음성 코더에 의해 이진 처리된 일정한 수의 프레임에 대한 코드 벡터의 이동 평균 코드북 메모리를 업데이트하는 과정;
    업데이트된 이동평균 코드북 메모리를 바탕으로 두 번째 기술에 대한 목표 양자화 벡터를 계산하는 과정;
    양자화된 목표 코드벡터를 발생하기 위해 벡터 양자화 기술로 목표 양자화 벡터를 양자화하는 과정;
    양자화된 목표 코드벡터를 가지고 이동평균 코드 북 메모리를 업데이트하는 과정 ; 및
    양자화된 목표 코드벡터로 부터 양자화된 선 스펙트럼 정보 벡터를 유도하는 과정을 포함하는 것을 특징으로 하는 방법.
  9. 제8항에 있어서, 프레임은 음성프레임으로 하는 방법.
  10. 제8항에 있어서 프레임은 선형 예측 잔여의 프레임으로 하는 방법.
  11. 제8항에 있어서, 계산 과정은 다음의 식으로 목표 양자화를 계산하는 것을 포함하는데,
    여기서은 상기 프레임 이전에 처리된 미리 결정된 수 개의 프레임의 선 스펙트럼 정보 파라미터에 대응하는 코드북 입력이고과 같은 조건을 만족하는 각각의 파라미터 가중치인 것을 특징으로 하는 방법.
  12. 제8항에 있어서, 유도화 과정은 다음 식에 따라 양자화된 선 스펙트럼 정보 벡터를 유도하는 과정을 포함하는데,
    여기서은상기 프레임 이전에 처리된 미리 결정된 수개의 프레임의 선 스펙트럼 정보 파라미터의 코드북 입력이고의 조건을 만족하는 각각의 파라미터 가중치인것을 특징으로 하는 방법.
  13. 제8항에 있어서, 계산 과정은 다음 식으로 등가 이동평균 코드 벡터를 계산하는 과정을 포함하는데,
    여기서의 조건을 만족하는 각각의 등가 이동 평균 코드벡터 요소의 가중치이고는 초기값인것을 특징으로 하는 방법.
  14. 음성 코더에서:
    비이동평균 예측기반 벡터 양자화 구조를 이용하는 첫 번째 양자화 기술을 가지고 프레임의 선 스펙트럼 정보 벡터을 양자화하는 수단;
    첫번째 기술에 대해 등가 이동 평균 코드벡터를 계산하는 수단;
    등가 이동 평균 코드벡터를 가지고 음성 코더에 의해 이전에 처리된 일정한 수의 프레임에 대한 코드 벡터의 이동 평균 코드북 메모리를 업데이트하는 수단;
    업데이트된 이동평균 코드북 메모리를 바탕으로 한 두번 째 기술에 대해 목표 양자화 벡터를 계산하는 수단;
    양자화된 목표 코드 벡터를 발생하기 위해 두번째 벡터 양자화 기술로 목표 양자화 벡터를 양자화하는 수단;
    양자화된 목표 코드벡터를 가지고 이동평균 코두 북 메모리를 업데이트하는 수단;
    양자화된 목표 코드벡터로부터 양자화된 선 스펙트럼 정보 벡터를 유도하는 수단을 포함하는 것을 특징으로 하는 음성 코더.
  15. 제14항에서 있어서 프레임은 음성 프레임으로 하는 음성 코더.
  16. 제14항에서 있어서 프레임은 선형예측잔여의 프레임으로 하는 음성 코더.
  17. 제14항에서 있어서, 목표 양자화는 다음의 식으로 계산되는데,
    여기서는 상기 프레임 이전에 처리된 미리 결정된 수개의 프레임의 선 스펙트럼 정보 파라미터에 대응하는 코드 북 입력이고의 조건을 만족하는 각각의 파라미터 가중치인것을 특징으로 하는 음성 코더.
  18. 제14항에 있어서, 음성 코더에서 양자화된 선 스펙트럼의 정보 벡터는 다음의 식으로 계산되는데,
    여기서은 상기 프레임 이전에 처리된 미리 결정된 수 개의 프레임의 선 스펙트럼 정보 파라미터에 대응하는 코드 입력이고의 조건을 만족하는 각각의 파라미터 가중치인것을 특징으로 하는 음성 코더.
  19. 14항에 있어서, 등가 이동 평균 코드벡터는 다음의 식으로부터 계산되느데 ,
    여기서의 조건을 만족하는 각각의 등가 이동 평균 벡터 요소의 가중치이고는 초기값인것을 특징으로 하는 음성 코더.
  20. 제14항에서 있어서,음성 코더는 무선 통신 시스템 가입자의 기기에 존재하는 것을 특징으로 하는 음성 코더.
KR1020027000784A 1999-07-19 2000-07-19 음성 코더에서 선 스펙트럼 정보 양자화법을 인터리빙하는 방법 및 장치 KR100752797B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/356,755 US6393394B1 (en) 1999-07-19 1999-07-19 Method and apparatus for interleaving line spectral information quantization methods in a speech coder
US09/356,755 1999-07-19

Publications (2)

Publication Number Publication Date
KR20020033737A true KR20020033737A (ko) 2002-05-07
KR100752797B1 KR100752797B1 (ko) 2007-08-29

Family

ID=23402819

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020027000784A KR100752797B1 (ko) 1999-07-19 2000-07-19 음성 코더에서 선 스펙트럼 정보 양자화법을 인터리빙하는 방법 및 장치

Country Status (12)

Country Link
US (1) US6393394B1 (ko)
EP (1) EP1212749B1 (ko)
JP (1) JP4511094B2 (ko)
KR (1) KR100752797B1 (ko)
CN (1) CN1145930C (ko)
AT (1) ATE322068T1 (ko)
AU (1) AU6354600A (ko)
BR (1) BRPI0012540B1 (ko)
DE (1) DE60027012T2 (ko)
ES (1) ES2264420T3 (ko)
HK (1) HK1045396B (ko)
WO (1) WO2001006495A1 (ko)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735253B1 (en) 1997-05-16 2004-05-11 The Trustees Of Columbia University In The City Of New York Methods and architecture for indexing and editing compressed video over the world wide web
US7143434B1 (en) 1998-11-06 2006-11-28 Seungyup Paek Video description system and method
AU2001253752A1 (en) * 2000-04-24 2001-11-07 Qualcomm Incorporated Method and apparatus for predictively quantizing voiced speech
US6937979B2 (en) * 2000-09-15 2005-08-30 Mindspeed Technologies, Inc. Coding based on spectral content of a speech signal
US20040128511A1 (en) * 2000-12-20 2004-07-01 Qibin Sun Methods and systems for generating multimedia signature
US20040204935A1 (en) * 2001-02-21 2004-10-14 Krishnasamy Anandakumar Adaptive voice playout in VOP
WO2002097796A1 (en) * 2001-05-28 2002-12-05 Intel Corporation Providing shorter uniform frame lengths in dynamic time warping for voice conversion
US7339992B2 (en) * 2001-12-06 2008-03-04 The Trustees Of Columbia University In The City Of New York System and method for extracting text captions from video and generating video summaries
US7289459B2 (en) * 2002-08-07 2007-10-30 Motorola Inc. Radio communication system with adaptive interleaver
WO2006096612A2 (en) 2005-03-04 2006-09-14 The Trustees Of Columbia University In The City Of New York System and method for motion estimation and mode decision for low-complexity h.264 decoder
ES2358125T3 (es) * 2005-04-01 2011-05-05 Qualcomm Incorporated Procedimiento y aparato para un filtrado de antidispersión de una señal ensanchada de excitación de predicción de velocidad de ancho de banda.
JP4981122B2 (ja) * 2006-03-21 2012-07-18 フランス・テレコム 抑制されたベクトル量子化
US7463170B2 (en) * 2006-11-30 2008-12-09 Broadcom Corporation Method and system for processing multi-rate audio from a plurality of audio processing sources
US7465241B2 (en) * 2007-03-23 2008-12-16 Acushnet Company Functionalized, crosslinked, rubber nanoparticles for use in golf ball castable thermoset layers
WO2009126785A2 (en) 2008-04-10 2009-10-15 The Trustees Of Columbia University In The City Of New York Systems and methods for image archaeology
WO2009155281A1 (en) * 2008-06-17 2009-12-23 The Trustees Of Columbia University In The City Of New York System and method for dynamically and interactively searching media data
US20100017196A1 (en) * 2008-07-18 2010-01-21 Qualcomm Incorporated Method, system, and apparatus for compression or decompression of digital signals
US8671069B2 (en) 2008-12-22 2014-03-11 The Trustees Of Columbia University, In The City Of New York Rapid image annotation via brain state decoding and visual pattern mining
CN102982807B (zh) * 2012-07-17 2016-02-03 深圳广晟信源技术有限公司 用于对语音信号lpc系数进行多级矢量量化的方法和系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4901307A (en) 1986-10-17 1990-02-13 Qualcomm, Inc. Spread spectrum multiple access communication system using satellite or terrestrial repeaters
US5103459B1 (en) 1990-06-25 1999-07-06 Qualcomm Inc System and method for generating signal waveforms in a cdma cellular telephone system
DK0588932T3 (da) 1991-06-11 2002-03-11 Qualcomm Inc Vokoder med variabel hastighed
US5784532A (en) 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
TW271524B (ko) 1994-08-05 1996-03-01 Qualcomm Inc
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
JP3680380B2 (ja) * 1995-10-26 2005-08-10 ソニー株式会社 音声符号化方法及び装置
DE19845888A1 (de) * 1998-10-06 2000-05-11 Bosch Gmbh Robert Verfahren zur Codierung oder Decodierung von Sprachsignalabtastwerten sowie Coder bzw. Decoder

Also Published As

Publication number Publication date
BR0012540A (pt) 2004-06-29
DE60027012T2 (de) 2007-01-11
AU6354600A (en) 2001-02-05
JP4511094B2 (ja) 2010-07-28
CN1361913A (zh) 2002-07-31
WO2001006495A1 (en) 2001-01-25
CN1145930C (zh) 2004-04-14
ATE322068T1 (de) 2006-04-15
DE60027012D1 (de) 2006-05-18
ES2264420T3 (es) 2007-01-01
EP1212749A1 (en) 2002-06-12
JP2003524796A (ja) 2003-08-19
HK1045396B (zh) 2005-02-18
BRPI0012540B1 (pt) 2015-12-01
EP1212749B1 (en) 2006-03-29
HK1045396A1 (en) 2002-11-22
US6393394B1 (en) 2002-05-21
KR100752797B1 (ko) 2007-08-29

Similar Documents

Publication Publication Date Title
KR100804461B1 (ko) 보이스화된 음성을 예측적으로 양자화하는 방법 및 장치
KR100898323B1 (ko) 음성 코더용 스펙트럼 크기 양자화 방법
KR100805983B1 (ko) 가변율 음성 코더에서 프레임 소거를 보상하는 방법
US6324503B1 (en) Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions
JP4782332B2 (ja) 音声符号器における目標ビットレートを維持する方法および装置
KR100752797B1 (ko) 음성 코더에서 선 스펙트럼 정보 양자화법을 인터리빙하는 방법 및 장치
EP1535277B1 (en) Bandwidth-adaptive quantization
US7085712B2 (en) Method and apparatus for subsampling phase spectrum information
KR100756570B1 (ko) 음성 코더의 프레임 프로토타입들 사이의 선형 위상시프트들을 계산하기 위해 주파수 대역들을 식별하는 방법및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120727

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20130729

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140730

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20160629

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20170629

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20180628

Year of fee payment: 12