KR20030046452A - 적응형 인코딩 장치를 포함하는 음성 인코딩을 위한 시스템 - Google Patents

적응형 인코딩 장치를 포함하는 음성 인코딩을 위한 시스템 Download PDF

Info

Publication number
KR20030046452A
KR20030046452A KR10-2003-7003771A KR20037003771A KR20030046452A KR 20030046452 A KR20030046452 A KR 20030046452A KR 20037003771 A KR20037003771 A KR 20037003771A KR 20030046452 A KR20030046452 A KR 20030046452A
Authority
KR
South Korea
Prior art keywords
frame
speech signal
encoding scheme
encoding
pitch
Prior art date
Application number
KR10-2003-7003771A
Other languages
English (en)
Inventor
후안-유 수
양 가오
Original Assignee
코넥샌트 시스템, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=24660098&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR20030046452(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 코넥샌트 시스템, 인코포레이티드 filed Critical 코넥샌트 시스템, 인코포레이티드
Publication of KR20030046452A publication Critical patent/KR20030046452A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명의 한 성향에 따라, 선택기는 입력 음성 신호의 간격에서 트리거 트성의 검출 또는 부재에 기초하여 제 1 인코딩 방식 또는 제 2 인코딩 방식의 선택을 지원한다. 제 1 인코딩 방식은 이상적으로 유성이며 고정된 특성으로 바이어싱된 변경 음성 신호를 형성하도록 입력 음성 신호를 처리하기 위한 피치 전처리 절차를 포함한다. 전처리 절차는 인코더가 가능한 것 보다 더 많은 양의 입력 신호의 음성 요소에 대한 대역 효율적이고 긴주기의 예측 절차의 장점을 충분히 획득하도록 한다. 본 발명의 또다른 성향에 따라, 제 2 인코딩 방식은 서브프레임별 기준에 의해 서브프레임상의 피치를 인코딩하기 위한 긴 주기예측 모드를 필요로 한다. 긴주기 예측 모드는 일반적으로 주기적인 음성 요소가 고정되지 않거나 완전히 간격적이지 않으며, 긴주기 예측 절차에서 재생된 음성의 원하는 지각력 있는 품질을 달성하도록 적응형 코드북으로부터 더 큰 업데이트 주파수를 요구하는 경우 적용된다.

Description

적응형 인코딩 장치를 포함하는 음성 인코딩을 위한 시스템{SYSTEM FOR SPEECH ENCODING HAVING AN ADAPTIVE ENCODING ARRANGEMENT}
본 출원은 1998년 9월 18일에 출원된 출원 번호 09/154,660호의 연속 부분이다. 다음의 계류중이며 공통으로 양수된 미국 특허 출원은 상기 출원과 같은 일자로 특허되었다. 상기 출원 모두는 본 출원에 개시된 실시예의 다른 성향에 관한 것이며 이를 추가로 설명하며, 그 전체가 참조로써 통합된다.
2000년 9월 15일에 특허된 대리 참조 번호:98RSS365CIP(10508.4)의 "선택 모드 보코더 시스템"이라는 명칭의 미국 특허 출원 번호___,이며, 현재 미국 특허 번호___이다.
2000년 9월 15일에 특허된 대리 참조 번호:00CXT0065D(10508.5)의 "낮은 비트율의 CELP를 위해 고주파수 잡음을 펄스 여기로 주입하는 방법"이라는 명칭의 미국 특허 출원 번호___이며, 현재 미국 특허 번호___이다.
2000년 9월 15일에 특허된 대리 참조 번호:00CXT0666N(10508.6)의 "CELP 음성 코딩에서 짧은 기간의 향상"이라는 명칭의 미국 특허 출원 번호___이며, 현재미국 특허 번호___이다.
2000년 9월 15일에 특허된 대리 참조 번호:00CXT0573N(10508.7)의 "음성 코딩에서 펄스와 같은 여기를 위한 동적 펄스 위치 추적 시스템"이라는 명칭의 미국 특허 출원 번호___이며, 현재 미국 특허 번호___이다.
2000년 9월 15일에 특허된 대리 참조 번호:00CXT0554N(10508.8)의 "시간 도메인 잡음 감쇠를 가지는 음성 코딩 시스템"이라는 명칭의 미국 특허 출원 번호___이며, 현재 미국 특허 번호___이다.
2000년 9월 15일에 특허된 대리 참조 번호:99RSS366(10508.9)의 "음성 코딩을 위한 적응형 여기 패턴용 시스템"이라는 명칭의 미국 특허 출원 번호___이며, 현재 미국 특허 번호___이다.
2000년 9월 15일에 특허된 대리 참조 번호:00CXT0670N(10508.13)의 "서로 다른 분석 레벨을 가지는 적응형 코드북을 사용하는 음성 정보를 인코딩 하기 위한 시스템"이라는 명칭의 미국 특허 출원 번호___이며, 현재 미국 특허 번호___이다.
2000년 9월 15일에 특허된 대리 참조 번호:00CXT0669N(10508.14)의 "인코딩 및 디코딩을 위한 코드북 테이블"이라는 명칭의 미국 특허 출원 번호___이며, 현재 미국 특허 번호___이다.
2000년 9월 15일에 특허된 대리 참조 번호:00CXT0668N(10508.15)의 "인코딩된 음성 신호의 전송을 위한 비트 스트림 프로토콜"이라는 명칭의 미국 특허 출원 번호___이며, 현재 미국 특허 번호___이다.
2000년 9월 15일에 특허된 대리 참조 번호:00CXT0667N(10508.16)의 "음성 인코딩을 위한 신호의 스펙트럼 콘텐츠를 필터링 하기 위한 시스템"이라는 명칭의 미국 특허 출원 번호___이며, 현재 미국 특허 번호___이다.
2000년 9월 15일에 특허된 대리 참조 번호:00CXT0665N(10508.17)의 "음성 신호의 인코딩 및 디코딩을 위한 시스템"이라는 명칭의 미국 특허 출원 번호___이며, 현재 미국 특허 번호___이다.
2000년 9월 15일에 특허된 대리 참조 번호:00CXT0569N(10508.19)의 "서브코드북을 가지는 피치 향상의 개선된 사용을 위한 시스템"이라는 명칭의 미국 특허 출원 번호___이며, 현재 미국 특허 번호___이다.
음성 인코딩은 무선 시스템의 무선 인터페이스의 트래픽 처리 용량을 증가시키기 위해 사용될 수 있다. 무선 서비스 제공자는 일반적으로 가입자 수입을 최대화하기위해 전자기 스펙트럼의 할당된 대역폭에 대하여 무선 통신 서비스에 의해 제공된 활동중인 가입자의 수를 최대화 시키려한다. 무선 서비스 제공자는 무선 통신 서비스의 제공을 위해 주파수의 할당된 대역폭을 사용하기 위한 권리를 획득하거나 유지하기 위해 정부 단속자에게 관세, 허가 요금, 및 경매비를 제공할 수 있다. 따라서, 무선 서비스 제공자는 무선 인프라구조에서 투자비에 대한 최대 수익을 얻기위해 음성 인코딩 기술을 선택할 수 있다.
특정 음성 인코딩 방식은 상세한 데이터 베이스를 인코딩 사이트에 저장하고, 이중의 상세한 데이터 베이스는 디코딩 사이트에 저장한다. 인코딩 인프라구조는 무선 인터페이스의 사용가능한 대역폭을 보호하기 위해 이중의 상세한 데이터베이스에 색인을 달기위한 참조 데이터를 전송한다. 인코딩 사이트에서 전체 음성신호를 사용하여 캐리어 신호를 변조하는 대신에, 인코딩 인프라구조는 원래의 음성 신호를 나타내는 더 짧은 참조 데이터만을 전송한다. 디코딩 인프라구조는 디코딩 사이트에서 이중의 상세한 데이터베이스를 액세스하기 위해 더 짧은 참조 데이터를 사용함으로써 원래의 음성 신호의 복제 또는 표현을 재구성한다.
만약 여기 벡터의 불충분한 변화가 음성을 내재하는 원래의 음성 신호를 정확히 나타내도록 상세한 데이터 베이스에 나타난다면, 음성 신호의 품질은 만족될 수 있다. 지원된 코드 식별자(예, 이진 조합)의 최대 갯수는 상세한 데이터베이스(예, 코드북)에 나타날 수 있는 다양한 여기 벡터에 대해 한가지 제약이 된다. 짧은 간격의 예측 요소와 같은 음성 신호의 특정 요소에 대해 가능한 여기 벡터의 제한된 갯수는 여기 백터에 의해 음성 신호를 정확하거나 명확하게 나타낼 수 없다. 따라서, 때때로 재생된 음성은 가입자에게 인위적인 음성이거나, 왜곡되거나, 불명확하거나, 또는 지각력 있게 적합하지 않을 수 있다. 따라서, 제한된 비트수내에서 참조 또는 인덱스 정보의 전송에 의해 부과된 대역폭의 제약을 포함하는 반면에, 재생된 음성의 품질을 향상시키기 위한 요구가 존재한다.
본 발명은 음성 신호를 코딩하기 위한 적응형 인코딩 장치를 포함하는 방법 및 시스템에 관한 것이다.
도 1은 인코더 및 디코더의 설명된 실시예의 블럭 다이어그램이다.
도 2는 음성 신호를 인코딩하기 위한 방법의 한 실시예의 흐름도이다.
도 3은 도 2에 따른 피치 전처리를 위한 한 기술의 흐름도이다.
도 4는 인코딩을 위한 또다른 방법의 흐름도이다.
도 5는 비트 할당 절차의 흐름도이다.
도 6 및 도 7은 더 높은 비율의 인코딩 방식 및 더 낮은 비율의 인코딩 방식을 각각 설명하기 위한 비트 할당의 차트이다.
인코더는 음성 신호의 하나 또는 그이상의 프레임을 위한 제 1 인코딩 방식 및 제 2 인코딩 방식을 지원한다. 제 1 및 제 2 인코딩 방식은 무선 시스템의 무선 인터페이스를 통해 인코더로부터 전송된 프레임당 데이터 구조 또는 서브프레임당 데이터 구조를 정의한다. 연속 프레임 또는 프레임 그룹의 데이터 구조는 음성 신호의 지각력 있는 품질 및 무선 시스템의 무선 인터페이스의 채널에 대한 전체코딩율에 영향을 미칠 수 있다. 적응형 인코딩 장치는 입력 음성 신호의 분석 또는 조사에 기초한 인코딩 방식의 선택 및 선택된 인코딩 방식에 따른 입력 음성 신호를 코딩하는 것(예, 피치 사전처리)을 말한다. 예를 들면, 적응형 인코딩 장치는 입력 음성 신호의 분석 또는 조사에 기초한 음성 신호의 하나 또는 그이상의 프레임을 인코딩하기 위한 제 1 인코딩 방식 또는 제 2 인코딩 방식의 선택 및 실행에 관한 것일 수 있다.
검출기는 음성 신호가 간격 동안 트리거 특성(예, 일반적으로 유성이며 고정된 요소)을 가지는지를 검출한다. 선택기는 트리거 특성의 검출 또는 부재에 기초한 간격와 관련된 프레임을 인코딩하기 위한 제 1 인코딩 방식 또는 제 2 인코딩 방식을 선택한다. 예를 들어, 만약 음성 신호가 간격 동안 트리거 특성을 갖는다면, 인코더는 제 1 인코딩 방식과 관련된 간격에 연관된 프레임에서 음성 신호를 인코딩할 수 있다.
제 1 인코딩 방식은 이상적인 유성의 고정 특성으로 바이어싱된 변경된 음성 신호를 형성하기 위해 입력 음성 신호를 처리하기 위한 피치 전처리 절차를 갖는다. 피치 전처리 절차는 인코더가 가능할 수 있는 것보다 더 큰 입력 음성 신호량을 위해 음성 요소의 대역 효율적이며 긴 간격의 예측 절차의 장점을 충분히 획득하도록 한다. 피치 전처리 절차는 약간의 고정적이고 유성의 음성 입력 요소로부터 변경된 음성 신호를 형성한다. 변경된 음성 신호는 음성의 타겟의 지각력있는 품질을 보존할 때까지 실제 유성이며 고정된 입력 음성 요소에 적합한 긴주기의 예측 코딩 절차의 프레임당 효율적인 비트 사용을 용이하게 하는 실제로 고정되고 실제로 유성인 품질을 갖는다.
입력 음성 신호의 더 많은 음성 요소에 대해 적응형 코드북을 더 많이 사용함으로써, 피치 전처리 절차는 음성 신호의 지각력있는 품질에서 현저하거나 중요한 저하를 포기하지 않고 무선 인터페이스를 통해 정보 전송의 필수의 최소 대역폭 또는 전송율을 감소시키는데 매우 적합하다. 본 발명의 한 성향에 따라서, 실제로 고정되고 유성의 입력 음성 신호는 짧은 간격의 예측 요소가 고정된 코드북에서 요구하는 것보다 더 적은 갯수의 여기 벡터에 의해 적응형 코드북에서 충분히 나타날 수 있다. 따라서, 인코더는 짧은 간격의 예측 요소, 잉여 음성 요소, 또는 그 모두를 위한 고정된 코드북의 정확성 또는 분석력을 개선시키기 위해 프레임에서 상이한 비트 할당을 제공하기 위한 피치 전처리 절차 및 뒤따른 코딩에 의해 절약된 여분의 비트를 사용할 수 있다.
본 발명의 또다른 성향에따라, 제 2 인코딩 방식은 서브프레임별 기준에 의해 서브프레임상의 피치를 인코딩 하기 위한 긴 주기의 예측 모드를 수반한다. 긴주기 예측 모드는 일반적으로 주기적인 음성 요소가 일반적으로 고정되거나 전적으로 주기적이지 않으며 긴주기 예측 절차에서 재생된 음성의 바람직한 지각력있는 품질을 달성하기 위해 적응형 코드북으로부터 더 큰 업데이트 주파수를 요구하는데 적용된다.
본 발명의 다른 시스템, 방법, 특징 및 장점은 다음의 도면과 상세한 설명에 따라 당업자에게 인식될 수 있다. 추가의 시스템, 방법, 특징, 및 장점이 상기 설명에 포함될 수 있다.
다중 비율 인코더는 무선 인터페이스를 통해 상이한 전송율을 얻기 위한 상이한 인코딩 방식을 포함할 수 있다. 각각의 서로다른 전송율은 하나 또는 그이상의 인코딩 방식을 사용함으로써 달성될 수 있다. 가장 높은 코딩율은 완전 비율 코딩으로 참조될 수 있다. 더 낮은 코딩율은 1/2 비율의 코딩이 완전 비율 코딩의 최대 비율의 약 1/2인 최대 전송율 가지는 경우 1/2 비율 코딩으로써 참조될 수 있다. 인코딩 방식은 원래의 음성 신호 및 합성된 음성 신호사이의 지각력있는 유사점 및 객관적인 유사점을 효과적으로 하기 위해 원래의 음성 신호가 합성된 음성 신호와 비교되는 경우에 합성에 의한 분석 인코딩 방식을 포함할 수 있다. 코드-여기 선형 예측 코딩 방식(CELP)은 합성에 의한 분석 인코딩 방식의 한 예이다.
본 발명에 따라, 도 1은 분석 섹션(12) 및 적응형 코드북 섹션(14)에 접속된 입력 섹션(10)을 포함하는 인코더(11)를 도시한다. 차례로, 적응형 코드북섹션(14)은 고정된 코드북 섹션(16)에 접속된다. 적응형 코드북 섹션(14) 및 고정된 코드북 섹션(16) 모두에 결합된 멀티플렉서(60)는 송신기(62)에 접속된다.
통신 프로토콜과 함께 송신기(62) 및 수신기(66)는 무선 시스템의 무선 인터페이스(64)를 나타낸다. 소스 또는 스피커로부터의 입력 음성은 인코딩 사이트에서 인코더(11)에 적용된다. 송신기(62)는 인코딩 사이트로부터 떨어져서 위치된 디코딩 사이트에서 인코딩 사이트로부터 수신기(66)로 전자기 신호(예, 무선 주파수 또는 마이크로파 신호)를 송신한다. 전자기 신호는 입력 음성 신호를 나타낸는 참조 정보와 함께 변조된다. 디멀티플렉서(68)는 디코더(70)로 입력하기 위한 참조 신호를 디멀티플렉싱한다. 디코더(70)는 입력 음성 신호의 복제 또는 표현를 발생하며, 이는 디코더(70)에서 출력 음성으로 참조된다.
입력 섹션(10)은 입력 음성 신호를 수신하기 위한 입력 터미널을 갖는다. 입력 터미널은 입력 음성 신호에서 잡음을 감소시키기 위해 컷오프 주파수(예, 80Hz) 이하의 입력 음성 신호를 감쇠시키는 고역 통과 필터(18)를 제공한다. 고역 통과 필터(18)는 지각형 가중 필터(20) 및 선형 예측 코딩(LPC) 분석기(30)를 제공한다. 지각형 가중 필터(20)는 피치 전처리 모듈(22) 및 피치 추정장치(32) 모두를 제공할 수 있다. 또한, 지각형 가중 필터(20)는 피치 전처리 모율(22)을 통해 제 1 덧셈기(46)의 입력에 접속될 수 있다. 피치 전처리 모듈(22)은 트리거 음성 특성을 검출하기 위한 검출기(24)를 포함한다.
한 실시예에서, 검출기(24)는 (1)잡음과 같은 무성의 음성을 식별하고 (2) 입력 음성 신호의 간격에서 비-고정된 유성 음성 및 고정된 유성 음성을 구별하는분류 유니트를 참조로 할 수 있다. 검출기(24)는 입력 음성 신호의 간격에서 트리거 특성(예, 일반적으로 유성이며 고정된 음성 요소)의 존재 또는 부재를 검출하거나 검출을 용이하게 할 수 있다. 또다른 실시예에서, 검출기(24)는 입력 음성 신호의 간격에서 트리거 특성을 검출하기 위해 피치 전처리 모듈(22) 및 음성 특성 분류기(26) 모두에 통합될 수 있다. 또다른 실시예에서, 검출기는 피치 전처리 모듈(22)보다 음성 특성 분류기(26)에 통합된다. 검출기(24)가 상기와 같이 통합되면 음성 특성 분류기(26)는 선택기(34)에 접속된다.
분석 섹션(12)은 LPC 분석기(30), 피치 추정장치(32), 음성 활동 검출기(28) 및 음성 특성 분류기(26)를 포함한다. LPC 분석기(30)는 입력 음성 신호에서 음성 또는 묵음의 존재를 검출하기 위해 음성 활동 검출기(28)에 접속된다. 피치 추정장치(32)는 검출기(24)로부터 수신된 입력에 기초한 피치 전처리 절차 또는 상응하는 긴주기 예측 절차를 선택하기 위한 모드 선택기(34)에 접속된다.
적응형 코드북 섹션(14)은 합성 필터(42)(예, 짧은 주기 예측 필터)에 접속된 제 1 여기 발생기(40)를 포함한다. 차례로, 합성 필터(42)는 지각형 가중 필터(20)에 제공한다. 가중 필터(20)는 제 1 덧셈기(46)의 입력에 접속되는 반면에, 최소화기(48)는 제 1 덧셈기(46)의 출력에 접속된다. 최소화기(48)는 제 1 덧셈기(46)의 출력에서 에러 신호를 최소화도록 제 1 여기 발생기(40)에 피드백 명령을 제공한다. 적응형 코드북 섹션(14)은 제 1 덧셈기(46)가 에러 신호와 함께 제 2 덧셈기(44)의 입력에 제공되는 경우에 고정된 코드북 섹션(16)에 접속된다.
고정된 코드북 섹션(16)은 합성 필터(42)(예, 짧은 주기 예측 필터)에 접속된 제 2 여기 발생기(58)를 포함한다. 차례로, 합성 필터(42)는 지각형 가중 필터(20)에 제공한다. 가중 필터(20)는 제 2 덧셈기(44)의 입력에 접속되는 반면에, 최소화기(48)는 제 2 덧셈기(44)의 출력에 접속된다. 잉여 신호는 제 2 덕셈기의 출력에서 존재된다. 최소화기(48)는 잉여 신호를 최소화하기 위해 제 2 여기 발생기(58)에 피드백 명령을 제공한다.
선택적인 실시예에서, 적응형 코드북 섹션(14)의 합성 필터(42) 및 지각형 가중 필터(20)는 단일 필터로 결합된다.
또다른 선택적인 실시예에서, 고정된 코드북 섹션(16)의 합성 필터(42) 및 지각형 가중 필터(20)는 단일 필터로 결합된다.
또다른 선택적인 실시예에서, 인코더의 3개의 지각형 가중 필터(20)는 2개의 지각형 가중 필터(20)에 의해 대체되는데, 각각의 지각형 가중 필터는 한개의 최소화기(48)의 출력에 세로로 접속된다. 따라서, 앞선 선택적인 실시예에서, 입력 섹션(10)으로부터 지각형 가중 필터(20)는 제거된다.
도 1에 따라, 입력 음성 신호는 입력 섹션(10)으로 입력된다. 입력 섹션(10)은 (1)입력 음성 신호의 짧은 주기 요소 또는 포락선, (2) 입력 음성 신호의 긴주기 요소 또는 피치 랙(lag) 및 (3)입력 음성 신호의 짧은 주기 요소 및 긴주기 요소의 제거로부터 생겨난 임여 요소를 포함하는 요소의 부분으로 음성을 압축한다. 인코더(11)는 무선 인터페이스(64)를 통해 전송하기 위해 입력 음성 신호를 참조 정보로 나타내도록 적응형 코드북(36) 및 고정된 코드북(50)의 지각력있는 여기 벡터를 위한 검색을 용이하게 하도록 긴 주기요소, 짧은 주기요소, 및 잉여요소를 사용한다.
입력 섹션(10)의 지각형 가중 필터(20)는 입력 음성 신호의 포맷의 제 2 시간 대 진폭 응답과 대립하는 제 1 시간 대 진폭 응답을 갖는다. 포맷은 LPC 분석기(30)의 선형 예측 코딩 분석과 일치하는 음성 신호를 특징짓는 음성 신호의 키 진폭 대 주파수 응답을 나타낸다. 지각형 가중 필터(20)는 참조 음성 신호(예, 입력 음성 신호) 및 합성 음성 신호 사이에서 나타나는 에러를 최소화하도록 지각력있는 야기된 결함을 보충할 수 있다.
입력 음성 신호는 합성 필터(42)(예, 짧은 주기예측 필터)에 대한 LPC 계수를 결정하도록 선형 예측 코딩(LPC) 분석기(30)(예, LPC 분석 필터)에 제공된다. 입력 음성 신호는 피치 추정장치(32)에 입력된다. 피치 추정장치(32)는 입력 음성의 유성의 세그먼트에 대한 피치 랙값 및 피치 이득 계수를 결정한다. 입력 음성 신호의 유성 세그먼트는 일반적으로 주기적인 파형으로 참조된다.
피치 추정기(32)는 피치 랙을 추정하기 위해 적어도 한번 프레임의 개방-루프 피치 분석을 형성한다. 피치 랙은 음성 신호의 유성 음성 또는 유성 요소에서 알수 있는 반복 요소(예, 일반적으로 주기적인 파형)의 일시적인 측정으로 참조한다. 예를 들어, 피치 랙은 일반적으로 주기적인 음성 신호의 인접한 진폭 피크 사이의 시간 간격를 나타낼 수 있다. 도 1에 도시된 바와 같이, 피치 랙은 가중 음성 신호을 기초하여 추정될 수 있다. 선택적으로, 피치 랙은 피치 주파수가 음성 신호의 제 1 고조파를 나타내는 주파수 도메인에서 피치 주파수로서 표현될 수 있다.
피치 추정장치(32)는 추정된 피치 랙에 대한 후보를 결정하기 위해 서로다른 서브프레임에서 나타나는 신호들 사이의 상관 관계를 최대화한다. 피치 추정기(32)는 바람직하게 피치 랙의 개별 범위의 그룹 내에서 후보를 분리한다. 후보중에서 지연을 정상화시킨 후에, 피치 추정기(32)는 다음의 하나 또는 그이상의 요소에 기초하여 후보로부터 대표적인 피치 랙을 선택할 수 있다:(1)이전 프레임이 후보 피치 지연과 합쳐진 다음의 프레임에 관련하여 유성인지 아니면 무성인지;(2)이전 프레임에서 이전의 피치 랙이 다음 프레임의 후보 피치 랙의 정의 범위내에 있는지; 및 (3)이전의 2개의 프레임이 유성인지 그리고 2개의 이전 피치 랙이 다음 프레임의 다음 후보 피치 랙의 정의된 범위내에 있는지. 피치 추정장치(32)는 적응형 코드북(36)에서 우선적인 여기 벡터를 검색하기 위한 시작 지점을 용이하게 하도록 적응형 코드북(36)에서 추정된 대표 피치 랙을 제공한다. 적응형 코드북 섹션(11)은 적응형 코드북(36)으로부터 최적이거나 우선적인 여기 벡터를 선택하도록 추정된 대표 피치 랙을 이후에 정제한다.
음성 특성 분류기(26)는 바람직하게 음성이 프레임 단위 기준 또는 서브프레임단위를 기준으로 애플리케이션을 위한 주기동안 다양하게 분류되는 음성 분류 절차를 실행한다. 음성 분류는 다음의 하나 또는 그이상의 카테고리:(1)침묵/배경 잡음, (2)잡음과 같은 무성의 음성, (3)무성의 음성, (4)음성의 일시적인 시작, (5)파열음, (6) 비고정된 음성, 및 (7)고정된 음성을 포함할 수 있다. 고정된 무성의 음성은 피치(주파수) 또는 피치 랙이 고려 대상의 간격동안 더 많은 최대 허용 오차를 변화시킨다. 잡음과 같은 무성의 음성은 가우시안 잡음과 같은 잡음 신호로 모델링될 수 있는 비간격 음성 요소로 참조 한다. 음성의 일시적인 개시는 말하는 스피커의 침묵 이후 또는 음성 신호의 낮은 진폭 운동 이후에 즉시 발생하는 음성을 참조한다. 음성 분류기는 프레임 또는 서브프레임과 같은 관련된 간격에 대한 앞선 분류 중 하나로써 원래의 음성 신호를 분류하기 위해 원래의 입력 음성 신호, 피치 랙, 피치 연관 데이터 및 음성 확동 검출기 데이터를 수용할 수 있다. 앞선 음성 분류는 입력 음성 신호의 간격에서 존재될 수 있는 하나 또는 그이상의 트리거 특성을 정의할 수 있다. 간격에서 특정 트리거 특성의 존재 또는 부재는 간격에 관련된 프레임 또는 서브프레임을 위해 적절한 인코딩 방식의 선택을 용이하게 할 수 있다.
제 1 여기 발생기(40)는 적응형 코드북(36) 및 제 1 이득 조절기(38)(예, 제 1 이득 코드북)를 포함한다. 제 2 여기 발생기(58)는 고정된 코드북(50), 제 2 이득 조절기(52)(예, 제 2 이득 코드북), 및 고정된 코드북(50) 및 제 2 이득 조절기(52) 모두에 접속된 제어기(54)를 포함한다. 고정된 코드북(50) 및 적응형 코드북(36)은 여기 벡터를 정의한다. LPC 분석기(30)가 합성 필터(42)의 필터 파라미터를 결정하면, 인코더(11)는 적절한 여기 벡터를 선택하기 위해 적응형 코드북(36) 및 고정된 코드북(50)을 검색한다. 제 1 이득 조절기(38)는 적응형 코드북(36)의 여기 벡터의 크기를 스케일링하기 위해 사용될 수 있다. 제 2 이득 조절기(52)는 고정된 코드북(50)에서 여기 벡터의 크기를 스케일링하기 위해 사용될 수 있다. 제어기(54)는 고정된 코드북(50) 또는 그안의 서브 코드북으로부터 우선적인 여기 벡터의 적절한 선택을 돕기 위해 음성 특성 분류기(26)로부터 음성특성을 사용한다.
적응형 코드북(36)은 파형의 세크먼트 또는 다른 에너지 표현을 나타내는 여기 벡터를 포함할 수 있다. 적응형 코드북(36)의 여기 벡터는 음성 신호의 긴주기 변화를 재생시키거나 모방하도록 조정될 수 있다. 이전에 합성된 적응형 코드북(36)의 여기 벡터는 적응형 코드북936)에서 존재하는 여기 벡터의 파라미터를 결정하도록 적응형 코드북(36)에 입력될 수 있다. 예를 들면, 인코더는 적응형 코드북(36), 고정된 코드북(50) 또는 모두에 의해 출력된 지난 여기 벡터의 입력에 응답하여 코드북에 존재하는 여기 벡터를 변경시킬 수 있다. 적응형 코드북(36)은 바람직하게 지난 합성된 여기에 기초하여 프레임 또는 서브프레임별 기준으로 업데이트되지만, 다른 업데이트 간격는 본 발명의 영역내에서 적합한 결과 및 소멸을 발생할 수 있다.
적응형 코드북(36)에서 여기 벡터는 대응하는 적응형 코드북 인덱스와 관련된다. 한 실시예에서, 적응형 코드북 인덱스는 피치 랙의 값과 동등할 수 있다. 피치 추정장치(32)는 우선적인 피치 랙의 값 또는 우선적인 적응형 인덱스의 부근에서 대표 피치 랙을 초기에 결정한다. 우선적인 피치 랙 값은 코드북 검색 절차와 일치하는 제 1 덧셈기(46)의 출력에서 에러 신호를 최대화한다. 적응형 코드북 인덱스 또는 피치 랙의 입도(granularity)는 일반적으로 스펙트럼 대역폭을 보호하기 위해 무선 인터페이스(64)를 통해 전송하기 위한 고정된 비트수에 제한된다. 스펙트럼 대역폭은 통신 시스템의 하나 또는 그이상의 채널(예, 다운링크 채널, 업링크 채널, 또는 모두)에서 사용될 수 있도록 허용된 전자기 스펙트럼의 최대 대역폭을 나타낼 수 있다. 예를 들면, 피치 랙 정보는 대역폭 제한을 따르기 위해 단일 채널에서의 음성 정보의 1/2 비율 코딩을 위해 7비트, 또는 완전 비율 코딩을 위해 1/2 비율 코딩을 위해 7비트에서 전송되어야 할 수 있다. 따라서, 적응형 코드북(36)으로부터 상응하는 여기 벡터를 선택하기 위해 사용된 피치 랙 값을 전달하기위해 128개의 스테이트는 7비트로 가능하며, 256개의 스테이트는 8비트로 가능하다.
인코더(11)는 프레임별 기준 또는 서브프레임별 기준으로 적응형 코드북(36)으로부터 상이한 여기 벡터를 적용시킬 수 있다. 유사하게, 하나 또는 그이상의 합성 필터(42)의 필터 계수는 프레임별 기준으로 변경되거나 업데이팅될 수 있다. 그러나, 필터 계수는 바람직하게 적응형 코드북(36) 및 고정된 코드북(50)의 각각의 우선적인 여기벡터의 검색 및 선택동안 정지한다. 사실상, 프레임은 약 20ms의 시간 간격을 나타낼 수 있으며, 서브프레임은 약 5 내지 10ms의 범위 내의 시간 간격을 나타낼 수 있지만, 다른 프레임 및 서브프레임 간격은 본 발명의 영역에서 생략된다.
적응형 코드북(36)은 코드북 내의 여기 벡터의 이득을 스케일링하기 위해 제 1 이득 조절기(38)에 결합된다. 이득은 상응하는 여기 벡터와 일치하는 스칼라량으로써 표현될 수 있다. 선택적인 실시예에서, 이득은 이득 벡터로서 표현될 수 있으며, 상기 이득 벡터는 고정된 코드북(50) 또는 적응형 코드북(36)의 여기 벡터의 상이한 세그먼트와 결합된다.
제 1 여기 발생기(40)는 합성 필터(42)에 접속된다. 제 1 여기 벡터발생기(40)는 적응형 코드북(36)의 적절한 여기 벡터에 액세스함으로써 합성된 음성 신호에 대한 긴주기의 예측 요소를 제공할 수 있다. 합성 필터(42)는 제 1 여기 발생기(40)로부터 제 1 여기 신호의 입력에 기초하여 제 1 합성 음성 신호를 출력한다. 한 실시예에서, 제 1 합성 음성 신호는 적응형 코드북(36)에 의해 제공된 긴주기의 예측 요소 및 합성 필터(42)에 의해 제공된 짧은 주기의 예측 요소를 포함한다.
제 1 합성 신호는 가중 입력 음성 신호와 비교된다. 가중된 입력 음성 신호는 지각형 가중 필터(20)에 의해 적어도 필터링 되거나 처리되는 입력 음성 신호를 참조한다. 도 1에 도시된 바와 같이, 제 1 합성 신호 및 가중 입력 음성 신호는 에러 신호를 얻기 위해 제 1 덧셈기(46)에 입력 된다. 최소화기(48)는 에러 신호를 수용하여, 적응형 코드북(36)에서 여기 벡터의 우선적인 선택을 조절하거나, 제 1 이득 조절기(38)(예, 제 1 이득 코드북)의 우선 적인 선택을 조절하거나, 앞선 설명 모두를 조절함으로써 에러 신호를 최소화 한다. 여기 벡터 및 이득 스칼라(또는 이득 벡터)의 우선적인 선택은 무선 인터페이스(64)를 통해 검출기(70)에 전송하는 서브프레임 또는 전체 프레임에 적용한다. 합성 필터(42)의 필터 계수는 각각의 구별되는 우선적인 여기 벡터 및 이득 벡터에 대한 조절 또는 검색동안 고정된다.
제 2 여기 발생기(58)는 고정된 코드북(50)으로부터 선택된 여기 벡터에 기초하여 여기 신호를 발생시킬 수 있다. 고정된 코드북(50)은 에너지 펄스에 기초하여 모델링된 여기 벡터, 펄스 위치 에너지 펄스, 가우시안 잡음 신호, 또는 임의의 다른 적합한 파형을 포함할 수 있다. 고정된 코드북(50)의 여기 벡터는 입력 음성 신호의 짧은 간격의 변화 또는 스페트럼 포락선 변화를 재생시키도록 조절될 수 있다. 또한, 고정된 코드북(50)의 여기 벡터는 긴주기 신호 요소로 적절히 표현될 수 없는 잡음과 같은 신호, 일시적인 신호, 잉여 요소, 또는 다른 신호를 나타내도록 제공할 수 있다.
고정된 코드북(50)에서 여기 벡터는 상응하는 고정된 코드북 인덱스(74)와 결합된다. 고정된 코드북 인덱스(74)는 데이터 베이스, 테이블 또는 여기 벡터가 저장되는 또다른 데이터 구조에서의 참조에서 어드레스를 참조한다. 예를 들면, 고정된 코드북 인덱스(74)는 여기 벡터가 인코더(11)의 전자 메모리에 저장되는 메모리 위치 및 레지스터 위치를 나타낼 수 있다.
고정된 코드북(50)은 고정된 코드북(50)에서 여기 벡터의 이득을 스케일링하기 위해 제 2 이득 조절기(52)에 결합된다. 이득은 상응하는 여기 벡터와 일치하는 스칼라량으로 표현될 수 있다. 선택적인 실시예에서, 이득은 이득 벡터로 표현될 수 있으며, 이득 벡터는 고정된 코드북(50) 또는 적응형 코드북(36)의 여기 벡터의 상이한 세그먼트와 결합된다.
제 2 여기 발생기(58)는 선형 예측 코딩(LPC) 필터로써 참조될 수 있는 합성 필터(42)(예, 짧은 간격 예측 필터)에 접속된다. 합성 필터(42)는 제 2 여기 발생기(58)로부터 여기 신호의 입력에 기초한 제 2 합성 음성 신호를 출력한다. 도시된 바와 같이, 제 2의 합성된 음성 신호는 제 1 덧셈기로부터 출력된 상이한 에러신호와 비교된다. 제 2의 합성된 신호 및 상이한 에러신호는 제 2 덧셈기(44)의출력에서 잉여 신호를 얻기 이해 제 2 덧셈기(44)로 입력된다. 최소화기(48)는 잉여 신호를 수신하여 제 2 이득 조절기(52)(예, 제 2 이득 코드북)의 우선적인 선택을 조절(즉, 검색 및 적용)하거나, 제 2 이득 조절기(52)(예, 제 2 이득 코드북)의 우선적인 선택을 조절하거나, 앞선 선택 모두를 조절함으로써 잉여 신호를 최소화 한다. 여기 벡터 및 이득 스칼라(또는 이득 벡터)의 우선적인 선택은 서브프레임 또는 전체 프레임에 적용된다. 합성 필터(42)의 필터 계수는 조절동안 고정된다.
LPC 분석기(30)는 합성 필터(42)(예, 짧은 주기예측 필터)에 대한 필터 계수를 제공한다. 예를 들어, LPC 분석기(30)는 참조 여기 신호(예, 여기 없는 신호)의 입력에 기초하여 필터 계수를 LPC 분석기(30)에 제공한다. 선택적인 실시예에서, 서로다른 에러 신호는 제 2 덧셈기(44)의 입력에 적용되지만, 가중 입력 음성 신호는 전술된 바와 같이 실제로 동일한 결과를 달성하도록 제 2 덧셈기(44)의 입력에 직접 적용될 수 있다.
고정된 코드북(50)으로부터의 벡터의 우선적인 선택은 바람직하게 고정된 코드북(50)에서 다른 가능한 선택중에 양자화 에러를 최소화 한다. 유사하게, 적응형 코드북(36)으로부터 여기 벡터의 우선적인 선택은 바람직하게 적응형 코드북(36)에서 다른 가능한 선택중에 양자화 에러를 최소화 한다. 도 1에 따라 우선적인 선택이 실행되면, 멀티플렉서(60)는 참조 정보를 형성하기 위한 선택과 관련된 고정된 코드북 인덱스(74), 적응형 코드북 인덱스(72), 제 1 이득 지표(예, 제 1 코드북 인덱스), 제 2 이득 지표(예, 제 2 코드북 이득), 및 필터 계수를 멀티플렉싱한다. 필터 계수는 다음의 하나 또는 그이상의 필터: 적어도 한개의 합성필터(42), 지각형 가중 필터(20) 및 다른 적절한 필터에 대한 필터 계수를 포함할 수 있다.
송신기(62) 또는 트랜시버는 멀티플렉서(60)에 접속된다. 송신기(62)는 도 1에서 도시된 무선 시스템의 전자기 신호(예, 무선 주파수 또는 마이크로파 신호)를 통해 인코더(11)로부터 수신기(66)로 참조 정보를 송신한다. 멀티플렉싱된 참조 정보는 서브프레임별 기준, 프레임별 기준 또는 대역폭 제약 및 지각력있는 음성 품질 목표와 일치하는 다른 적절한 시간 간격에서 입력 음성 신호의 업데이트를 제공하도록 전송될 수 있다.
수신기(660는 참조 정보를 디멀티플렉싱하기 위해 디멀티플렉서(68)에 접속된다. 차례로, 디멀티플렉서(68)는 참조 정보를 출력 음성 신호로 디코딩하기 위한 디코더(70)에 접속된다. 도 1에 도시된 바와 같이, 디코더(70)는 인코더(11)로부터 무선 인터페이스(64)를 통해 전송된 참조 정보를 수신한다. 디코더(70)는 우선적인 여기 신호를 생성하기 위해 수신된 참조 정보를 사용한다. 참조 정보는 인코더(70)에서 이중의 적응형 코드북 및 이중의 고정된 코드북의 액세스를 용이하게 한다. 디코더(70)의 하나 또는 그이상의 여기 발생기는 이중 합성 필터에 우선적인 여기 신호를 적용시킨다. 동일한 값 또는 대략 동일한 값은 인코더(11) 및 디코더(70)모두에서 필터 계수를 위해 사용된다. 이중 합성 필터 및 이중 적응형 코드북의 제공으로부터 획득된 출력 음성 신호는 인코더(11)로 입력된 입력 음성의 복제 또는 표현이다. 따라서, 참조 데이터는 입력 섹션(10)으로 입력된 원래의 음성 신호보다 더 적은 비트, 워드, 또는 바이트로 구성되기 때문에 참조 데이터는대역폭 효율 방식으로 무선 인터페이스(64)를 통해 전송된다.
선택적인 실시예에서, 특정 필터 계수는 인코더로부터 디코더로 전송되지 않으며, 상기 필터 계수는 무선 인터페이스(64)를 통해 음성 정보의 전송이전에 확립되거나 인코더 및 디코더의 내부 대칭 상태 및 알고리즘에 따라 업데이팅된다.
도 2는 본 발명에 따라 입력 음성 신호를 인코딩 하기 위한 방법의 흐름도이다. 도 2의 방법은 단계(S10)에서 시작한다. 일반적으로 단계(S10) 및 단계(S12)는 입력 음성 신호에서 트리거 특성의 검출을 취급한다. 트리거 특성은 음성 특성 분류기(26), 검출기(24) 또는 모두에 의해 취급되거나 분류되는 임의의 특성을 포함할 수 있다. 도 2에 도시된 바와 같이, 트리거 특성은 단계(S10 및 S12)에서 입력 음성 신호의 일반적으로 유성이고 고정인 음성 요소를 포함한다.
단계(S10)에서, 검출기(24) 또는 인코더(11)는 민약 입력 음성 신호의 간격이 일반적으로 유성의 음성 요소를 포함하는 지를 결정한다. 유성의 음성 요소는 음성 신호의 일반적으로 주기적인 부분 또는 준주기적인 부분을 참조로 한다. 준주기적인 부분은 이상적으로 주기적인 유성의 음성 요소로부터 약간 벗어난 파형을 나타낼 수 있다. 입력 음성 신호의 간격은 입력 음성 신호의 트리거 특성을 평가하기에 적절한 프레임, 프레임 그룹, 프레임의 일부분, 인접 프레임의 겹침 부분, 또는 임의의 다른 시간 간격을 나타낼 수 있다. 만약 간격이 일반적으로 유성인 음성 요소를 포함한다면, 방법은 단계(S12)로 진행한다. 만약 간격이 일반적으로 유성인 음성 요소를 포함하지 않는다면, 방법은 단계(S18)로 진행한다.
단계(S12)에서, 검출기(24) 또는 인코더(11)는 유성의 음성 신호가 간격내에서 일반적으로 고정되는지 또는 약간 고정되는지를 결정한다. 일반적으로 유성의 음성 요소는 다음의 조건 중 하나 또는 그이상이 만족되면 일반적으로 고정되거나 약간 고정된다:(1) 유성 신호의 우세한 주파수 또는 피치 랙이 프레임 또는 간격 내의 더 많은 최대 범위(미리 지정된 퍼센트율)를 변화시키지 않는다; (2)음성 신호의 스펙트럼 콘텐츠는 일반적으로 일정하거나 프레임 또는 간격 내에서 더 큰 최대 범위를 변경하지 않는다; 그리고 (3)음성 신호의 에너지 레벨은 일반적으로 일정하거나 프레임 또는 간격내의 더 큰 최대 범위를 변경하지 않는다. 그러나 또다른 실시예에서, 적어도 2개의 앞선 조건은 바람직하게 유성의 음성 신호가 일반적으로 고정된 것으로 고려될 때 충족된다. 일반적으로, 최대 범위 또는 범위는 지각력있는 음성 코딩 검사 또는 입력 음성 신호의 충분히 정확한 재생을 지원하는 입력 음성 신호의 파형 형태의 특성에 의해 결정될 수 있다. 피치 랙의 내용에서, 최대 범위는 유성의 음성 요소의 중심 또는 우위 주파수에 관련된 주파수 범위 또는 유성의 음성 요소의 피치랙의 중심 또는 우위 주파수에 관련된 시간 범위로써 표현될 수 있다. 만약 유성의 음성 요소가 일반적으로 주긴내에서 고정된다면, 방법은 단계(S14)로 진행한다. 만약 유성의 음성 요소가 간격내에서 일반적으로 고정되지 않는다면, 방법은 단계(S18)로 진행한다.
단계(S14)에서, 피치 전처리 모듈(22)은 코딩하기 위한 입력 음성 신호를 조절하기 위해 피치 전처리 절차를 실행한다. 조절은 자연 발생의, 일반적으로 고정된 유성의 음성 요소의 고정 특성을 인위적으로 최대화(예, 디지털 신호 처리)하는 것을 참조한다. 만약 입력 음성 신호의 자연 발생의, 일반적으로 고정된 유성의요소가 이상적인 고정된 유성 요소와 다르다면, 피치 전처리는 이상적인 고정된, 유성의 요소에 인접한 자연 발생적인, 일반적으로 고정된 유성의 요소를 가져오도록 조정된다. 피치 전처리는 무선 인터페이스를 통해 인코딩된 음성 신호를 나타내고 전송하는데 필요한 대역폭을 감소시킨 것보다 더 고정되고 유성의 상태로 신호를 바이어싱하기 위해 입력신호를 조절할 수 있다. 선택적으로, 피치 전처리 절차는 고정된 코드북 인덱스(74) 및 적응형 코드북 인덱스(72)사이의 저장 유니트의 서로 다른 할당을 특징짓는 상이한 유성 코딩 방식을 사용하는 것을 용이하게 할 수 있다. 피치 전처리와 함께, 상이한 프레임 형태 및 부수적인 비트 할당은 지각력있는 음성 품질을 개선시키도록 제공할 수 있다.
피치 전처기 절차는 하나 또는 더이상의 이산 시간 간격내의 입력 신호의 피치 랙을 변경할 수 있는 피치 추적 방식을 포함한다. 이산 시간 간격은 프레임, 프레임의 일부분, 서브프레임, 프레임 그룹, 샘플 또는 샘플의 그룹으로 참조할 수 있다. 피치 추적 절차는 다양한 프레임동안 또는 광범위한 기준으로 한 인접 프레임으로부터 또다른 프레임으로 피치 랙 대 시간의 일련의 연속적인 세그먼트로서 입력 음성 신호의 피치 랙을 모델링하려 한다. 따라서, 피치 전처리 절차는 피치 트랙의 광범위한 패턴과 일치하는 방식으로 프레임 내의 로컬 변동을 감소시킬 수 있다.
피치 전처리는 몇가지 선택적인 기술에 따라 수행될 수 있다. 제 1 기술에 따라, 단계(S14)는 다음 절차와 관련할 수 있다: 추정된 피크 트랙은 입력된 음성 신호를 위해 추정된다. 추정된 피치 트랙은 한개의 프레임을 초과하는 시간 간격를 통해 피치의 광범위한 패턴의 추정값을 나타낸다. 피치 트랙은 피치 트랙에 대한 최저 누적 경로 에러와 일치하여 추정될 수 있으며, 각각의 프레임에 결합된 피치 트랙의 일부분은 누적 경로 에러를 제공한다. 경로 에러는 실제 피치 트랙(즉, 측정된) 및 추정된 피치 트랙 사이이 차이의 측정을 제공한다. 입력된 음성 신호는 추정된 피치 트랙을 따르거나 매칭하도록 변경된다.
입력된 음성 신호는 피치 랙의 일련의 세그먼트 대 시간으로 모델링되며, 각각의 세그먼트는 이산 시간 간격를 차지한다. 만약 다른 세그먼트에 시간적으로 근사하는 서브젝트 세그먼트가 시간적으로 근사한 세그먼트보다 더 짧은 랙을 갖는다면, 서브젝트 세그먼트는 추정된 피치 트랙과 일치하는 더 많은 일정한 피치를 생성하도록 다른 세그먼트에 관련된 시간에서 쉬프팅된다. 쉬프트된 세그먼트 및 서브젝트 세그먼트 사이의 불연속은 시간에서 겹치는 인접 세그먼트를 사용하여 회피된다. 한 예에서, 보간 또는 평균은 인접 세그먼트의 겹침 영역에 기초하여 연속적인 방식으로 인접 세그먼트의 에지를 결합하기 위해 사용될 수 있다.
제 2 기술에 따라, 피치 전처리는 입력 음성 신호로써 지각형 가중된 음성 신호의 연속적인 시간-왜곡을 수행한다. 연속적인 왜곡동안, 입력 피치 트랙은 적어도 한개의 지난 프레임 및 현재 프레임의 입력 음성 신호 또는 가중 음성 신호로부터 유도된다. 피치 전처리 모듈(22)은 음성 신호의 다중 프레임에 기초하여 입력 피치 트랙을 결정하고 입력 피치 트랙을 추적하여 적어도 한개의 상응하는 샘블과 결합된 피치 랙에서 변화한다.
가중된 음성 신호는 입력 피치 트랙과 일치되도록 변경된다. 가중 음성 신호를 포함하는 샘플은 피치 사이클-피치(cycle-by-pitch) 사이클 기준으로 변경된다. 피치 사이클은 입력 음성 신호의 피치의 간격를 나타낸다. 만약 한 피치 사이클의 이전 샘플이 이후 샘플과(예, 인접 피치 사이클의) 시간적으로 근접하게 감소하면, 이전 및 이후 샘플의 간격는 겹칠 수 있고 피치 트랙의 재구성된/변경된 세그먼트 사이에서 불연속을 회피하도록 배열된다. 시간 왜곡은 최대 결합 지연과 일치하는 가중된 음성 신호의 샘플에 대한 변화하는 지연을 가져올 수 있다. 예를 들면, 최대 결합 지연은 가중 음성 신호의 20개의 샘플(2.5ms)이 될 수 있다.
단계(S18)에서, 인코더(11)는 예측 코딩 절차를 단계(S10 및 S12의 검출기(24)에 의해 검출된 바와 같이 일반적으로 유성이지 않거나 고정되지 않은 입력된 음성 신호 또는 가중 음성 신호에 적용한다. 예를 들어, 인코더(11)는 프레임 기간보다 적은 서브프레임 또는 또다른 기간에 대한 적응형 코드북(36)을 위한 피치 랙 인덱스를 업데이트하기 위한 업데이트 절차를 포함하는 예측 코딩 절차를 적용한다. 여기에서 설명된 것과 같이, 시간 슬롯은 프레임의 기간보다 짧은 기간이다. 단계(S18)의 적응형 코드북 인덱스의 업데이트 주파수는 일반적으로 유성이며 고정된 음성을 적당히 나타내도록 요구된 업데이트 주파수 보다 더 크다.
단계(S14)이후에 단계(S16)에서, 인코더(11)는 예측 코딩(예, 코드-여기된 선형 예측 코딩 또는 그의 변형)을 간격에 관련된 전처리된 음성 요소에 적용한다. 예측 코딩은 적응형 코드북(36) 및 고정된 코드북(50)으로부터 적절한 여기 벡터이 결정을 포함한다.
도 3은 도 2의 단계(S14)에 관한 것이거나 추가로 정의하는 피치 전처리를위한 방법을 도시한다. 도 3의 방법은 단계(S50)에서 시작한다.
단계(S50)에서, 각각의 피치 사이클동안, 피치 전처리 모듈(22)은 지각 가중된 입력 음성 신호 또는 또다른 입력 음성 신호의 추정된 피치 간격와 동등한 시간적 세그먼트 크기를 추정한다. 연속하는 세그먼트의 세그먼트 크기는 피치 간격에서 변화를 추적할 수 있다.
단계(S52)에서, 피치 추정장치(32)는 시간 세그먼트와 결합된 지각형 가중된 입력 음성 신호에 대한 입력 피치 트랙을 결정한다. 입력 피치 트랙은 일련의 연속 프레임에 대한 피치 랙당 프레임의 추정값을 포함한다.
단계(S54)에서, 피치 전처리 모듈(22)은 가중된 입력 음성 신호를 변경(예, 시간 왜곡)하기 위한 타겟 신호를 확립한다. 한 예에서, 피치 전처리 모듈(22)은 결정된 입력 피치 트랙에 기초하는 시간 세그먼트를 변경하기 위한 목표 신호를 확립한다. 또다른 예에서, 목표 신호는 단계(S52)에서 결정된 입력 피치 트랙 및 도 3의 방법의 이전 실행으로부터 이전에 변경된 음성 신호에 기초한다.
단계(S56)에서, 피치 전처리 모듈(22)은 변경된 세그먼트를 획득하기 위해 시간 세그먼트를 변경(예, 왜곡)한다. 주어진 변경된 세그먼트에 대하여, 변경된 세그먼트의 시작 지점은 종래에는 고정되며, 변경된 세그먼트의 종료 지점은 피치 간격동안 최고로 표현가능한 적합을 획득하기 위해 이동된다. 종료 지점의 이동은 세그먼트이 크기와 결합된 지각력있게 가중된 신호의 시간을 연장하거나 압축한다. 한 예에서, 변경된 세그먼트의 시작에서 샘플은 거의 쉬프트되지 않으며, 가장 큰 쉬프트는 변경된 세그먼트의 종료에서 발생한다.
피치 합성(주 펄스)은 일반적으로 피치 사이클의 가장 지각력있게 중요한 부분을 나타낸다. 피치 사이클의 피치 합성은 지각력있게 중요한 부분에서 왜곡을 최대로 제공하기 위해 변경된 세그먼트의 종료에 위치된다.
한 실시예에서, 변경된 세그먼트는 피치 트랙 및 적절한 시간 윈도우(예, 해밍-가중 싱크(Hamming-weighted Sinc)윈도우)와 일치하는 이전에 변경된 가중 음성의 샘플을 보간함으로써 시간 세그먼트로부터 획득된다. 가중 기능은 피치 합성을 강조하고 피치 합성간의 잡음을 감소시킨다. 가중은 더 높은 간격성의 세그먼트에 대한 피치 합성의 강조를 증가시킴으로써 피치 전처리 분류에 따라 적용된다. 가중은 더 높은 간격성의 세그먼트에 대한 피치 합성의 강조를 증가시킴으로써 피치 전처리 분류에 따라 변경시킬 수 있다.
변경된 세그먼트는 변경된 음성 신호를 발생시키기 위해 타겟 신호와 일치하는 지각형 가중 입력 음성 신호를 조절하기 위해 지각형 가중 입력 음성 신호의 샘플에 맵핑된다. 맵핑의 정의는 지각형 가중 입력 음성 신호의 샘플의 왜곡 기능 및 시간 쉬프트 기능을 포함한다.
도 3의 방법의 한 실시예에 따라, 피치 추정장치(32), 전처리 모듈(22), 선택기(34), 음성 특성 분류기(26) 및 음성 활동 검출기(28)는 가중된 음성 신호의 피치 전처리를 지원하도록 상호작용한다. 음성 특성 분류기(26)는 도 3의 피치 전처리 방법의 하난 또는 그이상의 단계를 제어하기위해 사용된 피치 전처리 제어 파라미터를 획득할 수 있다.
피치 전처리 제어 파라미터는 상응하는 카테고리의 멤버로서 분류될 수 있다. 제어 파라미터의 몇가지 카테고리가 가능하다. 제 1 카테고리는 피치 전처리동안 도입된 축적된 지연이 최대 결합 지연을 초과하는 것을 방지하기 위해 피치 전처리를 리셋하도록 사용된다. 제 2 카테고리, 제 3 카테고리, 및 제 4 카테고리는 음성의 강도 또는 음폭을 나타낸다. 제 2 카테고리 부터 제 4 카테고리의 음성 강도는 서로 다르다.
제 1 카테고리는 단계(S56)의 실행을 허용하거나 중지시킬 수 있다. 만약 제 1 카테고리 또는 프레임의 또다른 분류가 프레임이 지배적으로 낮은 피치 상호 관계를 가지는 배경 잡음 또는 무성의 음성이라면, 피치 전처리 모듈(22)은 축적된 지연이 최대 지연을 초과하는 것을 방지하도록 피치 전처리 절차를 리셋한다. 따라서, 지배적인 프레임은 단계(S56)에서 변경되지 않으며, 피치 전처리의 축적된 지연은 0으로 리셋되어 다음의 프레임은 적절히 변경될 수 있다. 만약, 제 1 카테고리 또는 프레임의 또다른 분류가 지배적으로 펄스와 같은 무성의 음성이라면, 단계(S56)에서 축적된 지연은 시간의 임의의 왜곡없이 유지되며, 출력 신호는 입력 신호의 축적된 지연과 일치하는 단일 시간 쉬프트가 된다.
피치 전처리 제어 파라미터의 잉여 분류를 위해 피치 전처리 알고리즘은 단계(S56)에서 음성 신호를 왜곡하도록 실행된다. 잉여 피치 전처리 제어 파라미터는 단계(S56)에서 사용된 왜곡의 정도를 제어할 수 있다.
단계(S56)에서 음성을 변경한 후에, 피치 추정장치(32)는 변경된 음성 신호와 관련하여 피치 이득 및 피치 상호관계를 추정할 수 있다. 피치 이득 및 피치 상호관계는 피치 사이클 기준으로 결정된다. 피치 이득은 타겟 신호 및 최종 변경된 신호 사이의 평균 제곱의 에러를 최대화 하도록 추정된다.
도 4는 본 발명에 따른 음성 신호를 코딩하기 위한 또다른 방법을 포함한다. 도 4의 방법은 도 4의 방법이 표준 적응형 코드북 보다 단계(S20)의 향상된 적응형 코드북을 참고하는 것을 제외하고 도 2의 방법과 유사하다. 향상된 적응형 코드북은 표준 적응형 코드북보다 더 많은 가능한 여기 벡터 갯수와 상응하는 더 많은 갯수의 양자화 구간을 갖는다. 도 1의 적응형 코드북(36)은 내용이 요구하는 것과 같이 향상된 적응형 코드북 또는 표준 적응형 코드북으로 고려될 수 있다. 이를테면, 도 2 및 도 4의 참조 번호는 같은 엘리먼트를 나타낸다.
단계(S10, S12, 및 S14)는 도 2와 관련하여 설명된다. 단계(S10 또는 S12) 이후에 단계(S20)에서 시작하여, 인코더는 예측 코딩 방식을 적용한다. 단계(S20)의 예측 코딩 방식은 표준 적응형 코드북보다 더 큰 용량 또는 더 높은 분석력(즉, 더 낮은 양자화 에러)을 가지는 향상된 적응형 코드북을 포함한다. 따라서, 도 4의 방법은 향상된 적응형 코드북으로부터 여기 벡터를 더 많이 선택하여 입력 음성의 정확한 재생을 촉진한다.
단계(S14) 이후에 단계(S22)에서, 인코더(11)는 간격과 관련되어 전처리된 음성 요소에 예측 코딩 방식을 적용한다. 코딩은 더 적은 용량 크기를 가지는 표준 적응형 코드북을 사용한다.
도 5는 본 발명에 따른 음성 신호를 코딩하는 방법을 도시한다. 방법은 단계(S11)에서 시작한다.
일반적으로, 단계(S11) 및 단계(S13)는 입력 음성 신호에서 트리거 특성의검출을 취급한다. 트리거 특성은 음성 특성 분류기(26), 검출기(24), 또는 모두에 의해 처리되거나 분류되는 임의의 특성을 포함할 수 있다. 도 5에 도시된 바와 같이, 트리거 특성은 단계(S11 및 S13)에서 음성 신호의 일반적으로 유성이며 고정된 음성 요소를 포함한다.
단계(S11)에서 검출기(24) 또는 인코더(11)는 음성 신호의 프레임이 일반적으로 유성의 음성 요소를 포함하는지를 결정한다. 일반적으로 유성의 음성 요소는 음성 신호의 주기적인 부분 또는 준주기적인 부분을 참조한다. 만약 입력 음성 신호의 프레임이 일반적으로 유성인 음성을 포함한다면, 방법은 단계(S13)로 진행한다. 그러나, 만약 음성 신호의 프레임이 유성의 음성 요소를 포함하지 않는다면, 방법은 단계(S24)로 진행한다.
단계(S13)에서, 검출기(24) 또는 인코더(11)는 유성의 음성 요소가 프레임내에서 일반적으로 고정인지를 결정한다. 유성의 음성 요소는 유성의 음성 신호의 지배적인 주파수또는 피치 랙이 프레임 또는 간격내의 최대 범위(예, 미리 정의된 퍼센트율)보다 변화하지 않는다면 일반적으로 고정된다. 최대 범위는 유성의 음성 요소의 중심 또는 우위 주파수에 관련된 주파수 범위 또는 유성의 음성 요소의 중심 또는 우위 피치 랙에 관련된 시간 범위로써 포현될 수 있다. 최대 범위는 입력 음성 신호의 지각력 있는 음성 인코딩 검사 또는 파형 형태에 의해 결정될 수 있다. 만약 유성의 음성 요소가 프레임내에서 고정된다면, 방법은 단계(S26)로 진행한다. 그와 달리, 만약 유성의 음성 요소가 프레임내에서 일반적으로 고정되지 않으면, 방법은 단계(S24)로 진행한다.
단계(S24)에서, 인코더(11)는 프레임을 제 2 데이터 구조를 가지는 제 2 프레임 형태로 지정한다. 제 2 프레임 형태의 제 2 데이터 구조의 설명예는 도 6에서 더 상세히 설명될 것이다.
단계(S24)에 대한 선택적인 단계에서, 인코더(11)는 더 높은 인코딩 비율(완전 비율 인코딩)이 적합하면 프레임을 제 2 프레임 형태로 지정하며, 인코더(11)는 더 적은 인코딩 비율(예를 들면, 1/2 비율 인코딩)이 적합하면 프레임을 제 4 프레임 형태로 지정한다. 인코딩 비율의 적합성은 무선 통신 시스템에서 음성 신호의 재생을 위한 타겟 품질 모드에 의존할 수 있다. 제 4 프레임 형태의 설명 예는 도 7에서 더 상세히 설명될 것이다.
단계(S26)에서, 인코더는 프레임을 제 1 프레임 데이터 구조를 가지는 제 1 프레임 형태로 지정한다. 제 1 프레임 형태의 설명 예는 도 6에서 더 상세히 설명된다.
단계(S26)에 대한 선택적인 단계에서, 인코더(11)는 더 높은 인코딩 비율(예, 완전 비율 인코딩)이 대한 선택적인 단계에서, 인코더(11)는 더 높은 인코딩 비율(완전 비율 인코딩)이 적합하면 프레임을 제 1 프레임 형태로 지정하며, 인코더(11)는 더 적은 인코딩 비율(예를 들면, 1/2 비율 인코딩)이 적합하면 프레임을 제 3 프레임 형태로 지정한다. 인코딩 비율의 적합성은 무선 통신 시스템에서 음성 신호의 재생을 위한 타겟 품질 모드에 의존할 수 있다. 제 3 프레임 형태의 설명 예는 도 7에서 더 상세히 설명될 것이다.
단계(S28)에서, 인코더(11)는 제 2 프레임 형태의 적응형 코드북 인덱스(72)에서보다 더 적은 수의 프레임 당 저장 유니트(예, 비트)를 제 1 프레임 형태의 적응형 코드북 인덱스(72)에 할당한다. 또한, 인코더는 제 2 프레임 형태의 고정된 코드북 인덱스(74)에서 보다 더 많은 갯수의 프레임 당 저장 유니트(예, 비트)를 제 1 프레임 형태의 고정된 코드북 인덱스(74)에 할당한다. 앞선 저장 유니트의 할당은 제 2 프레임 형태의 긴주기 예측 코딩을 향상시킬 수 있으며, 제 1 프레임 형태에 대한 고정된 코드북과 관련된 양자화 에러를 감소시킬 수 있다. 제 2 프레임 형태의 프레임당 저장 유니트의 제 2 할당은 프레임별 기준보다 서브프레임별 기준에서 긴주기 예측 코딩을 용이하게 하도록 제 1 프레임 형태의 저장 유니트의 제 1 할당보다 적응형 코드북 인덱스에 더 큰 갯수의 저장 유니트를 할당한다. 다시 말해서, 제 2 인코딩 방식은 피치 트랙을 나타내기 위해 제 1 인코딩 방식보다 더 많은 수의 프레임당 저장 유니트(예, 비트)를 가지는 피치 트랙을 포함한다. 프레임 당 저장 유니트의 제 1 할당은 고정된 코드북 인덱스에 관련된 양자화 에러를 감소시키기 위해 제 2 할당이 실행하는 것 보다 더 많은 갯수의 고정된 코드북 인덱스에 대한 저장 유니트를 할당한다.
제 1 프레임 형태 및 제 2 프레임 형태 사이의 프레임당 저장 유니트의 할당의 차이는 할당 비에 따라 정의될 수 있다. 여기에서 사용된 바와 같이, 할당 비율(R)은 적응형 코드북 인덱스(A)에 대한 프레임당 저장 유니트의 수와 고정된 코드북 인덱스(F)에 대한 프레임당 저장 유니트의 갯수를 더한 값으로 나뉘어진 적응형 코드북 인덱스(A)에 대한 프레임당 저장 유니트의 갯수와 같다. 할당비는 수학적으로 R= A/(A+F)로 표현된다. 따라서, 제 2 프레임 형태의 할당 비는 재생된 음성의 증진된 지각력있는 품질을 촉진 시키기 위해 제 1 프레임 형태의 할당 비보다 더 크다.
제 2 프레임 형태는 재생된 음성 신호의 인식된 품질을 최대화 시키기 위해 적응형 코드북 인덱스 및 고정된 코드북 인덱스사이에서 제 1 프레임 형태가 가지는 것과는 다른 밸런스를 갖는다. 제 1 프레임 형태는 일반적으로 고정된 유성의 데이터를 전달하기 때문에, 더 적은 수의 적응형 코드북 인덱스의 저장 유니트(예, 비트)는 타겟의 지각형 표준과 일치하는 원래의 음성 신호의 사실적인 재생을 제공한다. 대조적으로, 더 많은 갯수의 저장 유니트는 타겟의 지각형 표준과 비교하기 위해 제 2 프레임 형태의 남아있는 음성 특성을 적당히 표현하도록 요구된다. 더 적은 수의 저장 유니트는 음성 신호의 긴주기 정보가 일반적으로 균일하게 간격적이기 때문에 제 2 프레임의 적응형 코드북 인덱스를 위해 요구된다. 따라서, 제 1 프레임 형태에 대하여, 음성 신호의 이전 샘플은 음성 신호의 이후 추정값에 대한 신뢰할만한 기준을 제공한다. 저장 유니트의 전채 갯수와 저장 유니트의 더 적은 갯수간의 차이는 제 1 프레임 형태에 대한 고정된 코드북(50)의 성능을 개선시키거나 무선 인터페이스를 위해 사용된 대역폭을 감소시키기 위해 사용되는 잉여 비트 또는 잉여 워드를 제공한다. 고정된 코드북은 잡음과 같은 음성 신호 및 음성 신호에서 일시적인 부분의 모델링의 정확성을 개선시킴으로써 음성의 품질을 증진시킬 수 있다.
단계(S28)이후의 단계(S30)이후에 인코더(11)는 무선 통신 시스템의 무선 인터페이스(64)를 통해 인코더(11)로부터 디코더(70)로 적응형 코드북 인덱스(72) 및고정된 코드북 인덱스(74)에 대한 프레임당 할당된 저장 유니트(예, 비트)를 전달한다. 인코더(11)는 무선 인터페이스(64)를 통해 적응형 코드북 인덱스(72) 및 고정된 코드북 인덱스(74)의 원하는 전송 비율을 결정하기 위해 비율 결정 모듈을 포함할 수 있다. 예를 들어, 비율 결정 모듈은 각각의 상응하는 시간 간격에 대한 음성을 분류하는 음성 분류기(26)로부터의 입력, 무선 통신 시스템의 특정 가입자국에 대한 음성 품질 모드 산택 및 피치 전처리 모듈(22)로부터의 분류 출력을 수신할 수 있다.
도 6 및 도 7은 고비율 고딩 방식(예, 완전 비율) 및 저비율 코딩 방식(예, 1/2 비율)을 각각 설명한다. 도시된 바와 같이 고비율 코딩 방식은 무선 인터페이스(64)를 통해 프레임당 더 높은 전송 비율을 제공한다. 고비율 코딩 방식은 제 1 프레임 형태 및 제 2 프레임 형태를 지원한다. 저비율 코딩 방식은 제 3 프레임 형태 및 제 4 프레임 형태를 지원한다. 제 1 프레임, 제 2 프레임, 제 3 프레임 및 제 4 프레임은 무선 시스템의 무선 인터페이스(64)를 통해 인코더(11)에서 디코더(60)로 전송된 데이터 구조를 나타낸다. 형태 식별기(71)는 또다른 프레임 타입으로부터 프레임 타입을 구별하는 심볼 또는 비트 표시이다. 예를 들면, 도 6에서, 형태식별기는 제 1 프레임 형태를 제 2 프레임 형태와 구별하기 위해 사용된다.
데이터 구조는 음성 신호를 나타내는 참조 데이터를 나타내기위한 포맷을 제공한다. 참조 데이터는 필터 계수 지표(76)(예, LSF's), 적응형 코드북 인덱스(72), 고정된 코드북 인덱스(74), 적응형 코드북 이득 인덱스(80), 및 고정된 코드북 이득 인덱스(78) 또는 전술된 바와 같은 다른 참조 데이터를 포함할 수 있다. 앞선 참조 데이터는 도 1과 관련하여 이전에 설명되었다.
제 1 프레임 형태는 일반적으로 고정된 유성의 음성을 나타낸다. 일반적으로 고정된 유성의 음성은 음성 신호의 긴주기 요소의 일반적으로 주기적인 파형 또는 준주기적인 파형에 의해 특징지어진다. 제 2 프레임 형태는 일반적으로 고정된 유성의 음성과는 다른 음성을 인코딩하는데 사용된다. 여기에서 사용된 것과 같이, 고정된 유성의 음성과 다른 음성은 잉여 음성으로 참조된다. 잉여 음성은 음성 특성의 다른 분류 중에, 음성의 잡음 요소, 파열음, 일시적인 개시부분, 무성의 음성을 포함한다. 제 1 프레임 형태 및 제 2 프레임 형태는 바람직하게 프레임 내의 동일한 서브프레임 갯수(예, 4개의 서브프레임)를 포함한다. 제 1 프레임 및 제 2 프레임의 각각은 대략 20ms 길이이지만, 다른 프레임 기간은 본 발명을 실행하기위해 사용될 수 있다. 제 1 프레임 및 제 2 프레임은 각각 거의 동일하게 저장 유니트의 전체갯수(예, 170개의 비트)를 포함한다.
제 1 인코딩 방식(97)을 명시하는 컬럼은 제 1 프레임 형태의 비트 할당 및 데이터 구조를 정의한다. 제 2 인코딩 방식(99)을 명시하는 컬럼은 제 2 프레임 형태의 비트 할당 및 데이터 구조를 정의한다. 제 1 프레임의 저장 유니트의 할당은 고정된 코드북 인덱스(74) 및 적응형 코드북 인덱스(72)에 할당된 저장 유니트의 밸런스에 관련하여 제 2 프레임에서 저장 유니트이 할당과 다르다. 특히, 제 2 프레임 형태는 제 1 프레임 형태가 할당하는 것 보다 더 많은 비트를 적응형 코드북 인덱스(72)에 할당한다. 반대로, 제 2 프레임 형태는 제 1 프레임 형태 보다더 적은 고정된 코드북 인덱스(74)에 대한 비트를 할당한다. 한 예에서, 제 2 프레임 형태는 적응형 코드북 인덱스(72)에 프레임당 26개의 비트를 할당하고 고정된 코드북 인덱스(74)에 프레임당 88개의 비트를 할당한다. 반면에, 제 1 프레임 형태는 적응형 코드북 인덱스(72)에 프레임당 8개의 비트를 할당하고 고정된 코드북 인덱스(74)에 프레임당 120개의 비트를 할당한다.
랙의 값은 적응형 코드북(36)내의 여기 벡터의 엔트리를 참조한다. 제 2 프레임 형태는 제 1 프레임 형태보다 더 많은 갯수의 유니트 시간(예, 프레임) 당 랙 값을 전송하도록 조절된다. 한 실시예에서, 제 2 프레임 타입은 서브프레임별 기준으로 랙 값을 전송하는데 반해, 제 1 프레임 형태는 프레임별 기준으로 랙 값을 전송한다. 제 2 프레임 형태에 대하여, 적응형 코드북(36) 또는 데이터는 다음과 같이 서로다른 인코딩 방식에 따라 인코더(11)에서 디코더(70)로 전송될 수 있다. 제 1 랙 값은 8비트 코드 워드로서 전송된다. 제 2 랙 값은 제 1 랙 값과 절대적인 제 2 랙값 사이의 차이를 나타내는 값을 사용하여 5비트 코드워드로 전송된다. 제 3 랙 값은 랙의 절대값을 나타내는 8비트 코드워드로서 전송된다. 제 4 랙 값은 제 3 랙 값과 절대적인 제 4 랙 값사이의 차이를 나타내는 5비트 코드워드로서 전송된다. 따라서, 제 1 랙 값부터 제 4 랙 값의 분석은 서로 다른 인코딩의 장점 때문에 전송된 비트의 원래의 갯수에서의 변화에도 불구하고 실제로 일정하다.
도 7에 도시된 낮은 비율의 코딩 방식에 대하여, 인코더(11)는 중앙의 컬럼에서 설명된 제 3 인코딩 방식(103) 및 오른쪽의 컬럼에서 설명된 제 4 인코딩 방식(101)을 지원한다. 제 3 인코딩 방식(103)은 제 4 프레임 형태와 관련된다. 제4 인코딩 방식(101)은 제 3 프레임 형태와 관련된다.
제 3 프레임 형태는 도 7의 중앙 컬럼에서 도시된 바와 같이 제 2 프레임 형태의 변형이다. 제 4 프레임 형태는 무선 인터페이스(64)에서 제 2 프레임 형태보다 더 적은 전송 비율을 위해 구성된다. 유사하게, 제 3 프레임 형태는 도 7의 오른쪽 컬럼에 도시된 바와 같이 제 1 프레임 형태의 변형이다. 따라서, 명세서에 개시된 임의의 실시예에서, 제 3 인코딩 방식(103)은 저비율의 코딩 기술 또는 더 낮은 지각형 품질이 반족하는 제 3 인코딩 방식(97)을 대신할 수 있다. 마찬가지로, 본 명세서에 개시된 임의의 실시예에서, 제 4 인코딩 방식(101)은 낮은 비율의 코딩 기술 또는 낮은 지각력있는 품질을 만족하는 경우 제 2 인코딩 방식(97)에 대체될 수 있다.
제 3 프레임 형태는 무선 인터페이스(64)를 통해 제 2 프레임보다 더 적은 전송 비율을 위해 구성된다. 도 6의 저비율 코딩 방식을 위한 프레임당 전체 비트수는 더 낮은 전송 비율을 용이하게 하기 위해 도 7의 고비율 코딩 방식을 위한 프레임당 전체 비트수 보다 작다. 예를 들면, 고비율 코딩 방식을 위한 전체 비트수는 대략 170 비트와 동일한 반면에, 저비율 코딩 방식을 위한 전체 비트수는 대략 80 비트와 동일하다. 제 3 프레임 형태는 바람직하게 프레임당 3개의 서브프레임을 포함한다. 제 4 프레임 형태는 바람직하게 프레임 당 2개의 서브프레임을 포함한다. 제 3 프레임 형태 및 제 4 프레임 형태간의 비트수의 할당은 비교 방식에서 제 1 프레임 형태 및 제 2 프레임 형태내의 저장 유니트의 할당된 차이와 다르다. 제 4 프레임 형태는 제 3 프레임이 갖는 것 보다 더 많은 갯수의 프레임 당 적응형코드북 인덱스(72)에 대한 저장 유니트를 갖는다. 예를 들어, 제 4 프레임 형태는 적응형 코드북 인덱스72)에 대해 프레임 당 14개의 비트를 항당하고 제 3 프레임 형태는 프레임당 7비트를 할당한다. 프레임 당 전체 비트 및 제 3 프레임 형태에 대한 프레임당 적응형 코드북(36)의 비트 사이의 차이는 잉여 부분을 나타낸다. 잉여 부분은 제 4 프레임 형태에 관련하여 제 3 프레임 형태에 대한 고정된 코드북(50)의 분석을 개선시키기 위해 사용될 수 있다. 한 예에서, 제 4 프레임 형태는 프레임 당 30 비트의 적응형 코드북(36) 분석을 가지며, 제 3 프레임 형태는 프레임 당 39비트의 적응형 코드북(36) 분석을 갖는다.
사실상, 인코더는 무선 인터페이스(64)를 인코더 사이트에서 디코더 사이트로 음성 신호를 통신하기 위해 고비율 코딩 방식 및 저비율 코딩 방식과 다른 하나 또는 그이상의 추가 코딩 방식을 사용할 수 있다. 예를 들면, 추가 코딩 방식은 1/4 비율 코딩 방식 및 1/8 비율 코딩 방식을 포함할 수 있다. 한 실시예에서, 추가의 코딩 방식은 적응형 코드북(36) 데이터 또는 고정된 코드북(50) 데이터를 사용하지 않는다. 대신에, 추가의 코딩 방식은 인코더로부터 디코더로 필터 계수 데이터 및 에너지 데이터만을 전송한다.
제 2 프레임 형태 대 제 1 프레임 형태의 선택 및 제 4 프레임 형태 대 제 3 프레임 형태의 선택은 검출기(24), 음성 특성 분류기(26), 또는 모두에 기반하여 결정된다. 만약, 검출기가 음성이 구간동안 일반적으로 고정된 유성이라면, 제 1 프레임 방식 및 제 3 프레임 방식을 코딩을 위해 사용가능하다. 실제로, 제 1 프레임 형태 및 제 3 프레임 형태는 음성 신호의 품질 모드 선택 및 내용에 기초하여코딩하기위해 선택될 수 있다. 품질 모드는 무선 서비스의 서비스 제공자에 의해 결정된 음성 품질이 레벨을 나타낼 수 있다.
본 발명의 한 성향에 따라, 입력 음성 신호를 인코딩 하기 위한 음성 인코딩 시스템은 입력 음성 신호의 트리거 특성의 검출에 따라 적응형 코드북 인덱스 및 고정된 코드북 인덱스 사이의 르레임의 저장 유니트를 할당한다. 저장 유니트의 서로 다른 할당은 재생된 음성의 증진된 지각력있는 품질을 용이하게 하는 반면에, 무선 시스템의 무선 인터페이스의 사용가능한 대역폭을 보존한다.
본 발명을 설명하는 추가의 기술적 사항은 1998년 9월 18일에 특허된 "연속적인 왜곡를 사용하는 피치 전처리를 적당히 적용시키는 음성 인코더"라는 명칭의 계류 중인 미국 출원 번호 09/154,660에서 설명되며, 여기에서 참조로서 통합된다.
상기 바람직한 실시예에 대한 설명은 당업자가 본 발명을 구현하고 이용하기에 용이하도록 하기 위하여 제공되며 이들 실시예에 대한 여러 가지 변형은 당 업자에세 자명하며, 여기서 한정된 포괄적인 원리는 본 발명의 사용 없이도 다른 실시예에 적용될 수 있다. 따라서, 본 발명은 설명된 실시예에 한정되는 것이 아니며, 여기에 개시된 원리 및 신규한 특징에 나타낸 가장 넓은 범위에 따른다.

Claims (20)

  1. 음성 인코딩 시스템에 있어서,
    입력 음성 신호가 간격동안 일반적으로 트리거 특성을 갖는지를 검출하기 위한 검출기;
    간격에 관련된 프레임동안 음성 신호에 적합한 제 1 인코딩 방식 및 제 1 인코딩 방식중 적어도 하나를 지원하기 위한 인코더를 포함하며, 상기 제 1 인코딩 방식은 일반적으로 이상적인 유성이며 고정된 특성으로 바이어싱된 변경 음성 신호를 형성하도록 입력된 음성 신호를 처리하기 위한 전처리 단계를 포함하며; 그리고
    입력 음성 신호의 간격에서 트리거 특성의 검출 또는 부재에 기초하여 상기 제 1 인코딩 방식 및 상기 제 2 인코딩 방식중 하나를 선택하기 위한 선택기를 포함하는 시스템.
  2. 제 1항에 있어서, 상기 트리거 특성은 음성 신호의 일반적으로 유성이고 일반적으로 고정된 음성 요소를 포함하는 것을 특징으로 하는 음성 인코딩 시스템.
  3. 제 1항에 있어서, 상기 선택기는 만약 상기 검출기가 음성 신호가 프레임동안 일반적으로 고정되며 일반적으로 주기적인지를 검출하면 상기 제 1 인코딩 방식을 선택하는 것을 특징으로 하는 음성 인코딩 시스템.
  4. 제 1 항에 있어서, 상기 선택기는 만약 상기 검출기가 음성 신호가 프레임 동안 일반적으로 고정되지 않음을 검출하면 상기 제 2 인코딩 방식을 선택하는 음성 인코딩 시스템.
  5. 제 1항에 있어서,
    입력 음성 신호를 필터링 하기 위한 지각형 가중 필터; 및
    상기 지각형 가중 필터의 출력에 접속된 입력을 가지며, 가중된 음성 신호의 시간 왜곡을 위해 타겟 신호를 검출하는 피치 전처리 모듈을 더 포함하는 것을 특징으로 하는 음성 인코딩 시스템.
  6. 제 1항에 있어서, 음성 신호의 다중 프레임에 기초하여 입력 피치 트랙을 검출하고 상기 입력 피치 트랙을 추적하기 위한 샘플에 관련된 피치 랙에서의 변동을 변경시키는 피치 전처리 모듈을 더 포함하는 것을 특징으로 하는 음성 인코딩 시스템.
  7. 제 1 항에 있어서, 상기 제 1 인코딩 방식은 고정된 코드북 인덱스 및 적응형 코드북 인덱스 사이의 프레임당 저장 유니트의 제 1 할당을 포함하고, 상기 제 2 인코딩 방식은 고정된 코드북 인덱스 및 적응형 코드북 인덱스 사이의 프레임당 저장 유니트의 제 2 할당을 포함하며, 상기 제 1 할당은 상기 제 2 할당과 다른 것을 특징으로 하는 음성 인코딩 시스템.
  8. 제 7항에 있어서, 프레임당 저장 유니트의 상기 제 2 할당은 서브프레임별 기준으로 긴주기 예측 코딩을 용이하게 하기 위해 저장 유니트의 상기 제 1 할당보다 더 많은 수의 저장 유니트를 적응형 코드북 인덱스에 할당하는 것을 특징으로 하는 음성 인코딩 시스템.
  9. 제 7항에 있어서, 프레임당 저장 유니트의 상기 제 1 할당은 고정된 코드북 인덱스에 관련된 양자화 에러를 감소시키기 위해 상기 제 2 할당이 할당하는 것 보다 더 많은 수의 고정된 코드북 인덱스에 할당하는 것을 특징으로 하는 음성 인코딩 시스템.
  10. 제 7항에 있어서, 상기 제 2 인코딩 방식은 상기 제 1 인코딩 방식보다 더 높은 할당비를 가지며, 상기 할당비는 적응형 코드북 인덱스와 고정된 코드북 인덱스를 합한 것에 할당된 저장 유니트의 갯수에 의해 나뉘어진 적응형 코드북에 할당된 저장 유니트의 갯수에 의해 정의되는 것을 특징으로 하는 음성 인코딩 시스템.
  11. 제 7항에 있어서, 완전 비율 코딩을 위해 상기 제 1 인코딩 방식은 제 1 프레임 형태를 지원하며, 상기 제 2 인코딩 방식은 상기 제 1 프레임 형태와 다른 제 2 프레임 형태를 지원하는 것을 특징으로 하는 음성 인코딩 시스템.
  12. 제 7항에 있어서, 고비율 코딩을 위해 상기 제 1 인코딩 방식은 제 1 프레임 형태를 지원하고, 상기 제 2 인코딩 방식은 제 2 프레임 형태를 지원하며, 저비율 코딩을 위해 상기 인코더는 제 3 프레임 형태 및 제 4 프레임 형태를 지원하는 것을 특징으로 하는 음성 인코딩 시스템.
  13. 음성 인코딩 시스템에 있어서,
    입력 음성 신호가 간격동안 일반적으로 유성이고 일반적으로 고정된 특성을 갖는지를 검출하기 위한 검출기;
    상기 간격에 관련된 프레임동안 음성 신호에 적합한 제 1 인코딩 방식 및 제 2 인코딩 방식중 적어도 하나를 지원하기 위한 인코더를 포함하며, 상기 제 2 인코딩 방식은 서브-프레임별 기준으로 입력된 음성 신호를 처리하기 위한 긴주기의 예측 절차를 포함하며; 그리고
    입력 음성 신호의 상기 간격에서 일반적으로 유성이고 일반적으로 고정된 특성의 상기 검출 또는 부재에 기초하여 상기 제 1 인코딩 방식 및 상기 제 2 인코딩 방식중 하나를 선택하기 위한 선택기를 포함하는 시스템.
  14. 제 13항에 있어서, 상기 선택기는 만약 상기 검출기가 음성 신호가 프레임동안 일반적으로 간격적이지 않은지를 검출하면 제 2 인코딩 방식을 선택하는 것을 특징으로 하는 음성 인코딩 시스템.
  15. 제 13 항에 있어서, 상기 선택기는 만약 상기 검출기가 음성 신호가 프레임 동안 일반적으로 고정되지 않음을 검출하면 제 2 인코딩 방식을 선택하는 것을 특징으로 하는 음성 인코딩 시스템.
  16. 제 13항에 있어서, 상기 제 2 인코딩 방식은 피치 트랙을 나타내기 위해 상기 제 1 인코딩 방식보다 더 많은 프레임당 비트수를 가지는 피치 트랙을 포함하는 것을 특징으로 하는 음성 인코딩 시스템.
  17. 음성 인코딩 방법에 있어서,
    입력 음성 신호가 간격동안 트리거 특성을 갖는지를 검출하는 단계;
    트리거 특성의 상기 검출에 기초하여 상기 간격에 관련된 프레임동안 입력 음성 신호에 적합한 제 1 인코딩 방식 및 제 2 인코딩 방식중 적어도 하나를 선택하는 단계; 그리고
    만약 상기 트리거 특성이 입력 음성 신호에서 검출되었다면 일반적으로 이상적인 유성이며 고정된 특성으로 바이어싱된 변경 음성 신호를 형성하기 위해 상기 제 1 인코딩 방식에 따라 입력된 음성 신호를 처리하는 단계를 포함하는 음성 인코딩 방법.
  18. 제 17항에 있어서, 상기 검출 단계는 입력 음성 신호가 상기 간격동안 트리거 특성으로써 일반적으로 유성이며 일반적으로 고정된 요소인지 아닌지를 검출하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  19. 제 17 항에 있어서, 고정된 코드북 인덱스 및 적응형 코드북 인덱스 사이의 프레임당 저장 유니트의 제 1 할당을 포함하는 상기 제 1 인코딩 방식, 및 고정된 코드북 인덱스 및 적응형 코드북 인덱스 사이의 프레임당 저장 유니트의 제 2 할당을 포함하는 상기 제 2 인코딩 방식을 지원하는 단계를 더 포함하며, 상기 제 2 할당은 상기 제 1 할당과 다른 것을 특징으로 하는 음성 인코딩 방법.
  20. 제 17항에 있어서, 트리거 특성이 상기 간격 동안 검출되지 않으면 상기 제 2 인코딩 방식의 긴주기 예측 절차에 따라 서브-프레임별 기준으로 입력된 음성 신호를 처리하는 단계를 더 포함하는 것을 특징으로 하는 음성 인코딩 방법.
KR10-2003-7003771A 2000-09-15 2001-09-17 적응형 인코딩 장치를 포함하는 음성 인코딩을 위한 시스템 KR20030046452A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/663,002 2000-09-15
US09/663,002 US7072832B1 (en) 1998-08-24 2000-09-15 System for speech encoding having an adaptive encoding arrangement
PCT/IB2001/001732 WO2002023535A1 (en) 2000-09-15 2001-09-17 Multimode speech coder

Publications (1)

Publication Number Publication Date
KR20030046452A true KR20030046452A (ko) 2003-06-12

Family

ID=24660098

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2003-7003771A KR20030046452A (ko) 2000-09-15 2001-09-17 적응형 인코딩 장치를 포함하는 음성 인코딩을 위한 시스템

Country Status (6)

Country Link
US (12) US7072832B1 (ko)
EP (1) EP1328924A1 (ko)
KR (1) KR20030046452A (ko)
CN (1) CN1185624C (ko)
AU (1) AU2001287972A1 (ko)
WO (1) WO2002023535A1 (ko)

Families Citing this family (125)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
CA2365203A1 (en) * 2001-12-14 2003-06-14 Voiceage Corporation A signal modification method for efficient coding of speech signals
EP1383113A1 (fr) * 2002-07-17 2004-01-21 STMicroelectronics N.V. Procédé et dispositif d'encodage de la parole à bande élargie capable de contrôler indépendamment les distorsions à court terme et à long terme
FR2850781B1 (fr) * 2003-01-30 2005-05-06 Jean Luc Crebouw Procede pour le traitement numerique differencie de la voix et de la musique, le filtrage du bruit, la creation d'effets speciaux et dispositif pour la mise en oeuvre dudit procede
US20040167772A1 (en) * 2003-02-26 2004-08-26 Engin Erzin Speech coding and decoding in a voice communication system
US7044245B2 (en) * 2003-06-17 2006-05-16 Science Applications International Corporation Toroidal propulsion and steering system
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
US8725501B2 (en) * 2004-07-20 2014-05-13 Panasonic Corporation Audio decoding device and compensation frame generation method
CA2869452C (en) 2004-10-12 2016-01-19 Tq Delta, Llc Resource sharing in a telecommunications environment
US7598447B2 (en) * 2004-10-29 2009-10-06 Zenph Studios, Inc. Methods, systems and computer program products for detecting musical notes in an audio signal
US8093484B2 (en) * 2004-10-29 2012-01-10 Zenph Sound Innovations, Inc. Methods, systems and computer program products for regenerating audio performances
KR20070085982A (ko) * 2004-12-10 2007-08-27 마츠시타 덴끼 산교 가부시키가이샤 광대역 부호화 장치, 광대역 lsp 예측 장치, 대역스케일러블 부호화 장치 및 광대역 부호화 방법
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US9058812B2 (en) * 2005-07-27 2015-06-16 Google Technology Holdings LLC Method and system for coding an information signal using pitch delay contour adjustment
JPWO2007043643A1 (ja) * 2005-10-14 2009-04-16 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化方法、及び音声復号化方法
US8386245B2 (en) * 2006-03-20 2013-02-26 Mindspeed Technologies, Inc. Open-loop pitch track smoothing
KR100735343B1 (ko) * 2006-04-11 2007-07-04 삼성전자주식회사 음성신호의 피치 정보 추출장치 및 방법
US8335956B2 (en) 2006-04-12 2012-12-18 Tq Delta, Llc Packet retransmission and memory sharing
US8032370B2 (en) 2006-05-09 2011-10-04 Nokia Corporation Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes
US8712766B2 (en) * 2006-05-16 2014-04-29 Motorola Mobility Llc Method and system for coding an information signal using closed loop adaptive bit allocation
ATE533289T1 (de) * 2006-05-26 2011-11-15 Incard Sa Verfahren zum implementieren von voice over ip mittels eines mit einem paketorientierten netz verbundenen elektronischen geräts
US8725499B2 (en) * 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
MY152845A (en) * 2006-10-24 2014-11-28 Voiceage Corp Method and device for coding transition frames in speech signals
US7521622B1 (en) * 2007-02-16 2009-04-21 Hewlett-Packard Development Company, L.P. Noise-resistant detection of harmonic segments of audio signals
JP5596341B2 (ja) * 2007-03-02 2014-09-24 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声符号化装置および音声符号化方法
JP4882899B2 (ja) * 2007-07-25 2012-02-22 ソニー株式会社 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
KR101403340B1 (ko) * 2007-08-02 2014-06-09 삼성전자주식회사 변환 부호화 방법 및 장치
JPWO2009090875A1 (ja) * 2008-01-16 2011-05-26 パナソニック株式会社 ベクトル量子化装置、ベクトル逆量子化装置、およびこれらの方法
EP2107556A1 (en) * 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
US9378751B2 (en) * 2008-06-19 2016-06-28 Broadcom Corporation Method and system for digital gain processing in a hardware audio CODEC for audio transmission
US8909361B2 (en) * 2008-06-19 2014-12-09 Broadcom Corporation Method and system for processing high quality audio in a hardware audio codec for audio transmission
WO2010003068A1 (en) * 2008-07-03 2010-01-07 The Board Of Trustees Of The University Of Illinois Systems and methods for identifying speech sound features
CA2729752C (en) * 2008-07-10 2018-06-05 Voiceage Corporation Multi-reference lpc filter quantization and inverse quantization device and method
AU2009267518B2 (en) * 2008-07-11 2012-08-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
US20100057473A1 (en) * 2008-08-26 2010-03-04 Hongwei Kong Method and system for dual voice path processing in an audio codec
US20100057475A1 (en) * 2008-08-26 2010-03-04 Nelson Sollenberger Method and system for digital gain control in an audio codec
US8706479B2 (en) * 2008-11-14 2014-04-22 Broadcom Corporation Packet loss concealment for sub-band codecs
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
KR101797033B1 (ko) * 2008-12-05 2017-11-14 삼성전자주식회사 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법
CN101615395B (zh) * 2008-12-31 2011-01-12 华为技术有限公司 信号编码、解码方法及装置、系统
GB2466671B (en) * 2009-01-06 2013-03-27 Skype Speech encoding
GB2466670B (en) * 2009-01-06 2012-11-14 Skype Speech encoding
GB2466669B (en) * 2009-01-06 2013-03-06 Skype Speech coding
GB2466675B (en) 2009-01-06 2013-03-06 Skype Speech coding
GB2466674B (en) 2009-01-06 2013-11-13 Skype Speech coding
GB2466673B (en) 2009-01-06 2012-11-07 Skype Quantization
GB2466672B (en) * 2009-01-06 2013-03-13 Skype Speech coding
CN101615910B (zh) 2009-05-31 2010-12-22 华为技术有限公司 压缩编码的方法、装置和设备以及压缩解码方法
CN101931414B (zh) * 2009-06-19 2013-04-24 华为技术有限公司 脉冲编码方法及装置、脉冲解码方法及装置
WO2010146711A1 (ja) * 2009-06-19 2010-12-23 富士通株式会社 音声信号処理装置及び音声信号処理方法
US8452606B2 (en) * 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
EP4276823B1 (en) 2009-10-21 2024-07-17 Dolby International AB Oversampling in a combined transposer filter bank
KR101789632B1 (ko) * 2009-12-10 2017-10-25 엘지전자 주식회사 음성 신호 부호화 방법 및 장치
CN101789240B (zh) * 2009-12-25 2012-04-25 华为技术有限公司 语音信号处理方法和装置以及通信系统
EP2559028B1 (en) * 2010-04-14 2015-09-16 VoiceAge Corporation Flexible and scalable combined innovation codebook for use in celp coder and decoder
US8958510B1 (en) * 2010-06-10 2015-02-17 Fredric J. Harris Selectable bandwidth filter
FR2961937A1 (fr) * 2010-06-29 2011-12-30 France Telecom Codage/decodage predictif lineaire adaptatif
CN102340741B (zh) * 2010-07-20 2014-02-19 华为技术有限公司 数据调制、解调方法及频谱管理方法、装置和系统
CN102385858B (zh) * 2010-08-31 2013-06-05 国际商业机器公司 情感语音合成方法和系统
US8924200B2 (en) * 2010-10-15 2014-12-30 Motorola Mobility Llc Audio signal bandwidth extension in CELP-based speech coder
WO2012109734A1 (en) * 2011-02-15 2012-08-23 Voiceage Corporation Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a celp codec
US9626982B2 (en) 2011-02-15 2017-04-18 Voiceage Corporation Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec
WO2012153165A1 (en) * 2011-05-06 2012-11-15 Nokia Corporation A pitch estimator
NO2669468T3 (ko) * 2011-05-11 2018-06-02
JP6147744B2 (ja) * 2011-07-29 2017-06-14 ディーティーエス・エルエルシーDts Llc 適応音声了解度処理システムおよび方法
JP2013076871A (ja) * 2011-09-30 2013-04-25 Oki Electric Ind Co Ltd 音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システム
US9583108B2 (en) * 2011-12-08 2017-02-28 Forrest S. Baker III Trust Voice detection for automated communication system
CN104115220B (zh) 2011-12-21 2017-06-06 华为技术有限公司 非常短的基音周期检测和编码
EP2798631B1 (en) * 2011-12-21 2016-03-23 Huawei Technologies Co., Ltd. Adaptively encoding pitch lag for voiced speech
US9111531B2 (en) * 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
US9972325B2 (en) * 2012-02-17 2018-05-15 Huawei Technologies Co., Ltd. System and method for mixed codebook excitation for speech coding
US9064497B2 (en) * 2012-02-22 2015-06-23 Htc Corporation Method and apparatus for audio intelligibility enhancement and computing apparatus
US8949118B2 (en) * 2012-03-19 2015-02-03 Vocalzoom Systems Ltd. System and method for robust estimation and tracking the fundamental frequency of pseudo periodic signals in the presence of noise
US9263053B2 (en) * 2012-04-04 2016-02-16 Google Technology Holdings LLC Method and apparatus for generating a candidate code-vector to code an informational signal
US9070356B2 (en) * 2012-04-04 2015-06-30 Google Technology Holdings LLC Method and apparatus for generating a candidate code-vector to code an informational signal
CN109147827B (zh) * 2012-05-23 2023-02-17 日本电信电话株式会社 编码方法、编码装置以及记录介质
WO2014039028A1 (en) * 2012-09-04 2014-03-13 Nuance Communications, Inc. Formant dependent speech signal enhancement
US10199043B2 (en) * 2012-09-07 2019-02-05 Dts, Inc. Scalable code excited linear prediction bitstream repacked from a higher to a lower bitrate by discarding insignificant frame data
PL2922053T3 (pl) 2012-11-15 2019-11-29 Ntt Docomo Inc Urządzenie do kodowania audio, sposób kodowania audio, program do kodowania audio, urządzenie do dekodowania audio, sposób dekodowania audio, i program do dekodowania audio
JP2014123011A (ja) * 2012-12-21 2014-07-03 Sony Corp 雑音検出装置および方法、並びに、プログラム
KR101433712B1 (ko) * 2013-03-07 2014-08-27 순환엔지니어링 주식회사 리니어 모션 스테이지의 제어 장치
JP6305694B2 (ja) * 2013-05-31 2018-04-04 クラリオン株式会社 信号処理装置及び信号処理方法
MX371425B (es) 2013-06-21 2020-01-29 Fraunhofer Ges Forschung Aparato y metodo para la ocultacion mejorada del libro de codigo adaptativo en la ocultacion similar a acelp mediante la utilizacion de una estimacion mejorada del retardo de tono.
TR201808890T4 (tr) 2013-06-21 2018-07-23 Fraunhofer Ges Forschung Bir konuşma çerçevesinin yeniden yapılandırılması.
FR3008533A1 (fr) 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
CN107818789B (zh) 2013-07-16 2020-11-17 华为技术有限公司 解码方法和解码装置
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
CN104517611B (zh) * 2013-09-26 2016-05-25 华为技术有限公司 一种高频激励信号预测方法及装置
US20150100318A1 (en) * 2013-10-04 2015-04-09 Qualcomm Incorporated Systems and methods for mitigating speech signal quality degradation
WO2015092483A1 (en) * 2013-12-17 2015-06-25 Nokia Technologies Oy Audio signal encoder
EP2922054A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
EP2922056A1 (en) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
EP2922055A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
JP6542796B2 (ja) 2014-03-28 2019-07-10 サムスン エレクトロニクス カンパニー リミテッド 線形予測係数量子化方法及びその装置、並びに線形予測係数逆量子化方法及びその装置
CN107077857B (zh) 2014-05-07 2021-03-09 三星电子株式会社 对线性预测系数量化的方法和装置及解量化的方法和装置
US10255903B2 (en) * 2014-05-28 2019-04-09 Interactive Intelligence Group, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
US10014007B2 (en) * 2014-05-28 2018-07-03 Interactive Intelligence, Inc. Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
US9378755B2 (en) 2014-05-30 2016-06-28 Apple Inc. Detecting a user's voice activity using dynamic probabilistic models of speech features
CN105225670B (zh) * 2014-06-27 2016-12-28 华为技术有限公司 一种音频编码方法和装置
EP2980799A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal using a harmonic post-filter
EP2980796A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
EP3057097B1 (en) * 2015-02-11 2017-09-27 Nxp B.V. Time zero convergence single microphone noise reduction
EP3800639B1 (en) 2015-03-27 2022-12-28 Dolby Laboratories Licensing Corporation Adaptive audio filtering
US10403269B2 (en) 2015-03-27 2019-09-03 Google Llc Processing audio waveforms
US10013883B2 (en) 2015-06-22 2018-07-03 Digital Ally, Inc. Tracking and analysis of drivers within a fleet of vehicles
US10229700B2 (en) 2015-09-24 2019-03-12 Google Llc Voice activity detection
US10339921B2 (en) 2015-09-24 2019-07-02 Google Llc Multichannel raw-waveform neural networks
US10283143B2 (en) * 2016-04-08 2019-05-07 Friday Harbor Llc Estimating pitch of harmonic signals
US10224058B2 (en) 2016-09-07 2019-03-05 Google Llc Enhanced multi-channel acoustic models
EP3306609A1 (en) * 2016-10-04 2018-04-11 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for determining a pitch information
US10140980B2 (en) 2016-12-21 2018-11-27 Google LCC Complex linear projection for acoustic modeling
US10529320B2 (en) 2016-12-21 2020-01-07 Google Llc Complex evolution recurrent neural networks
JP2018159759A (ja) 2017-03-22 2018-10-11 株式会社東芝 音声処理装置、音声処理方法およびプログラム
JP6646001B2 (ja) * 2017-03-22 2020-02-14 株式会社東芝 音声処理装置、音声処理方法およびプログラム
US11276411B2 (en) * 2017-09-20 2022-03-15 Voiceage Corporation Method and device for allocating a bit-budget between sub-frames in a CELP CODEC
CN111630594B (zh) * 2017-12-01 2023-08-01 日本电信电话株式会社 基音增强装置、其方法以及记录介质
JP6962269B2 (ja) * 2018-05-10 2021-11-05 日本電信電話株式会社 ピッチ強調装置、その方法、およびプログラム
US10847172B2 (en) * 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder
KR102664768B1 (ko) * 2019-01-13 2024-05-17 후아웨이 테크놀러지 컴퍼니 리미티드 고해상도 오디오 코딩
JP7128420B2 (ja) * 2019-02-28 2022-08-31 日本電信電話株式会社 信号処理方法、信号処理装置及び通信システム
CN112181248B (zh) * 2020-09-25 2022-04-12 广州南方卫星导航仪器有限公司 一种历史列表的操作方法和装置
CN115868940B (zh) * 2023-02-27 2023-05-26 安徽通灵仿生科技有限公司 一种基于iabp的生理信号质量评估方法及装置

Family Cites Families (170)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58140798A (ja) 1982-02-15 1983-08-20 株式会社日立製作所 音声ピツチ抽出方法
US4720861A (en) * 1985-12-24 1988-01-19 Itt Defense Communications A Division Of Itt Corporation Digital speech coding circuit
US4969192A (en) 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
EP0364647B1 (en) * 1988-10-19 1995-02-22 International Business Machines Corporation Improvement to vector quantizing coder
JPH0817278B2 (ja) 1988-10-26 1996-02-21 北川工業株式会社 電磁波シールド用ガスケット
JPH0782360B2 (ja) 1989-10-02 1995-09-06 日本電信電話株式会社 音声分析合成方法
US5060269A (en) * 1989-05-18 1991-10-22 General Electric Company Hybrid switched multi-pulse/stochastic speech coding technique
JPH0332228A (ja) * 1989-06-29 1991-02-12 Fujitsu Ltd ゲイン―シェイプ・ベクトル量子化方式
GB2235354A (en) * 1989-08-16 1991-02-27 Philips Electronic Associated Speech coding/encoding using celp
US5097508A (en) * 1989-08-31 1992-03-17 Codex Corporation Digital speech coder having improved long term lag parameter determination
IL95753A (en) * 1989-10-17 1994-11-11 Motorola Inc Digits a digital speech
US4980916A (en) 1989-10-26 1990-12-25 General Electric Company Method for improving speech quality in code excited linear predictive speech coding
GB9013411D0 (en) * 1990-06-15 1990-08-08 Nat Power Plc Improvements in or relating to glass ph electrodes
JPH0451200A (ja) 1990-06-18 1992-02-19 Fujitsu Ltd 音声符号化方式
JPH0451199A (ja) 1990-06-18 1992-02-19 Fujitsu Ltd 音声符号化・復号化方式
US5235669A (en) * 1990-06-29 1993-08-10 At&T Laboratories Low-delay code-excited linear-predictive coding of wideband speech at 32 kbits/sec
CA2051304C (en) * 1990-09-18 1996-03-05 Tomohiko Taniguchi Speech coding and decoding system
US5138661A (en) * 1990-11-13 1992-08-11 General Electric Company Linear predictive codeword excited speech synthesizer
US5293449A (en) * 1990-11-23 1994-03-08 Comsat Corporation Analysis-by-synthesis 2,4 kbps linear predictive speech codec
US5537509A (en) * 1990-12-06 1996-07-16 Hughes Electronics Comfort noise generation for digital communication systems
US5187591A (en) 1991-01-24 1993-02-16 Micom Communications Corp. System for transmitting and receiving aural information and modulated data
JPH04264597A (ja) 1991-02-20 1992-09-21 Fujitsu Ltd 音声符号化装置および音声復号装置
US5265190A (en) * 1991-05-31 1993-11-23 Motorola, Inc. CELP vocoder with efficient adaptive codebook search
BR9206143A (pt) * 1991-06-11 1995-01-03 Qualcomm Inc Processos de compressão de final vocal e para codificação de taxa variável de quadros de entrada, aparelho para comprimir im sinal acústico em dados de taxa variável, codificador de prognóstico exitado por córdigo de taxa variável (CELP) e descodificador para descodificar quadros codificados
DE4127490A1 (de) * 1991-08-20 1993-02-25 Fritz Stahlecker Ringspinnmaschine
US5657418A (en) * 1991-09-05 1997-08-12 Motorola, Inc. Provision of speech coder gain information using multiple coding modes
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
SE469764B (sv) * 1992-01-27 1993-09-06 Ericsson Telefon Ab L M Saett att koda en samplad talsignalvektor
AU3457093A (en) 1992-01-31 1993-09-01 Gilad Copitch Information compaction system
US5339384A (en) * 1992-02-18 1994-08-16 At&T Bell Laboratories Code-excited linear predictive coding with low delay for speech or audio signals
US5765127A (en) 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
US5239557A (en) 1992-04-10 1993-08-24 Ericsson/Ge Mobile Communications Discountinuous CDMA reception
JPH075898A (ja) 1992-04-28 1995-01-10 Technol Res Assoc Of Medical & Welfare Apparatus 音声信号処理装置と破裂性抽出装置
US5630016A (en) * 1992-05-28 1997-05-13 Hughes Electronics Comfort noise generation for digital communication systems
US5734789A (en) 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
US5495555A (en) 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
US5327520A (en) * 1992-06-04 1994-07-05 At&T Bell Laboratories Method of use of voice message coder/decoder
US5313554A (en) * 1992-06-16 1994-05-17 At&T Bell Laboratories Backward gain adaptation method in code excited linear prediction coders
US5717824A (en) * 1992-08-07 1998-02-10 Pacific Communication Sciences, Inc. Adaptive speech coder having code excited linear predictor with multiple codebook searches
CA2108623A1 (en) * 1992-11-02 1994-05-03 Yi-Sheng Wang Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop
WO1994011955A1 (en) * 1992-11-06 1994-05-26 Pericle Communications Company Adaptive data rate modem
JPH06186998A (ja) * 1992-12-15 1994-07-08 Nec Corp 音声符号化装置のコードブック探索方式
US5854845A (en) 1992-12-31 1998-12-29 Intervoice Limited Partnership Method and circuit for voice automatic gain control
US5382949A (en) * 1993-02-01 1995-01-17 Motorola, Inc. Method for increasing battery life for selective call receivers
US5367516A (en) * 1993-03-17 1994-11-22 Miller William J Method and apparatus for signal transmission and reception
US5995539A (en) 1993-03-17 1999-11-30 Miller; William J. Method and apparatus for signal transmission and reception
US5491771A (en) * 1993-03-26 1996-02-13 Hughes Aircraft Company Real-time implementation of a 8Kbps CELP coder on a DSP pair
US5526464A (en) * 1993-04-29 1996-06-11 Northern Telecom Limited Reducing search complexity for code-excited linear prediction (CELP) coding
IT1270438B (it) * 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce
EP0654909A4 (en) * 1993-06-10 1997-09-10 Oki Electric Ind Co Ltd PREDICTIVE LINEAR ENCODER-ENCODER WITH CODES EXCITATION.
CA2124713C (en) * 1993-06-18 1998-09-22 Willem Bastiaan Kleijn Long term predictor
US5621852A (en) 1993-12-14 1997-04-15 Interdigital Technology Corporation Efficient codebook structure for code excited linear prediction coding
CA2136891A1 (en) * 1993-12-20 1995-06-21 Kalyan Ganesan Removal of swirl artifacts from celp based speech coders
US5517595A (en) * 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
US5574825A (en) * 1994-03-14 1996-11-12 Lucent Technologies Inc. Linear prediction coefficient generation during frame erasure or packet loss
US5615298A (en) * 1994-03-14 1997-03-25 Lucent Technologies Inc. Excitation signal synthesis during frame erasure or packet loss
JP3090842B2 (ja) 1994-04-28 2000-09-25 沖電気工業株式会社 ビタビ復号法に適応した送信装置
TW271524B (ko) * 1994-08-05 1996-03-01 Qualcomm Inc
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
JP2964879B2 (ja) * 1994-08-22 1999-10-18 日本電気株式会社 ポストフィルタ
US5602913A (en) * 1994-09-22 1997-02-11 Hughes Electronics Robust double-talk detection
DE69526017T2 (de) * 1994-09-30 2002-11-21 Kabushiki Kaisha Toshiba, Kawasaki Vorrichtung zur Vektorquantisierung
JP2638522B2 (ja) 1994-11-01 1997-08-06 日本電気株式会社 音声符号化装置
US5699477A (en) * 1994-11-09 1997-12-16 Texas Instruments Incorporated Mixed excitation linear prediction with fractional pitch
JP3328080B2 (ja) * 1994-11-22 2002-09-24 沖電気工業株式会社 コード励振線形予測復号器
US5751903A (en) * 1994-12-19 1998-05-12 Hughes Electronics Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
US5774846A (en) 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
JPH08179795A (ja) 1994-12-27 1996-07-12 Nec Corp 音声のピッチラグ符号化方法および装置
SE9500858L (sv) 1995-03-10 1996-09-11 Ericsson Telefon Ab L M Anordning och förfarande vid talöverföring och ett telekommunikationssystem omfattande dylik anordning
JP3235703B2 (ja) 1995-03-10 2001-12-04 日本電信電話株式会社 ディジタルフィルタのフィルタ係数決定方法
JPH08263099A (ja) * 1995-03-23 1996-10-11 Toshiba Corp 符号化装置
JPH08292797A (ja) 1995-04-20 1996-11-05 Nec Corp 音声符号化装置
SE504397C2 (sv) * 1995-05-03 1997-01-27 Ericsson Telefon Ab L M Metod för förstärkningskvantisering vid linjärprediktiv talkodning med kodboksexcitering
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
US5732389A (en) 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
US5664055A (en) * 1995-06-07 1997-09-02 Lucent Technologies Inc. CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity
GB9512284D0 (en) * 1995-06-16 1995-08-16 Nokia Mobile Phones Ltd Speech Synthesiser
US5891118A (en) * 1995-09-05 1999-04-06 Kao Corporation Absorbent article
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US6064962A (en) * 1995-09-14 2000-05-16 Kabushiki Kaisha Toshiba Formant emphasis method and formant emphasis filter device
US5864798A (en) * 1995-09-18 1999-01-26 Kabushiki Kaisha Toshiba Method and apparatus for adjusting a spectrum shape of a speech signal
US5704003A (en) 1995-09-19 1997-12-30 Lucent Technologies Inc. RCELP coder
FR2739995B1 (fr) 1995-10-13 1997-12-12 Massaloux Dominique Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole
JP3707116B2 (ja) 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
US5867814A (en) * 1995-11-17 1999-02-02 National Semiconductor Corporation Speech coder that utilizes correlation maximization to achieve fast excitation coding, and associated coding method
US5692101A (en) 1995-11-20 1997-11-25 Motorola, Inc. Speech coding method and apparatus using mean squared error modifier for selected speech coder parameters using VSELP techniques
JPH09187077A (ja) 1996-01-08 1997-07-15 Fujitsu Ltd 簡易型携帯電話装置の移動局の制御方式
US5689615A (en) 1996-01-22 1997-11-18 Rockwell International Corporation Usage of voice activity detection for efficient coding of speech
JP3840684B2 (ja) * 1996-02-01 2006-11-01 ソニー株式会社 ピッチ抽出装置及びピッチ抽出方法
US5778335A (en) * 1996-02-26 1998-07-07 The Regents Of The University Of California Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
WO1997033402A1 (en) 1996-03-04 1997-09-12 Ericsson Inc. Digital communication system for adapting communications protocol based on a current communication channel condition
CA2199661C (en) * 1996-03-12 2001-08-14 Takehiro Nakamura Scheme for intermittent reception of paging signals in mobile communication system
US6819661B2 (en) 1996-03-15 2004-11-16 Ntt Docomo, Inc. Method and apparatus of a mobile communication system which reduces power consumption by observing only the starting slot on a TDMA radio channel
US5774836A (en) 1996-04-01 1998-06-30 Advanced Micro Devices, Inc. System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator
SE9601606D0 (sv) 1996-04-26 1996-04-26 Ericsson Telefon Ab L M Sätt vid radiotelekommunikationssystem
KR100389895B1 (ko) * 1996-05-25 2003-11-28 삼성전자주식회사 음성 부호화 및 복호화방법 및 그 장치
JP3364825B2 (ja) 1996-05-29 2003-01-08 三菱電機株式会社 音声符号化装置および音声符号化復号化装置
US5799271A (en) * 1996-06-24 1998-08-25 Electronics And Telecommunications Research Institute Method for reducing pitch search time for vocoder
JPH1020891A (ja) 1996-07-09 1998-01-23 Sony Corp 音声符号化方法及び装置
SE507370C2 (sv) 1996-09-13 1998-05-18 Ericsson Telefon Ab L M Metod och anordning för att alstra komfortbrus i linjärprediktiv talavkodare
JPH10116097A (ja) 1996-10-11 1998-05-06 Olympus Optical Co Ltd 音声再生装置
DE69712535T2 (de) * 1996-11-07 2002-08-29 Matsushita Electric Industrial Co., Ltd. Vorrichtung zur Erzeugung eines Vektorquantisierungs-Codebuchs
US6269331B1 (en) 1996-11-14 2001-07-31 Nokia Mobile Phones Limited Transmission of comfort noise parameters during discontinuous transmission
US5960389A (en) * 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
JP3575967B2 (ja) * 1996-12-02 2004-10-13 沖電気工業株式会社 音声通信システムおよび音声通信方法
US5914949A (en) 1996-12-17 1999-06-22 Lucent Technologies Inc. Circuit and method for tracking finger off-set in a spread-spectrum rake receiver and wireless infrastructure employing the same
US5978366A (en) 1996-12-20 1999-11-02 Ericsson Inc. Methods and systems for reduced power operation of cellular mobile terminals
US6148282A (en) 1997-01-02 2000-11-14 Texas Instruments Incorporated Multimodal code-excited linear prediction (CELP) coder and method using peakiness measure
US5903866A (en) * 1997-03-10 1999-05-11 Lucent Technologies Inc. Waveform interpolation speech coding using splines
US5924061A (en) * 1997-03-10 1999-07-13 Lucent Technologies Inc. Efficient decomposition in noise and periodic signal waveforms in waveform interpolation
US5893060A (en) 1997-04-07 1999-04-06 Universite De Sherbrooke Method and device for eradicating instability due to periodic signals in analysis-by-synthesis speech codecs
US5828672A (en) * 1997-04-30 1998-10-27 Telefonaktiebolaget Lm Ericsson (Publ) Estimation of radio channel bit error rate in a digital radio telecommunication network
FI113903B (fi) 1997-05-07 2004-06-30 Nokia Corp Puheen koodaus
US6111865A (en) * 1997-05-30 2000-08-29 Qualcomm Incorporated Dual channel slotted paging
JP3206497B2 (ja) * 1997-06-16 2001-09-10 日本電気株式会社 インデックスによる信号生成型適応符号帳
US6073092A (en) 1997-06-26 2000-06-06 Telogy Networks, Inc. Method for speech coding based on a code excited linear prediction (CELP) model
US5991600A (en) 1997-07-09 1999-11-23 Ericsson Inc. Integration of mobile station channel measurement with paging channel displacement operation in a wireless communications system
DE19729494C2 (de) * 1997-07-10 1999-11-04 Grundig Ag Verfahren und Anordnung zur Codierung und/oder Decodierung von Sprachsignalen, insbesondere für digitale Diktiergeräte
US6347081B1 (en) * 1997-08-25 2002-02-12 Telefonaktiebolaget L M Ericsson (Publ) Method for power reduced transmission of speech inactivity
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6167031A (en) 1997-08-29 2000-12-26 Telefonaktiebolaget Lm Ericsson (Publ) Method for selecting a combination of modulation and channel coding schemes in a digital communication system
US6058359A (en) * 1998-03-04 2000-05-02 Telefonaktiebolaget L M Ericsson Speech coding including soft adaptability feature
CN1134904C (zh) * 1997-09-10 2004-01-14 塞尔隆法国股份有限公司 通信系统和终端
AU9404098A (en) 1997-09-23 1999-04-12 Voxware, Inc. Scalable and embedded codec for speech and audio signals
US6044069A (en) * 1997-10-29 2000-03-28 Conexant Systems, Inc. Power management system for a mobile station
US6574211B2 (en) * 1997-11-03 2003-06-03 Qualcomm Incorporated Method and apparatus for high rate packet data transmission
GB2332598B (en) 1997-12-20 2002-12-04 Motorola Ltd Method and apparatus for discontinuous transmission
US6298139B1 (en) * 1997-12-31 2001-10-02 Transcrypt International, Inc. Apparatus and method for maintaining a constant speech envelope using variable coefficient automatic gain control
FI980132A (fi) * 1998-01-21 1999-07-22 Nokia Mobile Phones Ltd Adaptoituva jälkisuodatin
US6539205B1 (en) * 1998-03-23 2003-03-25 Skyworks Solutions, Inc. Traffic channel quality estimation from a digital control channel
US6470309B1 (en) 1998-05-08 2002-10-22 Texas Instruments Incorporated Subframe-based correlation
US6098037A (en) * 1998-05-19 2000-08-01 Texas Instruments Incorporated Formant weighted vector quantization of LPC excitation harmonic spectral amplitudes
US6115689A (en) * 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
JP3541680B2 (ja) * 1998-06-15 2004-07-14 日本電気株式会社 音声音楽信号の符号化装置および復号装置
US6249758B1 (en) * 1998-06-30 2001-06-19 Nortel Networks Limited Apparatus and method for coding speech signals by making use of voice/unvoiced characteristics of the speech signals
US6014618A (en) * 1998-08-06 2000-01-11 Dsp Software Engineering, Inc. LPAS speech coder using vector quantized, multi-codebook, multi-tap pitch predictor and optimized ternary source excitation codebook derivation
JP4308345B2 (ja) 1998-08-21 2009-08-05 パナソニック株式会社 マルチモード音声符号化装置及び復号化装置
US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
US6240386B1 (en) 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6385573B1 (en) * 1998-08-24 2002-05-07 Conexant Systems, Inc. Adaptive tilt compensation for synthesized speech residual
US6330533B2 (en) * 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6507814B1 (en) * 1998-08-24 2003-01-14 Conexant Systems, Inc. Pitch determination using speech classification and prior pitch estimation
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6260010B1 (en) * 1998-08-24 2001-07-10 Conexant Systems, Inc. Speech encoder using gain normalization that combines open and closed loop gains
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
US6188980B1 (en) * 1998-08-24 2001-02-13 Conexant Systems, Inc. Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients
US6823303B1 (en) * 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
US6173257B1 (en) * 1998-08-24 2001-01-09 Conexant Systems, Inc Completed fixed codebook for speech encoder
FI105635B (fi) 1998-09-01 2000-09-15 Nokia Mobile Phones Ltd Menetelmä taustakohinainformaation lähettämiseksi tietokehysmuotoisessa tiedonsiirrossa
FI106906B (fi) * 1998-09-09 2001-04-30 Nokia Networks Oy Lähetysmenetelmä ja radiojärjestelmä
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6424938B1 (en) * 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
DE69940649D1 (de) * 1998-11-24 2009-05-07 Ericsson Telefon Ab L M Effiziente Inband-Signalisierung für diskontinuierliche Übertragung und Konfigurationsänderungen in Kommunikationssystemen mit adaptiver Mehrfachrate
US6256606B1 (en) 1998-11-30 2001-07-03 Conexant Systems, Inc. Silence description coding for multi-rate speech codecs
US6182030B1 (en) * 1998-12-18 2001-01-30 Telefonaktiebolaget Lm Ericsson (Publ) Enhanced coding to improve coded communication signals
US6493664B1 (en) * 1999-04-05 2002-12-10 Hughes Electronics Corporation Spectral magnitude modeling and quantization in a frequency domain interpolative speech codec system
DE69937907T2 (de) 1999-04-19 2008-12-24 Fujitsu Ltd., Kawasaki Sprachkodiererprozessor und sprachkodierungsmethode
US6633841B1 (en) 1999-07-29 2003-10-14 Mindspeed Technologies, Inc. Voice activity detection speech coding to accommodate music signals
US6691082B1 (en) * 1999-08-03 2004-02-10 Lucent Technologies Inc Method and system for sub-band hybrid coding
US6151571A (en) 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
US6353810B1 (en) * 1999-08-31 2002-03-05 Accenture Llp System, method and article of manufacture for an emotion detection system improving emotion recognition
US6574593B1 (en) * 1999-09-22 2003-06-03 Conexant Systems, Inc. Codebook tables for encoding and decoding
US6959274B1 (en) 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
US6757654B1 (en) * 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
US6412540B2 (en) * 2000-05-24 2002-07-02 Hendee Enterprises, Inc. Structural protective windscreen
US6804218B2 (en) 2000-12-04 2004-10-12 Qualcomm Incorporated Method and apparatus for improved detection of rate errors in variable rate receivers
US6738739B2 (en) * 2001-02-15 2004-05-18 Mindspeed Technologies, Inc. Voiced speech preprocessing employing waveform interpolation or a harmonic model
US7103538B1 (en) * 2002-06-10 2006-09-05 Mindspeed Technologies, Inc. Fixed code book with embedded adaptive code book

Also Published As

Publication number Publication date
US9190066B2 (en) 2015-11-17
US9401156B2 (en) 2016-07-26
CN1185624C (zh) 2005-01-19
US20090157395A1 (en) 2009-06-18
US20080294429A1 (en) 2008-11-27
US20090164210A1 (en) 2009-06-25
US20070255561A1 (en) 2007-11-01
EP1328924A1 (en) 2003-07-23
US8635063B2 (en) 2014-01-21
US9747915B2 (en) 2017-08-29
CN1457485A (zh) 2003-11-19
US20080147384A1 (en) 2008-06-19
US20090024386A1 (en) 2009-01-22
US20080319740A1 (en) 2008-12-25
US9269365B2 (en) 2016-02-23
AU2001287972A1 (en) 2002-03-26
US8650028B2 (en) 2014-02-11
US20080288246A1 (en) 2008-11-20
US7266493B2 (en) 2007-09-04
US20060089833A1 (en) 2006-04-27
US8620647B2 (en) 2013-12-31
US20160104500A1 (en) 2016-04-14
WO2002023535A1 (en) 2002-03-21
US20090182558A1 (en) 2009-07-16
WO2002023535A8 (en) 2002-07-04
US7072832B1 (en) 2006-07-04

Similar Documents

Publication Publication Date Title
US7072832B1 (en) System for speech encoding having an adaptive encoding arrangement
US6760698B2 (en) System for coding speech information using an adaptive codebook with enhanced variable resolution scheme
EP2099028B1 (en) Smoothing discontinuities between speech frames
US7778827B2 (en) Method and device for gain quantization in variable bit rate wideband speech coding
JP5412463B2 (ja) 音声信号内の雑音様信号の存在に基づく音声パラメータの平滑化
KR100264863B1 (ko) 디지털 음성 압축 알고리즘에 입각한 음성 부호화 방법
US6850884B2 (en) Selection of coding parameters based on spectral content of a speech signal
KR20020077389A (ko) 광대역 신호의 코딩을 위한 대수적 코드북에서의 펄스위치 및 부호의 인덱싱
US6937979B2 (en) Coding based on spectral content of a speech signal
US6434519B1 (en) Method and apparatus for identifying frequency bands to compute linear phase shifts between frame prototypes in a speech coder
US7089180B2 (en) Method and device for coding speech in analysis-by-synthesis speech coders
Zhang Code excited linear prediction with multi-pulse codebooks

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid