KR100929003B1 - 저 비트 레이트 스피치 코딩 방법 및 장치 - Google Patents

저 비트 레이트 스피치 코딩 방법 및 장치 Download PDF

Info

Publication number
KR100929003B1
KR100929003B1 KR1020077012487A KR20077012487A KR100929003B1 KR 100929003 B1 KR100929003 B1 KR 100929003B1 KR 1020077012487 A KR1020077012487 A KR 1020077012487A KR 20077012487 A KR20077012487 A KR 20077012487A KR 100929003 B1 KR100929003 B1 KR 100929003B1
Authority
KR
South Korea
Prior art keywords
subframe
fixed codebook
codebook contribution
frame
contribution
Prior art date
Application number
KR1020077012487A
Other languages
English (en)
Other versions
KR20070085673A (ko
Inventor
브루노 베셋
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20070085673A publication Critical patent/KR20070085673A/ko
Application granted granted Critical
Publication of KR100929003B1 publication Critical patent/KR100929003B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

스피치나 기타 일반 신호들을 코딩하는 방법에는, 스피치 신호를 복수의 프레임들로 나누고, 복수의 프레임들 중 적어도 하나를 적어도 두 서브프레임 유닛들로 나누는 단계가 포함된다. 서브프레임 유닛들에 대한 고정 코드북 기여도 및 적응 코드북 기여도 서치가 행해진다. 적어도 한 서브프레임 유닛이 고정 코드북 기여도 없이 코딩되도록 선택된다. 인코더는 반복해서 같은 프레임에 대해 서브프레임들을 다르게 구성 및 인코딩하고, 프레임 상의 에러 측정을 최소화하는 구성을 전송용으로 선택할 수 있다. 컴퓨터 프로그램들, 디코더, 및 통신 시스템으로 구현되는 것 같은 다양한 실시예들이 보여진다.

Description

저 비트 레이트 스피치 코딩 방법 및 장치{Method and device for low bit rate speech coding}
본 발명은 사운드 신호를 전송 및 합성하는 것과 관련해, 그 사운드 신호, 특히 유일한 것은 아니지만, 스피치 신호의 디지털 인코딩에 관한 것이다. 특히, 본 발명은 코드 여기형 선형 예측 코딩 패러다임에 기반해 사운드 신호의 효율적 저 비트 레이트 코딩을 행하는 방법에 관한 것이다.
주관적 품질과 비트 레이트 사이의 바람직한 타협이 이뤄지는 효율적 디지털 협대역 및 광대역 스피치 (speech) 코딩에 대한 수요가, 원격회의, 멀티미디어, 및 무선 통신 같은 다양한 어플리케이션 영역들에서 점점 증가하고 있다. 최근까지, 200-3400 Hz 범위 안으로 제한된 전화 대역폭이 스피치 코딩 어플리케이션들에 주로 사용되어 왔다. 그러나, 광대역 스피치 어플리케이션들은 종래의 전화 대역폭과 비교할 때 통신시 향상된 인지능력 및 자연스러움을 제공한다. 50-7000 Hz 범위의 대역폭이 대면적 통신 (face-to-face communication)의 인상을 주는 양호한 품질을 전달하기에 충분하다는 것이 밝혀져 왔다. 일반적 오디오 신호들에 대해, 그러한 대역폭은 허용가능한 주관적 품질을 제공하겠지만 그래도 여전히 각각 20-16000 Hz 및 20-20000 Hz의 범위하에서 동작하는 FM 라디오나 CD의 품질에는 미치 지 못한다.
스피치 인코더가 스피치 신호를 디지털 비트 스트림으로 변환하고, 그 결과가 통신 채널을 통해 전송되거나 저장 매체에 저장된다. 스피치 신호는 디지털화된다, 즉, 샘플링되어 통상 샘플당 16 비트로 양자화된다. 스피치 인코더는 더 작은 개수의 비트로 된 이러한 디지털 샘플들을 표현하면서 동시에 양호한 주관적 스피치 품질을 유지하는 역할을 한다. 스피치 디코더나 합성기 (synthesizer)가 전송되었거나 저장된 비트 스트림에 대해 작용하여 그것을 다시 사운드 신호로 변환한다.
코드 여기형 선형 예측 (CELP, Code-Excited Linear Prediction) 코딩은 주관적 품질과 비트 레이트 사이에서 바람직한 타협을 이룰 수 있게 하는 널리 알려진 기술이다. 이 코딩 기술은 무선 및 유선 어플리케이션들 모두에 있어서 여러 개의 스피치 코딩 규격들의 기초가 된다. CELP 코딩에서, 샘플링된 스피치 신호가 보통 프레임이라 불리는 L 개의 샘플들로 된 연속 블록들로서 처리되며, 이때 L은 통상적으로 10-30 ms에 해당하는 소정 넘버이다. 매 프레임마다 선형 예측 (LP) 필터가 산출되어 전송된다. LP 필터의 산출은 보통, 다음 프레임으로부터 5-15 ms 스피치 세그먼트 등의 룩어헤드(look ahead)를 필요로 한다. L-샘플 프레임은 서브프레임들이라 불리는 더 작은 블록들로 나눠진다. 보통, 서브프레임들의 개수는 세 개나 네 개로 4-10 ms의 서브프레임들이 된다. 각 서브프레임마다, 보통 과거 여기 (past excitation) 및 혁신적 고정 코드북 여기 (innovative, fixed-codebook excitation)의 두 성분들로부터 하나의 여기 신호가 얻어진다. 과거 여기로부터 형성된 성분은 종종 적응적(adaptive) 코드북 또는 피치(pitch) 여기라고도 불린다. 여기 신호를 특징짓는 파라미터들이 코딩되어 디코더로 전송되고, 디코더에서 재구성된 여기 신호가 LP 필터의 입력으로 사용된다.
코드 분할 다중화 액세스 (CDMA) 기술을 이용하는 무선 시스템들에서, 소스 제어형 가변 비트 레이트 (VBR, variable bit rate) 스피치 코딩의 사용이 시스템 수용능력을 크게 향상시킨다. 소스 제어형 VBR 코딩에서, 코덱은 여러 비트 레이트들에서 작동하고, 레이트 선택 모듈은 스피치 프레임의 성격에 기반해 각각의 스피치 프레임 (가령, 유성음(voiced), 무성음(unvoiced), 과도음(transient), 배경 잡음 (background noise))을 인코딩하는데 사용된 비트 레이트를 결정하는데 이용된다. 그 목적은 평균 데이터 레이트 (ADR)라고도 불리는 한 주어진 평균 비트 레이트에서 최고의 스피치 품질을 얻고자 하는 것이다. 코덱은 증가한 ADR들에서 코덱 성능이 향상되는 각종 모드들에서 상이한 ADR들을 얻도록 레이트 선택 모듈을 튜닝함으로써 각종 모드들에서 작동할 수 있다. 동작 모드는 채널 상태에 따라 시스템에 의해 부과된다. 이것이 스피치 품질 및 시스템 수용능력 간 타협의 메커니즘을 갖는 코덱을 가능하게 한다.
통상적으로, CDMA 시스템들에 대한 VBR 코딩 시, 스피치 활동 없는 프레임들 (묵음 또는 잡음만 있는 프레임들)에는 1/8 레이트가 사용된다. 그 프레임이 고정 (stationary) 유성음 또는 고정 무성음일 때, 동작 모드에 따라 1/2 레이트나 1/4 레이트가 사용된다. 1/2 레이트가 사용될 때, 피치 코드북 없이 CELP 모델이 무성음 케이스에 활용되고 주기성을 강화하고 유성음 케이스에 있어서 피치 인덱스들의 비트 수를 줄이기 위해 신호 변조가 사용된다. 동작 모드가 1/4 레이트를 부과한 경우, 비트 수가 불충분하고 어떤 매개변수방식 (parametric) 코딩이 일반적으로 적용되기 때문에 어떠한 파형 매칭도 보통은 가능하지 않게 된다. 풀 (full)-레이트가 온셋(onset)들, 과도 프레임들, 및 혼합형 유성 프레임들에 대해 사용된다 (통상의 CELP 모델이 보통 사용된다). CDMA 시스템들에서의 소스 제어형 코덱 동작 외에, 이 시스템들은 인-밴드 (in-band) 시그날링 정보 (딤-앤-버스트 시그날링 (dim-and-burst signaling이라 불림)를 전송하거나 열악한 채널 상태 중에 (셀 경계 접근과 같은) 코덱 견고성을 향상시키기 위해, 어떤 스피치 프레임들에서의 최대 비트 레이트를 제한할 수 있다. 이것을 하프 (half)-레이트 맥스(max)라 부른다.
상술한 내용에서 알 수 있는 바와 같이, (하프-레이트들로의) 효율적인 저 비트 레이트 코딩은, 양호한 사운드 품질을 유지하면서 평균 데이터 레이트를 감소시킬 수 있고 또한 코덱이 최대 하프-레이트에서 동작해야 할 때 양호한 성능을 유지하기 위해서도, 효율적 VBR 코딩에 있어 매우 중요한 것이다.
본 발명은 저 비트 레이트 CELP 코딩을 위한 방법에 대한 것이다. 이 방법은 소스 제어형 가변-레이트 스피치 코딩 시스템에서 하프-레이트 모드들 (일반 및 유성음)을 코딩하는데 적합하다. 여기 개시된 본 발명의 실시예들에 의해, 상술한 문제와 기타 다른 문제들이 극복되고, 다른 이점들이 실현될 것이다.
본 발명의 한 양태에 따르면, 본 발명은 스피치 신호를 코딩하는 방법이 된다. 이 방법에서, 스피치 신호는 복수의 프레임들로 나눠지고, 그 프레임들 중 적어도 하나는 적어도 두 개의 서브프레임 유닛들로 나눠진다. 서브프레임 유닛들에 대한 고정 코드북 기여도 (fixed codebook contribution) 및 적응 코드북 기여도 (adaptive codebook contribution)의 서치 (search)가 행해진다. 적어도 한 서브프레임 유닛이 고정 코드북 기여도 없이 코딩되도록 선택된다.
다른 실시예에 따른 것이 인코더이다. 인코더는 코드북에 연결된 제1입력과 스피치 신호를 수신하기 위한 제2입력을 포함한다. 인코더는 수신된 스피치 신호에 대한 고정 코드북 기여도 및 적응적 코드북 기여도를 찾기 위해 코드북을 서치하고, 스피치 신호를 적어도 두 서브프레임 유닛들을 포함하는 한 프레임으로 출력하도록 동작한다. 인코더는 고정 코드북 기여도 없는 프레임의 서브프레임 유닛들 중 적어도 하나를 인코딩한다.
다른 양태에 따르면, 본 발명은 스피치 프레임을 인코딩하게 하는 액션들을 수행하기 위해, 디지털 데이터 프로세서를 통해 실행가능하고 정보 저장 매체 상에서 명확하게 구현되는 기계 판독가능 명령들로 된 프로그램이 된다. 상기 액션들에는 스피치 신호를 복수의 프레임들로 나누는 일과, 그 복수의 프레임들 중 적어도 하나를 적어도 두 서브프레임 유닛들로 나누는 일이 포함된다. 그 서브프레임 유닛들에 대한 고정 코드북 기여도 및 적응 코드북 기여도를 찾기 위해 서치가 행해진다. 고정 코드북 기여도 없이 적어도 한 서브프레임 유닛이 코딩되도록 선택된다.
또 다른 양태에 따르면, 본 발명은 스피치 신호를 복수의 프레임들로 나누는 수단과 그 복수의 프레임들 중 적어도 하나를 적어도 두 서브프레임 유닛들로 나누는 수단을 포함하는 인코딩 장치가 된다. 이것은 인코더일 수 있다. 이 장치는 인코더에 연결된 프로세서 및 코드북을 저장하는 컴퓨터 판독가능 메모리 같이, 서브프레임 유닛들에 대한 고정 코드북 기여도 및 적응 코드북 기여도를 서치하는 수단을 더 포함한다. 이 장치는 다시 고정 코드북 기여도 없이 코딩될 적어도 한 서브프레임 유닛을 선택하는 수단을 더 포함하며, 그 선택 수단 역시 프로세서임이 바람직하다.
또 다른 양태에 따른 것이 인코더 및 디코더를 포함한 통신 시스템이다. 인코더는 코드북에 연결된 제1입력과 전송할 스피치 신호를 수신하는 제2입력을 포함한다. 인코더는, 수신된 스피치 신호에 대한, 고정 코드북 기여도 및 적응 코드북 기여도를 찾기 위해 코드북을 서치하고 스피치 신호 (또는 적어도 그 일부)를 적어도 두 서브프레임 유닛들을 가진 한 프레임으로서 출력하도록 동작한다. 인코더는 또 고정 코드북 기여도가 없는 프레임의 적어도 한 서브프레임 유닛을 인코딩하도록 동작한다. 이 통신 시스템의 디코더는 코드북에 연결된 제1입력 및 채널을 통해 수신된 스피치 신호를 인코딩한 프레임을 입력하는 제2입력을 구비한다. 인코딩된 스피치 프레임은 적어도 두 개의 서브프레임 유닛들을 포함한다. 디코더는 수신된 부호화된 스피치 프레임에 대해 고정 코드북 기여도 및 적응 코드북 기여도를 찾기 위해 코드북을 서치하고, 고정 코드북 기여도 없는 서브프레임 유닛들 중 적어도 하나를 디코딩하도록 동작한다.
다양한 실시예들 및 구성들에 관한 더 세부적인 내용들을 이하에서 설명할 것이다.
본 발명의 상술한 양태들 및 기타 다른 양태들은, 첨부된 도면들과 함께 파악되는 이하의 상세한 설명을 통해 훨씬 자명하게 될 것이다:
도 1 및 2는 각각 본 발명의 실시예들에 따른 모바일 스테이션 및 모바일 스테이션 내 구성요소들에 대한 대표 블록도이다.
도 3은 본 발명의 제1실시예에 따른 프로세스 흐름도이다.
도 4는 본 발명의 제2실시예에 따른 프로세스 흐름도이다.
소스 제어형 (source-controlled) VBR 스피치 코딩은, 많은 통신 시스템들, 특히 CMDA 기술을 이용하는 무선 시스템들의 수용능력을 향상시킨다. 소스 제어형 VBR 코딩시, 코덱은 여러 비트 레이트들에서 동작하고, 레이트 선택 모듈은 스피치 프레임 (가령, 유성음, 무성음, 과도음, 배경잡음)의 성격에 기초해 각각의 스피치 프레임을 인코딩하는데 사용되는 비트 레이트를 결정하는데 사용된다. 이와 관련해, 2003년 6월 26일 출원된 Victor Stolpman의 공동 양도된 미국 특허 출원 번호 10/608,943, "Low-Density Parity Check Codes for Multiple Code Rates (여러 코드 레이트들에 대한 저밀도 패리티 체크 코드들)"을 참고할 수 있으며, 그 내용은 이 명세서에서 참조의 형식으로 포함된다. VBR 코딩에서, 그 목적은 주어진 평균 데이터 레이트에서 최선의 스피치 품질을 얻고자 하는 데 있다. 코덱은, 증가된 ADR들에서 코덱 성능이 향상되는 각종 모드들에서 상이한 ADR들을 얻도록 레이트 선택 모듈을 튜닝함으로써 각종 모드들에서 동작할 수 있다. 어떤 시스템들에서, 동작 모드는 채널 상태에 따라 시스템에 의해 부과된다. 이것이 스피치 품질 및 시스템 수용능력 간 타협의 메커니즘을 가진 코덱을 가능하게 한다.
cdma2000 시스템에서, 두 세트의 비트 레이트 설정사항들이 정의된다. 레이트 세트 I에는, 비트 레이트들로서 8.55 kbit/s의 풀-레이트 (FR), 4 kbit/s의 하프-레이트 (HR), 2 kbit/s의 1/4 레이트 (QR), 및 0.8 kbit/s의 1/8 레이트 (ER)들이 있다. 레이트 세트 II에는, 비트 레이트들로서 13 kbit/s의 FR, 6.2 kbit/s의 HR, 2.7 kbit/s의 QR, 그리고 1 kbit/s의 ER이 있다.
본 발명의 한 예시적 실시예에서, 개시된 저 비트 레이트 코딩 방법은 레이트 세트 I 동작의 하프-레이트 코딩에 적용된다. 특히, 개시된 방법이 일반 HR 프레임들 및 유성음 HR 프레임들을 4 kbit/s로 인코딩하는 가변 비트 레이트 광역 스피치 코덱에 포함되는 실시예가 보여진다. 세부사항은 도 3에서 시작해 상세히 설명될 것이다.
도 1은 본 발명이 실시될 수 있는 모바일 스테이션 (MS)(20)의 개략도를 예시한 것이다. 본 발명은 장치가 모바일이든 아니든, 셀룰라나 기타 데이터 네트워크에 연결되어 있든 아니든 상관없이, 가변 레이트 인코더를 가진 임의의 호스트 컴퓨팅 장치 안에 구성될 수 있다. MS(20)는 공공 교환 전화망에 연결되는 베이스 스테이션들로 된 모바일 전화 네트워크 같은 통신 네트워크에 무선 액세스할 수 있는 핸드헬드 휴대 장치이다. 인터넷 또는 다른 투웨이 (two-way) 통신 사양을 가진 셀룰라 전화, 블랙베리(Blackberry) 장치, 및 PDA (personal digital assistant)가 MS(20)의 예들이다. 휴대형 무선 장치는 모바일 스테이션뿐 아니라 워키토키 같은 부가 핸드헬드 장치들과, 무선 랜 (WLAN)이나 WIFI 네트워크 같은 로컬 네트워크들만을 액세스할 수 있는 장치들 역시 포함한다.
도 1에 예시된 구성요소들의 블록들은 기능에 따른 것으로서 이하에 설명될 기능들은 도 1을 참조해 나타낸 것 같은 하나의 물리적 개체로서 수행될 수도 그렇지 않을 수도 있다. 그래픽 디스플레이 스크린을 구동하기 위한 회로 보드 같은 디스플레이 드라이버(22), 및 사용자 조작 버튼들의 어레이 및/또는 조이스틱에서 받은 입력들을 전기적 신호로 변환하기 위한 회로 보드 같은 입력 드라이버(24)가 사용자와의 인터페이스를 위한 디스플레이 스크린 및 버튼/조이스틱 어레이 (미도시)와 함께 갖춰진다. 입력 드라이버(24)는 또한 이 분야에 알려져 있는 바와 같이 디스플레이 스크린이 터치 감지형일 때 그 디스플레이 스크린에서의 사용자 입력들을 변환한다. MS(20)는 MS(20) 안의 기능들을 제어하는 중앙 프로세서(28)로 전력을 공급하는 자가-보유 배터리 같은 전원(26)을 더 포함한다. 프로세서(28) 안에 디지털 샘플링, 데시메이션 (decimation), 보간, 인코딩 및 디코딩, 변조 및 복조, 암호화 및 해독화, 확산 및 역확산 (CDMA 호환가능 MS(20) 용), 및 이 분야에 알려져 있는 부가적 신호 처리 기능들 같은 기능들이 있다.
음성(voice) 또는 다른 청각적 입력들이, 버퍼 메모리(32)를 통해 프로세서(28)에 연결될 수 있는 마이크로폰(30)에서 수신된다. 코더/디코더 (코덱)을 위한 코드북 및 룩업 테이블 등과 같은 데이터 어레이들을 변조, 인코딩 및 디코딩하는 알고리즘 같은 컴퓨터 프로그램들이 주 메모리 저장 매체(34)에 저장되며, 이 매체는 이 기술분야에서 알려진 바대로 컴퓨터 판독가능 명령어들 및 프로그램들과 데이터를 저장하기 위한 전자, 광, 또는 자기 메모리 저장 매체일 수 있다. 주 메모리(34)는 보통 휘발성 영역과 비휘발성 영역으로 구획되며, 일부가 탈부착 가능한 것일 수 있는 각종 저장 유닛들 사이에 보통 흩어져 있다. MS(20)는 T/R 스위치(38)나 다이플렉스 (단방향 두 경로, diplex) 필터를 거쳐 전송기(40) 및 수신기(42)에 선택적으로 연결될 수 있는 하나 이상의 안테나들(36)을 거쳐, 모바일 전화 링크 같은 네트워크 링크를 통해 통신한다. MS(20)는 추가적으로, WLAN, WIFI, 블루투스 같은 부가 네트워크들을 통해 통신하거나 디지털 비디오 브로드캐스트를 수신할 이차 전송기들 및 수신기들을 포함할 수도 있다. 알려져 있는 안테나 타입들로는 모노폴 (monopole), 다이폴(di-pole), 평면 역전 접이식 안테나 (planar inverted folded antenna, PIFA) 및 기타의 것들이 포함된다. 다양한 안테나들은 주로 외부적으로 (가령, 휩(whip) 안테나), 혹은 도시된 바와 같이 MS(20) 하우징의 완전 내부에서 탑재될 수 있다. MS(20)의 청각적 출력이 스피커(44)에서 변환된다. 상술한 구성요소들 대부분과 특히 프로세서(28)는 메인 회로 보드(미도시) 상에 배치된다. 보통, 메인 회로 보드는 안테나(들)(36)이 전기적으로 연결되는 접지 영역을 포함한다.
도 2는 본 발명의 실시예들에 따라, 가령 도 1의 MS(20) 안에서 실행되는 프로세스들과 회로의 개략적 블록도이다. 마이크로폰으로부터 출력되는 스피치 신호가 디지타이저(digitizer)에서 디지털화되고, 인코더(48)에서 메모리(34)에 저장된 코드북(50)을 사용해 인코딩된다. 코드북 또는 모 (mother) 코드는 가변 레이트 인코딩에 대한 고정 부분 및 적응 부분 모두를 포함한다. 샘플러(52) 및 레이트 선택기(54)가 샘플링 및 보간/데시메이션을 통하거나, 이 기술분야에 알려져 있는 다른 수단을 통해 한 코딩 레이트를 획득한다. 프레임들 사이에서 그 레이트는 상술한 것처럼 가변될 수 있다. 데이터가 블록(56)에서 서브프레임들로 파싱(parsing)되고, 서브프레임들은 타입별로 나눠져서 이하에 설명될 방식들 중 어느 한 방식에 의해 프레임들 안에 어셈블 된다. 일반적으로, 프로세서(28)는 에러 측정치를 최소화하는 방식에 따라 서로 다른 타입의 서브프레임들을 단일 프레임 안에 어셈블 한다. 어떤 실시예들에서, 이것은 프로세서가 코드북(50)의 적응 부분만을 사용해 이득을 결정하고, 그것을 프레임 내 두 서브프레임들 중 하나에 적용하고 다른 프레임에는 고정 및 적응 코드북 부분들 모두에서 도출된 이득을 적용한다는 점에서 반복적이다. 이 결과를 제1계산결과로 간주한다. 제2계산결과는 그 반대가 된다; 적응 코드북 부분으로부터의 고정 이득이 상기 다른 서브프레임으로 적용되고 고정 및 적응 코드북에서 도출된 이득은 오리지널 서브프레임으로 적용된 것이 제2산출결과가 된다. 제1산출결과든 제2산출결과는 에러 측정치를 최소화하는 것이, 서브프레임들이 선형 예측 필터(58)에 의해 어떻게 여기 될지에 대한 한 대표자가 된다. 이러한 여기는, 반복적으로 서브프레임 단위로 서브프레임에 최적의 여기를 결정한 프로세서로부터 나온다. 다른 기술들을 아래에서 개시할 것이다. 일부 실시예들에서, 현재의 프레임 바로 전의 프레임을 여기하는데 사용된 에너지의 피드백(60)이, 프레임의 서브프레임들 중 하나에 적용되는 고정 피치(pitch) 이득을 정하는데 사용된다. 이 에너지의 값은 단지 메모리(34)에 저장 되어 프로세서(28)에 의해 재액세스 된다. 본 발명에서 벗어나지 않고 이 명세서에 개시된 것처럼 스피치 신호에 대해 작동하는 다른 다양한 하드웨어 구성들이 열거될 수 있다.
본 발명의 실시예들에 대한 상세한 설명은, 여기 참조의 형태로 병합된 3GPP2의 규격안으로서 현재 제출된 가변 레이트 멀티-모드 광대역 코더에 대한 설명 [3GPP2 C.S0052-A: "Source-Controlled Variable Rate Multimode Wideband Speech Codec (VMR-WB), Service Options 62 and 63 for Spread Spectrum Systems"]에 해당하는 첨부된 텍스트를 이용해 예시된다. 그 규격에 대한 새로운 개선방안은, 4 kbps에서의 HR 유성음 및 HR 일반 코딩 타입들의 디자인을 요하는, 레이트 세트 1 설정이라 이름하는 것을 이용하는 동작 모드들을 포함한다. 제한된 추가 메모리 사용으로 동일한 코덱 구조들을 유지하면서, 비트 레이트를 감소할 수 있게 하려면, 이하에서 기술되는 본 발명의 개념들이 더해져야 한다.
제1실시예에 따르면, 스피치 코딩 시스템이 선형 예측 코딩 기술을 이용한다. 한 스피치 프레임은 여러 서브프레임 유닛들이나 서브프레임들로 나눠지고, 그에 따라 각 서브프레임에서 선형 예측 (LP) 합성 필터의 여기(excitation)가 계산된다. 서브프레임 유닛들은 하프 프레임들이나 1/4 프레임들임이 바람직할 것이다. 전통적 선형 예측 코더에서, 그러한 여기는 각자 상응하는 이득들에 의해 축척된(scaled) 적응(적) 코드북 및 고정 코드북으로 이뤄진다. 본 발명의 실시예들에서, 양호한 성능을 유지하면서 비트 레이트를 줄이기 위해, 여러 개의 K 서브프레임들이 그룹화되고, 이 K 개의 서브프레임들에 대해 한번 피치 랙(lag)이 계산된 다. 그런 다음, 개별 서브프레임들에서의 여기 결정시, 몇몇 서브프레임들은 고정 코드북 기여도를 이용하지 않으며, 이러한 프레임들에 대해 피치 이득은 소정 값으로 고정된다. 나머지 서브프레임들은 고정 및 적응 코드북 기여도 모두를 활용한다. 바람직한 실시예에서, 여러 번의 반복이 행해져서, 이 반복들에서 고정 코드북 기여도를 갖지 않은 서브프레임들이 상이하게 할당되어, 고정 코드북 기여도를 가진 서브프레임들과 고정 코드북 기여도를 갖지 않은 서브프레임들의 여러 조합들을 얻고; 에러 측정을 최소화함으로써 최선의 조합이 결정된다. 나아가, 최소의 에러를 파생하는 최선의 조합의 인덱스가 인코딩된다.
변형된 것으로서, 고정 코드북 기여도를 갖지 않는 서브프레임들의 피치 이득이 이전 및 현재의 프레임들로부터의 LP 합성 필터들의 에너지들 간 비율로서 주어지는 값들로 세팅된다. 이것을 도 3에서 보인다.
도 3에서, 각 서브프레임에 타입(type)이 할당된다(301). 특정 타입의 모든 서브프레임들에 대해, 피치 이득이 한번 계산되어 저장된다(302). 프로세서(28)는 이제 상기 계산된 피치 이득들을 사용하여 한 프레임 안으로의 상이한 타입들의 서브프레임들의 다양한 조합을 반복해서 산출한다(304). 적응 코드북을 형성하는 기여도만을 이용해 여기된 것들인 제1타입의 서브프레임들에 대해, 피치 이득이 상술한 LP 합성 필터 에너지들에 비례하고 이하에서 상세히 설명될 gf로 세팅된다(306). 그 특정 조합의 에러 측정이 정해져서 저장된다(308). 컴퓨팅 프로세스는 전송을 지연시키지 않도록, 다수의 서브프레임들이나 시간 제약에 의해 묶여있음이 바람직 한 수회의 되풀이를 반복한다(310). 일단 모든 되풀이가 완료되었으면, 최소 에러가 판단되고(312) 최소 에러 측정치를 양산했던 이득들에 따라 개별 서브프레임들이 선형 예측 필터에 의해 여기 된(314) 후 전송된다(316). 인코더가 도 3의 301부터 315의 각 단계에서 수행할 수 있는 것에 주목해야 하며, 여기서 프로세서와 필터가 인코딩 회로와 별개로 구성된 경우라도, 인코더는 프로세서에 의해 행해진 계산들과 필터에 의해 행해진 여기를 포함하도록 폭넓게 읽혀진다. 도 2의 기능 블록들은 모든 실시예들에서 별개의 구성성분들을 의미하고자 한 것이 아니며; 그런 여러 블록들이 하나의 인코더 안에 병합되어 있을 수 있다.
본 발명에 따른 디코더도 이와 마찬가지로 동작하나, 이 디코더는 이미 채널을 통해 프레임을 수신하기 때문에 프레임 내 서브프레임 유닛들을 배열하는 방식을 반복해서 결정할 필요가 없다. 디코더는, 바람직하게는 전송기에서의 프레임 내에 설정된 비트로부터, 어느 서브프레임 유닛이 고정 코드북 기여도 없이 인코딩되었는지를 판단한다. 디코더는 코드북에 연결된 제1입력과 인코딩된 스피치 신호의 프레임을 수신하기 위한 제2입력을 포함한다. 전송기에서처럼, 인코딩된 프레임은 적어도 두 서브프레임 유닛들을 포함한다. 인코더와 마찬가지로, 디코더는 코드북에서 고정 코드북 기여도 및 적응 코드북 기여도를 서치한다. 디코더는 고정 코드북 기여도 없이 서브프레임 유닛들 중 적어도 하나를 디코딩한다.
도 4에 일반적으로 보여진 제2실시예에 따르면, 서브프레임들은 두 개의 서브프레임들로 된 프레임들로 그룹화된다. 두 서브프레임들에 대한 피치 랙이 계산 된다(402). 그런 다음, 제1서브프레임 또는 제2서브프레임의 소정 값 gf에 피치 이득을 강제함으로써 모든 서브프레임의 여기를 산출한다. 피치 이득이 gf로 강제된 서브프레임에 대해, 어떤 고정 코드북도 사용되지 않는다 (여기는 적응 코드북 기여도에만 기초한다). 피치 이득이 gf로 강제되는 서브프레임이, 두 조합을 시도하여 두 서브프레임들에 대해 가중된 에러를 최소화하는 하나를 선택함으로써, 폐루프를 통해 정해진다(402). 제1반복시(406), 피치 이득과 적응 코드북 여기, 그리고 고정 코드북 여기 및 이득이 제1서브프레임에서 계산되고(408a), 제2서브프레임에서 피치 이득은 gf로 강제되며 적응 코드북 여기는 고정 코드북 기여도 없이 산출된다(410a). 제2반복시(412), 제1서브프레임에서 피치 이득은 gf로 강제되며 적응 코드북 여기가 고정 코드북 기여도없이 산출되고(410b), 제2서브프레임에서 피치 이득과 적응 코드북 여기, 그리고 고정 코드북 여기 및 이득이 산출된다(408b). 두 반복 모두 (412a, 412b)에 대해 가중 에러가 계산되고, 에러를 최소화하는 것이 유지되어(414) 전송(416)에 선택된다. 고정 코드북 기여도가 이용되는 서브프레임의 인덱스를 결정하기 위해 두 서브프레임들 당 한 개의 비트가 사용될 수 있다.
제3실시예에서, 고정 코드북 기여도는 두 서브프레임들 중 하나에 이용된다. 고정 코드북 기여도가 없는 서브프레임들에서, 피치 이득은 소정 값 gf로 강제된다. 이 값은 1보다 작거나 같은 것으로 제한된, 이전 및 현재의 프레임들에서의 LP 합성 필터들의 에너지들의 비율로서 정해진다. gf 값은 다음과 같이 주어진다:
Figure 112007040406948-pct00001
Figure 112007040406948-pct00002
Figure 112007040406948-pct00003
는 각각 이전 프레임과 현 프레임의 임펄스 응답을 나타낸다. 안정된 유성음 세그먼트들에 대해, gf의 값은 0에 가깝다. 상기 비율을 이용해 gf를 정하는 것은, 현 프레임이 공진(resonant) 될 때 피치 이득을 낮은값이 되게 강제한다. 이것이 불필요한 에너지 상승을 막는다. 그 프로세스는 도 4에 도시된 것과 유사하나, 피치 이득은 상술한 것과 같이 특정하게 주어진다.
두 조합을 시도하고 하프-프레임에 대해 가중 에러를 최소화하는 하나를 선택함으로써, 피치 이득이 gf로 강제되는 서브프레임이 폐루프 안에서 정해진다. 각각의 두 서브프레임들에서의 여기가 두 번의 반복을 통해 수행된다. 제1반복시, 여기는 보통과 같이 제1서브프레임에서 정해진다. 적응 코드북 여기 및 피치 이득이 결정된다. 그런 다음, 고정 코드북 서치를 위한 타깃 신호가 업데이트되고 고정 코드북 여기 및 이득이 산출되며, 적응 및 고정 코드북 이득들이 공동으로 양자화된다. 제2서브프레임에서, 적응 코드북 메모리가 제1서브프레임으로부터의 총 여기를 이용해 업데이트된 후, 피치 이득이 gf로 강제되고 적응 코드북 여기가 고정 코드북 기여도 없이 계산된다. 그에 따라, 제1서브프레임의 제1반복으로부터의 총 여기가 다음과 같이 주어진다:
Figure 112007040406948-pct00004
제2서브프레임의 총 여기는 다음과 같이 주어진다:
Figure 112007040406948-pct00005
제2반복을 시작하기 전에, 합성 및 가중 필터들의 메모리들과 적응 코드북 메모리들이 두 서브프레임을 위해 준비된다.
제2반복시, 제1서브프레임에서 피치 이득이 gf로 강제되고 적응 코드북 여기는 고정 코드북 기여도 없이 산출된다. 따라서 제1서브프레임의 총 여기는 다음과 같이 주어진다:
Figure 112007040406948-pct00006
그런 다음, 적응 코드북의 메모리와 필터의 메모리들이 제1서브프레임으로부터의 여기에 기초해 업데이트된다.
제2서브프레임에서, 타깃 신호가 산출되고, 적응 코드북 여기 및 피치 이득이 결정된다. 그런 다음 타깃 신호가 업데이트되고, 고정 코드북 여기 및 이득이 산출된다. 적응 및 고정 코드북 이득들이 공동으로 양자화된다. 제2서브프레임의 총 여기는 다음과 같이 주어진다:
Figure 112007040406948-pct00007
마지막으로, 어떤 반복(iteration)을 선택할지를 결정하기 위해, 두 서브프레임들에 대한 양 반복들에 대해 가중된 에러가 계산되고, 더 작은 제곱 평균 (mean-squared) 가중 에러를 산출하는 반복에 대응하는 총 여기가 유지된다. 고정 코드북 기여도가 사용되는 서브프레임의 인덱스를 가리키기 위해 하프-프레임 당 1 비트가 사용된다 (또는 그 반대도 성립한다).
제1반복시의 두 서브프레임들에 대한 가중 에러는 다음과 같다:
Figure 112007040406948-pct00008
제2반복시의 두 서브프레임들에 대한 가중 에러는 다음과 같다:
Figure 112007040406948-pct00009
여기서 y(n)과 z(n)은 각각, 필터링 된 적응 코드북 및 필터링 된 고정 코드북 기여도들이다.
제1반복이 유지되는 경우, (두 반복들이 수행된 후, 필터 메모리들과 적응 코드북 버퍼가 제2반복에 해당하기 때문에) 아껴둔 메모리들은 다음 두 서브프레임들에 사용할 적응 코드북 버퍼 및 필터 메모리들로 다시 복사된다.
본 발명의 다양한 실시예들이 모바일 스테이션(20)의 데이터 프로세서나, 프로세서(28) 같은 기타 호스트 장치에 의해 실행가능한 컴퓨터 소프트웨어에 의해, 혹은 하드웨어나, 하드웨어 및 소프트웨어가 결합 된 것을 통해 구현될 수 있다. 또, 이와 관련하여, 도면의 여러 블록들은 프로그램 스텝들이나, 상호 연결된 로직 회로들, 블록들 및 함수들, 또는 프로그램 스텝들과 로직 회로의 결합, 블록들과 함수들의 결합을 나타낼 수 있다는 것을 알아야 한다.
메모리나 메모리들(34)은 로컬 기술 환경에 적합한 어떠한 타입이라도 될 수 있고, 반도체 기반 메모리 장치, 자기 메모리 장치 및 시스템, 광 메모리 장치 및 시스템, 고정 메모리 및 탈부착형 메모리 같은 임의의 적절한 데이터 저장 기술을 이용해 구현될 수 있다. 데이터 프로세서(들)(28)은 로컬 기술 환경에 적합한 어떠한 타입이라도 될 수 있고, 범용 컴퓨터, 특수 컴퓨터, 마이크로프로세서, 디지털 신호 프로세서 (DSP) 및 멀티-코어 프로세서 구조에 기반한 프로세서들 가운데 하나 이상을 포함할 수 있으나, 반드시 여기에 국한되는 것은 아니다.
일반적으로, 다양한 실시예들이 하드웨어나 특수 용도의 회로, 소프트웨어, 로직 또는 이들의 어떤 조합을 통해 구현될 수 있다. 예를 들어, 몇몇 양태들은 하드웨어를 통해 구현되고, 다른 양태들은 컨트롤러, 마이크로프로세서 또는 기타 컴퓨팅 장치를 통해 실행될 수 있는 펌웨어나 소프트웨어를 통해 구현될 수 있지만, 본 발명이 반드시 여기에 국한되는 것은 아니다. 본 발명의 여러 양태들은 블록도와 흐름도로서, 또는 어떤 다른 도면 표현을 사용해 예시되어 설명될 수 있지만, 여기 개시된 블록, 장치, 시스템, 기술 또는 방법은 비한정적 예들인 하드웨어, 소프트웨어, 펌웨어, 특수 회로나 로직, 범용 하드웨어나 컨트롤러 또는 다른 컴퓨팅 장치들, 혹은 이들의 조합을 통해 구현될 수 있다는 것을 잘 알 수 있을 것이다.
발명의 실시예들은 집적 회로 모듈들 같은 다양한 소자들 안에서 실시될 수 있다. 집적 회로의 설계는 어느 정도 고도로 자동화된 프로세스에 의한다. 로직 레벨의 디자인을 반도체 기판 위에 에칭되고 형성될 준비가 된 반도체 회로 디자인 으로 바꾸는 복합적이고도 강력한 소프트웨어 툴이 사용될 수 있다.
캘리포니아 마운틴 뷰의 Synopsis사와, 캘리포니아 산호세의 Cadence Design에서 제공되는 것 같은 프로그램들은 잘 갖춰진 디자인 규칙과 미리 저장된 디자인 모듈들의 라이브러리들을 이용해 반도체 칩 상에 자동으로 도선들 (conductors)을 라우팅하고 소자들을 위치시킨다. 반도체 회로 디자인이 일단 완료되었으면, 규격화된 전자 포맷 (가령, Opus, GDSII 등)을 통해 그 디자인 결과가 반도체 제조 설비나 제조 "공장"으로 전달될 것이다.
특정한 실시예들과 관련지어 개시하였지만, 이 기술분야의 당업자라면 본 발명에 대한 수많은 변경과 다양한 바꾸기가 있을 수 있다는 것을 잘 알 것이다. 따라서, 본 발명이 하나 이사의 그 실시예들과 관련해 도시되고 설명되었지만, 이 분야의 당업자는 상술한 발명의 범주와 개념, 또는 이어지는 청구항들의 범위에서 벗어나지 않은 채 소정의 변경 또는 바꾸기가 이뤄질 수 있다는 것을 알 수 있을 것이며, 특히 그러한 변경은 유사한 프로세서 단계들의 집합이나 유사하거나 동등한 하드웨어 구성을 통해 같은 결과를 달성한다.

Claims (45)

  1. 스피치 (speech) 신호 코딩 방법에 있어서,
    스피치 신호를 복수의 프레임들로 나누는 단계;
    복수의 프레임들 중 적어도 하나를 적어도 두 서브프레임 유닛들로 나누는 단계;
    서브프레임 유닛들에 대한 고정 (fixed) 코드북 기여도 (contribution) 및 적응(적)(adaptive) 코드북 기여도를 서치하는 단계; 및
    고정 코드북 기여도 없이 코딩될 적어도 한 서브프레임 유닛을 선택하는 단계를 포함함을 특징으로 하는 방법.
  2. 제1항에 있어서, 상기 고정 코드북 기여도 없이 한 고정 피치 이득 (pitch gain)이 서브프레임에 인가됨을 특징으로 하는 방법.
  3. 제2항에 있어서, 상기 고정 피치 이득은 현재의 프레임 에너지 및 이전 프레임 에너지에 기초해 산출됨을 특징으로 하는 방법.
  4. 제3항에 있어서, 상기 고정 피치 이득은,
    1 이하로 제한되는
    Figure 112007040406948-pct00010
    으로서 산출되고,
    Figure 112007040406948-pct00011
    Figure 112007040406948-pct00012
    는 각각 이전 프레임과 현재 프레임의 임펄스 응답을 나타냄을 특징으로 하는 방법.
  5. 제1항에 있어서,
    고정 코드북 기여도가 있는 적어도 한 서브프레임과, 고정 코드북 기여도가 없는 적어도 한 서브프레임 유닛의 제1조합을 어셈블하고, 고정 코드북 기여도 없는 적어도 한 서브프레임과 고정 코드북 기여도가 있는 적어도 한 서브프레임 유닛의 제2조합을 어셈블하는 단계; 및
    상기 제1 및 제2조합 중에서 전송을 위해 한 개만을 선택하는 단계를 더 포함함을 특징으로 하는 방법.
  6. 제5항에 있어서, 상기 제1 및 제2조합들을 어셈블 하는 단계는, 프레임에 걸친 에러 측정을 최소화하도록 서브프레임 유닛들을 어셈블하는 단계를 포함함을 특징으로 하는 방법.
  7. 제6항에 있어서, 상기 에러 측정치를 최소화하도록 서브프레임 유닛들을 어셈블하는 단계는, 반복적으로, 서브프레임 유닛들의 다른 조합들을 어셈블하고 프 레임에 걸친 에러 측정을 최소화시키는 한 특정 조합을 전송용으로 선택하는 단계를 포함함을 특징으로 하는 방법.
  8. 제1항에 있어서, 상기 선택 단계는, 고정 코드북 기여도가 있는 것과 고정 코드북 기여도가 없는 것으로 코딩된 서브프레임 유닛들로 이뤄진 상이한 어셈블리들의 기준 산출에 기반함을 특징으로 하는 방법.
  9. 제8항에 있어서, 상기 기준은 제곱 평균 (mean squared) 가중 에러를 포함함을 특징으로 하는 방법.
  10. 제1항에 있어서,
    어떤 적어도 한 서브프레임이 고정 코드북 기여도를 가지지 않고 코딩되었는지를 가리키도록 프레임 내에 적어도 한 비트를 세팅하는 단계를 더 포함함을 특징으로 하는 방법.
  11. 제1항에 있어서, 상기 서브프레임 유닛들은 하프-프레임들을 포함함을 특징으로 하는 방법.
  12. 제1항에 있어서, 상기 서브프레임 유닛들은 1/4 프레임들을 포함함을 특징으로 하는 방법.
  13. 인코더에 있어서,
    코드북과 연결된 제1입력; 및
    스피치 신호를 수신하기 위한 제2입력을 포함하고,
    상기 수신된 스피치 신호를 위해, 코드북에서 고정 (fixed) 코드북 기여도 (contribution) 및 적응(적)(adaptive) 코드북 기여도를 서치하고, 그 스피치 신호를 적어도 두 서브프레임 유닛들을 구비한 한 프레임으로서 출력하도록 동작하고, 상기 고정 코드북 기여도 없이 프레임의 적어도 한 서브프레임 유닛을 인코딩하도록 더 동작함을 특징으로 하는 인코더.
  14. 제13항에 있어서, 상기 인코더는, 상기 고정 코드북 기여도가 있는 적어도 한 서브프레임 유닛과 고정 코드북 기여도가 없는 적어도 한 서브프레임 유닛의 제1조합을 어셈블하고, 고정 코드북 기여도가 없는 적어도 한 서브프레임 유닛과 고정 코드북 기여도를 가진 적어도 한 서브프레임의 제2조합을 어셈블하고,
    제1 및 제2조합들 중 하나만을 출력함을 특징으로 하는 인코더.
  15. 제14항에 있어서, 상기 인코더는 상기 제1 및 제2조합들에서의 에러 측정을 최소화하도록 제1 및 제2조합을 어셈블함을 특징으로 하는 인코더.
  16. 제15항에 있어서, 상기 에러 측정을 최소화하도록 서브프레임 유닛들을 어셈 블하는 것은, 반복적으로, 서브프레임 유닛들로 된 서로 다른 조합들을 어셈블하고 프레임에 걸친 에러 측정을 최소화하는 특정 조합을 전송용으로 선택하는 일을 포함함을 특징으로 하는 인코더.
  17. 제13항에 있어서,
    상기 고정 코드북 기여도를 가진 적어도 한 다른 서브프레임 유닛을 인코딩하여 제1조합을 생성하고, 고정 코드북 기여도를 가진 적어도 한 서브프레임 유닛과 고정 코드북 기여도가 없는 적어도 한 또 하나의 서브프레임 유닛을 부호화하여 제2조합을 생성하도록 더 동작하고, 한 기준에 따라 제1 및 제2조합들 가운데 하나만을 출력함을 특징으로 하는 인코더.
  18. 제17항에 있어서, 상기 기준은 제곱 평균 에러를 포함함을 특징으로 하는 인코더.
  19. 스피치 (speech) 프레임을 인코딩하기 위한 액션을 수행하도록, 디지털 프로세서에 의해 실행가능한, 기계-판독가능 명령어들의 프로그램을 포함하는, 컴퓨터로 읽을 수 있는 저장 매체에 있어서, 상기 액션은,
    스피치 신호를 복수의 프레임들로 나누는 동작;
    복수의 프레임들 중 적어도 하나를 적어도 두 서브프레임 유닛들로 나누는 동작;
    서브프레임 유닛들에 대한 고정 (fixed) 코드북 기여도 (contribution) 및 적응(적)(adaptive) 코드북 기여도를 서치하는 동작; 및
    고정 코드북 기여도 없이 코딩될 적어도 한 서브프레임 유닛을 선택하는 동작을 포함함을 특징으로 하는, 컴퓨터로 읽을 수 있는 저장 매체.
  20. 제19항에 있어서, 상기 액션은,
    상기 고정 코드북 기여도가 있는 적어도 한 서브프레임 유닛과 고정 코드북 기여도가 없는 적어도 한 서브프레임 유닛의 제1조합을 어셈블하고, 고정 코드북 기여도가 없는 적어도 한 서브프레임 유닛과 고정 코드북 기여도를 가진 적어도 한 서브프레임의 제2조합을 어셈블하는 동작; 및
    제1 및 제2조합들 중 전송용으로 단 하나만을 선택하는 동작을 더 포함함을 특징으로 하는, 컴퓨터로 읽을 수 있는 저장 매체.
  21. 제20항에 있어서, 상기 제1 및 제2조합들을 어셈블하는 동작은, 프레임에 걸친 에러 측정을 최소화하도록 서브프레임 유닛들을 어셈블하는 동작을 포힘함을 특징으로 하는, 컴퓨터로 읽을 수 있는 저장 매체.
  22. 제21항에 있어서, 상기 에러 측정을 최소화하도록 서브프레임 유닛들을 어셈블하는 것은, 반복적으로, 서브프레임 유닛들로 된 서로 다른 조합들을 어셈블하고 프레임에 걸친 에러 측정을 최소화하는 특정 조합을 전송용으로 선택하는 동작을 포함함을 특징으로 하는, 컴퓨터로 읽을 수 있는 저장 매체.
  23. 제19항에 있어서, 상기 선택 동작은, 고정 코드북 기여도를 가지고 코딩된 것과 고정 코드북 기여도를 가지지 않고 코딩된 서브프레임 유닛들로 이뤄진 서로 다른 어셈블리들에 대한 기준 산출에 기반함을 특징으로 하는, 컴퓨터로 읽을 수 있는 저장 매체.
  24. 제23항에 있어서, 상기 기준은 제곱 평균 가중 에러를 포함함을 특징으로 하는. 컴퓨터로 읽을 수 있는 저장 매체.
  25. 인코딩 장치에 있어서,
    스피치 신호를 복수의 프레임들로 나누기 위한 수단;
    복수의 프레임들 중 적어도 하나를 적어도 두 서브프레임 유닛들로 나누기 위한 수단;
    서브프레임 유닛들에 대한 고정 (fixed) 코드북 기여도 (contribution) 및 적응(적)(adaptive) 코드북 기여도를 서치하는 수단; 및
    고정 코드북 기여도 없이 코딩될 적어도 한 서브프레임 유닛을 선택하는 수단을 포함함을 특징으로 하는 인코딩 장치.
  26. 제25항에 있어서,
    상기 스피치 신호를 복수의 프레임들로 나누기 위한 수단과 복수의 프레임들 중 적어도 하나를 적어도 두 서브프레임 유닛들로 나누기 위한 수단은 인코더를 포함하고;
    상기 서치하는 수단은, 인코더와, 코드북이 저장된 컴퓨터 판독가능 메모리에 연결된 프로세서를 포함하고;
    상기 선택하는 수단은 상기 프로세서를 포함함을 특징으로 하는 인코딩 장치.
  27. 제25항에 있어서,
    상기 고정 코드북 기여도 없이 한 고정 피치 이득을 서브프레임에 인가하는 이득 수단을 더 포함함을 특징으로 하는 인코딩 장치.
  28. 제27항에 있어서,
    현재의 프레임 에너지 및 이전 프레임 에너지에 기초해 상기 고정 피치 이득을 산출하는 프로세싱 수단을 더 포함함을 특징으로 하는 인코딩 장치.
  29. 제28항에 있어서, 상기 프로세싱 수단은,
    1 이하로 제한되는
    Figure 112007040406948-pct00013
    으로서 산출되고,
    Figure 112007040406948-pct00014
    Figure 112007040406948-pct00015
    는 각각 이전 프레임과 현재 프레임의 임펄스 응답을 나타내는 고정 피치 이득을 산출함을 특징으로 하는 인코딩 장치.
  30. 제25항에 있어서,
    어떤 적어도 한 서브프레임이 고정 코드북 기여도를 가지지 않고 코딩되었는지를 가리키도록 프레임 내에 적어도 한 비트를 세팅하는 수단을 더 포함함을 특징으로 하는 인코딩 장치.
  31. 제25항에 있어서, 상기 서브프레임 유닛들은 하프-프레임들을 포함함을 특징으로 하는 인코딩 장치.
  32. 제25항에 있어서, 상기 서브프레임 유닛들은 1/4 프레임들을 포함함을 특징으로 하는 인코딩 장치.
  33. 디코더에 있어서,
    코드북에 연결된 제1입력; 및
    적어도 두 서브프레임 유닛들을 구비한, 스피치 신호의 인코딩 프레임을 수신하기 위한 제2입력을 포함하고,
    상기 수신된 인코딩 프레임에 대해, 고정 코드북 기여도 및 적응 코드북 기여도를 찾아 코드북을 서치하고, 고정 코드북 기여도 없는 서브프레임 유닛들 중 적어도 하나를 디코딩하도록 동작함을 특징으로 하는 디코더.
  34. 제33항에 있어서, 상기 디코더는 프레임 내 한 비트를 읽고, 그 비트에 근거해 어느 서브프레임 유닛이 고정 코드북 기여도 없이 디코딩될 것인지를 결정함을 특징으로 하는 디코더.
  35. 제33항에 있어서, 상기 서브프레임 유닛들은 하프 프레임들을 포함함을 특징으로 하는 디코더.
  36. 제33항에 있어서, 상기 서브프레임 유닛들은 1/4 프레임들을 포함함을 특징으로 하는 디코더.
  37. 인코더와 디코더를 구비한 통신 시스템에 있어서,
    상기 인코더는,
    코드북과 연결된 제1입력; 및
    전송될 스피치 신호를 수신하기 위한 제2입력을 포함하고,
    상기 수신된 스피치 신호를 위해, 코드북에서 고정 (fixed) 코드북 기여도 (contribution) 및 적응(적)(adaptive) 코드북 기여도를 서치하고, 그 스피치 신호를 적어도 두 서브프레임 유닛들을 구비한 한 프레임으로서 출력하도록 동작하고, 상기 고정 코드북 기여도 없이 프레임의 적어도 한 서브프레임 유닛을 인코딩하도록 더 동작함을 특징으로 하고,
    상기 디코더는,
    코드북에 연결된 제1입력; 및
    채널을 통해 수신되는, 적어도 두 서브프레임 유닛들을 구비한, 스피치 신호의 인코딩 프레임에 대한 제2입력을 포함하고,
    상기 수신된 인코딩 프레임에 대해, 고정 코드북 기여도 및 적응 코드북 기여도를 찾아 코드북을 서치하고, 고정 코드북 기여도 없는 인코딩 프레임의 서브프레임 유닛들 중 적어도 하나를 디코딩하도록 동작함을 특징으로 하는 통신 시스템.
  38. 제37항에 있어서,
    상기 고정 코드북 기여도 없는 서브프레임 유닛으로 고정 피치 이득을 인가하기 위한 증폭기를 더 포함함을 특징으로 하는 통신 시스템.
  39. 제38항에 있어서, 상기 고정 피치 이득은 현재의 프레임 및 이전 프레임의 에너지들에 기초해 산출됨을 특징으로 하는 통신 시스템.
  40. 제37항에 있어서, 상기 인코더는, 상기 고정 코드북 기여도가 있는 적어도 한 서브프레임 유닛과 고정 코드북 기여도가 없는 적어도 한 서브프레임 유닛의 제1조합을 어셈블하고, 고정 코드북 기여도가 없는 적어도 한 서브프레임 유닛과 고정 코드북 기여도를 가진 적어도 한 서브프레임의 제2조합을 어셈블하고; 제1 및 제2조합들 중 하나만을 출력하도록 동작함을 특징으로 하는 통신 시스템.
  41. 제40항에 있어서, 상기 인코더는, 어떤 서브프레임 유닛이 고정 코드북 기여도를 가지지 않고 인코딩되는지를 가리키는 프레임 내 한 비트를 세팅하도록 동작하고, 상기 디코더는 그 비트에 근거해 고정 코드북 기여도 없이 어느 서브프레임 유닛을 디코딩할지를 결정함을 특징으로 하는 통신 시스템.
  42. 제40항에 있어서, 상기 인코더는 제1 및 제2조합들에 걸친 에러 측정에 기초해 제1 또는 제2조합을 프레임으로서 출력함을 특징으로 하는 통신 시스템.
  43. 제42항에 있어서, 상기 에러 측정은 평균 제곱 측정을 포함함을 특징으로 하는 통신 시스템.
  44. 제37항에 있어서, 상기 서브프레임 유닛들은 하프 프레임들을 포함함을 특징으로 하는 통신 시스템.
  45. 제37항에 있어서, 상기 서브프레임 유닛들은 1/4 프레임 유닛들을 포함함을 특징으로 하는 통신 시스템.
KR1020077012487A 2004-11-03 2005-11-02 저 비트 레이트 스피치 코딩 방법 및 장치 KR100929003B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US62499804P 2004-11-03 2004-11-03
US60/624,998 2004-11-03
US11/265,440 US7752039B2 (en) 2004-11-03 2005-11-01 Method and device for low bit rate speech coding
US11/265,440 2005-11-01
PCT/IB2005/003260 WO2006048733A1 (en) 2004-11-03 2005-11-02 Method and device for low bit rate speech coding

Publications (2)

Publication Number Publication Date
KR20070085673A KR20070085673A (ko) 2007-08-27
KR100929003B1 true KR100929003B1 (ko) 2009-11-26

Family

ID=36318930

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077012487A KR100929003B1 (ko) 2004-11-03 2005-11-02 저 비트 레이트 스피치 코딩 방법 및 장치

Country Status (10)

Country Link
US (1) US7752039B2 (ko)
EP (1) EP1807826B1 (ko)
KR (1) KR100929003B1 (ko)
CN (1) CN101080767B (ko)
AT (1) ATE521961T1 (ko)
AU (1) AU2005300299A1 (ko)
BR (1) BRPI0518004B1 (ko)
CA (1) CA2586209C (ko)
HK (1) HK1109950A1 (ko)
WO (1) WO2006048733A1 (ko)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10931338B2 (en) 2001-04-26 2021-02-23 Genghiscomm Holdings, LLC Coordinated multipoint systems
US10644916B1 (en) 2002-05-14 2020-05-05 Genghiscomm Holdings, LLC Spreading and precoding in OFDM
US11184037B1 (en) 2004-08-02 2021-11-23 Genghiscomm Holdings, LLC Demodulating and decoding carrier interferometry signals
US11381285B1 (en) 2004-08-02 2022-07-05 Genghiscomm Holdings, LLC Transmit pre-coding
US20060176966A1 (en) * 2005-02-07 2006-08-10 Stewart Kenneth A Variable cyclic prefix in mixed-mode wireless communication systems
US8031583B2 (en) 2005-03-30 2011-10-04 Motorola Mobility, Inc. Method and apparatus for reducing round trip latency and overhead within a communication system
US20070058595A1 (en) * 2005-03-30 2007-03-15 Motorola, Inc. Method and apparatus for reducing round trip latency and overhead within a communication system
US7916686B2 (en) * 2006-02-24 2011-03-29 Genband Us Llc Method and communication network components for managing media signal quality
US8400998B2 (en) 2006-08-23 2013-03-19 Motorola Mobility Llc Downlink control channel signaling in wireless communication systems
CN101578508B (zh) 2006-10-24 2013-07-17 沃伊斯亚吉公司 用于对语音信号中的过渡帧进行编码的方法和设备
JP5238512B2 (ja) * 2006-12-13 2013-07-17 パナソニック株式会社 オーディオ信号符号化方法及び復号化方法
US8160872B2 (en) * 2007-04-05 2012-04-17 Texas Instruments Incorporated Method and apparatus for layered code-excited linear prediction speech utilizing linear prediction excitation corresponding to optimal gains
KR101235830B1 (ko) * 2007-12-06 2013-02-21 한국전자통신연구원 음성코덱의 품질향상장치 및 그 방법
KR101797033B1 (ko) * 2008-12-05 2017-11-14 삼성전자주식회사 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법
CN101599272B (zh) * 2008-12-30 2011-06-08 华为技术有限公司 基音搜索方法及装置
US8537724B2 (en) * 2009-03-17 2013-09-17 Motorola Mobility Llc Relay operation in a wireless communication system
WO2013096875A2 (en) * 2011-12-21 2013-06-27 Huawei Technologies Co., Ltd. Adaptively encoding pitch lag for voiced speech
US8972829B2 (en) * 2012-10-30 2015-03-03 Broadcom Corporation Method and apparatus for umbrella coding
JP6385936B2 (ja) * 2013-08-22 2018-09-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声符号化装置およびその方法
CN105917281B (zh) * 2014-01-22 2018-11-02 西门子公司 电气自动化设备的数字测量输入端以及电气自动化设备
KR101826237B1 (ko) * 2014-03-24 2018-02-13 니폰 덴신 덴와 가부시끼가이샤 부호화 방법, 부호화 장치, 프로그램 및 기록 매체
CN112992164A (zh) * 2014-07-28 2021-06-18 日本电信电话株式会社 编码方法、装置、程序以及记录介质
US10637705B1 (en) 2017-05-25 2020-04-28 Genghiscomm Holdings, LLC Peak-to-average-power reduction for OFDM multiple access
US10243773B1 (en) 2017-06-30 2019-03-26 Genghiscomm Holdings, LLC Efficient peak-to-average-power reduction for OFDM and MIMO-OFDM
TWI754104B (zh) 2017-10-02 2022-02-01 聯發科技股份有限公司 輸入位元分配的方法及其設備
CN111294147B (zh) * 2019-04-25 2023-01-31 北京紫光展锐通信技术有限公司 Dmr系统的编码方法及装置、存储介质、数字对讲机
WO2020242898A1 (en) 2019-05-26 2020-12-03 Genghiscomm Holdings, LLC Non-orthogonal multiple access

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5012518A (en) 1989-07-26 1991-04-30 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
US6014622A (en) 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
US6044339A (en) 1997-12-02 2000-03-28 Dspc Israel Ltd. Reduced real-time processing in stochastic celp encoding

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU727706B2 (en) * 1995-10-20 2000-12-21 Facebook, Inc. Repetitive sound compression system
GB2312360B (en) * 1996-04-12 2001-01-24 Olympus Optical Co Voice signal coding apparatus
KR100389895B1 (ko) 1996-05-25 2003-11-28 삼성전자주식회사 음성 부호화 및 복호화방법 및 그 장치
US7024355B2 (en) * 1997-01-27 2006-04-04 Nec Corporation Speech coder/decoder
WO1999026822A1 (de) * 1997-11-22 1999-06-03 Continental Teves Ag & Co. Ohg Elektromechanisches bremssystem
US6249758B1 (en) * 1998-06-30 2001-06-19 Nortel Networks Limited Apparatus and method for coding speech signals by making use of voice/unvoiced characteristics of the speech signals
US6397178B1 (en) * 1998-09-18 2002-05-28 Conexant Systems, Inc. Data organizational scheme for enhanced selection of gain parameters for speech coding
US6311154B1 (en) * 1998-12-30 2001-10-30 Nokia Mobile Phones Limited Adaptive windows for analysis-by-synthesis CELP-type speech coding
AU6533799A (en) 1999-01-11 2000-07-13 Lucent Technologies Inc. Method for transmitting data in wireless speech channels
US6449313B1 (en) * 1999-04-28 2002-09-10 Lucent Technologies Inc. Shaped fixed codebook search for celp speech coding
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US20040204935A1 (en) 2001-02-21 2004-10-14 Krishnasamy Anandakumar Adaptive voice playout in VOP
DE60233283D1 (de) * 2001-02-27 2009-09-24 Texas Instruments Inc Verschleierungsverfahren bei Verlust von Sprachrahmen und Dekoder dafer
US6996522B2 (en) * 2001-03-13 2006-02-07 Industrial Technology Research Institute Celp-Based speech coding for fine grain scalability by altering sub-frame pitch-pulse
US6789059B2 (en) * 2001-06-06 2004-09-07 Qualcomm Incorporated Reducing memory requirements of a codebook vector search
US6829579B2 (en) * 2002-01-08 2004-12-07 Dilithium Networks, Inc. Transcoding method and system between CELP-based speech codes

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5012518A (en) 1989-07-26 1991-04-30 Itt Corporation Low-bit-rate speech coder using LPC data reduction processing
US6014622A (en) 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
US6345248B1 (en) 1996-09-26 2002-02-05 Conexant Systems, Inc. Low bit-rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
US6044339A (en) 1997-12-02 2000-03-28 Dspc Israel Ltd. Reduced real-time processing in stochastic celp encoding

Also Published As

Publication number Publication date
BRPI0518004A (pt) 2008-10-21
BRPI0518004A8 (pt) 2016-05-24
EP1807826B1 (en) 2011-08-24
US7752039B2 (en) 2010-07-06
BRPI0518004B1 (pt) 2019-04-16
WO2006048733A1 (en) 2006-05-11
CA2586209A1 (en) 2006-05-11
HK1109950A1 (en) 2008-06-27
ATE521961T1 (de) 2011-09-15
CN101080767B (zh) 2011-12-14
AU2005300299A1 (en) 2006-05-11
EP1807826A4 (en) 2009-12-30
EP1807826A1 (en) 2007-07-18
US20060106600A1 (en) 2006-05-18
CN101080767A (zh) 2007-11-28
CA2586209C (en) 2014-01-21
KR20070085673A (ko) 2007-08-27

Similar Documents

Publication Publication Date Title
KR100929003B1 (ko) 저 비트 레이트 스피치 코딩 방법 및 장치
US8019599B2 (en) Speech codecs
RU2418323C2 (ru) Системы и способы для изменения окна с кадром, ассоциированным с аудио сигналом
AU2012246798B2 (en) Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor
EP2047464B1 (en) Systems, methods, and apparatus for wideband encoding and decoding of active frames
KR100718712B1 (ko) 복호장치와 방법 및 프로그램 제공매체
US6625226B1 (en) Variable bit rate coder, and associated method, for a communication station operable in a communication system
JP2015043096A (ja) マルチモードオーディオコーデックおよびそれに適応されるcelp符号化
US6940967B2 (en) Multirate speech codecs
JP2010501080A (ja) 音声信号に関連するパケットに識別子を含めるためのシステムおよび方法
US10607624B2 (en) Signal codec device and method in communication system
US7085712B2 (en) Method and apparatus for subsampling phase spectrum information
US7813922B2 (en) Audio quantization
EP1556979A1 (en) Variable rate speech codec
JP5199281B2 (ja) 第1のビット・レートに関連する第1のパケットを、第2のビット・レートに関連する第2のパケットにディミング(dimming)するシステム及び方法
US20050102136A1 (en) Speech codecs
EP2192578A1 (en) Communication terminal device, communication system, and communication method
Ikedo et al. A low complexity speech codec and its error protection

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121031

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20131101

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20141107

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20151016

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20161019

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20171018

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20181018

Year of fee payment: 10