KR20040102152A - 선 스펙트럴 주파수(lsf) 벡터들의 발생 - Google Patents

선 스펙트럴 주파수(lsf) 벡터들의 발생 Download PDF

Info

Publication number
KR20040102152A
KR20040102152A KR10-2004-7016961A KR20047016961A KR20040102152A KR 20040102152 A KR20040102152 A KR 20040102152A KR 20047016961 A KR20047016961 A KR 20047016961A KR 20040102152 A KR20040102152 A KR 20040102152A
Authority
KR
South Korea
Prior art keywords
lsf
line spectral
spectral frequency
frequency
vectors
Prior art date
Application number
KR10-2004-7016961A
Other languages
English (en)
Other versions
KR100914220B1 (ko
Inventor
알-나이미칼둔타하
비예뜨스테판
콘도즈아흐메트
Original Assignee
노키아 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 노키아 코포레이션 filed Critical 노키아 코포레이션
Publication of KR20040102152A publication Critical patent/KR20040102152A/ko
Application granted granted Critical
Publication of KR100914220B1 publication Critical patent/KR100914220B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Amplifiers (AREA)
  • Oscillators With Electromechanical Resonators (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Control Of Eletrric Generators (AREA)

Abstract

바람직한 벡터 출력 레이트로써 음성 신호로부터 선 스펙트럴 주파수(LSF) 벡터를 생성하기 위한 방법이 제공된다. 신호 에일리어싱 문제 및 시스템의 복잡성을 완화하기 위하여, 오디오 신호들의 샘플들로부터 선형 예측 계수(LPC)들을 연산하고 상기 원하는 벡터 레이트보다 높은 레이트로 선형 예측 계수(LPC)로부터 선 스펙트럴 주파수(LSF) 벡터를 추출하는 단계를 포함하는 방법이 제공되는데, 상기 선 스펙트럴 주파수(LSF) 벡터들은 상이한 선 스펙트럴 주파수(LSF) 파라미터들의 값을 포함한다. 그러면, 상기 선 스펙트럴 주파수(LSF) 파라미터들 중 적어도 하나에 대한 선 스펙트럴 주파수(LSF) 트랙들이 형성된다. 그러면, 형성된 선 스펙트럴 주파수(LSF) 트랙들의 적어도 하나는 저대역 통과 필터링된다. 최종적으로 상기 저대역 통과 필터링된 선 스펙트럴 주파수(LSF) 트랙들로부터 데시메이션된 선 스펙트럴 주파수(LSF) 벡터들이 재구성되는데, 상기 데시메이션된 개수는 상기 바람직한 벡터 레이트에 상응한다.

Description

선 스펙트럴 주파수(LSF) 벡터들의 발생{Generating LSF vectors}
음성 신호와 같은 오디오 신호들을 효과적으로 송신단으로부터 수신단으로 송신할 수 있도록 하기 위하여, 당업계에는 송신단에서 음성을 스펙트럴 포락선(spectral envelope) 및 여기 신호(excite signal)로 분리하는 기술이 공지되었다. 그러면, 스펙트럴 포락선 및 여기 신호는 모두 양자화되고 상응하는 비트 스트림 형태로 수신단에 전달된다.
음성의 단기간 스펙트럴 포락선의 표현식을 획득하기 위한 공통적인 기술은 선형 예측 계수(Linear Predictive Coefficient, LPC) 필터링이다. 그러나, 결과적으로 발생되는 선형 예측 계수(LPC)들 자체는 양자화 노이즈에 대한 견실성이 부족하고, 그럼으로써 필터 불안정성 문제가 발생될 수 있다. 그러므로, 선형 예측계수(LPC)들을 송신을 위하여 다른, 더욱 적합한 파라미터인 선 스펙트럴 주파수(LSF) 파라미터들로 변환하는 기술이 제안되었는데, 이 기술은 예를 들면 Itakura에 의하여 "음성 신호의 선형 예측 계수들의 선 스펙트럼 표현(Line spectrum representation of linear predictive coefficients of speech signals)", J. Acoust, Soc. Amer. Vol. 57, p.S35. Apr 1975에 소개되었다. 이러한 선 스펙트럴 주파수(LSF) 파라미터들은 선스펙트럴 쌍(line spectral pair)라고 불리기도 하는데, 양자화 노이즈에 대하여 견실할 뿐만 아니라 다른 매력적인 특징들을 제공한다.
선형 예측 계수로부터 선 스펙트럴 주파수(LSF) 파라미터를 추출할 때, 시간 도메인으로부터 주파수 도메인으로 신호를 변환하기 위하여 샘플링 이론 및 데시메이션 이론(decimation theory)이 고려되어야 한다.
샘플링 이론에 따르면, 만일 시간 도메인의 신호x a (t)가 대역 제한된 푸리에 변환X a (Ω)을 포함하고, Ω≥2π*F인 영역에서(F는 특정 주파수)X a (Ω)=0 의 관계를 만족하면, 이 신호x a (t)는 동일 거리만큼 이격된 샘플들x a (nT)로부터 고유하게 재구성될 수 있다(여기서 -∞<n<∞ 이며 T는 시간 도메인에서의 간격으로서를 만족한다).
반면에, 데시메이션 이론은 시간 도메인 신호의 높은 샘플링 레이트로부터, 현재 레이트를 M(M≥1)이라는 인수로써 나눔으로써, 스펙트럴 중첩(spectraloverlapping)을 일으키지 않은 채 낮은 레이트로 변환하는 것이 가능한지에 대하여 정의하는 이론이다.
예전의 보코더(vocoder)에서, 상이한 선 스펙트럴 주파수(LSF) 파라미터 값들을 포함하는 선 스펙트럴 주파수(LSF) 벡터들이, 전형적으로 특정 레이트에서 160 내지 240개의 샘플들의 크기를 가지는 윈도우(해밍과 같은)를 이용하여 윈도우된 음성에 대하여 예측된 선형 예측 계수(LPC)로부터 추출되는데, 이 경우 예를 들면, 20, 10 또는 심지어 5 ms 정도의 시간 간격으로 추출된다. 데시메이션 측면에서 볼 때, 이것은 더욱 높은 빈도로 추출된 선 스펙트럴 주파수(LSF) 벡터들(예를 들면 선형 예측 계수(LPC) 분석 윈도우의 중심을 한번에 한 샘플씩 천이 시킴에 의하여 모든 음성 샘플에 대하여 연산된 선 스펙트럴 주파수(LSF) 벡터를, 요구되는 선 스펙트럴 주파수(LSF) 벡터 레이트(예를 들어, 언급된 레이트들 중 하나)로 데시메이션하는 것과 유사하다.
본 발명은 일반적으로 오디오 신호의 인코딩에 관한 것이고, 특히 원하는 벡터 출력 레이트를 가지고 오디오 신호로부터 선 스펙트럴 주파수(Line Spectral Frequency, LSF) 벡터들을 발생하기 위한 방법에 관한 것이다. 또한, 본 발명은 상응하는 이동국, 상응하는 인코더, 상응하는 칩, 상응하는 통신망, 상응하는 통신 시스템, 상응하는 컴퓨터 프로그램 및 상응하는 컴퓨터 프로그램 생성물에 관한 것이다.
이하, 본 발명은 첨부된 도면을 참조하여 실시예에 대해서 더욱 상세히 설명될 것이다.
도 1은 본 발명에 따른 방법의 제1 실시예를 예시하는 흐름도이다.
도 2 내지 도 5는 선 스펙트럴 주파수(LSF) 파라미터(트랙)들의 시간상 변화를 비교하는 도면으로서, 모든 샘플들은 제안된 저대역 통과 필터링 기법을 거치고 및 거치지 않은 상태로 추출되고, 여기는 제1, 제4, 제7 및 제10 선 스펙트럴 주파수(LSF) 트랙이 도시된다.
도 6 내지 도 10은 종래 기술에 의한 코더(coder) 및 본 발명에 따른 코더를 이용하여 20 ms 당 한 벡터, 5 ms 당 한 벡터, 10 ms 당 한 벡터, 30 ms 당 한 벡터 및 40 ms 당 한 벡터 씩의 선 스펙트럴 주파수(LSF) 벡터 추출 레이트에 대한상이한 예측 파라미터들과 함께 발생되는 잔여(residual) 선 스펙트럴 주파수(LSF)의 변화를 비교하는 도면이다.
도 11은 종래 기술에 의한 코더를 사용할 경우 및 본 발명에 따른 코더를 사용할 경우의 상이한 예측 파라미터들과 함께 발생되는 WMSE를 비교하는 도면이다.
도 12는 종래 기술에 의한 코더를 사용할 경우 및 본 발명에 따른 코더를 사용할 경우의 상이한 예측 파라미터들과 함께 발생되는 평균 SD를 비교하는 도면이다.
도 13은 종래 기술에 의한 코더를 사용할 경우 및 본 발명에 따른 코더를 사용할 경우의 상이한 예측 파라미터들과 함께 발생되는 2dB 아웃라이어(outliers)를 % 단위로 비교하여 나타낸 도면이다.
도 14는 종래 기술에 의한 코더를 사용할 경우 및 본 발명에 따른 코더를 사용할 경우의 상이한 코드북 비트와 함께 발생되는 WMSE를 비교하는 도면이다.
도 15는 종래 기술에 의한 코더를 사용할 경우 및 본 발명에 따른 코더를 사용할 경우의 상이한 코드북 비트와 함께 발생되는 평균 SD를 비교하는 도면이다.
도 16은 종래 기술에 의한 코더를 사용할 경우 및 본 발명에 따른 코더를 사용할 경우의 상이한 코드북 비트와 함께 발생되는 2dB 아웃라이어(outliers)를 % 단위로 비교하여 나타낸 도면이다.
도 17은 도 16에 도시된 2dB 아웃라이어를 %로 나타낸 것을 코드북 비트의 선택된 범위에 대하여 상세히 도시하는 도면이다.
도 18은 각 오디오 샘플을 위하여 선 스펙트럴 주파수(LSF) 벡터가 추출되는선 스펙트럴 주파수(LSF) 트랙의 주파수 스펙트럼에서의 에너지 분포를 예시하는 도면이다.
도 19는 도 19에 도시된 로그 단위의 진폭 스펙트럼 변화를 도시하는 도면이다.
본 발명의 일 목적은, 시간 영역에서의 고주파 변이(high-frequency variations)를 감소시킴으로써 선 스펙트럴 주파수(LSF) 벡터들의 코딩 효율을 개선하는 것이다.
본 발명의 다른 목적은, 사용 가능한 오디오 신호들로부터 선 스펙트럴 주파수(LSF) 벡터를 발생시킬 때 에일리어싱(aliasing)에 의하여 발생되는 신호 왜곡을 감소시킬 수 있는 가능성을 제공하는 것이다.
또한, 본 발명의 다른 목적은 낮은 복잡도를 가지는 선 스펙트럴 주파수(LSF) 벡터 추출 방법을 제공하는 것이다.
전술된 바와 같은 본 발명의 목적들은 바람직한 벡터 출력 레이트를 가지고 오디오 신호로부터 선 스펙트럴 주파수(LSF) 벡터를 발생하기 위한 방법에 의하여 달성된다. 제안된 방법은 오디오 신호들의 샘플들로부터 선형 예측 계수(LPC)를 연산하는 제1 단계를 포함한다. 연산된 선형 예측 계수(LPC)들로부터, 원하는 벡터 출력 레이트보다 높은 추출 레이트를 가지고 선 스펙트럴 주파수(LSF) 벡터가 추출된다. 추출된 선 스펙트럴 주파수(LSF) 벡터들은 상이한 선 스펙트럴 주파수(LSF) 파라미터들의 값을 포함한다. 다음 단계에서, 선 스펙트럴 주파수(LSF) 파라미터들 중 적어도 하나에 대한 선 스펙트럴 주파수(LSF) 트랙이 형성된다. 전술된 바와 같이, 선 스펙트럴 주파수(LSF) 트랙은 시간 상에서 개별 선 스펙트럴 주파수(LSF) 파라미터의 값을 나타낸다. 그러면, 형성된 선 스펙트럴 주파수(LSF) 트랙들 중 적어도 하나는 소정의 컷오프 주파수를 가지고 저대역 통과 필터링된다. 최종적으로, 저대역 통과 필터링된 선 스펙트럴 주파수(LSF) 트랙들로부터 데시메이션된 개수의 선 스펙트럴 주파수(LSF) 벡터들을 재구성함으로써 원하는 벡터 출력 레이트를 가지고 선 스펙트럴 주파수(LSF) 벡터들이 획득되는데, 데시메이션된 개수는 원하는 벡터 출력 레이트에 상응한다.
또한, 본 발명의 목적들은, 제안된 방법의 각 단계들을 수행하기 위한 처리 수단을 포함하는 이동국, 인코더, 칩 및 인코더를 포함하는 통신망에 의하여 달성된다. 또한, 본 발명의 목적들은 통신망 및 이동국을 포함하는 통신 시스템으로서, 이들 중 적어도 하나는 제안된 방법의 각 단계들을 수행할 수 있는 수단을 포함하는 통신 시스템에 의하여 달성된다.
최종적으로, 본 발명의 목적들은 컴퓨터 프로그램 및 컴퓨터 프로그램 생성물로서, 이러한 컴퓨터 프로그램을 저장하기 위한 저장 수단으로서의 기계적 독출 가능한 캐리어(carrier)를 포함하는 컴퓨터 프로그램 생성물에 의하여 달성된다. 두 가지 경우 모두에 대하여, 컴퓨터 프로그램은 처리 유닛에서 실행될 때, 본 발명에 따른 방법의 각 단계들을 수행하는 프로그램 코드를 포함한다.
오디오 데이터라는 단어는 음성 데이터 및 다른 오디오 데이터를 포함하는 것으로 사용되었음이 이해되어야 한다.
본 발명은 선 스펙트럴 주파수(LSF) 트랙의 원치 않은 에일리어싱 현상이 적합한 대역폭 관리(bandwidth management)를 통하여 감소될 수 있다는 착안으로부터 발전된다. 이러한 대역폭 관리에서, 재구성된 신호들이 더 낮은 레이트로 샘플링을 수행할 때 더 높은 주파수 대역에 존재하는 에너지에 의하여 왜곡되지 않을 것이 보장되어야 한다. 본 발명에 따르면, 이것은 원하는 출력 레이트보다 높은 추출 레이트를 가지고 선형 예측 계수(LPC)들로부터 선 스펙트럴 주파수(LSF) 벡터들을 우선 추출함으로써 보장된다. 그러면, 더 높은 추출 레이트를 가지는 선 스펙트럴 주파수(LSF) 벡터들이, 더 높은 추출 레이트를 가지고 추출된 선 스펙트럴 주파수(LSF) 벡터들에서 발생되는 스펙트럼들을 저대역 통과 필터링한 후 바람직한 출력 레이트로 단순히 데시메이션 된다. 본 발명에 따른 저대역 통과 필터링의 기대하지 않지만 놀라운 효과로서, 선 스펙트럴 주파수(LSF) 트랙들의 품질이 향상될 수 있다.
당업자는 선 스펙트럴 주파수(LSF) 트랙들을 저대역 통과 필터링하는 것이 오디오 신호 품질을 개선하거나 열화시킬 것을 기대하지 않을 것이다. 그 이유는 정지 음성(stationary speech)에 대해서는 에일리어싱이 문제가 되지 않을 것이기 때문이다. 본 발명을 연구하는 과정에서, 비고정성에 기인한 에일리어싱이 큰 문제가 되지 않으며, 본 발명이 이러한 에일리어싱을 명백히 감소시킴에 반하여 오디오 신호의 차이는 그다지 크지 않다는 것이 진실로 증명되었다. 그러므로, 신호의 품질을 유지시키는 것과 동시에 최종 선 스펙트럴 주파수(LSF) 벡터들로부터 불필요한 정보를 제거한다는 것이 본 발명의 장점 중 하나이다.
제거된 정보들은 더 높은 인터-프레임 상관관계(correlation)를 야기한다. 그리하여 양자화가 더 용이하게 실시될 수 있으며, 이에 따라 코드북 비트 할당이 감소되기 때문에 선 스펙트럴 주파수(LSF) 파라미터들을 더 높은 효율로 패킹(packing)하는 것이 가능해진다.
양자화가 개선되면, 음성 품질 및 현재 시스템의 지능성(intelligibility)을 유지한 채, 비트 레이트를 감소시킬 수 있다. 현재의 음성 보코더는 약 2.4 kbps보다 낮거나 이와 같은 매우 낮은 비트 레이트로 동작하며, 모든 가능한 비트들의 거의 전부를 선형 예측 계수(LPC) 및 스펙트럴 진폭과 같은 스펙트럴 파라미터들에 할당한다. 예를 들어, "2.4/1.2 kbps 분할-대역 선형 예측 계수(LPC) 코딩을 위한 효율적인 파라미터 양자화(Efficient Parameter Quantisation for 2.4/1.2 kbps Split-Band LPC Coding"), IEEE Workshop on Speech Coding, Dalavan, Wisconsin, USA, 17-20 September 2000, S. Villette, Y. D. Cho 및 A. M. Kondoz 는 Surrey대학의 중앙 통신 시스템 연구원에서 개발된 1.2/2.4 kbps 분할 대역 LPC(Split Band LPC, SBLPC) 보코더에 대하여 기술하는데, 이 보코더에서는 사용 가능한 비트수의 60%에 달하는 비트수가 스펙트럴 파라미터를 나타내기 위하여 사용된다.
본 발명의 바람직한 실시예들은 종속항들로부터 명백해질 것이다.
바람직하게는, 저대역 통과 필터링의 컷오프 주파수는 바람직한 최종 선 스펙트럴 주파수(LSF) 벡터 추출 레이트에 기반하여 선택된다. 예를 들어, 컷오프 주파수는 각 5ms 당 한 벡터에 해당하는 원하는 최종 선 스펙트럴 주파수(LSF) 벡터 추출 레이트의 경우에 100Hz로 설정되어야 하고, 최종 선 스펙트럴 주파수(LSF) 벡터 추출 레이트가 10 ms 당 한 벡터의 비율이라면 50Hz로 설정되어야 하며, 원하는 최종 선 스펙트럴 주파수(LSF) 벡터 추출 레이트가 20 ms 당 한 벡터의 비율이라면 25Hz로 설정되어야 한다. 그러므로, 컷오프 주파수는 벡터 추출 레이트의 절반에 상응한다.
저대역 통과 필터링은 시간 도메인 또는 주파수 도메인 중 하나에서 선 스펙트럴 주파수(LSF) 트랙에 적용될 수 있다.
발생되는 최소 신호 왜곡은 선 스펙트럴 주파수(LSF) 벡터들이 모든 오디오 샘플에 대하여 선형 예측 계수(LPC)들로부터 추출될 때(이 경우 저대역 통과 필터링이 모든 발생된 선 스펙트럴 주파수(LSF) 트랙들에 적용될 때 선형 예측 계수(LPC) 분석 윈도우의 중심을 한번에 한 샘플씩 천이 시킴에 의하여 추출된다) 본 발명에 따른 방법에 의하여 예측될 수 있다. 그러나, 시스템의 복잡도를 낮추기 위하여, 저대역 통과 필터링을 선 스펙트럴 주파수(LSF) 트랙들 중 선택된 것들에만 적용하는 것 역시 가능하다. 복잡도를 다른 방법으로 낮추거나 추가적으로 낮추기 위하여, 선 스펙트럴 주파수(LSF) 벡터들의 원하는 최종 출력 레이트를 위하여 요구되는 것보다 많은 선 스펙트럴 주파수(LSF) 벡터들이 선형 예측 계수(LPC)들로부터 추출되는 한, 샘플들 모두가 아닌 더 적은 수의 샘플들에 대하여 선 스펙트럴 주파수(LSF)를 추출하는 것 역시 가능하다.
특히, 본 발명에 따른 방법은 무선 인터페이스를 통하여 송신단으로부터 수신단으로 송신될(예를 들어, 통신망의 송수신기로부터 통신망에 접속된 이동국의 송수신기로 송신되거나, 이와 반대 방향으로 송신될) 오디오 데이터를 인코딩하기 위하여 채택되는 보코더 내에 구현될 수 있다.
예시를 위하여, 우선 음성 샘플들로부터 선 스펙트럴 주파수(LSF) 벡터들이 추출되는 실험예가 설명될 것이다. 이러한 실험에서, 선형 예측 계수(LPC)들은 10차 차수의 선형 예측 계수(LPC) 필터를 이용하여 200개의 샘플 길이를 가지는 해밍 윈도우된(Hamming windowed) 음성 데이터로부터의 모든 샘플에 대하여 연산된다. 더 자세하게는, 이러한 선형 예측 계수(LPC)들은 선형 예측 계수(LPC) 분석 윈도우의 중심을 한번에 한 샘플씩 천이 시킴으로써 연산되었다. 그러므로, 획득된 선형 예측 계수(LPC)들에 대하여 15Hz의 대역폭 확장이 수행되었다. 그러면, 이 선형 예측 계수(LPC)들로부터, 선 스펙트럴 주파수(LSF) 벡터들이 모든 샘플들로부터 추출된다. 더 나아가, 선 스펙트럴 주파수(LSF) 벡터들은 상이한 선 스펙트럴 주파수(LSF) 파라미터들로 스플릿(split)되는데, 이러한 파라미터들 각각을 시간 상에서 구한 것은 선 스펙트럴 주파수(LSF) 트랙이라고 불리기도 한다. 10차 차수의 선형 예측 계수(LPC) 필터가 사용되었기 때문에, 스플릿한 결과는 10개의 선 스펙트럴 주파수(LSF) 트랙을 발생시킨다. 모든 선 스펙트럴 주파수(LSF) 트랙들의 스펙트럼은 100Hz 미만의 낮은 주파수 대역에 자신의 에너지의 거의 전부를 집중시키는데, 이는 도 18 및 도 19에 도시된 바와 같다.
도 18에서, 10개의 선 스펙트럴 주파수(LSF) 트랙들의 dB 단위의 진폭이 0Hz 내지 4000 Hz 범위의 Hz 단위의 주파수 상에서 도시된다. 도 19는 8Hz 내지 120Hz 범위의 주파수 범위에 대하여 도 18에 도시된 로그 단위의 진폭 스펙트럼 변이를 예시한다. 모든 선 스펙트럴 주파수(LSF) 트랙에 대하여 주파수를 증가시킴에 따라 유사한 모양으로 진폭이 감소되고, 그러므로 각 선 스펙트럴 주파수(LSF) 트랙들에 대한 10개의 개별 곡선이 도시되지 않는다. 본 발명에서, 만일 선 스펙트럴 주파수(LSF) 벡터들이 감소된 벡터 출력 레이트로 데시메이션된다면, 특정 주파수 한계 이상의 주파수 대역 내의 에너지의 합이 스펙트럴 에일리어싱을 일으킨다는 것에 주의한다. 이러한 주파수 한계는 샘플링 이론에 따라 선택된 데시메이션 레이트에 의존한다. 도 19에 도시된 주파수 범위는, 20 ms 선 스펙트럴 주파수(LSF) 당 한 개의 벡터, 10 ms 선 스펙트럴 주파수(LSF) 당 한 개의 벡터 및 5 ms 선 스펙트럴 주파수(LSF) 당 한 개의 벡터와 같은 벡터 추출 레이트에 대한 관심 영역을 구성한다. 예를 들어, 만일 시스템이 20ms 당 한 개의 벡터에 해당하는 추출 레이트로 선 스펙트럴 주파수(LSF) 벡터를 연산한다면, 25Hz보다 높은 주파수 대역 내의 모든 에너지가 스펙트럴 에일리어싱 소스(source)가 될 것이며, 부정확한 선 스펙트럴 주파수(LSF) 파라미터 추출이 일어날 것이다.
종래 기술에 의하면, 음성 분석 작업은 분석 윈도우 내의 음성 세그먼트들은 정적(stationary)이라는 가정에 기반하여 수행된다. 그러므로, 선 스펙트럴 주파수(LSF) 트랙의 스펙트럼들 내의 고주파 성분의 소스는 이러한 가정이 성립되지 않을 수 있으며, 진실로 정적인 음성의 선 스펙트럴 주파수(LSF) 트랙의 경우와는 반대로 데시메이션 동안에 어떤 에일리어싱이 발생될 수 있다. 그러므로, 본 발명은 종래 기술에 비하여 본 발명에 따른 방법 내의 에일리어싱의 감소에 기인한 신호 품질에 대한 기대하지 않은 장점을 제공한다.
후술되는 [표 1]은 상이한 3개의 주파수 대역에 대하여 도 18 및 도 19를 참조하여 전술된 바와 같은 실험에서 각 선 스펙트럴 주파수(LSF) 트랙에 발생되는 에너지의 백분율을 상세히 도시한다. 특히, 3개의 주파수 대역은 0 Hz 내지 25 Hz의 대역, 25Hz 내지 50Hz의 주파수 대역 및 50Hz 이상의 주파수 대역에 해당한다. 음성 데이터로서, 각각 2개의 문장을 읽은 4명의 남성 및 4명의 여성 화자의 음성이 사용되었다. 25 Hz 대역 이하의 주파수 대역 내의 에너지는, 20 ms 당 한 개의 벡터에 해당하는 벡터 추출 레이트를 이용할 경우에는 전술된 바와 같은 샘플링 이론에 따라서 스펙트럼의 중첩을 야기하지 않고, 10 ms 당 한 개의 벡터에 대항하는 선 스펙트럴 주파수(LSF) 벡터 레이트를 이용할 때는 50 Hz 이하의 주파수 대역 내의 에너지는 왜곡을 야기하지 않는다.
LSF파라미터들 대역당 에너지(%)
25Hz 이하 25-50Hz 50Hz 이상
LSF1 94.52 4.24 1.24
LSF2 95.44 3.61 0.95
LSF3 96.67 2.71 0.62
LSF4 96.81 2.56 0.63
LSF5 98.10 1.51 0.38
LSF6 97.46 1.99 0.55
LSF7 96.36 2.88 0.76
LSF8 95.54 3.28 1.18
LSF9 94.64 4.41 1.22
LSF10 92.72 3.67 3.31
[표 1]로부터, 에너지의 92% 이상이 25 Hz 이하의 주파수 대역에 존재한다는 것을 알 수 있으며, 이것은 20ms 당 한 개의 벡터에 해당하는 벡터 추출 레이트를 이용할 경우에는 적합한 대역이다. 더 나아가, 25 Hz 이상의 주파수 대역에 존재하는 8% 이하의 잔여 에너지도 선 스펙트럴 주파수(LSF) 파라미터 추출 동작에 오류를 야기하기에 충분하다. 10 ms 당 한 개의 벡터에 상응하는 추출 레이트의 경우에, 50Hz 이상의 상응하는 주파수 대역 내의 에너지는 4%보다 작다.
도 1에 도시된 흐름도는 본 발명에 따른 방법의 제1 실시예를 예시한다. 예를 들어, 이러한 방법은 통신망의 보코더의 처리 수단 내의 컴퓨터 프로그램 형태로 구현될 수 있는데, 여기서 보코더는 통신망으로부터 이동국으로 송신되어야 하는 음성 데이터를 인코딩하는데 사용된다.
본 발명에 따른 방법의 제1 단계에서, 음성 샘플들이 처리 수단에 제공된다. 이러한 음성 샘플들에 기반하여, 200개의 샘플에 해당하는 개별 크기를 가지는 해밍 윈도우된 음성 데이터에 대하여 10차 차수의 선형 예측 계수(LPC) 필터를 이용하여 선형 예측 계수(LPC) 분석 윈도우의 중심을 한번에 한 샘플씩 천이 시킴으로써 모든 샘플에 대한 선형 예측 계수(LPC)가 연산된다. 연산된 선형 예측 계수(LPC)들은 제2 단계에서 15 Hz 대역폭 확장된다. 이와는 다른 차수의 필터, 다른 윈도우 타입 및 크기 및 상이한 대역폭 확장이 역시 채택될 수 있거나 대역폭 확장이 사용되지 않을 수 있다는 것이 이해된다.
제3 단계에서, 각 샘플에 대하여 대역폭 확장된 선형 예측 계수(LPC)들로부터 선 스펙트럴 주파수(LSF) 벡터들이 추출된다. 그러므로, 획득된 선 스펙트럴주파수(LSF) 벡터 레이트는 이 시점에서 원 음성 샘플들의 레이트와 상응하는데, 즉, 추출 레이트가 샘플링 레이트와 동일하게 된다.
그러면, 단계 4에서, 각 선 스펙트럴 주파수(LSF) 벡터를 위하여 개별 10개의 파라미터들로부터 선 스펙트럴 주파수(LSF) 트랙들이 생성된다.
이후에는, FFT 변환된 선 스펙트럴 주파수(LSF) 트랙들 각각이 주파수 도메인에서 분리되어 저대역 통과 필터링된다. 이러한 5 단계에서 사용되는 저대역 통과 필터링을 위해 채택되는 컷오프 주파수는 전술된 바와 같은 샘플링 이론에 원하는 최종 선 스펙트럴 주파수(LSF) 벡터 출력 레이트에 의존하여 선택된다. 예를 들어, 원하는 선 스펙트럴 주파수(LSF) 벡터 출력 레이트가 20ms 당 한 개의 벡터 꼴이라면, 25Hz의 컷오프 주파수가 선택된다. 또는, 저대역 통과 필터링 동작은 시간 도메인에서도 수행될 수 있다.
제 6 단계에서, 이러한 원하는 선 스펙트럴 주파수(LSF) 벡터 레이트를 가지고(즉, 이동국으로의 송신을 위하거나 저장하기 위하여 사용되어야 하는 레이트를 가지고) 저대역 통과 필터링된 선 스펙트럴 주파수(LSF) 트랙들로부터 선 스펙트럴 주파수(LSF) 벡터들이 데시메이션된다. 그러면, 결과적으로 발생되는 선 스펙트럴 주파수(LSF) 벡터들은 양자화되고 이동국으로 전송된다.
설명된 실시예에서 획득되는 스펙트럴 에일리어싱을 완화하는 것은 상이한 선 스펙트럴 주파수(LSF) 트랙들에 대하여 도 2 내지 도 5에서 예시된다. 이러한 도면들 각각은, 일면에서는 종래 방법을 이용한 실험에서 발생되는 선 스펙트럴 주파수(LSF) 트랙의 시간 상 변화를 나타내고, 다른 면에서는 도 1을 참조하여 설명되는 방법을 이용하여 수행된 실험에서 발생되는 동일한 선 스펙트럴 주파수(LSF) 트랙의 시간 상 변화를 도시한다.
종래 방법에서, 선 스펙트럴 주파수(LSF) 벡터들은 바람직한 선 스펙트럴 주파수(LSF) 벡터 레이트를 가지고 확장된 선형 예측 계수(LPC)로부터 직접 추출되었다.
본 발명에 따른 방법에 대해서, 도 1을 참조하여 전술된 바와 같은 단계 3 내지 단계 5가 대역폭 확장 동작 이후에 대신 수행되었다. 그러므로, 종래 방법과 달리, 데시메이션 이전의 사전-처리 단계로서 저대역 통과 필터링 동작이 도입되었다.
도 2는 10 개의 선 스펙트럴 주파수(LSF) 트랙들 중 첫 번째 트랙에 대한 시간 상 개별 변화를 도시하는 도면이다. 도 2는 "원 선 스펙트럴 주파수(원 LSF)"라고 표시된 큰 단시간 변화량을 가지는 제1 곡선을 포함한다. 이 곡선은 종래 기술에 의한 결과를 나타낸다. 또한 도 2는 "저대역 통과 필터링된 선 스펙트럴 주파수(LPF된 LSF)"라고 명명된 제2 곡선을 도시하는데, 이 곡선은 제1 곡선에 비하여 부드러우며 서서히 변화한다. 이러한 제2 곡선은 저대역 통과 필터링을 포함하는 본 발명에 따른 방법의 결과를 나타낸다.
도 3 내지 도 5는 10 개의 선 스펙트럴 주파수(LSF) 트랙들 중 네 번째, 7번째 및 10번째 트랙들에 대한, 유사한 차이점을 가지는 "원 LSF" 및 "LPF 된 LSF"라고 표시된 상응하는 곡선들을 도시한다. 종래 방법에서 나타나는 선 스펙트럴 주파수(LSF) 트랙들의 변화량은 선 스펙트럴 주파수(LSF) 파라미터들이 높아질수록더욱 명백해지는데, 즉, 도 4 및 도 5에 각각 도시된 바와 같은 제7 및 제10 선 스펙트럴 주파수(LSF) 트랙에서 더 명백해진다. 그러나, 본 발명에 따른 방법에서 나타나는 곡선들은 모두 동일하게 부드러우며 천천히 변화한다.
H. P. Knagenhjelm, W. B. Kleijn에 의한 "스펙트럴 왜곡보다 스펙트럴 동적 특징이 더 중요하다(Spectral dynamics is more important than spectral distortion)", 1995 International Conference on Acoustics, Speech, and Signal Processing. Conference Proceedings, IEEE. Part vol. 1, 1995, pp.732-5 vol.1. New York, NY, USA의 책에서, 책 제목에 맞게 스펙트럼의 동적 특징이 스펙트럴 왜곡(SD, spectral distortion)보다 중요하다는 것이 증명되었다. 또한, 스펙트럴 동적 특징은 낮은 레이트의 양자화를 가능하게 하는데, 이는 T. Eriksson, H-G Kang 및 P. Hedelin의 '스펙트럼 파라미터의 저속 양자화(Low-rate quantization of spectrum parameters.' 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings. IEEE. Part vol.3, 2000, pp.1447-50 vol.3, Piscataway, NJ, USA에 나타난 바와 같다. 본 발명에 의한 스펙트럴 동적 특징은 종래 방법에 의하여 발생된 트랙들에 비하여 저대역 통과 필터링된 트랙들 내에 더욱 잘 보존되는 것은 분명한데, 그 이유는 저대역 통과 필터링된 트랙들이 서서히 변화하기 때문이다.
선 스펙트럴 주파수(LSF) 트랙에 대하여 제안된 바와 같은 저대역 통과 필터링을 수행하는 것이 합성된 음성에 열화를 일으키지 않는다는 것을 증명하기 위하여, 선 스펙트럴 주파수(LSF) 벡터들은 20 ms 당 한 개의 벡터의 선 스펙트럴 주파수(LSF) 벡터 출력 레이트를 가지고 저대역 통과 필터링된 선 스펙트럴 주파수(LSF) 트랙들로부터 재구성되었다. 그 후, 비공식적인 듣기 테스트가 남성 및 여성 화자들 모두의 합성된 음성에 대하여 수행되었는데, 합성된 음성은 종래 기술에 의하여 발생된 선 스펙트럴 주파수(LSF) 벡터 및 저대역 통과 필터링을 거친 후의 선 스펙트럴 주파수(LSF) 트랙들로부터 추출된 선 스펙트럴 주파수(LSF) 벡터들로부터 발생된 것이었다. 테스트 결과, 두 개의 상이한 선 스펙트럴 주파수(LSF) 벡터들로부터 합성된 음성들 간에 품질 차이는 감지되지 않았다. 저대역 통과 필터링을 수행하면 더 부드럽고 느리게 변화하는 트랙들을 생성할 수 있기 때문에, 신호 품질을 유지함과 동시에 용이한 양자화에 대한 장점 및 그 결과로서 비트 세이빙(bit saving)을 통한 이득이라는 장점을 기대할 수 있다. 이제부터, 제안된 방법의 이와 같은 장점들이 1차 동적 평균(moving average, MA) 예측기(predictor) 및 벡터 양자화기(quantiser)로부터 시작하여 예시될 것이다.
1차 동적 평균(MA) 예측기는 다음 수학식 1에 의하여 제시된다.
여기서, 다음 수학식 2의 관계가 만족된다.
수학식 1에서,는 프레임 n에서의 i 번째 선 스펙트럴 주파수(LSF) 파라미터이고,는 프레임 n에서의 i 번째 선 스펙트럴 주파수(LSF) 예측 잔여량(prediction residual)을 나타내며,는 i 번째 선 스펙트럴 주파수(LSF) 파라미터 평균을 나타내고, α는 예측 파라미터를 나타낸다. 더 나아가,는 프레임 n에서의 궤환 선 스펙트럴 주파수(LSF) 예측 잔여량을 나타낸다. 수학식 1의 이러한 궤환 성분은 이전 프레임의 양자화된 잔여 선 스펙트럴 주파수(LSF) 예측을 이용하여 수학식 2에 따라 갱신된다.
종래 방법을 본 발명의 방법과 비교하기 위하여, 다양한 선 스펙트럴 주파수(LSF) 벡터 출력 레이트에서 종래 방법 및 본 발명을 이용하여 획득된 선 스펙트럴 주파수(LSF) 벡터 집합들에 대한 다양한 실험이 수행되었다. 특히, 이러한 실험들은 5 ms 당 한 개의 벡터와 같은 출력 레이트, 10 ms 당 한 개의 벡터와 같은 출력 레이트, 20 ms 당 한 개의 벡터와 같은 출력 레이트, 30 ms 당 한 개의 벡터와 같은 출력 레이트 및 40 ms 당 한 개의 벡터와 같은 출력 레이트에 대하여 수행되었다.
상이한 선 스펙트럴 주파수(LSF) 벡터 집합을 획득하기 위하여, 200 개의 샘플에 해당하는 길이를 가지는 해밍 윈도우에 의하여 윈도우되고 15 Hz로 대역폭 확장을 거친 음성의 모든 샘플들에 대하여 선형 예측 계수(LPC)들이 다시 연산되었다. 그런 이후에, 대역폭 확장된 선형 예측 계수(LPC)들로부터 선 스펙트럴 주파수(LSF) 벡터들이 추출되었다. 그리고, 각 선 스펙트럴 주파수(LSF) 트랙 상에 샘플링 이론에 따라 요구되는 최종 선 스펙트럴 주파수(LSF) 벡터 출력 레이트에 의존하는 컷오프 주파수를 이용하여 저대역 통과 필터링이 수행되었다. 그러므로, 컷오프 주파수는 5 ms 당 하나의 벡터와 같은 벡터 출력 레이트에 대해서는 100Hz로 설정되고, 10 ms 당 하나의 벡터와 같은 벡터 출력 레이트에 대해서는 50Hz로 설정되고, 20 ms 당 하나의 벡터와 같은 벡터 출력 레이트에 대해서는 25Hz로 설정되고, 30 ms 당 하나의 벡터와 같은 벡터 출력 레이트에 대해서는 16.7Hz로 설정되고, 40 ms 당 하나의 벡터와 같은 벡터 출력 레이트에 대해서는 12.5Hz로 설정되었다. 최종적으로, 저대역 통과 필터링된 선 스펙트럴 주파수(LSF) 트랙을 개별적으로 원하는 벡터 출력 레이트를 이용하여 데시메이션함으로써, 본 발명에 따른 방법을 이용하여 각 고려된 선 스펙트럴 주파수(LSF) 벡터 출력 레이트를 위하여 선 스펙트럴 주파수(LSF) 벡터들의 제1 집합이 발생되었다.
선 스펙트럴 주파수(LSF) 벡터들의 제2 집합이 고려된 각 선 스펙트럴 주파수(LSF) 출력 레이트에 대하여 종래 방법을 이용하여 발생되었는데, 즉, 확장된 선형 예측 계수(LPC)들로부터 원하는 벡터 출력 레이트를 가지고 선 스펙트럴 주파수(LSF) 벡터들을 직접 추출함으로써 발생되었다.
그러면, 전술된 실험에서 발생된 선 스펙트럴 주파수(LSF) 벡터 집합 각각에 대하여, 궤환 선 스펙트럴 주파수(LSF) 예측 잔여량이 상이한 예측 파라미터 α들을 이용하여 결정되었다. 수학식 1의 궤환 성분은 이전 프레임의 개별 비양자화(unquantised) 선 스펙트럴 주파수(LSF) 예측 잔여량을 이용하여 갱신되었다. 각 모의 동작의 최종 단계에서, 궤환 선 스펙트럴 주파수(LSF) 예측 잔여량의 변화가 각 선 스펙트럴 주파수(LSF) 벡터 집합에 대하여 결정되었다.
이러한 실험의 결과들이 도 6 내지 도 10에 도시되는데, 각 도면은 종래 방법 및 본 발명에 따른 방법을 이용하여 획득된 특정 선 스펙트럴 주파수(LSF) 벡터 출력 레이트를 위한 상이한 예측 파라미터들로부터 발생되는 궤환 선 스펙트럴 주파수(LSF) 예측 잔여량 의 변화를 도시한다. 각 도면에서, 원래의 종래 방법에 의하여 획득된 선 스펙트럴 주파수(LSF) 벡터에 기반한 제1 곡선은 "원 LSF"라고 명명되고, 저대역 통과 필터링된 선 스펙트럴 주파수(LSF) 트랙에 기반한 제2 곡선은 "LPF된 LSF"라고 표시된다.
도 6에서, 잔여 선 스펙트럴 주파수(LSF) 예측의 변화가 20 ms 당 한 개의 벡터에 해당하는 벡터 출력 레이트에 대하여 도시된다. 도 6에 도시된 바와 같이, 그 변화는 종래의 추출 방법의 경우에 비하여 저대역 통과 필터링 방법의 경우에 훨씬 낮다. 더 나아가, 최소 변화는 종래 방법을 이용할 경우에 비하여 저대역 통과 필터링 방법을 이용하여 더 높은 예측 파라미터 α 값을 이용할 때 얻을 수 있고, 이에 상응하는 예측 파라미터는 저대역 통과 필터링 방법의 경우에는 α≒0.8의 관계를 만족하고, 종래 방법의 경우에는 α≒0.7의 관계를 만족한다. 예측 파라미터 α의 더 높은 값을 이용한다는 것은, 본 발명에 따른 방법이 상호 관련성이더 높은 선 스펙트럴 주파수(LSF) 벡터를 발생시킨다는 것을 의미하는데, 이것은 종래 방법에 의하여 생성된 트랙들에 비하여 저대역 통과 필터링된 선 스펙트럴 주파수(LSF) 트랙들의 특징이 부드럽다는 사실에 기하여 기대된 바와 같은 것이다.
도 7에서, 잔여 선 스펙트럴 주파수(LSF) 예측의 상응하는 변화가 5ms 당 한 개의 벡터에 해당하는 벡터 출력 레이트에 대하여 도시된다. 도 8에서, 잔여 선 스펙트럴 주파수(LSF) 예측의 변화가 10 ms 당 한 개의 벡터에 해당하는 벡터 출력 레이트에 대하여 도시된다. 도 9에서, 잔여 선 스펙트럴 주파수(LSF) 예측의 변화가 30 ms 당 한 개의 벡터에 해당하는 벡터 출력 레이트에 대하여 도시된다. 최종적으로, 도 8에서 잔여 선 스펙트럴 주파수(LSF) 예측의 변화가 40 ms 당 한 개의 벡터에 해당하는 벡터 출력 레이트에 대하여 도시된다.
도 6 내지 도 10을 비교하면, 높은 선 스펙트럴 주파수(LSF) 출력 레이트를 사용할수록, 연속되는 선 스펙트럴 주파수(LSF) 벡터들 간의 상호 관련성이 더 높아진다는 것이 명백해지며, 이러한 특성은 최적 예측 파라미터 α 역시 커지게 한다.
또한, 도 6 내지 도 10으로부터, 선 스펙트럴 주파수(LSF) 잔여량의 변화는 선 스펙트럴 주파수(LSF) 벡터 출력 레이트에 관계없이 언제나 종래 기술에 의한 방법을 사용하는 것에 비하여 저대역 통과 필터링 방법을 사용할 때가 더 낮다는 것을 알 수 있다. 더 나아가, 선택된 선 스펙트럴 주파수(LSF) 벡터 출력 레이트가 무엇인지에 관계없이 저대역 통과 필터링된 선 스펙트럴 주파수(LSF) 벡터들은 천천히 변화하기 때문에 최적 예측 파라미터 α가 더 커진다. 그러므로, 연속되는집합들 간의 상호 관련성 역시 커진다. 상호 관련성이 커지고 변화량이 작아지면 양자화를 더 용이하게 수행할 수 있다.
전술된 바와 같은 실험들의 결과로부터, 종래 방법에 대한 것은 물론 본 발명에 따른 방법에 대한 선 스펙트럴 주파수(LSF) 출력 레이트들 각각에 대한 예측 이득이 결정될 수 있다.
예측 이득g는 다음 수학식 3에 의하여 얻어진다.
여기서 x0는 예측 인자 α가 0일 경우의 잔여 선 스펙트럴 주파수(LSF)의 변화량이고, xmin은 잔여 선 스펙트럴 주파수(LSF)의 최소 변화량이다.
예측 이득 g는 동적 평균(MA) 예측기를 사용함으로써 얻어지는 장점을 나타낸다. 예측 이득 g가 커질수록, 동적 평균(MA) 예측 양자화 기법을 이용함으로써 얻어지는 장점도 더 커진다.
표 2는 저대역 통과 필터링된 선 스펙트럴 주파수(LSF) 벡터 집합들에 대해서 상이한 선 스펙트럴 주파수(LSF) 벡터 출력 레이트에서 퍼센트 단위의 예측 이득 g의 값들을 나타낸다.
40ms 30ms 20ms 10ms 5ms
예측 이득(%) 29.55 33.82 36.53 43.34 49.75
표 3은 종래 방법을 이용하여 얻어진 선 스펙트럴 주파수(LSF) 벡터 집합들에 대해서 상이한 선 스펙트럴 주파수(LSF) 벡터 출력 레이트에서 퍼센트 단위의 예측 이득 g의 값들을 나타낸다.
40ms 30ms 20ms 10ms 5ms
예측 이득(%) 12.5 16.6 29.6 37.6 42.6
도 6 내지 도 10의 그래프와 일치하는 바와 같이, 표 2 및 표 3은 선 스펙트럴 주파수(LSF) 벡터 출력 레이트가 커질수록 예측 이득도 증가한다는 것을 예시하는데, 도 6 내지 도 10들에서 높은 선 스펙트럴 주파수(LSF) 벡터 출력 레이트는 연속되는 선 스펙트럴 주파수(LSF) 벡터들 간의 상호 관련성이 높아지는데 관련된다. 더 나아가, 표 2 및 표 3에서 저대역 통과 필터링 방법은 언제나 종래 추출 방법에 비하여 더 큰 예측 이득을 가진다는 것을 알 수 있다.
상호 관련성이 커지고 변화량이 작아지면 양자화를 용이하게 실시할 수 있다. 또한, 이러한 특성은 양자화의 비트수 감소를 야기하는데, 이에 대해서는 후술될 것이다.
네트워크로부터 이동국으로의 송신을 위하여 선 스펙트럴 주파수(LSF) 벡터들을 양자화하기 위하여, 벡터 양자화 코드북들이 이용된다.
평균 스펙트럴 왜곡(Spectral Distortion, SD), 2dB 아웃라이어(outlier) 퍼센트, 4dB 아웃라이어 퍼센트 및 가중치 평균 제곱 에러(Weighted Mean Square Error)와 같은 특정 왜곡 측정 방법에 관련하여 최적화된 벡터 양자화 코드북을 발생시키기 위하여 코드북 트레이닝이 채택될 수 있다. 2dB 아웃라이어 퍼센트는 얼마나 여러 번 스펙트럴 왜곡(SD)이 2dB을 초과하는지에 대한 측정치이고, 4dB 아웃라이어 퍼센트는 얼마나 여러 번 스펙트럴 왜곡(SD)이 4dB을 초과하는지에 대한 측정치이다.
적합한 코드북 트레이닝을 통하여, 제안된 방법은 종래의 선 스펙트럴 주파수(LSF) 코드북을 이용하여 획득된 동일한 왜곡 수치(distortion measure)를 유지하면서도 높은 비트 할당율(higher bit allocation)로 코드북 비트들을 저장하도록 허용한다는 것이 예시될 것이다.
예시적인 코드북 트레이닝 전략에서와 같이, 1차 동적 평균(MA) 예측기 및 M-최적 트리 서치(M-best tree search)를 포함하는(예를 들어, M=8) 다단(multi stage) 벡터 양자화기(multi stage vector quantiser, MSVQ)가 선택되었는데, 이것은 잘 알려진 방법이다. 기본적으로 낮은 변화의 선 스펙트럴 주파수(LSF) 잔여량 및 용이한 양자화를 가능하게 하는 동적 평균(MA) 예측기의 장점들은 이미 제공되었다.
코드북 트레이닝을 위하여 수행된 실험들은 20 ms 당 하나의 벡터에 해당하는 선 스펙트럴 주파수(LSF) 벡터 출력 레이트에 대하여 제공될 것이다. 이러한 벡터 출력 레이트는 전술된 바와 같은 2.4kbps에서의 SBLPC 보코더 내에 트레이닝된 코드북들을 사용할 수 있도록 허용한다.
우선, 코드북 트레이닝을 위하여 최적의 동적 평균(MA) 예측기 파라미터가 결정된다. 전술된 바와 같은 동적 평균(MA) 예측기를 위하여, 궤환 성분는 비양자화 선 스펙트럴 주파수(LSF) 예측 잔여분이지만, MSVQ-MA 알고리즘에서의 동적 평균(MA) 성분에서는,는 양자화된 선 스펙트럴 주파수(LSF) 예측 잔여분이다. 그러므로, 20 ms 당 하나의 벡터에 해당하는 도 6에 도시된 실험 결과에서의 선 스펙트럴 주파수(LSF) 벡터 출력 레이트에 대하여 발견되는 최적 예측 파라미터들, 즉 저대역 통과 필터링된 선 스펙트럴 주파수(LSF) 벡터의 경우에는 α≒0.8의 관계를 만족하고 종래 방법에 의하여 획득된 선 스펙트럴 주파수(LSF) 벡터의 경우에는 α≒0.7의 관계를 만족하는 최적 예측 파라미터들은 코드북 트레이닝 목적을 위한 최적 예측 파라미터들과 상이할 수 있다.
MSVQ-MA를 위한 최적 동적 평균(MA) 예측 파라미터들을 구하기 위하여, MSVQ-MA 트레이닝 알고리즘 내의 동적 평균(MA) 예측기의 예측 파라미터 α가 0.35 내지 0.75 사이에서 저대역 통과 필터링된 선 스펙트럴 주파수(LSF) 벡터 및 종래 방법에 의하여 획득된 선 스펙트럴 주파수(LSF) 벡터 모두를 위하여 변경되었다.
이 실험에서, 각각 7 비트로 이루어진 3단 MSVQ-MA 양자화기는, 48명의 남성 및 48명의 여성 화자의 음성을 포함하는 음성 데이터베이스의 96개의 음성 파일들로부터 준비된 3000개의 선 스펙트럴 주파수(LSF) 벡터들을 이용하여 트레이닝된다. 후속하여, 저대역 통과 필터링 및 데시메이션이 수행되었는데, 그 목적은 선 스펙트럴 주파수(LSF) 벡터들의 제2 집합을 발생시키는 것이다. 그러면, 예측 파라미터 α가 0.35 내지 0.75 사이에서 0.05의 간격으로 변경되고, MSVQ-MA 코드북들은 각 단계마다 발생되었다.
도 11 내지 도 13은 이러한 실험의 결과를 도시한다. 특히, 도 11은 예측 파라미터 상에서 나타나는 WMSE를 도시하는 그래프이고, 도 12는 예측 파라미터 상에서의 dB 단위의 평균 SD를 나타내는 도면이고, 도 13은 예측 파라미터 상에서 나타나는 퍼센트 단위의 2dB 아웃라이어를 도시하는 도면이다. 이러한 도면들 각각은 종래 방법 및 본 발명에 따른 방법 모두의 결과를 포함한다. 종래 방법에 의하여 발생되는 개별 곡선들은 전술된 바와 같이 "원 LSF" 라고 표시되고, 본 발명에 따른 방법에 의하여 발생되는 개별 곡선은 전술된 바와 같이 "LPF된 LSF"라고 표시된다. 예측 파라미터 상에서 퍼센트의 4dB 아웃라이어를 위한 결과를 도시하는 곡선은 제공되지 않는데, 그 이유는 그 값이 MSVQ-MA 알고리즘을 위하여 사용되는 코드북 구조에 대해서 0 이기 때문이었다.
도 11 내지 도 13에 대해서, 평균 SD, 2dB 아웃라이어 (%) 및 WMSE를 위한 예측 파라미터 α의 최적값은, 저대역 통과 필터링의 경우에는 α≒0.5를 만족하고, 종래 방법에 대해서는 α≒0.4를 만족한다.
양자화부로서 동적 평균(MA) 예측기를 이용하는 보코더는 일반적으로 최적치로서 0.6 내지 0.7 간의 예측치를 이용하는 반면에, 제공된 실험은 평균 SD 및 2dB 아웃라이어 %를 위한 더 낮은 값은 α≒0.4에서 얻어진다는 것을 보여주었다. 저대역 통과 필터링 방법에 대한 도 11 내지 도 13에 따라 얻어지는 약 0.5의 값을 가지는 최적 예측 파라미터는, 일반적으로 사용되는 예측 파라미터인 0.6 내지 0.7 사이의 값과 다른 것과 같이 종래 방법에 의한 최적치인 약 0.4의 값과도 다르다.
또한, 도 11 내지 도 13으로부터, 저대역 통과 필터링된 선 스펙트럴 주파수(LSF) 벡터에 대한 WMSE, 평균 SD 및 2dB 아웃라이어 %가 종래 기술에 의하여 추출된 선 스펙트럴 주파수(LSF) 벡터의 경우에 비하여 낮다는 것이 명백할 것이다. 이러한 사실은, 더 적은 비트수를 이용하는 양자화기를 이용함으로써 종래의 선 스펙트럴 주파수(LSF) 양자화기와 동일한 왜곡 수치를 유지하는 것이 가능하다는 것을 의미한다. 또는, 동일한 크기를 가지는 양자화기라면 더 고품질의 결과를 제공할 것이다.
하기의 [표 4]는 저대역 통과 필터링 방법 및 종래 방법 모두에 대한 최적 예측 파라미터들의 결과인 왜곡 수치를 요약한다. 저대역 통과 필터링은 표 4에서 "LPF 된" 이라고 표시되고, 종래 방법은 "원" 이라고 표시된다.
예측 인자 평균 SD 2dB아웃라이어(%) 4dB아웃라이어(%) WMSE
LPF됨 0.5 0.9262 0.0356 0 7.85E-05
0.4 1.0306 0.2313 0 9.66E-05
표 4에서 알 수 있는 바와 같이, 종래 방법에 비교했을 때, 저대역 통과 필터링 방법은 평균 SD에서 장점을 가지며, 2dB 아웃라이어가 훨씬 낫다.
상기의 실험에 채택된 30000개의 선 스펙트럴 주파수(LSF) 벡터들의 개수는 최적 코드북 트레이닝을 하기 위하여는 다소 부족한 개수이긴 하지만, 이것은 제안된 시스템이 종래 방법에 비하여 가지는 장점을 명백히 반영하며, 이러한 결과는 더 많은 음성 데이터베이스를 가지고 수행한 실험에서도 유사한 결과를 보여주는 것에 의하여 증명되었다는 점에 주의하여야 한다.
이하, 본 발명에 따른 방법에 의하여 획득될 수 있는 비트 레이트 감소 동작이 공지된 선 스펙트럴 주파수(LSF) 벡터 추출에 비교하여 양자화될 것이다.
이러한 목적으로 수행된 실험은 두 가지 선 스펙트럴 주파수(LSF) 추출 방법들 모두에 대하여 트레이닝된 코드북을 위하여 결정된 최적 예측 파라미터에 기반한다.
이 실험은 코드북 트레이닝을 위한 최적 동적 평균(MA) 예측 파라미터를 결정하는 실험에 상응하는데, 다만 이번 실험에서는, 예측 파라미터는 변경되지 않은 채로 유지된 채 MSVQ-MA 3단 코드북의 비트 할당만이 변경된다는 점에서만 다르다.
표 5는 수행된 시험에 채택된 MSVQ-MA 코드북들에 대한 다양한 비트 할당을 도시한다.
할당된 전 비트수 코드북 단마다 할당된 비트수
15 5,5,5
16 6,5,5
17 6,6,5
18 6,6,6
19 7,6,6
20 7,7,6
21 7,7,7
22 8,7,7
23 8,8,7
24 8,8,8
도 14 내지 도 16은 표 5에 도시된 코드북 비트들에 대하여, WMSE, 평균 SD 및 2dB 아웃라이어(퍼센트 단위)의 경우에 획득된 결과들을 각각 도시한다. 또한, 도 17은 20개 내지 24개의 코드북 비트수 범위 만을 위한 코드북 비트수 상의 2dB 아웃라이어를 퍼센트 단위로 나타낸다. 이러한 도면들 각각에서, 각각의 왜곡치는 종래 방법에 의한 경우에 비하여 저대역 통과 필터링한 경우에 더 낮다.
표 6은 저대역 통과 필터링 방법에서 및 종래 방법에 따른 4dB 아웃라이어를 퍼센트 단위로 나타내는 도면인데, 표 6에서도 저대역 통과 필터링된 결과는 "LPF된" 이라고 표시되고, 종래 방법에 따른 결과는 "원" 이라고 표시된다. 18개의 비트수와 같거나 이보다 큰 할당에서, 4dB 아웃라이어의 퍼센트 단위의 값은 0이다.
15 16 17 18
LPF 됨 0.0059 0.0059 0 0
0.0415 0.0119 0.0059 0
도 14 내지 도 17 및 표 6으로부터, 본 발명에 따른 방법을 이용하여 비트수를 감소시키는 것이 가능하다는 것이 명백하다. 종래 방법에 의하여 얻어지는 왜곡 수치의 주어진 집합에 대하여, 본 발명에 의하여 제안된 시스템에서는 더 낮은 비트수를 가지고도 동일한 왜곡 수치 집합을 획득할 수 있으며, 그 결과 1.5 내지 2 비트를 절약할 수 있고 이것은 약 10%의 비트수 절약에 해당된다는 점이 명백해질 것이다.
4명의 남성 및 4명의 여성 화자에 대하여 추가적인 비공식 청취 테스트가 수행되었는데, 이들 각각은 두 문장씩을 발음했다. 이 테스트의 결과로부터, 저대역 통과 필터링 방법이 종래 방법에 의한 품질과 동일한 품질의 합성 음성을 생성할 수 있지만, 벡터 양자화기를 사용할 경우에는 주어진 음성 품질을 구현하기 위하여 본 발명이 제안한 방법이 요구하는 전체 비트수는 더 작아진다는 것을 증명했다.
전술된 바와 같은 본 발명에 따른 방법의 제1 실시예에서, 선 스펙트럴 주파수(LSF) 벡터들은 각 샘플마다 추출되고 각각의 선 스펙트럴 주파수(LSF) 트랙에대하여 필터링이 수행된다. 이것은 시스템이 비교적 복잡하게 만든다.
그러므로, 본 발명에 따른 방법의 제2 실시예는, 얼마나 자주 선 스펙트럴 주파수(LSF) 벡터들이 연산되어야 하는 가 및 필터링에 대한 수정 성분을 포함하는 실용적인 실시간 시스템 구현예를 위하여 특히 설계되었다. 제2 실시예에서, 도 1의 흐름도에 대하여 참조해야 하는 것은 전과 동일하다.
제2 실시예의 제1 및 제2 단계들은 전술된 바와 같은 제1 실시예의 제1 및 제2 단계에 상응하는데, 이러한 단계에서 선형 예측 계수(LPC)들은 10차의 필터를 이용하여 음성 샘플들로부터 연산되고, 선형 예측 계수(LPC)들은 대역폭 확장된다.
그러나, 제3 단계에서, 선 스펙트럴 주파수(LSF) 벡터들은 도 1에 도시된 바와 같은 제1 실시예의 경우에서와 달리 매 샘플마다 추출되는 것이 아니고, 이보다 낮은 추출 레이트로 추출된다. 낮은 추출 레이트는 동시에 최종 요구되는 선 스펙트럴 주파수(LSF) 출력 레이트보다는 높아야 한다. 제1 실시예에 비교할 때 이러한 낮은 추출 레이트는, 제3 단계에서 모든 샘플마다 선 스펙트럴 주파수(LSF) 벡터들을 추출하였을 경우에 획득되는 장점들의 거의 전부를 얻을 수 있도록 하는 방법으로 선택된다.
본 발명의 제2 실시예에서 채택되는 낮은 추출 레이트로서, 5 ms 당 한 개의 벡터에 해당하는 벡터 레이트가 제안된다. 저대역 통과 필터링 및 데시메이션 이전에 5ms 마다 선 스펙트럴 주파수(LSF) 벡터를 추출하는 것은 낮은 복잡성 및 이에 따른 장점의 적절한 타협점이며, 그 이유는 이러한 레이트는 현존 SBLPC 보코더 시스템에 적은 페이로드(payload)만을 부가시키고 각 선 스펙트럴 주파수(LSF) 트랙의 거의 모든 에너지 퍼센트를 담당하기 때문인데, 이에 대해서는 표 7에 후술되는 바와 같다.
표 7은 3개의 상이한 주파수 대역에 대한, 4 명의 남성 및 4명의 여성으로부터 발생된 음성 샘플들로부터 야기된 연산 에너지 퍼센트를 도시하는데, 각각은 2 문장을 읽었다. 제1 주파수 대역은 25Hz 이하의 대역이고, 제2 주파수 대역은 25Hz 내지 100Hz 사이의 대역이고, 제3 주파수 대역은 100Hz 이상의 대역이다. 에너지 퍼센트는 모든 음성 샘들에 대한 선형 예측 계수(LPC)들로부터 추출된 선 스펙트럴 주파수(LSF) 벡터들과 함께 발생되는 선 스펙트럴 주파수(LSF) 트랙들에 대하여 결정되었다.
LSF파라미터들 대역당 에너지(%)
25Hz 이하 25-100Hz 100Hz 이상
LSF1 94.52 5.31 0.17
LSF2 95.44 4.44 0.12
LSF3 96.67 3.25 0.08
LSF4 96.81 3.1 0.09
LSF5 98.1 1.85 0.05
LSF6 97.46 2.44 0.1
LSF7 96.36 3.52 0.12
LSF8 95.54 3.99 0.47
LSF9 94.64 5.12 0.24
LSF10 92.72 5.1 2.18`
표 7로부터 명백히 알 수 있는 바와 같이, 거의 모든 에너지는 100Hz 이하의 주파수 대역에 존재한다. 최후의 선 스펙트럴 주파수(LSF) 트랙은 개념적으로는 다른 트랙들에 비하여 중요도가 덜하다. 최초 9개의 트랙들에 대하여, 90% 이상의 스펙트럴 중첩 에너지(spectral overlapping energy), 즉 25Hz 대역 바깥의 에너지가 25Hz 내지 100Hz 사이의 주파수 대역에 존재한다. 그러므로, 5 ms 마다 선 스펙트럴 주파수(LSF) 벡터들을 추출하는 동작을 수행함으로써, 낮은 복잡성 부담을 가지고도 제안된 시스템의 거의 모든 장점을 제공하는 것으로 간주될 수 있다.
본 발명의 제2 실시예의 제4 단계에서, 10개의 선 스펙트럴 주파수(LSF) 트랙들이 추출된 선 스펙트럴 주파수(LSF) 벡터들의 10개의 개별 파라미터들로부터 다시 형성된다.
그러면, 선 스펙트럴 주파수(LSF) 트랙들 각각은 제5 단계에서 저대역 통과 필터링된다.
제6 단계에서, 선 스펙트럴 주파수(LSF) 벡터들은 원하는 최종 선 스펙트럴 주파수(LSF) 벡터 출력 레이트로써 저대역 통과 필터링된 선 스펙트럴 주파수(LSF) 트랙들로부터 데시메이션된다.
제1 실시예에 대해서 언급된 바와 같이, 발생되는 선 스펙트럴 주파수(LSF) 벡터들은 그 이후에 양자화되고 송신될 수 있다.
도 18 및 도 19는 기술 수준에 관련하여 이미 전술된 바 있다.
본 발명의 설명된 실시예들은 오직 예시적인 목적으로 제공된 것이며 많은 방법으로 변형될 수 있다는 점이 이해되어야 한다.
본 발명은 시간 영역에서의 고주파 변이(high-frequency variations)를 감소시킴으로써 선 스펙트럴 주파수(LSF) 벡터들의 코딩 효율을 개선하는데 적용될 수 있다. 또한, 본 발명은 낮은 복잡도를 가지는 선 스펙트럴 주파수(LSF) 벡터 추출방법에 적용될 수 있다.

Claims (17)

  1. 원하는 벡터 출력 레이트로 오디오 신호로부터 선 스펙트럴 주파수(Line Spectral Frequency, LSF)를 발생시키기 위한 방법에 있어서,
    - 상기 오디오 신호의 샘플들로부터 선형 예측 계수(Linear Predictive Coefficients, LPCs)들을 연산하는 단계;
    - 상기 원하는 벡터 출력 레이트보다 높은 추출 레이트로 상기 선형 예측 계수(LPC)들로부터 선 스펙트럴 주파수(LSF) 벡터들을 추출하는 단계로서, 상기 선 스펙트럴 주파수(LSF) 벡터들은 상이한 선 스펙트럴 주파수(LSF) 파라미터 값들을 포함하는 단계;
    - 상기 선 스펙트럴 주파수(LSF) 파라미터들 중 적어도 하나에 대한 선 스펙트럴 주파수(LSF) 트랙을 형성하는 단계로서, 선 스펙트럴 주파수(LSF) 트랙은 시간 상에서의 개별 선 스펙트럴 주파수(LSF) 파라미터의 값을 표시하는 단계;
    - 형성된 상기 선 스펙트럴 주파수(LSF) 트랙들 중 적어도 하나를 소정의 컷오프 주파수를 가지고 저대역 통과 필터링하는 단계 및
    - 저대역 통과 필터링된 상기 선 스펙트럴 주파수(LSF) 트랙들로부터 데시메이션된(decimated) 개수의 선 스펙트럴 주파수(LSF) 벡터들을 재구성하는 단계로서, 상기 데시메이션된 개수는 상기 원하는 벡터 출력 레이트에 상응하는 것을 특징으로 하는 선 스펙트럴 주파수(LSF)를 발생시키기 위한 방법.
  2. 제1항에 있어서,
    상기 원하는 벡터 출력 레이트보다 높은 추출 레이트로 상기 선형 예측 계수(LPC)들로부터 추출된 상기 선 스펙트럴 주파수(LSF) 벡터들은, 선형 예측 계수(LPC)들이 연산되는 대상이 되는 상기 오디오 신호들의 모든 샘플들에 대하여 추출되는 것을 특징으로 하는 선 스펙트럴 주파수(LSF)를 발생시키기 위한 방법.
  3. 제1항에 있어서,
    상기 원하는 벡터 출력 레이트보다 높은 추출 레이트로 상기 선형 예측 계수(LPC)들로부터 추출된 상기 선 스펙트럴 주파수(LSF) 벡터들은, 선형 예측 계수(LPC)들이 연산되는 대상이 되는 상기 오디오 신호들의 샘플 레이트보다 낮은 추출 레이트로 추출되는 것을 특징으로 하는 선 스펙트럴 주파수(LSF)를 발생시키기 위한 방법.
  4. 제1항 내지 제3항 중 한 항에 있어서,
    선 스펙트럴 주파수(LSF) 트랙은 상기 선 스펙트럴 주파수(LSF) 파라미터들 각각에 대해 형성되며, 상기 선 스펙트럴 주파수(LSF) 트랙들 각각은 소정의 컷오프 주파수를 가지고 저대역 통과 필터링되는 것을 특징으로 하는 선 스펙트럴 주파수(LSF)를 발생시키기 위한 방법.
  5. 제1항 내지 제4항 중 한 항에 있어서,
    상기 저대역 통과 필터링은 주파수 도메인에서 수행되는 것을 특징으로 하는 선 스펙트럴 주파수(LSF)를 발생시키기 위한 방법.
  6. 제1항 내지 제4항 중 한 항에 있어서,
    상기 저대역 통과 필터링은 시간 도메인에서 수행되는 것을 특징으로 하는 선 스펙트럴 주파수(LSF)를 발생시키기 위한 방법.
  7. 제1항 내지 제6항 중 한 항에 있어서,
    저대역 통과 필터링된 상기 선 스펙트럴 주파수(LSF) 트랙들로부터 상기 원하는 벡터 출력 레이트로 데시메이션된 상기 선 스펙트럴 주파수(LSF) 벡터들은 무선 인터페이스를 통한 송신을 위하여 양자화되는 것을 특징으로 하는 선 스펙트럴 주파수(LSF)를 발생시키기 위한 방법.
  8. 제1항 내지 제7항 중 한 항에 있어서,
    전용 최적 인터-프레임 예측기(optimal inter-frame predictor)가, 저대역 통과 필터링된 상기 선 스펙트럴 주파수(LSF) 트랙들로부터 상기 원하는 벡터 출력 레이트로 재구성되는 상기 선 스펙트럴 주파수(LSF) 벡터들에 대하여 결정되는 것을 특징으로 하는 선 스펙트럴 주파수(LSF)를 발생시키기 위한 방법.
  9. 제1항 내지 제8항 중 한 항에 있어서,
    상기 원하는 벡터 출력 레이트의 상기 선 스펙트럴 주파수(LSF)를 양자화하기 위하여 최적화된 벡터 양자화 코드북이 채택되며, 상기 코드북은 저대역 통과 필터링된 상기 선 스펙트럴 주파수(LSF) 트랙들로부터 상기 원하는 벡터 출력 레이트로 재구성된 상기 선 스펙트럴 주파수(LSF) 벡터들에 대하여 학습되는 전용 코드북에 기반하여 발생되는 것을 특징으로 하는 선 스펙트럴 주파수(LSF)를 발생시키기 위한 방법.
  10. 제1항 내지 제9항 중 한 항에 있어서,
    상기 컷오프 주파수(F)는 상기 원하는 선 스펙트럴 주파수(LSF) 벡터 출력 레이트(1/T)에 기반하여 F≒1/(2*T)의 방정식에 따라 선택되는 것을 특징으로 하는 선 스펙트럴 주파수(LSF)를 발생시키기 위한 방법.
  11. 제1항 내지 제10항 중 한 항에 따른 방법의 단계들을 수행하기 위한 처리 수단을 포함하는 통신 시스템용 이동국.
  12. 제1항 내지 제10항 중 한 항에 따른 방법의 단계들을 수행하기 위한 처리 수단을 포함하는 인코더.
  13. 제1항 내지 제10항 중 한 항에 따른 방법의 단계들을 수행하기 위한 처리 수단을 포함하는 칩.
  14. 제1항 내지 제10항 중 한 항에 따른 방법의 단계들을 수행하기 위한 처리 수단을 포함하는 인코더를 포함하는 통신망.
  15. 통신망 및 적어도 하나의 이동국을 포함하는 통신 시스템에 있어서,
    상기 통신망 및/또는 상기 적어도 하나의 이동국은 제1항 내지 제10항 중 한 항에 따른 방법의 단계들을 수행하기 위한 처리 수단을 포함하는 것을 특징으로 하는 통신 시스템.
  16. 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램이 처리 수단 내에서 실행될 때에, 제1항 내지 제10항 중 한 항에 따른 방법의 단계들을 수행하기 위한 프로그램 코드를 포함하는 컴퓨터 프로그램.
  17. 프로그램 코드를 포함하는 컴퓨터 프로그램 생성물에 있어서,
    상기 프로그램 코드는, 상기 컴퓨터 프로그램이 처리 수단 내에서 실행될 때에, 제1항 내지 제10항 중 한 항에 따른 방법의 단계들을 수행하기 위하여 기계에 의하여 독출될 수 있는 캐리어(carrier) 상에 저장되는 것을 특징으로 하는 컴퓨터 프로그램 생성물.
KR1020047016961A 2002-04-22 2002-04-22 선 스펙트럴 주파수(lsf) 벡터들의 발생 KR100914220B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2002/001305 WO2003089892A1 (en) 2002-04-22 2002-04-22 Generating lsf vectors

Publications (2)

Publication Number Publication Date
KR20040102152A true KR20040102152A (ko) 2004-12-03
KR100914220B1 KR100914220B1 (ko) 2009-08-26

Family

ID=29227359

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020047016961A KR100914220B1 (ko) 2002-04-22 2002-04-22 선 스펙트럴 주파수(lsf) 벡터들의 발생

Country Status (8)

Country Link
US (1) US7493255B2 (ko)
EP (1) EP1497631B1 (ko)
KR (1) KR100914220B1 (ko)
CN (1) CN1312463C (ko)
AT (1) ATE381091T1 (ko)
AU (1) AU2002307889A1 (ko)
DE (1) DE60224100T2 (ko)
WO (1) WO2003089892A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012053798A2 (en) * 2010-10-18 2012-04-26 Samsung Electronics Co., Ltd. Apparatus and method for determining weighting function having low complexity for linear predictive coding (lpc) coefficients quantization

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3947969B2 (ja) * 2002-05-15 2007-07-25 ソニー株式会社 画像処理装置、および画像処理方法、記録媒体、並びにプログラム
US7831420B2 (en) * 2006-04-04 2010-11-09 Qualcomm Incorporated Voice modifier for speech processing systems
CN101145345B (zh) * 2006-09-13 2011-02-09 华为技术有限公司 音频分类方法
CN101149927B (zh) * 2006-09-18 2011-05-04 展讯通信(上海)有限公司 在线性预测分析中确定isf参数的方法
US8886612B2 (en) * 2007-10-04 2014-11-11 Core Wireless Licensing S.A.R.L. Method, apparatus and computer program product for providing improved data compression
JP5108960B2 (ja) * 2008-03-04 2012-12-26 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
CN102072789B (zh) * 2010-11-03 2012-05-23 西南交通大学 一种地面测试铁道车辆轮轨力的连续化处理方法
KR101863687B1 (ko) 2011-04-21 2018-06-01 삼성전자주식회사 선형예측계수 양자화장치, 사운드 부호화장치, 선형예측계수 역양자화장치, 사운드 복호화장치와 전자기기
EP3537438A1 (en) 2011-04-21 2019-09-11 Samsung Electronics Co., Ltd. Quantizing method, and quantizing apparatus

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5784532A (en) * 1994-02-16 1998-07-21 Qualcomm Incorporated Application specific integrated circuit (ASIC) for performing rapid speech compression in a mobile telephone system
US5675701A (en) * 1995-04-28 1997-10-07 Lucent Technologies Inc. Speech coding parameter smoothing method
KR100198476B1 (ko) * 1997-04-23 1999-06-15 윤종용 노이즈에 견고한 스펙트럼 포락선 양자화기 및 양자화 방법
US6081776A (en) * 1998-07-13 2000-06-27 Lockheed Martin Corp. Speech coding system and method including adaptive finite impulse response filter
WO2000011649A1 (en) * 1998-08-24 2000-03-02 Conexant Systems, Inc. Speech encoder using a classifier for smoothing noise coding
FI118242B (fi) * 2000-09-19 2007-08-31 Nokia Corp Puhekehyksen käsitteleminen radiojärjestelmässä

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012053798A2 (en) * 2010-10-18 2012-04-26 Samsung Electronics Co., Ltd. Apparatus and method for determining weighting function having low complexity for linear predictive coding (lpc) coefficients quantization
WO2012053798A3 (en) * 2010-10-18 2012-06-14 Samsung Electronics Co., Ltd. Apparatus and method for determining weighting function having low complexity for linear predictive coding (lpc) coefficients quantization
CN103262161A (zh) * 2010-10-18 2013-08-21 三星电子株式会社 确定用于线性预测编码(lpc)系数量化的具有低复杂度的加权函数的设备和方法
US9311926B2 (en) 2010-10-18 2016-04-12 Samsung Electronics Co., Ltd. Apparatus and method for determining weighting function having for associating linear predictive coding (LPC) coefficients with line spectral frequency coefficients and immittance spectral frequency coefficients
US9773507B2 (en) 2010-10-18 2017-09-26 Samsung Electronics Co., Ltd. Apparatus and method for determining weighting function having for associating linear predictive coding (LPC) coefficients with line spectral frequency coefficients and immittance spectral frequency coefficients
US10580425B2 (en) 2010-10-18 2020-03-03 Samsung Electronics Co., Ltd. Determining weighting functions for line spectral frequency coefficients

Also Published As

Publication number Publication date
AU2002307889A1 (en) 2003-11-03
US20040006463A1 (en) 2004-01-08
DE60224100T2 (de) 2008-12-04
WO2003089892A1 (en) 2003-10-30
US7493255B2 (en) 2009-02-17
CN1625681A (zh) 2005-06-08
ATE381091T1 (de) 2007-12-15
EP1497631B1 (en) 2007-12-12
CN1312463C (zh) 2007-04-25
DE60224100D1 (de) 2008-01-24
KR100914220B1 (ko) 2009-08-26
EP1497631A1 (en) 2005-01-19

Similar Documents

Publication Publication Date Title
KR100962681B1 (ko) 오디오신호들의 분류
US7996233B2 (en) Acoustic coding of an enhancement frame having a shorter time length than a base frame
EP3336843B1 (en) Speech coding method and speech coding apparatus
JP5343098B2 (ja) スーパーフレーム構造のlpcハーモニックボコーダ
JP2018116297A (ja) 帯域幅拡張のための高周波数符号化/復号化方法及びその装置
US8099275B2 (en) Sound encoder and sound encoding method for generating a second layer decoded signal based on a degree of variation in a first layer decoded signal
KR100574031B1 (ko) 음성합성방법및장치그리고음성대역확장방법및장치
JP6980871B2 (ja) 信号符号化方法及びその装置、並びに信号復号方法及びその装置
US20100057446A1 (en) Encoding device and encoding method
KR100914220B1 (ko) 선 스펙트럴 주파수(lsf) 벡터들의 발생
EP2908313B1 (en) Adaptive gain-shape rate sharing
US20090018823A1 (en) Speech coding
US8607127B2 (en) Transmission error dissimulation in a digital signal with complexity distribution
US8849655B2 (en) Encoder, decoder and methods thereof
US7848923B2 (en) Method for reducing decoder complexity in waveform interpolation speech decoding by converting dimension of vector
KR960015861B1 (ko) 선 스펙트럼 주파수 벡터의 양자화 방법 및 양자화기
Viswanathan et al. Baseband LPC coders for speech transmission over 9.6 kb/s noisy channels
Bachu et al. A Comparison of LBG and ADPCM Speech Compression Techniques

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120802

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee