KR20050020728A - 음성 처리 시스템, 음성 처리 방법 및 음성 프레임 평가방법 - Google Patents
음성 처리 시스템, 음성 처리 방법 및 음성 프레임 평가방법 Download PDFInfo
- Publication number
- KR20050020728A KR20050020728A KR1020040066320A KR20040066320A KR20050020728A KR 20050020728 A KR20050020728 A KR 20050020728A KR 1020040066320 A KR1020040066320 A KR 1020040066320A KR 20040066320 A KR20040066320 A KR 20040066320A KR 20050020728 A KR20050020728 A KR 20050020728A
- Authority
- KR
- South Korea
- Prior art keywords
- pulse
- vector
- term
- voice processing
- lpc
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000012545 processing Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 101
- 230000007774 longterm Effects 0.000 claims abstract description 29
- 230000005284 excitation Effects 0.000 claims abstract description 22
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 claims abstract description 20
- 238000013139 quantization Methods 0.000 claims description 47
- 238000004458 analytical method Methods 0.000 claims description 23
- 230000015572 biosynthetic process Effects 0.000 claims description 18
- 230000004044 response Effects 0.000 claims description 18
- 238000003786 synthesis reaction Methods 0.000 claims description 17
- 238000005311 autocorrelation function Methods 0.000 claims description 15
- 230000009467 reduction Effects 0.000 claims description 14
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000007493 shaping process Methods 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000003672 processing method Methods 0.000 claims 9
- 238000006243 chemical reaction Methods 0.000 claims 3
- 230000001747 exhibiting effect Effects 0.000 claims 2
- 230000009466 transformation Effects 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 발명은 입력되는 음성 신호를 샘플의 프레임 및 서브프레임으로 분할하는 프레임 처리 장치(100)와, 프레임 처리 장치(100)에 접속되어 입력된 음성 신호의 단기 특성을 나타내는 프레임을 계산하는 단기 분석기(short-term analyzer)(200)와, 단기 분석기(200)에 접속되어 입력 음성 신호의 단기 특성을 나타내는 프레임을 제거하고 잡음 형상의 음성 신호(noise shaped speech signal)를 생성하는 단기 중복 제거 장치(short-term redundancy removing unit)(250)와, 단기 중복 제거 장치(250)에 접속되어 장기 특성을 나타내는 잡음 형상의 음성 신호를 계산하고 예측하는 장기 분석기(long-term analyzer)(300)와, 장기 분석기(300)에 접속되어 장기 특성을 나타내는 잡음 형상의 음성 신호를 제거하거나 또는 음성 입력 신호의 단기 및 장기 특성을 나타내는 프레임을 제거하고 이러한 방식으로 타겟 백터(target vector)를 생성하는 장기 중복 제거 장치(long-term redundancy removing unit)(350)와, 단기 분석기(200) 및 장기 중복 제거 장치(350)에 접속되어 타겟 벡터를 시뮬레이션하기 위한 펄스 시퀀스 ― 각 펄스는 가변적인 위치, 부호 및 진폭을 가짐 ― 를 생성하는 여기 펄스 탐색 장치(excitation pulse search unit)(500)를 포함하는 음성 처리 시스템에 관한 것이다.
또한, 본 발명은 입력되는 음성 신호를 프레임 및 서브프레임으로 분할하는 단계와, 입력된 음성 신호의 단기 특성을 나타내는 프레임을 계산하는 단계와, 입력된 음성 신호의 단기 특성을 나타내는 프레임을 제거하고 잡음 형상의 음성 신호를 생성하는 단계와, 장기 특성을 나타내는 잡음 형상의 음성 신호를 계산하고 예측하는 단계와, 장기 특성을 나타내는 잡음 형상의 음성 신호를 제거하거나 또는 음성 입력 신호의 단기 및 장기 특성을 나타내는 프레임을 제거하고, 이러한 방식으로 타겟 벡터를 생성하는 단계와, 합성 필터(synthesis filter)를 통과시켜 타겟 벡터를 시뮬레이션하기 위한, 가변적인 위치, 기호 및 진폭을 갖는 펄스 시퀀스를 생성하는 단계를 포함하는 음성 처리 방법에 관한 것이다.
Description
본 발명은 일반적으로 음성 처리 시스템(speech processing systems)에 관한 것으로 특히 여기 펄스 탐색 유닛에 관한 것이다.
디지털 음성 처리는 다수의 다양한 애플리케이션에 사용된다. 음성 처리의 가장 중요한 애플리케이션 중 하나는 음성의 디지털 전송 및 저장이다. 디지털 음성 처리의 다른 애플리케이션은 음성 합성 시스템 또는 음성 인식 시스템이다. 데이터를 보다 고속으로 또한 음성 품질을 잃지 않고 보다 효율적으로 전송하는 것이 바람직하기 때문에, 음성 신호는 보통 압축된다.
음성 신호를 압축하기 위해, 전형적으로 음성 신호는 프레임들로 분할되어, 음성 파라메터를 결정하기 위해 분석된다. 보통, 음성의 단기 특성(short-term characteristics) 및 장기 특성을 나타내는 파라메터가 존재한다. 선형 예측 계수(LPC) 분석은 단기 특성을 제공하는 반면, 피치 평가(pitch estimation)는 음성 신호의 장기 특성을 제공한다.
일반적 음성 처리 시스템에 있어서, 디지털화된 음성은 음성 프레임의 스펙트럼 엔벨로프를 나타내는 LPC 계수 세트를 계산하는 LPC 분석 유닛에 공급된다. 이 LPC 계수는 보통 1998년 2월 통신의 선택된 영역에 대한 IEEE 잡지의 6권 2번의, N. Sugamur, N. Farvardin에 의한 "Quantizer Design in LSP Speech analysis Synthesis"에 설명되어 있는 LSP(line spectrum pair) 계수로 변환된다. LSP 계수는 양자화에 적절하다. 양자화 에러를 반영하기 위해, LPC 계수는 LSP 계수로 변환되고, 양자화되며, 역양자화되어 다시 LPC 계수로 변환된다.
앞 단계에서 계산된 LPC 계수는 입력 음성 신호의 단기 특성을 필터링하는데 사용되는 노이즈 형성 필터(noise shaping filter)에 사용된다.
노이즈 형성 음성은 장기 예측을 하는 피치 평가 유닛에 전달된다. 미국 5,568,588 호에 설명되어 있는 피치 평가 알고리즘은 대량의 프로세싱을 필요로 하는 정규화된 상관 방법을 사용한다.
음성 입력 신호로부터 단기 및 장기 특성의 기여분을 감하거나 노이즈 형성 음성으로부터 장기 기여분을 감함으로써 타겟 벡터가 생성된다. 그런 다음, 이 타겟 벡터는 펄스 시퀀스로 모델링된다. 이러한 펄스 시퀀스는 잘 알려져 있는 멀티 펄스 분석(MPA)을 사용하여 얻어질 수 있다. 보통, 펄스는 동일한 진폭을 갖지만 다양한 기호 및 위치를 갖는다. 미국 5,568,588 호에 개시되어 있는 멀티 펄스 분석 기법은 초기 펄스의 위치를 검색하는 단계와, 타겟 벡터로부터 제 1 펄스의 기여분을 감하는 단계와, 이러한 식으로 새로운 타겟 벡터를 생성하는 단계를 포함한다. 이어서, 제 2 펄스가 검색되고, 그것의 기여분은 새로운 타겟 벡터로부터 제외되고 이 과정은 사전결정된 수의 펄스가 발견될 때까지 반복된다. 타겟 벡터를 최소 제곱 에러로 가장 잘 나타내는 시퀀스 내의 모든 펄스에 대한 하나의 펄스 진폭을 검색하기 위하여 시퀀스 내의 모든 펄스의 진폭은 제 1 단계에서 발견된 초기 펄스의 사전결정된 범위 내 진폭 근처에서 변경된다. 그러므로, 펄스 진폭이 변경될 때마다, 완벽한 탐색 절차를 수행하여 제각기의 펄스 시퀀스를 수신한다. 이러한 방식으로 수신된 각 펄스 시퀀스마다, 임펄스 응답과 타겟 벡터 사이의 평균 제곱 에러가 계산된다. 최소 제곱 에러를 갖는 펄스 시퀀스는 최적인 것으로 주장되고, 그 단계에 사용된 펄스 진폭도 최적인 것으로 여겨진다. 그러므로, 제 1 펄스의 진폭에 연관된 하나의 이득 레벨은 모든 펄스에 대해 사용된다. 이 기법은 또한 대량의 프로세서 전력을 필요로 하는데, 그 이유는 사전결정된 범위로부터의 모든 펄스 진폭에 대해 전체 탐색이 수행되기 때문이다.
그러므로, 본 발명의 목적은 고품질의 압축 음성을 제공하는 계산적으로 비용이 들지 않는 음성 압축 시스템을 제공하는 것이다. 음성 압축 시스템에 대한 다수의 실제 애플리케이션은 계산적으로 비용이 들지 않는 알고리즘을 요구하는 플랫폼에 목표가 맞추어져 있기 때문에, 이러한 요건을 충족시키지 않는 전형적인 음성 처리 시스템의 블록을 발견하고 그들의 복잡성을 감소시킬 필요가 있다.
본 발명의 또 다른 목적은 프레임 크기 최적화를 통해 복잡성이 감소하는 메모리 효율적인 음성 처리 시스템을 제공하는 것이다.
본 발명의 또 다른 목적은 프레임 크기의 최적화를 통해 달성되는, 피치 평가 및 LPC 분석의 정확성을 개선시킴으로써 음성 품질을 개선하는 것이다.
또한, 본 발명의 또 다른 목적은 음성 통신에서 코더를 사용할 수 있을 만큼 충분히 코더 지연이 작도록 코더 지연을 최소화하는 것이다.
본 발명은 멀티 펄스 분석 시스템 및 전체 음성 처리 시스템의 계산상 복잡성을 감소시키는 방법을 제공한다.
본 발명의 일 실시예에서, 여기 펄스 탐색 유닛(EPS)은 타겟 벡터를 시뮬레이션하는 펄스 시퀀스를 생성하여, 모든 펄스마다 다양한 위치, 기호 및 진폭을 갖게 함으로써 최적화된다. 그러므로, 모든 펄스는 주어진 타겟 신호에 대해 최적의 진폭을 갖는다. 본 발명에 따르면, 최적의 펄스 시퀀스는 단일 단계에서 검색되어 계산상 복잡성을 감소시킨다.
또 다른 실시예에서, 여기 펄스 탐색 유닛은 제 1 서브프레임을 제외한 서브프레임에 대해 이득 레벨 수를 제한함으로써 서브프레임 이득을 전달하는데 필요한 비트 수를 줄여주는 차분 이득 레벨 제한 블록(differential gain level limiting block)을 사용한다.
그러므로, 단일 서브프레임 내의 펄스 진폭은 제한된 범위 내에서 변경될 수 있어서, 펄스는 그 서브프레임의 초기 펄스와 동일한 또는 그보다 작은 이득을 가질 수 있으므로, 보다 정확하게 타겟 벡터를 표현할 수 있고 보다 높은 비트 레이트를 통해 보다 나은 음성 품질을 달성할 수 있다.
또 다른 실시예에서, 차분 이득 레벨 리미터 블록에서 차분 코딩의 범위는 매우 작은 또는 매우 큰 이득 레벨의 경우에 경계 적응 차분 코딩 기법(bound adaptive differential coding technique)을 사용하여 동적으로 연장된다.
또 다른 실시예에서, 모두 짝수 또는 홀수인 패리티 비트의 펄스 위치를 미리 결정하는 패리티 선택 블록이 여기 펄스 탐색 유닛에 구현된다. 또 다른 실시예에서, 결정된 한계치보다 더 큰 기준 벡터 값(referent vector values)으로 탐색 절차를 제한함으로써 가능한 펄스 위치의 수를 더 감소시키는 펄스 위치 감소 블록이 여기 펄스 탐색 유닛에 구현된다.
또한, LSP 계수의 양자화는 벡터 및 스칼러 양자화를 결합하여 최적화된다. 또 다른 실시예에서, LSP 계수의 양자화는 신경망을 사용하여 생성된 최적화된 벡터 코드북 및 다수의 트레이닝 벡터를 사용한다.
더 나아가, 피치 평가 유닛은 최적화된다. 본 발명은 잘 알려져 있는 자기상관 방법에 기초한 계층적 피치 평가 알고리즘을 제공한다. 계층적 탐색은 자기상관 함수가 연속적 함수이다라는 가정에 기초한다. 계층적 탐색에서, 제 1 단계에서 자기상관 함수는 N번째 지점마다 계산된다. 제 2 단계에서는, 제 1 단계에서 수신된 가능한 피치 값의 최대 값 근처에서 정밀한 탐색이 수행된다. 이 실시예는 피치 평가 블록의 계산상 복잡성을 감소시킨다.
후속하는 도면은 본 발명의 예시적인 실시예를 도시하고 본 발명의 원리를 설명하는 역할을 한다.
도 1은 음성 처리 시스템의 기본 구조를 도시한다. 보통, 음성 처리 시스템은 디지털화된 음성 신호에 대해 동작한다. 전형적으로, 입력 음성 신호는 8kHz 샘플링률로 디지털화된다.
디지털화된 음성 신호는 200개의 샘플 길이를 갖는 프레임을 가지고 본 발명에 따라 동작하는 프레임 처리 유닛(100)에 제공된다. 프레임은 각각 50개의 샘플 길이를 갖는 네 개의 서브 프레임으로 분할된다. 이 프레임 크기는 음성 품질 및 압축률의 관점에서 최적의 성능을 갖는 것으로 도시되어 있다. 그 크기는 청취가능한 음성 왜곡 없이 한 세트의 LPC 계수를 사용하여 표현될 수 있을 만큼 충분히 작다. 다른 한편, 그 크기는 비트 레이트 관점에서는 충분히 커, 아주 작은 수의 비트를 사용하여 단일 프레임을 표현할 수 있다. 더 나아가, 이 프레임 크기는 소수의 여기 펄스를 사용하여 타겟 신호를 나타낼 수 있다.
음성 샘플은 단기 분석기(200)에 전달되고, 이 실시예에서는 LPC 분석 유닛에 전달된다. LPC 분석은 50개의 샘플로 구성된 서브프레임마다 10의 LPC 계수를 생성하는 레빈슨 두빈(Levinson-Durbin) 알고리즘을 사용하여 실행된다.
LPC 분석 유닛은 도 2에 보다 자세히 설명된다. LPC 계수의 계산은 LPC 계산기(201)에서 이루어진다. LPC 계수는 양자화에 적절하지 않은 LPC 계수를 양자화 및 보간에 적절한 LSP 계수로 변환하는 LPC-LSP 변환 유닛(202)으로 전달된다.
LSP 계수는 LSP 계수의 양자화를 수행하는 다중 벡터 양자화 유닛(205)에 전달된다. 두 개의 다른 실시예가 사용되어 LSP 계수의 양자화를 수행한다. 먼저, 10의 LSP 계수의 벡터는 벡터 양자화를 사용하여 양자화되는 적절한 수의 서브 벡터, 예를 들어 계수가 3, 3, 및 4인 서브 벡터로 분할된다. 본 발명에 따른 또 다른 실시예에서, LSP 계수의 결합된 벡터 및 스칼라 양자화가 수행된다. 최하위 계수를 포함하는 서브 벡터, 예를 들어 6의 계수를 포함하는 제 1의 두 개의 서브 벡터는 벡터 양자화를 사용하여 양자화되는 반면, 위에서 언급한 최상위 계수를 포함하는 서브 벡터 예를 들어 마지막의 4의 계수를 포함하는 제 3 서브 벡터는 스칼러 양자화를 사용하여 양자화된다. 이러한 종류의 양자화는 벡터의 모든 LSP 계수의 가중성(significance)을 고려한다. 즉, 보다 상위인 계수는 스칼라 양자화되는데, 그 이유는 이러한 종류의 양자화는 보다 정확하기 때문이다. 한편, 스칼라 양자화는 다수의 비트를 필요로 한다. 그러므로, 보다 하위의 계수는 이 수단에 의해 비트 수를 줄임으로써 벡터 양자화된다. 벡터 양자화만을 사용하여 비트 수가 더 감소될 수 있지만, 정확성은 스칼라 및 벡터 양자화의 결합형을 사용하여 상당히 개선되어 약간 증가한 수의 비트를 수용할 수 있다. 보통, 모음에 대응하는 음성 프레임은 상관계수가 높아 벡터 양자화에 적절하다. 자음에 대응하는 음성 프레임은 대개 상관관계가 없으므로 스칼라 양자화가 이용된다.
다중 벡터 양자화 유닛(205)에, 벡터 코드북(206)이 집적된다. 양자화에 사용되는 이들 벡터 코드북(206)은 그에 따라 벡터 당 128개의 벡터 인덱스를 포함하여 비교적 소수의 비트를 사용하여 LSP 계수를 코딩할 수 있다. 각 벡터마다, 상이한 벡터 코드북(206)이 필요하다. 바람직하게, 벡터 코드북(206)은 정해져 있지 않고 적응 코드북으로서 발전된다. 적응 코드북은 신경망 및 다수의 트레이닝 벡터를 사용하여 생성된다.
LSP 벡터의 양자화는 코딩 과정에서 고려되어야 하는 에러를 야기할 수 있기 때문에, LSP 탈양자화 유닛(dequantization unit)(207)을 사용하여 LSP 계수의 역 양자화가 수행된다. 탈양자화된 LSP 계수는 탈양자화된 LSP 계수를 LPC 계수로 역 변환시키는 LSP-LPC 변환 유닛(208)에 전달된다. 이러한 방식으로 생성된 탈양자화된 LPC 계수 세트는 LSP 양자화 에러를 반영한다.
LPC 계수 및 음성 샘플은 프레임의 음성 신호로부터 단기 중복성을 필터링하는데 사용되는 단기 중복성 제거 유닛(250)에 입력된다. 이러한 방식으로, 노이즈 형성 음성 신호가 생성되고, 장기 분석기(300), 이 경우에는 피치 평가기에 전달된다.
장기 분석기(300)에 프레임으로 입력되는 노이즈 형성 음성에 대한 장기 예측을 수행하는 경우 어떠한 유형의 장기 분석기(300)도 사용될 수 있다. 장기 분석기(300)는 입력 프레임의 다수의 서브 프레임을 분석하여 두 개의 프레임 각각 내에서 음성 피치값을 결정한다. 이 피치값은 음성 신호가 그 자신과 동일한 이후의 샘플 수로서 정의된다.
보통, 단기 중복성이 이미 제거된 음성 신호에 대한 정규화된 자기상관 함수가 피치 평가에 사용되는데, 이는 이론적으로 자기상관 함수가 신호 주기의 배수값에 대해 최대값을 가진다는 것이 알려져 있기 때문이다. 이하에서 설명되는 피치 주기를 평가하는 방법은 임의의 유형의 음성 처리 시스템에 사용될 수 있다.
본 발명에서는, 자기상관 함수의 연속 특성(continual nature)을 가정한다. 그 결과, 제 1 단계에서 자기상관 함수는 매 지점 대신 N번째 지점에서 계산되어 계산상 복잡성을 줄일 수 있다. 제 2 단계에서는, 제 1 단계에서 계산된 최대값 근처의 범위에서만 탐색이 이루어진다. 통상의 탐색 절차 대신에, 계층적 피치 평가 절차 수행된다. N이 보다 작아질수록, 피치 주기 계산이 보다 정확해진다. 바람직하게, N은 2이다.
제 1 단계에서, 자기상관 함수의 최대치는 다음의 공식을 사용하여 구하여진다.
18 ≤ n ≤ 144, 0 ≤ i ≤ 2I-1, n = 18 + N·k, k = 0, 1, 2, 3,...
인덱스(i)는 프레임에서 샘플의 번호를 나타내고, 서브프레임 길이(I)는 50이기 때문에, i는 99까지 연장될 필요는 없다. 물론, 이 공식은 200의 프레임 길이 및 각각 50의 서브프레임에 제한되지 않고, 예를 들어 프레임 길이는 80 내지 240개의 샘플을 포함할 수 있다. n은 가능한 피치값에 대응한다. 이 예에서, 피치값은 18 내지 144의 범위를 갖고, 18은 여성의 목소리와 같은 높은 피치의 목소리에 대응하고, 144는 남성 목소리와 같은 낮은 피치의 목소리에 대응한다.
제 1 단계의 결과는 Ahmax(n) 및 인덱스(nmax)의 최대값이다. 보다 작은 n값이 바람직하다. 계층적 탐색의 제 2 단계는 출발지점으로서 제 1 단계에서 계산된 값을 사용하고 피치 주기의 정확한 값을 결정하기 위해 그 값 근처에서 탐색을 수행한다. 제 2 단계의 계산을 위해, 다음의 공식이 사용된다.
nmax - R ≤ n ≤ nmax + R, 0 ≤ i ≤99, n ≠ 18 + N·k, k = 0, 1, 2, 3, ...
R은 nmax 근처의 범위를 나타낸다. 전형적으로, R은 N보다 더 작다.
계층적 피치 평가 절차의 또 다른 실시예에서, 가능한 피치값은 세 개의 분할대역, 즉 [18-32], [33-70], [70-144]로 분할된다.
이 경우, 정규화된 자기상관 함수는 보다 작은 값에 더 큰 비중을 두지 않고도, 동일한 원리의 계층적 탐색을 사용하여 모든 분할대역마다 계산된다. 그 결과, 피치 주기에 대한 세 개의 가능한 값, 즉 n1max, n2max, n3max이 수신된다.
제 2 단계에서, 이들 피치 값에 대응하는 정규화된 자기상관 값이 비교되고, 이 단계에서 보다 높은 분할대역의 정규화된 자기상관값에 0.875를 곱함으로써 보다 낮은 분할대역 피치값에 가중치가 부여된다. 피치 주기에 대해 최상의 세 개의 가능한 값이 검색된 후, 앞서 설명한 바와 같이 이 값 근처의 범위 내에서 정확한 탐색이 수행된다.
피치 주기 및 노이즈 형성 음성은 노이즈 형성 음성으로부터 장기 중복성을 필터링하는데 사용되는 장기 중복성 제거 유닛(350)에 입력된다. 이러한 방식으로, 타겟 벡터가 생성된다. 도 4a는 타겟 벡터의 예를 도시한다.
합성 필터(400)에서 생성된 타겟 벡터, 피치 주기 및 임펄스 응답은 여기 펄스 탐색 유닛(500)의 입력이다. 본 발명에 따른 여기 펄스 탐색 유닛(500)의 블록도가 도 3에 도시되어 있다.
여기 펄스 탐색 유닛(500)의 주요 작업은 합성 필터를 통과하는 경우 타겟 벡터를 가장 근접하게 표현하는 펄스 시퀀스를 검색하는 것이다.
합성 필터(400)의 임펄스 응답은 제 1 위치의 단일 펄스를 포함하는 벡터에 의해 여기된 합성 필터(400)의 출력을 나타낸다. 또한, 제 n 위치의 펄스를 포함하는 벡터에 의한 합성 필터(400)의 여기는 제 n 위치로 시프팅된 임펄스 응답에 대응하는 출력을 야기한다. p개의 펄스로 구성된 트레인에 의한 합성 필터(400)의 여기는 트레인으로부터 하나의 단일 펄스를 각각 포함하는 P 벡터에 합성 필터(400)의 P 응답을 중첩시킴으로써 표현될 수 있다.
여기 펄스 탐색 분석을 위한 준비 단계는 기준 벡터 생성기(301)를 사용하여 두 개의 벡터, 즉 타겟 벡터와 합성 필터(400)의 임펄스 응답의 교차 상관관계인 rt(n)과, 합성 필터(400)의 임펄스 응답의 자기상관관계인 rr(n) 를 생성하는 것이다.
2개의 벡터의 상호 상관관계(cross correlation)는 이들의 유사성의 정도를 나타내기 때문에, 벡터 rt(n)은 제 1 펄스의 위치를 결정하기 위해 벡터 rt(n)이 사용되는 초기 펄스 로케이터(302)에 전달된다. 제 1 펄스의 위치(p1)는 함수 rt(n)의 절대값 최대치에 있는데, 이러한 이유는 임펄스 응답과 타겟 벡터가 가장 잘 매칭되기 때문이다. 이는 이득 레벨 및 기호로 표시되는 적당한 진폭의 펄스를 결정된 위치에 배치하고 합성 필터(400)를 통해 필터링하는 것은 크기가 조정된 임펄스 응답을 결정된 위치로 이동시키는 것을 의미하고, 그 위치에서의 타겟 벡터의 부분이 가장 잘 매칭된다.
여기 펄스 탐색 유닛(500)으로부터 펄스 시퀀스를 나타내기 위해 필요한 비트의 개수를 감소시키기 위해, 제 1 단계의 rt(n)의 최대치는 본 방법의 일반성을 잃지 않게 임의의 유형의 양자화기를 사용하여 양자화되는 초기 펄스 양자화기(initial pulse quantizer)(303)에 전달된다. 이 양자화의 결과는 초기 이득 레벨(G)이다. 이 특정 실시예에서, 차분 이득 레벨 리미터(305)를 사용하여 비트 레이트의 추가 감소가 이루어진다.
대부분의 경우에 단일의 프레임 내에서 서브프레임의 펄스의 양자화된 이득은 제 1 서브프레임의 양자화된 이득 근처에서, 차분적으로 코딩될 수 있는 작은 범위 내에서 변한다는 것을 알 수 있었다. 이러한 사실을 고려하여, 차분 이득 레벨 리미터(differential gain level limiter)(303)를 서브프레임의 펄스 이득의 양자화 프로세스를 제어하기 위해 사용하여, 사용되는 양자화기가 내는 임의의 이득 레벨을 사용하여 제 1 서브프레임의 이득을 양자화하고, 그 외의 모든 서브프레임에 대해서는 제 1 서브프레임의 이득 레벨 근처의 ±gr 이득 레벨만 사용되게 한다. 이러한 방법으로 이득 레벨을 나타내기 위해 필요한 비트의 개수가 상당히 감소될 수 있다.
차분 이득 레벨 리미터(305)는 매우 작거나 매우 큰 이득 레벨의 경우에 차분 코딩의 범위를 동적으로 연장시키는 경계 적응적 차분 코딩 블록(bound adaptive differential coding block)(306)을 포함한다. 이 방법은 간단한 예를 사용하여 설명될 것이다. 초기 펄스 양자화기(303)가 인덱스가 0부터 15까지인 16개로 구분된 이득 레벨로 동작하고, gr = 3이라고 가정하자. 제 1 서브프레임의 제 1 펄스의 양자화된 이득을 양자화 코드북(quantization codebook)(304)의 제 1 인덱스에 대응시킨다. 표준 차분 양자화를 사용하면, 다른 서브프레임의 이득 레벨은 코드북 인덱스 0, 1, 2, 3 및 4에 대응될 수 있다. 차분 코딩의 기준 인덱스로 1보다 작은 전체 범위값이 사용될 수 없다는 것은 명백하다. 경계 적응적 차분 코딩의 방법은 기준 인텍스가 디코더쪽으로 전달되어서, 차분 -1, 0, 1, 2, 3, 4, 5를 나타내기 위해 이 대신에 간단히 차분값을 차분 인덱스 -3, -2, -1, 0, 1, 2, 3로 옮겨 차분값을 사용할 수 있다는 사실을 고려한다. 이 방법으로, 다른 서브프레임의 이득 레벨의 범위는 양자화 코드북 인덱스 5 및 6으로 확장된다. 예컨대 기준 인덱스가 14의 값을 갖는 경우에 동일한 로직이 사용될 수 있다.
비트 레이트 감소 때문에 다중 펄스 분석 코더에서 펄스를 짝수 또는 홀수 위치에만 배치시키는 것이 일반적이다. 본 특정 실시예도 이 기법을 사용하나, 다중 펄스 분석을 짝수와 홀수 양 경우에 대해 수행하여 타겟 벡터와 보다 잘 매칭되는 위치를 선택함으로써 짝수 위치 또는 홀수 위치를 선택하는 다른 실시예들과는 달리, 본 실시예는 다중 펄스 분석을 수행하기 전에, 패리티 선택 블록(310)을 사용하여 짝수 위치 또는 홀수 위치 중 어느 위치를 사용할 것인 지를 미리 결정한다. 상기 패리티 선택 블록(310)에서, 양자화된 이득 레벨에 의해 크기가 조정된 벡터 rt(n) 및 rr(n)의 에너지는 짝수 및 홀수 위치 모두에 대해 계산된다. 보다 큰 에너지 차를 갖는 쪽이 패리티로 결정되어서 다중 펄스 분석 절차는 한 단계로 수행될 수 있다. 이러한 방법으로, 계산 복잡도가 감소된다.
가능한 후보 샘플 위치의 개수를 더 감소시키기 위해, 여기 펄스 탐색 유닛(500)은 펄스 위치 감소 블록(311)을 더 포함하는데, 이 블록은 다음: 위치(n)에서 의 벡터 rt가 양자화된 이득 레벨의 80% 미만의 값을 가지면, 위치(n)는 펄스 후보가 아니라는 기준에 의해 선택되는 펄스 위치를 제거한다. 이러한 방법으로, 최소화된 코드북이 생성된다. 이러한 방법으로 결정되는 펄스 후보의 개수가 사전결정된 펄스의 개수(M)보다 작으면, 이러한 감소 단계의 결과는 사용되지 않고, 패리티 선택 블록(310)에 의해 이루어진 감소 결과만 유효하다.
여기서, 제 1 펄스의 위치 및 이득, 패리티와 펄스 후보 위치는 알려져 있다. 그 외의 M-1개 펄스는 결정되기 전이다. 최적화된 펄스 시퀀스를 생성하기 위해, 기준 벡터 생성기(referent vector generator)(301)가 생성하는 기준 벡터와, 합성 필터(400)가 생성하는 임펄스 응답과, 초기 펄스 로케이터(302)가 생성하는 초기 펄스와, 패리티 선택 블록(310)이 생성하는 패리티와, 차분 이득 리미터 블록(305)이 생성하는 펄스 이득과, 펄스 위치 감소 블록(311)이 생성하는 최소화된 코드북을 수신하는 펄스 결정자(314)가 사용된다.
크기가 조정된 벡터에서 양자화된 이득값을 감하여 벡터 rt(n)으로부터 제 1 펄스의 기여분을 제한다(rr(n-p1)). 이러한 방법으로, 제 2 펄스 탐색을 위한 새로운 타겟 벡터가 생성된다. 제 2 펄스는 패리티 선택 블록(310) 및 펄스 위치 감소 블록(311)에 유효하다고 주장한 펄스 위치 내에서 탐색된다. 제 1 펄스와 유사하게, 제 2 펄스는 새로운 타겟 벡터 rt(n)의 절대값 최대의 위치에 위치한다. 모든 펄스에 대해 동일한 이득을 사용하는 다중 펄스 분석 방법과는 달리, 본 특정 실시예는 각 펄스에 대해 서로 다른 이득 레벨을 사용한다. 이들 이득은 초기 펄스의 이득(G) 이하이다. 가변적인 이득을 나타내기 위해 필요한 비트의 개수를 감소시키기 위하여, (G) 아래의 양자화 범위는 Q개의 구분되는 이득 레벨로 제한된다. Q=0이면, 모든 펄스가 동일한 이득을 갖는다는 것이 명백하다. 모든 펄스에서, G 인덱스와 양자화된 인덱스간의 차이는 0 내지 Q의 범위이다. 그 후, 타겟 벡터로부터 제 2 펄스의 기여분을 감하고, 소정 개수(M)의 펄스가 발견될 때까지 동일한 탐색 절차를 반복한다. 도 4b에는 도 4a에 도시한 타겟 벡터를 나타내는 진폭이 가변적인 펄스의 펄스 시퀀스가 도시되어 있다. 이 펄스 시퀀스를 필터링하여 획득한 임펄스 응답은 도 4c에 도시되어 있으며 이는 타겟 벡터의 근사치이다. 도 4d에서 도 4a에 도시한 타겟 신호를 도 4c에 도시한 타겟 벡터의 근사치와 비교한다.
타겟 벡터를 나타내는 펄스 시퀀스를 찾는 본 알고리즘의 이점은 타겟 벡터와 임펄스 응답의 교차 상관관계의 예를 도시하는 도 5에서 명백히 알 수 있다. 도 5에 도시한 함수는 나머지 신호보다 큰 하나의 최대값을 가진다. 이 피크는 예컨대 큰 진폭을 갖는 두 개의 펄스를 사용하여 시뮬레이션될 수 있다. 이러한 방법으로, 이 피크는 다소 "평평하게(flattedned)"된다. 다음 펄스 위치는 x축 상의 위치(12) 근처일 수 있다. 다중 펄스 분석 또는 최대 우도 양자화 다중 펄스 분석(maximum likelihood quantization multipulse analysis)을 사용하는 경우처럼, 작아진 이 피크를 근사화하기 위해 초기 펄스의 진폭을 갖는 펄스를 사용하면, 근사치는 상당히 나쁠 수 있다. 펄스의 진폭이 다양할 수 있으면, 다음 펄스는 초기 펄스보다 작을 수 있다. 따라서, 가변적인 진폭을 이용하면 보다 우수한 타겟 신호 시뮬레이션을 유도할 수 있다. 이러한 경우에 시퀀스 내의 모든 펄스의 진폭이 초기 펄스의 진폭 이하인 펄스 시퀀스를 사용하는 경우의 이점은 탐색 절차에서 발견되는 모든 펄스에 대해, 그 기여분이 타겟 벡터로부터 감해진다 ― 이는 이전 타겟 신호가 평평해진 것이 새로운 타겟 신호라는 것을 근본적으로 의미함 ― 는 것에서 알 수 있다. 따라서, 다음 펄스의 비양자화된 진폭인 새로운 타겟 벡터의 새로운 절대값 최대치는 이전의 탐색 절차에서 발견되는 값 이하이다.
이 알고리즘을 이용하면, 타겟 신호가 에뮬레이션되는 타겟 신호의 영역에서 모든 펄스가 최적의 진폭을 가지므로, 최소 제곱 에러 조건이 사용되지 않아서 이 방법으로 계산 복잡도가 더 감소된다.
본 발명의 또 다른 실시예에서, 추가의 펄스 로케이터 블록이 사용된다. 이 실시예는 펄스 개수가 적은 경우에 보다 적합하다.
보통, 여기 펄스 탐색 유닛(500)는 짝수 또는 홀수 위치에만 펄스를 배치한다. 본 특정 실시예에서, 48개의 상이한 펄스 위치를 가정하면, 짝수 또는 홀수 위치는 보다 작은 그룹으로 더 분할된다.
모든 짝수 위치에 대해, 다음 세 개의 펄스 그룹:
I [2, 8, 14, 20, 26, 32, 38, 44]
II [4, 10, 16, 22, 28, 34, 40, 46]
III [6, 12, 18, 24, 30, 36, 42, 48]
이 생성된다.
모든 홀수 위치에 대해, 다음 세 개의 펄스 그룹:
I [1, 7, 13, 19, 25, 31, 37, 43]
II [3, 9, 15, 21, 27, 33, 39, 45]
III [5, 11, 17, 23, 29, 35, 41, 47]
이 생성된다.
위치의 분할은 이에 따라 보다 많은 개수의 위치에 대해서도 수행될 수 있다.
여기 펄스 분석을 위한 준비 단계는 기준 벡터 생성기(301)를 사용하여 위에서 설명한 것과 동일하다. 다음 단계인, 초기 이득의 결정 단계는 서로 다른 펄스의 그룹핑으로 인해 약간 다르다. 이러한 경우에, 초기 펄스는 그룹마다 탐색되고, 초기 펄스가 발견된 후에, 이득값은 전술한 것과 동일한 방법으로 양자화된다.
초기 펄스를 포함하는 그룹은 다음 탐색에서 제외된다. 차분 이득 레벨 리미터(305) 및 패리티 선택 블록(310)의 기능은 전술한 것과 동일하다. 펄스 위치 감소 블록(311)은 위에서 설명한 펄스 그룹핑에 맞춰 조정된다. 펄스 위치 감소 블록(311)은 그룹마다 감소 절차를 수행하며, 감소 후에, 모든 그룹은 초기 펄스를 위한 적어도 하나의 유효 위치를 가져야 하고, 그렇지 않으면, 그룹의 모든 위치는 무효이다.
이 단에서, 그룹 내의 유효 펄스 위치를 갖는 집합에서, 초기 펄스 위치 및 이득 레벨이 결정된다. 각 그 그룹 내에서 나머지 두 개의 펄스는 발견되기 전이다. 제 1 펄스의 기여는 전술한 것과 동일한 방식으로 감해지고, 나머지 두 개의 그룹에 대해 탐색이 수행된다. 나머지 그룹 각각에 대해 단일의 펄스가 발견된다. 그 기여는 타겟 벡터로부터 감해지고, 펄스가 발견된 그룹은 탐색에서 제외된다.
본 발명에 따르면, 본 발명을 통해 고품질의 압축 음성을 제공하는 계산적으로 비용이 들지 않는 음성 압축 시스템을 제공할 수 있고, 프레임 크기 최적화를 통해 복잡성이 감소하는 메모리 효율적인 음성 처리 시스템을 제공할 뿐만아니라, 프레임 크기의 최적화를 통해 음성 품질을 개선할 수 있다.
도 1은 음성 처리 시스템의 기본 구조를 도시하는 도면,
도 2는 LPC 분석 유닛을 도시하는 도면,
도 3은 여기 펄스 탐색 유닛을 도시하는 도면,
도 4a는 타겟 신호의 예를 도시하는 도면,
도 4b는 도 4a에 도시된 타겟 신호를 나타내는 가변적인 진폭 펄스 시퀀스를 도시하는 도면,
도 4c는 도 4a에 도시된 타겟 신호의 근사화(필터링된 펄스 시퀀스)를 도시하는 도면,
도 4d는 도 4a에 도시된 타겟 신호와 도 4c에 도시된 타겟 신호의 근사치를 비교하는 도면,
도 5는 임펄스 응답과 타겟 벡터와의 상관 예를 도시하는 도면.
도면의 주요 부분에 대한 부호의 설명
100 : 프레임 처리기 200 : LPC 분석기
201 : LPC 계산기 250 : 단기 중복 제거 유닛
300 : 피치 평가기 315 : 펄스 결정자
400 : 합성 필터 500 : EPS 유닛
Claims (38)
- 입력되는 음성 신호를 샘플의 프레임 및 서브프레임으로 분할하는 프레임 처리 유닛(100)와,상기 프레임 처리 유닛(100)에 접속되어 상기 입력된 음성 신호의 단기 특성을 나타내는 프레임을 계산하는 단기 분석기(short-term analyzer)(200)와,상기 단기 분석기(200)에 접속되어 상기 입력된 음성 신호의 상기 단기 특성을 나타내는 프레임을 제거하고 잡음 형성 음성 신호(noise shaped speech signal)를 생성하는 단기 중복 제거 유닛(short-term redundancy removing unit)(250)과,상기 단기 중복 제거 유닛(250)에 접속되어 장기 특성을 나타내는 상기 잡음 형성의 음성 신호를 계산하고 예측하는 장기 분석기(long-term analyzer)(300)와,상기 장기 분석기(300)에 접속되어 상기 장기 특성을 나타내는 잡음 형성의 음성 신호를 제거하거나 상기 음성 입력 신호의 상기 단기 및 장기 특성을 나타내는 프레임을 제거하고 이러한 방식으로 타겟 백터(target vector)를 생성하는 장기 중복 제거 유닛(long-term redundancy removing unit)(350)와,상기 단기 분석기(200) 및 상기 장기 중복 제거 유닛(350)에 접속되어 타겟 벡터를 시뮬레이션하기 위한 펄스 시퀀스 ― 각 펄스는 가변적인 위치, 기호 및 진폭을 가짐 ― 를 생성하는 여기 펄스 탐색 유닛(excitation pulse search unit)(500)을 포함하는음성 처리 시스템.
- 제 1 항에 있어서,상기 단기 분석기(200) 및 상기 여기 펄스 탐색 유닛(500)에 접속되어 임펄스 응답을 생성하는 합성 필터(synthesis filter)(400)를 더 포함하며,상기 여기 펄스 탐색 유닛(500)은,- 두 개의 기준 벡터, 즉, 상기 타겟 벡터와 상기 임펄스 응답과의 교차 상관관계(cross correlation)와, 상기 임펄스 응답의 자기상관관계를 생성하는 기준 벡터 생성기(301)와,- 상기 기준 벡터 생성기(301)에 접속되어 상기 초기 펄스의 위치를 검색하는 초기 펄스 로케이터(initial pulse locater)(302)와,- 상기 펄스를 양자화하는 초기 펄스 양자화기(303)와,- 상기 초기 펄스 양자화기(303)에 포함되는 양자화 코드북(quantization codebook)과,- 상기 초기 펄스 양자화기(303)에 접속되어 상기 서브프레임 내의 상기 진폭 ― 상기 제 1 서브프레임이 취할 수 있는 진폭을 제외함 ― 의 이득값의 개수를 제한함으로써 상기 펄스 진폭의 차분 코딩을 행하는 차분 이득 레벨 리미터 블록(305)을 포함하는음성 처리 시스템.
- 제 1 항 또는 제 2 항에 있어서,시퀀스의 모든 펄스의 이득 레벨이 상기 초기 펄스의 상기 이득 레벨 이하인음성 처리 시스템.
- 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,상기 단기 분석기(200)는 LPC 분석기인음성 처리 시스템.
- 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,상기 장기 분석기(300)는 피치 평가 유닛(pitch estimation unit)을 포함하는음성 처리 시스템.
- 제 2 항 내지 제 5 항 중 어느 한 항에 있어서,상기 차분 이득 레벨 리미터 블록(differential gain level limiter block)(305)은 상기 차분 코딩의 범위를 동적으로 확장하는 경계 적응적 차분 코딩 블록(bound adaptive differential coding block)(306)을 포함하는음성 처리 시스템.
- 제 2 항 내지 제 6 항 중 어느 한 항에 있어서,상기 초기 펄스 양자화기(initial pulse quantizer)(303) 및 상기 기준 벡터 생성기(301)에 접속되어 모든 펄스가 짝수나 홀수로 되도록 미리 결정하는 패리티 선택 블록(310)을 더 포함하는음성 처리 시스템.
- 제 7 항에 있어서,상기 패리티 선택 블록(310)에 접속되어 탐색될 수 있는 펄스 위치의 개수를 감소시키는 펄스 위치 감소 블록(310)을 더 포함하는음성 처리 시스템.
- 제 8 항에 있어서,최적화된 펄스 시퀀스를 생성하기 위해상기 기준 벡터 생성기(301)가 생성하는 기준 벡터와,상기 합성 필터(400)가 생성하는 임펄스 응답과,상기 초기 펄스 로케이터(302)가 생성하는 초기 펄스와,상기 패리티 선택 블록(310)이 생성하는 패리티와,상기 차분 이득 리미터 블록(305)이 생성하는 펄스 이득과,상기 펄스 위치 감소 블록(311)이 생성하는 최소화된 코드북을 수신하는 펄스 결정자(pulse determiner)(315)를 더 포함하는음성 처리 시스템.
- 입력되는 음성 신호를 프레임 및 서브프레임으로 분할하는 단계와,상기 입력된 음성 신호의 단기 특성을 나타내는 프레임을 계산하는 단계와,상기 입력된 음성 신호의 상기 단기 특성을 나타내는 프레임의 제거하고 잡음 형성 음성 신호를 생성하는 단계와,장기 특성을 나타내는 상기 잡음 형성 음성 신호를 계산하고 예측하는 단계와,상기 작익 특성을 나타내는 상기 잡음 형성 음성 신호를 제거하거나 상기 음성 입력 신호의 상기 단기 및 장기 특성을 나타내는 프레임을 제거하고, 이러한 방식으로 타겟 벡터를 생성하는 단계와,합성 필터(synthesis filter)를 통과시켜 타겟 벡터를 시뮬레이션하기 위한 가변적인 위치, 기호 및 진폭을 가지는 펄스 시퀀스를 생성하는 단계를 포함하는음성 처리 방법.
- 제 10 항에 있어서,상기 제 1 서브프레임에 대해 상기 펄스의 상기 이득 레벨을 결정하고, 이에 따라 상기 이득 레벨이 양자화된 값의 집합으로부터 임의의 값을 취할 수 있는 단계와,그 다음의 서브프레임에 대해 상기 펄스의 상기 이득 레벨을 결정하고, 이에 따라 상기 펄스의 상기 이득 레벨이 상기 제 1 서브프레임에 대해 결정된 상기 이득 레벨 근처의 여러 값들의 집합으로부터의 값만 취할 수 있는 단계를 더 포함하는음성 처리 방법.
- 제 10 항 또는 제 11 항에 있어서,시퀀스 내의 모든 펄스의 이득 레벨은 상기 초기 펄스의 상기 이득 레벨 이하인음성 처리 방법.
- 제 11 항에 있어서,여러 값들의 상기 집합은 상기 제 1 서브프레임에 대해 결정된 상기 이득 레벨 근처의 ±gr의 범위로써 결정되는음성 처리 방법.
- 제 11 항 또는 제 13 항에 있어서,매우 작거나 매우 큰 이득 레벨 값의 경우에, 상기 차분 코딩의 범위를 동적으로 확장하는 단계를 더 포함하는음성 처리 방법.
- 제 10 항 내지 제 14 항 중 어느 한 항에 있어서,상기 제 1 펄스의 위치를 결정하는 상기 단계는,펄스가 짝수 위치에만 배치될 지 또는 홀수 위치에만 배치될 지를 선택하는 단계와,짝수 위치 또는 홀수 위치에만 한번, 상기 다중 펄스 분석(multi-pulse analysis)을 수행하는 단계를 포함하는음성 처리 방법.
- 제 10 항 내지 제 15 항 중 어느 한 항에 있어서,기준 벡터 값을 계산하고, 이 값이 소정의 범위보다 작으면 기준 벡터값을 계산하고 상기 위치를 제외하여 펄스 위치의 개수를 감소시키는 단계를 더 포함하는음성 처리 방법.
- 제 16 항에 있어서,상기 기준 벡터값은 상기 타겟 벡터와 상기 합성 필터의 상기 임펄스 응답의 교차 상관관계(cross correlation)에 대응되는음성 처리 방법.
- 제 16 항 또는 제 17 항에 있어서,상기 결정된 범위는 상기 양자화된 이득 레벨의 80%인음성 처리 방법.
- 상기 입력된 음성 신호의 상기 프레임의 단기 특성을 계산하는 단기 분석기(200)를 포함하며,상기 단기 분석기(200)는LPC 분석 유닛이며,- LPC 계수를 계산하기 위해 음성 샘플을 수신하여 레빈슨 두빈(Levinson Durbin) 알고리즘을 사용하여 LPC 계산기(201)와,- 상기 LPC 계산기(201)에 접속되어 LPC-LSP 변환(LPC to LSP transformation)을 수행하는 LPC- LSP 변환 유닛(202)과,- 상기 LPC-LSP 변환 유닛(202)에 접속되어 벡터 양자화를 사용하거나 벡터 및 스칼라 결합형 양자화(combined vector and scalar quantization)를 사용하여 상기 LSP 계수를 양자화하는 다중 벡터 양자화 유닛(205)을 포함하는음성 처리 시스템.
- 제 19 항에 있어서,상기 다중 벡터 양자화 유닛(205)에 접속되어 상기 양자화된 LSP 계수를 탈양자화(dequantizing)하는 LSP 탈양자화 유닛(207)을 더 포함하는음성 처리 시스템.
- 제 20 항에 있어서,상기 LSP 탈양자화 유닛(207)에 접속되어 LSP를 LPC로 역변환하는 LSP-LPC 변환 유닛(208)을 더 포함하는음성 처리 시스템.
- 제 19 항 내지 제 21 항 중 어느 한 항에 있어서,양자화를 위해 사용되는 상기 다중 벡터 양자화 유닛(205)에 포함되는 벡터 코드북(vector codebook)(206)을 더 포함하는음성 처리 시스템.
- LPC 분석 유닛을 사용하여 상기 단기 특성을 평가하는 음성 프레임을 평가하는 방법으로서,- 상기 레빈슨 두빈(levinson-durbin) 알고리즘을 사용하여 입력되는 음성 샘플에 대한 LPC 계수를 계산하는 단계와,- 상기 LPC 계수에 대해 LPC-LSP 변환을 수행하는 단계와,- 벡터 양자화 또는 벡터 및 스칼라 결합형 양자화를 사용하여 상기 LSP 계수에 대해 다중 벡터 양자화를 수행하는 단계를 포함하는평가 방법.
- 제 23 항에 있어서,상기 LSP 계수를 탈양자화하는 단계를 더 포함하는평가 방법.
- 제 24 항에 있어서,상기 LSP 계수에 대해 LSP-LPC 변환을 수행하는 단계를 더 포함하는평가 방법.
- 제 23 항 내지 제 25 항 중 어느 한 항에 있어서,10의 LPC 계수가 생성되는평가 방법.
- 제 23 항 내지 제 26 항 중 어느 한 항에 있어서,LPC 계수의 개수는 가변적 크기의 서브벡터(sub-vectors)로 분할되는평가 방법.
- 제 27 항에 있어서,상기 다양한 크기의 서브벡터들이 벡터 양자화를 사용하여 양자화되는평가 방법.
- 제 27 항에 있어서,가장 중요한 계수를 포함하는 상기 가변적 크기의 서브벡터는 스칼라 양자화를 사용하여 양자화되고, 그 외의 서브벡터들은 벡터 양자화를 사용하여 양자화되는평가 방법.
- 제 23 항 내지 제 29 항 중 어느 한 항에 있어서,벡터 코드북(206)이 양자화를 위해 사용되는평가 방법.
- 제 30 항에 있어서,상기 벡터 코드북(206)은 벡터당 128개의 벡터 인덱스를 포함하는평가 방법.
- 상기 음성 샘플의 정규화된 자기 상관관계 함수를 사용하여 두 개의 서브프레임에 대한 피치값(pitch value)을 평가하는 방법으로서,상기 탐색 절차는 계층적 피치 평가 절차인평가 방법.
- 제 32 항에 있어서,N번 째 지점마다 상기 정규화된 자기 상관관계 함수를 계산하는 단계 ― 보다 작은 n값이 다소 선호되고, n은 가능한 피치 주기값을 나타냄 ― 와,상기 피치 주기에 대한 최대값(nmax)을 수신하는 단계와,상기 피치 주기의 정확한 값을 결정하기 위해 (nmax)근처 범위에서 상기 정규화된 자기 상관관계 함수를 계산하는 단계를 포함하는평가 방법.
- 제 33 항에 있어서,N번째 지점마다 상기 정규화된 자기상관 함수를 계산하기 위해,다음 공식:을 사용하고, 18 ≤ n ≤ 144, 0 ≤ i ≤ 2I-1, n = 18 + N·k, k = 0, 1, 2, 3, ...이고, i는 각각 길이가 I인 두 개의 연속하는 샘플의 번호이고,(nmax)근처 범위(R)에서, 상기 정규화된 자기 상관관계 함수를 계산하기 위해 다음 공식:을 사용하고, (nmax) - R ≤ n ≤ (nmax) + R, 0 ≤ i ≤ 2I-1, n ≠ 18 + N-k, k = 0, 1, 2, 3, ...인평가 방법.
- 제 32 항에 있어서,X개의 분할대역에서 가능한 피치값의 범위를 분할하는 단계와,N번 째 지점마다 모든 분할대역에 대해 상기 정규화된 자기 상관관계 함수를 계산한 단계 ― 보다 작은 n의 값을 선호하지 않으며, n은 가능한 피치 주기값을 나타냄 ― 와,모든 분할대역에 대해 상기 피치값의 최대값(n1max, m2max, ..., nxmax)을 결정하는 단계와,서로 다른 상기 분할대역의 최대값을 비교하는 단계 ― 보다 작은 분할대역 피치값은 보다 큰 분할대역의 정규화된 자기 상관관계와 1보다 작은 인자를 곱함으로써 치우쳐짐 ― 와,상기 피치 주기의 상기 최대값 n1max, n2max, ..., nXmax 중 가장 우수한 것을 결정하는 단계와,상기 피치 주기의 정밀한 값을 결정하기 위해 상기 최대값들 중 가장 우수한 것 근처의 범위에서 상기 정규화된 자기 상관관계 함수를 계산하는 단계를 포함하는평가 방법.
- 제 35 항에 있어서,상기 인자(f)는 0.875인평가 방법.
- 제 32 항 내지 제 36 항 중 어느 한 항에 있어서,상기 프레임의 길이는 200이고, 각 서브프레임(I)의 길이는 50인평가 방법.
- 제 32 항 내지 제 37 항 중 어느 한 항에 있어서,N은 2인평가 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03019036A EP1513137A1 (en) | 2003-08-22 | 2003-08-22 | Speech processing system and method with multi-pulse excitation |
EP03019036.7 | 2003-08-22 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20050020728A true KR20050020728A (ko) | 2005-03-04 |
Family
ID=34130078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020040066320A KR20050020728A (ko) | 2003-08-22 | 2004-08-23 | 음성 처리 시스템, 음성 처리 방법 및 음성 프레임 평가방법 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20050114123A1 (ko) |
EP (1) | EP1513137A1 (ko) |
KR (1) | KR20050020728A (ko) |
TW (1) | TW200608351A (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9773507B2 (en) | 2010-10-18 | 2017-09-26 | Samsung Electronics Co., Ltd. | Apparatus and method for determining weighting function having for associating linear predictive coding (LPC) coefficients with line spectral frequency coefficients and immittance spectral frequency coefficients |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9185487B2 (en) | 2006-01-30 | 2015-11-10 | Audience, Inc. | System and method for providing noise suppression utilizing null processing noise subtraction |
KR101542069B1 (ko) * | 2006-05-25 | 2015-08-06 | 삼성전자주식회사 | 고정 코드북 검색 방법 및 장치와 그를 이용한 음성 신호의부호화/복호화 방법 및 장치 |
USRE50132E1 (en) | 2006-10-25 | 2024-09-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating audio subband values and apparatus and method for generating time-domain audio samples |
USRE50158E1 (en) | 2006-10-25 | 2024-10-01 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating audio subband values and apparatus and method for generating time-domain audio samples |
US8798776B2 (en) | 2008-09-30 | 2014-08-05 | Dolby International Ab | Transcoding of audio metadata |
FR2938688A1 (fr) * | 2008-11-18 | 2010-05-21 | France Telecom | Codage avec mise en forme du bruit dans un codeur hierarchique |
CN101599272B (zh) * | 2008-12-30 | 2011-06-08 | 华为技术有限公司 | 基音搜索方法及装置 |
US9245529B2 (en) * | 2009-06-18 | 2016-01-26 | Texas Instruments Incorporated | Adaptive encoding of a digital signal with one or more missing values |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
US8798290B1 (en) | 2010-04-21 | 2014-08-05 | Audience, Inc. | Systems and methods for adaptive signal equalization |
US9558755B1 (en) * | 2010-05-20 | 2017-01-31 | Knowles Electronics, Llc | Noise suppression assisted automatic speech recognition |
US9881625B2 (en) | 2011-04-20 | 2018-01-30 | Panasonic Intellectual Property Corporation Of America | Device and method for execution of huffman coding |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
US9922657B2 (en) * | 2014-06-27 | 2018-03-20 | Dolby Laboratories Licensing Corporation | Method for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values |
CN106797512B (zh) | 2014-08-28 | 2019-10-25 | 美商楼氏电子有限公司 | 多源噪声抑制的方法、系统和非瞬时计算机可读存储介质 |
US9978388B2 (en) | 2014-09-12 | 2018-05-22 | Knowles Electronics, Llc | Systems and methods for restoration of speech components |
WO2016123560A1 (en) | 2015-01-30 | 2016-08-04 | Knowles Electronics, Llc | Contextual switching of microphones |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62234435A (ja) * | 1986-04-04 | 1987-10-14 | Kokusai Denshin Denwa Co Ltd <Kdd> | 符号化音声の復号化方式 |
DE3888547T2 (de) * | 1987-01-16 | 1994-06-30 | Sharp Kk | Gerät zur Sprachanalyse und -synthese. |
EP0280827B1 (en) * | 1987-03-05 | 1993-01-27 | International Business Machines Corporation | Pitch detection process and speech coder using said process |
US5125030A (en) * | 1987-04-13 | 1992-06-23 | Kokusai Denshin Denwa Co., Ltd. | Speech signal coding/decoding system based on the type of speech signal |
DE68916944T2 (de) * | 1989-04-11 | 1995-03-16 | Ibm | Verfahren zur schnellen Bestimmung der Grundfrequenz in Sprachcodierern mit langfristiger Prädiktion. |
US5754976A (en) * | 1990-02-23 | 1998-05-19 | Universite De Sherbrooke | Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech |
US5495555A (en) * | 1992-06-01 | 1996-02-27 | Hughes Aircraft Company | High quality low bit rate celp-based speech codec |
US5434947A (en) * | 1993-02-23 | 1995-07-18 | Motorola | Method for generating a spectral noise weighting filter for use in a speech coder |
US5568588A (en) * | 1994-04-29 | 1996-10-22 | Audiocodes Ltd. | Multi-pulse analysis speech processing System and method |
US5854998A (en) * | 1994-04-29 | 1998-12-29 | Audiocodes Ltd. | Speech processing system quantizer of single-gain pulse excitation in speech coder |
US5790759A (en) * | 1995-09-19 | 1998-08-04 | Lucent Technologies Inc. | Perceptual noise masking measure based on synthesis filter frequency response |
IL115697A (en) * | 1995-10-19 | 1999-09-22 | Audiocodes Ltd | Pitch determination preprocessor based on correlation techniques |
EP0773533B1 (en) * | 1995-11-09 | 2000-04-26 | Nokia Mobile Phones Ltd. | Method of synthesizing a block of a speech signal in a CELP-type coder |
US5819213A (en) * | 1996-01-31 | 1998-10-06 | Kabushiki Kaisha Toshiba | Speech encoding and decoding with pitch filter range unrestricted by codebook range and preselecting, then increasing, search candidates from linear overlap codebooks |
US6167375A (en) * | 1997-03-17 | 2000-12-26 | Kabushiki Kaisha Toshiba | Method for encoding and decoding a speech signal including background noise |
JP3684751B2 (ja) * | 1997-03-28 | 2005-08-17 | ソニー株式会社 | 信号符号化方法及び装置 |
JP2000047696A (ja) * | 1998-07-29 | 2000-02-18 | Canon Inc | 情報処理方法及び装置、その記憶媒体 |
JP3343082B2 (ja) * | 1998-10-27 | 2002-11-11 | 松下電器産業株式会社 | Celp型音声符号化装置 |
US7272553B1 (en) * | 1999-09-08 | 2007-09-18 | 8X8, Inc. | Varying pulse amplitude multi-pulse analysis speech processor and method |
US6751587B2 (en) * | 2002-01-04 | 2004-06-15 | Broadcom Corporation | Efficient excitation quantization in noise feedback coding with general noise shaping |
KR100503414B1 (ko) * | 2002-11-14 | 2005-07-22 | 한국전자통신연구원 | 고정 코드북의 집중 검색 방법 및 장치 |
-
2003
- 2003-08-22 EP EP03019036A patent/EP1513137A1/en not_active Withdrawn
-
2004
- 2004-08-19 TW TW093124943A patent/TW200608351A/zh unknown
- 2004-08-23 KR KR1020040066320A patent/KR20050020728A/ko not_active Application Discontinuation
- 2004-08-23 US US10/924,237 patent/US20050114123A1/en not_active Abandoned
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9773507B2 (en) | 2010-10-18 | 2017-09-26 | Samsung Electronics Co., Ltd. | Apparatus and method for determining weighting function having for associating linear predictive coding (LPC) coefficients with line spectral frequency coefficients and immittance spectral frequency coefficients |
US10580425B2 (en) | 2010-10-18 | 2020-03-03 | Samsung Electronics Co., Ltd. | Determining weighting functions for line spectral frequency coefficients |
Also Published As
Publication number | Publication date |
---|---|
TW200608351A (en) | 2006-03-01 |
EP1513137A1 (en) | 2005-03-09 |
US20050114123A1 (en) | 2005-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0422232B1 (en) | Voice encoder | |
CA2061803C (en) | Speech coding method and system | |
KR20050020728A (ko) | 음성 처리 시스템, 음성 처리 방법 및 음성 프레임 평가방법 | |
EP0802524B1 (en) | Speech coder | |
EP0532225A2 (en) | Method and apparatus for speech coding and decoding | |
CN104021796B (zh) | 语音增强处理方法和装置 | |
KR101095425B1 (ko) | 신호 압축 방법 및 장치 | |
KR101414341B1 (ko) | 부호화 장치 및 부호화 방법 | |
CN103069483B (zh) | 编码装置以及编码方法 | |
JPH09181611A (ja) | 信号符号化装置及び方法 | |
EP0834863B1 (en) | Speech coder at low bit rates | |
KR20090117877A (ko) | 부호화 장치 및 부호화 방법 | |
EP0810584A2 (en) | Signal coder | |
CN101609681B (zh) | 编码方法、编码器、解码方法及解码器 | |
EP0871158B1 (en) | System for speech coding using a multipulse excitation | |
EP0866443B1 (en) | Speech signal coder | |
JP3194930B2 (ja) | 音声符号化装置 | |
JP3252285B2 (ja) | 音声帯域信号符号化方法 | |
JP3428595B2 (ja) | 音声符号化方式 | |
JP3984048B2 (ja) | 音声/音響信号の符号化方法及び電子装置 | |
JP3024467B2 (ja) | 音声符号化装置 | |
JPH09179593A (ja) | 音声符号化装置 | |
JP3144244B2 (ja) | 音声符号化装置 | |
JPH02160300A (ja) | 音声符号化方式 | |
Ramadan | Compressive sampling of speech signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
N231 | Notification of change of applicant | ||
WITN | Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid |