KR100896944B1 - 음성 신호의 연속 피치 주기들의 부호화 - Google Patents
음성 신호의 연속 피치 주기들의 부호화 Download PDFInfo
- Publication number
- KR100896944B1 KR100896944B1 KR1020037016101A KR20037016101A KR100896944B1 KR 100896944 B1 KR100896944 B1 KR 100896944B1 KR 1020037016101 A KR1020037016101 A KR 1020037016101A KR 20037016101 A KR20037016101 A KR 20037016101A KR 100896944 B1 KR100896944 B1 KR 100896944B1
- Authority
- KR
- South Korea
- Prior art keywords
- pitch
- signal
- value
- open loop
- subframes
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 29
- 230000005236 sound signal Effects 0.000 claims description 33
- 238000009826 distribution Methods 0.000 claims description 21
- 230000004044 response Effects 0.000 claims description 10
- 238000007493 shaping process Methods 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 claims description 2
- 238000007670 refining Methods 0.000 abstract 1
- 230000005284 excitation Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004836 empirical method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Selective Calling Equipment (AREA)
Abstract
음성 신호의 연속 피치 주기들을 부호화하는 방법 및 장치(도 5)가 제공되어 있다. 연속 음성 주기들의 통계적 특성의 사전 지식에 의거해서, 형상을 갖는 격자 구조가 피치 공간에서 가장 빈도가 높은 점들을 점유하도록 설계된다. 부호록 색인 검색은 모든 차원들을 고려하여 피치 공간에서 개방루프 추정치를 구하고 상기 형상을 갖는 격자 구조에 기초한 각각의 차원에서 폐루프 검색으로 개방 루프 추정치를 개별적으로 세분화한다. 제1 서브 프레임에 대한 폐루프 검색은 절대 피치 주기 또는 델타 피치를 획득하기 위한 것이며 나머지 서브 프레임들 각각에 대한 폐루프 검색은 대응하는 서브 프레임에 대한 델타 피치를 획득하기 위한 것이다.
Description
본 발명은, 일반적으로 기술하면, 음성 부호화 분야에 관한 것이며, 보다 구체적으로 기술하면, 연속 피치 주기들의 양자화에 관한 것이다.
인성(人聲) 처리 메카니즘에 의거해서, 음역을 갖는 음성의 피치 주기 곡선이 시간에 대하여 느리게 전개된다. 이러한 현상은 연속 피치 주기들 간의 차를 부호화하여 부호화 효율을 증대시킴으로써 현재의 음성 부호기에서 많이 이용되고 있다. 부호 여기 선형 예측(code excited linear predictive; CELP) 부호기와 같은, 서브 프레임에 기초하여 동작하는 전형적인 부호기에 있어서는, 절대 피치 주기가 매 프레임마다 적어도 한번 전송된다.
연속 피치 주기들 간의 차는 델타 주기로서 언급되고 있는 것이 일반적이다. 종래 기술에서는, 이러한 델타 주기들이 부호화를 용이하게 하는 특정의 한계 범위로부터 균일하게 분포된 값들을 획득할 수 있다. 이는 프레임을 통해 델타 주기들을 정의하는 점들이 균일하게 분포하는 다차원 사각형 격자로서 해석될 수 있다. 따라서, 델타 주기의 부호화는 균일 양자화기를 사용하여 수행된다. 즉, 유사한 양자화기들은 여러 개의 연속 델타 주기들을 독립적으로 부호화하는 데 사용된다. 이 같은 접근법을 사용하는 부호기는 또한 다차원 사각형 격자 양자화기로서 공지되어 있다. 다차원 격자 양자화기에 있어서는, 각각의 차원이 하나의 대응 서브 프레임에서의 피치 주기를 나타낸다. 대개는, 한 격자의 제1 차원이 제1 서브 프레임의 절대 피치 주기를 나타내며, 나머지 차원들 각각이 현재 및 이전의 서브 프레임의 피치 주기들 간의 차를 나타낸다. 따라서, 한 음성 프레임이 음성 처리를 위해 4개의 서브 프레임으로 분할되는 음성 부호화 방식에 있어서는, 연속 피치 주기들의 양자화에 사용하기 위한 부호기가 4차원 격자 양자화기로서 언급되며, 상기 제1 차원의 절대 피치 주기 및 상기 나머지 3개의 차원들에서의 델타 주기들은 4차원 피치 공간에서 점(,,,)으로 표시된다. 본 발명에서는, 단지 델타 주기들(,,,...,)만에 대한 차원들을 포함하는 격자 구조를 고려한 것이다.
차분 부호화를 이용하는 종래 기술의 음성 부호기들 대부분에 있어서는, 개의 델타 주기에 대한 격자의 구조가 차원 피치 공간에서 일정한 형태를 갖는 한세트의 점들로서 설명되기 때문에, 상기 점들이 상기 피치 공간 전반에 걸쳐 균일하게 이격되어 있다. 상기 피치 공간에서의 점들의 균일한 이격 외에도, 종래 기술의 음성 부호기들의 주요 특징은 2차원 평면상에 격자점들을 투영하는 사각형이다. 상기 격자 구조는 대개 이전의 분절(segment)의 피치 주기에 관계없이 일정하다. 델타 주기들에 대한 전형적인 2차원 격자의 일례가 도 1에 도시되어 있는 데, 이 경우 상기 격자()는 이하 수학식 1로 정의된다.
상기 격자는 및의 가능한 모든 조합을 및의 대응하는 최소 및 최대 값 사이에 포함한다. 상기 격자가, 도 1에 도시된 바와 같이, 2차원 격자이지만, 보다 큰 차원의 격자들이 상기 2차원 경우로부터 용이하게 획득될 수 있다. 대개는, 차원에 대한 가능한 최소 및 최대의 델타 주기들이 각각 및 로 표시된다.
일단 격자 양자화기의 형상 및 영역이 정의되면, 주요 매개변수가 격자의 밀도인 데, 그 이유는 상기 밀도가 상기 부호기의 비트율을 결정하기 때문이다. 이러한 비트율은 점진적으로 증가하는 밀도 함수이다. 따라서, 상기 격자 양자화기의 밀도는 피치 주기 정보에 대해 사용되는 정확도를 나타낸다. 통상, 분수값들은 합성 음성의 품질을 개선하기 위하여 정수들 대신에 사용된다.
델타 주기들에 대한 전형적인 격자 양자화기에 있어서는, 격자의 사각형이 일정하게 유지되는 동안에 격자의 경계값(,)들을 고려하는 것이 일반적이다. 그러나, 발생 확률 대부분을 포함하는 피치 공간의 영역들을 점유하기에 적합한 한 세트의 격자점들의 선택은 고려되어 있지 않다.
피치가 주요 매개변수인 음성 신호에서, 피치의 전개는 인성 처리 메카니즘의 특성에 기인하여 평탄한 것으로 알려져 있다. 대개는, 음역을 갖는 음성의 피치 주기 곡선이 시간에 대하여 느리게 전개되고 상기 곡선에서의 급격한 변화는 별로 생기지 않는 것처럼 보인다. 사각형 격자 구조가 피치 공간의 영역들을 점유하기 위한 격자점들의 선택에 유리하다는 것과는 거리가 멀다고 알려져 왔다. 더군다나, 종래 기술에서는, 차분 피치 값들에 대한 검색은 각각의 차원에서 독립적으로 수행된다. 사각형 격자들의 사용 및 검색 방법이 공지된 인성 동작을 반영하도록 최적화되지는 않았다.
합성 음성의 품질을 개선하기 위해 상기 피치 공간에서의 발생 확률을 이용하여, 음성 부호기에서의 연속 피치 주기들의 양자화를 위한 개선된 방법 및 장치를 제공하는 것이 유리하며 바람직하다.
본 발명의 주된 목적은 연속 피치 주기들의 부호화 효율을 증대시킴으로써 연속 피치 주기들 간의 차를 부호화하도록 차분 부호화를 이용하는 음성 부호기에서 합성 음성들의 품질을 개선시키는 것이다. 이러한 목적은 음역을 갖는 음성의 연속 델타 주기들의 동작에 대한 사전 지식에 기초하여, 가장 빈도가 높은 점들이 배치되는 피치 공간의 영역을 점유하도록 형상을 이루는 최적화되거나, 또는 보다 효율적인 격자 구조를 정의함으로써 달성될 수 있다. 더군다나, 서로 다른 점밀도가 피치 주기들에 대하여 서로 다른 시간 해상도를 나타내는 영역들은 최적화된 격자 구조 내에서 정의될 수 있다. 이같은 최적화된 격자 구조를 사용하는 경우, 상기 최적화된 격자 구조에서의 어느 한 점에 하나의 색인을 지정하고 부호록에서 상기 색인을 검색하는 신규한 방법이 제공될 수 있다.
따라서, 본 발명의 제1 실시태양에 의하면, 각각의 신호 프레임이 대응하는 신호 프레임에서의 사운드(sound) 신호를 나타내는 피치 주기를 갖는 복수 개의 신호 프레임들에서의 사운드 신호를 부호화하는 방법으로서, 각각의 신호 프레임은 각각의 신호 분절이 한 피치 공간의 차원을 나타내는 복수 개의 신호 분절들을 포함하고, 상기 신호 분절들 각각의 사운드 신호는 하나의 피치 값으로 특징화되며, 상기 피치 값들은 상기 피치 공간에서 부호록 색인들을 정의하기 위해 한 격자 구조에서 상기 사운드 신호의 점 분포 패턴 특성으로 표시가능한 부호화 방법에 있어서,
상기 점 분포 패턴에 기초하여 상기 격자 구조를 형상화하는 단계; 및
상기 사운드 신호의 부호화를 용이하게 하기 위해 상기 형상을 갖는 격자 구조에 따라 상기 피치 공간의 각각의 차원에서 상기 피치 값을 나타내는 부호록 색인을 제공하는 단계를 포함하는 것을 특징으로 하는 부호화 방법이 제공된다.
본 발명의 제1 실시태양에 의하면, 상기 방법은,
상기 피치 공간의 모든 차원들을 고려하여 상기 형상을 갖는 격자 구조로부터의 개방루프 검색으로 상기 피치 주기의 개방루프 추정치를 획득하는 단계; 및
상기 피치 값을 나타내는 폐루프 검색 값을 상기 대응하는 신호 분절에서 획득하도록 상기 형상을 갖는 격자 구조로부터의 폐루프 검색으로 상기 피치 공간의 각각의 차원에서의 개방루프 추정치를 개별적으로 세분화하는 단계를 더 포함하는 것을 특징으로 한다.
본 발명에 의하면, 상기 피치 값은 차분 피치 주기 또는 절대 피치 주기를 나타낸다.
본 발명에 의하면, 상기 신호 분절들 중 적어도 하나의 신호 분절의 피치 값은 절대 피치 주기를 나타내며 나머지 신호 분절들 각각의 피치 값은 차분 피치 주기를 나타낸다.
따라서, 상기 신호 분절들이 순차적으로 제1 신호 분절 및 3개의 제2 신호 분절들을 포함할 경우, 상기 제1 신호 분절의 피치 값은 절대 피치 주기를 나타내며, 상기 제2 신호 분절들 각각의 피치 값은 차분 피치 주기를 나타낸다.
변형적으로는, 상기 신호 프레임들 각각은 4개의 신호 분절들을 포함하고, 상기 4개의 신호 분절들 각각의 피치 값은 차분 피치 주기를 나타낸다.
본 발명에 의하면, 상기 신호 분절들은 연속 서브 프레임들로 배열될 수 있다. 따라서, 상기 제1 서브 프레임의 피치 값은 절대 피치 주기 또는 차분 피치 주기일 수 있고, 나머지 서브 프레임들 각각의 피치 값은 차분 피치 주기이다.
바람직하기로는, 상기 격자 구조의 각각의 점은 상기 피치 공간의 기준점으로부터의 거리를 나타내고 상기 격자 구조는 미리 결정된 거리를 초과하는 점들을 제거하도록 형상을 이룬다.
특히, 본 발명의 형상을 갖는 격자 구조는 중복하지 않는 하이퍼큐브들의 합집합으로 구성되고, 상기 하이퍼큐브들은 상기 피치 공간의 각각의 차원에서의 시간 해상도 및 델타 주기 범위로 정의되며, 각각의 하이퍼큐브는 다수의 격자점들을 포함하는 복수 개의 모서리들로 표시될 수 있다. 본 발명에 의하면, 상기 최적화된 격자의 색인은, 상기 하이퍼큐브들의 모서리들 상에서의 다수의 격자점들을 나타낸 다.
여기에서 유념해야 할 점은 부호록 색인이 상기 형상을 갖는 격자를 나타내는 정보를 지닌 채로 부호화 수단에 의해 복호화 수단에 제공 및 전달되고, 상기 복호화 수단이 상기 형상을 갖는 격자 구조에 기초하여 상기 부호록 색인으로부터 음성 신호를 합성한다는 점이다.
본 발명의 제2 실시태양에 의하면, 각각의 신호 프레임이 대응하는 신호 프레임에서의 사운드(sound) 신호를 나타내는 피치 주기를 갖는 복수 개의 신호 프레임들에서의 사운드 신호를 부호화하는 장치로서, 각각의 신호 프레임은 각각의 신호 분절이 한 피치 공간의 차원을 나타내는 복수 개의 신호 분절들을 포함하고, 상기 신호 분절들 각각의 사운드 신호는 하나의 피치 값으로 특징화되며, 상기 피치 값들은 상기 피치 공간에서 부호록 색인들을 정의하기 위해 한 격자 구조에서 상기 사운드 신호의 점 분포 패턴 특성으로 표시가능하고, 상기 격자 구조는 형상을 갖는 격자 구조를 정의하도록 상기 점 분포 패턴에 기초하여 형상을 이루는 부호화 장치에 있어서,
상기 사운드 신호에 응답하여, 개방루프 추정치를 나타내는 개방루프 검색 값을 제공하기 위해 상기 피치 공간의 모든 차원들을 고려하여 상기 형상을 갖는 격자 구조로부터의 개방 루프 검색으로 상기 피치 주기의 개방루프 추정치를 획득하는 수단; 및
상기 개방루프 검색 값에 응답하여, 상기 피치 값을 나타내는 폐루프 검색 값을 상기 대응하는 신호 분절에서 획득하기 위해 상기 형상을 갖는 격자 구조로부 터의 폐루프 검색으로 상기 피치 공간의 각각의 차원에서의 개방루프 추정치를 개별적으로 세분화하는 수단을 포함하는 것을 특징으로 하는 부호화 장치가 제공된다.
본 발명의 제3 실시태양에 의하면, 각각의 신호 프레임이 대응하는 신호 프레임에서의 사운드(sound) 신호를 나타내는 피치 주기를 갖는 복수 개의 신호 프레임들의 사운드 신호를 부호화하는 시스템으로서, 각각의 신호 프레임은 각각의 신호 분절이 한 피치 공간의 차원을 나타내는 복수 개의 신호 분절들을 포함하고, 상기 신호 분절들 각각의 사운드 신호는 하나의 피치 값으로 특징화되며, 상기 피치 값들은 상기 피치 공간에서 부호록 색인들을 정의하기 위해 한 격자 구조에서 상기 사운드 신호의 점 분포 패턴 특성으로 표시가능하고, 상기 격자 구조는 형상을 갖는 격자 구조를 정의하도록 상기 점 분포 패턴에 기초하여 형상을 이루는 부호화 시스템에 있어서,
상기 사운드 신호에 응답하여, 개방루프 추정치를 나타내는 개방루프 검색 값을 제공하기 위해 상기 피치 공간의 모든 차원들을 고려하여 상기 형상을 갖는 격자 구조로부터의 개방 루프 검색으로 상기 피치 주기의 개방루프 추정치를 획득하는 수단, 및 상기 개방루프 검색 값에 응답하여, 상기 형상을 갖는 격자 구조 및 상기 부호록 색인들을 나타내는 정보를 제공하기 위해 상기 피치 값을 나타내는 폐루프 검색 값을 상기 대응하는 신호 분절에서 획득하도록 상기 형상을 갖는 격자 구조로부터의 폐루프 검색으로 상기 피치 공간의 각각의 차원에서의 개방루프 추정치를 개별적으로 세분화하는 수단을 포함하는 부호기; 및
상기 정보에 응답하여, 상기 형상을 갖는 격자 구조에 기초하여 상기 부호록 색인들로부터 추가의 사운드 신호를 합성하는 복호기를 포함하는 것을 특징으로 하는 부호화 시스템이 제공된다.
본 발명은 도 2 내지 도 6과 연관지어 취해진 설명을 이해하면 자명해질 것이다.
도 1은 사각형 격자를 예시하는 개략도이다.
도 2는 형상을 갖는 격자 구조를 예시하는 개략도이다.
도 3a는 2차원 평면에서의 하이퍼큐브(hypercube)의 투영을 예시하는 개략도이다.
도 3b는 다른 2차원 평면에서의 하이퍼큐브의 투영을 예시하는 개략도이다.
도 4a는 2차원 평면에서의 점밀도 분포를 예시하는 히스토그램이다.
도 4b는 다른 2차원 평면에서의 점밀도 분포를 예시하는 히스토그램이다.
도 5는 본 발명에 따른 부호기를 예시하는 개략도이다.
도 6은 본 발명에 따른 음성 신호의 부호화 방법을 예시하는 흐름도이다.
도 2에는 본 발명에 따라 형상을 갖는 격자 구조를 확립하는 원리가 나타나 있다. 대개는, 한 피치 공간에 있는 격자점들이 균일하게 분포되어 있지 않다. 오히려, 그러한 분포는 서로 다른 점밀도들이 피치 주기들에 대하여 서로 다른 시간 해상도들을 나타내는 복수 개의 영역들로 정의된다. 도 2에 도시된 바와 같이, 상 기 피치 공간에는 및로 표시된 서로 다른 점밀도들을 갖는 2개의 부분 격자들이 존재한다. 이들 2개의 부분 격자들의 합집합, 즉,
는 형상을 갖는 격자 구조를 정의하는 최적화된 격자 구조()를 나타낸다.
앞서 언급된 바와 같이, 음역을 갖는 음성의 피치 주기 곡선이 시간에 대하여 느리게 전개되고 상기 곡선에서의 급격한 변화가 별로 생기지 않는 것처럼 보인다. 따라서, 동일한 음성 프레임 내에서는, 2개의 큰 델타 주기를 그다지 지니지 않는 것처럼 보인다. 예를 들면, 도 1 및 도 2에 도시된 바와 같이, 격자()의 모서리점들((,),(,),(,),(,)) 및 상기 모서리점들의 인접점들은 델타 주기() 및 델타 주기() 모두가 큰 상태를 나타낸다. 이러한 상태가 음역을 갖는 음성에서는 생기지 않는 것처럼 보이기 때문에, 이같은 점들이 부호록(code book) 색인 검색에는 그다지 사용되지 않는 것처럼 보인다. 따라서, 이같은 지점들은, 결과적으로 얻어지는 음성 품질에 상당한 영향을 주지 않고서도, 도 2에 도시된 바와 같이, 형상을 갖는 격자()로부터 배제될 수 있다. 도 2에 도시된 바와 같이, 피치 주기가 비트율을 상당히 증가시키지 않고서도 평탄하게 전개될 경우, 부분 격자()에서의 보다 높은 점밀도는 보다 미세한 피치 해상도의 사용을 허용한다.
피치 주기의 차분 부호화를 사용하는 기존 부호기 대부분의 폐루프 구조 때문에, 한 격자에서의 색인 검색이 서브 프레임에 기초하여 수행된다. 따라서, 상기 검색은 시간에 대하여 상기 격자의 한 좌표축을 따라 순차적으로 진행된다. 이는 먼저 절대 피치 주기 및 다음의 델타 주기를 포함하는 서브 프레임에 대하여 단일의 개방루프 피치 주기 추정치를 결정함으로써 이행되는 것이 일반적이다. 전형적으로는, 복잡성을 저감시키기 위하여 개방루프 검색에 정수값들이 사용된다. 이후에는, 상기 색인 검색이 폐루프 방식으로 각각의 차원에 대하여 순차적으로 이행된다. 제1 서브 프레임의 경우, 이는 선택된 개방루프 피치 주기 근방에서 이행된다. 나머지 서브 프레임의 경우, 검색 영역은 이전에 선택된 피치 주기 근방으로 이루어진다.
상기 최적화된 격자의 경우, 본 발명에 의하면, 이러한 해결 방안은 실용적이지 않은 데, 그 이유는 각각의 차원에서의 가능한 세트의 격자점들이 대개는 실질적으로 이전 차원에서의 선택된 점에 의존하기 때문이다.
본 발명의 바람직한 방법에 의하면, 형상을 갖는 격자에서의 추정된 개방루프 점은 다차원 공간에서 결정된다. 이후에는, 제1 차원을 포함하여, 각각의 차원에서의 최적 색인이 한번에 한차원씩, 추정된 개방루프 점 근방에서 폐루프 방식으로 결정된다. 도 2에 도시된 바와 같이, 점()은 추정된 개방루프 점을 나타내고 최적 색인은 음영 영역()으로부터 검색된다. 폐루프 검색은 형상을 갖는 격자( )와 개방루프 피치 추정치()에 중심을 둔 검색 영역()의 교점에 속하는 점들을 조사한다. 상기 폐루프 검색으로 결정되는 색인은 상기 격자를 점유하는 서브 프레임들을 통해 피치 주기를 유일하게 정의한다. 도 2에서는, 형상을 갖는 격자()가 격자()의 부분 집합이다. 대개는, 반드시 이러한 경우만이 있는 것이 아니다.
예를 들어, 형상을 갖는 격자 구조는 중복하지 않은 하이퍼큐브()들의 합집합으로서 형상을 이루는 데, 이들 각각은 델타 주기 범위 및 대응하는 차수에서 사용되는 시간 해상도에 의해 정의된다. 상기 하이퍼큐브()들 각각은 하이퍼큐브 행렬의 한 행이다. 만약 한 음성 프레임이 4개의 서브 프레임들로 분할되고 상기 서브 프레임들 각각이 4차원 피치 공간의 한 차원에 표시된다면, 상기 행렬( )의 i번째 행은 유일한 4차원 하이퍼큐브를 이하 수학식 2와 같이 정의한다.
상기 식중, , 및 는 제1 서브 프레임에 대한 피치 주기 및 해상도를 정의한다. 마지막 3개의 서브 프레임들에 있어서의 델타 주기들의 범위들은, 가 서브 프레임 색인일 경우, 및 로 정의된다. 각각의 서브 프레임에서의 대응하는 해상도는 로 표시된다.
위에서 언급된 격자 구조에 의하면, 부호화 과정이 매우 간편하다. 형상을 갖는 격자 내의 어느 한 점의 색인을 부호화하기 위해서는, 모든 하이퍼큐브의 각각의 유일한 모서리에서의 점들의 개수 및 개시 색인이 획득된다. 이러한 부호화 과정은 찾아낸 피치 주기 조합(,,,)이 속하는 하이퍼큐브의 색인을 찾아냄으로써 개시된다. 점(,,,)을 포함하는 하이퍼큐브()는 이하 수학식 3과 같이 정의된다.
도 3a는,의 2차원 평면상에 투영된 것과 같은 4개의 하이퍼큐브( ,,,)들을 예시한 것이다. 도 3b는,의 2차원 평면상에 투영된 바와 같은 하이퍼큐브들을 예시한 것이다. 여기에서 유념해야 할 점은, 대개, 하나의 하이퍼큐브의 점밀도가 다른 하나의 하이퍼큐브의 점밀도와는 다를 수 있다는 점이다. 간략성을 기하기 위하여, 도 3a 및 도 3b에 도시된 바와 같은 원들은 균일하게 분포된 것이다. 도 3a 및 도 3b에서는, 서로 다른 하이퍼큐브들이 에워싼 사각형들로서 도시되어 있으며, 이들 각각은 그의 유일한 모서리들로 정의될 수 있다. 예를 들면, 하이퍼큐브()는 모서리(,,)로 정의된다.
지금까지 본 발명에 따라 최적화되거나 또는 형상을 갖는 격자가 도 2 내지 도 3b와 연관지어 설명되었다. 최적화된 격자 구조의 경우, 본 발명에 의하면, 이하에서 설명되겠지만 음성 합성을 위해 복호기에 전송될 한 세트의 색인들을 정의하는 것이 가능하다. 하이퍼큐브 내의 한 점의 색인은 먼저 하이퍼큐브() 내부에 각각의 차원의 좌표를 정의함으로써 지정될 수 있다. ()번째의 서브 프레임에 대한 좌표()는 이하 수학식 4 및 수학식 5에 의해 구해진다.
상기 식중, 는 하이퍼큐브()의 오프셋이다. 상기 () 차원의의 각각의 모서리 내의 점들의 개수는 로 표시된다. 지금까지 적합한 방식으로 상기 격자가 설명되었기 때문에, 다음 논점으로는 상기 격자에 대한 적절한 경계값을 구해 보고자 한다.
위에서 언급된 바와 같이, 형상을 갖는 격자 구조가 단지 예시를 위한 것이라는 점을 이해하여야 한다. 상기 형상을 갖는 구조는 하이퍼큐브들로 구성된 것에 제한을 두지 않는다. 대개는, 상기 격자 구조가 다차원 피치 공간의 음성 프레임 및 서브 프레임들에서 음성 신호의 점 분포 패턴 특성을 나타내는 부분 격자들을 선택함으로써 형상을 이룬다.
본 발명에 따른 부호화 방법은 변형된 IS-641 음성 부호기에서 구현되었다. 상기 변형된 IS-641 부호기에서는, 절대 피치 주기가 제1 서브 프레임에서 전송되는 통상의 방식으로 제1 차원이 부호화된다. 그러나, 4개의 하이퍼큐브들을 포함하는 형상을 갖는 격자가 나머지 3개의 차원들을 부호화하기 위해 사용된다. 여기에서 유념해야 할 점은 일반 IS-641 부호기에서 단지 2개의 델타 주기들만이 서브 프레임들 2 및 4용으로 전송된다는 점이다. 그 대신에, 변형된 IS-641 부호기에서는, 3개의 델타 주기들이 전송된다. 다수의 화자(talker)들에 의해 사용되는 미국식-영국식 음성을 구성하는 39434개의 프레임들을 사용한 실험에 의거해서, 변형된 IS-641 음성 부호기를 사용한 음성 분절들로부터 생성된 델타 주기의 분포가 도 4a 및 도 4b에 도시되어 있다. 간략성을 기하기 위하여, 델타 주기 범위가 ±6개의 샘플로 제한된다. 번째 서브 프레임과 ()번째 서브 프레임의 피치 주기들 간의 차는로 표시된다. 도 4a 및 도 4b에서는 상기 델타 주기들이 정수값들로 조정되지만, 시뮬레이션(simulation)에서는 1/3 해상도가 사용된다., 평면에서의 점밀도 분포 및, 평면에서의 점밀도 분포가 각각 도 4a 및 도 4b에 도시되어 있다. 도 4a 및 도 4b에 도시된 바와 같이, 2개의 큰 델타 값들의 조합은 드물다. 즉,이 클 경우, 및는 작다. 그러나, 또는가 클 경우,이 작다. 따라서, 서브 프레임들의 델타 주기들 간에는 상호의존 관계가 존재한다. 종래 기술의 부호기에서는, 상기 서브 프레임들의 델타 주기들 간의 상호의존 관계 를 무시한 채로, 각각의 차원이 서로 독립적으로 취급된다. 상기 변형된 IS-641에서, 본 발명에 의하면, 개방루프 피치 값은 프레임에 대한 평균 피치이다. 개방루프 피치 값은 정수 해상도를 사용하여 각각의 차원에서 함께 추정된다. 이러한 개방루프 추정치는 각각의 차원에서의 순차적인 폐루프 검색을 사용할 경우에 세분화된다. 예를 들면, 제1 서브 프레임에 대한 폐루프 값은 추정된 개방루프 피치 값 근방에서 검색된다. 제2 서브 프레임에 대한 폐루프 값은 상기 제1 서브 프레임의 조정된 최적의 폐루프 피치 근방에서 선택되며 이하 마찬가지이다. 상기 제1 서브 프레임에 대한 가능한 정수값은 20 내지 147의 범위이다. 도 4a 및 도 4b에 도시된 바와 같이, 사용된 격자 구조는 축들(,,)에 대하여 대칭이다. 따라서, 델타 주기들에 관한 3차원 격자는 축들(,)에 대한의 투영의 한 모서리점으로 명확하게 정의될 수 있다. 상기 실험에서는, 3개의 서로 다른 최적화된 격자들(형상을 갖는 격자 (),형상을 갖는 격자(),형상을 갖는 격자())는 각각 오프셋()으로서 사용되는 (,), (,) 및 (,)의 모서리점들로 구현된다. 참고로, 최대 델타 주기가 및 인 2개의 입방 양자화기들(격자( ),격자())이 사용된다. 이들의 범위는 도 4a 및 도 4b에 제공된 분포들에 기초하여 선택된다. 시뮬레이션 결과들이 표1에 기재되어 있다. 상기 결과들은 각각의 프레임의 델타 주기들의 부호화에 필요한 비트들의 개수 와 함께, 입력 음성 및 합성 음성의 음역을 갖는 섹션들 간의 분절성 신호 대 잡음비(segmental signal-to-noise ratio; SegSNR)들로서 표기된다. 64개의 샘플들의 분절 길이가 사용되고 침묵(silent) 분절들은 SegSNR 계산에서 무시된다. 모든 시뮬레이션들에서 사용되는 음성 샘플은 청정 상태에서 2명의 남성과 2명의 여성으로 구성된 화자들에 의해 사용되는 4개의 문장(sentence)들로 구성된다. 샘플의 총 길이는 782개의 프레임들이다. 표1에서 알 수 있는 바와 같이, 연속 피치 주기들의 부호화 효율은 본 발명에 따른 최적화된 격자 구조를 사용함으로써 증가될 수 있다.
도 5에는 본 발명에 따른 음성 부호기(1)가 도시되어 있다. 이는 선형 예측 부호화(linear predictive coding; LPC) 기법을 이용하는 분석/합성(Analysis-by-Synthesis; AbS)로서 알려져 있는 부호화 기법에 기초한 것이다. 전형적으로는, LPC 필터 및 시간 변화에 따른 피치 예측기의 종속 관계가 사용된다. 도 5에 도시된 바와 같이, LPC 분석 유닛(10)은 입력 음성 신호에 기초하여 상기 LPC 필터의 계수(102)들을 결정하는 데 사용된다. 대개는, 상기 음성 신호가 예비 처리 단계에서 고역 통과 필터링된다. 이러한 예비 처리된 음성 신호는 이어서 윈도(window) 모드로 되고, 윈도 모드로 된 음성의 자기 상관관계(autocorrelation)들이 계산된 다. 상기 LPC 필터의 계수(102)들은 예를 들면 레빈슨-더빈(Levinson-Durbin) 알고리즘을 사용하여 결정된다. 대부분의 부호기들에 있어서는, 상기 계수들이 서브 프레임마다 결정되지 않는다. 이러한 경우에는, 상기 계수들이 중간 서브 프레임들에 대하여 보간된다. 상기 예비 처리 단계 및 LPC 분석 단계는 당업계에 공지되어 있다. 입력 음성은 역 필터 (; 12)를 통해 추가로 필터링되어 잔류 신호( 104)가 생성된다. 상기 잔류 신호(104)가 때로는 이상적 여기(ideal excitation)로서 언급된다. 상기 연속 피치 값들의 분포에 관한 사전 지식으로부터 결정되는 형상을 갖는 격자에서, 개방루프 검색 유닛(14)이 전체 프레임에 대하여 개방루프 지연 추정 벡터(106)를 추정하는 데 사용된다. 대개는, 상기 벡터(106)의 길이가, 개별적인 서브 프레임들에 대한 지연 추정치들에 해당하는 성분들이 있는 상태에서, 서브 프레임들의 개수와 동일한 길이이다. 또한, 상기 LPC 잔류 신호(104) 대신에 음성 신호를 사용하여 추정 벡터(106)를 검색하는 것이 가능하다. 모든 서브 프레임들이 다차원 피치 공간의 차원들을 구성하고 있기 때문에, 상기 추정 벡터(106)에 대한 검색은 이들 차원 모두를 참작한다. 개방루프 지연 추정 벡터(106)는 상기 피치 공간에서의 각각의 차원에 대하여 개방루프 지연 값을 제공한다. 검색 영역 정의 유닛(16)은, 상기 형상을 갖는 격자에 기초하여, 상기 피치 공간의 각각의 차수에서 폐루프 지연 벡터에 대한 폐루프 검색 영역(108)을 정의하는 데 사용된다. 예를 들면, 상기 검색 영역 정의 유닛(16)은, 도 2에 도시된 바와 같이, 개방루프 피치 추정치()에 중심을 둔 검색 영역()과 형상을 갖는 격자()의 교점에 속 하는 점들을 조사한다. 상기 입력 음성 신호에서, 폐루프 지연 검색에 대한 타겟 신호(110)가, 상기 LPC 필터(10)의 초기 상태의 효과를 고려하여, 상기 입력 음성 신호에서 상기 LPC 필터(10)의 제로 입력 응답을 감산함으로써 계산 유닛(18)에서 계산된다. 폐루프 검색 유닛(20)은, 한번에 한차원씩 개방루프 지연 추정 벡터( 106)를, 부호록 색인을 획득하기위해 그러한 차원에서의 형상을 갖는 격자의 격자점을 사용하는 대응하는 개방루프 지연값에 기초하여, 세분화하는 데 사용된다. 상기 부호록 색인은 신호(112)에 포함된다. 특히, 상기 폐루프 검색 유닛(20)은 상기 LPC 여기 신호 및 상기 LPC 계수(102)들로 표시되는 합성 음성 신호 및 상기 폐루프 지연 검색을 위한 타켓 신호 간의 제곱합 오차(sum-squared error)를 최소화함으로써 폐루프 지연 및 이득을 검색한다. 각각의 서브 프레임에서의 폐루프 지연은 정의된 검색 영역(108)의 대응하는 개방루프 지연값 근방에서 검색된다. 상기 서브 프레임 길이보다 짧은 지연값들에 대해서는, 장기간 예측기(Long Term Predictor; LTP)용 메모리가 확장되어야 한다. 이는 잔류 신호(104)를 사용하여 이행될 수도 있고 이전의 LTP 여기를 복사하여 이행될 수도 있다. LTP 메모리의 확장은 당업계에 공지되어 있다. 여기 검색에 대한 타켓 신호(114)는 폐루프 지연 검색의 타겟 신호(112)로부터 상기 LTP 필터의 기여(110)를 감산함으로써 혁신 부호록 검색 유닛(22)에서 계산된다. 총괄하여 참조번호(116)로 표시되는 여기 신호 및 그의 이득들은 상기 여기 신호 및 상기 LPC 계수(102)들로 표시되는 합성 음성 신호 및 상기 여기 검색을 위한 타겟 신호(114) 간의 제곱합 오차를 최소화하도록 계산 유닛(24)에서 검색된다. 대개는, 가능한 여기 신호 후보들 모두의 완전 검색을 회피하는 데 경험적 방식들이 이용된다. 마지막으로, 상기 부호기(1)의 필터 상태들은 복호기의 필터 상태들과 일치되게 하도록 갱신 유닛(26)에서 갱신된다. 상기 부호록 검색 유닛(22), 상기 계산 유닛(24) 및 상기 갱신 유닛(26)은 당업계에 공지되어 있다. 위에서 언급된 바와 같이, 상기 부호기(1)는 IS-641과 같은 전형적인 AbS 또는 CELP에 적용가능하다.
여기에서 유념해야 할 점은 상기 복호기가 상기 부호기로부터 음성 매개변수들을 수신함에 따라, 상기 복호기에 대하여 공지된 동일한 형상을 갖는 격자에 기초하여 수신된 색인 및 이득에 의해 상기 LTP 여기 신호가 결정된다는 점이다.
도 6은 본 발명에 따른 음성 신호의 부호화 방법을 예시하는 흐름도이다. 도 6에 도시된 바와 같이, 단계(210)에서 부호기가 음성 신호를 수신함에 따라, 상기 음성 신호가, 당업계에 공지된 바와 같이, 음성 프레임 및 서브 프레임들로 처리된다. 단계(220)에서, 개방루프 검색은 한 음성 프레임에서의 음성 프레임의 피치 주기의 개방루프 추정치를 획득하기 위한 피치 공간의 모든 치수들을 고려하여 수행된다. 단계(230)에서, 폐루프 검색은 특정의 피치 값을 획득하기 위해 상기 개방루프 추정치를 세분화하도록 각각의 차원에 대하여 수행된다. 각각의 차원에 대한 폐루프 검색으로부터 획득된 피치 값에 의거해서, 단계(240)에서 부호록 색인이 획득된다. 단계(250)로 표시된 바와 같이, 각각의 차원에 대한 폐루프 검색은 한 음성 프레임의 모든 서브 프레임들에 대한 부호록 색인들이 획득될 때까지 계속된다. 여기에서 유념해야 할 점은 피치 공간의 제1 차원(각각의 음성 프레임에 대한 제1 서브 프레임)에서의 피치값이 절대 피치 주기 또는 서로 다른 피치 주기(델타 피치) 를 나타낼 수 있다는 점이다. 그러나, 나머지 차수들 각각에 대한 피치 값은 대응하는 서브 프레임의 서로 다른 피치 주기를 나타낸다.
지금까지 음성 신호의 부호화와 연관지어 본 발명이 설명되었다는 점을 이해하여야 한다. 그러나, 본 발명은 또한 음악과 같은 비-음성 신호들에도 적용될 수 있다.
더군다나, 한 음성 프레임을 복수 개의 서브 프레임들로 분할하고 각각의 서브 프레임에서 폐루프 피치 값을 검색하는 것이 바람직하지만, 상기 음성 프레임의 서로 다른 분절에 대한 폐루프 피치 값을 검색하는 것이 가능하다. 대개는, 단위 음성 프레임당 여러 번 상이한 매개변수들을 복호기에 전송하는 것이 가능하다.
따라서, 지금까지 본 발명이 본 발명의 바람직한 실시예에 대하여 설명되었지만, 당업자라면 본 발명의 범위 및 요지에서 벗어나지 않고서도 본 발명의 형태 및 세부에 있어서의 앞서 언급된 것과 다른 여러 가지의 변경, 생략 및 수정이 이루어질 수 있다는 점을 이해할 것이다.
Claims (19)
- 각각의 신호 프레임이 대응하는 신호 프레임에서의 사운드 신호를 나타내는 피치 주기를 갖는 복수 개의 신호 프레임들에서의 사운드 신호를 부호화하는 방법으로서, 각각의 신호 프레임은 각각의 신호 분절이 한 피치 공간의 차원을 나타내는 복수 개의 신호 분절들을 포함하고, 상기 신호 분절들 각각의 사운드 신호는 하나의 피치 값으로 특징화되며, 상기 피치 값들은 상기 피치 공간에서 부호록 색인들을 정의하기 위해 한 격자 구조에서 상기 사운드 신호의 점 분포 패턴 특성으로 표시가능한 부호화 방법에 있어서,상기 점 분포 패턴에 기초하여 상기 격자 구조를 형상화하는 단계; 및상기 사운드 신호의 부호화를 용이하게 하기 위해 상기 형상을 갖는 격자 구조에 따라 상기 피치 공간의 각각의 차원에서 상기 피치 값을 나타내는 부호록 색인을 제공하는 단계를 포함하는 것을 특징으로 하는 부호화 방법.
- 제1항에 있어서,상기 피치 공간의 모든 차원들을 고려하여 상기 형상을 갖는 격자 구조로부터의 개방루프 검색으로 상기 피치 주기의 개방루프 추정치를 획득하는 단계; 및상기 피치 값을 나타내는 폐루프 검색 값을 상기 대응하는 신호 분절에서 획득하도록 상기 형상을 갖는 격자 구조로부터의 폐루프 검색으로 상기 피치 공간의 각각의 차원에서의 개방루프 추정치를 개별적으로 세분화하는 단계를 더 포함하는 것을 특징으로 하는 부호화 방법.
- 제2항에 있어서, 상기 피치 값은 차분 피치 주기를 나타내는 것을 특징으로 하는 부호화 방법.
- 제2항에 있어서, 상기 신호 분절들 중 적어도 하나의 신호 분절의 피치 값이 절대 피치 주기를 나타내며 나머지 신호 분절들 각각의 피치 값은 차분 피치 주기를 나타내는 것을 특징으로 하는 부호화 방법.
- 제2항에 있어서, 상기 연속 신호 분절들은 순차적으로 제1 신호 분절 및 3개의 제2 신호 분절들을 포함하고, 상기 제1 신호 분절의 피치 값은 절대 피치 주기를 나타내며 상기 제2 신호 분절 각각의 피치 값은 차분 피치 주기를 나타내는 것을 특징으로 하는 부호화 방법.
- 제2항에 있어서, 상기 신호 분절들은 서브 프레임들로 배열되는 것을 특징으로 하는 부호화 방법.
- 제6항에 있어서, 상기 신호 프레임들 각각은 4개의 서브 프레임들을 포함하고, 상기 4개의 서브 프레임들 각각의 피치 값은 차분 피치 주기를 나타내는 것을 특징으로 하는 부호화 방법.
- 제6항에 있어서, 상기 서브 프레임들은 순차적으로 제1 서브 프레임 및 3개의 제2 서브 프레임들을 포함하고 상기 제1 서브 프레임의 피치 값은 절대 피치 주기이며, 상기 제2 서브 프레임들 각각의 피치 값은 차분 피치 주기인 것을 특징으로 하는 부호화 방법.
- 제1항에 있어서, 상기 점밀도 패턴은 상기 형상을 갖는 격자 구조에서의 복수 개의 영역들로 구성되고, 상기 영역들 각각은 하나의 하이퍼큐브로 표시가능하며, 각각의 하이퍼큐브는 상기 형상을 갖는 격자 구조의 하나 또는 그 이상의 격자점들을 포함하는 복수 개의 모서리들을 지니고, 상기 부호록 색인은 상기 하이퍼큐브들의 모서리들 상에서의 격자점들의 개수를 나타내는 것을 특징으로 하는 부호화 방법.
- 제1항에 있어서, 상기 부호록 색인은 상기 형상을 갖는 격자 구조를 나타내는 정보를 지닌 채로 부호화 수단에 의해 복호화 수단에 제공되어 상기 복호화 수단이 상기 형상을 갖는 격자 구조에 기초하여 상기 부호록 색인으로부터 음성 신호를 합성할 수 있게 하는 것을 특징으로 하는 부호화 방법.
- 제1항에 있어서, 상기 사운드 신호는 음성 신호를 포함하는 것을 특징으로 하는 부호화 방법.
- 각각의 신호 프레임이 대응하는 신호 프레임에서의 사운드 신호를 나타내는 피치 주기를 갖는 복수 개의 신호 프레임들에서의 사운드 신호를 부호화하는 장치로서, 각각의 신호 프레임은 각각의 신호 분절이 한 피치 공간의 차원을 나타내는 복수 개의 신호 분절들을 포함하고, 상기 신호 분절들 각각의 사운드 신호는 하나의 피치 값으로 특징화되며, 상기 피치 값들은 상기 피치 공간에서 부호록 색인들을 정의하기 위해 한 격자 구조에서 상기 사운드 신호의 점 분포 패턴 특성으로 표시가능하고, 상기 격자 구조는 형상을 갖는 격자 구조를 정의하도록 상기 점 분포 패턴에 기초하여 형상을 이루는 부호화 장치에 있어서,상기 사운드 신호에 응답하여, 개방루프 추정치를 나타내는 개방루프 검색 값을 제공하기 위해 상기 피치 공간의 모든 차원들을 고려하여 상기 형상을 갖는 격자 구조로부터의 개방 루프 검색으로 피치 주기의 개방루프 추정치를 획득하는 수단; 및상기 개방루프 검색 값에 응답하여, 상기 피치 값을 나타내는 폐루프 검색 값을 상기 대응하는 신호 분절에서 획득하기 위해 상기 형상을 갖는 격자 구조로부터의 폐루프 검색에 의해 상기 피치 공간의 각각의 차원에서의 개방루프 추정치를 개별적으로 세분화하는 수단을 포함하는 것을 특징으로 하는 부호화 장치.
- 제12항에 있어서, 상기 피치 값은 차분 피치 주기를 나타내는 것을 특징으로 하는 부호화 장치.
- 제12항에 있어서, 상기 신호 분절들 중 적어도 하나의 신호 분절의 피치 값은 절대 피치 주기를 나타내고 나머지 신호 분절들 각각의 피치 값은 차분 피치 주기를 나타내는 것을 특징으로 하는 부호화 장치.
- 제12항에 있어서, 상기 신호 분절들은 연속 서브 프레임들로 배열되는 것을 특징으로 하는 부호화 장치.
- 제15항에 있어서, 상기 연속 서브 프레임들은 순차적으로 제1 서브 프레임 및 3개의 제2 서브 프레임들을 포함하며, 상기 제1 서브 프레임의 피치 값은 절대 피치 값을 나타내고 상기 제2 서브 프레임들 각각의 피치 값은 차분 피치 주기를 나타내는 것을 특징으로 하는 부호화 장치.
- 제15항에 있어서, 상기 신호 프레임들 각각은 4개의 서브 프레임들을 포함하며, 상기 4개의 서브 프레임들 각각의 피치 값은 차분 피치 주기를 나타내는 것을 특징으로 하는 부호화 장치.
- 제12항에 있어서, 상기 점밀도 패턴은 상기 형상을 갖는 격자 구조에서의 복수 개의 영역들로 구성되고, 상기 영역들 각각은 하나의 하이퍼큐브로 표시가능하며, 각각의 하이퍼큐브는 상기 형상을 갖는 격자 구조의 하나 또는 그 이상의 격자 점들을 포함하는 복수 개의 모서리들을 지니고, 상기 부호록 색인은 상기 하이퍼큐브들의 모서리들 상에서의 격자점들의 개수를 나타내는 것을 특징으로 하는 부호화 장치.
- 각각의 신호 프레임이 대응하는 신호 프레임에서의 사운드 신호를 나타내는 피치 주기를 갖는 복수 개의 신호 프레임들에서의 사운드 신호를 부호화하는 시스템으로서, 각각의 신호 프레임은 각각의 신호 분절이 한 피치 공간의 차원을 나타내는 복수 개의 신호 분절들을 포함하고, 상기 신호 분절들 각각의 사운드 신호는 하나의 피치 값으로 특징화되며, 상기 피치 값들은 상기 피치 공간에서 부호록 색인들을 정의하기 위해 한 격자 구조에서 상기 사운드 신호의 점 분포 패턴 특성으로 표시가능하고, 상기 격자 구조는 형상을 갖는 격자 구조를 정의하도록 상기 점분포 패턴에 기초하여 형상을 이루는 부호화 시스템에 있어서,상기 사운드 신호에 응답하여, 개방루프 추정치를 나타내는 개방루프 검색 값을 제공하기 위해 상기 피치 공간의 모든 차원들을 고려하여 상기 형상을 갖는 격자 구조로부터의 개방 루프 검색으로 상기 피치 주기의 개방루프 추정치를 획득하는 수단, 및 상기 개방루프 검색 값에 응답하여, 상기 형상을 갖는 격자 구조 및 상기 부호록 색인들을 나타내는 정보를 제공하기 위해 상기 피치 값을 나타내는 폐루프 검색 값을 상기 대응하는 신호 분절에서 획득하도록 상기 형상을 갖는 격자 구조로부터의 폐루프 검색으로 상기 피치 공간의 각각의 차원에서의 개방루프 추정치를 개별적으로 세분화하는 수단을 포함하는 부호기; 및상기 정보에 응답하여, 상기 형상을 갖는 격자 구조에 기초하여 상기 부호록 색인들로부터 추가의 사운드 신호를 합성하는 복호기를 포함하는 것을 특징으로 하는 부호화 시스템.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/878,762 US6584437B2 (en) | 2001-06-11 | 2001-06-11 | Method and apparatus for coding successive pitch periods in speech signal |
US09/878,762 | 2001-06-11 | ||
PCT/IB2002/002078 WO2002101718A2 (en) | 2001-06-11 | 2002-06-07 | Coding successive pitch periods in speech signal |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040028774A KR20040028774A (ko) | 2004-04-03 |
KR100896944B1 true KR100896944B1 (ko) | 2009-05-14 |
Family
ID=25372784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020037016101A KR100896944B1 (ko) | 2001-06-11 | 2002-06-07 | 음성 신호의 연속 피치 주기들의 부호화 |
Country Status (8)
Country | Link |
---|---|
US (1) | US6584437B2 (ko) |
EP (1) | EP1428202B1 (ko) |
KR (1) | KR100896944B1 (ko) |
CN (1) | CN1262993C (ko) |
AT (1) | ATE438911T1 (ko) |
AU (1) | AU2002258104A1 (ko) |
DE (1) | DE60233238D1 (ko) |
WO (1) | WO2002101718A2 (ko) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE07003891T1 (de) * | 2001-08-31 | 2007-11-08 | Kabushiki Kaisha Kenwood, Hachiouji | Vorrichtung und Verfahren zur Erzeugung von Tonhöhenwellensignalen und Vorrichtung sowie Verfahren zum Komprimieren, Erweitern und Synthetisieren von Sprachsignalen unter Verwendung dieser Tonhöhenwellensignale |
US7124075B2 (en) * | 2001-10-26 | 2006-10-17 | Dmitry Edward Terez | Methods and apparatus for pitch determination |
US7376555B2 (en) * | 2001-11-30 | 2008-05-20 | Koninklijke Philips Electronics N.V. | Encoding and decoding of overlapping audio signal values by differential encoding/decoding |
US7376553B2 (en) * | 2003-07-08 | 2008-05-20 | Robert Patel Quinn | Fractal harmonic overtone mapping of speech and musical sounds |
US7619995B1 (en) * | 2003-07-18 | 2009-11-17 | Nortel Networks Limited | Transcoders and mixers for voice-over-IP conferencing |
BRPI0517246A (pt) * | 2004-10-28 | 2008-10-07 | Matsushita Electric Ind Co Ltd | aparelho de codificação escalável, aparelho de decodificação escalável e métodos para os mesmos |
ATE475170T1 (de) * | 2006-03-20 | 2010-08-15 | Mindspeed Tech Inc | Tonhöhen-track-glättung in offener schleife |
US20080097757A1 (en) * | 2006-10-24 | 2008-04-24 | Nokia Corporation | Audio coding |
EP2101319B1 (en) * | 2006-12-15 | 2015-09-16 | Panasonic Intellectual Property Corporation of America | Adaptive sound source vector quantization device and method thereof |
JP5511372B2 (ja) * | 2007-03-02 | 2014-06-04 | パナソニック株式会社 | 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法 |
CA2972812C (en) * | 2008-07-10 | 2018-07-24 | Voiceage Corporation | Device and method for quantizing and inverse quantizing lpc filters in a super-frame |
US8670990B2 (en) * | 2009-08-03 | 2014-03-11 | Broadcom Corporation | Dynamic time scale modification for reduced bit rate audio coding |
CN112233682B (zh) * | 2019-06-29 | 2024-07-16 | 华为技术有限公司 | 一种立体声编码方法、立体声解码方法和装置 |
CN112151045B (zh) * | 2019-06-29 | 2024-06-04 | 华为技术有限公司 | 一种立体声编码方法、立体声解码方法和装置 |
CN110390953B (zh) * | 2019-07-25 | 2023-11-17 | 腾讯科技(深圳)有限公司 | 啸叫语音信号的检测方法、装置、终端及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0127892A1 (en) | 1983-06-03 | 1984-12-12 | The Variable Speech Control Company ("VSC") | Method and apparatus for pitch period controlled voice signal processing |
JPH05289697A (ja) * | 1992-04-09 | 1993-11-05 | Nippon Telegr & Teleph Corp <Ntt> | 音声のピッチ周期符号化法 |
US5799276A (en) | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
US5884253A (en) | 1992-04-09 | 1999-03-16 | Lucent Technologies, Inc. | Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58215822A (ja) | 1982-06-10 | 1983-12-15 | Toshiba Corp | 音声信号の予測符号化装置 |
US4704730A (en) * | 1984-03-12 | 1987-11-03 | Allophonix, Inc. | Multi-state speech encoder and decoder |
JPH0632021B2 (ja) | 1987-07-15 | 1994-04-27 | シャープ株式会社 | 日本語音声認識装置 |
JPH0451200A (ja) | 1990-06-18 | 1992-02-19 | Fujitsu Ltd | 音声符号化方式 |
US5388124A (en) * | 1992-06-12 | 1995-02-07 | University Of Maryland | Precoding scheme for transmitting data using optimally-shaped constellations over intersymbol-interference channels |
WO1994023426A1 (en) | 1993-03-26 | 1994-10-13 | Motorola Inc. | Vector quantizer method and apparatus |
US5504834A (en) * | 1993-05-28 | 1996-04-02 | Motrola, Inc. | Pitch epoch synchronous linear predictive coding vocoder and method |
AU7723696A (en) * | 1995-11-07 | 1997-05-29 | Euphonics, Incorporated | Parametric signal modeling musical synthesizer |
US5729694A (en) | 1996-02-06 | 1998-03-17 | The Regents Of The University Of California | Speech coding, reconstruction and recognition using acoustics and electromagnetic waves |
US6006175A (en) | 1996-02-06 | 1999-12-21 | The Regents Of The University Of California | Methods and apparatus for non-acoustic speech characterization and recognition |
US6009394A (en) * | 1996-09-05 | 1999-12-28 | The Board Of Trustees Of The University Of Illinois | System and method for interfacing a 2D or 3D movement space to a high dimensional sound synthesis control space |
US6185527B1 (en) | 1999-01-19 | 2001-02-06 | International Business Machines Corporation | System and method for automatic audio content analysis for word spotting, indexing, classification and retrieval |
US6704711B2 (en) * | 2000-01-28 | 2004-03-09 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for modifying speech signals |
-
2001
- 2001-06-11 US US09/878,762 patent/US6584437B2/en not_active Expired - Lifetime
-
2002
- 2002-06-07 KR KR1020037016101A patent/KR100896944B1/ko not_active IP Right Cessation
- 2002-06-07 WO PCT/IB2002/002078 patent/WO2002101718A2/en not_active Application Discontinuation
- 2002-06-07 AU AU2002258104A patent/AU2002258104A1/en not_active Abandoned
- 2002-06-07 CN CNB028117263A patent/CN1262993C/zh not_active Expired - Fee Related
- 2002-06-07 DE DE60233238T patent/DE60233238D1/de not_active Expired - Lifetime
- 2002-06-07 AT AT02727961T patent/ATE438911T1/de not_active IP Right Cessation
- 2002-06-07 EP EP02727961A patent/EP1428202B1/en not_active Expired - Lifetime
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0127892A1 (en) | 1983-06-03 | 1984-12-12 | The Variable Speech Control Company ("VSC") | Method and apparatus for pitch period controlled voice signal processing |
JPH05289697A (ja) * | 1992-04-09 | 1993-11-05 | Nippon Telegr & Teleph Corp <Ntt> | 音声のピッチ周期符号化法 |
US5884253A (en) | 1992-04-09 | 1999-03-16 | Lucent Technologies, Inc. | Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter |
US5799276A (en) | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
Also Published As
Publication number | Publication date |
---|---|
EP1428202A2 (en) | 2004-06-16 |
WO2002101718A3 (en) | 2003-04-10 |
CN1514994A (zh) | 2004-07-21 |
US6584437B2 (en) | 2003-06-24 |
KR20040028774A (ko) | 2004-04-03 |
EP1428202B1 (en) | 2009-08-05 |
EP1428202A4 (en) | 2005-10-26 |
CN1262993C (zh) | 2006-07-05 |
WO2002101718A2 (en) | 2002-12-19 |
AU2002258104A1 (en) | 2002-12-23 |
DE60233238D1 (de) | 2009-09-17 |
ATE438911T1 (de) | 2009-08-15 |
US20030004709A1 (en) | 2003-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100896944B1 (ko) | 음성 신호의 연속 피치 주기들의 부호화 | |
Kleijn et al. | Improved speech quality and efficient vector quantization in SELP | |
US6345248B1 (en) | Low bit-rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization | |
JP3180762B2 (ja) | 音声符号化装置及び音声復号化装置 | |
RU2005137320A (ru) | Способ и устройство для квантования усиления в широкополосном речевом кодировании с переменной битовой скоростью передачи | |
US20070118370A1 (en) | Methods and apparatuses for variable dimension vector quantization | |
JPH08328588A (ja) | ピッチラグを評価するためのシステム、音声符号化装置、ピッチラグを評価する方法、および音声符号化方法 | |
KR20080110757A (ko) | Celp 기술에서의 디지털 오디오 신호의 개선된 코딩/디코딩 | |
JPH0990995A (ja) | 音声符号化装置 | |
JP2004163959A (ja) | 汎用AbS音声符号化方法及びそのような方法を用いた符号化装置 | |
KR20060030012A (ko) | 스피치 코딩 방법 및 장치 | |
US6330531B1 (en) | Comb codebook structure | |
EP1114415B1 (en) | Linear predictive analysis-by-synthesis encoding method and encoder | |
JPH086597A (ja) | 音声の励振信号符号化装置および方法 | |
JP2800599B2 (ja) | 基本周期符号化装置 | |
JP2538450B2 (ja) | 音声の励振信号符号化・復号化方法 | |
KR100624440B1 (ko) | 음소별 코드북 매핑에 의한 음색변환방법 | |
JPH08185199A (ja) | 音声符号化装置 | |
JP2000029499A (ja) | 音声符号化装置ならびに音声符号化復号化装置 | |
JP3166697B2 (ja) | 音声符号化・復号装置及びシステム | |
KR100389898B1 (ko) | 음성부호화에 있어서 선스펙트럼쌍 계수의 양자화 방법 | |
JPH09179593A (ja) | 音声符号化装置 | |
JP2968530B2 (ja) | 適応ピッチ予測方法 | |
JPH07271397A (ja) | 音声符号化装置 | |
KR100624545B1 (ko) | 티티에스 시스템의 음성압축 및 합성방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
N231 | Notification of change of applicant | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130429 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20140430 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20160330 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20170330 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20180329 Year of fee payment: 10 |
|
LAPS | Lapse due to unpaid annual fee |