KR20020031305A - 매우 낮은 비트 레이트로 동작하는 음성 인코더에 대한프로소디를 인코딩하는 방법 - Google Patents

매우 낮은 비트 레이트로 동작하는 음성 인코더에 대한프로소디를 인코딩하는 방법 Download PDF

Info

Publication number
KR20020031305A
KR20020031305A KR1020010064436A KR20010064436A KR20020031305A KR 20020031305 A KR20020031305 A KR 20020031305A KR 1020010064436 A KR1020010064436 A KR 1020010064436A KR 20010064436 A KR20010064436 A KR 20010064436A KR 20020031305 A KR20020031305 A KR 20020031305A
Authority
KR
South Korea
Prior art keywords
encoding
speech
recognized
energy
segments
Prior art date
Application number
KR1020010064436A
Other languages
English (en)
Inventor
구르내필리쁘
나까슈이브-뽈
Original Assignee
딸르
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 딸르 filed Critical 딸르
Publication of KR20020031305A publication Critical patent/KR20020031305A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis

Abstract

매우 낮은 비트 레이트들로 동작하는 인코더를 사용하여 음성 인코딩/디코딩 방법은, 음성 신호의 "대표값들"의 식별을 가능하게 하는 학습 (learning) 단계 및 음성 신호를 세그먼트화하고 각각의 인식된 세그먼트와 연관된 "최상의 대표값"을 결정하는 인코딩 단계를 포함한다. 그 방법은 초 당 400 비트 보다 낮은 비트 레이트로 인가되고 "최상의 대표값들" 과 관련된 프로소디(prosody) 에 대한 정보의 일부를 이용하여, 세그먼트들의 길이 및/또는 보이싱(vocing) 및/또는 피치 및/또는 에너지와 같은 인식된 세크먼트들의 프로소디의 하나 이상의 파라미터들을 인코딩/디코딩하는 하나 이상의 단계를 포함한다.

Description

매우 낮은 비트 레이트로 동작하는 음성 인코더에 대한 프로소디를 인코딩하는 방법{METHOD FOR THE ENCODING OF PROSODY FOR A SPEECH ENCODER WORKING AT VERY LOW BIT RATES}
본 발명은 매우 낮은 비트 레이트들로 음성을 인코딩하는 방법 및 이와 연관된 시스템에 관한 것이다. 특히, 본 발명은 가변 크기의 유닛들을 인덱싱함으로써 음성을 인코딩/디코딩하는 시스템들에 적용할 수 있다.
낮은 비트 레이트, 예를 들어 약 2400 비트/초 의 비트 레이트로 구현된 음성 인코딩 방법은 일반적으로 음성 신호들의 전체 파라메트릭 모델을 사용하는 보코더의 음성 인코딩 방법이다. 사용된 파라미터들은 일반적으로 LPC (linear predictive coding) 필터에 의해 모델링된 신호의 스펙트럼 포락(包絡) 뿐만 아니라 신호의 주기적인 또는 랜덤한 문자, 유성음의 기본 주파수 또는 "피치", 시간 전개된 에너지 값들을 설명하는 보이싱 (voicing) 에 관한 것이다.
이러한 서로 다른 파라미터들은 통상 매 10 내지 30 ms 마다 음성 신호상에서 주기적으로 평가된다. 이들은 분석 장치에 준비되고, 일반적으로 모델의 파라미터들의 정량화된 값으로부터 음성 신호를 재생하는 합성 장치를 향하여 멀리 송신된다.
지금까지, 이러한 기술을 사용하는 음성 인코더에 대한 최저 표준화 비트 레이트는 800 비트/초 이었다. 1994년 표준화된 이러한 인코더는 NATO STANAG 4479 표준에 기재되며, 발명의 명칭이 "NATO STANAG 4479; A Standard for an 800 bps Vocoder and Channel Coding in HF-ECCM system" 이며, B.Mouy, P.De La Noue,및 G. Goudezeune 에 의해 IEEE lnt, Conf. on ASSP, Detroit, pp.480-483, May 1995 에 기고된 논문에 기재되어 있다. 이는 프레임 ×프레임 (22.5 ms) 분석에 대하여 LPC 10 형 기술에 의존하며, 파라미터들을 인코딩하기 전에 3 개의 세트내의 프레임들을 그룹화함으로써 음성 신호의 시간적 리던던시를 최대한 이용한다.
이러한 사실은 쉽게 알 수 있지만, 이러한 인코딩 기술들에 의해 재생된 음성은 아주 나쁜 품질을 가지며, 일단 비트 레이트가 600 비트/초 보다 작은 경우에는 수용되지 못한다.
비트 레이트를 감소시키는 하나의 방법은 음성 인식 및 합성의 원리들을 결합하고 가변 시간 세그먼트들을 가지는 음성형 분절 보코더(phonetic type segmental vocoder) 들을 이용하는 것이다.
인코딩 방법은 본질적으로 연속적인 흐름에 있는 음성에 대하여 자동 인식 시스템을 사용한다. 이 시스템은 다수의 가변 크기의 음성 유닛들에 따른 음성 신호를 세그먼트화 및 "라벨화"한다. 작은 사전을 인덱싱함으로써 이러한 음성 유닛들을 인코딩한다. 디코딩은 음성 유닛들의 인덱스의 원리 (basis) 와 프로소디 (prosody) 의 원리를 연쇄하는 음성 합성의 원리에 의존한다. "프로소디"라는 용어는 주로 다음의 파라미터들, 즉 신호의 에너지, 피치, 보이싱 정보 및 경우에 따라서는 시간 리듬 (temporal rhythm) 을 포함한다.
그러나, 음성 인코더들의 발전은 에러의 소스가 될 수 있고 고가인 학습 데이터베이스를 음성 녹음하는 작업 뿐만 아니라 음성학과 언어학에 대한 상당한 지식을 요구한다. 또한, 음성 인코더들은 새로운 언어 또는 새로운 스피커에 적응하는데 어려움을 갖는다.
예를 들어 1998 년 12 월 Paris XI Orsay 대학의 J.Cernocky 에 의해 쓰여진 논문 "Speech Processing Using Automatically Derived Segmental Units : Applications to Very Low Rate Coding and Speaker Verification" 에 기재된 또 다른 기술은 자동적으로 그리고 독립적으로 언어의 음성 유닛들을 결정함으로써, 학습 데이터베이스의 음성 녹음에 관한 문제점들을 극복한다.
이러한 타입의 디코더의 동작을 주로 2 가지 단계들, 즉 도 1 에 설명된 학습 단계 및 인코딩/디코딩 단계로 세분할 수 있다.
학습 단계 (도 1) 동안에, 예를 들어 파라메트릭 분석 (1) 및 세그먼테이션 단계 (2) 이후의 자동 처리는 "AU"로 지정된 한 세트의 어쿠스틱 (acoustic) 유닛들의 64 클래스를 결정한다. 이러한 어쿠스틱 유닛들의 클래스들 각각을 이용하여, "대표값들"(4) 로 공지된 클래스를 나타내는 소수의 유닛들 뿐만 아니라 마르코프 (또는 HMM, 즉 Hidden Markov Model)의 모델인 통계적 모델 (3) 을 연관시킨다. 현 시스템에서, 대표값들은 간단히 하나의 어쿠스틱 클래스 및 동일한 어쿠스틱 클래스에 속하는 8 개의 가장 긴 유닛들이다. 또한, 이들은 어쿠스틱 유닛중 N 개의 최대 대표값 유닛들로서 결정될 수 있다. 음성 신호의 인코딩시에, 특히 스펙트럼 파라미터들, 에너지 값들, 피치를 얻는데 사용되는 파라메트릭 분석 (5) 의 단계 이후에, 비터비 알고리즘을 이용한 인식 처리 (6, 7) 는 음성 신호의 일련의 어쿠스틱 유닛들을 결정하고 음성 합성에 사용되는 "최상의 대표값"을 식별한다. 이러한 선택은 예를 들어 DTW (dynamic time warping) 알고리즘과같은 스펙트럼 간격 표준을 이용하여 행해진다.
어쿠스틱 클래스의 개수, 이러한 대표값 유닛의 인덱스, 세그먼트의 길이, DTW 의 컨텐츠 및 파라메트릭 분석으로부터 도출된 프로소디 정보는 디코더로 송신된다. 음성 합성은 가능한한 LPC 형 파라메트릭 합성기를 사용하여, 최상의 대표값들을 연쇄시킴으로써 행해진다.
음성 디코딩동안에 대표값들을 연결시키기 위하여 사용되는 하나의 방법은, 예를 들어 파라메트릭 음성 분석/합성의 방법이다. 특히, 이러한 파라메트릭 방법은 간단히 연쇄된 파형들과 비교되는 바와 같이 시간 전개, 기본 주파수 또는 피치와 같은 프로소디를 변경시킬 수 있다.
분석/합성의 방법에 의해 사용된 파라메트릭 음성 모델은 T.Tremain 에 의해 journal Speech Technology, Vol.1, No.2, pp.40-49 에 발표된 문헌 "The Government Standard Linear Predictive Coding Algorithm: LPC-10" 에 기재되어 있는 바와 같이 보이싱/비보이싱 이진 여기된 LPC 10 타입 일 수 있다.
이 기술은 평균적으로 초 당 약 21 세그먼트에 대하여, 약 185 비트/초로 모노스피커 시스템 신호의 스펙트럼 포락을 인코딩한다.
이하의 설명에서, 다음의 용어들은 아래와 같은 의미를 갖는다:
"대표값"이라는 용어는 어쿠스틱 유닛들의 클래스들중 하나를 나타내는 것으로 판단되는 학습 베이스의 세그먼트들중 하나에 해당한다.
"인식된 세그먼트"라는 용어는 인코더에 의해 어쿠스틱 클래스들중 하나에 속하는 것으로 식별되는 음성 세그먼트에 해당한다.
"최상의 대표값"이라는 용어는 인코딩시에 결정되고 상기 인식된 세그먼트를 최상으로 나타내는 대표값을 나타낸다.
본 발명의 목적은 특히 최상의 대표값들을 사용하여 매우 낮은 비트 레이트로 동작하는 음성 인코더의 프로소디를 인코딩 및 디코딩하는 방법을 제공하는 것이다.
또한, 본 발명은 데이터 압축과 관련이 있다.
도 1 은 종래 기술에 따른 음성의 학습 (learning), 인코딩, 및 디코딩의 단계들을 나타내는 다이어그램.
도 2 및 도 3 은 인식된 세그먼트들의 길이를 인코딩하는 예들을 설명하는 도면.
도 4 는 시간 정렬된 "최상의 대표값들 (best representatives)"의 모델에 대한 개략도.
도 5 및 도 6 은 본 발명에 따른 방법의 구현시에 얻어지는 디코딩된 에너지 값들과 최초의 윤곽선 (contour) 들 뿐만 아니라 정렬된 대표값들과 인코딩될 신호의 에너지 값들에 대한 곡선들을 나타내는 도면.
도 7 은 보이싱된 음성 신호를 인코딩하는 개략도를 나타내는 도면.
도 8 은 예시적인 피치의 인코딩을 나타내는 도면.
※도면의 주요부분에 대한 부호의 설명
1 : 파라메트릭 분석 2 : 제 1 세그먼테이션
다른 특징들 및 이점들은 첨부된 도면들을 참조한 다양한 실시예의 상세한 설명으로부터 알 수 있다.
본 발명은 매우 낮은 비트 레이트로 동작하는 인코더를 사용하여 음성을 인코딩/디코딩하는 방법에 관한 것이고, 상기 방법은 음성 신호의 "대표값들"의 식별을 가능하게 하는 학습 단계와 음성 신호를 세그먼트화하고 각각의 인식된 세그먼트와 연관된 "최상의 대표값"을 결정하는 인코딩 단계를 포함한다. 상기 방법은 "최상의 대표값들" 과 관련된 프로소디에 대한 정보의 일부를 이용하여, 에너지 및/또는 피치 및/또는 보이싱 및/또는 세그먼트들의 길이와 같은 인식된 세그먼트들의 프로소디의 파라미터들중 하나 이상의 파라미터를 인코딩/디코딩하는 하나 이상의 단계를 포함한다.
사용된 대표값들의 프로소디에 대한 정보는 예를 들어 에너지 윤곽선 또는 보이싱 또는 세그먼트들의 길이 또는 피치이다.
인식된 세그먼트들의 길이를 인코딩하는 단계는 예를 들어 인식된 세그먼트의 길이와 소정의 인자에 의해 승산된 "최상의 대표값"의 길이 사이의 길이 차이를 인코딩하는 경우에 존재한다.
일 실시예예 따르면, 본 발명은 테이블의 형상들에서 가장 가까운 이웃을 검색하고 DTW 경로를 이용하여 시간 정렬된 최상의 대표값들을 인코딩하는 단계를 포함한다.
에너지 인코딩 단계는 인식된 세그먼트의 각각의 시작에 대하여, "최상의 대표값"의 에너지 값 Erd(j) 과 "인식된 세그먼트"의 시작의 에너지 값 Esd(j) 사이의 차이 △E(j) 를 결정하는 단계를 포함할 수 있다. 디코딩 단계는, 각각의 인식된 세그먼트에 대하여, "최상의 대표값"의 제 1 에너지 값 Erd(j)이 인덱스 j+1 를 가진 인식된 세그먼트의 제 1 에너지 값 Esd(j+1) 과 일치하도록 양 (quantity) △E(j) 에 의해 최상의 대표값의 에너지 윤곽선을 변경시키는 제 1 단계를 포함할 수 있다.
보이싱 인코딩 단계는, 예를 들어 인덱스 k 를 가진 보이싱 존의 각 단부에 대하여, 인식된 세그먼트들의 보이싱 곡선과 최상의 대표값들의 보이싱 곡선 사이에 존재하는 차이 △TK들을 결정하는 단계를 포함한다. 디코딩 단계는, 예를 들어 인덱스 k 를 가진 보이싱 존의 각 단부에 대하여, 해당 값 △TK에 의해 이 단부의 시간 위치를 정정하는 단계 및/또는 트랜지션을 제거하거나 삽입하는 단계를 포함한다.
또한, 상기 방법은 한 세트의 음성 신호의 대표값들을 포함하는 사전을 저장하는 하나 이상의 메모리, 인식된 세그먼트들을 결정하고 "최상의 대표값들"로부터 음성을 재현하고 상술된 특성들중 하나의 특성에 따른 방법의 단계들을 수행하는데 적합한 마이크로프로세서를 포함하는 음성 인코딩/디코딩 시스템에 관한 것이다.
상기 대표값들의 사전은 예를 들어 인코딩/디코딩 시스템의 인코더 및 디코더에 대하여 공유된다.
본 발명에 따른 방법 및 시스템은 800 비트/초 보다 낮은 비트 레이트로 바람직하게는 400 비트/초 보다 낮게 음성을 인코딩/디코딩하는데 사용될 수 있다.
본 발명에 따른 인코딩/디코딩 방법 및 시스템은 특히 매우 낮은 비트 레이트로 프로소디를 인코딩하고 이러한 응용 분야에 완성된 인코더를 제공하는 이점을 제공한다.
본 발명에 따른 인코딩의 원리는 예를 들어 인식된 세그먼트들의 길이, 보이싱, 신호의 에너지, 피치인 음성 신호의 프로소디의 파라미터들중 하나 이상을 인코딩 및/또는 디코딩하기 위한 "최상의 대표값들" 특히 프로소디에 대한 정보의 이용에 의존한다.
매우 낮은 비트 레이트로 프로소디를 압축하기 위하여 구현된 원리는 "최상의 대표값들" 과 관련된 프로소디 정보 뿐만 아니라 인코더의 세그먼트화를 이용한다.
본 발명의 범위를 결코 한정하지 않는 실시예에 의해 주어진 다음의 상세한 설명은 예를 들어 도 1 에 설명한 바와 같이 학습처리시에, 자동적으로 얻어지는 사전을 포함하며 낮은 비트 레이트로 동작하는 음성 인코딩/디코딩 장치에서 프로소디를 인코딩하는 방법을 설명한다.
사전은 다음의 정보를 포함한다;
통계적 모델로부터 결정되는 어쿠스틱 유닛 (AU) 들의 몇몇 클래스들
어쿠스틱 유닛들의 각각의 클래스에 대한 한 세트의 대표값들
이 사전은 인코더 및 디코더에 공지되어 있다. 이는 예를 들어 하나 이상의 언어 및 하나 이상의 스피커에 대응한다.
인코딩/디코딩 시스템은 예를 들어 사전을 저장하는 메모리, 본 발명에 따른 방법의 서로 다른 단계들을 구현하기 위하여 인식된 세그먼트들을 결정하는데 적합하며 최상의 대표값들로부터 음성을 재현하는데 적합한 마이크로프로세서를 포함한다.
본 발명에 따른 방법은 다음의 단계들중 하나 이상을 구현한다 : 세그먼트들의 길이를 인코딩, 시간 정렬된 "최상의 대표값들"의 인코딩, 에너지의 인코딩/디코딩, 보이싱 정보의 인코딩/디코딩, 피치의 인코딩/디코딩, 및/또는 세그먼트들의 길이와 시간 정렬에 대한 디코딩
세그먼트들의 길이에 대한 인코딩
인코딩 시스템은 평균적으로 초 당 세그먼트들의 개수(Ns), 예를 들어 21 세그먼트들을 결정한다. 이러한 세그먼트들의 크기는 어쿠스틱 유닛 (AU) 들의 클래스의 함수에 따라 변화한다. 대부분의 AU들에 대하여, 1/x2.6의 관계에 따라 세그먼트들의 개수가 감소하는 것을 알 수 있으며, 여기서 x 는 세그먼트의 길이이다.
본 발명에 따른 방법의 선택적인 실시예는 도 2 의 다이어그램에 따른 "인식된 세그먼트" 의 길이와 "최상의 대표값"의 길이 사이의 변동 길이의 차이를 인코딩하는 경우에 존재한다.
도면에 있어서, 좌측 열은 사용될 코드워드의 길이를 나타내며, 우측 열은 음성 신호의 인코더에 의해 인식되는 세그먼트의 길이과 최상의 대표값의 길이 사이의 길이 차이를 나타낸다.
도 3 에 나타낸 또 다른 실시예에 따르면, 인식된 세그먼트의 절대 길이는 당업자들에게 공지된 허프만 코드와 유사한 가변 길이 코드에 의해 인코딩된다. 이러한 인코딩은 약 55 비트/초 의 비트 레이트를 얻기 위해 사용될 수 있다.
인식된 큰 세그먼트들의 길이들을 인코딩하기 위해 긴 코드 워드들을 사용한다는 사실은, 특히 변화의 제한된 범위내에서 비트 레이트 값을 유지할 수 있게 한다. 실제로, 이러한 긴 세그먼트들은 초 당 인식된 세그먼트들의 개수와 인코딩될 길이들의 개수를 감소시킨다.
요컨대, 가변 길이 코드는 예를 들어 인식된 세그먼트의 길이와 임의의 인자에 의해 승산된 최상의 대표값의 길이 사이의 차이를 인코딩하는데 사용되며, 상기 인자는 아마도 0 (독립 인코딩)과 1 (그 차이의 인코딩) 사이의 범위에 있다.
시간 정렬된 최상의 대표값들의 인코딩
시간 정렬은 예를 들어 "인식된 세그먼트"를 인코딩하기 위해 "최상의 대표값"을 탐색하는 동안에 결정되는 DTW(dynamic time warping)의 경로를 뒤따름으로써 얻어진다.
도 4 는 인코딩될 파라미터 (X 축) 예를 들어 "스펙트럼" 계수들의 벡터와 "최상의 대표값" (Y 축) 사이의 왜곡을 최소화하는 시간 윤곽선에 대응하는 DTW 의 경로 (C) 를 나타낸다. 이러한 접근방법은 발명의 명칭이 "Traitement de la parole"(음성 처리) 인 문헌에 기재되어 있고, 이는Boite and Murat Kunt 에 의해 1987 년 Presses Polytechnique Romandes 에 기고되었다.
정렬된 "최상의 대표값들"은 테이블 모양의 타입의 형상들에서 가장 가까운 이웃 (neighbor) 을 검색함으로써 인코딩된다. 이러한 타입의 형상들은 예를 들어 음성 데이터 베이스의 학습과 같은 통계적 접근에 의해 또는 예를 들어 파라메트릭한 수학 방정식들에 의한 설명과 같은 대수적 접근방법에 의해 선택되며, 이러한 서로 다른 방법들은 당업자들에게 공지되어 있다.
소형의 세그먼트의 부분이 큰 경우에 유용한 또 다른 접근방법에 따르면, 상기 세그먼트들은 DTW의 정확한 경로 보다 대각선에 따라 정렬된다. 그 후에, 비트 레이트는 0 이 된다.
에너지의 인코딩/디코딩
어쿠스틱 유닛들의 클래스들의 각각에 속하는 음성 데이터 베이스의 세그먼트들이 분류되어 분석되는 경우에, 어떤 일관성이 에너지 값들의 윤곽선들의 형상으로 나타난다는 점을 알 수 있다. 또한, DTW 에 의해 정렬된 최상의 대표값들의 에너지 윤곽선들과 인코딩될 신호의 에너지 윤곽선들 사이에 유사점들이 존재한다.
이하, 도 5 및 도 6 을 참조하여 에너지의 인코딩에 대해 설명하며, 여기서Y 축은 dB 로 표시되는 인코딩될 음성 신호의 에너지에 대응하고 X 축은 프레임들로 표시되는 시간에 대응한다.
도 5 는 정렬된 최상의 대표값들의 에너지 윤곽선들을 그룹화하는 곡선 (Ⅲ) 과 도면에 있어 별표 (*) 들로 분리되는 인식 세그먼트들의 에너지 윤곽선들의 곡선 (Ⅳ) 을 나타낸다. 인덱스 j 를 가지는 인식 세그먼트는 각각의 좌표들 [Esd(j);Tsd(j)] 및 [Esf(j);Tsf(j)] 을 가지는 2 개의 점들에 의해 분리되며, 여기서 Esd(j) 는 세그먼트의 시작의 에너지값이며 Esf(j) 는 해당 순시 Tsd와 Tsf에 대한 세그먼트 단부의 에너지 값이다. 레퍼런스 Erd(j) 와 Erf(j) 는 "최상의 대표값"의 시작 및 종료 에너지 값들에 사용되며, 레퍼런스 △E(j) 는 인덱스 j 를 가진 인식된 세그먼트에 대하여 결정된 평행이동(translation) 에 대응한다.
에너지의 인코딩
상기 방법은 성취될 평행이동을 결정하는 제 1 단계를 포함한다.
이를 위하여, "인식된 세그먼트"의 각각의 시작에 있어서, 상기 방법은 최상의 대표값 곡선 (곡선 Ⅲ)의 에너지 값 Erd(j)과 인식된 세그먼트 (곡선 Ⅳ) 의 시작의 에너지 값 (Esd) 사이에 존재하는 차이 △E(j) 를 결정한다. 한 세트의 값들 △E(j) 이 얻어지며, 이러한 세트의 값들은 예를 들어 디코딩 동안에 적용되는 평행이동을 알기 위하여 균일하게 정량화된다. 상기 정량화는 예를 들어 당업자들에게 공지된 방법들을 이용하여 행해진다.
음성 신호의 에너지의 디코딩
특히, 상기 방법은 인코딩될 신호의 에너지 윤곽선들 (곡선 Ⅳ) 을 재구성하기 위하여 최상의 대표값들의 에너지 윤곽선들 (곡선 Ⅲ) 을 사용하는 경우에 존재한다.
인식된 각각의 세그먼트에 대하여, 제 1 단계는 예를 들어 값 Esd(j)를 결정하기 위하여 인코딩 단계에서 규정된 평행이동 △E(j) 을 제 1 에너지 Erd(j) 에 적용함으로써 상기 제 1 에너지 Erd(j) 가 최상의 대표값의 에너지 윤곽선과 일치하도록 최상의 대표값의 에너지 윤곽선을 평행이동시키는 경우에 존재한다. 이러한 제 1 평행이동 단계 이후에, 상기 방법은 "최상의 대표값"의 최종 에너지 값 Erd(j)을 인덱스 j+1를 가진 다음의 세그먼트의 제 1 에너지 값 Esd(j+1) 에 링크시키기 위하여 최상의 대표값의 에너지 윤곽선의 경사를 변경시키는 단계를 포함한다.
도 6 은 인코딩될 음성 신호의 원래의 윤곽선과 상술된 단계를 수행한 후에 디코딩되는 에너지 윤곽선에 각각 대응하는 곡선 (Ⅵ) 과 (Ⅶ) 를 나타낸다.
예를 들어, 4 비트에 대하여 각 세그먼트의 시작의 에너지 값들을 인코딩하면 에너지의 부분 인코딩에 대하여 약 80 비트/초의 비트 레이트를 얻는다.
보이싱 정보의 인코딩
도 7 은 인코딩될 신호 (곡선 Ⅶ)와 DTW 에 의해 시간 정렬된 후의 최상의 대표값 (곡선 Ⅷ) 에 대한 4 개의 연속적인 세그먼트들 (35, 36, 37, 38) 을 가진 이진 보이싱 정보의 시간 전개를 나타낸다.
보이싱 정보의 인코딩
인코딩시에, 상기 방법은 예를 들어 인식된 세그먼트들의 보이싱과 정렬된 최상의 대표값들의 보이싱 (곡선 Ⅷ) 에 관한 정보의 시간 전개를 실행함으로써 그리고 이러한 2 개의 곡선들 사이에 존재하는 차이 △Tk들을 인코딩함으로써, 보이싱 정보를 인코딩하는 단계를 실행한다. 이러한 차이 △Tk들은, 프레임의 앞섬 a, 프레임의 지연 b, 레퍼런스화된 트랜지션 (transition) 의 유무 c (k 는 보이싱 존의 단부의 인덱스에 대응함) 일 수 있다.
이를 위하여, 다음의 표 1 에 주어진 예에 있어서, 상기 인식된 세그먼트들 각각에 대한 보이싱 트랜지션들 각각에 행해진 정정을 인코딩하기 위하여 가변 길이 코드를 사용할 수 있다. 모든 세그먼트들이 보이싱 트랜지션을 가질 수 없으므로, 최상의 대표값들과 인코딩될 보이싱에 존재하는 보이싱 트랜지션들만을 인코딩함으써 상기 보이싱과 연관된 비트 레이트를 감소시킬 수 있다.
이러한 방법에 따르면, 보이싱 정보는 초 당 약 22 비트로 인코딩된다.
보이싱 천이들에 대한 예시적인 인코딩 표
결합된 트랜지션 정보는 아래와 같다 ;
서브밴드 보이싱 레이트, 이러한 정보의 분석은 예를 들어 이하의 문헌에 설명된 방법을 사용한다 : D.W.Griffin and J.S. Lim, "Multiband excitation vocoders", IEEE Trans. on Acoustics, Speech and Signal Processing, Vol.36, No.8, pp.1223-1235, 1998;
보이싱 베이스밴드와 비보이싱 하이 밴드 사이의 트랜지션 주파수, 인코딩은 이하의 문헌에 설명된 방법 등의 방법을 사용한다 : C.Laflamme, R.Salami, R.Matmti, 및 J.P.Adoul, "Harmonic Stochastic Excitation (HSX) Speech Coding Below 4 kbit/s", IEEE International Conference on Acoustics, Speech and Signal Processing, Atlanta, May 1996, pp.204-207.
이러한 양쪽 경우에 있어서, 보이싱 정보의 인코딩은 또한 보이싱에 비례하는 편차를 인코딩하는 것을 포함한다.
보이싱 정보의 디코딩
디코더는 인코더로부터 얻어진 "정렬된 최상의 대표값들"의 보이싱 정보를 갖는다.
정정은 예를 들어 아래와 같이 행해진다 :
합성을 위해 선택된 최상의 대표값들에 대한 보이싱 존의 단부의 각각의 검출에 있어서, 상기 방법은 이 단부에서 정정되는 부가적인 정보를 디코더에 제공한다. 정정은 이러한 단부에 대하여 앞섬 a 또는 지연 b 될 수 있다. 예를 들어, 이러한 시간 이동은 원래의 음성 신호의 보이싱 단부의 정확한 위치를 얻기 위하여 프레임들의 개수로 표시된다. 또한, 정정은 트랜지션의 제거 또는 삽입의 형태를 가질 수 있다.
피치의 인코딩
음성 녹음에 대하여, 초 당 얻어지는 보이싱 존들의 개수는 경험상 3 또는 4의 범위에 있다고 알 수 있다. 피치의 편차를 정확하게 설명하기 위한 하나의 방법은 보이싱 존 당 몇몇의 피치 값들을 송신하는 경우에 존재한다. 비트 레이트를 제한하기 위하여, 보이싱 존의 연속적인 피치 값들 전체를 송신하는 대신에, 피치의 윤곽선은 연속적인 선형 세그먼트들에 의해 근사화된다.
피치의 인코딩
음성 신호의 각각의 보이싱 존에 대하여, 상기 방법은 송신될 피치의 값들을 탐색하는 단계를 포함한다. 보이싱 존의 시작과 끝에서의 피치 값들을 일상적으로 송신한다. 송신될 다른 값들은 다음과 같이 결정된다:
상기 방법은 단지 인식된 세그먼트들의 시작에서의 피치값들로 간주한다. 직선 (Di) 로부터 시작하여 보이싱 존의 2 개의 단부에서 피치의 값들을 결합하면, 상기 방법은 피치 값이 거리 dmax에 대응하는 직선으로부터 가장 먼 거리에 있는 세그먼트의 시작점을 탐색한다. 상기 방법은 이 값 dmax을 임계값 dthreshold과 비교한다. 거리 dmax가 dthreshold보다 더 큰 경우에, 상기 방법은 송신될 새로운 피치 값으로서 발견되는 세그먼트의 시작점을 가지는 경우에 초기의 직선 Di를 2 개의 직선 Di1및 Di2으로 분류한다. 이러한 동작은 발견된 거리 dmax가 거리dthreshold보다 더 작아질 때 까지 직선 Di1및 Di2에 의해 분리되는 2 개의 새로운 보이싱 존들상에 반복된다.
이와 같이 결정된 피치의 값들을 인코딩하기 위하여, 상기 방법은 예를 들어 피치의 로그에 인가된 5 비트에 대하여 예측 스칼라 퀀터파이어(quantifier)를 이용한다.
상기 예측 스칼라 퀀터파이어는 예를 들어 0 과 1 사이의 범위에 있는 예측 인자에 의해 승산되어, 디코딩될 피치의 위치에 대응하는 최상의 대표값의 제 1 피치 값이다.
또 다른 처리에 따르면, 상기 예측 스칼라 퀀터파이어는 인코딩될 음성 녹음의 최소값일 수 있다. 이 경우에, 상기 값은 예를 들어 8 비트에 대하여 스칼라수량화됨으로써 디코더로 송신될 수 있다.
송신될 피치값들이 결정되어 인코딩되는 경우에, 상기 방법은 예를 들어 각각의 이러한 피치 값들 사이의 프레임들의 개수들에 의해 시간 간격이 상술되는 단계를 포함한다. 가변 길이 코드는 예를 들어 평균적으로 2 비트의 이러한 간격들을 인코딩하는데 사용된다.
이러한 처리는, 피치 주기에 있어서, 7 샘플의 최대 거리에 대하여 초 당 약 65 비트/초의 비트 레이트를 부여한다.
피치의 디코딩
디코딩 단계는 첫째로 각각의 이러한 순시들에 대한 피치의 값 뿐만 아니라 업데이트된 피치의 순시들을 검색하기 위하여, 송신된 서로 다른 피치값들 사이의시간 간격을 디코딩하는 단계를 포함한다. 보이싱 존의 각각의 프레임들에 대한 피치 값은 예를 들어 송신된 값들 사이의 선형 보간에 의해 재구성된다.
본 발명은 최상의 대표값들을 사용하여 매우 낮은 비트 레이트로 동작하는 음성 인코더의 프로소디를 인코딩 및 디코딩하는 방법을 제공한다.

Claims (11)

  1. 음성 신호의 "대표값들"의 식별을 가능하게 하는 학습 (learning) 단계와 상기 음성 신호를 세그먼트화하고 인식된 각각의 세그먼트와 연관된 "최상의 대표값"을 결정하는 인코딩 단계를 포함하며, 매우 낮은 비트 레이트로 동작하는 인코더를 사용하여 음성을 인코딩/디코딩하는 방법에 있어서,
    상기 "최상의 대표값들" 과 관련된 프로소디 (prosody) 에 관한 정보의 일부를 이용하여, 에너지 및/또는 피치 및/또는 보이싱 (voicing) 및/또는 세그먼트들의 길이와 같은 상기 인식된 세그먼트들의 프로소디의 파라미터들중 하나 이상을 인코딩/디코딩하는 하나 이상의 단계를 포함하는 것을 특징으로 하는 방법.
  2. 제 1 항에 있어서,
    상기 대표값들의 프로소디에 사용된 정보는 상기 에너지 윤곽선 또는 상기 보이싱 또는 상기 세그먼트들의 길이 또는 상기 피치인 것을 특징으로 하는 방법.
  3. 제 1 항에 있어서,
    상기 인식된 세그먼트들의 길이를 인코딩하는 단계는 인식된 세그먼트의 길이와 소정의 인자에 의해 승산된 "최상의 대표값"의 길이 사이의 길이 차이를 인코딩하는 경우에 존재하는 것을 특징으로 하는 방법.
  4. 제 1 항에 있어서,
    테이블의 형상들에서 가장 가까운 이웃 (neighbor) 을 검색하고 DTW 경로를 사용함으로써 시간 정렬된 상기 최상의 대표값들을 인코딩하는 단계를 포함하는 것을 특징으로 하는 방법.
  5. 제 1 항 내지 제 4 항중 어느 한 항에 있어서,
    상기 에너지 인코딩 단계는, 인식된 세그먼트의 각각의 시작에 대하여, 상기 "최상의 대표값"의 에너지 값 Erd(j) 과 상기 "인식된 세그먼트"의 시작의 에너지 값 Esd(j) 사이의 차이 △E(j) 를 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
  6. 제 5 항에 있어서,
    상기 디코딩 단계는, 각각의 인식된 세그먼트에 대하여, 상기 "최상의 대표값"의 제 1 에너지 값 Erd(j) 을 인덱스 j+1 를 가지는 상기 인식된 세그먼트의 제 1 에너지 값 Esd(j+1) 과 일치시키기 위하여, 양 (quantity) △E(j) 에 의해 상기 최상의 대표값의 에너지 윤곽선을 평행이동 시키는 제 1 단계를 포함하는 것을 특징으로 하는 방법.
  7. 제 1 항 내지 제 4 항중 어느 한 항에 있어서,
    상기 보이싱 인코딩 단계는 상기 인식된 세그먼트들의 보이싱 곡선 과 상기 최상의 대표값들의 보이싱 곡선 사이에, 인덱스 k 를 사용하여 보이싱 존의 각 단부에 대하여 존재하는 차이 △Tk 들을 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
  8. 제 7 항에 있어서,
    상기 디코딩 단계는, 인덱스 k 를 사용하는 보이싱 존의 각 단부에 대하여, 해당 값 △Tk 에 의해 이러한 단부의 시간 위치를 정정하는 단계 및/또는 트랜지션 (transition) 를 제거하거나 삽입하는 단계를 포함하는 것을 특징으로 하는 방법.
  9. 상기 인식된 세그먼트들을 결정하고 상기 "최상의 대표값들"로부터 상기 음성을 재현하고 제 1 항 내지 제 8 항중 어느 한 항에 따른 방법의 단계들을 수행하는데 적합한 마이크로프로세서와, 한 세트의 상기 음성 신호의 대표값들을 포함하는 사전 (dictionary) 을 저장하는 하나 이상의 메모리를 구비하는 것을 특징으로 하는 음성을 인코딩/디코딩하는 시스템.
  10. 제 9 항에 있어서,
    상기 대표값들의 사전은 상기 인코딩/디코딩 시스템의 상기 인코더와 상기 디코더에 공유되는 것을 특징으로 하는 시스템.
  11. 800 비트/초 보다 낮게 바람직하게는 400 비트/초 보다 낮은 비트 레이트로 음성을 인코딩/디코딩하는 것에 관해 제 1 항 내지 제 8 항중 어느 한 항에 따른 방법 또는 제 9 항과 제 10 항중 어느 한 항에 따른 시스템의 용도.
KR1020010064436A 2000-10-18 2001-10-18 매우 낮은 비트 레이트로 동작하는 음성 인코더에 대한프로소디를 인코딩하는 방법 KR20020031305A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0013628 2000-10-18
FR0013628A FR2815457B1 (fr) 2000-10-18 2000-10-18 Procede de codage de la prosodie pour un codeur de parole a tres bas debit

Publications (1)

Publication Number Publication Date
KR20020031305A true KR20020031305A (ko) 2002-05-01

Family

ID=8855687

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020010064436A KR20020031305A (ko) 2000-10-18 2001-10-18 매우 낮은 비트 레이트로 동작하는 음성 인코더에 대한프로소디를 인코딩하는 방법

Country Status (10)

Country Link
US (1) US7039584B2 (ko)
EP (1) EP1197952B1 (ko)
JP (1) JP2002207499A (ko)
KR (1) KR20020031305A (ko)
AT (1) ATE450856T1 (ko)
CA (1) CA2359411C (ko)
DE (1) DE60140651D1 (ko)
ES (1) ES2337020T3 (ko)
FR (1) FR2815457B1 (ko)
IL (1) IL145992A0 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
US20040166481A1 (en) * 2003-02-26 2004-08-26 Sayling Wen Linear listening and followed-reading language learning system & method
JP4256189B2 (ja) * 2003-03-28 2009-04-22 株式会社ケンウッド 音声信号圧縮装置、音声信号圧縮方法及びプログラム
US20050091044A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
FR2861491B1 (fr) * 2003-10-24 2006-01-06 Thales Sa Procede de selection d'unites de synthese
KR101410230B1 (ko) * 2007-08-17 2014-06-20 삼성전자주식회사 종지 정현파 신호와 일반적인 연속 정현파 신호를 다른방식으로 처리하는 오디오 신호 인코딩 방법 및 장치와오디오 신호 디코딩 방법 및 장치
US8374873B2 (en) * 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
US9269366B2 (en) * 2009-08-03 2016-02-23 Broadcom Corporation Hybrid instantaneous/differential pitch period coding
CN107256710A (zh) * 2017-08-01 2017-10-17 中国农业大学 一种基于动态时间伸缩算法的哼唱旋律识别方法
CN110265049A (zh) * 2019-05-27 2019-09-20 重庆高开清芯科技产业发展有限公司 一种语音识别方法及语音识别系统
US11830473B2 (en) * 2020-01-21 2023-11-28 Samsung Electronics Co., Ltd. Expressive text-to-speech system and method

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4802223A (en) * 1983-11-03 1989-01-31 Texas Instruments Incorporated Low data rate speech encoding employing syllable pitch patterns
US5305421A (en) * 1991-08-28 1994-04-19 Itt Corporation Low bit rate speech coding system and compression
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
US5682464A (en) * 1992-06-29 1997-10-28 Kurzweil Applied Intelligence, Inc. Word model candidate preselection for speech recognition using precomputed matrix of thresholded distance values
EP0706172A1 (en) * 1994-10-04 1996-04-10 Hughes Aircraft Company Low bit rate speech encoder and decoder
US6393391B1 (en) * 1998-04-15 2002-05-21 Nec Corporation Speech coder for high quality at low bit rates
US5933805A (en) * 1996-12-13 1999-08-03 Intel Corporation Retaining prosody during speech analysis for later playback
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
US6456965B1 (en) * 1997-05-20 2002-09-24 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
FR2784218B1 (fr) * 1998-10-06 2000-12-08 Thomson Csf Procede de codage de la parole a bas debit
FR2786908B1 (fr) * 1998-12-04 2001-06-08 Thomson Csf Procede et dispositif pour le traitement des sons pour correction auditive des malentendants
US7069216B2 (en) * 2000-09-29 2006-06-27 Nuance Communications, Inc. Corpus-based prosody translation system

Also Published As

Publication number Publication date
EP1197952B1 (fr) 2009-12-02
CA2359411A1 (fr) 2002-04-18
DE60140651D1 (de) 2010-01-14
CA2359411C (fr) 2010-07-06
ES2337020T3 (es) 2010-04-20
JP2002207499A (ja) 2002-07-26
FR2815457A1 (fr) 2002-04-19
US20020065655A1 (en) 2002-05-30
IL145992A0 (en) 2002-07-25
FR2815457B1 (fr) 2003-02-14
ATE450856T1 (de) 2009-12-15
EP1197952A1 (fr) 2002-04-17
US7039584B2 (en) 2006-05-02

Similar Documents

Publication Publication Date Title
US5012518A (en) Low-bit-rate speech coder using LPC data reduction processing
US20050021330A1 (en) Speech recognition apparatus capable of improving recognition rate regardless of average duration of phonemes
US4975956A (en) Low-bit-rate speech coder using LPC data reduction processing
US5526463A (en) System for processing a succession of utterances spoken in continuous or discrete form
US5765127A (en) High efficiency encoding method
US7200558B2 (en) Prosody generating device, prosody generating method, and program
EP0504927B1 (en) Speech recognition system and method
EP1353323B1 (en) Method, device and program for coding and decoding acoustic parameter, and method, device and program for coding and decoding sound
JPH0683400A (ja) 音声メッセージ処理方法
WO1994017518A1 (en) Text-to-speech system using vector quantization based speech encoding/decoding
KR19990024267A (ko) 포만트 유사도 측정에 의한 피솔라를 이용한 음성 파형 부호화방식
US7039584B2 (en) Method for the encoding of prosody for a speech encoder working at very low bit rates
Wong et al. Very low data rate speech compression with LPC vector and matrix quantization
EP0515709A1 (en) Method and apparatus for segmental unit representation in text-to-speech synthesis
US20030195746A1 (en) Speech coding/decoding method and apparatus
US5621853A (en) Burst excited linear prediction
US5884252A (en) Method of and apparatus for coding speech signal
Di Francesco et al. Variable rate speech coding with online segmentation and fast algebraic codes
DeMori Syntactic recognition of speech patterns
Ramasubramanian et al. Ultra low bit-rate speech coding
Hernandez-Gomez et al. Phonetically-driven CELP coding using self-organizing maps
JPH10111696A (ja) パターン間距離計算装置
AU3577893A (en) Process for speech analysis
Wong et al. Vector/matrix quantization for narrow-bandwidth digital speech compression
JP3305338B2 (ja) ピッチ周波数符号化復号化器

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application