KR950704772A

KR950704772A - 시스템 트레이닝 방법, 트레이닝된 장치 및 그 사용 방법(A method for training a system, the resulting apparatus, and method of use thereof)

Info

Publication number: KR950704772A
Application number: KR1019950702405A
Authority: KR
Inventors: 허쉬버그 쥴리아
Original assignee: 데이비드 엠. 로젠블랫; 에이티 앤드 티 코포레이션
Priority date: 1993-10-15
Filing date: 1994-10-12
Publication date: 1995-11-20
Also published as: DE69427525T2; EP0680653A1; CA2151399A1; EP0680653A4; EP0680653B1; DE69427525D1; US6173262B1; JPH08508127A; WO1995010832A1; CA2151399C; US6003005A

Abstract

인토네이션 구절 경계와 같은 인토네에션 기능을 입력 텍스트에 할당하여 공지된 방법의 단점을 극복한, TTS 또는 기타의 시스템을 트레이닝하는 방법이 설명된다. 트레이닝 방법은, 입력 텍스트 세트(음성이 아니라 음성을 나타내는 신호)를 수신하는 단계 및 수신된 압력 텍스트 세트에 인간이 인토네이션 기능 주석을 다는 단계를 포함한다. 이 결과, 주석달린 텍스트가 초래된다. 다음에 정보를 생성하도록 소정 텍스트 세트의 구조가 분석된다. 이 정보는 인토네이션 기능 주석과 함께, 통계적 표현을 생성하는 데에 사용된다. 다음에, 통계적 표현은 저장될 수도 있고, TTS시스템을 또 다시 트레이닝하지 않고도 새로운 입력 텍스트 세트로부터 합성음성을 생성하기 위해 반복적으로 사용될 수 도 있다.

결과적으로 트레이닝된 시스템 및 그 사용법 또한 발명의 일부이다.

Description

시스템 트레이닝 방법, 트레이닝된 장치 및 그 사용 방법(A method for training a system, the resulting apparatus, and method of use thereof)

본 내용은 요부공개 건이므로 전문내용을 수록하지 않았음

제1도는 TTS시스템, 제2도는 TTS 시스템의 상세도, 제3도는 TTS시스템에 삽입된 인토네이션 기능 주석을 갖는 소정 텍스트 세트.

Claims

(a)주석달린 텍스트를 생성하도록 소정 텍스트 세트에 인토네이션 기능 주석을 다는 단계와; (b)상기 소정 텍스트의 구조에 대한 정보를 생성하는 단계 및; (c)상기 정보 및 상기 인토네이션 기능 주석의 함수인 통계적 표현을 생성하는 단계:를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 주석을 다는 단계는 소정 텍스트 세트에 운율적으로 예상 인토네이션 기능을 주석으로 다는 단계를 포함하는 것을 특징으로 하는 방법
제1항에 있어서, 상기 방법이 텍스트-음성 시스템을 트레이닝 하기 위해 사용되는 것을 특징으로 하는 방법.
제3항에 있어서, 상기 인토네이션 기능이 인토네이션 구절 경계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 통계적 표현을 생성하는 단계는 결정 노드 세트를 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
제5항에 있어서, 상기 결정 노드 세트를 생성하는 단계는 숨은 마르코브 모델을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
제5항에 있어서, 상기 결정 노드 세트를 생성하는 단계는 신경 회로망을 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
제5항에 있어서, 상기 결정 노드 세트를 생성하는 단계는 분류 및 복귀트리 기술을 수행하는 것을 특징으로 하는 방법.
(a)소정 텍스트 세트 및 이 세트를 위한 인토네에션 기능 주석의 함수인, 저장된 통계적 표현 및; (b)입력 텍스트 세트를 나타내는 출력을 생성하도록 상기 저장된 통계적 표현에 입력 텍스트 세트를 인가하는 수단;을 포함하는 것을 특징으로 하는 장치.
제9항에 있어서, 상기 장치는 텍스트-음성 장치이며, (a)합성 음성 신호를 생성하도록 상기 출력을 전처리하는 수단 및 ; (b)상기 합성음성 신호를 음향출력 소자에 인가하는 수단;을 더 포함하는 것을 특징으로 하는 장치.
제9항에 있어서, 상기 저장된 통계적 표현은 결정트리를 포함하는 것을 특징으로 하는 장치.
제9항에 있어서, 상기 저장된 통계적 표현은 숨은 마르코브 모델을 포함하는 것을 특징으로 하는 장치.
제9항에 있어서, 상기 저장된 통계적 표현은 신경회로망을 포함하는 것을 특징으로 하는 장치.
제9항에 있어서, 상기 인가하는 수단은 입력 텍스트 세트에 관한 저장된 질의 세트를 질문하는 수단을 포함하는데, 상기 저장된 질의 세트는 (a)Wi는 인토네이션상 돌출되는가, 아니면 더 후퇴되는가?; (b)Wi는 인토네이션상 돌출되는가, 아니면 더 후퇴되는가?; (c)음성중 Wi의 부분은 무엇인가?; (d)음성중 Wi-1의 부분은 무엇인가?; (e)음성중 Wj 의 부분은 무엇인가?; (f)음성중 Wj +1의 부분은 무엇인가?; (g)현재 문장에 얼마나 많은 단어가 존재하는가?; (h)실단어에 있어서, Wj 로부터 문장의 시작에 이르는 거리는 얼마인가? (i)실단어에 있어서, Wj 로부터 문장의 끝에 이르는 거리는 얼마인가? (j)가장 가까운 명사절에 대한 가능 인토네이션 경계 위치의 장소는 어디인가? (k)가능 인토네이션 경계 위치가 명사절 내에 있다면, 그 위치는 명사절의 시작에서 얼마나 떨어져 있는가? (l)실단어에 있어서, 현재 명사절의 크기는 얼마인가? (m)명사절 내에서 Wj 는 얼마나 떨어져 있는가? (n)현재의 문장에서 가능 인토네이션 경계위치 앞에 얼마나 많은 음절이 존재하는가? (o)현재의 문장에서 가능 인토네이션 경계 위치 앞에 얼마나 많은 사전적으로 강세있는 음절이 존재하는가?; (p)현재의 문장에서 강세있는 음절의 총수는 얼마인가?; (q)가능 인토네이션 경계 위치 바로 앞에 오는 음절의 강세 레벨은 무엇인가?'; (r)Wj에서 할당된 마지막 인토네에션 경계에 이르는 거리를 마지막 인토네에션 구절의 총길이로 나눈 결과는 얼마인가?; (s)가능 인토네이션 경계 위치에 구두점이 존재하는가?; (t)가능 인토네이션 경계 위치와 현재문장의 시작 위치사이에 얼마나 많은 제1 또는 제2 강세의 음절이 존재하는가?; 로 구성된 그룹으로부터 선택된 최소한 한 질의 포함하는 것을 특징으로 하는 장치.
(a)소정 텍스트 세트 및 이 세트를 위한 인토네이션 기능 주석의 함수인 저장된 통계적 표현을 액세스하는 단계와; (b)입력 텍스트 세트를 나타내는 출력을 생성하도록 상기 저장된 통계적 표현에 입력 텍스트 세트를 인가하는 단계;를 포함하는 것을 특징으로 하는 방법.
제15항에 있어서, 상기 액세스 하는 단계 및 상기 인가하는 단계는 텍스트-음성 장치에서 수행되며, (a)합성 음성 신호를 생성하도록 상기 출력을 전처리하는 단계 및; (b)상기 합성 음성 신호를 음향 출력 소자에 인가하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
제15항에 있어서, 상기 저장된 통계적 표현은 결정 트리를 포함하는 것을 특징으로 하는 방법.
제15항에 있어서, 상기 저장된 통계적 표현은 숨은 마르코브 모델을 포함하는 것을 특징으로 하는 방법.
제15항에 있어서, 상기 저장된 통계적 표현은 신경 회로망을 포함하는 것을 특징으로 하는 방법.
제15항에 있어서, 상기 인가하는 단계는 입력 텍스트 세트에 관한 저장된 질의 세트를 질문하는 단계를 포함하는데, 상기 저장된 질의 세트는 (a)Wi는 인토네이션상 돌출되는가, 아니면 더 후퇴되는가?; (b)Wi는 인토네이션상 돌출되는가, 아니면 더 후퇴되는가?; (c)음성중 Wi의 부분은 무엇인가?; (d)음성중 Wi-1의 부분은 무엇인가?; (e)음성중 Wj 의 부분은 무엇인가?; (f)음성중 Wj +1의 부분은 무엇인가?; (g)현재 문장에 얼마나 많은 단어가 존재하는가?; (h)실단어에 있어서, Wj 로부터 문장의 시작에 이르는 거리는 얼마인가? (i)실단어에 있어서, Wj 로부터 문장의 끝에 이르는 거리는 얼마인가? (j)가장 가까운 명사절에 대한 가능 인토네이션 경계 위치의 장소는 어디인가? (k)가능 인토네이션 경계 위치가 명사절 내에 있다면, 그 위치는 명사절의 시작에서 얼마나 떨어져 있는가? (l)실단어에 있어서, 현재 명사절의 크기는 얼마인가? (m)명사절 내에서 Wj 는 얼마나 떨어져 있는가? (n)현재의 문장에서 가능 인토네이션 경계위치 앞에 얼마나 많은 음절이 존재하는가? (o)현재의 문장에서 가능 인토네이션 경계 위치 앞에 얼마나 많은 사전적으로 강세있는 음절이 존재하는가?; (p)현재의 문장에서 강세있는 음절의 총수는 얼마인가?; (q)가능 인토네이션 경계 위치 앞에 오는 음절의 강세 레벨은 무엇인가?'; (r)Wj에서 할당된 마지막 인토네에션 경계에 이르는 거리를 마지막 인토네에션 구절의 총길이로 나눈 결과는 얼마인가?; (s)가능 인토네이션 경계 위치에 구두점이 존재하는가?; (t)가능 인토네이션 경계 위치와 현재문장의 시작 위치사이에 얼마나 많은 제1 또는 제2 강세의 음절이 존재하는가?; 로 구성된 그룹으로부터 선택된 최소한 한 질의를 포함하는 것을 특징으로 하는 방법.

※ 참고사항 : 최초출원 내용에 의하여 공개하는 것임.