KR0173340B1 - 텍스트/음성변환기에서 억양패턴 정규화와 신경망 학습을 이용한 억양 생성 방법 - Google Patents

텍스트/음성변환기에서 억양패턴 정규화와 신경망 학습을 이용한 억양 생성 방법 Download PDF

Info

Publication number
KR0173340B1
KR0173340B1 KR1019950055841A KR19950055841A KR0173340B1 KR 0173340 B1 KR0173340 B1 KR 0173340B1 KR 1019950055841 A KR1019950055841 A KR 1019950055841A KR 19950055841 A KR19950055841 A KR 19950055841A KR 0173340 B1 KR0173340 B1 KR 0173340B1
Authority
KR
South Korea
Prior art keywords
sentence
pattern
accent
word
intonation
Prior art date
Application number
KR1019950055841A
Other languages
English (en)
Other versions
KR970050108A (ko
Inventor
이정철
이영직
김상훈
한민수
Original Assignee
양승택
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 양승택, 한국전자통신연구원 filed Critical 양승택
Priority to KR1019950055841A priority Critical patent/KR0173340B1/ko
Publication of KR970050108A publication Critical patent/KR970050108A/ko
Application granted granted Critical
Publication of KR0173340B1 publication Critical patent/KR0173340B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 텍스트/음성변환기(text-to-speech conversion system)에서 억양패턴 정규화와 신경망 학습을 이용한 억양 생성 방법에 관한 것으로서, 음성합성 장치에 적용되는 텍스트/음성변환장치에 적용되는 억양패턴 정규화와 신경망 학습을 이용한 억양생성 방법에 있어서, 합성 데이터베이스(3)로부터 음성 데이터를 읽어 음절의 피치 패턴을 정규화 및 표준화하고 어절내 각 음절의 평균 피치값에서 어절의 평균 피치값을 뺀 피치값으로 어절피치패턴을 학습하고, 문장내 각 어절의 평균 피치값으로부터 문장의 기준 억양을 추정한 후, 문장의 문맥에 따른 문법 속성열과 그에 해당되는 억양패턴테이블을 작성하는 제1단계(10 내지 15); 한국어 문장과 문법 속성열이 입력되면 문장의 기준억양 생성 과정에서 각 어절에 대해 문장내 위치에 따라 1차 평균 피치값을 할당하고, 비균일 단위의 억양패턴 생성 과정에서 입력된 문법 속성열을 이용하여 왼쪽 우선 검색 방식으로 최장 일치 부분을 억양 패턴 테이블에서 찾아 해당 어절에 2차 평균 피치값을 할당하고, 어절의 피치 패턴 생성 과정에서 신경망을 이용하여 각 음절의 평균 피치값 변화량을 계산하고, 음절의 피치 패턴 생성 과정에서는 각 음절을 구성하는 음소열과 표준 피치 패턴 테이블을 이용하여 음절의 피치 패턴을 계산하고, 각 과정의 결과를 합하여 전체 문장의 억양을 생성하여 출력하는 제2단계(16 내지 21)를 포함하여 실제 음성데이타를 분석하여 억양 제어 규칙을 작성하고 합성음의 억양 제어를 통해 함성음의 자연성과 유창성을 향상시킴으로써 통신 서비스, 사무 자동화, 교육 등의 여러 분야에 응용할 수 있는 효과가 있다.

Description

텍스트/음성변환기에서 억양패턴 정규화와 신경망 학습을 이용한 억양 생성 방법
제1도는 본 발명이 적용하는 하드웨어의 구성도.
제2도는 본 발명이 적용되는 한국어 텍스트/음성변환의 흐름도.
제3도는 본 발명에 따른 억양 생성 방법의 일실시예 흐름도.
* 도면의 주요부분에 대한 부호의 설명
1 : 문자 입력 장치 2 : 중앙 처리 장치
3 : 합성 데이터 베이스 4 : D/A 변환 장치
본 발명은 텍스트/음성변환기(text-to-speech conversion system, 이후 TTS)에서 억양패턴 정규화와 신경망 학습을 이용한 억양 생성 방법에 관한 것이다.
음성 합성기의 기능은 컴퓨터가 사용자인 인간에게 다양한 형태의 정보를 음성으로 제공하는데 있다.
사용자는 음성 합성기를 이용하여 기존의 텍스트 데이터나 대화상대로부터 제공되는 텍스트 정보를 음성으로 출력할 수 있다. 물론 사용자에게 고품질의 음성 합성 서비스를 제공하기 위해서는 합성음은 명료도와 자연성이 높아야 하고, 발성 속도조절 및 적절한 의미적 강조가 이루어지게 유창해야 하며, 하드웨어나 소프트웨어 면에서 쉽게 구현되어야 한다.
그러나, 인간에 가까운 자연스러운 합성음을 만들어 내는데는 아직도 많은 어려움이 있으므로 국내에서 실제 상용화한 제품은 손에 꼽을 정도이다. 특히 무제한 어휘를인간에 가까운 음성으로 변환하기 위한 규칙 합성 방식은 명료도 확보를 위한 합성 단위의 선정과 결합 방법, 자연성 구현을 위한 운율 구현 방법, 그리고 합성음 생성을 위한 합성 방식에 대한 연구가 아직도 미흡한 실정이다.
합성음의 자연성과 밀접한 관련이 있는 운율은 음의 높이, 세기, 길이의 3가지 형태로 나타난다. 이중 음의 높낮이 변화는 억양을, 음의 세기는 의미적 강세를, 음의 길이는조음점, 조음 방법, 조음 결합에 따른 변별적 지속시간 차이와 운율 경계 정보를 내포하고 있다. 이는 실제의 운율 패턴에서 구별가능한 패턴의 종류와 그 의미, 그리고 텍스트 문자장의 형태, 구문 구조, 문맥에 따른 운율 패턴의 관련성을 찾아 운율 구현 규칙을 작성하는 것이 합성음의 명료도 및 자연성 구현에 필수적임을 의미한다.
그러므로, 텍스트 문장의 분석방식, 운율 구현 모델, 운율 패턴 구현 방식은 합성음 명료도 및 자연성을 결정짓는 중요 원천기술이다.
따라서, 본 발명은 텍스트/음성변환기에서 합성음의 자연성과 유창성을 향상시킬 수 있도로 실제 음성데이타를 분석하여 억양 제어 규칙을 작성하고 억양페턴 정규화와 신경막 학습을 이용하여 억양을 생성시키는 방법을 제공하는데 그 목적이 있다.
상기 목적을 달성하기 위한 본 발명은, 텍스트/음성변환장치에 적용되는 억양패턴 정규화와 신경망 학습을 이용한 억양생성 방법에 있어서, 합성 데이터베이스(3)로부터 음성 데이터를 읽어 음절의 피치 패턴을 정규화 및 표준화하고 어절내 각 음절의 평균 피치값에서 어절의 평균 피치값을 뺀 피치값으로 어절피치패턴을 학습하고, 문장내 각 어절의 평균 피치값으로부터 문장의 기준 억양을 추정한 후, 문장의 문맥에 따른 문법 속성열과 그에 해당되는 억양패턴테이블을 작성하는 제1단계(10 내지 15); 한국어 문장과 문법 속성열이 입력되면 문장의 기준억양 생성 과정에서 각 어절에 대해 문장내 위치에 따라 1차 평균 피치값을 할당하고, 비균일 단위의 억양패턴 생성 과정에서 입력된 문법 속성열을 이용하여 왼쪽 우선 검색 방식으로 최장 일치 부분을 억양 패턴 테이블에서 찾아 해당 어절에 2차 평균 피치값을 할당하고, 어절의 피치 패턴 생성 과정에서 신경망을 이용하여 각 음절의 평균 피치값 변화량을 계산하고, 음절의 피치 패턴 생성 과정에서는 각 음절을 구성하는 음소열과 표준 피치 패턴 테이블을 이용하여 음절의 피치 패턴을 계산하고, 각 과정의 결과를 합하여 전체 문장의 억양을 생성하여 출력하는 제2단계(16 내지 21)를 포함하는 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 일실시예를 상세히 설명한다.
제1도는 본 발명이 적용되는 하드웨어 구성도로서, 도면에서 1은 문자입력장치. 2는 중앙 처리 장치, 3은 합성 데이터베이스, 4는 디지털/아날로그(D/A) 변환 장치를 각각 나타낸다.
문자 입력 장치(1)는 KS5601 완성형 및 2 바이트(byte) 조합형으로 표현이 가능한 한국어 문자를 입력받아 중앙 처리 장치(2)로 출력한다.
중앙 처리 장치(2)는 본 발명의 알고리즘의 탑재되어 수행되는 부분이다.
합성 데이터베이스(3)는 합성 알고리즘에 사용되는 CDU 합성 DB로서 기억 장치에 저장되어 있으며 상기 중앙 처리 장치(2)로 필요한 데이터를 전송한다.
디지털/아날로그(D/A)변환장치(4)는 합성이 끝난 디지털 데이터를 아날로그 신호로 변환하여 외부로 출력한다.
제2도는 본 발명이 적용되는 한국어 텍스트/음성변환의 흐름도로서, 크게 언어 처리 단계(5), 운율 처리 단계(6), 합성음 생성 단계(7)로 이루어져 있다.
언어 처리 단계(5)는 먼저 입력된 텍스트 문장을 약어, 문장 기호, 특정 용어에 대해 한국어로 해석하는 전처리 단계를 수행한다. 다음 단계에서는 어휘 사전에 60여개 그룹으로 분류 등록된 한국어의 조사, 활용형 어미, 부사, 접속사등을 이용하여 입력 문장의 각 어절에 문법적 기능을 추정, 할당하는 어절 분석을 한다.
그리고, 한국어 문법을 이용하여 입력 문장의 구문 구조를 추정하는 파싱을 한다.
단어 사전 검색과 한국어 발음 규칙에 따라 입력 문장을 소리나는 데로 바꾼다.
운율 처리 단계(6)에서는 상기 언어 처리 단계(5)의 처리 결과를 받아서 문장 구조에 따라 적합한 운율 규칙을 적용함으로써 합성음의 빠르기, 억양, 뛰어 읽기 등의 자연성 및 유창함과 관계된 정보를 생성한다.
합성음 생성 단계(7)는 상기의 처리 과정을 거쳐 구한 발음 기호와 운율 정보를 이용하여 합성단위들을 조절, 가공 및 결합한 뒤, 합성음을 생성하여 사용자에게 음성으로 출력한다.
제3도는 본 발명에 따른 텍스트/음성변환기에서 억양패턴 정규화와 신경망 학습을 이용한 억양 생성 흐름도를 나타낸다.
먼저, 합성 데이터베이스(3)로부터 음성 데이터를 읽어(10) 한국어에서 가능한 3192개 (19[초성]x[모음]x7[중성])음절의 피치 패턴을 정규화 및 표준화 시킨다(11). 피치 패턴의 정규화에 필요한 4개의 파라미터(p1.p2.p3,Tn)는 음성 신호 데이터베이스에 저장된 단위 음절내 피치 신호에서 음절의 평균 피치값sj를 뺀 값들과, 누적 자승오차를 최소로 하는 값으로 추정한다. 각 음절의 표준화된 피치 패턴fk(k=1,.......3192)는 음성 데이터베이스내의 동일 음절들에 대한 각 파라미터값들의 평균으로 구한다.
그런다음, 어절내 각 음절의 평균 피치값sj에서 어절의 평균 피치값wi를 뺀 평균피치값 변화량 δsj를 계산한다(12). 이들 변화량을 제어하는 규칙은 신경망 학습을 이용하여 작성한다. 신경망의 입력은 대상 음절을 기준으로 동일 어절내의 전후 각 9개의 음절의 평균 피치값, 조음 방법, 조음점에 따른 특성분류를 기준으로 한 직전 음절의 조음 특성 7개, 현재 음절의 조음 특성 11개, 직후 음절의 조음 특성 8개, 어절내 음절의 위치, 어절내 음절수, 어절의 평균 피치값으로 이루어진 49개의 파라미터이다. 신경망의 출력은 δsj이며, 이를 목표로 신경망을 학습시켜서 규칙을 구한다.
다음, 문장내 각 어절의 평균 피치값wi로부터 문장의 기준억양, y=ax+b을 추정한다(13). 각 문장의 기준 억양의 시간축에서 어절수에 따라 정규화된 값들과 누적 자승 오차를 최소로 하는 a,b 값으로 추정된다. 최종적으로 모든 문장에 대해서 구한 a,b 값들의 평균값을 구하여 문장의 표준 기준 억양으로 규칙화한다.
문장의 기준 억양을 추정한 후, 문장의 문맥에 따른 억양 특성분석 및 규칙 테이블을 작성한다(14). 규칙 테이블의 작성은 한국어의 문법을 이용한 구문 구조 분석(파싱)에 의존하지 않고, 단기 1∼5개의 연속된 문법속성 열에 대한 운율 패턴을 작성함으로써 문법적 단위가 아닌 비균일(non-uniform)단위의 억양 패턴 처리 규칙을 만들게 된다. 이 방법은 억양 구현이 파서의 정교함과 밀접한 관계가 있는 일반적 방식과 크게 구별되며, 그 구현이 쉬운 장점이 있다. 작성 방법은 다음과 같다.
- 문장의 표준 기준억양을 이용하여1wi를 구한다.
- 각 어절의 평균 피치 값wi에서1wi를 뺀2wi를 구한다.
- 형태소 분석기를 이용하여 각 어절에 문법적 속성들 {gk|=|1,........,k}중에 하나를 부여한다.
- 음성 데이터베이스에서 n개의 연속된 문법 속성 열을 G(n)=gi1·gi2…gin을 만족하는 모든 경우에 대해서 gin별로2gi의 평균값을 구한다. 여기서 i는 n개의 연속된 문법 속성열들로 이루어진 집합 중의 한 원소를 의미하며, 모든 가능한 i에 대해 억양 패턴을 구한다. 규칙 테이블에 문법 속성열과 그에 해당되는 억양 패턴 즉 피치 평균값열을 저장한다(15).
- n=1,2,........,5에 대해서 위 과정을 반복한다.
- 두 개의 G(n)조합으로 G(n+1)을 생성할 수 있을 경우 G(n+1)을 규칙 테이블에서 제거한다.
작성된 규칙 테이블이 저장되면, 한국어 문장과 문법 속성열을 입력으로 하여(16) 문장의 기준억양 생성 과정에서 각 어절에 대해 문장내 위치에 따라 1차 평균 피치값1wi을 할당한다(17). 그런 다음 비균일 단위의 억양패턴 생성 단계에서는 입력된 문법 속성열을 이용하여 왼쪽 우선 검색 방식으로 최장 일치 부분을 규칙테이블에서 찾아 해당 어절의2wi을 읽어온다(18). 다음 어절의 피치 패턴 생성 단계에서는 신경망을 이용하여 각 음절의 평균 피치값 변화량 δsj을 계산한다(19). 다음 음절의 피치 패턴 생성 단계에서는 각 음절을 구성하는 음소열과 표준 피치 패턴 테이블을 이용하여 음절의 피치 패턴 Pfj를 계산한다(20). 최종적으로 각 단계의 결과를 합하여 전체 문장의 억양을 생성하여 출력한다(21).
상기와 같이 동작하는 본 발명은 실제 음성데이타를 분석하여 억양 제어 규칙을 작성하고, 합성음의 억양 제어를 통해 합성음의 자연성과 유창성을 향상시킴으로써 통신 서비스, 사무 자동화, 교육 등의 여러 분야에 응용할 수 있는 효과가 있다.

Claims (1)

  1. 텍스트/음성변환장치에 적용되는 억양패턴 정규화와 신경망 학습을 이용한 억양생성 방법에 있어서, 합성 데이터베이스(3)로부터 음성 데이터를 읽어 음절의 피치 패턴을 정규화 및 표준화하고 어절내 각 음절의 평균 피치값에서 어절의 평균 피치값을 뺀 피치값으로 어절피치패턴을 학습하고, 문장내 각 어절의 평균 피치값으로부터 문장의 기준 억양을 추정한 후, 문장의 문맥에 따른 문법 속성열과 그에 해당되는 억양패턴테이블을 작성하는 제1단계(10 내지 15); 한국어 문장과 문법 속성열이 입력되면 문장의 기준억양 생성 과정에서 각 어절에 대해 문장내 위치에 따라 1차 평균 피치값을 할당하고, 비균일 단위의 억양패턴 생성 과정에서 입력된 문법 속성열을 이용하여 왼쪽 우선 검색 방식으로 최장 일치 부분을 억양 패턴 테이블에서 찾아 해당 어절에 2차 평균 피치값을 할당하고, 어절의 피치 패턴 생성 과정에서 신경망을 이용하여 각 음절의 평균 피치값 변화량을 계산하고, 음절의 피치 패턴 생성 과정에서는 각 음절을 구성하는 음소열과 표준 피치 패턴 테이블을 이용하여 음절의 피치 패턴을 계산하고, 각 과정의 결과를 합하여 전체 문장의 억양을 생성하여 출력하는 제2단계(16 내지 21)를 포함하는 것을 특징으로 하는 억양 생성 방법.
KR1019950055841A 1995-12-23 1995-12-23 텍스트/음성변환기에서 억양패턴 정규화와 신경망 학습을 이용한 억양 생성 방법 KR0173340B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019950055841A KR0173340B1 (ko) 1995-12-23 1995-12-23 텍스트/음성변환기에서 억양패턴 정규화와 신경망 학습을 이용한 억양 생성 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019950055841A KR0173340B1 (ko) 1995-12-23 1995-12-23 텍스트/음성변환기에서 억양패턴 정규화와 신경망 학습을 이용한 억양 생성 방법

Publications (2)

Publication Number Publication Date
KR970050108A KR970050108A (ko) 1997-07-29
KR0173340B1 true KR0173340B1 (ko) 1999-04-01

Family

ID=19444005

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019950055841A KR0173340B1 (ko) 1995-12-23 1995-12-23 텍스트/음성변환기에서 억양패턴 정규화와 신경망 학습을 이용한 억양 생성 방법

Country Status (1)

Country Link
KR (1) KR0173340B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11398223B2 (en) 2018-03-22 2022-07-26 Samsung Electronics Co., Ltd. Electronic device for modulating user voice using artificial intelligence model and control method thereof

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102072162B1 (ko) 2018-01-05 2020-01-31 서울대학교산학협력단 인공 지능 기반 외국어 음성 합성 방법 및 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11398223B2 (en) 2018-03-22 2022-07-26 Samsung Electronics Co., Ltd. Electronic device for modulating user voice using artificial intelligence model and control method thereof

Also Published As

Publication number Publication date
KR970050108A (ko) 1997-07-29

Similar Documents

Publication Publication Date Title
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
KR100811568B1 (ko) 대화형 음성 응답 시스템들에 의해 스피치 이해를 방지하기 위한 방법 및 장치
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP5198046B2 (ja) 音声処理装置及びそのプログラム
US20020152073A1 (en) Corpus-based prosody translation system
KR0146549B1 (ko) 한국어 텍스트/음성 변환 방법
Yegnanarayana et al. Significance of knowledge sources for a text-to-speech system for Indian languages
KR20010018064A (ko) 음운환경과 묵음구간 길이를 이용한 텍스트/음성변환 장치 및그 방법
KR0173340B1 (ko) 텍스트/음성변환기에서 억양패턴 정규화와 신경망 학습을 이용한 억양 생성 방법
Hoffmann et al. Evaluation of a multilingual TTS system with respect to the prosodic quality
CN114822490A (zh) 语音拼接方法和语音拼接装置
JPH08335096A (ja) テキスト音声合成装置
Farrugia Text to speech technologies for mobile telephony services
Romsdorfer et al. A mixed-lingual phonological component which drives the statistical prosody control of a polyglot TTS synthesis system
JPH037995A (ja) 歌音声合成データの作成装置
Kaur et al. BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE
Morton Adding emotion to synthetic speech dialogue systems
JPH03245192A (ja) 外国語単語の発音決定方法
Tatham Voice output for man-machine interaction
Aparna et al. Text to speech synthesis of Hindi language using polysyllable units
IMRAN ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE
Khalil et al. Optimization of Arabic database and an implementation for Arabic speech synthesis system using HMM: HTS_ARAB_TALK
JPH04350699A (ja) テキスト音声合成装置
Morton PALM: psychoacoustic language modelling
JPH08160990A (ja) 音声合成装置

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20081001

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee