KR20000055673A - 음성합성을 위한 끊어읽기 방법 및 그 장치 - Google Patents

음성합성을 위한 끊어읽기 방법 및 그 장치 Download PDF

Info

Publication number
KR20000055673A
KR20000055673A KR1019990004426A KR19990004426A KR20000055673A KR 20000055673 A KR20000055673 A KR 20000055673A KR 1019990004426 A KR1019990004426 A KR 1019990004426A KR 19990004426 A KR19990004426 A KR 19990004426A KR 20000055673 A KR20000055673 A KR 20000055673A
Authority
KR
South Korea
Prior art keywords
level
reading
word
energy
speech
Prior art date
Application number
KR1019990004426A
Other languages
English (en)
Other versions
KR100499116B1 (ko
Inventor
김정수
Original Assignee
윤종용
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤종용, 삼성전자 주식회사 filed Critical 윤종용
Priority to KR10-1999-0004426A priority Critical patent/KR100499116B1/ko
Publication of KR20000055673A publication Critical patent/KR20000055673A/ko
Application granted granted Critical
Publication of KR100499116B1 publication Critical patent/KR100499116B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 음성합성 분야와 관련이 있다. 더 자세하게는, 입력된 문장을 음성으로 변환하기 위해서는 입력된 문장에 해당하는 운율을 생성해야 하는데, 본 발명은 바로 이 운율 생성 분야와 관련이 있다.
본 발명은 문서해석 단계의 결과인 구문트리를 입력으로 하여 문장에 대한 끊어읽기를 수행함으로써 합성음의 자연성과 명료도를 향상시키는 방법 및 그 장치로서, 끊어읽기 레벨 결정 단계와 끊어읽기 레벨 보정 단계의 2단계를 포함하여 이루어진다. 끊어읽기 레벨 결정 단계에서는, 구문트리의 루트 노드에서 각 노드까지의 거리를 구문 깊이라고 할 때, 두 노드간의 구문 깊이차를 이용하여 끊어읽기 레벨을 결정한다. 끊어읽기 레벨 보정 단계에서는, 사람이 발성하기 위해 들이마신 공기, 인접어절간의 규칙, 언어습관 및 문서형태 등을 고려하여 끊어읽기 레벨을 보정한다.
본 발명에 의하면, 끊어읽기 레벨과 사용자가 정한 발화속도에 따라, 말마디와 말토막 결정 테이블에 따라 입력문장에 대한 말마디 및 말토막 경계 정보를 얻게 되며, 이 말마디 및 말토막 경계 정보를 운율요소 예측 및 파형합성 단계에 이용함으로써 합성음의 자연성과 명료도를 높이게 된다.

Description

음성합성을 위한 끊어 읽기 방법 및 그 장치{Method and apparatus for prosodic phrasing for speech synthesis}
본 발명은 한국어 음성합성 분야와 관련이 있다. 더 자세하게는, 입력된 문장을 음성으로 변환하기 위하여 입력된 문장에 해당하는 운율을 생성해야 하는데, 바로 이 운율 생성 분야와 관련이 있다.
사람은 문서를 낭독할 때, 기본적으로는 문장구조를 파악하여 의미적 결합도에 따라 끊어 읽기를 수행하지만, 자신이 들이마신 공기, 언어습관, 발화의 속도 등을 고려하여 보다 자연스러운 끊어 읽기를 수행한다. 끊어 읽는 방법에 관한 종래의 기술로는, 인접한 어절간의 규칙(한국 특허공개번호 93-10711), 인접한 어절간의 관계(한국 특허공개번호 95-15052), 인접한 어절간의 쉼 길이 테이블(한국 특허공개번호 95-15053, 96-25313) 등이 있는 바, 인접한 어절간에 미리 준비된 데이터를 이용하고 있다. 또 다른 방법으로는 어절과 어절사이의 휴지기 존재 확률과 어절개수 확률 분포(한국 특허공개번호 94-26831), 신경회로망(한국 특허공개번호 95-4026)등을 사용하는 방법들이 있으나, 어절간에 미리 준비된 데이터를 사용하는 점에서는 비슷하다고 할 수 있다. 이러한 방법의 문제점은 문장의 의미와 직접적인 관련이 있는 구문구조, 발화를 위해 들이마신 공기의 양, 언어습관 등을 반영하지 않으므로, 부자연스런 운율로 이어져 합성음의 자연성과 명료도를 떨어뜨린다는 것이다. 또한, 이들 종래의 방법들은 발화속도에 따라 달라지는 말마디/말토막 경계 등을 반영하지 않으므로, 발화속도 관계없이 끊어읽는 위치가 항상 일정하여, 합성음을 기계음으로 느끼게 된다.
예들 들면, 다음과 같다.
〈예 1〉
나는 // 산도 // 좋아하고 // 바다도 // 좋아한다. //
〈예 2〉
부산의 광안리 해변은 // 젊은이들의 만남의 장소로 유명하다. //
위의 〈예 1〉 및 〈예 2〉에서 “/”는 말토막 경계를, “//”는 말마디 경계를 의미하는데, “/”는 짧게, “//”는 길게 끊어읽는다. 〈예 1〉은 종래의 기술이 너무 자주 끊어 읽게 되는 예인데, 종래의 기술은 “-는”, “-도”등의 통용보조사나 “-고” 등의 연결어미만 보고 끊어 읽는 규칙을 적용하기 때문에 발생하는 문제점이다. 〈예 2〉는 종래의 기술이 적절히 끊어 읽지 못하는 예인데, 종래의 기술은 “-의” 등의 관형격 조사에서는 끊어읽지 않기 때문에 발생하는 문제점이다.
〈예 1〉과 〈예 2〉는 다음과 같이 끊어 읽는 것이 자연스럽다.
〈예 1'〉
나는 // 산도 / 좋아하고 // 바다도 / 좋아한다. //
〈예 2'〉
부산의 / 광안리 해변은 // 젊은이들의 // 만남의 장소로 / 유명하다. //
본 발명은 상기의 문제점을 해결하기 위하여 창작된 것으로서, 의미적 결합도, 발화를 위해 들이마신 공기, 인접어절간의 규칙, 언어습관, 문서형태 등을 고려하여 끊어 읽기를 수행하며, 발화속도를 고려하여 말마디/말토막의 경계를 추출하는 음성합성을 위한 끊어읽기 장치 및 그 방법을 제공함을 그 목적으로 한다.
도 1은 일반적인 음성합성 장치의 구성도이다.
도 2는 본 발명에 의한 끊어읽기장치의 일실시예의 구성도이다.
도 3은 구문트리, 구문깊이, 구문 깊이차를 예시한 것이다.
도 4는 본 발명에 의한 끊어읽기방법의 일실시예를 도시한 순서도이다.
도 5는 도 4의 402 단계인 에너지에 의한 끊어읽기 레벨보정단계를 보다 상세히 도시한 순서도이다.
본 발명에서는 문서해석 단계의 결과인 구문트리를 입력으로 하여 한국어 문장에 대한 끊어읽기를 수행함으로써 합성음의 자연성과 명료도를 향상시키는 방법을 제안한다.
상기의 목적을 달성하기 위하여, 본 발명에 의한 음성합성장치에 포함된 운율생성장치에 구비되어 발화의 기본단위인 말마디, 말토막을 결정짓는 끊어읽기장치의 일실시예는 문장의 구문트리를 입력으로 하여, 구문트리의 루트 노드에서 각 노드까지의 거리를 구문 깊이라고 할 때 구문 깊이차에 따라 끊어읽기 레벨을 결정짓는 끊어읽기레벨결정부; 하나 이상의 레벨 보정 요소들을 고려하여 상기 끊어읽기레벨결정부에 의해 결정된 끊어읽기 레벨을 보정하는 끊어읽기레벨보정부; 및 발화속도를 고려하여 상기 끊어읽기레벨보정부에 의해 보정된 끊어읽기 레벨로부터 말마디/말토막을 결정짓는 말마디/말토막결정부를 포함함을 특징으로 한다.
본 발명에 의한 끊어읽기장치의 일실시예에서, 상기 끊어읽기레벨결정부에 의해 결정된 끊어읽기 레벨 및 상기 끊어읽기레벨보정부에 의해 보정된 끊어읽기 레벨은 각각, 휴지부가 없는 말토막 경계, 휴지부가 있는 말토막경계, 말마디 경계 및 문장 경계 끊어읽기를 포함한 4단계 레벨을 사용함을 특징으로 한다.
본 발명에 의한 끊어읽기장치의 일실시예에서, 상기 하나 이상의 레벨 결정 요소들에는 사람이 발성하기 위해 들이마신 공기의 양을 에너지라 할 때 에너지의 잔존여부를 포함하고, 상기 끊어읽기보정부는 에너지 초기화부, 에너지 사용부 및 에너지 충전부를 구비하며, 에너지가 없을 때 어절을 구성하는 형태소 정보에 따라 끊어읽기 레벨을 보정하는 것을 특징으로 한다.
본 발명에 의한 끊어읽기장치의 일실시예에서, 상기 하나 이상의 레벨 결정 요소들에는 인접어절간의 규칙을 포함하고, 상기 끊어읽기보정부는 해당 어절을 구성하는 형태소 및 그 범주, 해당 어절과 그 다음 어절을 구성하는 형태소 및 그 범주에 따라 결정되는 끊어읽기 규칙을 담고 있는 인접어절간 규칙 테이블을 이용하는 끊어읽기 레벨을 보정하는 것을 특징으로 한다.
본 발명에 의한 끊어읽기장치의 일실시예에서, 상기 하나 이상의 레벨 결정 요소들에는 언어습관 규칙을 포함하고, 상기 끊어읽기보정부는 관용구, 의미전달을 명확히 하려는 발화습관, 구문해석 오류에 대한 보완을 포함한 언어습관에 관한 내용을 담고 있는 언어습관 규칙 테이블을 이용하는 끊어읽기 레벨을 보정하는 것을 특징으로 한다.
본 발명에 의한 끊어읽기장치의 일실시예에서, 상기 말마디/말토막결정부는 상기 끊어읽기레벨보정부에 의해 보정된 끊어읽기 레벨을 말마디 또는 말토막 경계로 매핑할 때, 발화 속도에 따라 가변적으로 매핑하는 것을 특징으로 한다.
상기의 다른 목적을 달성하기 위하여, 본 발명에 의한 음성합성장치에 포함된 운율생성장치에서 발화의 기본단위인 말마디, 말토막을 결정짓는 끊어읽기방법의 일실시예는 문장의 구문트리를 분석하여, 구문트리의 루트 노드에서 각 노드까지의 거리를 구문 깊이라고 할 때 구문 깊이차에 따라 끊어읽기 레벨을 결정짓는 끊어읽기레벨결정단계; 하나 이상의 레벨 보정 요소들을 고려하여 상기 끊어읽기레벨결정단계에서 결정된 끊어읽기 레벨을 보정하는 끊어읽기레벨보정단계; 및 발화속도를 고려하여 상기 끊어읽기레벨보정단계에서 보정된 끊어읽기 레벨로부터 말마디/말토막을 결정짓는 말마디/말토막결정단계를 포함함을 특징으로 한다.
본 발명에 의한 끊어읽기방법의 일실시예에서, 상기 끊어읽기레벨결정단계에 의해 결정된 끊어읽기 레벨 및 상기 끊어읽기레벨보정단계에 의해 보정된 끊어읽기 레벨은 각각, 휴지부가 없는 말토막 경계, 휴지부가 있는 말토막경계, 말마디 경계 및 문장 경계 끊어읽기를 포함한 4단계 레벨을 사용함을 특징으로 한다.
본 발명에 의한 끊어읽기방법의 일실시예에서, 상기 하나 이상의 레벨 결정 요소들에는 사람이 발성하기 위해 들이마신 공기의 양을 에너지라 할 때 에너지의 잔존여부를 포함하고, 상기 끊어읽기보정단계는 에너지 초기화 소단계, 에너지 사용 소단계 및 에너지 충전 소단계를 구비하며, 에너지가 없을 때 어절을 구성하는 형태소 정보에 따라 끊어읽기 레벨을 보정하는 것을 특징으로 한다.
본 발명에 의한 끊어읽기방법의 일실시예에서, 상기 하나 이상의 레벨 결정 요소들에는 인접어절간의 규칙을 포함하고, 상기 끊어읽기보정단계는 해당 어절을 구성하는 형태소 및 그 범주, 해당 어절과 그 다음 어절을 구성하는 형태소 및 그 범주에 따라 결정되는 끊어읽기 규칙을 담고 있는 인접어절간 규칙 테이블을 이용하는 끊어읽기 레벨을 보정하는 것을 특징으로 한다.
본 발명에 의한 끊어읽기방법의 일실시예에서, 상기 하나 이상의 레벨 결정 요소들에는 언어습관 규칙을 포함하고, 상기 끊어읽기보정단계는 관용구, 의미전달을 명확히 하려는 발화습관, 구문해석 오류에 대한 보완을 포함한 언어습관에 관한 내용을 담고 있는 언어습관 규칙 테이블을 이용하는 끊어읽기 레벨을 보정하는 것을 특징으로 한다.
본 발명에 의한 끊어읽기방법의 일실시예에서, 상기 말마디/말토막결정단계는 상기 끊어읽기레벨보정단계에 의해 보정된 끊어읽기 레벨을 말마디 또는 말토막 경계로 매핑할 때, 발화 속도에 따라 가변적으로 매핑하는 것을 특징으로 한다.
이하에서 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.
일반적인 음성합성 장치는 도 1에 도시된 바와 같이 문서해석부(100), 운율생성부(110) 및 파형합성부(120)를 포함하여 구성된다. 문서해석부(100)는 입력된 문서에 대하여, 구문해석의 단위인 문장 및 형태소해석의 단위인 어절로 분리하는 문장/어절 분리부(101), 해석사전 데이터베이스(103)를 이용하여 어절을 구성하는 형태소 및 형태소 범주를 결정짓는 형태소해석기(102) 및 구문문법 데이터베이스(105)를 이용하여 어절간의 관계를 규명하여 문장의 구문구조를 결정짓는 구문해석부(104)를 구비한다. 운율생성부(110)는 발음사전 데이터베이스(112)를 이용하여 한글, 영어, 숫자, 기호 등의 문자를 음운기호로 변환하는 문자/음운기호 변환부(111), 발화의 기본단위인 말마디, 말토막을 결정짓는 끊어읽기부(113) 및 운율 데이터베이스(115)를 이용하여 음소의 길이, 크기, 기본주파수 궤적 등을 결정짓는 운율요소 예측부(114)를 구비한다. 파형합성부(120)는 음성 데이터베이스(122)를 이용하여 예측된 운율요소에 가장 근접하는 음성 세그먼트를 찾는 합성단위 선택부(121) 및 선택된 합성단위의 운율요소를 예측된 운율요소와 같게 변환하는 음성변경부(123)를 구비한다.
본 발명은 한국어 운율생성장치에 포함된 끊어읽기장치에 관한 것이며, 기 특허출원(한국 특허출원번호 96-51453)의 끊어읽기 방법을 보완한 것이다. 본 발명에 의한 끊어읽기장치의 일실시예는 도 2에 도시된 바와 같이 문장의 구문구조를 결정짓는 구문해석부(201)에 의해 생성된 구문트리에서 구문 깊이차에 따라 끊어읽기 레벨을 결정짓는 끊어읽기 레벨결정부(202), 사람이 발성하기 위해 들이마신 공기의 양을 에너지라고 할 때의 에너지 잔존여부, 인접어절간의 규칙(204), 언어습관 규칙(205), 글머리표 등의 문서형태를 포함하는 레벨보정요소들을 고려한 끊어읽기 레벨보정부(203), 발화속도를 고려하여 끊어읽기 레벨로부터 말마디/말토막을 결정짓는 말마디/말토막 결정부(206)를 포함하여 구성된다. 레벨보정부(203)는 사람이 말을 하기 위해 공기를 들어마시는 것과 같은 에너지를 초기화하는 에너지초기화부; 현재 어절을 발음하는 것과 같은 에너지를 사용하는 에너지사용 부; 및 상기 끊어읽기 레벨이 소정의 레벨 이상인 경우 사람이 공기를 들어마시는 것과 같은 에너지를 충전하는 에너지충전부를 구비하고, 에너지가 없을 때 어절을 구성하는 형태소 정보에 따라 끊어읽기 레벨을 보정할 수 있다.
본 발명에 대한 구체적 동작은 다음과 같다. 본 발명의 입력 형태인 구문트리, 구문 깊이 및 구문 깊이차에 대한 예가 도 3에 나타나 있다. 이 구문트리는 의존문법에 의한 구문해석의 결과이다. 구문 깊이는 루트 노드(어절)의 구문 깊이를 0으로 하고, 각 노드까지 아래로 내려간 길이이다. 인접한 두 어절의 구문 깊이차는 뒤 어절의 구문 깊이에서 앞 어절의 구문 깊이를 뺀 값이다.
본 발명의 일실시예에 의한 끊어 읽기 방법의 동작 원리가 도 4에 나타나 있다. 제 1 단계는 구문 깊이차에 의한 끊어읽기 레벨결정단계이다(401 단계). 끊어읽기 레벨은 표 1과 같이 정의된다. 레벨 0은 휴지부는 없으면서 끊어읽는 느낌만 나는 레벨이다. 레벨 1은 50msec 내외의 짧은 휴지부가 있으면서 끊어읽는 느낌이 나는 레벨이다. 레벨 2는 200~400msec 정도의 휴지부가 있으면서, 숨을 쉬기 위해 실제로 끊어읽는 레벨이다. 레벨 3은 800msec 이상의 긴 휴지부가 있으면서 숨도 쉬고 다음 문장을 준비하기 위해 끊어읽는 레벨이다. 해당 어절의 끊어읽기 레벨은 구문깊이차가 2 이상이면 2로, 2 미만이면 구문깊이차로 결정한다. 마지막 어절의 끊어읽기 레벨은 3으로 결정한다.
다음 단계는 에너지에 의한 끊어읽기 레벨보정 단계이다(402 단계). 에너지에 의한 끊어 읽기 레벨보정의 동작 원리가 도 5에 나타나 있다. 먼저, 사람이 말을 하기 위해 공기를 들이마시는 것에 해당하는 에너지 초기화를 수행한다(501 단계). 다음 단계에서는 현재 어절을 발음하기 위해 필요한 에너지를 사용한다(502 단계).
다음으로 에너지가 남아 있는가, 즉 에너지 값이 0인가를 비교한다(503 단계). 에너지가 남아 있는 경우는 끊어읽기 레벨에 따라 에너지 충전 여부를 검사하는 단계(507 단계)로 넘어가고, 에너지가 0인 경우에는 현재 어절의 마지막 형태소가 관형사형 전성어미인가를 검사한다(504 단계). 관형사형 전성어미가 아니면, 끊어 읽기 레벨을 1씩 증가한다(506 단계). 관형사형 전성어미이면 관형어 끊어읽기 단계(505 단계)를 수행한다. 관형어 끊어읽기 단계(505 단계)에서는 현재 어절과 다음 어절의 구문 깊이차를 살펴보고, 구문 깊이차가 -1이 아니면 끊어읽기 레벨을 2로, 구문 깊이차가 -1이면 끊어읽기 레벨을 1로 보정한다.
다음으로 끊어 읽기 레벨에 따라, 즉 끊어읽기 레벨이 1 또는 2인가를 검사하여(507 단계), 끊어읽기 레벨이 1 또는 2인 경우에는 사람이 공기를 들이마시는 것처럼 에너지를 충전한다(508 단계). 이제, 현재 어절이 마지막 어절인가를 검사한다(509 단계). 마지막 어절이 아니면 에너지 사용 단계(502 단계)로 돌아가고, 마지막 어절이면 에너지에 의한 끊어읽기 보정단계를 끝마친다.
도 4의 에너지에 의한 끊어읽기 레벨보정 단계(402 단계)의 다음 단계는 인접어절 규칙에 의한 끊어읽기 레벨보정 단계이다(403 단계). 이 단계에서는 인접어절 규칙 테이블(404)을 참조하여, 앞뒤 두 어절이 인접어절 규칙 테이블(404)의 조건부와 일치하면 해당 어절의 끊어읽기 레벨을 테이블에 있는 레벨로 보정한다.
인접어절 규칙 테이블(404)은 해당 어절을 구성하는 형태소 및 그 범주, 해당 어절과 그 다음 어절을 구성하는 형태소 및 그 범주에 따라 결정되는 끊어읽기 규칙을 담고 있는 테이블이다. 표 2에 인접어절 규칙 테이블(404)의 작성 예가 있다. 조건부에서 형태소 범주 앞에 오는 “+”는 그 형태소 앞에 다른 형태소 열이 올 수 있다는 의미이다. 또한, 형태소 범주 뒤에 오는 “+”는 그 형태소 뒤에 다른 형태소 열이 올 수 있다는 의미이다. 현재 레벨에서 “-”는 어떠한 레벨이라도 상관하지 않고 보정레벨로 보정된다는 의미이다.
다음 단계는 언어습관에 의한 끊어읽기 레벨보정 단계이다(405 단계). 이 단계에서는 언어습관 규칙 테이블(406)을 참조하여, 앞뒤 두 어절이 언어습관 규칙 테이블(406)의 조건부와 일치하면 해당 어절의 끊어읽기 레벨을 테이블에 있는 레벨로 보정한다. 언어습관 규칙 테이블(406)은 관용구, 의미전달을 명확히 하려는 발화습관, 구문해석 오류에 대한 보완 등의 내용을 담고 있는 규칙 테이블이다. 표 3에 언어습관 규칙 테이블(406)의 작성 예가 있다. 보정 레벨이 -1인 경우는 주로 관용구이며, 보정 레벨이 1인 경우는 주로 의미전달을 명확히 하려는 발화습관이며, 보정 레벨이 2인 경우는 대체적으로 구문해석 오류에 대한 보완이 된다. 표 3의 첫번째 규칙 “-를”에 있어서, “-”은 “를” 앞에 어떠한 단어가 나타나도, 이 규칙을 적용받는다는 의미이다.
다음 단계는 문서형태에 의한 끊어읽기 레벨보정 단계이다(407 단계). 이 단계에서는 문장번호 등의 글머리표, 단락의 전환을 알리는 서수사 등의 정보를 이용하여 끊어읽기 레벨을 보정한다. 글머리표, 서수사 다음의 끊어읽기 레벨이 현재 어떻게 설정되어 있든지 레벨 2로 보정한다. 글머리표는 주로 제목이나 소제목에 많이 나타난다. 아래에 글머리표와 단락의 전환을 알리는 서수사에 대한 예가 있다. PL(pause level)은 끊어읽기 레벨을 의미한다.
〈예 3〉
(1) 언어에 대하여
PL=2
〈예 4〉
둘째, 언어에는 일정한 법칙이 있다.
PL=2
다음 단계는 말마디/말토막 결정 단계이다(408 단계). 먼저, 말마디와 말토막의 정의를 이해하기 위해 아래의 예문을 보자.
〈예 5〉
철수는 / 학교에서 / 공부했고, // 영수는 / 축구했다. //
위의 문장을 천천히 발화할 때, 슬래쉬가 있는 부분에서 끊어읽기를 한다. 바로 이 끊어읽기의 단위를 말토막(rhythm unit)이라 한다. 말토막 경계에는 휴지(pause)가 부가되기도 하고, 경계 앞 음절을 장음화시키기도 한다. 또한, 위 문장을 발화할 때, 두개의 슬래쉬가 있는 곳에서 숨쉬기를 한다. 바로 이 숨쉬기 단위를 말마디(intonation group) 또는 발화구 또는 운율구(prosodic phrase)라 한다. 말마디 경계에서 나타나는 휴지는 말토막 경계에서 나타나는 휴지보다 더 길게 실현된다.
말토막과 말마디 경계는 발화 속도에 따라 나타나는 정도가 다르다. 본 발명의 일실시예에서는 표 4와 같이 최종적으로 결정된 끊어읽기 레벨을 발화의 속도에 따라 말토막 또는 말마디로 결정하는 테이블을 사용한다. 가장 느린 발화의 경우 〈예 5'〉과 같이 모든 어절이 말마디가 된다. 반면, 매우 빠른 발화의 경우 〈예 5"〉과 같이 말토막은 없어지고 말마디만 남는 것을 알 수 있다.
〈예 5'〉
철수는 // 학교에서 // 공부했고, // 영수는 // 축구했다. //(가장 느린 발화)
〈예 5"〉
철수는 학교에서 공부했고, // 영수는 축구했다. //(매우 빠른 발화)
본 발명에 의하면, 음성합성에서 끊어읽기를 수행함에 있어, 문장의 구문구조, 발화자의 숨, 인접어절간의 규칙, 언어습관, 문서형태, 발화속도 등을 종합적으로 고려함으로써, 합성음의 자연성과 명료성이 증대된다. 또한, 끊어읽기 방법을 레벨결정 단계와 레벨보정 단계의 2 단계로 구성함으로써, 형태소해석과 구문해석의 오류가 있어도 어느정도는 견고성(robust)을 지니게 된다.

Claims (12)

  1. 음성합성장치에 포함된 운율생성장치에 구비되어 발화의 기본단위인 말마디, 말토막을 결정짓는 끊어읽기장치에 있어서,
    문장의 구문트리를 입력으로 하여, 구문트리의 루트 노드에서 각 노드까지의 거리를 구문 깊이라고 할 때 구문 깊이차에 따라 끊어읽기 레벨을 결정짓는 끊어읽기레벨결정부;
    하나 이상의 레벨 보정 요소들을 고려하여 상기 끊어읽기레벨결정부에 의해 결정된 끊어읽기 레벨을 보정하는 끊어읽기레벨보정부; 및
    발화속도를 고려하여 상기 끊어읽기레벨보정부에 의해 보정된 끊어읽기 레벨로부터 말마디/말토막을 결정짓는 말마디/말토막결정부를 포함함을 특징으로 하는 음성합성을 위한 끊어읽기장치.
  2. 제1항에서, 상기 끊어읽기레벨결정부에 의해 결정된 끊어읽기 레벨 및 상기 끊어읽기레벨보정부에 의해 보정된 끊어읽기 레벨은 각각,
    휴지부가 없는 말토막 경계, 휴지부가 있는 말토막경계, 말마디 경계 및 문장 경계 끊어읽기를 포함한 4단계 레벨을 사용함을 특징으로 하는 음성합성을 위한 끊어읽기장치.
  3. 제1항에서, 상기 하나 이상의 레벨 결정 요소들에는
    사람이 발성하기 위해 들이마신 공기의 양을 에너지라 할 때 에너지의 잔존여부를 포함하고,
    상기 끊어읽기보정부는
    사람이 말을 하기 위해 공기를 들어마시는 것과 같은 에너지를 초기화하는 에너지초기화부; 현재 어절을 발음하는 것과 같은 에너지를 사용하는 에너지사용 부; 및 상기 끊어읽기 레벨이 소정의 레벨 이상인 경우 사람이 공기를 들어마시는 것과 같은 에너지를 충전하는 에너지충전부를 구비하며, 에너지가 없을 때 어절을 구성하는 형태소 정보에 따라 끊어읽기 레벨을 보정하는 것을 특징으로 하는 음성합성을 위한 끊어읽기장치.
  4. 제1항에서, 상기 하나 이상의 레벨 결정 요소들에는
    인접어절간의 규칙을 포함하고,
    상기 끊어읽기보정부는
    해당 어절을 구성하는 형태소 및 그 범주, 해당 어절과 그 다음 어절을 구성하는 형태소 및 그 범주에 따라 결정되는 끊어읽기 규칙을 담고 있는 인접어절간 규칙 테이블을 이용하는 끊어읽기 레벨을 보정하는 것을 특징으로 하는 음성합성을 위한 끊어읽기장치.
  5. 제1항에서, 상기 하나 이상의 레벨 결정 요소들에는
    언어습관 규칙을 포함하고,
    상기 끊어읽기보정부는
    관용구, 의미전달을 명확히 하려는 발화습관, 구문해석 오류에 대한 보완을 포함한 언어습관에 관한 내용을 담고 있는 언어습관 규칙 테이블을 이용하는 끊어읽기 레벨을 보정하는 것을 특징으로 하는 음성합성을 위한 끊어읽기장치.
  6. 제1항에서, 상기 말마디/말토막결정부는
    상기 끊어읽기레벨보정부에 의해 보정된 끊어읽기 레벨을 말마디 또는 말토막 경계로 매핑할 때, 발화 속도에 따라 가변적으로 매핑하는 것을 특징으로 하는 음성합성을 위한 끊어읽기장치.
  7. 음성합성장치에 포함된 운율생성장치에서 발화의 기본단위인 말마디, 말토막을 결정짓는 끊어읽기방법에 있어서,
    문장의 구문트리를 분석하여, 구문트리의 루트 노드에서 각 노드까지의 거리를 구문 깊이라고 할 때 구문 깊이차에 따라 끊어읽기 레벨을 결정짓는 끊어읽기레벨결정단계;
    하나 이상의 레벨 보정 요소들을 고려하여 상기 끊어읽기레벨결정단계에서 결정된 끊어읽기 레벨을 보정하는 끊어읽기레벨보정단계; 및
    발화속도를 고려하여 상기 끊어읽기레벨보정단계에서 보정된 끊어읽기 레벨로부터 말마디/말토막을 결정짓는 말마디/말토막결정단계를 포함함을 특징으로 하는 음성합성을 위한 끊어읽기방법.
  8. 제7항에서, 상기 끊어읽기레벨결정단계에 의해 결정된 끊어읽기 레벨 및 상기 끊어읽기레벨보정단계에 의해 보정된 끊어읽기 레벨은 각각,
    휴지부가 없는 말토막 경계, 휴지부가 있는 말토막경계, 말마디 경계 및 문장 경계 끊어읽기를 포함한 4단계 레벨을 사용함을 특징으로 하는 음성합성을 위한 끊어읽기방법.
  9. 제7항에서, 상기 하나 이상의 레벨 결정 요소들에는
    사람이 발성하기 위해 들이마신 공기의 양을 에너지라 할 때 에너지의 잔존여부를 포함하고,
    상기 끊어읽기보정단계는
    사람이 말을 하기 위해 공기를 들어마시는 것과 같은 에너지를 초기화하는 에너지초기화 소단계;
    현재 어절을 발음하는 것과 같은 에너지를 사용하는 에너지사용 소단계; 및
    상기 끊어읽기 레벨이 소정의 레벨 이상인 경우 사람이 공기를 들어마시는 것과 같은 에너지를 충전하는 에너지충전 소단계를 구비하며, 에너지가 없을 때 어절을 구성하는 형태소 정보에 따라 끊어읽기 레벨을 보정하는 것을 특징으로 하는 음성합성을 위한 끊어읽기방법.
  10. 제7항에서, 상기 하나 이상의 레벨 결정 요소들에는
    인접어절간의 규칙을 포함하고,
    상기 끊어읽기보정단계는
    해당 어절을 구성하는 형태소 및 그 범주, 해당 어절과 그 다음 어절을 구성하는 형태소 및 그 범주에 따라 결정되는 끊어읽기 규칙을 담고 있는 인접어절간 규칙 테이블을 이용하는 끊어읽기 레벨을 보정하는 것을 특징으로 하는 음성합성을 위한 끊어읽기방법.
  11. 제7항에서, 상기 하나 이상의 레벨 결정 요소들에는
    언어습관 규칙을 포함하고,
    상기 끊어읽기보정단계는
    관용구, 의미전달을 명확히 하려는 발화습관, 구문해석 오류에 대한 보완을 포함한 언어습관에 관한 내용을 담고 있는 언어습관 규칙 테이블을 이용하는 끊어읽기 레벨을 보정하는 것을 특징으로 하는 음성합성을 위한 끊어읽기방법.
  12. 제7항에서, 상기 말마디/말토막결정단계는
    상기 끊어읽기레벨보정단계에 의해 보정된 끊어읽기 레벨을 말마디 또는 말토막 경계로 매핑할 때, 발화 속도에 따라 가변적으로 매핑하는 것을 특징으로 하는 음성합성을 위한 끊어읽기방법.
KR10-1999-0004426A 1999-02-09 1999-02-09 음성합성을 위한 끊어읽기 방법 및 그 장치 KR100499116B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-1999-0004426A KR100499116B1 (ko) 1999-02-09 1999-02-09 음성합성을 위한 끊어읽기 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-1999-0004426A KR100499116B1 (ko) 1999-02-09 1999-02-09 음성합성을 위한 끊어읽기 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20000055673A true KR20000055673A (ko) 2000-09-15
KR100499116B1 KR100499116B1 (ko) 2005-07-04

Family

ID=19573842

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-1999-0004426A KR100499116B1 (ko) 1999-02-09 1999-02-09 음성합성을 위한 끊어읽기 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR100499116B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100650393B1 (ko) * 2004-06-26 2006-11-27 부산대학교 산학협력단 한국어 발음 기호열 생성 시스템 및 그 방법 및 상기방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을수 있는 기록매체
KR100720175B1 (ko) * 2005-11-09 2007-05-18 한국전자통신연구원 음성합성을 위한 끊어읽기 장치 및 방법
WO2008038994A1 (en) * 2006-09-29 2008-04-03 Electronics And Telecommunications Research Institute Method for converting pronunciation using boundary pause intensity and text-to-speech synthesis system based on the same
KR100835374B1 (ko) * 2006-11-20 2008-06-04 한국전자통신연구원 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101261754B1 (ko) 2011-07-27 2013-05-07 포항공과대학교 산학협력단 끊어읽기 훈련용 말뭉치 생성 장치 및 방법
US11227578B2 (en) 2019-05-15 2022-01-18 Lg Electronics Inc. Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100650393B1 (ko) * 2004-06-26 2006-11-27 부산대학교 산학협력단 한국어 발음 기호열 생성 시스템 및 그 방법 및 상기방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을수 있는 기록매체
KR100720175B1 (ko) * 2005-11-09 2007-05-18 한국전자통신연구원 음성합성을 위한 끊어읽기 장치 및 방법
WO2008038994A1 (en) * 2006-09-29 2008-04-03 Electronics And Telecommunications Research Institute Method for converting pronunciation using boundary pause intensity and text-to-speech synthesis system based on the same
KR100835374B1 (ko) * 2006-11-20 2008-06-04 한국전자통신연구원 정적 특성과 동적 특성이 반영된 끊어읽기 예측 방법 및이를 기반으로 하는 음성합성 방법 및 시스템

Also Published As

Publication number Publication date
KR100499116B1 (ko) 2005-07-04

Similar Documents

Publication Publication Date Title
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
Hallahan DECtalk software: Text-to-speech technology and implementation
JP2006048056A (ja) 混合言語テキスト音声合成
US20070179779A1 (en) Language information translating device and method
JP4811557B2 (ja) 音声再生装置及び発話支援装置
KR100499116B1 (ko) 음성합성을 위한 끊어읽기 방법 및 그 장치
Batista et al. Extending automatic transcripts in a unified data representation towards a prosodic-based metadata annotation and evaluation
Allen Reading machines for the blind: The technical problems and the methods adopted for their solution
KR100720175B1 (ko) 음성합성을 위한 끊어읽기 장치 및 방법
Pellegrini et al. Automatic word decompounding for asr in a morphologically rich language: Application to amharic
Kohler Linguistic and paralinguistic functions of non-modal voice in connected speech
Jongtaveesataporn et al. Lexical units for Thai LVCSR
Janyoi et al. An Isarn dialect HMM-based text-to-speech system
JP2023005583A (ja) 信号処理装置およびプログラム
Bailly et al. Advocating for text input in multi-speaker text-to-speech systems
Meng et al. CU VOCAL: corpus-based syllable concatenation for Chinese speech synthesis across domains and dialects.
JP2017215555A (ja) 音声翻訳装置及び音声翻訳システム
JPH05134691A (ja) 音声合成方法および装置
JP3589972B2 (ja) 音声合成装置
Akinwonmi Development of a prosodic read speech syllabic corpus of the Yoruba language
JP2938466B2 (ja) テキスト音声合成システム
JP4056647B2 (ja) 波形接続型音声合成装置および方法
KR100387232B1 (ko) 한국어운율생성장치및방법
JPH11296193A (ja) 音声合成装置
Polyàkova Grapheme-to-phoneme conversion in the era of globalization

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130530

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20140529

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20150528

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20160530

Year of fee payment: 12

LAPS Lapse due to unpaid annual fee