KR100590553B1

KR100590553B1 - 대화체 운율구조 생성방법 및 장치와 이를 적용한음성합성시스템

Info

Publication number: KR100590553B1
Application number: KR1020040036389A
Authority: KR
Inventors: 표경란; 이재원
Original assignee: 삼성전자주식회사
Priority date: 2004-05-21
Filing date: 2004-05-21
Publication date: 2006-06-19
Also published as: KR20050111182A; US20050261905A1; US8234118B2

Abstract

대화체 운율구조 생성방법 및 장치와 이를 적용한 음성합성방법 및 시스템이 개시된다. 대화체 운율구조 생성방법은 (a) 사용자 발화문을 기초로 하여 시스템 발화스타일을 결정하는 단계; (b) 시스템 발화스타일이 대화체인 경우 사용자와 시스템간의 담화정보를 반영하여 대화체 운율정보를 생성하는 단계; 및 (c) 상기 생성된 대화체 운율정보에 기초하여 시스템 발화문을 합성하는 단계로 이루어진다.

Description

대화체 운율구조 생성방법 및 장치와 이를 적용한 음성합성시스템{Method and apparatus for generating dialog prosody structure and speech synthesis method and system employing the same}

도 1은 본 발명의 일실시예에 따른 대화체 운율구조 생성장치의 구성을 나타낸 블럭도,

도 2는 도 1에 있어서 시스템 발화스타일 결정부의 동작을 설명하는 흐름도,

도 3은 도 1에 있어서 담화정보 생성부의 세부적인 구성을 나타내는 블럭도,

도 4는 도 3에 있어서 강조부분 설정부의 동작을 설명하는 흐름도,

도 5는 도 1에 있어서 운율정보 생성부의 세부적인 구성을 나타내는 블럭도,

도 6은 도 5에 있어서 발화경계레벨 설정부의 동작을 설명하는 흐름도,

도 7은 도 1에 있어서 반복정보 적용부의 동작을 설명하는 흐름도,

도 8은 도 1에 있어서 억양패턴 생성부의 세부적인 구성을 나타내는 블럭도,및

도 9은 본 발명의 일실시예에 따른 음성합성시스템의 구성을 나타낸 블럭도이다.

*도면의 주요부분에 대한 부호의 설명

110,910 ... 대화정보 데이터베이스 120 ... 시스템 발화스타일 결정부

130 ... 대화체 운율 생성부 131 ... 담화정보 생성부

133 ... 운율정보 생성부 135 ... 반복정보 적용부

137 ... 억양패턴 생성부 140 ... 시스템 발화문 생성부

150 ... 합성부 920 ... 언어처리부

930 ... 운율생성부 940 ... 합성 데이터베이스

950 ... 합성음 생성부

본 발명은 음성합성에 관한 것으로서, 특히 담화분석에 의한 사용자 발화문과 시스템 발화문간의 정보를 이용하여 대화의 초점이나 화자의 의도를 표현할 수 있는 대화체 운율구조를 생성하기 위한 방법 및 장치와, 이를 적용한 음성합성방법 및 시스템에 관한 것이다.

음성합성기는 문자열 즉, 문장을 음성으로 바꾸어 주는 문자-음성(TTS: Text-to-Speech) 변환장치로서, PC(Personal Computer), PDA(Personal Digital Assistant), 모바일폰 등의 다양한 플랫폼에서 사용된다. 특히 음성합성기는 전자우편, 문자 메시지 등을 읽어주는 UMS(Unified Messaging System)와 같은 통신분야와, 웹 문서, DB 검색결과, 시스템 메시지 등을 음성으로 출력하는 음성 브라우징과 같은 정보검색분야 등 다양한 분야에 응용되고 있다. 음성합성기는 크게 언어처리, 운율생성, 합성음생성의 3 단계로 이루어지는데, 이중 운율생성은 일반적으 로 입력 문장에 대한 발화구(utterance phase), 및 휴지기간, 음소길이(segmental duration), 음소크기(segmantal amplitude) 및 피치패턴 등에 관한 정보를 생성하는 것을 의미한다. 여기서, 운율이란 억양(intonation), 리듬, 강세(accent) 등을 포함하며, 음소의 고유한 특성은 변화시키지 않으면서 의미, 강조, 감정 등을 전달하는 음성의 특성이다. 운율이 없거나 단순한 운율을 갖는 음성은 의미전달이 잘 되지 않을 뿐 아니라 단조롭고 지루하여, 곧 듣기 싫은 음성이 되어버린다.

보다 자연스러운 운율을 생성하기 위하여 현재까지 시도된 방법으로는 미국특허공개번호 20030163314호 및 20030078780호, 일본특허공개번호 1995-199981호 및 2002-311982호에 개시된 방법을 들 수 있다. 미국특허공개번호 20030163314호에서는 의미 정보(semantic information)에 따라서 문서의 주제를 결정하고, 주제에 대응하여 미리 정의되어 있는 발화 스타일(speaking style) 그룹 중에서 하나의 발화 스타일을 선택하여 운율을 반영한다. 미국특허공개번호 20030078780호에서는 대화체에서 나타나는 운율 특징 중에서 특정한 부분에 대하여 반복적으로 나타나는 운율의 특성을 표현하거나 말투를 표현한다. 일본특허공개번호 1995-199981호에서는 발성속도나 강조 등을 고려하여 복합어의 악센트구를 분할하거나 통합할지 여부를 선택하여 합성음의 자연성과 명료도를 높인다. 일본특허공개번호 2002-0311982호에서는 어절 단위가 아니라 악센트구 단위로 구문해석 정보를 구하여 운율정보를 설정한다.

그러나 상기와 같은 방법들에 따르면, 구문 분석 또는 의미 분석에 의존한 문장내 정보만을 이용하여 운율구조를 설정함으로써, 동일한 구조의 문장은 항상 동일한 형태의 억양 또는 강세로 이루어지는 운율구조를 가지게 된다. 따라서, 운율구조에 의해 대화의 초점이나 화자의 의도를 표현하기 어렵기 때문에 자연스러운 대화체 합성음을 생성하는데 한계가 따른다.

본 발명이 이루고자 하는 기술적 과제는 사용자와 시스템 간의 담화정보가 부가된 운율을 생성하기 위한 대화체 운율구조 생성방법 및 장치를 제공하는데 있다.

본 발명이 이루고자 하는 다른 기술적 과제는 사용자와 시스템간의 담화정보가 부가된 운율을 부가하여 합성음을 생성하기 위한 음성합성방법 및 시스템을 제공하는데 있다.

상기 기술적 과제를 달성하기 위하여 본 발명에 따른 음성합성기에 있어서 대화체 운율구조 생성방법은 사용자 발화문에 대응하는 시스템 발화문의 의미단위에 대하여, 상기 사용자 발화문의 화행에 기초하여 담화정보를 생성하는 단계; 상기 각 의미단위의 담화정보에 대하여, 발화경계레벨을 포함하여 운율정보를 생성하는 단계; 및 상기 운율정보를 기초로 하여 시스템 발화문의 의미단위에 대한 억양패턴을 생성하는 단계를 포함한다.

또한, 상기 대화체 운율구조 생성방법은 현재 시스템 발화문과 이전 시스템 발화문을 의미구조가 동일한 경우 반복정보에 대한 강조태그를 조정하는 단계를 더 포함하는 것이 바람직하다.

상기 기술적 과제를 달성하기 위하여 본 발명에 따른 음성합성기에 있어서 대화체 운율구조 생성장치는 사용자와 시스템 간의 전체적인 대화를 관리하고, 화행 및 의도에 기반하여 대화가 진행되는데 필요한 정보와 대화이력을 저장하는 대화정보 데이터베이스; 상기 대화정보 데이터베이스를 참조하여 사용자 발화문에 대응하는 시스템 발화문의 의미단위를 생성하고, 상기 사용자 발화문의 화행에 기초하여 각 의미단위별로 담화정보를 생성하는 담화정보 생성부; 상기 각 의미단위의 담화정보에 대하여, 발화경계레벨을 포함하여 운율정보를 생성하는 운율정보 생성부; 및 상기 운율정보를 기초로 하여 시스템 발화문의 각 의미단위에 대한 억양패턴을 생성하는 억양패턴 생성부를 포함한다.

상기 대화체 운율구조 생성장치는 상기 대화정보 데이터베이스를 참조하여, 현재 시스템 발화문과 이전 시스템 발화문을 의미구조가 동일한 경우 반복정보에 대한 강조태그를 조정하는 반복정보 적용부를 더 포함하는 것이 바람직하다.

상기 다른 기술적 과제를 달성하기 위하여 본 발명에 따른 음성합성방법은 사용자 발화문을 기초로 하여 시스템 발화스타일을 결정하는 단계; 시스템 발화스타일이 대화체인 경우 사용자와 시스템간의 담화정보를 반영하여 대화체 운율정보를 생성하는 단계; 및 상기 생성된 대화체 운율정보에 기초하여 시스템 발화문을 합성하는 단계를 포함한다.

상기 방법은 상기 시스템 발화스타일이 낭독체인 경우 기설정되어 있는 규칙에 따라서 생성되는 운율정보에 기초하여 시스템 발화문을 합성하는 단계를 더 포함하는 것이 바람직하다.

상기 다른 기술적 과제를 달성하기 위하여 본 발명에 따른 음성합성시스템은 사용자와 시스템 간의 전체적인 대화를 관리하고, 화행 및 의도에 기반하여 대화가 진행되는데 필요한 정보와 대화이력을 저장하는 대화정보 데이터베이스; 상기 대화정보 데이터베이스를 참조하여, 사용자 발화문을 기초로 하여 시스템 발화스타일을 결정하는 시스템 발화스타일 결정부; 상기 대화정보 데이터베이스를 참조하여, 시스템 발화스타일이 대화체인 경우 사용자와 시스템간의 담화정보를 반영하여 대화체 운율정보를 생성하는 대화체 운율생성부; 및 상기 생성된 대화체 운율정보에 기초하여 시스템 발화문을 합성하는 합성부를 포함한다.

상기 대화체 운율구조 생성방법 및 음성합성방법은 바람직하게는 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체로 구현할 수 있다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세하게 설명하기로 한다.

도 1은 본 발명의 일실시예에 따른 운율구조 생성장치의 구성을 나타낸 블럭도로서, 대화정보 데이터베이스(110), 시스템 발화스타일 결정부(120), 대화체 운율생성부(130), 시스템 발화문 생성부(140) 및 합성부(150)를 포함하여 이루어진다. 여기서, 대화체 운율생성부(130)는 담화정보 생성부(131), 운율정보 생성부(133), 반복정보 적용부(135) 및 억양패턴 생성부(137)를 포함하여 이루어진다.

도 1을 참조하면, 대화정보 데이터베이스(110)는 사용자와 시스템 간의 전체 적인 대화를 관리하기 위한 것으로서, 화행 및 의도에 기반하여 대화가 진행될 수 있도록 한다. 예를 들면, 대화정보 데이터베이스(110)는 입력가능한 사용자 발화문에 대응하는 시스템 발화문을 화행과 의도에 따라서 표현하여 데이터베이스화하여 저장하는 한편, 지금까지 진행된 사용자 발화문과 시스템 대화문의 대화 이력을 저장한다. 또한, 동일한 화행이나 의도라 하더라도 시스템 발화문이 속하는 도메인에 따라서 시스템 발화스타일이 달라질 수 있으므로 시스템 발화스타일을 보다 정확하게 판단하기 위하여 도메인 정보를 더 포함할 수 있다. 데이터베이스에 포함되는 내용은 이에 한정되지 않으며, 요청되는 정확도나 처리속도에 따라서 다양한 정보를 포함할 수 있다.

시스템 발화스타일 결정부(120)는 대화정보 데이터베이스(110)를 참조하여 음성인식과정을 통해 얻어진 사용자 발화문을 분석하여 화행 및 의도를 결정하고, 결정된 사용자 발화문의 화행 및 의도에 따라서 시스템 발화스타일을 낭독체와 대화체 중 하나로 결정한다. 이때, 사용자 발화문은 인식문자열과 신뢰도를 포함한다. 시스템 발화스타일 결정부(120)는 시스템 발화스타일을 결정하는 기준을 화행 및 의도에 대응하여 미리 통계적 혹은 실험적으로 결정하여 설정해 둔다. 시스템 발화스타일 결정부(120)에 의해 사용자 발화문에 대한 시스템 발화스타일이 낭독체로 결정된 경우 시스템 발화스타일 결정부(120)를 통해 사용자 발화문은 시스템 발화문 생성부(140)로 제공되고, 시스템 발화스타일이 대화체로 결정된 경우 사용자 발화문은 화행정보와 함께 담화정보 생성부(130)로 제공된다.

대화체 운율생성부(130)에 있어서, 담화정보 생성부(131)는 시스템 발화스타 일 결정부(120)로부터 제공되는 사용자 발화문을 입력으로 하고, 대화정보 데이터베이스(110)를 참조하여 대응하는 시스템 발화문의 화행 및 포함된 의미단위가 신정보 혹은 구정보인지 여부에 따라서 서로 다른 강조부분을 설정한 담화정보 구조를 생성한다.

운율정보 생성부(140)는 담화정보 생성부(130)로부터 제공되는 담화정보 구조를 포함하여 시스템 발화문의 의미구조, 구문구조, 및 형태소 구조를 입력으로 하고, 의미단위의 종류, 어절간 긴밀도 및 한번에 발화가능한 음절수 등을 기준으로 하여 발화경계레벨, 액센트, 발화지속시간 등을 포함하는 강조태그가 설정된 운율정보를 생성한다.

반복정보 적용부(135)는 대화정보 데이터베이스(110)에 저장되는 대화 이력을 참조하여, 현재 시스템 발화문이 이전 시스템 발화문과 동일한 의미인지 여부에 따라서, 강조태그에 확장된 피치범위를 더 포함시키거나, 기설정된 액센트 혹은 발화지속길이를 조정하고, 최종적으로 생성된 운율정보를 억양패턴 생성부(137)로 제공한다. 여기서, 반복정보 적용부(135)는 사용자 혹은 시스템의 선택에 따라서 구비될 수 있는 구성요소이다.

억양패턴 생성부(137)는 반복정보 적용부(130)로부터 제공되는 운율정보를 포함하여 시스템 발화문의 의미구조를 입력으로 하고, 각 의미단위별로 복수개의 특징을 추출하여 의미단위별 특징과 그 인덱스를 내용으로 하여 미리 내부에 구비된 억양패턴 데이터베이스의 각 의미단위별 특징과 비교하고, 그 특징이 가장 유사한 의미단위를 탐색하여 그 의미단위의 인덱스의 설정에 따라서 억양패턴을 생성한 다. 억양패턴 생성부(137)는 이미 존재하는 다양한 방법에 의해 구현가능하다.

시스템 발화문 생성부(140)는 시스템 발화스타일 결정부(120)에서 시스템 발화스타일을 낭독체로 결정한 경우, 대화정보 데이터베이스(110)를 참조하여 사용자 발화문에 대응하는 시스템 발화문을 생성한다.

합성부(150)는 시스템 발화문 생성부(140)로부터 제공되는 시스템 발화문이 입력되는 경우에는 합성부(180)에 내장되어 있는 통상적인 운율구조 생성방법에 따라서 운율을 생성하고, 생성된 운율을 반영하여 합성음을 생성한다. 한편, 합성부(150)는 억양패턴 생성부(137)로부터 제공되는 시스템 발화문이 입력되는 경우에는 억양패턴 생성부(137)에서 최종적으로 생성된 운율구조를 반영하여 합성음을 생성한다.

도 2는 도 1에 있어서 시스템 발화스타일 결정부(120)의 동작을 설명하는 흐름도이다.

도 2를 참조하면, 210 단계에서는 음식인식과정을 통해 얻어진 사용자 발화문을 입력한다. 220 단계에서는 사용자 발화문의 형태소구조, 의미구조 및 구문구조를 분석하고, 대화정보 데이터베이스(110)를 참조하여 도메인, 화행 및 의도를 결정한다. 여기서 화행의 종류로는 오프닝(OPENING), 정보제공(INFORM), 확인요청(ASK_CONFIRM), 응답(RESPONSE), 참조정보 요청(ASK_REF), 존재유무 요청(ASK_IF), 행위요청(REQ_ACT) 등 다양하다. 한편, 의도의 종류로는 말하기와 읽기가 있다.

230 단계에서는 220 단계에서 결정된 사용자 발화문의 도메인, 화행 및 의도 에 따라서 시스템 발화스타일을 낭독체와 대화체 중 하나로 결정한다. 예를 들어, 사용자 발화문의 화행이 참조정보 요청(ASK_REF)이고 사용자 발화문의 의도가 "읽기"이고, 도메인이 "뉴스"에 해당하는 경우 시스템 발화스타일은 낭독체로 결정한다. 한편, 사용자 발화문의 화행이 참조정보 요청(ASK_REF)이고 사용자 발화문의 의도가 "말하기"이고 도메인이 "날씨"에 해당하는 경우 시스템 발화스타일은 대화체로 결정한다.

도 3은 도 1에 있어서 담화정보 생성부(130)의 세부적인 구성을 나타내는 블럭도로서, 의미단위 생성부(310), 강조부분 설정부(320) 및 담화정보 구조 생성부(330)로 이루어진다.

도 3을 참조하면, 의미단위 생성부(310)에서는 대화정보 데이터베이스(110)를 참조하여 사용자 발화문에 대응하는 시스템 발화문의 의미구조를 분석하고, 분석결과에 따라서 의미단위를 생성한다.

강조부분 설정부(320)에서는 분석된 의미구조에 따라서 구문구조를 분석하고, 사용자 발화문의 화행에 기초하여 의미단위들 중 강조하고자 하는 의미단위를 선택하여 제1 강조태그를 부가한다. 여기서, 사용자 발화문의 화행정보는 시스템 발화스타일 결정부(120)에서 생성된다. 예를 들어, 화행이 참조정보 요청(ASK_REF)에 해당하는 경우 의미단위 생성부(310)에서 생성된 각 의미단위 중 사용자 발화문에서 주어지지 않은 신정보에 해당하는 부분을 강조부분으로 설정한다.

담화정보 생성부(330)에서는 분석된 구문구조에 포함된 각 의미단위의 형태 소구조를 분석하고, 제1 강조태그가 부가된 의미단위를 나머지 의미단위와 결합하여 담화정보 구조를 생성한다.

도 3에 도시된 담화정보 생성부(130)의 동작을 "아빠는 주말에 어디 가시니?"라는 참조정보 요청(ASK_REF)에 해당하는 화행을 갖는 사용자 발화문을 예로 들어 좀 더 세부적으로 설명하기로 한다.

"아빠는 주말에 어디 가시니?"인 사용자 발화문의 의미구조를 분석하면 "가다"라는 용언에 "아빠"라는 주체, "주말"이라는 시간, "어디"는 장소에 해당하는 의미영역을 갖는 의미구조가 된다. 이와 같은 사용자 발화문의 의미구조에 대하여 대화정보 데이터베이스(110)를 참조하면, 시스템 발화문은 "가다"라는 용언에 주체에 해당하는 "아빠", 시간에 해당하는 "주말", 장소에 해당하는 "농장"의 의미영역을 갖는 의미구조를 생성할 수 있다.

다음, 의미구조에 대하여 구문구조를 생성한다. 상기 예에서, 시스템 발화문의 기본적인 구문구조는 상위 노드로서 어간 "가", 하위 노드로서 "아빠", "주말", "농장"으로 이루어진다. 여기서, 상위 노드 "가", 하위 노드 "아빠", "주말"은 사용자 발화문에 포함되어 있는 구정보로 분류되고, "농장"은 새로 도입되는 신정보로 분류된다. 사용자 발화문의 화행이 참조정보 요청(ASK_REF)에 해당하므로 신정보인 검색정보 "농장"을 강조부분으로 설정한다.

다음, 구문구조에 대하여 형태소정보를 생성한다. 상기 예에서 "아빠는 주말에 N[농장]에N 가세요"가 되며, N은 제1 강조태그로서, 신정보를 의미한다. 이때, 신정보가 갖는 최대 의미성분까지 확장하여 초점범위를 설정하여 신정보는 "농 장에"까지로 확장된다.

도 4는 도 3에 있어서, 강조부분 설정부(320)의 동작을 설명하는 흐름도이다.

도 4를 참조하면, 410 단계에서는 시스템 발화스타일 결정부(120)로부터 사용자 발화문을 입력하고, 사용자 발화문에 포함되어 있는 인식문자열의 신뢰도를 소정의 문턱치와 비교하여, 비교결과에 따라서 사용자의 재발화가 필요한지 여부를 판단한다. 즉, 신뢰도가 문턱치보다 작은 경우 420 단계에서는 사용자가 재발화를 행하도록 미리 생성되어 있는 소정의 시스템 발화문에서 의문사를 강조부분으로 설정한다. 410 단계에서의 판단결과, 신뢰도가 문턱치보다 큰 경우 430 단계에서는 사용자 발화문의 의미구조를 분석하고, 분석결과에 대응하여 대화정보 데이터베이스(110)를 참조하여 시스템 발화문의 의미구조를 생성한다.

440 단계에서는 사용자 발화문의 화행에 따라서 시스템 발화문에서 서로 다른 담화정보 즉, 강조부분을 설정하기 위하여 사용자 발화문의 화행을 분류한다. 화행 분류의 예로는 참조정보 요청(ASK_REF), 존재유무 요청(ASK_IF), 행위요청(REQ_ACT)를 들었으나, 반드시 이에 한정되지는 않는다. 화행 분류의 예를 상기한 3가지로 든 경우 440 단계에서의 화행 분류의 결과에 따라서 450 내지 470 단계 중 하나가 수행된다. 450 단계에서는 사용자 발화문의 화행이 존재유무 요청(ASK_IF)에 해당하는 경우 긍정 혹은 부정어휘 즉, 예 혹은 아니오에 해당하는 어휘를 강조부분으로 결정하여 구문구조를 생성한다. 460 단계에서는 사용자 발화문의 화행이 참조정보 요청(ASK_REF)에 해당하는 경우 검색정보를 강조부분으로 설 정하여 구문구조를 생성한다. 470 단계에서는 사용자 발화문의 화행이 행위요청(REQ_ACT)에 해당하는 경우 요청된 행위를 강조부분으로 설정하여 구문구조를 생성한다. 이와 같이 강조부분이 설정되어 생성된 구문구조에 형태소 정보를 부가하여 담화정보 구조를 생성한다.

도 5는 도 1에 있어서 운율정보 생성부(133)의 세부적인 구성을 나타내는 블럭도로서, 발화경계레벨 설정부(510), 발화경계레벨 조정부(520) 및 강조태그 설정부(530)로 이루어진다.

도 5를 참조하면, 발화경계레벨 설정부(510)는 담화정보 생성부(131)로부터 제공되는 담화정보 구조에 포함되는 각 의미단위별로 발화경계레벨을 설정한다. 여기서 발화경계레벨이란 각 의미단위간의 휴지기간의 길이를 나타낸다. 예를 들어, 휴지기간을 길이 순으로 0, 1, 2로 나타내는 경우, '0'은 신정보가 아닌 의미단위의 뒤에 할당되고, '1'은 신정보인 의미단위의 앞과 뒤에 할당되고, '2'는 구나 절의 마지막에 해당하는 의미단위의 뒤에 할당된다. 구정보인 의미단위와 신정보인 의미단위가 연결되면, 신정보인 의미단위가 우선순위를 갖기 때문에 신정보인 의미단위의 앞과 뒤에 '1'이 할당된다.

발화경계레벨 조정부(520)는 의미단위간 긴밀도에 따른 규칙에 의거하여 발화경계레벨 설정부(510)에서 설정된 발화경계레벨을 1차적으로 조정한다. 여기서, 긴밀도는 통사 및 격을 기준으로 파악한다. 예를 들어, 의미단위가 주격이고 명사인 경우에는 한단계 위로 조정하고, 연속되는 제1 및 제2 의미단위가 동일한 통사인 경우에는 제2 의미단위의 발화경계레벨을 한단계 아래로 조정한다. 또한, 한번 에 발화할 수 있는 음절수에 따른 규칙을 기준으로 1차적으로 조정된 발화경계레벨을 2차적으로 조정하는 과정을 더 포함시킬 수 있다. 이와 같은 규칙은 통계적 및 실험적으로 미리 구해져서 발화경계레벨 조정부(520)의 내부에 구비되는 참조 데이터베이스에 저장된다.

강조태그 설정부(530)는 발화경계레벨 조정부(520)에서 조정된 발화경계레벨과 함께 액센트, 장음화, 발성속도, 음의 크기, 음의 고저를 나타내는 강조태그를 설정하여 최종 운율정보를 생성한다. 여기서, 강조태그의 설정내용은 미리 구비되어 강조태그 설정부(530)에 저장되어 있으며, 강조부분 설정부(320)에서 사용자 발화문의 강조부분이 정해지면 그 강조부분의 특성에 따라 강조태그를 설정한다.

도 5에 도시된 운율정보 생성부(133)의 동작을 일예를 들어 상세히 설명하기로 한다. 상기 예로 든, "아빠는 주말에 농장에 가세요"인 시스템 발화문에 있어서, 의미단위는 "아빠는", "주말에", "농장에", "가세요"가 되고, 발화경계레벨 설정부(510)에 의해 "아빠는"은 '0', "주말에"는 '1', "농장에"는 '1', "가세요"는 "2"로 설정된다. 이후, 발화경계레벨 조정부(520)에서 1차적으로 "아빠는"을 '1'로, "주말에"를 '0'으로 조정한 다음, 2차적으로 "아빠는"을 '0'으로 조정한다. 이후, 강조태그 설정부(530)에서 발화경계레벨, 액센트 및 발화지속길이를 포함한 운율구조를 생성한다.

도 6은 도 5에 있어서 발화경계레벨 설정부(510)의 동작을 설명하는 흐름도이다.

도 6을 참조하면, 610 단계에서는 담화정보 생성부(131)로부터 담화정보 구 조를 입력받는다. 이후의 각 단계는 의미단위별로 수행되어진다.

620 단계에서는 의미단위가 신정보인가를 판단한다. 630 단계에서는 620 단계에서의 판단결과, 의미정보가 신정보인 경우 발화경계레벨을 '1'로 설정한다. 640 단계에서는 620 단계에서의 판단결과, 의미정보가 신정보가 아닌 경우 해당 의미단위가 절이나 구의 마지막 어절에 해당하는지를 판단한다.

650 단계에서는 640 단계에서의 판단결과, 해당 의미단위가 절이나 구의 마지막 어절에 해당하지 않는 경우 발화경계레벨을 '0'으로 설정하고, 660 단계에서는 640 단계에서의 판단결과, 해당 의미단위가 절이나 구의 마지막 어절에 해당하는 경우 발화경계레벨을 '2'로 설정한다.

도 7은 도 1에 있어서 반복정보 적용부(135)의 동작을 설명하는 흐름도이다.

도 7을 참조하면, 710 단계에서는 운율정보 생성부(133)으로부터 시스템 발화문과 운율정보를 입력한다.

720 단계에서는 대화정보 데이터베이스(110)에 저장되어 있는 대화 이력을 참조하여 현재 시스템 발화문이 이전 시스템 발화문과 동일한 의미를 갖는지를 판단한다. 720 단계에서의 판단결과, 현재 시스템 발화문이 이전 시스템 발화문과 동일한 의미를 갖지 않은 경우에는 반복정보를 적용하지 않는 것으로 판단하여 본 흐름도를 종료한다.

730 단계에서는 720 단계에서의 판단결과, 현재 시스템 발화문이 이전 시스템 발화문과 동일한 의미를 갖는 경우에는 현재 시스템 발화문의 표면구조가 이전 시스템 발화문의 표면구조와 동일한가를 판단한다. 730 단계에서의 판단결과, 현 재 시스템 발화문의 표면구조가 이전 시스템 발화문과 동일하지 않은 경우에는 반복정보를 적용하지 않는 것으로 판단하여 본 흐름도를 종료한다.

740 단계에서는 730 단계에서의 판단결과, 현재 시스템 발화문의 표면구조가 이전 시스템 발화문과 동일한 경우에는 반복정보를 적용하는 것으로 판단하여, 신정보의 피치 범위(pitch range)를 소정의 정도로 확장하여 강조한다. 상기 730 단계는 반드시 구비될 필요는 없으며 사용자의 선택에 따라 구비될 수 있다. 이 경우에는 720 단계에서의 판단결과, 현재 시스템 발화문이 이전 시스템 발화문과 동일한 의미를 갖는 경우 반복정보를 적용하여 강조하는 것으로 판단하여, 신정보의 피치 범위를 소정의 정도로 확장한다.

상기한 반복정보 적용부(135)의 동작을 일예를 들어 상세히 설명하기로 한다. 이전 사용자 발화문이 "볼륨 좀 낮춰라"이고, 이에 대한 이전 시스템 발화문이 "볼륨을 3단계 아래로 내렸어요"이고, 현재 사용자 발화문이 "더 낮춰봐"이고, 이에 대한 현재 시스템 발화문이 "볼륨을 5단계 아래로 내렸어요"라고 가정하자. 이때, 현재 시스템 발화문과 이전 시스템 발화문을 비교하면 동일한 의미단위로 구성될 뿐 아니라, 표면구조가 목적어+부사+부사+동사로 동일하기 때문에 현재 시스템 발화문에서 신정보인 "5단계"의 피치범위를 확장시킴으로써 "5단계"를 다른 의미단위보다 크게 발성하도록 한다.

도 8은 도 1에 있어서 억양패턴 생성부(137)의 세부적인 구성을 나타내는 블럭도로서, 특징 추출부(810), 억양패턴 데이터베이스(820), 인덱스 탐색부(830) 및 피치생성부(840)로 이루어진다.

도 8을 참조하면, 특징 추출부(810)는 시스템 발화문의 의미구조 및 운율정보를 입력으로 하여 의미단위별로 복수개의 특징값을 추출한다. 특징의 종류는 음절수, 음운정보, 의미정보, 위치정보, 및 운율경계정보 등을 들 수 있으며, 특징의 중요도에 따라서 가중치를 부여할 수 있다.

억양패턴 데이터베이스(820)는 복수개의 특징값을 이용하여 복수개의 억양패턴을 생성한 다음, 인덱스를 부가하여 데이터베이스화하여 저장한다. 억양패턴 데이터베이스(820)의 일예는 다음 표 1에 도시된 바와 같이 구성할 수 있으며, 포함되는 특징의 종류는 다양하게 가변될 수 있다.

인덱스	음절수	음운정보	의미정보	위치정보	피치정보	발화경계 정보	운율구 타입	피치범위
1	a1	b1	c1	d1	e1	g1	h1	i1
2	a2	b2	c2	d2	e2	g2	h2	i2
...	...	...	...	...	...	...	...	...

상기 예로 든 시스템 발화문인 "아빠는 주말에 농장에 가세요"에 있어서 하나의 의미단위로 "아빠는"을 예로 들면, 음절수는 3, 음운정보는 자음과 모음의 조합방법, 음소의 조음위치, 입술모양, 혀의 위치 등 각각의 음성학적 특징으로 분석된 결과에 해당하는 정보로서, 여기서 자음과 모음의 조합방법을 일예로 들면 단모음-복자음-단모음-단자음-단모음-단자음의 조합으로 구성되어 있다. 또한, 의미정보는 주어, 위치정보는 문장의 처음이며, 발화경계정보는 '0'에 해당한다. 이와 같은 일련의 특징정보와 억양패턴 데이터베이스(820)내의 특징정보를 비교하여 가장 유사한 특징정보를 가지는 인덱스가 결정되고, 결정된 인덱스에 설정되어 있는 피치정보, 운율구 타입 및 피치범위와 같은 정보가 억양패턴이 된다. 여기서, 피 치정보는 의미단위의 실제 피치값에 대한 정보이고, 운율구 타입은 의미단위가 오르-내림 구조 혹은 내리-오름 구조와 같은 피치정보의 패턴에 관한 정보이고, 피치범위는 일련의 피치값이 존재가능한 조정범위에 대한 정보에 해당한다.

인덱스 탐색부(830)는 특징 추출부(810)에서 추출된 특징값을 이용하여 억양패턴 데이터베이스(820)를 탐색하여, 인덱스에 대응하는 억양패턴을 결정한다. 억양패턴에는 상기 예에서와 같이 피치정보, 운율구 타입 및 피치 범위가 포함될 수 있으나, 이에 한정되지는 않는다.

피치생성부(840)는 인덱스 탐색부(830)에서 탐색된 각 의미단위의 억양패턴에 따라서 시스템 발화문의 피치를 음절단위 및 음소단위로 순차적으로 생성한 다음, 최종 음소 단위로 합성부(150)로 제공한한다.

도 9는 본 발명의 일실시예에 따른 음성합성시스템의 구성을 나타낸 블럭도로서, 대화정보 데이터베이스(910), 언어처리부(920), 운율생성부(930), 합성 데이터베이스(940) 및 합성음 생성부(950)를 포함하여 이루어진다.

도 9를 참조하면, 언어처리부(920)는 대화정보 데이터베이스(910)를 참조하여 사용자의 발화문에 대하여 시스템의 발화문을 결정하고, 결정된 시스템 발화문의 문법적 구조를 분석하여 적당한 합성 단위의 조합으로 대응시킨다.

운율생성부(930)는 언어처리부(920)에서 결정된 시스템 발화문의 화행, 의도 및 도메인에 따라서 낭독체와 대화체 중 하나로 결정하고, 낭독체의 경우 통상적인 방법에 의거하여 시스템 발화문으로부터 적당한 억양과 지속시간을 추출하여 운율을 생성하고, 대화체의 경우 사용자 발화문과 시스템 발화문 간의 담화정보에 따라 서 설정된 강조부분을 포함하여 운율을 생성한다.

합성음 생성부(950)는 운율생성부(930)에서 생성된 대화체 혹은 낭독체 운율을 적용하고, 합성 데이터베이스(940)의 합성 단위들을 모아서 합성음을 생성한다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

상술한 바와 같이 본 발명에 따르면, 시스템 발화스타일이 대화체인 경우, 사용자 발화문에 대응하는 시스템 발화문 생성시 담화정보를 분석하고 담화정보를 운율구조에 반영함으로써, 동일한 의미구조 및/또는 구문구조의 시스템 발화문이라 하더라도 사용자의 의도에 부합하는 운율을 생성할 수 있고, 그 결과 대화의 초점이나 화자의 의도를 표현할 수 있으므로 대화체 합성음의 자연성과 명료도를 향상시킬 수 있다.

본 발명에 대해 상기 실시예를 참고하여 설명하였으나, 이는 예시적인 것에 불과하며, 본 발명에 속하는 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

(a) 사용자 발화문에 대응하는 시스템 발화문의 의미단위에 대하여, 상기 사용자 발화문의 화행에 기초하여 담화정보를 생성하는 단계;

(b) 상기 각 의미단위의 담화정보에 대하여, 발화경계레벨을 포함하여 운율정보를 생성하는 단계; 및

(c) 상기 운율정보를 기초로 하여 시스템 발화문의 의미단위에 대한 억양패턴을 생성하는 단계를 포함하는 것을 특징으로 하는 대화체 운율구조 생성방법.
제1 항에 있어서, 상기 방법은

(d) 현재 시스템 발화문과 이전 시스템 발화문을 의미구조가 동일한 경우 반복정보에 대한 강조태그를 조정하는 단계를 더 포함하는 것을 특징으로 하는 대화체 운율구조 생성방법.
제1 항에 있어서, 상기 방법은

(d) 현재 시스템 발화문과 이전 시스템 발화문을 의미구조 및 표면구조가 동일한 경우 반복정보에 대한 강조태그를 조정하는 단계를 더 포함하는 것을 특징으로 하는 대화체 운율구조 생성방법.
제1 항에 있어서, 상기 (a) 단계는

(a1) 대화정보 데이터베이스를 참조하여, 상기 사용자 발화문에 대응하는 시스템 발화문의 의미구조를 분석하여 의미단위들을 생성하는 단계;

(a2) 상기 사용자 발화문의 화행에 기초하여 상기 의미단위들 중 강조하고자 하는 의미단위를 선택하여 제1 강조태그를 부가하는 단계; 및

(a3) 상기 제1 강조태그가 부가된 의미단위를 나머지 의미단위와 결합하여 담화정보 구조를 생성하는 단계를 포함하는 것을 특징으로 하는 대화체 운율구조 생성방법.
제1 항에 있어서, 상기 (b) 단계는

(b1) 상기 시스템 발화문의 의미단위가 신정보인지 구정보인지에 따라서 서로 다른 발화경계레벨을 설정하는 단계;

(b2) 상기 의미단위간 긴밀도에 따라서 상기 발화경계레벨을 1 차적으로 조정하는 단계; 및

(b3) 한번에 발화가능한 음절수에 기초하여 상기 발화경계레벨을 2 차적으로 조정하는 단계; 및

(b4) 각 의미단위에 대하여 상기 조정된 발화경계레벨, 액센트, 및 발화지속시간을 제2 강조태그로 부가하여 운율정보를 생성하는 단계를 포함하는 것을 특징으로 하는 대화체 운율구조 생성방법.
사용자와 시스템 간의 전체적인 대화를 관리하고, 화행 및 의도에 기반하여 대화가 진행되는데 필요한 정보와 대화이력을 저장하는 대화정보 데이터베이스;

상기 대화정보 데이터베이스를 참조하여 사용자 발화문에 대응하는 시스템 발화문의 의미단위를 생성하고, 상기 사용자 발화문의 화행에 기초하여 각 의미단위별로 담화정보를 생성하는 담화정보 생성부;

상기 각 의미단위의 담화정보에 대하여, 발화경계레벨을 포함하여 운율정보를 생성하는 운율정보 생성부; 및

상기 운율정보를 기초로 하여 시스템 발화문의 각 의미단위에 대한 억양패턴을 생성하는 억양패턴 생성부를 포함하는 것을 특징으로 하는 대화체 운율구조 생성장치.
제6 항에 있어서, 상기 장치는

상기 대화정보 데이터베이스를 참조하여, 현재 시스템 발화문과 이전 시스템 발화문을 의미구조가 동일한 경우 반복정보에 대한 강조태그를 조정하는 반복정보 적용부를 더 포함하는 것을 특징으로 하는 대화체 운율구조 생성장치.
(a) 사용자 발화문을 기초로 하여 시스템 발화스타일을 결정하는 단계;

(b) 시스템 발화스타일이 대화체인 경우 사용자와 시스템간의 담화정보를 반영하여 대화체 운율정보를 생성하는 단계; 및

(c) 상기 생성된 대화체 운율정보에 기초하여 시스템 발화문을 합성하는 단계를 포함하는 것을 특징으로 하는 음성합성방법.
제8 항에 있어서, 상기 방법은

(d) 상기 시스템 발화스타일이 낭독체인 경우 기설정되어 있는 규칙에 따라서 생성되는 운율정보에 기초하여 시스템 발화문을 합성하는 단계를 더 포함하는 것을 특징으로 하는 음성합성방법.
제8 항에 있어서, 상기 (a) 단계는

(a1) 대화정보 데이터베이스를 참조하여 상기 사용자 발화문의 화행 및 의도를 결정하는 단계; 및

(a2) 상기 사용자 발화문의 화행 및 의도에 따라서 상기 시스템 발화스타일을 낭독체와 대화체 중 어느 하나로 결정하는 단계를 포함하는 것을 특징으로 하는 음성합성방법.
제8 항에 있어서, 상기 (b) 단계는

(b1) 시스템 발화문의 의미단위에 대하여, 상기 사용자 발화문의 화행에 기 초하여 담화정보를 생성하는 단계;

(b2) 상기 각 의미단위의 담화정보에 대하여, 발화경계레벨을 포함하여 운율정보를 생성하는 단계; 및

(b3) 상기 운율정보를 기초로 하여 시스템 발화문의 의미단위에 대한 억양패턴을 생성하는 단계를 포함하는 것을 특징으로 하는 음성합성방법.
제11 항에 있어서, 상기 (b) 단계는

(b4) 현재 시스템 발화문과 이전 시스템 발화문을 의미구조가 동일한 경우 반복정보에 대한 강조태그를 조정하는 단계를 포함하는 것을 특징으로 하는 음성합성방법.
제11 항에 있어서, 상기 (b) 단계는

(b4) 현재 시스템 발화문과 이전 시스템 발화문을 의미구조 및 표면구조가 동일한 경우 반복정보에 대한 강조태그를 조정하는 단계를 포함하는 것을 특징으로 하는 음성합성방법.
제11 항에 있어서, 상기 (b1) 단계는

(b11) 대화정보 데이터베이스를 참조하여, 상기 사용자 발화문에 대응하는 시스템 발화문의 의미구조를 분석하여 의미단위들을 생성하는 단계;

(b12) 상기 사용자 발화문의 화행에 기초하여 상기 의미단위들 중 강조하고 자 하는 의미단위를 선택하여 제1 강조태그를 부가하는 단계; 및

(b13) 상기 제1 강조태그가 부가된 의미단위를 나머지 의미단위와 결합하여 담화정보 구조를 생성하는 단계를 포함하는 것을 특징으로 하는 음성합성방법.
제11 항에 있어서, 상기 (b2) 단계는

(b21) 상기 시스템 발화문의 의미단위가 신정보인지 구정보인지에 따라서 서로 다른 발화경계레벨을 설정하는 단계;

(b22) 상기 의미단위간 긴밀도에 따라서 상기 발화경계레벨을 1 차적으로 조정하는 단계; 및

(b23) 한번에 발화가능한 음절수에 기초하여 상기 발화경계레벨을 2 차적으로 조정하는 단계; 및

(b24) 각 의미단위에 대하여 상기 조정된 발화경계레벨, 액센트, 및 발화지속시간을 제2 강조태그로 부가하여 운율정보를 생성하는 단계를 포함하는 것을 특징으로 하는 음성합성방법.
사용자와 시스템 간의 전체적인 대화를 관리하고, 화행 및 의도에 기반하여 대화가 진행되는데 필요한 정보와 대화이력을 저장하는 대화정보 데이터베이스;

상기 대화정보 데이터베이스를 참조하여, 사용자 발화문을 기초로 하여 시스템 발화스타일을 결정하는 시스템 발화스타일 결정부;

상기 대화정보 데이터베이스를 참조하여, 시스템 발화스타일이 대화체인 경 우 사용자와 시스템간의 담화정보를 반영하여 대화체 운율정보를 생성하는 대화체 운율생성부; 및

상기 생성된 대화체 운율정보에 기초하여 시스템 발화문을 합성하는 합성부를 포함하는 것을 특징으로 하는 음성합성시스템.
제16 항에 있어서, 상기 합성부는

상기 시스템 발화스타일이 낭독체인 경우 기설정되어 있는 규칙에 따라서 생성되는 운율정보에 기초하여 시스템 발화문을 합성하는 것을 특징으로 하는 음성합성시스템.
(a) 사용자 발화문에 대응하는 시스템 발화문의 의미단위에 대하여, 상기 사용자 발화문의 화행에 기초하여 담화정보를 생성하는 단계;

(b) 상기 각 의미단위의 담화정보에 대하여, 발화경계레벨을 포함하여 운율정보를 생성하는 단계; 및

(c) 상기 운율정보를 기초로 하여 시스템 발화문의 의미단위에 대한 억양패턴을 생성하는 단계를 포함하는 것을 특징으로 하는 대화체 운율구조 생성방법을 실행할 수 있는 프로그램 코드를 기록한 컴퓨터로 읽을 수 있는 기록매체.
(a) 사용자 발화문을 기초로 하여 시스템 발화스타일을 결정하는 단계;

(b) 시스템 발화스타일이 대화체인 경우 사용자와 시스템간의 담화정보를 반영하여 대화체 운율정보를 생성하는 단계; 및

(c) 상기 생성된 대화체 운율정보에 기초하여 시스템 발화문을 합성하는 단계를 포함하는 것을 특징으로 하는 음성합성방법을 실행할 수 있는 프로그램 코드를 기록한 컴퓨터로 읽을 수 있는 기록매체.