KR100382827B1

KR100382827B1 - 텍스트투스피치를 이용한 음성 자동 생성 장치 및 방법

Info

Publication number: KR100382827B1
Application number: KR10-2000-0084729A
Authority: KR
Inventors: 최준용
Original assignee: 엘지전자 주식회사
Priority date: 2000-12-28
Filing date: 2000-12-28
Publication date: 2003-05-09
Also published as: KR20020055305A

Abstract

본 발명은 텍스트투스피치(Text To Speech)를 이용한 음성 자동 생성 장치 및 방법에 관한 것으로, 특히 음성 처리 부가 시스템에서 사용자에게 음성 인식 기능이나 자동 안내 기능 등의 자주 변경되는 내용을 안내 음성으로 재생하여 들려줄때 텍스트투스피치 음성을 자동 생성하도록 한 텍스트투스피치를 이용한 음성 자동 생성 장치 및 방법에 관한 것이다.

종래의 음성 처리 부가 시스템에서 음성 인식 기능이나 자동 안내 기능 등의 자주 변경되는 내용을 아나운서의 음성으로 녹음할 경우, 해당 아나운서의 음성을 시스템에 적용하는데 시간이 오래 걸리고, 변경된 내용을 텍스트투스피치로 모두 합성할 경우, 실제 아나운서의 음성 보다 음질이 떨어지는 문제점이 있었다.

본 발명은 음성 처리 부가 시스템에서 음성 인식 기능이나 자동 안내 기능 등의 자주 변경되는 내용을 안내 음성으로 재생하여 들려줄 경우, 목록화한 단어 및 어구를 녹음하여, 변경할 내용 중에서 녹음되어 있지 않은 단어 및 어구를 텍스트투스피치를 이용하여 안내 음성을 자동으로 생성함으로써 텍스트투스피치부 합성음의 사용을 최소화하여, 음질의 하락을 방지하는 효과가 있다.

Description

텍스트투스피치를 이용한 음성 자동 생성 장치 및 방법{System and Method of Creating Automatic Voice Using Text to Speech}

본 발명은 음성 처리 부가 시스템에서 텍스트투스피치(Text To Speech)를 이용한 음성 자동 생성 장치 및 방법에 관한 것으로, 특히 음성 처리 부가 시스템에서 사용자에게 음성 인식 기능이나 자동 안내 기능 등의 자주 변경되는 내용을 안내 음성으로 재생하여 들려줄때 텍스트투스피치 음성을 자동 생성하도록 한 음성 처리 부가 시스템에서 텍스트투스피치를 이용한 음성 자동 생성 장치 및 방법에 관한 것이다.

일반적으로, 음성 처리 부가 시스템(1)은 전화망을 통하여 사용자에게 정보를 주기 위하여 아나운서의 녹음을 저장하는 음성 저장부(2)와, 변경된 안내 문장을 다시 녹음하여 음성 처리 부가 시스템(1)의 음성 저장부(2)로 전송하는 음성 입/출력부(3)와, 해당 음성 저장부(2)에 녹음된 음성을 재생하는 음성 재생부(4)와를 포함하여 이루어져 있다.

그리고, 해당 음성 저장부(2), 음성 입/출력부(3), 음성 재생부(4)와 더불어 입력된 문장을 텍스트투스피치 알고리즘에 의해 음성을 합성할 수 있는 텍스트투스피치부(5)을 더 포함하여 이루어져 있다.

상기한 바와 같은 음성 처리 부가 시스템(1)에서 음성 생성 방법은 도2의 순서도를 참조하여 설명하면 다음과 같다.

먼저, 사용자에게 정보를 주기 위하여 일반 안내 음성 및 정보 처리 음성을 아나운서의 음성으로 녹음한 후(단계 S21), 해당 녹음된 음성을 음성 저장부(2)에 저장한다(단계 S22). 해당 저장된 음성을 재생하여 사용자에게 음성 재생 서비스를 제공한다(단계 S23). 이들 저장된 음성들이 내용상 변경이 발생되면(단계 S24), 녹음 음성을 업데이트(Update)해야 하는데, 다음의 세 가지 형태로 처리된다.

첫 번째는 변경된 문장을 아나운서가 녹음을 한 후, 음성 입/출력부(3)를 통해 음성 저장부(2)에 저장하여 다음 사용자가 서비스를 요청할 경우, 안내 음성 및 정보 처리 음성을 음성 재생부(4)를 통해 들려주게 된다(단계 S25).

두 번째는 운용자가 텍스트투스피치부(5)에 변경된 문장 전체를 입력하여 합성음을 만든 후, 음성 입/출력부(3)를 통해 음성 저장부(2)에 저장하여 사용자가 서비스를 요청할 경우, 안내 음성 및 정보 처리 음성을 음성 재생부(4)를 통해 들려주게 된다(단계 S26).

세 번째는 운용자가 변경할 내용의 문장을 추출한 후(단계 S27), 텍스트투스피치부(5)에 변경될 문장만 입력하여 합성음을 만들어 내서 음성 입/출력부(3)를 통해 음성 저장부(2)에 저장하여 사용자가 서비스를 요청할 경우, 안내 음성 및 정보 처리 음성을 음성 재생부(4)를 통해 들려주게 된다(단계 S28).

상기한 바와 같이, 첫 번째 방법은 아나운서가 발성하고 녹음함으로 시스템에 적용시키는데 처리 시간이 오래 걸리고, 두 번째 방법은 변경된 내용을 텍스트투스피치로 모두 합성을 하면 음질이 실제 아나운서 음성 보다 떨어져 사용자가 청취하기에 부적절한 문제점이 있었다.

그리고, 세 번째 방법은 운용자가 직접 변경된 내용을 직접 분류하므로 처리 시간이 지연되어 수작업으로 인한 운용자의 불편이 가중되는 문제점이 있었다.

본 발명은 전술한 바와 같은 제반적인 문제점을 해결하기 위한 것으로, 그 목적은 음성 처리 부가 시스템에서 음성 인식 기능이나 자동 안내 기능 등의 자주 변경되는 내용을 안내 음성으로 재생하여 들려줄 경우, 목록화한 단어 및 어구를 녹음하여, 변경할 내용 중에서 녹음되어 있지 않은 단어 및 어구를 텍스트투스피치를 이용하여 안내 음성을 자동으로 생성함으로써 텍스트투스피치부 합성음의 사용을 최소화하여, 음질의 하락을 방지하는데 있다.

도1은 일반적인 음성 처리 부가 시스템의 구성 요소를 나타낸 도.

도2는 일반적인 음성 처리 부가 시스템에서 음성 자동 생성 방법을 구현한 순서도.

도3은 본 발명의 실시예에 따른 음성 처리 부가 시스템에서 텍스트투스피치를 이용한 음성 자동 생성 장치를 나타낸 도.

도4는 본 발명의 실시예에 따른 음성 처리 부가 시스템에서 텍스트투스피치를 이용한 음성 자동 생성 방법을 나타낸 도.

*도면의 주요 부분에 대한 부호의 설명*

10 : 음성 처리 부가 시스템 50 : 텍스트투스피치부

20 : 음성 저장부 51 : 단어 유사성 검색 엔진

30 : 음성 입/출력부 52 : 텍스트투스피치 엔진

40 : 음성 재생부 53 : 랜(LAN) 정합부

상기한 바와 같은 목적을 달성하기 위한 본 발명의 텍스트투스피치를 이용한 음성 자동 생성 장치는, 텍스트투스피치를 이용한 음성 자동 생성 장치에 있어서, 내용 변경을 위한 문장을 수신하고, 녹음 음성과 합성 음성을 음성 처리 부가`시스템으로 전송하는 랜 정합부와; 입력된 단어 및 문구를 음성으로 합성하여 해당 합성 음성을 상기 랜 정합부를 통해 출력하는 텍스트투스피치 엔진과; 상기 랜 정합부를 통해 내용 변경을 위한 문장을 입력받으면 녹음 저장된 음성의 단어 및 어구 목록과 상기 입력된 문장의 문자 및 어구에 대한 유사성을 검사하여, 상기 입력된 문장 중에 포함된 유사한 문자 및 어구에 대한 음성으로서는 상기 녹음 저장된 음성을 상기 랜 정합부를 통해 출력하고, 상기 입력된 문장 중에 포함된 유사하지 않은 단어 및 문구는 상기 텍스트투스피치 엔진에 출력하는 단어 유사성 검색 엔진을 포함하는 것을 특징으로 한다.

한편, 상기한 바와 같은 목적을 달성하기 위한 본 발명의 텍스트투스피치를 이용한 음성 자동 생성 방법은, 녹음 저장된 음성의 단어 및 어구를 목록화하는 과정과; 상기 녹음 저장된 음성을 이용하여 사용자에게 음성 재생 서비스를 제공하는 중에 내용 변경을 위한 문장을 입력받는 과정과; 상기 내용 변경을 위한 문장에 포함된 단어 및 어구와 상기 녹음 저장된 음성의 단어 및 어구 목록을 비교하는 과정과; 상기 비교 결과, 상기 내용 변경을 위한 문장 중에 동일한 단어 및 어구가 존재하면, 해당 동일한 단어 및 어구에 대한 음성으로서 상기 녹음 저장된 음성을 이용하여 음성을 생성하는 과정과; 상기 비교 결과, 상기 내용 변경을 위한 문장 중에 동일하지 않은 단어 및 어구가 존재하면, 해당 동일하지 않은 단어 및 어구에 대한 음성으로서 합성 음성을 이용하여 음성을 생성하는 과정을 포함하는 것을 특징으로 한다.

이하, 본 발명의 실시예를 첨부한 도면을 참조하여 상세하게 설명하면 다음과 같다.

본 발명의 실시예에 따른 음성 처리 부가 시스템에서 텍스트투스피치를 이용한 음성 자동 생성 장치는 도3에 나타낸 바와 같이, 전화망을 통하여 사용자에게 정보를 주기 위하여 아나운서의 녹음을 저장하는 음성 저장부(20)와, 변경된 안내 문장을 다시 녹음하여 시스템의 음성 저장부로 전송하는 입/출력부(30)와, 해당 음성 저장부(20)에 녹음된 음성을 재생하는 음성 재생부(40)와, 텍스트투스피치부(50)를 포함하여 이루어져 있다.

여기서, 해당 텍스트투스피치부(50)는 입력된 문장의 단어 유사성을 검사하는 단어 유사성 검색 엔진(51)과, 입력된 문장을 음성으로 변환하는 텍스트투스피치 엔진(52)과, 변경된 문장 및 메시지를 받고 생성된 음성을 시스템으로 전송하는 랜(LAN) 정합부(53)를 포함하여 이루어져 있다.

상기한 바와 같은 음성 처리 부가 시스템을 바탕으로 한 본 발명의 실시예에 따른 음성 처리 부가 시스템에서 텍스트투스피치를 이용한 음성 자동 생성 방법은 도4의 순서도를 참조하여 설명하면 다음과 같다.

먼저, 안내 방송 및 정보 처리 음성을 녹음할 경우, 단어 및 어구를 추출하여 목록화한 후,(단계 S41), 아나운서의 음성으로 해당 목록화 된 단어 및 어구를 녹음한다(단계 S42). 이때, 녹음될 단어 및 어구들은 다양한 조사와 결합된 형태로 만들어야 한다.

이후, 시스템의 음성 입/출력부(30)를 통해 해당 녹음된 단어 및 어구를 음성 저장부(20)에 저장한 후(단계 S43), 사용자가 음성 재생 서비스를 요청할 경우, 안내 음성 및 정보 처리 음성을 음성 재생부(40)를 통해 들려주게 된다(단계 S44).

그런데, 사용자에게 제공될 내용에 변경 사항 발생하면(단계 S45), 해당 내용을 파일 형태로 텍스트투스피치부(50)에 입력한 후(단계 S46), 해당 입력된 전체 문장은 텍스트투스피치부(50)의 구성 요소 중 단어 유사성 검색 엔진(51)으로 입력이한다(단계 S47). 해당 단어 유사성 검색 엔진(51)은 처음에 아나운서의 음성으로 녹음된 단어 및 어구의 목록과 현재 변경될 문장의 단어 및 어구를 유형 비교하여(단계 S48), 비교 결과 동일한 단어가 존재하는지를 판단한다(단계 S49). 해당 비교 결과, 동일한 단어가 존재하지 않을 경우, 텍스트투스피치 엔진(52)으로 단어 및 어구를 입력하여 음성을 생성한다(단계 S50). 그러나, 해당 비교 결과, 동일한 단어가 존재할 경우, 목록화 된 단어 및 어구에 해당하는 기녹음된 음성을 사용하여 음성을 생성한다(단계 S51). 이렇게 단어 유사성 검색 엔진(51)을 사용하여 변경될 문장의 모든 단어를 음성으로 바꾼 후, 통합하여 최종 결과를 음성으로 만들어 낸다. 이렇게 만들어진 음성은 랜(LAN) 정합부(53)를 통해 시스템의 지정된 위치로 전송하여 사용자의 요구 시, 재생하게 된다(단계 S52).

이상으로 본 발명의 바람직한 실시예에 대해 상세히 기술되었지만, 본 발명이 속하는 기술 분야에 있어서 통상의 지식을 가진 사람이라면, 본 발명을 여러 가지로 변형 또는 변경하여 실시할 수 있음을 알 수 있을 것이다. 따라서, 본 발명의 실시예들의 변경은 본 발명의 기술적 범위를 벗어날 수 없을 것이다.

이상에서 설명한 바와 같이 본 발명은 음성 처리 부가 시스템에서 음성 인식 기능이나 자동 안내 기능 등의 자주 변경되는 내용을 안내 음성으로 재생하여 들려줄 경우, 목록화한 단어 및 어구를 녹음하여, 변경할 내용 중에서 녹음되어 있지 않은 단어 및 어구를 텍스트투스피치를 이용하여 안내 음성을 자동으로 생성함으로써 텍스트투스피치부 합성음의 사용을 최소화하여, 음질의 하락을 방지하는 효과가 있다.

Claims

텍스트투스피치를 이용한 음성 자동 생성 장치에 있어서,

내용 변경을 위한 문장을 수신하고, 녹음 음성과 합성 음성을 음성 처리 부가`시스템으로 전송하는 랜 정합부와;

입력된 단어 및 문구를 음성으로 합성하여 해당 합성 음성을 상기 랜 정합부를 통해 출력하는 텍스트투스피치 엔진과;

상기 랜 정합부를 통해 내용 변경을 위한 문장을 입력받으면 녹음 저장된 음성의 단어 및 어구 목록과 상기 입력된 문장의 문자 및 어구에 대한 유사성을 검사하여, 상기 입력된 문장 중에 포함된 유사한 문자 및 어구에 대한 음성으로서는 상기 녹음 저장된 음성을 상기 랜 정합부를 통해 출력하고, 상기 입력된 문장 중에 포함된 유사하지 않은 단어 및 문구는 상기 텍스트투스피치 엔진에 출력하는 단어 유사성 검색 엔진을 포함하는 것을 특징으로 하는 텍스트투스피치를 이용한 음성 자동 생성 장치.
삭제
텍스트투스피치를 이용한 음성 자동 생성 방법에 있어서,

녹음 저장된 음성의 단어 및 어구를 목록화하는 과정과;

상기 녹음 저장된 음성을 이용하여 사용자에게 음성 재생 서비스를 제공하는 중에 내용 변경을 위한 문장을 입력받는 과정과;

상기 내용 변경을 위한 문장에 포함된 단어 및 어구와 상기 녹음 저장된 음성의 단어 및 어구 목록을 비교하는 과정과;

상기 비교 결과, 상기 내용 변경을 위한 문장 중에 동일한 단어 및 어구가 존재하면, 해당 동일한 단어 및 어구에 대한 음성으로서 상기 녹음 저장된 음성을 이용하여 음성을 생성하는 과정과;

상기 비교 결과, 상기 내용 변경을 위한 문장 중에 동일하지 않은 단어 및 어구가 존재하면, 해당 동일하지 않은 단어 및 어구에 대한 음성으로서 합성 음성을 이용하여 음성을 생성하는 과정을 포함하는 것을 특징으로 하는 텍스트투스피치를 이용한 음성 자동 생성 방법.
삭제
삭제