KR20170017545A

KR20170017545A - 운율 정보 기반의 자소열 음소열 변환 방법과 시스템 그리고 기록 매체

Info

Publication number: KR20170017545A
Application number: KR1020150111644A
Authority: KR
Inventors: 김선희; 홍진표; 김재민
Original assignee: 네이버 주식회사
Priority date: 2015-08-07
Filing date: 2015-08-07
Publication date: 2017-02-15
Also published as: KR101735195B1

Abstract

운율 정보 기반의 자소열 음소열 변환 방법과 시스템 그리고 기록 매체가 개시된다. 컴퓨터로 구현되는 자소열 음소열 변환 방법은, 음성 변환하고자 하는 텍스트를 입력받는 단계, 억양구(IP), 강세구(AP), 및 접어(CL) 기반으로 미리 정의된 운율 구조에 기초하여 상기 텍스트의 운율 단위를 추정하는 단계, 상기 추정된 운율 단위에 기초하여 자소열을 음소열로 변환하는 단계를 포함할 수 있다.

Description

운율 정보 기반의 자소열 음소열 변환 방법과 시스템 그리고 기록 매체{METHOD, SYSTEM AND RECORDING MEDIUM FOR CONVERTING GRAPHEME TO PHONEME BASED ON PROSODIC INFORMATION}

본 발명의 실시예들은 텍스트로부터 추정한 운율 구조에 기초하여 자소열을 음소열로 변환하여 제공하는 기술에 관한 것이다.

자소열 음소열 변환이란 텍스트의 철자로부터 음소열을 생성해 내는 방법으로 텍스트를 음성으로 변환하는 음성합성(Text-to-Speech, 혹은 Speech Synthesis) 기술 및 음성을 텍스트로 변환하는 음성인식(Automatic Speech Recognition) 기술의 주요 구성 요소가 된다.

일반적으로, 음성 합성에 있어서 운율 모델링은 자연성과 명료성에 직접적인 영향을 미치는 중요한 요소이다. 운율 모델링은 개별 언어의 운율적 특성에 따라 그 내용이 달라진다.

예컨대, 영어는 강세 언어로서, 문장 강세와 중간구(intermediate phrase) 및 억양구(Intonation Phrase)의 모델링이 필요한 반면에. 일본어는 피치 액센트(pitch accent) 언어로서 액센트와 함께 강세구(Accentual Phrase)와 억양구의 모델링이 필요하게 된다.

상기와 같은 추세에 따라 음성합성을 위하여 운율을 예측하는 방법이 공개특허공보 제10-2006-0008330호에 제시되어 있다. 이와 같이 운율 정보나 운율 구조는 기존의 연구에서 음절화 모듈, 음운론적 지식과 규칙, 등과 관련이 있음이 알려져 있으나 자소열 음소열 변환과의 관련성에 대해서는 알려진 바가 없다.

일반적으로 자소열 음소열 변환은 운율 구조와는 독립적으로 텍스트의 각 어절을 기본 단위로 하여 어절 내부에서 음운 규칙을 적용하거나 발음을 모델링하는 방법을 이용하여 왔다.

한국어의 텍스트는 어절 단위를 기준으로 구성되어 있는데, 먼저 어절이 운율 구조에서 상정하고 있는 어떤 운율 단위로 실현되느냐에 따라 실제로 발음이 달라지게 된다.

따라서, 텍스트의 문자열로부터 정확한 음소열을 생성해 내기 위해서는 각 어절이 어떤 운율 단위로 실현되는가의 문제를 선행적으로 해결해야 한다.

한국어는 억양구, 강세구, 및 접어가 계층적 구조를 갖는 운율 구조를 가정함에 따라 텍스트의 각 어절을 운율 단위로 맵핑하는 단계가 필요하다. 또한, 이와 같이 운율 단위로 맵핑된 어절에 대하여 자소열을 음소열로 변환하는 자소열 음소열 변환 방법과 시스템 그리고 기록 매체를 제안한다.

한국어의 텍스트는 어절 단위를 기준으로 구성되어 있는데, 먼저 어절이 운율 구조에서 상정하고 있는 어떤 운율 단위로 실현되느냐에 따라 실제로 발음이 달라지게 된다는 사실에 입각하여 먼저 각 어절의 운율 단위를 추정한 후에 자소열 음소열 변환이 수행되어야 한다.

컴퓨터로 구현되는 자소열 음소열 변환 방법은 음성 변환하고자 하는 텍스트를 입력받는 단계, 억양구(IP), 강세구(AP), 및 접어(CL) 기반으로 미리 정의된 운율 구조에 기초하여 상기 텍스트의 운율 단위를 추정하는 단계, 상기 추정된 운율 단위에 기초하여 자소열을 음소열로 변환하는 단계를 포함할 수 있다.

컴퓨터 시스템이 음성합성을 제공하도록 제어하는 명령(instruction)을 포함하는 컴퓨터 판독가능 매체로서, 상기 명령은, 음성 변환하고자 하는 텍스트를 입력받는 단계, 억양구(IP), 강세구(AP), 및 접어(CL) 기반으로 미리 정의된 운율 구조에 기초하여 상기 텍스트의 운율 단위를 추정하는 단계, 상기 추정된 운율 단위에 기초하여 자소열을 음소열로 변환하는 단계, 상기 음소열에 기초하여 텍스트를 TTS(Text To Speech) 음성으로 변환하는 단계를 포함하는 방법에 의하여 상기 컴퓨터 시스템을 제어할 수 있다.

음성합성 시스템은, 음성 변환하고자 하는 텍스트가 로딩되는 메모리, 억양구(IP), 강세구(AP), 및 접어(CL) 기반으로 미리 정의된 운율 구조에 기초하여 상기 텍스트의 운율 단위를 추정하는 운율 단위 추정부, 상기 추정된 운율 단위에 기초하여 자소열을 음소열로 변환하는 자소열 음소열 변환부, 그리고, 상기 음소열에 기초하여 텍스트를 TTS(Text To Speech) 음성으로 변환하는 음성합성부, 및 상기 TTS 음성을 사용자 단말의 스피커를 통해 출력하는 음성 출력부를 포함할 수 있다.

본 발명의 실시예에 따르면, 억양구, 강세구, 및 접어가 계층적 구조를 갖는 운율 구조에 따라 텍스트의 각 어절을 운율 단위로 맵핑한 다음, 강세구와 억양구를 발음 모델링의 영역으로 하여 자소열을 음소열로 변환함으로써, 실제 발음에 가까운 자연스러운 음성을 출력할 수 있다.

자소열 음소열 변환 방법은 음성합성 시스템의 성능에 결정적으로 영향을 미치는 것으로 본 발명의 실시예에 따르면 음성 전사의 품질 향상과 문자음성변환의 성능 향상을 통하여 궁극적으로 음성합성 성능에 직접적으로 기여할 수 있게 된다.

도 1은 본 발명의 일 실시예에 있어서, 사용자 단말과 음성합성 시스템 간의 개괄적인 모습을 도시한 것이다.
도 2는 본 발명의 일 실시예에 있어서, 음성합성 시스템의 내부 구성을 설명하기 위한 블록도이다.
도 3은 본 발명의 일 실시예에 있어서, 운율 구조를 기반으로 한 음성합성 시스템을 설명하기 위해 제공되는 흐름도이다.
도 4는 본 발명의 일 실시예에 있어서, 음성으로 변환하고자 하는 텍스트를 입력받는 일례를 도시한 도면이다.
도 5는 본 발명의 일 실시예에 있어서, 억양구, 강세구 및 접어로 구성된 운율 구조를 도시한 도면이다.
도 6은 본 발명의 일 실시예에 있어서, 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

본 실시예들은 문서에 포함된 텍스트(text)를 음성으로 변환하는 음성합성 시스템에 적용될 수 있다. 특히, 자소열 음소열 변환 방법은, 억양구(Intonation Phrases: IP), 강세구(Accentual Phrases: AP), 및 접어(Clitics: CL)를 계층 구조로 갖는 운율 구조에 기초하여 철자로 표기되는 자소열을 음소열로 변환하는 방법으로, 음성합성(Text-To-Speech) 시스템 외에 음성을 텍스트로 변환하는 음성인식 시스템에도 적용될 수 있다.

음성합성 시스템의 경우는 사전 DB에 포함된 예문, 단어/숙어의 뜻 등을 나타내는 텍스트를 음성으로 변환하는 서비스, 뉴스 기사, e-북 등을 음성으로 읽어주는 서비스, 키워드 검색 결과, 번역 결과 등을 음성으로 제공하는 서비스 등에 적용될 수 있다.

본 명세서에서 '운율'은 성조, 강세, 리듬, 억양, 등 음성으로 실현되는 언어 현상으로 분절음인 음소 범위보다 상위에서 그 의미상의 차이를 구분하게 하는 요소를 의미한다. '어절'은 텍스트에서 띄어쓰기로 구분되는 단위를 나타낸다.

한국어의 운율은 일반적으로 강세구와 억양구, 그리고 접어로 구성되는 것으로 알려져 있으나, 실제로 텍스트에서 대부분의 어절은 강세구나 억양구로 실현되는 것으로 보고되고 있다.

본 발명에서는 강세구, 억양구 외에 '접어(clitic: CL)'에 대하여 좀 더 명확하게 정의하고 강세구와 억양구 외에 접어를 예측하는 것이 실제 자소열 음소열 변환에 필수적임을 제안한다.

여기에서 접어는 운율적으로 비독립적인 단위로서, 단독으로 강세구를 형성하지 못하는 어절을 의미한다. 예컨대, 접어는, -할 것, -줄 것, -될 것 등의 불완전 명사를 포함하여 철자상으로는 띄어쓰기로 되어 있으나 실제로 발화하는 경우에 한 단위로 발음하는 모든 어절을 의미한다.

본 명세서에서 제안하는 텍스트의 자소열을 음소열로 변환하여 출력하는 방법은 철자 상에서 단어 구분이 되지 않는 중국어, 일본어로 된 텍스트를 음성으로 변환 경우에도 이용될 수 있으며, 뿐만 아니라 독일어, 네덜란드어, 스칸디나비아 언어들과 같이 여러 단어를 결합하여 하나의 복합어를 구성하는 언어들에도 이용될 수 있을 것으로 예상된다.

동일한 자소열은 다른 형태소 경계에 따라 다르게 발음된다는 사실에 기초하여, 한국어 자소열-음소열 변환 (G2P ; Grapheme-to-phoneme) 방법은 일반적으로 형태소를 기본 단위로 가정하고, 자소열을 음소열로 변환한다. 한국어 맞춤법에서, 단어 또는 어절은 공백(즉, 띄어쓰기)으로 구분된다. 일반적으로 한국어의 운율 구조 기술 체계로 사용되는 K-ToBI(Korean Tone and Break Indices)는 억양구(Intonation Phrases: IP)와 강세구(Accentual Phrases: AP)로 이루어진 계층적 운율 단위로 구성된다. 본 발명에 따르면, 운율 구조에 접어(Clitic: CL)라는 새로운 단위가 추가되어 계층 구조를 형성할 수 있다. 이때, 접어는 강세구의 하위 계층 구조로 형성될 수 있다. 하나의 강세구가 억양구를 형성할 수 있으므로 실제로 접어는 억양구 내부에도 나타날 수 있다. 이하에서는 운율구에 따라 실제 발음이 달라지는 특성을 고려하여, 억양구, 강세구, 접어를 계층 구조로 하는 운율 구조를 기본 단위로 하여 텍스트를 음성으로 변환하는 동작에 대해 설명하고자 한다.

도 1은 본 발명의 일 실시예에 있어서, 사용자 단말과 문자 음성 변환, 즉 음성합성 시스템 간의 개괄적인 모습을 도시한 것이다. 도 1에서는 음성합성 시스템(100) 및 사용자 단말(101)을 도시하고 있다. 도 1에서 화살표는 음성합성 시스템(100)과 사용자 단말(101) 간에 유/무선 네트워크를 통해 데이터가 송수신될 수 있음을 의미할 수 있다.

사용자 단말(101)은 PC, 스마트폰(smart phone), 태블릿(tablet), 노트북 등으로, 음성합성 시스템(100)과 관련된 웹/모바일 사이트의 접속 또는 서비스 전용 어플리케이션(이하, '서비스 앱'이라 칭함)의 설치 및 실행이 가능한 모든 단말 장치를 의미할 수 있다. 이때, 사용자 단말(101)은 웹/모바일 사이트 또는 서비스 앱의 제어 하에 서비스 화면 구성, 데이터 입력, 데이터 송수신, 데이터 저장 등 서비스 전반의 동작을 수행할 수 있다.

음성합성 시스템(100)은 클라이언트(client)인 사용자 단말(101)을 대상으로, 사용자에 의해 선택 또는 입력된 문서를 음성으로 변환하여 제공하는 서비스 플랫폼 역할을 한다. 예를 들어, 음성합성 시스템(100)은 e-북(book) 서비스, 번역 서비스, 사전 서비스, 뉴스 기사 읽어주는 서비스 등 텍스트를 음성으로 변환하는 다양한 서비스를 사용자 단말(101)에 제공할 수 있다. 그리고, 음성합성 시스템(100)은 사용자 단말(101) 상에 어플리케이션 형태로 구현될 수 있으며, 이에 한정되는 것이 아니라, 클라이언트-서버 환경에서 상기 서비스를 제공하는 서비스 플랫폼에 포함되는 형태로 구현될 수도 있다.

도 2는 본 발명의 일 실시예에 있어서, 음성합성 시스템의 내부 구성을 설명하기 위한 블록도이고, 도 3은 본 발명의 일 실시예에 있어서, 자소열 음소열 변환 방법을 설명하기 위해 제공되는 흐름도이다.

본 실시예에 따른 음성합성 시스템(200)은 프로세서(210), 버스(220), 네트워크 인터페이스(230), 데이터베이스(240) 및 메모리(250)를 포함할 수 있다. 메모리(250)는 운영체제(251) 및 서비스 제공 루틴(252)을 포함할 수 있다. 프로세서(210)는 운율 단위 추정부(211), 자소열 음소열 변환부(212), 및 음성 출력부(213)를 포함할 수 있다. 다른 실시예들에서 음성합성 시스템(200)은 도 2의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다.

메모리(250)는 컴퓨터에서 판독 가능한 기록 매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 또한, 메모리(250)에는 운영체제(251)와 서비스 제공 루틴(252)을 위한 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 드라이브 메커니즘(drive mechanism, 미도시)을 이용하여 메모리(250)와는 별도의 컴퓨터에서 판독 가능한 기록 매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록 매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록 매체(미도시)를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록 매체가 아닌 네트워크 인터페이스(230)를 통해 메모리(250)에 로딩될 수도 있다.

메모리(250)에는 음성으로 변환하고자 하는 텍스트가 로딩될 수 있다. 예컨대, 사용자에 의해 선택된 뉴스 기사, e-북, 번역문, 사전 예문에 해당하는 텍스트가 메모리(250)에 로딩될 수 있다.

버스(220)는 음성합성 시스템(200)의 구성요소들간의 통신 및 데이터 전송을 가능하게 할 수 있다. 버스(220)는 고속 시리얼 버스(high-speed serial bus), 병렬 버스(parallel bus), SAN(Storage Area Network) 및/또는 다른 적절한 통신 기술을 이용하여 구성될 수 있다.

네트워크 인터페이스(230)는 음성합성 시스템(200)을 컴퓨터 네트워크에 연결하기 위한 컴퓨터 하드웨어 구성요소일 수 있다. 네트워크 인터페이스(230)는 문자 음성 변환 시스템(200)을 무선 또는 유선 커넥션을 통해 컴퓨터 네트워크에 연결시킬 수 있다.

데이터베이스(240)는 음성합성 서비스를 제공하기 위해 필요한 모든 정보를 저장 및 유지하는 역할을 할 수 있다. 특히, 데이터베이스(240)는 운율 추정 결과를 포함하여 텍스트를 운율 단위로 음성 변환하기 위한 운율 모델 관련 정보를 사전에 저장하고 있을 수 있다.

데이터베이스(240)는 음성합성 시스템(200) 내에 포함될 수도 있고, 필요에 따라 사용자 단말(101) 또는 둘 모두에 포함될 수도 있고, 음성합성 시스템(200)과는 별도의 다른 시스템 상에 구축된 외부 데이터베이스로서 존재할 수도 있다.

프로세서(210)는 기본적인 산술, 로직 및 음성합성 시스템(200)의 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(250) 또는 네트워크 인터페이스(230)에 의해, 그리고 버스(220)를 통해 프로세서(210)로 제공될 수 있다. 프로세서(210)는 운율 단위 추정부(211), 자소열 음소열 변환부(212), 및 음성 출력부(213)를 위한 프로그램 코드를 실행하도록 구성될 수 있다. 이러한 프로그램 코드는 메모리(250)와 같은 기록 장치에 저장될 수 있다.

운율 단위 추정부(211), 자소열 음소열 변환부(212), 및 음성 출력부(213)는 도 3의 단계들(301 내지 304 단계)을 수행하기 위해 구성될 수 있다.

301 단계에서, 메모리(250)에는 음성 변환하고자 하는 텍스트(text)가 로딩(loading)될 수 있다. 예를 들어, 사용자 단말(101)에서 사전관련 서비스 앱이 실행됨에 따라, 사용자에 의해 선택된 특정 단어에 해당하는 뜻 및 예문이 사용자 단말(101)의 화면에 제공될 수 있다. 이때, 예문 및 예문의 번역문에 해당하는 텍스트가 메모리(250)에 로딩될 수 있다.

302 단계에서, 운율 단위 추정부(211)는 데이터베이스(240)에 미리 정의된 운율 구조에 기초하여 메모리(250)에 로딩된 텍스트의 운율 단위를 추정할 수 있다. 이때, 운율 단위 추정부(211)는 통계적 의사결정 모델(CART: Classification And Regression Tress)을 이용하여 텍스트를 구성하는 각 어절 별로 운율 단위를 추정할 수 있다.

예를 들어, 문장이 메모리(250)에 로딩된 경우, 운율 단위 추정부(211)는 문장을 이루는 텍스트를 어절 별로 분류(classification)할 수 있으며, 해당 어절이 억양구(IP), 강세구(AP), 또는 접어(CL)에 해당하는지 여부를 추정할 수 있다. 여기서, 상기 운율 구조는 억양구(Intonation Phrase: IP), 강세구(Accent Phrase: AP), 및 접어(Clitic: CL)가 계층적으로 구성된 구조를 가지며, 도 5에서 상세히 설명하기로 한다.

303 단계에서, 자소열 음소열 변환부(212)는 미리 정의된 음운 규칙이나 발음모델링 방법에 따라 추정된 운율 단위를 포함하는 음소열을 생성할 수 있다. 이때, 자소열 음소열 변환부(212)는 각 어절에 포함된 음소와 앞 혹은 뒤 어절과 결합하여 강세구나 억양구를 생성하느냐의 여부에 따라, 해당 음소의 앞, 뒤 경계(boundary)를 나타내는 운율 경계(prosodic boundary)를 포함하는 음소열을 생성할 수 있다.

예컨대, 운율 단위 추정부(211)는 입력된 텍스트에서 각 어절 별로 운율 단위를 추정할 수 있다. 이때, 각 어절은 개별 운율 단위, 즉, 강세구, 억양구, 접어 가운데 하나로 추정된다. 각 접어는 그 상위 단위인 강세구나 억양구를 구성하게 되는데, 접어로 분류된 어절이 둘 이상 연속하는 경우, 연음화 또는 경음화 등 음운현상이 발생할 수 있으며, 자소열 음소열 변환부(212)는 미리 정의된 음운 규칙이나 발음모델링 방법에 따라 음소열을 생성할 수 있다.

304 단계에서, 자소열 음소열 변환부(212)는 생성된 음소열에 기초하여 상기 텍스트를 음소열로 변환할 수 있다. 그러면, 음성 출력부(213)는 음소열로부터 음성을 출력할 수 있다. 출력된 음성은 사용자 단말(101)로 전송되어 사용자 단말(101)에 구비된 스피커를 통해 출력될 수 있다.

도 4는 본 발명의 일실시예에 있어서, 음성 변환하고자 하는 텍스트를 입력받는 일례를 도시한 도면이다.

도 4를 참고하면, 사용자 단말(101)에서 사전 앱이 실행되어 단어 '의사'가 검색된 경우, '의사'에 해당하는 뜻과 예문이 사용자 단말(101)의 화면에 표시될 수 있다. 이때, 음성 변환 표시 정보(401)가 선택된 경우, 예문 '의사가 될 것 같습니다'에 해당하는 텍스트가 메모리(250)에 로딩될 수 있다. 그러면, 운율 단위 추정부(211)는 메모리(250)에 로딩된 해당 예문을 어절 별로 분류하여 운율 단위를 추정할 수 있다. 그러면, 자소열 음소열 변환부(212)는 추정된 운율 단위에 기초하여 미리 정의된 음운 규칙이나 발음모델링 방법에 따라 운율 경계를 포함하는 음소열을 생성할 수 있다. 예컨대, 운율 단위 추정부(211)는 '의사가'의 운율 단위는 강세구, '될', '것', '같습니다'의 운율 단위는 하나의 억양구를 구성하는 3개의 접어로 추정할 수 있다.

도 5는 본 발명의 일실시예에 있어서, 억양구, 강세구 및 접어로 구성된 운율 구조를 도시한 도면이다.

운율 구조(prosodic structure)는 계층 구조를 갖는 3개의 운율 단위(IP, AP, CL)로 구성될 수 있다. 도 5에 따르면, 운율 구조는 억양구(IP) 아래에 하나 이상의 강세구(AP)가 위치하며, 강세구(AP) 아래에 하나 이상의 접어(CL)가 위치할 수 있다. 단어(W)는 입력으로 유입되는 텍스트의 단위로서 한국어의 경우는 어절이 여기에 해당된다. 실제 발음 시, 음운 규칙(phonology rules)이 적용되는 영역은 강세구나 억양구로서, 강세구나 억양구를 구성하는 접어의 경우는 음운 규칙이 어절 경계에서 적용되게 된다.

예컨대, 도 5와 같이 '의사가 될 것 같습니다'는 4개의 어절 '의사가', '될', '것', '같습니다'로 구분될 수 있다. 이때, 띄어쓰기를 정확히 지켜 각 어절 별로 하나씩 띄어 읽는 경우, '의사가', '될', '것', '같습니다'로 발음될 수 있다. 그러나, '될', '것', '같습니다'가 각각 접어로서 하나의 억양구로 실현될 때 어절 경계에서 음운 규칙을 적용하여 띄어쓰기 없이 각 어절을 붙여서 읽는 경우, 어절 경계에서 경음화가 실현되어, '될????씀니다'로 발음될 수 있다. 즉, 실제 발음 시 두 어절 이상을 연속하여 읽는 경우, 어절 경계에 해당하는 음소와 앞소리와의 관계에 따라 경음(??, ??) 등의 발음 변화가 나타날 수 있다. 이처럼, 운율 단위 내부에서 발생하는 발음 변화에 기초하여 미리 정의된 음운 규칙에 따라 자소열 음소열 변환부(212)는 둘 이상의 어절이 하나의 강세구나 억양구로 실현되어 발생하는 발음의 변화를 반영하는 발음 기호를 해당 어절에 맵핑한 음소열을 생성할 수 있다. 음운 규칙은, 억양구, 강세구 및 접어 기반의 운율 구조에 따라 강세구와 억양구 영역에서 발생하는 모든 규칙을 미리 모델링한 것으로서, 데이터베이스(240)에 저장되어 유지 및 관리될 수 있다.

아래의 표 1은 실제 발음과 운율 정보는 고려하지 않은 기존의 자소열 음소열 변환(G2P) 방식을 통하여 생성되는 발음을 국제음성기호(International Phonetic Alphabet)을 이용하여 예시적으로 나타낸 것이다.

[표 1]에서, 운율 경계에서 경음화(Tensification), 연음화(Liaison) 및 /n/ 삽입 현상이 발생함을 볼 수 있다. 예컨대, a. '이번 주말'은 실제 발음 시 어절 경계에서 경음화가 발생하여 '이번쭈말'로 발음되고, b. '목요일 아침에'는 연음화가 발생하여 '모교이라치메'로 발음되고, c. '오전 여덟 시경'은 /n/ 삽입 현상과 경음화가 발생하여 '오전녀덜씨경'으로 발음되고, d. '될 것 같은데요'는 경음화에 의하여 '될?? 까튼데요'로 발음될 수 있다.

운율 경계는 무경계(no-boundary, '0'), 접어 경계(CL boundary, '1'), 강세구 경계(AP boundary, '2), 및 억양구 경계(IP boundary, '3)를 포함할 수 있다. 운율 단위 추정부(211)는 텍스트로부터 입력된 각 어절에 해당하는 각 경계의 구분 기호를 추정해 준다. 그런 다음, 자소열 음소열 변환부(212)는 어절 별 각 음소의 이전 및 이후의 운율 경계를 포함하는 음소열을 생성할 수 있다.

예를 들어, 운율 단위 추정부(211)에서는 텍스트 '이번 주말'의 입력을 '이번'과 '주말'과 같이 어절 별로 구분하여 입력으로 받은 다음, 각 어절에 해당하는 운율 경계를 추정해 준다. 각 어절의 추정된 운율 경계 정보에 따라 본 발명의 자소열 음소열 변환부(212)는 미리 정의된 음운 에 따라 '주말'이 강세구로 추정된 경우에는 첫번째 음소 /ㅈ/에 대한 음소열은 [2ㅈ0]로 변환하고, 실제 발음과 같이 접어로 추정된 경우는 동일한 음소 /ㅈ/를 [1ㅈ0]로 생성해 준다.

이와 같이, 강세구 경계 '2', 억양구 경계 '3'는 주어진 음소와 그 선행하는 음소 사이에 발음 변화가 발생하지 않음을 나타내며, 접어 경계 '1'은 주어진 음소와 그 선행하는 음소 사이에 발음 변화가 항상 발생하는 경우를 나타낼 수 있다. 무경계 '0'는 일반적으로 연접하는 음소 사이에 발생하는 모든 발음 변화를 허용한다.

아래의 표 2는 억양구(IP) 당 강세구의 수(#AP/IP)와 접어(CL), 강세구(AP), 억양구(IP) 각각 당 음절의 수(#syll/AP, #syll/IP, #syll/CL)를 나타내는 데이터의 통계자료를 나타내고 있다. 표 2의 통계 데이터에 이용된 음성은 87,465 어절(280,635 음절)에 달하는 5,915 문장으로 구성되며, 문장 당 평균 어절은 14.79일 수 있다. 상기 음성은 여성 화자가 말하는 소리를 녹음한 것으로서, 두 명의 전문가가 녹음 파일을 듣고, 접어, 강세구, 및 억양구에 대한 전사에 참여하였다.

#syll/AP	#syll/CL	#syll/IP	#AP/IP
5.40	1.57	14.25	3.24

아래의 표 3은 표 2의 주석으로 인한 접어(CL), 강세구(AP) 및 억양구(IP)의 분포를 나타내고 있다.

경계	비율(숫자)
CL	11.24% (9,828)
AP	59.47% (52,014)
IP	29.29% (25,614)

표 3에 따르면, 전체 어절의 11.24%가 접어 경계(CL)에 해당함을 확인할 수 있는데, 이와 같이 접어로 예측되는 경우는 앞/위에 연접하는 다른 접어들과 함께 음운 규칙이 적용되는 영역으로써, 이에 대한 정확한 예측이 이루어지지 않으면 올바른 자소열 음소열 변환이 불가능하다.

억양구, 강세구, 및 접어 기반의 운율 구조를 기반으로 운율 단위 예측 시스템의 성능은 k-fold 교차검증에 의하여 확인될 수 있으며, 위 데이터에 대하여 10-cross 검증을 수행 하였다,

운율 단위 예측의 경우 오차율 18.53% 범위내에서, 접어, 강세구 및 억양구의 평균 F-1은 각각 79.81%, 86.64%, 75.24% 이었다.

자소열 음소열 변환(G2P) 시스템의 평가에는 위 운율 단위 예측에서 사용한 데이터 가운데 9번째 폴드(fold)를 사용하였으며, 아래의 표 4는 9번째 폴드에 대한 통계자료이고, 운율 단위 예측 결과는 표 5와 같다.

Fold no.	9
문장(Sentences)	589
어절	8,675
음소(Phonemes)	27,828

	Precision	Recall	F-1
CL	91.20%	71.25%	80.00%
AP	83.17%	91.67%	87.21%
IP	81.55%	71.38%	76.13%

자소열 음소열 변환 시스템의 성능은 음소 레벨(phoneme level), 음절 레벨(syllable level) 및 단어 레벨(word level)에 따라 평가될 수 있다.

아래의 표 6은 억양구 및 강세구 기반의 운율 구조에 따라 텍스트를 음성으로 변환하는 종래의 자소열 음소열 변환 시스템과 억양구, 강세구 및 접어 기반의 운율 구조에 따라 텍스트를 음성으로 변환하는 본 발명의 시스템 간의 성능 비교를 나타내고 있다.

	음소	음절	단어
종래 G2P 시스템	90.69%	78.38%	41.27%
본 발명의 시스템	94.54%	87.19%	63.75%

표 6에 따르면, 억양구와 강세구 기반의 운율 구조에 기초하여 텍스트를 음성으로 변환한 기존 G2P 시스템보다 운율 경계에서 접어까지 고려하여 텍스트를 음성으로 변환한 본 발명의 시스템 성능이 현저하게 좋아진 것을 확인할 수 있다. 이는 하나의 강세구나 억양구로 발음하는 어절인 접어에 대한 예측이 포함되었고, 뿐만 아니라 그에 대한 정확한 발음이 생성될 수 있었음에 기인한다.

본 발명의 실시예에 따른 방법들은 다양한 컴퓨터 시스템을 통하여 수행될 수 있는 프로그램 명령(instruction) 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.

본 실시예에 따른 프로그램은 PC 기반의 프로그램 또는 모바일 단말 전용의 어플리케이션으로 구성될 수 있다. 본 실시예에서의 음성합성을 위한 서비스 앱은 독립적으로 동작하는 프로그램 형태로 구현되거나, 혹은 특정 어플리케이션의 인-앱(in-app) 형태로 구성되어 상기 특정 어플리케이션 상에서 동작이 가능하도록 구현될 수 있다.

도 6은 본 발명의 일 실시예에 있어서, 컴퓨터 시스템의 내부 구성의 일례를 설명하기 위한 블록도이다. 컴퓨터 시스템(600)은 적어도 하나의 프로세서(processor)(610), 메모리(memory)(620), 주변장치 인터페이스(peripheral interface)(630), 입/출력 서브시스템(I/O subsystem)(640), 전력 회로(650) 및 통신 회로(660)를 적어도 포함할 수 있다. 이때, 컴퓨터 시스템(600)은 사용자 단말에 해당될 수 있다.

메모리(620)는, 일례로 고속 랜덤 액세스 메모리(high-speed random access memory), 자기 디스크, 에스램(SRAM), 디램(DRAM), 롬(ROM), 플래시 메모리 또는 비휘발성 메모리를 포함할 수 있다. 메모리(620)는 컴퓨터 시스템(600)의 동작에 필요한 소프트웨어 모듈, 명령어 집합 또는 그밖에 다양한 데이터를 포함할 수 있다. 이때, 프로세서(610)나 주변장치 인터페이스(630) 등의 다른 컴포넌트에서 메모리(620)에 액세스하는 것은 프로세서(610)에 의해 제어될 수 있다. 메모리(620)에는 음성 변환하고자 하는 텍스트가 로딩될 수 있다. 예컨대, 사용자에 의해 선택된 사전 예문, 뉴스 기사 등의 텍스트가 메모리(620)에 로딩될 수 있다.

주변장치 인터페이스(630)는 컴퓨터 시스템(600)의 입력 및/또는 출력 주변장치를 프로세서(610) 및 메모리(620)에 결합시킬 수 있다. 프로세서(610)는 메모리(620)에 저장된 소프트웨어 모듈 또는 명령어 집합을 실행하여 컴퓨터 시스템(600)을 위한 다양한 기능을 수행하고 데이터를 처리할 수 있다.

입/출력 서브시스템(640)은 다양한 입/출력 주변장치들을 주변장치 인터페이스(630)에 결합시킬 수 있다. 예를 들어, 입/출력 서브시스템(640)은 모니터나 키보드, 마우스, 프린터 또는 필요에 따라 터치스크린이나 센서 등의 주변장치를 주변장치 인터페이스(630)에 결합시키기 위한 컨트롤러를 포함할 수 있다. 다른 측면에 따르면, 입/출력 주변장치들은 입/출력 서브시스템(640)을 거치지 않고 주변장치 인터페이스(630)에 결합될 수도 있다.

전력 회로(650)는 단말기의 컴포넌트의 전부 또는 일부로 전력을 공급할 수 있다. 예를 들어, 전력 회로(650)는 전력 관리 시스템, 배터리나 교류(AC) 등과 같은 하나 이상의 전원, 충전 시스템, 전력 실패 감지 회로(power failure detection circuit), 전력 변환기나 인버터, 전력 상태 표시자 또는 전력 생성, 관리, 분배를 위한 임의의 다른 컴포넌트들을 포함할 수 있다.

통신 회로(660)는 적어도 하나의 외부 포트를 이용하여 다른 컴퓨터 시스템과 통신을 가능하게 할 수 있다. 또는 상술한 바와 같이 필요에 따라 통신 회로(660)는 RF 회로를 포함하여 전자기 신호(electromagnetic signal)라고도 알려진 RF 신호를 송수신함으로써, 다른 컴퓨터 시스템과 통신을 가능하게 할 수도 있다.

이러한 도 6의 실시예는, 컴퓨터 시스템(600)의 일례일 뿐이고, 컴퓨터 시스템(600)은 도 6에 도시된 일부 컴포넌트가 생략되거나, 도 6에 도시되지 않은 추가의 컴포넌트를 더 구비하거나, 2개 이상의 컴포넌트를 결합시키는 구성 또는 배치를 가질 수 있다. 예를 들어, 모바일 환경의 통신 단말을 위한 컴퓨터 시스템은 도 6에 도시된 컴포넌트들 외에도, 터치스크린이나 센서 등을 더 포함할 수도 있으며, 통신 회로(660)에 다양한 통신 방식(WiFi, 3G, LTE, Bluetooth, NFC, Zigbee 등)의 RF 통신을 위한 회로가 포함될 수도 있다. 컴퓨터 시스템(600)에 포함 가능한 컴포넌트들은 하나 이상의 신호 처리 또는 어플리케이션에 특화된 집적 회로를 포함하는 하드웨어, 소프트웨어, 또는 하드웨어 및 소프트웨어 양자의 조합으로 구현될 수 있다.

본 발명의 실시예들은 도 1 내지 도 6을 통해 설명한 상세 내용을 바탕으로 보다 단축된 동작들 또는 추가의 동작들을 포함할 수 있다. 또한, 둘 이상의 동작이 조합될 수 있고, 동작들의 순서나 위치가 변경될 수 있다.

이와 같이, 본 발명의 실시예에 따르면, 강세구 및 억양구 두 계층의 운율 경계에서 문자 합성을 확인하여 음소열을 생성하지 않고, 억양구, 강세구에 접어를 더 고려하는 세가지 계층의 운율 경계에서 문자 합성 여부를 확인하여 음소열을 생성함에 따라, 변환된 TTS 음성의 발음을 실제 발음처럼 자연스럽게 출력할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

200: 음성합성 시스템
211: 운율 단위 추정부
212: 자소열 음소열 변환부
213: 음성 출력부

Claims

컴퓨터로 구현되는 자소열 음소열 변환 방법에 있어서,
음성 변환하고자 하는 텍스트를 입력받는 단계;
억양구(IP), 강세구(AP), 및 접어(CL) 기반으로 미리 정의된 운율 구조에 기초하여 상기 텍스트의 운율 단위를 추정하는 단계; 및
상기 추정된 운율 단위에 기초하여 자소열을 음소열로 변환하는 단계
를 포함하는 운율 정보 기반의 자소열 음소열 변환 방법.
제1항에 있어서,
상기 접어는,
운율적으로 비독립적인 단위로서, 단독으로 강세구를 형성하지 못하는 어절을 나타내고,
상기 강세구는,
하나 이상의 단어 또는 둘 이상의 접어로 구성되며,
상기 억양구는,
하나 이상의 강세구로 구성되는 것
을 특징으로 하는 운율 정보 기반의 자소열 음소열 변환 방법.
제1항에 있어서,
상기 자소열을 음소열로 변환하는 단계는,
상기 텍스트가 구성하는 둘 이상의 어절이 하나의 강세구 또는 억양구로 실현됨에 따라 발생하는 발음의 변화를 반영한 발음 기호를 해당 어절에 맵핑하여 상기 음소열을 생성하는 것
을 특징으로 하는 운율 정보 기반의 자소열 음소열 변환 방법.
제1항에 있어서,
상기 운율 단위를 추정하는 단계는,
상기 텍스트가 구성하는 각 어절 별로 상기 운율 단위를 추정하는 것
을 특징으로 하는 운율 정보 기반의 자소열 음소열 변환 방법.
제1항에 있어서,
상기 자소열을 음소열로 변환하는 단계는,
어절 내의 음소와 음소의 이전 및 이후의 운율 경계를 포함하는 음소열을 생성하는 것
을 특징으로 하는 운율 정보 기반의 자소열 음소열 변환 방법.
제5항에 있어서,
상기 운율 경계는,
억양구 경계(IP-boundary), 강세구 경계(AP-boundary), 접어 경계(CL-boundary) 및 무경계(no-boundary) 중 적어도 하나를 포함하는 것
을 특징으로 하는 운율 정보 기반의 자소열 음소열 변환 방법.
제1항에 있어서,
상기 음성 변환하고자 하는 텍스트를 입력받는 단계는,
뉴스 기사, 모바일 번역기, 또는 모바일 사전으로부터 상기 텍스트를 입력받는 것
을 특징으로 하는 운율 정보 기반의 자소열 음소열 변환 방법.
컴퓨터 시스템이 음성합성을 제공하도록 제어하는 명령(instruction)을 포함하는 컴퓨터 판독가능 매체로서,
상기 명령은,
음성 변환하고자 하는 텍스트를 입력받는 단계;
억양구(IP), 강세구(AP), 및 접어(CL) 기반으로 미리 정의된 운율 구조에 기초하여 상기 텍스트의 운율 단위를 추정하는 단계;
상기 추정된 운율 단위에 기초하여 자소열을 음소열로 변환하는 단계; 및
상기 음소열에 기초하여 텍스트를 TTS(Text To Speech) 음성으로 변환하는 단계
를 포함하는 방법에 의하여 상기 컴퓨터 시스템을 제어하는, 컴퓨터 판독가능 저장 매체.
음성 변환하고자 하는 텍스트가 로딩되는 메모리;
억양구(IP), 강세구(AP), 및 접어(CL) 기반으로 미리 정의된 운율 구조에 기초하여 상기 텍스트의 운율 단위를 추정하는 운율 단위 추정부;
상기 추정된 운율 단위에 기초하여 자소열을 음소열로 변환하고, 상기 음소열에 기초하여 텍스트를 TTS(Text To Speech) 음성으로 변환하는 자소열 음소열 변환부; 및
상기 TTS 음성을 사용자 단말의 스피커를 통해 출력하는 음성 출력부
를 포함하는 음성합성 시스템.
제9항에 있어서,
상기 접어는,
운율적으로 비독립적인 단위로서, 단독으로 강세구를 형성하지 못하는 어절을 나타내고,
상기 강세구는,
하나 이상의 단어 또는 둘 이상의 접어로 구성되며,
상기 억양구는,
하나 이상의 강세구로 구성되는 것
을 특징으로 하는 음성합성 시스템.
제9항에 있어서,
상기 자소열 음소열 변환부는,
상기 텍스트가 구성하는 둘 이상의 어절이 하나의 강세구 또는 억양구로 실현됨에 따라 발생하는 발음의 변화를 미리 정의된 음운 에 따라 발음 기호를 해당 어절에 맵핑하여 상기 음소열을 생성하는 것
을 특징으로 하는 음성합성 시스템.
제9항에 있어서,
상기 운율 단위 추정부는,
상기 텍스트가 구성하는 각 어절 별로 상기 운율 단위를 추정하는 것
을 특징으로 하는 음성합성 시스템.
제9항에 있어서,
상기 자소열 음소열 변환부는,
미리 정의된 음운 규칙에 따라 어절 내의 음소와 음소의 이전 및 이후의 운율 경계를 포함하는 음소열을 생성하는 것
을 특징으로 하는 음성합성 시스템.
제13항에 있어서,
상기 운율 경계는,
억양구 경계(IP-boundary), 강세구 경계(AP-boundary), 접어 경계(CL-boundary) 및 무경계(no-boundary) 중 적어도 하나를 포함하는 것
을 특징으로 하는 음성합성 시스템.
제9항에 있어서,
뉴스 기사, 모바일 번역기, 또는 모바일 사전으로부터 상기 텍스트를 입력받는 것
을 특징으로 하는 음성합성 시스템.