KR20220065483A

KR20220065483A - 단일음성기호집합을 활용한 인공신경망 기반 다국어 발화 텍스트 음성합성 방법 및 장치

Info

Publication number: KR20220065483A
Application number: KR1020200152058A
Authority: KR
Inventors: 한경훈
Original assignee: 주식회사 에스알유니버스
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2022-05-20

Abstract

본 발명은 단일음성기호집합을 활용한 인공신경망 기반 다국어 발화 텍스트 음성합성 방법 및 장치에 관한 것으로서, 제1 언어의 음성 데이터를 입력 받아 스펙트로그램을 생성하는 단계; 상기 제1 언어의 텍스트를 입력 받아 단일음성기호로 변환하는 단계; 제2 언어의 텍스트를 입력 받아 단일음성기호로 변환하는 단계; 상기 스펙트로그램 및 상기 단일음성기호로 변화된 데이터들을 인공신경망으로 학습을 수행하여 텍스트-음성 합성 모델을 생성하는 단계 및 학습된 상기 텍스트-음성 합성 모델을 이용하여 상기 제1언어의 음성으로 상기 제2언어를 발화하는 단계를 포함한다.

Description

단일음성기호집합을 활용한 인공신경망 기반 다국어 발화 텍스트 음성합성 방법 및 장치{Artificial neural-network based multilingual text-to-speech synthesis using a single set of phonetic symbols}

본 발명의 실시예들은 인공지능 기반으로 특정 인물의 목소리를 이용하여 여러 언어를 각 언어의 모국어 사용자 처럼 구사 가능한 단일음성기호집합을 활용한 인공신경망 기반 다국어 발화 텍스트 음성합성 방법 및 장치에 관한 것이다.

인공지능(AI: artificial intelligence)은 인간의 학습능력과 추론능력, 지각능력, 자연언어의 이해능력 등을 컴퓨터 프로그램으로 실현한 기술을 의미한다. 현재 개발되고 있는 인공지능은 대화형 사용자 인터페이스(CUI: conversational user interface)를 구현하기 위한 기술들에 주로 사용되고 있다. 여기에 사용되는 기술로 음성인식(STT: speech-to-text), 자연어 이해(NLU: natural language understanding), 자연어 생성(NLG: natural language generation), 텍스트-음성합성(TTS: text-to-speech) 등이 있다.

텍스트-음성합성은 임의의 문자열을 그에 해당되는 음성으로 변환하는 데 사용되는 　음성 합성 기술로서, 입력되는 문자열의 특성과 길이에 상관 없이 원하는 대상의 목소리로 해당 입력 문자열을 음성으로 변환하여 출력한다. 이를 통해, 스마트폰, TV, 스피커, 내비게이션 등과 같이 음성 인식을 통해 입력된 명령에 해당하는 문자열을 텍스트-음성합성 애플리케이션을 통해 일반 사람과 같이 자연스럽게 합성하여 재생 가능한 오디오 파일을 생성하거나 음향장비를 통해 출력하게 된다.

이러한 텍스트-음성합성 방식은 인공 신경망 기반의 텍스트-음성합성을 통해 종래의 기술에 비해 사람과 대화하는 수준의 자연스러운 음성 특징을 보여주고 있다. 다만, 인공 신경망 기반의 음성 합성 방법으로 자연스러운 음성 특징을 도출하기 위해서는 수많은 데이터의 학습이 필요하고, 다국어에 대해서는 각각의 언어 별로 데이터 학습을 수행하게 되므로, 각 언어별로 다른 음성이 도출될 수 밖에 없다는 문제점이 있었다.

전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.

대한민국 공개특허 제2005-0123007호

종래 기술의 문제점을 해결하기 위한 본 발명의 일 실시예는, 여러 사람의 목소리를 각각의 모국어로 녹음한뒤, 그 녹음한 사람들의 목소리 또는 그 목소리를 통해 만들어진 다른 목소리로 모국어가 아닌 다른 나라 언어를 발화 가능하게 만드는 단일음성기호집합을 활용한 인공신경망 기반 다국어 발화 텍스트 음성합성 방법 및 장치를 제공한다.

본 발명의 다른 실시예는, 인공지능 기반으로 특정 인물의 목소리를 이용하여 여러 언어를 각 언어의 모국어 사용자 처럼 구사 가능하게 만드는 단일음성기호집합을 활용한 인공신경망 기반 다국어 발화 텍스트 음성합성 방법 및 장치를 제공한다.

본 발명의 일 측면은, 제1 언어의 음성 데이터를 입력 받아 스펙트로그램을 생성하는 단계; 상기 제1 언어의 텍스트를 입력 받아 단일음성기호로 변환하는 단계; 제2 언어의 텍스트를 입력 받아 단일음성기호로 변환하는 단계; 상기 스펙트로그램 및 상기 단일음성기호로 변화된 데이터들을 인공신경망으로 학습을 수행하여 텍스트-음성 합성 모델을 생성하는 단계 및 학습된 상기 텍스트-음성 합성 모델을 이용하여 상기 제1언어의 음성으로 상기 제2언어를 발화하는 단계를 포함한다.

또한, 상기 텍스트 음성합성 방법은, 상기 제2언어의 음성데이터를 입력 받아 스펙트로그램을 생성하는 단계를 더 포함한다.

또한, 상기 단일음성기호로 변환하는 단계는, 입력된 텍스트에 대해 언어를 판별하는 단계; 언어의 발음 규칙을 분석하는 단계 및 언어를 기설정된 단일음성기호로 변환하여 출력하는 단계를 포함한다.

또한, 상기 단일음성기호로 변환하는 단계는, 국제음성기호(IPA) 또는 개발환경에 맞는 임의의 다국어 음성표기법으로 변환하는 것을 특징으로 한다. 단일음성기호로 변환하는 방법은, 문자열을 숫자로 치환하는 방식, 원-핫-인코딩과 같은 벡터 방식, 모든 입력언어를 로마자 또는 공통된 문자로 변환하는 방식, 특정 형태의 인코딩 방식 등 여러가지가 있다.

또한, 본 발명은 발음의 구분만 명확하다면, 위에 언급된 어떤 방법을 사용해도 같은 결과를 얻을 수 있다는 특징이 있다.

본 발명의 다른 측면은, 제1 언어의 음성 데이터를 입력 받아 스펙트로그램을 생성하는 스펙트로그램 생성부와, 상기 제1 언어의 텍스트를 입력 받아 단일음성기호로 변환하고, 제2 언어의 텍스트를 입력 받아 단일음성기호로 변환하는 단일음성기호 변환부와, 상기 스펙트로그램 및 상기 단일음성기호로 변화된 데이터들을 인공신경망으로 학습을 수행하여 텍스트-음성 합성 모델을 생성하는 텍스트-음성 합성 모델부 및 학습된 상기 텍스트-음성 합성 모델을 이용하여 상기 제1언어의 음성으로 상기 제2언어를 발화하는 출력부를 포함하는 단일음성기호집합을 활용한 인공신경망 기반 다국어 발화 텍스트 음성합성 장치.

또한, 상기 스펙트로그램 생성부는, 상기 제2언어의 음성데이터를 입력 받아 스펙트로그램을 생성하는 단계를 더 포함한다.

또한, 상기 단일음성기호 변환부는, 입력된 텍스트에 대해 언어를 판별하고, 언어의 발음 규칙을 분석하여 기설정된 단일음성기호로 변환하여 출력하는 것을 특징으로 한다.

또한, 상기 단일음성기호 변환부는, 국제음성기호(IPA) 또는 사용자의 환경에 맞는 음성기호군으로 변환하는 것을 특징으로 한다.

상기 언급된 사용자에 맞는 음성기호군으로, 숫자 치환 방식, 벡터 방식, 공통 문자 방식, 특정 형태 인코딩 방식 또는 다른 공통음성기호 중 하나를 선택할 수 있다.

전술한 것 외의 다른 측면, 특징, 이점이 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.

본 발명의 일 실시예에 따른 단일음성기호집합을 활용한 인공신경망 기반 다국어 발화 텍스트 음성합성 방법 및 장치는, 인공지능 기반으로 특정 인물의 목소리를 이용하여 여러 언어를 각 언어의 모국어 사용자인 것 처럼 또는 그 언어를 특정인물이 본인의 억향을 가지고 완벽하게 구사 가능하도록 할 수 있다.

그리고 종래기술에 비해 더 직관적이면서도 간단한 방법으로 모든 언어를 학습한 음성발화 모듈을 만들 수 있다. 학습한 음성발화 모듈은 간단하면서도 여러 목소리 또는 한 사람의 목소리로 각각의 모국어에 해당되는 언어를 입력시켰을 때 입력된 모든 언어를 입력된 모든 목소리로 발화할 수 있다.

이와 같이 본 발명을 통해 목소리는 원래 녹음자의　프로파일을 유지하면서 다른 언어를 유창하게 발화할 수 있다. 그리고 원 목소리 제공자의 특성과 습관이 다른 언어를 발화하는 때에도 그대로 드러날 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 여러 화자의 목소리를 기반으로 한 텍스트-음성 합성 장치를 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 각 언어별 고유문자를 언어별 로마자 표기법과, 국제음성기호로 나타낸 표이다.
도 3은 본 발명의 일 실시예에 따른 국제음성기호를 수치로 치환한 값을 도시한 표이다.
도 4는 본 발명의 일 실시예에 다른 한국어에 대한 IPA 차트 예시를 도시한 표이다.
도 5는 본 발명의 일 실시예에 다른 영어에 대한 IPA 차트 예시를 도시한 표이다.
도 6은 본 발명의 일 실시예에 따른 여러 화자의 목소리를 기반으로 한 텍스트-음성 합성 방법을 도시한 순서도이다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 본 발명의 효과 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 다양한 형태로 구현될 수 있다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 하며, 도면을 참조하여 설명할 때 동일하거나 대응하는 구성 요소는 동일한 도면부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

이하의 실시예에서, 제1, 제2 등의 용어는 한정적인 의미가 아니라 하나의 구성 요소를 다른 구성 요소와 구별하는 목적으로 사용되었다.

이하의 실시예에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

이하의 실시예에서, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다.

이하의 실시예에서, 막, 영역, 구성 요소 등의 부분이 다른 부분 위에 또는 상에 있다고 할 때, 다른 부분의 바로 위에 있는 경우뿐만 아니라, 그 중간에 다른 막, 영역, 구성 요소 등이 개재되어 있는 경우도 포함한다.

도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도시된 바에 한정되지 않는다.

본 발명은 인공신경망 기반 가상 음성 합성 기술을 토대로 특정 인물의 목소리를 이용하여 여러 언어를 각 언어의 모국어 사용자인 것 처럼 구사하기 위한 것으로 예를 들어, 특정 문장을 특정 인물의 목소리로 그 문장에 해당하는 언어의 모국어 사용자 처럼 발화를 가능하게 하는 기술이다.

도 1은 본 발명의 일 실시예에 따른 여러 화자의 목소리를 기반으로 한 텍스트-음성 합성 장치를 도시한 도면이다.

도 1을 참조하면, 텍스트-음성 합성 장치(100)는 음성 입력부(110), 스펙트로그램(Spectrogram) 생성부(120), 텍스트 입력부(130), 단일음성기호 변환부(140), 텍스트-음성 합성 모델부(150) 및 출력부(160) 등을 포함할 수 있다.

텍스트-음성 합성 장치(100)는 신경망 기반 다국어 음성 발화 모듈로서, 신경망에 음성 및 텍스트 데이터를 입력시켜 학습을 수행한다. 이에 음성 입력부(110)에서는 복수의 음성 데이터를 입력 받게 된다. 음성 데이터는 여러 언어를 포함하는 음성이며, 음성의 발화자는 한명 혹은 여러명이 될 수 있다. 음성 입력부(110)는 음성 데이터를 파일로 전송 받거나, 발화자의 음성을 녹음하여 저장할 수 있다. 그리고 음성 입력부(110)는 입력된 음성 데이터를 스펙트로그램 생성부(120)로 전달하게 된다.

스펙트로그램 생성부(120)는 음성 데이터를 2차원 평면에 그림으로 표현하는 방식으로 스펙트로그램을 생성하게 된다. 스펙트로그램은 소리나 파동을 시각화하여 파악하기 위한 도구로, 특정 파형에 대한 스펙트럼이 시각화되어 있다. 생성된 스펙트로그램은 다른 발화자가 같은 문장을 말하거나, 같은 발화자가 다른 문장을 말하는 경우, 서로 다른 모양으로 생성된다.

텍스트 입력부(130)는 대본과 같은 텍스트 데이터를 입력 받게 된다. 여기서 텍스트 데이터는 음성 입력부(110)에 입력된 음성 데이터에 대응하는 문장 또는 문자열을 포함하는 데이터이다.

단일음성기호 변환부(140)는 텍스트 입력부(130)로부터 전달 받은 텍스트 데이터를 단일음성기호집합 내 단일음성기호로 변환을 수행하는 것으로, 언어 판별부(142), 발음 규칙 분석부(144) 및 변환 출력부(146) 등을 포함할 수 있다. 언어 판별부(142)는 입력된 텍스트 데이터에 대한 언어를 판별하고, 발음 규칙 분석부(144)는 언어 판별부(142)를 통해 판별된 언어에 대한 발음 규칙을 분석한다. 즉, 텍스트 데이터에 대한 각 국가별 언어를 판별하여 판별된 언어에 해당하는 발음 규칙을 설정한다. 그리고 변환 출력부(146)는 판별된 언어에 해당하는 발음규칙을 토대로 단일음성기호로 변환하여 출력하게 된다. 이러한 단일음성기호 변환부(140)는 입력된 문장에 해당되는 모든 언어의 발음을 기술할 수 있는 문자 혹은 공통 기호로 변환시켜 텍스트-음성 합성 모델부(150)로 전달할 수 있다.

텍스트-음성 합성 모델부(150)는 스펙트로그램 생성부(120)와, 단일음성기호 변환부(140)로부터 전달된 데이터로부터 학습을 수행하여 텍스트-음성 합성 모델을 생성하게 된다. 즉, 텍스트-음성 합성 모델부(150)에서는 기본적으로 각 음성 데이터에 해당하는 문자열이 존재할 때, 각 발화자들의 목소리를 기반으로 목소리에 해당하는 공통기호로 변환된 문자들을 공유하는 조건 내에서 그 언어를 학습할 수 있다. 그리고 문장단위로 읽은 녹음자료와 대본을 통해 여러 발화자들의 목소리를 동시에 학습을 할 수 있으며, 이에 텍스트-음성 합성 모델부(150)에서 생성된 텍스트-음성 합성 모델을 통해 출력부(160)에서는 제 1언어를 모국어로 발화하는 목소리로 제2언어를 모국어 사용자 또는 상당한 숙련자 처럼 발화하는 목소리를 출력할 수 있다.

구체적으로 텍스트-음성 합성 모델부(150)는 스펙트로그램 생성부(120)로부터 전달된 여러 발화자의 음성 별 스펙트로그램 데이터와 단일음성기호 변환부(140)로부터 전달 받은 여러 언어의 텍스트에 대해 공통기호 로 변환된 데이터를 토대로 언어에 무관하게 신경망 학습을 수행할 수 있다. 신경망 학습은 여러 목소리로 각각의 모국어에 해당되는 언어를 입력시켰을 때 입력된 모든 언어를 입력된 모든 목소리로 발화할 수 있도록 학습되며, 한 사람의 목소리만 가지고 학습을 수행할 수도 있다.

그리고 신경망 학습을 완료하거나, 학습을 종료한 후, 텍스트-음성 합성 모델을 생성할 수 있다. 그리고 이와 같이 생성된 텍스트-음성 합성 모델을 통해 문자들의 조합과 그 조합의 길이, 문장에서의 위치 등에 따라 해당 녹음자의 목소리 정보에 따라 원하는 사람의 목소리를 사용해 임의의 문장을 발화하게 할 수 있다.

출력부(160)는 텍스트-음성 합성 모델부(150)를 통해 생성된 텍스트-음성 합성 모델로부터 전달 받은 음성 데이터를 출력하는 것으로 예를 들어, 스피커가 될 수 있다.

이를 통해 텍스트-음성 합성 장치(100)는 텍스트-음성 합성 모델 생성된 시점부터 학습된 언어들이 가지고 있는 발음군에 대해 입력된 문자열을 해당 언어의 모국어 사용자 처럼 읽을 수 있는 기능을 구현할 수 있다.

이러한 텍스트-음성 합성 장치(100)는 신경망 기반 다국어 음성 발화 모듈로서, 순환 신경망(RNN: Recurrent Neural Network)의 인코더와 디코더를 활용한 시퀀스-투-시퀀스(sequence-to-sequence) 모델이 기반으로 사용될 수 있으며, 예를 들어, 타코트론2(Tacotron 2)　알고리즘이 사용될 수 있다.

한편, 텍스트-음성 합성 모델부(150)에서 두 가지 이상의 언어를 학습할 때 언어 간 동일한 문자의 적용을 위해 단일음성기호 변환부(140)에서 그 언어들을 같은 문자로서 표기시키는 방법은 여러가지가 있으며, 예를 들어, 로마자로 표기하거나, 숫자로 표현할 수도 있고, 국제음성기호(IPA: International Phonetic Alphabet)를 사용하는 방법이 적용될 수 있다. 사용자가 원한다면, 본인이 고안한 발음기호를 사용할 수도 있다.

도 2는 본 발명의 일 실시예에 따른 각 언어별 고유문자를 언어별 로마자 표기법과, 국제음성기호로 나타낸 표이고, 도 3은 본 발명의 일 실시예에 따른 국제음성기호를 수치로 치환한 값을 도시한 표이다.

도 2를 참조하면, 각 표기법에 대한 언어별 예시로서, 예를 들어, 한국어 "내가 케이크를 먹었다"에 대응하는 영어 및 일본어 고유 문자로 이루어진 문장에 대해 각각을 언어별 로마자 표기법으로 나타낼 수 있고, 문장에 대해 각 언어별로 발음되는대로 국제음성기호로서 표기할 수 있다.

그리고 도 3을 참조하면, 도 2의 한국어, 영어 및 일본어 별 문장을 수치화된 형태로 나타낼 수 있다. 즉, 한국어 "내가 케이크를 먹었다"와 같은 문장을 [40, 28, 1, 10, 17, 38, 10, 0, 34, 4, 10, 0, 36, 23, 36, 23, 38, 16, 28, 12, 10, 12, 9. 19, 9, 15, 17]로 표현할 수 있다. 이러한 수치화된 값은 로마자 표기법 또는 국제음성기호의 문자들을 수로 일대일 대응시켜 얻을 수 있다.

일 실시예로서, 여러 언어의 문자열을 공통기호로 변환을 위한 단일음성기호로서, 국제음성기호가 사용될 수 있다. 국제음성기호는 어느 특정 언어를 떠나서 인간이 만들어내는 세계 모든 음을 표기할 수 있도록 음성부호의 표준화 시도로 1888년 고안된 기호이다. 이를 통해 한국어를 포함한 모든 언어의 음을 표기할 수 있다.

이와 같이 국제음성 기호의 경우는 현재 언어학자들에게 알려진 언어들의 발음은 모두 국제음성기호로 발음이 표기되어 있으며, 새로운 언어를 장치에 적용 또는 추가하기 쉽고, 현존하는 문자체계 중 가장 많은 발음을 정확하게 표현하도록 되자인 된 표기체계이기 때문에 단일음성기호로서 사용이 용이할 수 있다.

텍스트-음성 합성 장치(100)에서는 이러한 국제음성기호를 통해 일차적으로 문장을 국제음성기호로 변환한 후 모든 문장들과 오디오 샘플들을 언어에 무관하게 함께 학습을 수행할 수 있다. 이에 하기에서는 단일음성기호로서 국제음성기호를 예로서, 설명할 것이나 이에 한정되는 것은 아니며, 국제음성기호 외에 개발환경에 맞는 임의의 다국어 음성표기법으로 변환하는 방법이 사용될 수 있음은 물론이다.

예를 들어, 숫자 치환법, 벡터화, 공통 문자화, 다른 인코딩 방식 등이 사용될 수 있다. 숫자 치환법의 경우는 각 문자에 해당되는 발음을 임의의 숫자로 변환하는 기법이고, 벡터화는 각 발음에 대한 값을 원-핫-인코딩(one-hot-encoding)과 같은 벡터화 또는 이와 유사한 방법으로 변환하는 방식이다. 그리고 공통 문자화는 각 발음을 공통 문자로 바꾸는 방식이고, 특정 형태 인코딩 방식은 각 발음을 '[____]'와 같은 특정 형태로 저장하여 벡터화 시키는 방식이다.

이와 같이 단일음성기호 변환은 국제음성기호 또는 사용자의 환경에 맞는 음성기호군으로 변환하여 사용할 수 있으며, 발음의 구분만 명확하다면, 위에 언급된 어떤 방법을 사용해도 같은 결과를 얻을 수 있다는 특징이 있다.

단일음성기호 변환부(140)에서는 입력된 음성 데이터를 국제음성기호로 변환하여 출력하는 방식으로 사용할 수 있다. 상용되는 문자는 발음만을 표기하므로 발음기호로 표기가 가능하나, 일본어나 중국어와 같은 경우 로마자 또는 병음으로 바꾼 후에 발음기호로 바꾸는 방법을 채택할 수 있다.

구체적으로 단일음성기호 변환부(140)에서는 대표적인 언어들에 대해 아래와 같이 IPA 표기를 설정하여 변환할 수 있다.

1) 한국어의 IPA 표기

한국어에 대해서는 우선 풀어쓰기를 수행한 후, 표준어에 맞춘 발음 규칙에 따라 변환하고, 이를 기 설정된 한글-IPA 대응표를 통해 한국어의 대부분의 발음을 기술할 수 있다.

도 4는 본 발명의 일 실시예에 다른 한국어에 대한 IPA 차트 예시를 도시한 표이며, 도 4의 표는 기 설정된 한글-IPA 대응표의 예시가 될 수 있으며, 문자별로 IPA 대응 관계를 확인할 수 있다.

2) 영어의 IPA 표기

영어의 경우, 한국어를 IPA로 변환하는 것과 같이 영어에서 발음나는 대로 적은 후 IPS로 변환시켜 사용할 수 있다. 또한 영어는 쓰는 법과 읽는 법이 차이가 나는 단어들이나 문자의 조합들이 몇가지 있는데 이 같은 경우 단어에서 IPA로 곧장 치환하는 방법을 사용할 수 있다.

도 5는 본 발명의 일 실시예에 다른 영어에 대한 IPA 차트 예시를 도시한 표이며, 도 5의 표는 기 설정된 영어-IPA 대응표의 예시가 될 수 있으며, 문자별, 단어별로 IPA 대응 관계를 확인할 수 있다.

파이썬의 경우, 사전형식을 사용하여 일괄치환하거나, 이러한 역할을 수행하는 라이브러리를 사용하여 치환할 수 있다. 즉, 다른 프로그래밍 언어에서도 예외에 포함시켜야 하는 영어 철자와 그에 해당되는 발음이 기술된 사전형식의 자료가 있는 경우, 이를 토대로 일괄치환을 수행할 수 있다.

3) 일본어의 IPA 표기

일본어의 경우, 우선 일본어 한자를 히라가나 또는 가타카나로 바꾸는 과정을 거치거나 그 한자를 발음 그대로 IPA로 옮기는 방법 중 하나를 선택하여 구현할 수 있다. 일본어 히라가나와 가타카나에는 큰 발음 규칙이 없기 때문에 다른 언어에 적용한 IPA 규칙에 맞추어 변환을 수행할 수 도 있다.

파이썬의 경우, 일본어 한자를 포함해서 일본어를 일본어 로마자로 변환해주는 라이브러리가 다수 존재하는데(예를 들어, pykakasi) 이런 류의 라이브러리는 모든 한자어를 정확하게 바꿔주지 못한다. 영어의 IPA 표기 방식과 같이 한자어를 예외 철자들로서, 사전형식의 자료를 사용하여 변환을 수행할 수도 있다. 이때, 사전형식은 한자어에 포함된 가나들이 포함될 수 있다.

4) 중국어의 IPA 표기

중국어(보통화, 북경어, 광둥어)의 경우는 각 한자에 대응하는 병음의 종류가 대부분 하나거나 그 문자 전후에 존재하는 문자에 따라 확실하게 발음이 결정되기에 라이브러리(예를 들어, pypinyin)를 통해 병음으로 변환한 후, 각 병음에 해당되는 IPA로 바꿀 수 있다.

5) 조지아/그루지야어, 크메르어, 인도네시아어, 말레이시아어와 베트남어의 IPA표기

이 언어들은 발음 그대로 문자화되므로 다른 언어들과 동일한 표기 방식으로 변환하여 표기할 수 있다.

이에 텍스트-음성 합성 장치(100)에 여러 언어로 주어진 음성-문장 쌍들이 입력되는 경우, 스펙트로그램 생성부(120)는 음성에 대한 스펙트로그램을 생성하여 텍스트-음성 합성 모델부(150)로 전달하고, 단일음성기호 변환부(140)는 문장들을 국제음성기호 또는 그와 비슷한 모든 언어에 공통으로 치환가능한 발음기호를 사용하여 변환을 수행한 후, 텍스트-음성 합성 모델부(150)로 전달함으로써, 텍스트-음성 합성 모델부(150)에서는 다국어 발화 음성 데이터의 출력을 가능하게 할 수 있다.

텍스트-음성 합성 모델에서는 언어별 모국어 사용 목소리의 발음과 강세 그리고 억양만이 발화를 가능하게 하는 요인으로 작용되어 기호가 단일화된 문자열이 입력되는 경우, 단일발화 모듈이 다국어발화 모듈로 구현될 수 있다.

도 6은 본 발명의 일 실시예에 따른 여러 화자의 목소리를 기반으로 한 텍스트-음성 합성 방법을 도시한 순서도이다.

도 6을 참조하면, S600 단계에서 텍스트-음성 합성 장치(100)의 음성 입력부(110)에서는 복수의 음성 데이터를 입력 받아 스펙트로그램 생성부(120)로 전달하고, 스펙트로그램 생성부(120)에서는 전달된 음성 데이터에 대한 스펙트로그램을 생성하게 된다.

S610 단계에서 텍스트 입력부(130)는 음성 입력부(110)에 입력된 복수의 음성 데이터에 해당하는 대본, 문자열 등의 텍스트 데이터를 입력 받아 단일음성기호로 변환을 수행하게 된다. 구체적으로 입력된 텍스트 데이터에 대한 언어를 판별하고, 판별된 언어에 대한 발음 규칙을 분석한 후, 분석된 발음규칙을 토대로 단일음성기호로 변환을 수행하게 된다.

이와 같이 단일음성기호 변환부(140)는 입력된 문장에 해당되는 모든 언어의 발음을 기술할 수 있는 단일음성기호 집합으로부터 공통기호로 변환시켜 텍스트-음성 합성 모델부(150)로 전달하게 된다. 여기서 공통기호로는 국제음성기호, 숫자치환, 국제음성기호의 숫자치환 값, 벡터화, 공통 문자화, '[___]' 형태의 인코딩 중 적어도 하나의 방법을 사용하여 변환시키게 되며, 변환된 공통기호는 텍스트-음성 합성 모델부(150)로 전달된다.

S620 단계에서 텍스트-음성 합성 모델부(150)는 스펙트로그램 생성부(120)와, 단일음성기호 변환부(140)로부터 전달된 데이터로부터 학습을 수행하여 텍스트-음성 합성 모델을 생성하게 된다. 텍스트-음성 합성 모델부(150)는 여러 발화자의 녹음자료를 통해 문자분포에 대한 발화법의 학습을 수행한 상태이므로, 각 발화자의 음성 특정을 유지하면서도, 여러 언어를 입력한 모든 목소리로의 발화를 가능하게 한다.

예를 들어 여성 n명과 남성 m명의 목소리와 그에 해당하는 대본을 이용해서 총 n+m개의 발화 가능한 목소리를 얻고자 하는 경우, 발화자 A의 목소리 정보 중 빠진 단어 또는 음절이 있는 경우에도, 다른 발화자들의 목소리 정보 중 그 음절이 있는 경우, A의 목소리로 녹음되지 않은 소리가 발화될 수 있고, 발화자 각각의 어투, 특성, 습관도 다른 언어를 발화할 때 유지된다는 특징이 있다.

그리고 S630 단계에서 출력부(160)는 텍스트-음성 합성 모델부(150)를 통해 생성된 텍스트-음성 합성 모델로부터 전달 받은 음성 데이터를 출력하게 되며, 이때 출력되는 음성 데이터는 발화자의 특징이 포함된 음성이 출력된다.

예를 들어, 텍스트-음성 합성 모델이 생성된 후, 텍스트-음성 합성 장치(100)에 한국어를 발화하는 목소리 데이터와, 영어 대본을 입력하는 경우, 출력부(160)는 한국어 목소리로 영어의 특징적인 발음과 강세 그리고 억양을 자연스럽게 발화하는 음성을 출력하게 된다. 이와 같이 텍스트-음성 합성 장치(100)에서는 텍스트-음성 합성 모델 생성된 시점부터 학습된 언어들이 가지고 있는 발음군에 대해 입력된 문자열을 해당 언어의 모국어 사용자 처럼 읽을 수 있는 기능을 구현하게 된다.

본 발명의 일 실시예에 따른 단일음성기호집합을 활용한 인공신경망 기반 다국어 발화 텍스트 음성합성 방법은, 각 발화자의 특성을 유지할 수 있으며, 여러 언어를 입력한 모든 목소리로 발화할 수 있으므로 사용자는 자신이 사용하는 언어에 대한 음성을 토대로 다양한 국가의 언어를 발화할 수 있는 이점이 있다.

한편, 본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장 장치 등이 있다.

또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.

본 발명에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 따라 본 발명이 한정되는 것은 아니다.

본 발명에서 모든 예들 또는 예시적인 용어(예를 들어, 등등)의 사용은 단순히 본 발명을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 발명의 범위가 한정되는 것은 아니다. 또한 해당 기술 분야의 통상의 기술자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터(factor)에 따라 구성될 수 있음을 알 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라, 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

이와 같이 본 발명은 도면에 도시된 일 실시예를 참고로 하여 설명하였으나 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시예의 변형이 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.

100: 텍스트-음성 합성 장치
110: 음성 입력부
120: 스펙트로그램 생성부
130: 텍스트 입력부
140: 단일음성기호 변환부
150: 텍스트-음성 합성 모델부
160: 출력부

Claims

제1 언어의 음성 데이터를 입력 받아 스펙트로그램을 생성하는 단계;
상기 제1 언어의 텍스트를 입력 받아 단일음성기호로 변환하는 단계;
제2 언어의 텍스트를 입력 받아 단일음성기호로 변환하는 단계;
상기 스펙트로그램 및 상기 단일음성기호로 변화된 데이터들을 인공신경망으로 학습을 수행하여 텍스트-음성 합성 모델을 생성하는 단계 및
학습된 상기 텍스트-음성 합성 모델을 이용하여 상기 제1언어의 음성으로 상기 제2언어를 발화하는 단계
를 포함하는 단일음성기호집합을 활용한 인공신경망 기반 다국어 발화 텍스트 음성합성 방법.
제1항에 있어서,
상기 텍스트 음성합성 방법은,
상기 제2언어의 음성데이터를 입력 받아 스펙트로그램을 생성하는 단계를 더 포함하는 단일음성기호집합을 활용한 인공신경망 기반 다국어 발화 텍스트 음성합성 방법.
제1항에 있어서,
상기 단일음성기호로 변환하는 단계는,
입력된 텍스트에 대해 언어를 판별하는 단계;
언어의 발음 규칙을 분석하는 단계 및
언어를 기설정된 단일음성기호로 변환하여 출력하는 단계
를 포함하는 단일음성기호집합을 활용한 인공신경망 기반 다국어 발화 텍스트 음성합성 방법.
제1항에 있어서,
상기 단일음성기호로 변환하는 단계는,
국제음성기호(IPA)로 변환하는 것을 특징으로 하는 단일음성기호집합을 활용한 인공신경망 기반 다국어 발화 텍스트 음성합성 방법.
제1항에 있어서,
상기 단일음성기호로 변환하는 단계는,
숫자 치환 방식, 벡터 방식, 공통 문자 방식, 특정 형태 인코딩 방식 중 하나인 것을 특징으로 하는 단일음성기호집합을 활용한 인공신경망 기반 다국어 발화 텍스트 음성합성 방법.
제1 언어의 음성 데이터를 입력 받아 스펙트로그램을 생성하는 스펙트로그램 생성부와,
상기 제1 언어의 텍스트를 입력 받아 단일음성기호로 변환하고, 제2 언어의 텍스트를 입력 받아 단일음성기호로 변환하는 단일음성기호 변환부와,
상기 스펙트로그램 및 상기 단일음성기호로 변화된 데이터들을 인공신경망으로 학습을 수행하여 텍스트-음성 합성 모델을 생성하는 텍스트-음성 합성 모델부, 및
학습된 상기 텍스트-음성 합성 모델을 이용하여 상기 제1언어의 음성으로 상기 제2언어를 발화하는 출력부,
를 포함하는 단일음성기호집합을 활용한 인공신경망 기반 다국어 발화 텍스트 음성합성 장치.
제6항에 있어서,
상기 스펙트로그램 생성부는,
상기 제2언어의 음성데이터를 입력 받아 스펙트로그램을 생성하는 단계를 더 포함하는 단일음성기호집합을 활용한 인공신경망 기반 다국어 발화 텍스트 음성합성 장치.
제6항에 있어서,
상기 단일음성기호 변환부는,
입력된 텍스트에 대해 언어를 판별하고, 언어의 발음 규칙을 분석하여 기설정된 단일음성기호로 변환하여 출력하는 것을 특징으로 하는 단일음성기호집합을 활용한 인공신경망 기반 다국어 발화 텍스트 음성합성 장치.
제6항에 있어서,
상기 단일음성기호 변환부는,
국제음성기호(IPA)로 변환하는 것을 특징으로 하는 단일음성기호집합을 활용한 인공신경망 기반 다국어 발화 텍스트 음성합성 장치.
제6항에 있어서,
상기 단일음성기호 변환부는,
숫자 치환 방식, 벡터 방식, 공통 문자 방식, 특정 형태 인코딩 방식 중 하나인 것을 특징으로 하는 단일음성기호집합을 활용한 인공신경망 기반 다국어 발화 텍스트 음성합성 장치.