KR20170107683A

KR20170107683A - 딥러닝 기반의 음성 합성 시스템을 위한 피치 동기화 음성 합성 방법

Info

Publication number: KR20170107683A
Application number: KR1020160031307A
Authority: KR
Inventors: 장인선; 강홍구; 김진섭; 주영선; 서정일; 안충현; 양승준; 최지훈
Original assignee: 한국전자통신연구원; 연세대학교 산학협력단
Priority date: 2016-03-16
Filing date: 2016-03-16
Publication date: 2017-09-26

Abstract

본 발명은 소용량 모바일 기기 등 텍스트-음성 변환을 이용하는 음성 합성 시스템에서 합성음의 성능을 개선하기 위하여, 구간 특성에 따라 피치(pitch) 동기화하여 피치의 정수배가 되는 가변적인 음성 분석/합성 구간 및 이동 구간을 설정하고, 이를 통하여 딥러닝 기반의 음성 합성으로 합성음의 음질을 향상시킬 수 있는, 음성 합성 방법을 제공하는 데 있다.

Description

딥러닝 기반의 음성 합성 시스템을 위한 피치 동기화 음성 합성 방법{Text-to-Speech Synthesis Method using Pitch Synchronization in Deep Learning Based Text-to-Speech Synthesis System}

본 발명은 음성합성(text-to-speech: TTS) 방법에 관한 것으로서, 특히, 음성 합성 시스템에서 음성의 피치(pitch) 정보를 이용하여 음소별 피치 동기화된 음성 분석 구간을 모델링하고 딥러닝(deep learning)을 이용한 음성 합성을 통해 합성음의 성능을 개선하는 방법에 관한 것이다.

음성합성(text-to-speech: TTS) 시스템은 입력된 텍스트를 음성으로 변환하여 출력하며, 자연스럽고 높은 음질의 음성을 합성하는 것이 그 목표이다. 음성합성 기술은 크게 연결 합성(concatenative synthesis) 기법과 통계적 파라메트릭 모델(statistical parametric model) 기반의 합성 기법으로 구분할 수 있다.

연결 합성 기법은 음소, 단어, 문장 등 음성을 분할한 단위를 조합하는 방식으로 음성을 합성한다. 이 기술은 높은 합성 음질을 제공하지만, 대용량의 데이터베이스를 전제로 하기 때문에 이러한 데이터를 시스템에 반드시 구축해야 하는 한계를 갖고 있다. 또한 녹음된 신호 자체만을 이용하므로 합성음의 음색이나 운율을 변환하여 기술을 확장하기에는 구조적인 한계를 지니고 있다.

통계적 파라메트릭 모델 기반의 음성 합성 기법은 음성 신호에서 추출한 음성 파라미터를 통계적 모델로 훈련(training) 한 후, 텍스트에 해당하는 통계적 모델로부터 파라미터를 생성하여 음성을 합성한다. 이는 연결 합성 방식에 비해서 합성음의 음질이 낮지만, 음성 신호에서 추출된 대표 값만을 이용하기 때문에 적은 메모리를 요구하여 모바일 시스템에 적합할 뿐만 아니라, 파라미터 값 변경을 통한 모델 변환이 용이하다. 통계적 모델 종류로는 은닉 마코브 모델 (hidden Markov model; HMM)과 딥러닝 기반의 모델이 있다. 그 중 딥러닝 기반의 모델은 데이터(feature)간의 비선형적인 관계를 모델링 할 수 있다는 장점이 있기 때문에, 최근 다양한 분야에 사용되고 있다.

딥러닝을 이용하는 통계적 파라메트릭 모델 기반 합성음의 음질 향상을 위해서는 통계적 모델에 적합하면서도 정밀한 보코더(vocoder)를 설계 하거나, 통계적 모델 훈련 방법을 개선하여 통계적 모델 값의 정확도를 높이는 방법이 있다. 그러나 기존의 방법들은 고정된 길이의 음성 분석 구간 및 이동 간격에서 음성 파라미터를 추출한다. 이는 음소별 신호의 특징을 고려하지 않았기 때문에 추출한 음소별 음성 파라미터 값의 정확도가 감소하며, 이를 이용하여 통계적 모델을 훈련할 경우 모델의 정확도를 높이는데 한계가 있다.

따라서, 본 발명은 상술한 문제점을 해결하기 위하여 안출된 것으로, 본 발명의 목적은, 소용량 모바일 기기 등 텍스트-음성 변환을 이용하는 음성 합성 시스템에서 합성음의 성능을 개선하기 위하여, 구간 특성에 따라 피치(pitch) 동기화하여 피치의 정수배가 되는 가변적인 음성 분석/합성 구간 및 이동 구간을 설정하고, 이를 통하여 딥러닝 기반의 음성 합성으로 합성음의 음질을 향상시킬 수 있는, 음성 합성 방법을 제공하는 데 있다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재들로부터 당업자에게 명확하게 이해될 수 있을 것이다.

먼저, 본 발명의 특징을 요약하면, 상기의 목적을 달성하기 위한 본 발명의 일면에 따른 딥러닝 기반의 음성 합성 시스템에서 피치 동기화 음성 합성 방법은, 딥러닝을 위하여 입력 음성 신호로부터 피치를 검출하는 단계; 피치 동기화된 음성 분석을 위하여 상기 음성 신호에서 상기 피치만큼 반복되는 피치 마커들을 설정하고 상기 피치의 정수배가 되는 길이를 음성 분석 구간으로 설정하는 단계; 상기 음성 분석 구간의 상기 음성 신호로부터 음성 파라미터를 추출하는 단계; 상기 음성 파라미터에 텍스트와의 관계에 대한 딥러닝 모델을 훈련하여 심층 신경망 모델 DB에 상기 텍스트와 상기 음성 파라미터 간의 관계에 대한 매핑정보를 저장 관리하는 단계; 상기 심층 신경망 모델 DB에 저장된 상기 텍스트와 상기 음성 파라미터 간의 관계에 대한 매핑 정보들을 참조하여 입력 텍스트에 대응되는 음성 파라미터를 생성하는 단계; 및 상기 입력 텍스트에 대응되는 음성 파라미터를 기초로 상기 피치의 정수배 길이의 음성 신호 조각들을 생성하고 합성하여 상기 입력 텍스트에 대한 피치 동기화된 음성 신호를 생성하는 단계를 포함한다.

상기 음성 분석 구간은 음소별 주파수 특성을 포함하는 구간 특성에 따라 상기 피치의 정수배가 되는 길이로 설정될 수 있다.

상기 음성 파라미터는 여기(excitation)음과 스펙트럼(spectrum) 파라미터를 포함한다.

그리고, 본 발명의 다른 일면에 따른 피치 동기화 음성 합성을 위한 딥러닝 기반의 음성 합성 시스템은, 딥러닝을 위하여 입력 음성 신호로부터 피치를 검출하는 피치 검출부; 피치 동기화된 음성 분석을 위하여 상기 음성 신호에서 상기 피치만큼 반복되는 피치 마커들을 설정하고 상기 피치의 정수배가 되는 길이를 음성 분석 구간으로 설정하는 음성 분석 구간 설정부; 상기 음성 분석 구간의 상기 음성 신호로부터 음성 파라미터를 추출하는 음성 파라미터 추출부; 상기 음성 파라미터에 텍스트와의 관계에 대한 딥러닝 모델을 훈련하여 심층 신경망 모델 DB에 상기 텍스트와 상기 음성 파라미터 간의 관계에 대한 매핑정보를 저장 관리하는 심층 신경망 모델 훈련부; 상기 심층 신경망 모델 DB에 저장된 상기 텍스트와 상기 음성 파라미터 간의 관계에 대한 매핑 정보들을 참조하여 입력 텍스트에 대응되는 음성 파라미터를 생성하는 음성 파라미터 생성부; 및 상기 입력 텍스트에 대응되는 음성 파라미터를 기초로 상기 피치의 정수배 길이의 음성 신호 조각들을 생성하고 합성하여 상기 입력 텍스트에 대한 피치 동기화된 음성 신호를 생성하는 음성 합성부를 포함한다.

본 발명에 따른 딥러닝 기반의 음성 합성 시스템을 위한 피치 동기화 음성 합성 방법에 따르면, 구간 특성에 따라 피치(pitch) 동기화하여 피치의 정수배가 되는 가변적인 음성 분석/합성 구간 및 이동 구간 설정하고, 이를 통하여 딥러닝 기반의 음성 합성을 가능하게 함으로써, 기존의 고정 길이의 구간 설정 방식에 비해 음성 신호로부터 음소별로 추출한 음성 파라미터 값의 왜곡을 줄이는 동시에 딥러닝 기반 모델의 정확도를 높일 수 있고, 모델 훈련 과정 중에 발생할 수 있는 원 신호와 생성된 음성 파라미터간의 오차, 특히 스펙트럼간의 차이를 최소화하여 합성음의 음질을 향상시킬 수 있다.

도 1은 본 발명의 일 실시예에 따른 딥러닝 기반의 음성 합성 시스템을 위한 피치 동기화 음성 합성 방법을 설명하기 위한 도면이다.
도 2a는 본 발명의 일 실시예에 따른 피치 동기화 음성 분석 구간으로부터 음성 파라미터를 얻는 과정을 나타내는 흐름도이다.
도 2b는 도 2a의 방법을 설명하기 위한 음성 신호의 예시이다.
도 3은 본 발명의 일 실시예에 따른 음성 파라미터를 이용하여 딥러닝 모델을 훈련하는 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따라 훈련한 딥러닝 모델에서 입력 텍스트에 해당하는 음성 파라미터를 생성하여 피치 동기화 되도록 음성 신호를 생성하는 과정을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 음성 합성 시스템의 구현 방법의 일례를 설명하기 위한 도면이다.

이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.

본 발명의 실시예의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

도 1은 본 발명의 일 실시예에 따른 딥러닝 기반의 음성 합성 시스템(100)을 위한 피치 동기화 음성 합성 방법을 설명하기 위한 도면이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 음성 합성 시스템(100)은, 피치 검출부(110), 음성 분석 구간 설정부(120), 음성 파라미터 추출부(130), 심층 신경망 모델 훈련부(140), 심층 신경망 모델 DB(Database, 데이터베이스)(141), 음성 파라미터 생성부(150), 및 음성 합성부(160)를 포함한다.

피치 검출부(110)는 딥러닝(deep learning, 심층 학습)을 위하여 입력 음성 신호(예, 도 2b 참조)로부터 소정의 주파수로 반복되는 신호 특성에 기초하여 해당 음성 신호의 피치를 검출한다(도 2a의 111 참조).

음성 분석 구간 설정부(120)는 피치 동기화된 음성 분석을 위하여 해당 음성 신호에서 피치만큼 반복되는 피치 마커들(marker)(예, 도 2b 참조)을 설정하고 구간 특성(예, 음소별 주파수 특성)에 따라 피치의 정수배가 되는 길이를 음성 분석 구간으로 설정한다(도 2a의 121 참조).

음성 파라미터 추출부(130)는 음성 분석 구간의 음성신호로부터 여기(excitation)음과 스펙트럼(spectrum) 파라미터(예, 주파수 등) 등 음성 파라미터를 추출한다(도 2a의 131 참조).

심층 신경망 모델 훈련부(140)는 위와 같은 음성 파라미터에 대하여 텍스트와의 관계에 대한 딥러닝(deep learning, 심층 학습) 모델을 훈련하여 심층 신경망 모델 DB(141)에 텍스트와 음성 파라미터 간의 관계에 대한 매핑(mapping) 정보를 저장 관리한다.

도 3은 본 발명의 일 실시예에 따른 음성 파라미터를 이용하여 딥러닝 모델을 훈련하는 과정을 설명하기 위한 도면이다.

예를 들어, 도 3과 같이, 딥러닝 모델을 위한 심층 신경망은 음성 파라미터와 텍스트 간의 관계를 매핑하기 위한 입력층, 출력층 및 다층의 은닉층으로 구성되며, 심층 신경망 모델 훈련부(140)는 딥러닝 알고리즘을 이용하여 음성 파라미터와 텍스트 간의 차이에 따라 각 계층의 가중치(weight)를 구하여 가변시키면서 적정한 가중치를 산출해, 텍스트와 음성 파라미터 간의 관계에 대한 매핑(mapping) 정보를 업데이트할 수 있다.

음성 파라미터 생성부(150)는 심층 신경망 모델 DB(141)에 저장된 텍스트와 음성 파라미터 간의 관계에 대한 매핑(mapping) 정보들을 참조하여 입력된 텍스트에 대응되는 음성 파라미터를 생성한다.

음성 합성부(160)는 상기 생성된 음성 파라미터를 기초로 피치의 정수배 길이의 음성 신호 조각들을 생성하고 합성하여 입력 텍스트에 대한 피치 동기화된 음성 신호를 생성한다.

도 4는 본 발명의 일 실시예에 따라 훈련한 딥러닝 모델에서 입력 텍스트에 해당하는 음성 파라미터를 생성하여 피치 동기화 되도록 음성 신호를 생성하는 과정을 설명하기 위한 도면이다.

예를 들어, 도 4와 같이, 음성 파라미터 생성부(150)는 딥러닝 모델을 위한 심층 신경망의 입력층에 입력 텍스트를 포함하는 컨텍스트 정보를 입력하여 이에 해당하는 음성 파라미터를 출력층에서 출력할 수 있다. 이러한 출력 파라미터를 이용하여, 음성 합성부(160)는 1 pitch 간격으로 피치 동기화(pitch synchronous)한 피치의 정수배 길이의 음성 신호 조각들을 생성할 수 있으며, 생성한 음성 신호 조각들을 피치 동기화되도록 중첩하고 더하여 입력 텍스트에 대한 피치 동기화된 음성 신호를 생성할 수 있다.

도 5는 본 발명의 일 실시예에 따른 음성 합성 시스템(100)의 구현 방법의 일례를 설명하기 위한 도면이다. 본 발명의 일 실시예에 따른 음성 합성 시스템(100)은 하드웨어, 소프트웨어, 또는 이들의 결합으로 이루어질 수 있다. 예를 들어, 음성 합성 시스템(100)은 도 5와 같은 컴퓨팅 시스템(1000)으로 구현될 수 있다.

컴퓨팅 시스템(1000)은 버스(1200)를 통해 연결되는 적어도 하나의 프로세서(1100), 메모리(1300), 사용자 인터페이스 입력 장치(1400), 사용자 인터페이스 출력 장치(1500), 스토리지(1600), 및 네트워크 인터페이스(1700)를 포함할 수 있다. 프로세서(1100)는 중앙 처리 장치(CPU) 또는 메모리(1300) 및/또는 스토리지(1600)에 저장된 명령어들에 대한 처리를 실행하는 반도체 장치일 수 있다. 메모리(1300) 및 스토리지(1600)는 다양한 종류의 휘발성 또는 불휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(1300)는 ROM(Read Only Memory)(1310) 및 RAM(Random Access Memory)(1320)을 포함할 수 있다.

따라서, 본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서(1100)에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리(1300) 및/또는 스토리지(1600))에 상주할 수도 있다. 예시적인 저장 매체는 프로세서(1100)에 커플링되며, 그 프로세서(1100)는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서(1100)와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.

상술한 바와 같이, 본 발명에 따른 딥러닝 기반의 음성 합성 시스템(100)은 소용량 모바일 기기 등 텍스트-음성 변환을 이용하는 음성 합성 시스템에서 합성음의 성능을 개선할 수 있다. 특히, 본 발명에서는 구간 특성에 따라 피치(pitch) 동기화하여 피치의 정수배가 되는 가변적인 음성 분석/합성 구간 및 이동 구간 설정하고, 이를 통하여 딥러닝 기반의 음성 합성을 가능하게 함으로써, 기존의 고정 길이의 구간 설정 방식에 비해 음성 신호로부터 음소별로 추출한 음성 파라미터 값의 왜곡을 줄이는 동시에 딥러닝 기반 모델의 정확도를 높일 수 있고, 모델 훈련 과정 중에 발생할 수 있는 원 신호와 생성된 음성 파라미터간의 오차, 특히 스펙트럼간의 차이를 최소화하여 합성음의 음질을 향상시킬 수 있다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다.

따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

피치 검출부(110)
음성 분석 구간 설정부(120)
음성 파라미터 추출부(130)
심층 신경망 모델 훈련부(140)
심층 신경망 모델 DB(141)
음성 파라미터 생성부(150)
음성 합성부(160)

Claims

딥러닝 기반의 음성 합성 시스템에서 피치 동기화 음성 합성 방법에 있어서,
딥러닝을 위하여 입력 음성 신호로부터 피치를 검출하는 단계;
피치 동기화된 음성 분석을 위하여 상기 음성 신호에서 상기 피치만큼 반복되는 피치 마커들을 설정하고 상기 피치의 정수배가 되는 길이를 음성 분석 구간으로 설정하는 단계;
상기 음성 분석 구간의 상기 음성 신호로부터 음성 파라미터를 추출하는 단계;
상기 음성 파라미터에 텍스트와의 관계에 대한 딥러닝 모델을 훈련하여 심층 신경망 모델 DB에 상기 텍스트와 상기 음성 파라미터 간의 관계에 대한 매핑정보를 저장 관리하는 단계;
상기 심층 신경망 모델 DB에 저장된 상기 텍스트와 상기 음성 파라미터 간의 관계에 대한 매핑 정보들을 참조하여 입력 텍스트에 대응되는 음성 파라미터를 생성하는 단계; 및
상기 입력 텍스트에 대응되는 음성 파라미터를 기초로 상기 피치의 정수배 길이의 음성 신호 조각들을 생성하고 합성하여 상기 입력 텍스트에 대한 피치 동기화된 음성 신호를 생성하는 단계
를 포함하는 것을 특징으로 하는 피치 동기화 음성 합성 방법.