KR20170087016A

KR20170087016A - 음성 합성 시스템의 최적화 방법 및 장치

Info

Publication number: KR20170087016A
Application number: KR1020160170531A
Authority: KR
Inventors: 칭창 하오; 슈린 리; 지에 바이; 하이유안 탕
Original assignee: 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date: 2016-01-19
Filing date: 2016-12-14
Publication date: 2017-07-27
Also published as: JP2017129840A; US10242660B2; CN105489216B; US20170206886A1; KR101882103B1; CN105489216A; JP6373924B2

Abstract

본 발명은 음성 합성 시스템의 최적화 방법 및 장치를 개시하는 바, 여기서, 음성 합성 시스템의 최적화 방법은, 텍스트 정보를 포함하는 음성 합성 요구를 수신하는 단계와; 음성 합성 요구를 수신하였을 때 음성 합성 시스템의 부하 등급을 결정하는 단계와; 부하 등급과 대응하는 음성 합성 경로를 선택하고, 음성 합성 경로에 따라 텍스트 정보에 대하여 음성 합성을 행하는 단계를 포함한다. 본 발명의 실시예의 음성 합성 시스템의 최적화 방법 및 장치는, 텍스트 정보를 포함하는 음성 합성 요구를 수신하고, 음성 합성 요구를 수신하였을 때 음성 합성 시스템의 부하 등급을 결정하며, 부하 등급과 대응하는 음성 합성 경로를 선택하고, 음성 합성 경로에 따라 텍스트 정보에 대하여 음성 합성을 행하는 것을 통하여, 음성 합성 시스템의 부하 등급에 따라 탄성적으로 상응한 음성 합성 경로를 선택할 수 있어, 음성 합성을 실현하고, 사용자에게 더욱 안정된 서비스를 제공하며, 지연 상황의 발생을 방지하고, 사용자의 사용 체험을 향상시킨다.

Description

음성 합성 시스템의 최적화 방법 및 장치{METHOD AND DEVICE FOR OPTIMIZING SPEECH SYNTHESIS SYSTEM}

본 발명은 음성 합성 기술 분야에 관한 것으로서, 더우기 음성 합성 시스템의 최적화 방법 및 장치에 관한 것이다.

이동 인터넷과 인공 지능 기술의 신속한 발전과 더불어, 음성 방송, 소설 듣기, 뉴스 듣기, 지능형 인터랙션 등 일련의 음성 합성의 장면은 더욱더 많아지고 있다.

기존의 음성 합성 시스템은 텍스트를 음성 합성할 경우, 우선 입력한 텍스트를 정규화하도록 전처리하고, 다음 텍스트에 대하여 단어 분할, 품사 태깅, 발음 표기 등 동작을 행하며, 또 텍스트에 대하여 운률 등급의 예측 및 음향악 파라미터 예측를 행하고, 마지막에 최종 음성 결과를 출력한다.

하지만, 음성 합성 시스템의 구성은 일반적으로 모두 고정된 것으로서, 실제적인 장면 및 부하 상황에 따라 탄성적으로 설정할 수 없어, 다른 환경에서의 음성 합성 수요에 적응할 수 없다. 예를 들어, 음성 합성 시스템이 짧은 시간 내에 대량의 음성 합성 요구를 수신하였을 때, 음성 합성 시스템의 부하 능력을 초과할 가능성이 아주 큰 바, 합성 요구가 누적되어, 사용자가 피드백 결과를 받는 것이 지연되고, 따라서 사용자 체험에 영향이 미치게 된다.

본 발명은 관련 기술에서의 기술적 문제 중의 하나를 해결하고자 한다. 이를 위하여, 본 발명의 하나의 목적은 음성 합성 시스템의 최적화 방법을 제공하는 것인 바, 음성 합성 시스템의 부하 등급에 따라 탄성적으로 상응한 음성 합성 경로를 선택할 수 있고, 사용자에게 더욱 안정된 서비스를 제공하며, 지연 상황의 발생을 방지하고, 사용자의 사용 체험을 향상시킨다.

본 발명의 다른 하나의 목적은 음성 합성 시스템의 최적화 장치를 제공하는 것이다.

상기 목적을 실현하기 위하여, 본 발명의 제1 측면의 실시예는 음성 합성 시스템의 최적화 방법을 제공하는 바, 텍스트 정보를 포함하는 음성 합성 요구를 수신하는 단계와; 상기 음성 합성 요구를 수신하였을 때 음성 합성 시스템의 부하 등급을 결정하는 단계와; 상기 부하 등급과 대응되는 음성 합성 경로를 선택하고, 상기 음성 합성 경로에 따라 상기 텍스트 정보에 대하여 음성 합성을 행하는 단계를 포함한다.

본 발명의 실시예의 음성 합성 시스템의 최적화 방법은, 텍스트 정보를 포함하는 음성 합성 요구를 수신하고, 음성 합성 요구를 수신하였을 때 음성 합성 시스템의 부하 등급을 결정하며, 부하 등급과 대응하는 음성 합성 경로를 선택하고, 음성 합성 경로에 따라 텍스트 정보에 대하여 음성 합성을 행하는 것을 통하여, 음성 합성 시스템의 부하 등급에 따라 탄성적으로 상응한 음성 합성 경로를 선택할 수 있어, 음성 합성을 실현하고, 사용자에게 더욱 안정된 서비스를 제공하며, 지연 상황의 발생을 방지하고, 사용자의 사용 체험을 향상시킨다.

본 발명의 제2 측면의 실시예는 음성 합성 시스템의 최적화 장치를 제공하는 바, 텍스트 정보를 포함하는 음성 합성 요구를 수신하기 위한 수신 모듈과; 상기 음성 합성 요구를 수신하였을 때 음성 합성 시스템의 부하 등급을 결정하기 위한 결정 모듈과; 상기 부하 등급과 대응되는 음성 합성 경로를 선택하고 상기 음성 합성 경로에 따라 상기 텍스트 정보에 대하여 음성 합성을 행하기 위한 합성 모듈을 포함한다.

본 발명의 실시예의 음성 합성 시스템의 최적화 장치는, 텍스트 정보를 포함하는 음성 합성 요구를 수신하고, 음성 합성 요구를 수신하였을 때 음성 합성 시스템의 부하 등급을 결정하며, 부하 등급과 대응하는 음성 합성 경로를 선택하고, 음성 합성 경로에 따라 텍스트 정보에 대하여 음성 합성을 행하는 것을 통하여, 음성 합성 시스템의 부하 등급에 따라 탄성적으로 상응한 음성 합성 경로를 선택할 수 있어, 음성 합성을 실현하고, 사용자에게 더욱 안정된 서비스를 제공하며, 지연 상황의 발생을 방지하고, 사용자의 사용 체험을 향상시킨다.

도 1은 본 발명의 하나의 실시예에 따른 음성 합성 시스템의 최적화 방법의 흐름도이다.
도 2는 본 발명의 하나의 구체적인 실시예에 따른 음성 합성 시스템의 최적화 방법의 흐름도이다.
도 3은 본 발명의 하나의 구체적인 실시예에 따른 음성 합성 시스템의 프레임 구조 개략도이다.
도 4는 본 발명의 하나의 실시예에 따른 음성 합성 시스템의 최적화 장치의 구조 개략도이다.

아래에서는 본 발명의 실시예를 상세하게 설명하기로 한다. 상기 실시예의 예시는 첨부된 도면에서 제시되고, 여기서 처음부터 끝까지 동일하거나 유사한 번호는 동일하거나 유사한 구성 요소나 동일하거나 유사한 기능을 갖는 구성 요소를 나타낸다. 아래에서 첨부된 도면을 참조하는 것을 통하여 설명되는 실시예는 예시적인 것으로, 본 발명을 해석하기 위한 것일 뿐, 본 발명에 대한 한정으로 이해해서는 안된다.

아래에 첨부된 도면을 참조하여 본 발명의 실시예의 음성 합성 시스템의 최적화 방법 및 장치를 설명하기로 한다.

도 1은 본 발명의 하나의 실시예에 따른 음성 합성 시스템의 최적화 방법의 흐름도이다.

도 1에서 도시하는 바와 같이, 음성 합성 시스템의 최적화 방법은 아래와 같은 단계를 포함한다.

S1: 텍스트 정보를 포함하는 음성 합성 요구를 수신한다.

여기서, 음성 합성 요구는 여러가지 장면, 예를 들어 친한 친구가 보내온 메시지 등 문자 정보를 음성으로 전환하는 것, 소설의 텍스트 정보를 음성으로 전환하여 플레이하는 것 등등을 포함할 수 있다.

본 발명의 하나의 실시예에서, 사용자가 웹페이지 클라이언트측, APP 클라이언트측과 같은 여러가지 클라이언트측을 통하여 송신한 음성 합성 요구를 수신할 수 있다.

S2: 음성 합성 요구를 수신하였을 때 음성 합성 시스템의 부하 등급을 결정한다.

구체적으로, 음성 합성 요구를 수신하였을 때, 현재 시점에서 음성 합성 시스템이 수신한 음성 합성 요구 수량 및 이러한 음성 합성 요구에 대응되는 평균 응답 시간을 취득할 수 있고, 다음 음성 합성 요구 수량과 평균 응답 시간에 따라 부하 등급을 결정한다. 음성 합성 요구 수량이 응답 요구 능력보다 적고, 또한 평균 응답 시간이 사전 설정한 시간보다 짧을 때, 부하 등급을 제1 등급으로 결정한다. 음성 합성 요구 수량이 응답 요구 능력보다 적고, 또한 평균 응답 시간 사전 설정한 시간보다 길 때, 부하 등급을 제2 등급으로 결정한다. 음성 합성 요구 수량이 응답 요구 능력보다 많을 때, 부하 등급을 제3 등급으로 결정한다.

예를 들어 말하자면, 음성 합성 시스템의 백그라운드는 서버 클라스터로 구성되며, 서버 클라스터의 응답 요구 능력이 초당 500개 요구를 응답한다고 가정할 때, 이때 음성 합성 시스템이1초 사이에 수신한 음성 합성 요구 수량이 100 개이고, 이 100개 음성 합성 요구의 평균 응답 시간이 사전 설정한 시간500밀리초보다 짧으면, 현재에 있어서, 음성 합성 시스템이 과부하(overload)되지 않아, 성능이 양호하다고 결정할 수 있으며, 부하 등급을 제1 등급으로 한다. 음성 합성 시스템이 1초 사이에 수신한 음성 합성 요구 수량이 100개 이나, 이 100개 음성 합성 요구의 평균 응답 시간이 사전 설정한 시간500밀리 초보다 길면, 현재 음성 합성 시스템이 비록 과부하되지 않았으나, 성능이 저하하기 시작하다고 결정할 수 있으며, 부하 등급을 제2 등급으로 한다. 음성 합성 시스템이 1초 사이에 수신한 음성 합성 요구 수량이 1000개라고 가정하면, 현재 음성 합성 시스템이 과부하하였음을 설명하고, 부하 등급을 제3 등급으로 할 수 있다.

S3: 부하 등급과 대응하는 음성 합성 경로를 선택하고, 음성 합성 경로에 따라 텍스트 정보에 대하여 음성 합성을 행한다.

부하 등급이 제1 등급일 때, 제1 등급과 대응되는 제1 경로를 선택하여 텍스트 정보에 대하여 음성 합성을 행할 수 있다. 여기서, 제1 경로는 LSTM（장기 단기 기억 , Long short-term memory） 모델과 파형 스플라이싱 모델을 포함할 수 있는 바, 파형 스플라이싱 모델은 제1 파라미터를 사용하여 설정한다.

부하 등급이 제2 등급일 때, 제2 등급과 대응되는 제2 경로를 선택하여 텍스트 정보에 대하여 음성 합성을 행할 수 있다. 여기서, 제2 경로는 HTS（HMM-based Speech Synthesis System, 은닉 마르코프 음성 합성 시스템） 모델과 파형 스플라이싱 모델을 포함할 수 있는 바, 파형 스플라이싱 모델은 제2 파라미터 설정을 적용한다.

부하 등급이 제3 등급일 때, 제3 등급과 대응되는 제3 경로를 선택하여 텍스트 정보에 대하여 음성 합성을 행할 수 있다. 여기서, 제3 경로에는HTS 모델과 보코더(vocoder) 모델을 포함한다.

본 발명의 하나의 실시예에서, 음성 합성 시스템이 텍스트 정보에 대하여 음성 합성을 행할 때, 우선 텍스트 전처리 모듈을 통하여 입력한 텍스트에 대하여 정규화하도록 전처리하고, 다음 텍스트 분석 모듈을 통하여 텍스트에 대하여 단어 분할, 품사 태깅, 발음 표기 등 동작을 행하며, 또 운률 계층 예측 모듈을 통하여 텍스트에 대하여 운률 등급 예측을 행하고, 및 음향학 모델 모듈을 통하여 음향학 파라미터를 예측하며, 마지막에 음성 합성 모듈을 통하여 최종 음성 결과를 출력할 수 있다. 상기의 5개 모듈은 음성 합성을 실현하는 경로를 구성한다.

여기서, 음향학 모델 모듈은HTS 모델을 기반으로 하는 것을 통하여 실현할 수 있으며, 마찬가지로 LSTM 모델을 기반으로 하는 것을 적용하여 실현 할 수 있다. HTS를 기반으로 하는 음향학 모델은 계산 성능면에서 LSTM을 기반으로 하는 음향학 모델보다 우수하다. 즉, HTS를 기반으로 하는 음향학 모델은 시간 소모가 상대적으로 비교적 적다. 그러나 LSTM을 기반으로 하는 음향학 모델은 음성 합성의 자연 유창성 측면에서 성능이 더 우수하다. 이와 유사하게, 음성 합성 모듈은 보코더 모델을 기반으로 하는 파라미터 생성 방법을 적용할 수 있고, 파형 스플라이싱 모델을 기반으로 하는 스플라이싱 생성 방법을 적용할 수도 있다. 보코더 모델을 기반으로 하는 음성 합성은, 자원 소모가 더 적고, 또 계산 시간 소모가 적다. 파형 스플라이싱을 기반으로 하는 음성 합성은, 자원 소모가 비교적 많고, 또 계산 시간 소모가 많으나 음성 합성의 품질이 좋다.

다시 말하자면, 음성 합성을 실현하는 과정에서, 어떤 모듈은 여러가지를 선택할 수 있는 실시방식이 있을 수 있기에, 따라서 여러가지 다른 실시 경로를 조합하여 낼 수 있다. 예를 들어, 음성 합성 시스템의 부하 등급이 제1 등급 일 때, 음성 합성 시스템의 성능이 양호한 바, LSTM의 음향학 모델과 파형 스플라이싱 모델을 선택하여 음성 합성의 효과가 더욱 좋도록 할 수 있다. 여기서, 파형 스플라이싱 모델에서 합성 대기 중인 스플라이싱 유닛을 취할 때, 전후 문맥 파라미터와, KLD（Kullback-Leibler divergence, 상대 엔트로피） 거리 파라미터와, 음향학 파라미터와 등 파라미터의 사전 설정한 임계값에 대하여 설정하는 것을 통하여, 제1 파라미터로 설정하며, 이리하여 취한 스플라이싱 유닛 수량이 더욱 많도록 할 수 있어, 비록 계산량은 증가되었지만 더욱 많은 합성 대기 중인 스플라이싱 유닛으로부터 품질이 더욱 좋은 스플라이싱 유닛을 취할 수 있기에, 음성 합성 효과를 향상시킨다. 음성 합성 시스템의 부하 등급이 제2 등급 일 때, 음성 합성 시스템의 성능은 일정한 정도에서 영향을 받게 되는 바, 따라서 음성 합성 효과가 적당하고 처리속도가 비교적 빠르도록 HTS 모델과 파형 스플라이싱 모델을 선택할 수 있다. 여기서, 파형 스플라이싱 모델에서 합성 대기 중인 스플라이싱 유닛을 취할 때, 전후 문맥 파라미터와, KLD 거리 파라미터와, 음향학 파라미터와 등 파라미터의 사전 설정한 임계값에 대하여 설정하는 것을 통하여, 제2 파라미터로 설정하고, 이리하여 취득한 스플라이싱 유닛 수량이 비교적 적도록 하여 소정의 음성 합성 품질을 확보하는 상황하에서 응답 속도를 향상시킬 수 있다. 음성 합성 시스템의 부하 등급이 제3 등급일 때, 음성 합성 시스템은 이미 과부하되었고, 따라서 HTS 모델과 보코더 모델을 취하는 것이 수요되는 바, 이리하여 응답 속도가 가장 빠르고, 사용자가 제때에 피드백한 음성 합성 결과를 수신하는 것을 확보하도록 할 수 있다.

도 2는 본 발명의 하나의 구체적인 실시예에 따른 음성 합성 시스템의 최적화 방법의 흐름도이다.

도 2에서 도시하는 바와 같이, 음성 합성 시스템의 최적화 방법은 아래와 같은 단계를 포함할 수 있다.

S201: 다수의 음성 합성 요구를 수신한다.

우선, 음성 합성 시스템의 조성 프레임을 간단히 설명하기로 한다. 음성 합성 시스템은 텍스트 정보에 대하여 음성 합성을 행할 때, 우선 텍스트 전처리 모듈(1)을 통하여 입력한 텍스트에 대하여 정규화하도록 전처리를 행하고, 다음 텍스트 분석 모듈(2)를 통하여 텍스트에 대하여 단어 분할, 품사 태깅, 발음 표기 등 동작을 행하며, 또 운률 계층 예측 모듈(3)을 통하여 텍스트에 대하여 운률 등급 예측을 행하고, 및 음향학 모델 모듈(4)을 통하여 음향학 파라미터를 예측하며, 마지막에 음성 합성 모듈(5)을 통하여 최종 음성 결과를 출력할 수 있다. 도 3에서 도시하는 바와 같이, 상기의 5개 모듈은 음성 합성을 실현하는 경로를 구성한다. 여기서, 음향학 모델 모듈(4)는HTS 모델을 기반으로 하는 것, 즉 경로 4A를 통하여 실현할 수 있고; 마찬가지로 LSTM 모델을 기반으로 하는 것, 즉 경로 4B를 적용하여 실현할 수 있다. HTS를 기반으로 하는 음향학 모델은 계산 성능면에서 LSTM을 기반으로 하는 음향학 모델보다 우수하다. 즉, HTS를 기반으로 하는 음향학 모델은 시간 소모가 상대적으로 비교적 적다. 그러나 LSTM을 기반으로 하는 음향학 모델은 음성 합성의 자연 유창성 측면에서 성능이 더욱 우수하다. 이와 유사하게, 음성 합성 모듈(5)은 보코더 모델을 기반으로 하는 파라미터 생성 방식, 즉 경로 5A를 적용할 수 있고, 파형 스플라이싱 모델을 기반으로 하는 스플라이싱 생성 방식, 즉 경로 5B를 적용할 수도 있다. 보코더 모델을 기반으로 하는 음성 합성은 자원 소모가 더 적고, 또 계산 시간 소모가 적다. 파형 스플라이싱을 기반으로 하는 음성 합성은 자원 소모가 비교적 많고, 또 계산 시간 소모가 많으나 음성 합성의 품질이 좋다.

그러나 파형 스플라이싱 모델을 기반으로 하는 스플라이싱 생성 방식을 적용할 때, 하기의 두가지 방식을 더 포함한다. 제1 방식으로서는 파형 스플라이싱 모델에서 합성 대기 중인 스플라이싱 유닛을 취할 때, 전후 문맥 파라미터, KLD 거리 파라미터, 음향학 파라미터 등 파라미터의 사전 설정한 임계값에 대하여 세팅하는 것을 통하여, 제1 파라미터로 설정하는 것, 즉 경로 6A이다. 이리하여 취한 스플라이싱 유닛 수량이 더욱 많도록 할 수 있어, 비록 계산량은 증가되었지만 더욱 많은 합성 대기 중인 스플라이싱 유닛으로부터 품질이 더욱 좋은 스플라이싱 유닛을 취할 수 있기에, 음성 합성의 효과를 향상한다. 제2 방식으로서는 파형 스플라이싱 모델에서 합성 대기 중인 스플라이싱 유닛을 취할 때, 전후 문맥 파라미터, KLD 거리 파라미터, 음향학 파라미터 등 파라미터의 사전 설정한 임계값을 설정하는 것을 통하여, 제2 파라미터로 설정하는 것, 즉 경로 6B이다. 이리하여 취한 스플라이싱 유닛 수량이 비교적 적고, 소정의 음성 합성 품질을 확보하는 상황하에서, 응답 속도를 향상시킬 수 있다. 따라서, 음성 합성 시스템은 여러갈래 경로를 제공하여 다른 장면에 동적으로 적응할 수 있다.

본 발명의 하나의 실시예에서, 음성 합성 시스템은 web측과 app측을 통하여 사용자가 송신한 음성 합성 요구를 수신한다. 예를 들면, 어떤 사용자는web측을 통하여 음성 합성 요구를 송신할 수 있고, 어떤 사용자는 app측을 통하여 음성 합성 요구를 송신할 수 있다.

S202: 음성 합성 시스템의 부하 등급을 취득한다.

구체적으로, 음성 합성 시스템이 음성을 합성하는 효과가 가장 좋은 상황하에서의 QPS（초당 응답할 수 있는 합성 요구 개수, Query Per Second）와 음성 합성 요구 평균 응답 시간을 취득할 수 있고, 상기 두개의 지표에 따라 부하 등급을 3개 등급으로 분할한다. 부하 등급 1일 경우, 현재 음성 합성 요구 부하는 QPS보다 적고, 평균 응답 시간은 500ms 보다 짧은 것이다. 부하 등급 2일 경우, 현재 음성 합성 요구 부하는 QPS보다 적고, 평균 응답 시간은 500ms보다 긴 것이다. 부하 등급 3일 경우, 현재 음성 합성 요구 부하는 QPS보다 많은 것이다.

S203: 부하 등급에 따라 대응하는 음성 합성 경로를 선택하여 텍스트에 대하여 음성 합성을 행한다.

부하 등급을 결정한 후, 부하 등급에 따라 동적으로 음성 합성 경로를 취할 수 있다.

부하 등급 1일 경우, 당해 부하 등급에서, 현재 음성 합성 요구 부하는 QPS보다 적고, 평균 응답 시간은 500ms보다 짧은 것으로서, 음성 합성 시스템 성능이 양호 함을 설명하고, 따라서 음성 합성 효과가 비교적 좋으나 비교적 시간을 소모하는 경로, 즉 4B-5B-6A를 취할 수 있다.

부하 등급 2일 경우, 당해 부하 등급에서, 현재 음성 합성 요구 부하는 QPS보다 적으나, 평균 응답 시간은 이미 500ms을 초과한 것으로서, 음성 합성 시스템 성능이 영향 받음을 설명하고, 따라서 경로 4A-5B-6B를 적용하여 응답 속도를 향상한다.

부하 등급 3일 경우, 당해 부하 등급에서, 현재 음성 합성 요구 부하는 QPS보다 많은 것으로서, 음성 합성 시스템은 이미 과부하임을 설명하고, 따라서, 시간소모가 더 적고, 계산이 더 빠른 경로 4A-5A를 동적으로 선택하여 음성을 합성한다.

이 외에, 음성 합성 시스템은 또한 음성 합성의 응용 장면에 따라, 탄성적으로 음성 합성 경로를 기획할 수 있다. 예를 들어 말하자면, 소설을 열독하는 것과 뉴스를 열독하는 것은 음성 합성 결과의 품질에 대한 요구가 비교적 높은 바, X류 음성 합성 요구로 설정할 수 있다. 그러나 음성 방송과 로봇 인터랙션은 음성 합성결과의 품질에 대한 요구가 비교적 낮은바, Y류 음성 합성 요구로 설정할 수 있다.

음성 합성 시스템이 부하 등급 1일 경우, 수신한 음성 합성 요구는 모두 음성 합성 효과가 비교적 좋으나 비교적 시간을 소모하는 경로, 즉 4B-5B-6A를 취하는 것을 적용한다.

음성 합성 시스템이 부하 등급 2일 경우, Y류 음성 합성 요구의 합성 효과를 우선적으로 낮추고, 즉 Y류 음성 합성 요구를 동적으로 조정하여 경로 4A-5B-6B를 적용하여 음성 합성을 행하는 것을 우선적으로 낮춘다. Y류 음성 합성 요구는 시간 소모가 비교적 적은 음성 합성 경로를 적용하였기에, 음성 합성 요구의 평균 응답 시간을 줄인다. 만약 줄인 후의 응답 시간이 부하 등급 2를 만족하면, X류 음성 합성 요구는 합성 효과가 비교적 좋은 경로 4B-5B-6A를 여전히 적용할 수 있고; 만약 줄인 후의 응답 시간이 부하 등급 2를 만족하지 못한다면, 모든 음성 합성 요구를 4A-5B-6B 합성 경로를 적용하여 음성 합성을 행하도록 동적으로 조정한다.

이와 유사하게, 음성 합성 시스템이 부하 등급 3일 경우, Y류 음성 합성 요구의 합성 효과를 우선적으로 낮추고, 즉 Y류 음성 합성 요구를 동적으로 조정하여 경로 4A-5A를 적용하여 음성 합성을 행하는 것인 바, 이리하여 음성 합성 요구의 평균 응답 시간을 줄인다. 만약 줄인 후의 평균 응답 시간이 500ms보다 적은 것을 만족하면, X류 음성 합성 요구는 경로 4B-5B-6A을 적용하여 음성 합성을 행할 수 있고, 그렇지 않으면X류 음성 합성 요구는 경로 4A-5B-6B를 적용하여 음성 합성을 행한다. 만약 줄인 후의 평균 응답 시간이 여전히 500ms을 초과하면, 모든 음성 합성 요구는 모두 경로 4A-5A를 적용하여 음성 합성을 행한다.

이에 따라, 음성 합성 시스템은 더욱 탄성적으로 여러가지 음성 합성의 응용 장면을 대응할 수 있으며, 사용자에게 더욱 안정적인 음성 합성 서비스를 제고하고, 음성 합성 요구 트래픽이 고봉 일 때, 하드웨어 코스트를 증가하지 않는 전제하에서 주동적인 대응 책략을 제공하여, 사용자가 아주 많이 지연된 피드백 결과를 받는 것을 방지할 수 있다.

상기의 목적을 실현하기 위하여, 본 발명은 또 음성 합성 시스템의 최적화 장치를 제공한다.

도 4는 본 발명의 하나의 실시예에 따른 음성 합성 시스템의 최적화 장치의 구조 개략도이다.

도 4에서 도시하는 바와 같이, 음성 합성 시스템의 최적화 장치는, 수신 모듈(110)과, 결정 모듈(120)과 합성 모듈(130)과를 포함할 수 있다. 여기서, 결정 모듈(120)은 취득 유닛(121)과 결정 유닛(122)을 포함할 수 있다.

여기서, 수신 모듈(110)은 텍스트 정보를 포함하는 음성 합성 요구를 수신하기 위한 것이다. 여기서, 음성 합성 요구는 여러가지 장면, 예를 들어 친한 친구가 보내온 메시지 등 문자 정보를 음성으로 전환하는 것, 소설의 텍스트 정보를 음성로 전환하여 플레이하는 것 등등 을 포함할 수 있다.

본 발명의 하나의 실시예에서, 수신 모듈(110)은 사용자가 웹페이지 클라이언트측, APP 클라이언트측과 같은 여러가지 클라이언트측을 통하여 송신한 음성 합성 요구를 수신할 수 있다.

결정 모듈(120)은 음성 합성 요구를 수신하였을 때 음성 합성 시스템의 부하 등급을 결정하기 위한 것이다. 구체적으로, 음성 합성 요구를 수신하였을 때, 취득 유닛(121)은 현재 시점에서 음성 합성 시스템이 수신한 음성 합성 요구 수량 및 이러한 음성 합성 요구에 대응되는 평균 응답 시간을 취득할 수 있고, 다음 결정 유닛(122)이 음성 합성 요구 수량과 평균 응답 시간에 따라 부하 등급을 결정할 수 있다. 음성 합성 요구 수량이 응답 요구 능력보다 적고, 또 평균 응답 시간이 사전 설정한 시간보다 짧을 때, 부하 등급을 제1 등급으로 결정하고; 음성 합성 요구 수량이 응답 요구 능력보다 적고, 또 평균 응답 시간 사전 설정한 시간보다 길 때, 부하 등급을 제2 등급으로 결정하며; 음성 합성 요구 수량이 응답 요구 능력보다 많을 때, 부하 등급을 제3 등급으로 결정한다.

예를 들어 말하자면, 음성 합성 시스템의 백그라운드는 서버 클라스터로 구성되며, 서버 클라스터의 응답 요구 능력이 초당 500개 요구를 응답한다고 가정할 때, 이때 음성 합성 시스템이1초 사이에 수신한 음성 합성 요구 수량이 100 개이고, 이 100개 음성 합성 요구의 평균 응답 시간이 사전 설정한 시간500밀리초보다 짧으면, 현재 음성 합성 시스템이 과부하(overloading)되지 않아, 성능이 양호하다고 결정할 수 있으며, 부하 등급을 제1 등급으로 한다. 음성 합성 시스템이 1초 사이에 수신한 음성 합성 요구 수량이 100개 이나, 이 100개 음성 합성 요구의 평균 응답 시간이 사전 설정한 시간500밀리 초보다 길면, 현재 음성 합성 시스템이 비록 과부하되지 않았으나, 성능이 저하하기 시작하다고 결정할 수 있으며, 부하 등급을 제2 등급으로 한다. 음성 합성 시스템이 1초 사이에 수신한 음성 합성 요구 수량이 1000개라고 가정하면, 현재 음성 합성 시스템이 과부하되었음을 설명하고, 부하 등급을 제3 등급으로 할 수 있다.

합성 모듈(130)은 부하 등급과 대응하는 음성 합성 경로를 선택하고, 음성 합성 경로에 따라 텍스트 정보에 대하여 음성 합성을 행하기 위한 것이다.

부하 등급이 제1 등급일 때, 합성 모듈(130)은 제1 등급과 대응되는 제1 경로를 선택하여 텍스트 정보에 대하여 음성 합성을 행할 수 있다. 여기서, 제1 경로는 LSTM 모델과 파형 스플라이싱 모델을 포함할 수 있는 바, 파형 스플라이싱 모델은 제1 파라미터를 사용하여 설정한다.

부하 등급이 제2 등급일 때, 합성 모듈(130)은 제2 등급과 대응되는 제2 경로를 선택하여 텍스트 정보에 대하여 음성 합성을 행할 수 있다. 여기서, 제2 경로는 HTS 모델과 파형 스플라이싱 모델을 포함할 수 있으며, 파형 스플라이싱 모델은 제2 파라미터 설정을 적용한다.

부하 등급이 제3 등급일 때, 합성 모듈(130)은제3 등급과 대응되는 제3 경로를 선택하여 텍스트 정보에 대하여 음성 합성을 행할 수 있다. 여기서, 제3 경로에는HTS 모델과 보코더(vocoder) 모델을 포함한다.

본 발명의 하나의 실시예에서, 음성 합성 시스템이 텍스트 정보에 대하여 음성 합성을 행할 때, 우선 텍스트 전처리 모듈을 통하여 입력한 텍스트에 대하여 정규화하도록 전처리를 하고, 다음 텍스트 분석 모듈을 통하여 텍스트에 대하여 단어 분할, 품사 태깅, 발음 표기 등 동작을 행하며, 또 운률 계층 예측 모듈을 통하여 텍스트에 대하여 운률 등급 예측을 행하고, 및 음향학 모델 모듈을 통하여 음향학 파라미터를 예측하며, 마지막에 음성 합성 모듈을 통하여 최종 음성 결과를 출력할 수 있다. 상기의 5개 모듈은 음성 합성을 실현하는 경로를 구성한다.

여기서, 음향학 모델 모듈은HTS 모델을 기반으로 하는 것을 통하여 실현할 수 있으며, 마찬가지로 LSTM 모델을 기반으로 하는 것을 적용하여 실현할 수 있다. HTS를 기반으로 하는 음향학 모델은 계산 성능면에서 LSTM을 기반으로 하는 음향학 모델보다 우수하다. 즉, HTS를 기반으로 하는 음향학 모델은 시간 소모가 상대적으로 비교적 적다. 그러나 LSTM을 기반으로 하는 음향학 모델은 음성 합성의 자연 유창성 측면에서 성능이 더 우수하다. 이와 유사하게, 음성 합성 모듈은 보코더 모델을 기반으로 하는 파라미터 생성 방법을 적용할 수 있고, 파형 스플라이싱 모델을 기반으로 하는 스플라이싱 생성 방법을 적용할 수도 있다. 보코더 모델을 기반으로 하는 음성 합성은, 자원 소모가 더 적고, 또 계산 시간 소모가 적다. 파형 스플라이싱을 기반으로 하는 음성 합성은, 자원 소모가 비교적 많고, 또 계산 시간 소모가 많으나 음성 합성의 품질이 좋다.

다시 말하자면, 음성 합성을 실현하는 과정에서, 어떤 모듈은 여러가지를 선택할 수 있는 실시방식이 있을 수 있기에, 따라서 여러가지 다른 실시 경로를 조합하여 낼 수 있다. 예를 들어, 음성 합성 시스템의 부하 등급이 제1 등급 일 때, 음성 합성 시스템의 성능이 양호한 바, LSTM의 음향학 모델과 파형 스플라이싱 모델을 선택하여 음성 합성의 효과가 더욱 좋도록 할 수 있다. 여기서, 파형 스플라이싱 모델에서 합성 대기 중인 스플라이싱 유닛을 취할 때, 전후 문맥 파라미터, KLD（Kullback-Leibler divergence, 상대 엔트로피） 거리 파라미터, 음향학 파라미터 등 파라미터의 사전 설정한 임계값에 대하여 설정하는 것을 통하여, 제1 파라미터로 설정하며, 이리하여 취한 스플라이싱 유닛 수량이 더욱 많도록 할 수 있어, 비록 계산량은 증가되었지만 더욱 많은 합성 대기 중인 스플라이싱 유닛으로부터 품질이 더욱 좋은 스플라이싱 유닛을 취할 수 있기에, 음성 합성 효과를 향상시킨다. 음성 합성 시스템의 부하 등급이 제2 등급 일 때, 음성 합성 시스템의 성능은 일정한 정도에서 영향을 받게 되는 바, 따라서 음성 합성 효과가 적당하고 처리속도가 비교적 빠르도록 HTS 모델과 파형 스플라이싱 모델을 선택할 수 있다. 여기서, 파형 스플라이싱 모델에서 합성 대기 중인 스플라이싱 유닛을 취할 때, 전후 문맥 파라미터, KLD 거리 파라미터, 음향학 파라미터 등 파라미터의 사전 설정한 임계값에 대하여 설정하는 것을 통하여, 제2 파라미터로 설정하고, 이리하여 취득한 스플라이싱 유닛 수량이 비교적 적도록 하여 소정의 음성 합성 품질을 확보하는 상황하에서 응답 속도를 향상시킬 수 있다. 음성 합성 시스템의 부하 등급이 제3 등급일 때, 음성 합성 시스템은 이미 과부하되었고, 따라서 HTS 모델과 보코더 모델을 취하는 것이 수요되는 바, 이리하여 응답 속도가 가장 빠르고, 사용자가 제때에 피드백한 음성 합성 결과를 수신하는 것을 확보하도록 할 수 있다.

본 발명의 설명에서 용어 "중심”, "세로”, "가로”, "길이”, "폭”, "두께”, "상”, "하”, "앞”, "뒤”, "좌”, "우”, "수직”, "수평”, "꼭대기”, "바닥”, "안”, "밖”, "시계 방향”, "반시계 방향”, "축방향”, "반경 방향”, "원주 방향” 등이 나타내는 방향이나 위치 관계는 첨부된 도면에 기초하여 나타내는 방향이나 위치관계인 것으로, 본 발명을 해석하고 간략하게 설명하기 편리하게 하기 위한 것으로 이해하여야 하는 것이지, 가리키는 장치나 구성요소가 반드시 특정된 방향을 갖고, 특정된 방향으로 구성 및 동작됨을 나타내거나 암시하는 것이 아니므로, 본 발명에 대한 한정으로 이해해서는 안된다.

이 외에, 용어 “제1”, “제2”는 설명을 하기 위한 것 일 뿐, 상대적인 중요성을 가리키거나 암시하는 것 또는 가리키는 기술 특징의 수량을 함축적으로 명시하는 것으로 이해해서는 안된다. 이에 따라, “제1 ”, “제2”로 한정된 특징은 하나의 또는 더 많은 당해 특징을 명시하거나 함축적으로 포함할 수 있다. 본 발명의 설명에서, 별도로 명확하게 구체적인 한정을 하지 않는 한, “다수”의 의미는 적어도 두개인 바, 예를 들어 두개 또는 세개 등이다.

본 발명의 설명에서, 별도로 명확한 규정이나 한정을 하지 않는 한, 용어 "장착”, "연접”, "연결”은 넓은 의미로 이해되어야 한다. 예를 들면, 고정 연결일 수 있고 탈착 연결일 수도 있고 또는 일체적인 연결일 수도 있으며; 기계적 연결일 수 있고 전기 연결일 수도 있다. 별도로 명확한 규정이나 한정을 하지 않는 한, 직접 연결일 수 있고 중간 매개물을 통한 간접 연결일 수도 있으며 두 구성 요소 내부의 연통 또는 두 구성 요소간의 상호 작용 관계일 수도 있다. 본 기술 분야의 통상의 지식을 가진 자들에 있어서 구체적인 상황에 따라 상술한 용어가 본 발명에서의 구체적인 함의를 이해할 수 있다.

본 발명에서, 별도로 명확한 규정 또는 한정을 하지 않은 한, 제1 특징이 제2 특징의 "위” 또는 "아래”에 있다는 것은, 제1 및 제2 특징이 직접 접촉되거나, 제1 및 제2 특징이 중간 매체를 통해 간접 접촉되는 것일 수 있다. 또한, 제1 특징이 제2 특징의 "위”, "위쪽” 및 "위면”에 있다는 것은, 제1 특징이 제2 특징의 바로 위쪽 또는 비스듬하게 위쪽에 있다는 것을 나타낼 수 있고, 또는 제1 특징의 수평 높이가 제2 특징의 수평 높이보다 높다는 것만을 나타내는 것일 수도 있다. 제1 특징이 제2 특징의 "아래” "아래쪽” "아래면”에 있다는 것은, 제1 특징이 제2 특징의 바로 아래쪽 또는 비스듬하게 아래쪽에 있다는 것을 나타낼 수 있고, 또는 제1 특징의 수평 높이가 제2 특징의 수평 높이보다 낮다는 것만을 나타내는 것일 수도 있다.

본 명세서의 설명에서, 참조 용어 "일 실시예”, "일부 실시예”, "예시”, "구체적인 예시” 또는 "일부 예시”등의 설명은 당해 실시예 또는 예시를 결부하여 설명되는 구체적인 특징, 구조, 재료 또는 특점이 본 발명의 적어도 하나의 실시예 또는 예시에 포함된다는 것을 뜻한다. 본 명세서에서, 상기 용어에 대한 함축적인 표달은 반드시 동일한 실시예 또는 예시를 겨냥 하는 것은 아니다. 그리고, 설명의 구체적인 특징, 구조, 재료 또는 특점은 임의의 하나의 또는 복수개의 실시예 또는 예시에서 적합한 방식으로 결합될 수 있다. 이 외에, 서로 모순되지 않는 상황에서, 본 발명이 속하는 분야의 통상의 지식을 가진 자들은 본 명세서에서 설명한 다른 실시예 또는 예시 및 다른 실시예 또는 예시의 특징에 대해 결합과 조합을 행할 수 있다.

비록 위에서 이미 본 발명의 실시예를 제시하고 설명하였지만 상술한 실시예는 예시적인 것 일 뿐, 본 발명에 대한 한정으로 이해해서는 안된다는 것으로 이해 될 수 있으며, 본 발명의 기술 분야의 통상의 지식을 가진 자들은 본 발명의 범위내에서 상술한 실시예에 대해 변화, 수정, 대체와 변형을 진행할 수 있다.

Claims

텍스트 정보를 포함하는 음성 합성 요구를 수신하는 단계와;
상기 음성 합성 요구를 수신하였을 때 음성 합성 시스템의 부하 등급을 결정하는 단계와;
상기 부하 등급과 대응되는 음성 합성 경로를 선택하고, 상기 음성 합성 경로에 따라 상기 텍스트 정보에 대하여 음성 합성을 행하는 단계;
를 포함하는 것을 특징으로 하는 음성 합성 시스템의 최적화 방법.
제1항에 있어서,
상기 음성 합성 요구를 수신하였을 때 음성 합성 시스템의 부하 등급을 결정하는 단계는,
현재 시점 음성 합성 시스템이 수신한 음성 합성 요구 수량 및 대응되는 평균 응답 시간을 취득하는 단계와;
상기 음성 합성 요구 수량과 상기 평균 응답 시간에 따라 상기 부하 등급을 결정하는 단계;
를 포함하는 것을 특징으로 하는 방법.
제2항에 있어서,
상기 음성 합성 수량과 상기 평균 응답 시간에 따라 상기 부하 등급을 결정하는 단계는,
상기 음성 합성 요구 수량이 응답 요구 능력보다 적고, 상기 평균 응답 시간이 사전 설정된 시간보다 작을 때, 상기 부하 등급을 제1 등급으로 결정하는 단계와;
상기 음성 합성 요구 수량이 응답 요구 능력보다 적고, 상기 평균 응답 시간이 사전 설정된 시간보다 길 때, 상기 부하 등급을 제2 등급으로 결정하는 단계와;
상기 음성 합성 요구 수량이 응답 요구 능력보다 많을 때, 상기 부하 등급을 제3 등급으로 결정하는 단계;
를 포함하는 것을 특징으로 하는 방법.
제3항에 있어서,
상기 부하 등급과 대응되는 음성 합성 경로를 선택하고, 상기 음성 합성 경로에 따라 상기 텍스트 정보에 대하여 음성 합성을 행하는 단계는,
상기 부하 등급이 제1 등급일 때, 상기 제1 등급과 대응되는 제1 경로를 선택하여 상기 텍스트 정보에 대하여 음성 합성을 행하는 단계와;
상기 부하 등급이 제2 등급일 때, 상기 제2 등급과 대응되는 제2 경로를 선택하여 상기 텍스트 정보에 대하여 음성 합성을 행하는 단계와;
상기 부하 등급이 제3 등급일 때, 상기 제3 등급과 대응되는 제3 경로를 선택하여 상기 텍스트 정보에 대하여 음성 합성을 행하는 단계;
를 포함하는 것을 특징으로 하는 방법.
제4항에 있어서,
상기 제1 경로는 장기 단기 기억 LSTM 모델과 파형 스플라이싱 모델을 포함하고,
상기 파형 스플라이싱 모델은 제1 파라미터를 사용하여 설정하는 것을 특징으로 하는 방법.
제4항에 있어서,
상기 제2 경로는 은닉 마르코프 음성 합성 시스템 HTS 모델과 상기 파형 스플라이싱 모델을 포함하고,
상기 파형 스플라이싱 모델은 제2 파라미터를 사용하여 설정하는 것을 특징으로 하는 방법.
제4항에 있어서,
상기 제3 경로는 상기HTS 모델과 보코더 모델을 포함하는 것을 특징으로 하는 방법.
텍스트 정보를 포함하는 음성 합성 요구를 수신하기 위한 수신 모듈과;
상기 음성 합성 요구를 수신하였을 때 음성 합성 시스템의 부하 등급을 결정하기 위한 결정 모듈과;
상기 부하 등급과 대응되는 음성 합성 경로를 선택하고 상기 음성 합성 경로에 따라 상기 텍스트 정보에 대하여 음성 합성을 행하기 위한 합성 모듈;
을 포함하는 것을 특징으로 하는 음성 합성 시스템의 최적화 장치.
제8항에 있어서,
상기 결정 모듈은,
현재 시점 음성 합성 시스템이 수신한 음성 합성 요구 수량 및 대응되는 평균 응답 시간을 취득하기 위한 취득 유닛과;
상기 음성 합성 요구 수량과 상기 평균 응답 시간에 따라 상기 부하 등급을 결정하기 위한 결정 유닛;
을 포함하는 것을 특징으로 하는 장치.
제9항에 있어서,
상기 결정 유닛은,
상기 음성 합성 요구 수량이 응답 요구 능력보다 적고, 상기 평균 응답 시간 사전 설정된 시간보다 작을 때, 상기 부하 등급을 제1 등급으로 결정하고;
상기 음성 합성 요구 수량이 응답 요구 능력보다 적고, 상기 평균 응답 시간 사전 설정된 시간보다 길 때, 상기 부하 등급을 제2 등급으로 결정하며;
상기 음성 합성 요구 수량이 응답 요구 능력보다 많을 때, 상기 부하 등급을 제3 등급으로 결정하기 위한 것임을 특징으로 하는 장치.
제10항에 있어서,
상기 합성 모듈은,
상기 부하 등급이 제1 등급일 때, 상기 제1 등급과 대응되는 제1 경로를 선택하여 상기 텍스트 정보에 대하여 음성 합성을 행하고;
상기 부하 등급이 제2 등급일 때, 상기 제2 등급과 대응되는 제2 경로를 선택하여 상기 텍스트 정보에 대하여 음성 합성을 행하며;
상기 부하 등급이 제3 등급일 때, 상기 제3 등급과 대응되는 제3 경로를 선택하여 상기 텍스트 정보에 대하여 음성 합성을 행하기 위한 것을 특징으로 하는 장치.
제11항에 있어서,
상기 제1 경로는 장기 단기 기억 LSTM 모델과 파형 스플라이싱 모델을 포함하고,
상기 파형 스플라이싱 모델은 제1 파라미터를 사용하여 설정하는 것을 특징으로 하는 장치.
제11항에 있어서,
상기 제2 경로는 은닉 마르코프 음성 합성 시스템 HTS 모델과 상기 파형 스플라이싱 모델을 포함하고,
상기 파형 스플라이싱 모델은 제2 파라미터를 사용하여 설정하는 것을 특징으로 하는 장치.
제11항에 있어서,
상기 제3 경로는 상기HTS 모델과 보코더 모델을 포함하는 것을 특징으로 하는 장치.