KR20190002003A - 음성 합성 방법 및 장치 - Google Patents

음성 합성 방법 및 장치 Download PDF

Info

Publication number
KR20190002003A
KR20190002003A KR1020170082270A KR20170082270A KR20190002003A KR 20190002003 A KR20190002003 A KR 20190002003A KR 1020170082270 A KR1020170082270 A KR 1020170082270A KR 20170082270 A KR20170082270 A KR 20170082270A KR 20190002003 A KR20190002003 A KR 20190002003A
Authority
KR
South Korea
Prior art keywords
text data
tag
applying
model
result
Prior art date
Application number
KR1020170082270A
Other languages
English (en)
Inventor
박정석
최우혁
차재욱
Original Assignee
주식회사 케이티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 케이티 filed Critical 주식회사 케이티
Priority to KR1020170082270A priority Critical patent/KR20190002003A/ko
Publication of KR20190002003A publication Critical patent/KR20190002003A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Otolaryngology (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 음성 합성 방법 및 장치에 관한 것으로, 음성 합성을 위해 수신된 텍스트데이터를 분석하는 단계, 상기 텍스트데이터 분석결과, 상기 텍스트데이터에 태그의 포함여부를 확인하는 단계, 상기 태그의 포함여부를 기반으로 상기 텍스트데이터를 음편결합 모델에 적용하는 단계, 상기 음편결합 모델의 적용결과가 기저장된 기준치 이하이면 상기 텍스트데이터에 음성발생 모델을 적용하는 단계 및 상기 음성발생 모델의 적용결과로 생성된 음성 합성 데이터를 출력하는 단계를 포함할 수 있고, 다른 실시 예로도 적용이 가능하다.

Description

음성 합성 방법 및 장치{Method and Apparatus for Synthesis of Speech}
본 발명은 음성 합성 방법 및 장치에 관한 것으로, 음성 합성이 요청된 텍스트데이터에 음편결합 모델 또는 음성발생 모델 중 어느 하나의 모델을 적용하여 음성 합성 데이터를 생성하는 음성 합성 방법 및 장치에 관한 것이다.
음성 합성 기술은 네비게이션, 운전 중 수신된 문자 메시지 읽어주기 등 각종 음성 안내, 교육 분야 등에서 널리 사용되고 있다. 음성 합성은 사람이 말하는 소리와 유사한 소리를 생성하는 기술로 흔히 TTS(text to speech) 시스템으로 많이 알려져 있다.
음성 합성 기술은 사용자에게 정보를 텍스트나 그림 같은 시각적 데이터가 아닌 음성 데이터로 전달한다. 음성 합성 기술은 시각 장애인이나 운전 중일 때처럼 사용자가 화면을 확인할 수 없는 경우에 텍스트 데이터를 음성 데이터로 제공함으로써, 매우 유용하게 사용된다. 최근에는, IoT(internet of things) 제품들의 개발 및 보급이 활발하게 이루어짐으로써 보다 자연스러운 음성 합성 데이터를 출력할 수 있는 기술 개발의 필요성이 요청되고 있다.
이러한 종래의 문제점을 해결하기 위한 본 발명의 다양한 실시 예들은 텍스트데이터에 음편결합 모델을 적용한 결과에 따라 음성발생 모델을 추가 적용할 수 있는 하이브리드 방식을 사용함으로써 선택적으로 음성 합성 모델을 결정하여 보다 자연스러운 음성 합성 데이터를 제공할 수 있는 음성 합성 방법 및 장치를 제공하는 것이다.
본 발명의 일 실시 예에 따른 음성 합성 방법은, 음성 합성을 위해 수신된 텍스트데이터를 분석하는 단계, 상기 텍스트데이터 분석결과, 상기 텍스트데이터에 태그의 포함여부를 확인하는 단계, 상기 태그의 포함여부를 기반으로 상기 텍스트데이터를 음편결합 모델에 적용하는 단계, 상기 음편결합 모델의 적용결과가 기저장된 기준치 이하이면 상기 텍스트데이터에 음성발생 모델을 적용하는 단계 및 상기 음성발생 모델의 적용결과로 생성된 음성 합성 데이터를 출력하는 단계를 포함하는 것을 특징으로 한다.
또한, 음편결합 모델의 적용결과가 상기 기준치를 초과하면 상기 음편결합 모델의 적용결과로 생성된 음성 합성 데이터를 출력하는 단계를 더 포함하는 것을 특징으로 한다.
또한, 텍스트데이터에 상기 태그의 포함여부를 확인하는 단계 이후에, 상기 태그가 포함된 상태이면, 상기 태그의 종류를 확인하는 단계 및 상기 태그의 종류에 따라 상기 텍스트데이터를 상기 음성발생 모델에 적용하는 단계를 더 포함하는 것을 특징으로 한다.
또한, 텍스트데이터를 음편결합 모델에 적용하는 단계는, 상기 텍스트데이터에 포함된 상기 태그가 특정 분야의 태그이면, 상기 텍스트데이터를 상기 음편결합 모델에 적용하는 단계인 것을 특징으로 한다.
또한, 음편결합 모델에 적용하는 단계는, 상기 특정 분야에 대응되는 음편결합 데이터베이스의 존재여부를 확인하는 단계, 상기 음편결합 데이터베이스가 존재하지 않으면, 음편결합 데이터베이스를 제공하는 서버로부터 상기 음편결합 데이터베이스를 수신하는 단계 및 상기 수신된 음편결합 데이터베이스에 상기 텍스트데이터를 적용하는 단계를 포함하는 것을 특징으로 한다.
또한, 태그의 종류를 확인하는 단계는, 상기 텍스트데이터에 포함된 태그가 감정 표현 태그 및 성대모사를 포함하는 부가 서비스 태그인지를 확인하는 단계인 것을 특징으로 한다.
또한, 기준치는, 상기 음편결합 모델의 적용결과인 음편과 음편결합 데이터베이스에 포함된 음편에 대한 유사도, 상기 음편결합 모델의 적용결과에 따른 단위 음편과 전후 음편과의 운율 차이와 음편결합 데이터베이스에 포함된 단위 음편과 전후 음편과의 운율 차이에 대한 유사도를 포함하는 것을 특징으로 한다.
아울러, 본 발명의 일 실시 예에 따른 음성 합성 장치는, 음성 합성을 위해 수신된 텍스트데이터를 분석결과에 따라 상기 텍스트데이터에 태그의 포함여부를 확인하고, 상기 태그의 포함여부를 기반으로 상기 텍스트데이터를 음편결합 모델에 적용하고, 상기 음편결합 모델의 적용결과가 기저장된 기준치 이하이면 상기 텍스트데이터에 음성발생 모델을 적용하여 음성 합성 데이터를 생성하는 제어부 및 상기 제어부의 제어에 의해 상기 음성 합성 데이터를 출력하는 스피커를 포함하는 것을 특징으로 한다.
또한, 제어부는, 상기 음편결합 모델의 적용결과가 상기 기준치를 초과하면 상기 음편결합 모델의 적용결과로 음성 합성 데이터를 생성하는 것을 특징으로 한다.
또한, 제어부는, 상기 텍스트데이터에 상기 태그가 포함된 상태이면 상기 태그의 종류를 확인하고, 상기 태그의 종류에 따라 상기 텍스트데이터를 상기 음성발생 모델에 적용하는 것을 특징으로 한다.
또한, 제어부는, 상기 텍스트데이터에 포함된 상기 태그가 특정 분야의 태그이면 상기 텍스트데이터를 상기 음편결합 모델에 적용하는 것을 특징으로 한다.
또한, 제어부는, 상기 특정 분야에 대응되는 음편결합 데이터베이스가 존재하지 않으면, 외부 서버로부터 상기 음편결합 데이터베이스를 수신하고, 상기 수신된 음편결합 데이터베이스에 상기 텍스트데이터를 적용하는 것을 특징으로 한다.
또한, 태그의 종류는, 감정 표현 태그 및 성대모사를 포함하는 부가 서비스 태그를 포함하는 것을 특징으로 한다.
또한, 기준치는, 상기 음편결합 모델의 적용결과인 음편과 음편결합 데이터베이스에 포함된 음편에 대한 유사도, 상기 음편결합 모델의 적용결과인 단위 음편과 전후 음편과의 운율 차이와 음편결합 데이터베이스에 포함된 단위 음편과 전후 음편과의 운율 차이에 대한 유사도인 것을 특징으로 한다.
상술한 바와 같이 본 발명의 음성 합성 방법 및 장치는, 텍스트데이터에 음편결합 모델을 적용한 결과에 따라 음성발생 모델을 추가 적용할 수 있는 하이브리드 방식을 사용함으로써, 텍스트데이터의 음성 합성 시 보다 자연스러운 음성 합성 데이터를 생성할 수 있는 효과가 있다.
도 1은 본 발명의 실시 예에 따른 음성 합성 장치의 주요 구성을 나타내는 블록도이다.
도 2는 본 발명의 실시 예에 따른 음성 합성 방법을 설명하기 위한 순서도이다.
이하, 본 발명에 따른 바람직한 실시 형태를 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다. 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략할 수 있고, 명세서 전체를 통하여 동일 또는 유사한 구성 요소에 대해서는 동일한 참조 부호를 사용할 수 있다.
본 발명의 일 실시 예에서, “또는”, “적어도 하나” 등의 표현은 함께 나열된 단어들 중 하나를 나타내거나, 또는 둘 이상의 조합을 나타낼 수 있다. 예를 들어, “A 또는 B”, “A 및 B 중 적어도 하나”는 A 또는 B 중 하나만을 포함할 수 있고, A와 B를 모두 포함할 수도 있다.
도 1은 본 발명의 실시 예에 따른 음성 합성 장치의 주요 구성을 나타내는 블록도이다.
도 1을 참조하면, 본 발명에 따른 음성 합성 장치(100)는 통신부(110), 입력부(120), 표시부(130), 오디오처리부(140), 메모리(150) 및 제어부(160)를 포함하고, 메모리(150)는 제1 DB(151) 및 제2 DB(152)를 포함한다.
통신부(110)는 음성 합성 장치(100)의 외부에 구비된 외부 장치(미도시)와의 통신을 수행한다. 외부 장치는 음성 합성 장치(100)에 음성 합성을 위한 텍스트데이터를 전송하기 위한 장치 및 음성 합성 장치(100)로 음편결합 데이터베이스를 제공할 수 있는 서버가 될 수 있다. 이를 위해, 통신부(110)는 유선 또는 무선 통신 중 적어도 하나를 수행할 수 있다. 통신부(110)는 WiFi(wireless fidelity), LTE(long term evolution), LTE-A(long term evolution-advanced), 블루투스(bluetooth), BLE(bluetooth low energy) 및 NFC(near field communication) 등의 무선 통신 및 USB(universal serial bus) Cable 등의 유선 통신을 수행할 수 있다.
입력부(120)는 음성 합성 장치(100)의 사용자 입력에 대응하여, 입력 데이터를 발생시킨다. 입력부(120)는 적어도 하나의 입력수단을 포함한다. 입력부(120)는 키패드(key pad), 돔 스위치(dome switch), 터치 패널(touch panel), 터치 키(touch key) 및 버튼(button)을 포함한다. 입력부(120)는 사용자 입력에 대응하여 음성 합성을 수행하기 위해 발생된 텍스트데이터를 제어부(160)로 제공할 수 있다.
표시부(130)는 음성 합성 장치(100)의 동작에 따른 출력 데이터를 출력한다. 이를 위해, 표시부(130)는 액정 디스플레이(LCD; liquid crystal display), 발광 다이오드(LED; light emitting diode) 디스플레이, 유기 발광 다이오드(OLED; organic LED) 디스플레이, 마이크로 전자기계 시스템(MEMS; micro electro mechanical systems) 디스플레이 및 전자 종이(electronic paper) 디스플레이를 포함한다. 표시부(130)는 입력부(120)와 결합되어 터치 스크린(touch screen)으로 구현될 수 있다.
오디오처리부(140)는 오디오 신호를 처리한다. 이때, 오디오처리부(140)는 마이크(MIC)와 스피커(SPK)를 포함한다. 오디오처리부(140)는 마이크에서 발생되는 오디오 신호를 제어부(160)로 전달한다. 오디오처리부(140)는 제어부(160)에서 출력되는 오디오 신호 예컨대, 음성 합성 데이터 등을 스피커를 통해 재생한다.
메모리(150)는 음성 합성 장치(100)의 동작 프로그램들을 저장한다. 메모리(150)는 음편결합 모델을 적용한 텍스트데이터를 음성발생 모델에 적용할 것인지를 결정하기 위한 기준치를 저장한다. 이를 위해, 메모리(150)는 제1 DB(151) 및 제2 DB(152)를 포함한다.
제1 DB(151)는 복수의 음편결합 데이터베이스를 저장한다. 제1 DB(151)는 텍스트데이터에 포함될 수 있는 적어도 하나의 특정 분야에 대한 태그와 관련된 음편결합 데이터베이스를 저장할 수 있다. 예컨대, 제1 DB(151)는 금융 분야, 스포츠 분야 각각에 대한 음편결합 데이터베이스를 저장할 수 있다. 음편결합 데이터베이스는 텍스트데이터에 음편결합 모델을 적용하기 위한 데이터베이스이며, 음편결합 모델은 코퍼스 기반의 모델일 수 있다.
제2 DB(152)는 텍스트데이터에 음성발생 모델을 적용하기 위한 음성발생 모델에 대한 알고리즘을 저장한다. 음성발생 모델은 은닉 마르코프 모델(HMM; hidden markov model)일 수 있으며, 코퍼스 방식에 딥러닝을 적용한 모델일 수 있다.
제어부(160)는 음성 합성을 위해 수신된 텍스트데이터를 분석하고, 분석결과에 따라 텍스트데이터에 태그의 포함여부를 확인한다. 제어부(160)는 태그의 포함여부를 기반으로 텍스트데이터를 음편결합 모델에 적용하고, 음편결합 모델의 적용결과가 기저장된 기준치 이하이면 텍스트데이터에 음성발생 모델을 적용한다. 제어부(160)는 음편결합 모델 또는 음성발생 모델 중 어느 하나의 모델을 적용하여 생성된 음성 합성 데이터를 출력한다.
보다 구체적으로, 제어부(160)는 음성 합성을 수행하고자 하는 텍스트데이터를 수신한다. 이때, 텍스트데이터는 입력부(120) 또는 휴대단말과 같은 외부 장치로부터 수신될 수 있다. 제어부(160)는 수신된 텍스트데이터를 분석한다. 이때, 제어부(160)는 텍스트데이터에 약어, 축약어, 숫자, 시간, 특수문자 등이 포함되어 있을 수 있으므로, 텍스트데이터를 음성으로 합성하기 이전에 정규화하는 과정을 수행한다. 제어부(160)는 정규화한 텍스트데이터를 정규 맞춤법에서 소리나는대로 변환할 수 있다. 제어부(160)는 구문 분석을 통해 텍스트데이터의 문법을 분석하여 단어의 품사를 구별하고, 의문문, 평서문 등에 따라 운율제어를 위한 정보를 분석한다.
제어부(160)는 텍스트데이터의 분석결과에 따라 텍스트데이터에 태그의 포함여부를 확인할 수 있다. 제어부(160)는 텍스트데이터에 태그가 포함되지 않았으면, 텍스트데이터에 음편결합 모델을 적용한다. 이때, 태그는 텍스트데이터에 괄호, 따옴표 등의 기호로 기재될 수 있다.
제어부(160)는 음편결합 모델에 적용하고 난 이후의 결과를 메모리(150)에 기저장된 기준치와 비교한다. 제어부(160)는 적용결과가 기준치 이하이면 텍스트데이터를 음성발생 모델에 추가로 적용하여 음성 합성 데이터를 생성한 후 출력한다. 또한, 제어부(160)는 적용결과가 기준치를 초과하면 음편결합 모델을 적용하여 음성 합성 데이터를 생성한 후 이를 출력한다. 이때, 기준치는, 텍스트데이터에 음편결합 모델을 적용하여 도출된 음편과 음편결합 데이터베이스에 포함된 음편에 대한 유사도, 텍스트데이터에 음편결합 모델을 적용하여 도출된 단위 음편과 단위 음편의 전후 음편과의 운율 차이와 음편결합 데이터베이스에 포함된 단위 음편과 단위 음편의 전후 음편과의 운율 차이에 대한 유사도를 의미한다. 보다 구체적으로, 텍스트데이터에 음편결합 모델을 적용하여 도출된 음편과 음편결합 데이터베이스에 포함된 음편에 대한 유사도가 기준치 이하이면, 음성 합성에 대한 명료성이 저하된다. 또한, 텍스트데이터에 음편결합 모델을 적용하여 도출된 단위 음편과 단위 음편의 전후 음편과의 운율 차이와 음편결합 데이터베이스에 포함된 단위 음편과 단위 음편의 전후 음편과의 운율 차이에 대한 유사도가 기준치 이하이면, 음성 합성이 자연스럽지 못하다. 따라서, 제어부(160)는 텍스트데이터에 음편결합 모델을 적용하여 도출된 적용결과가 임계치 이하이면 보다 자연스러운 음성 합성을 위해 텍스트데이터를 음성발생 모델에 적용한다.
제어부(160)는 텍스트데이터에 태그가 포함되어 있으면, 태그가 특정 분야에 관련된 태그인지 확인한다. 이때, 특정 분야는 금융 분야, 스포츠 분야 등 다양한 분야일 수 있다. 제어부(160)는 특정 분야에 관련된 태그가 아니면, 태그의 종류를 확인한 후, 텍스트데이터를 음성발생 모델에 적용한다. 이때, 태그의 종류는, 감정 표현 태그 및 성대모사를 포함하는 부가 서비스 태그 등일 수 있다. 제어부(160)는 텍스트데이터에 포함된 태그가 특정 분야에 관련된 태그이면, 제1 DB(151)에 특정 분야와 관련된 음편결합 데이터베이스가 존재하는지 확인한다. 제어부(160)는 제1 DB(151)에 특정 분야와 관련된 음편결합 데이터베이스가 있으면, 텍스트데이터를 음편결합 모델에 적용하여 음성 합성 데이터를 생성할 수 있다.
제어부(160)는 제1 DB(151)에 특정 분야와 관련된 음편결합 데이터베이스가 없으면, 서버에 접속할 수 있다. 제어부(160)는 서버로부터 특정 분야와 관련된 음편결합 데이터베이스를 수신하여 제1 DB(151)에 저장한다. 제어부(160)는 특정 분야와 관련된 음편결합 데이터베이스를 저장한 이후에, 텍스트데이터를 음편결합 모델에 적용하여 음성 합성 데이터를 생성할 수 있다.
도 2는 본 발명의 실시 예에 따른 음성 합성 방법을 설명하기 위한 순서도이다.
도 2를 참조하면, 201단계에서 제어부(160)는 입력부(120)를 통해 음성 합성 요청신호가 수신되면 203단계를 수행한다. 201단계에서 제어부(160)는 음성 합성 요청신호가 수신되지 않으면 요청신호를 대기한다. 203단계에서 제어부(160)는 음성 합성을 수행하고자 하는 텍스트데이터를 수신한다. 이때, 텍스트데이터는 입력부(120)를 통해 수신될 수 있고, 휴대단말과 같은 외부 장치로부터 수신될 수 있다.
205단계에서 제어부(160)는 텍스트데이터를 분석한다. 이때, 제어부(160)는 텍스트데이터에 약어, 축약어, 숫자, 시간, 특수문자 등이 포함되어 있을 수 있으므로, 텍스트데이터를 음성으로 합성하기 이전에 정규화하는 과정을 수행한다. 제어부(160)는 정규화한 텍스트데이터를 정규 맞춤법에서 소리가 나는대로 변환할 수 있다. 제어부(160)는 구문 분석을 통해 텍스트데이터의 문법을 분석하여 단어의 품사를 구별하고, 의문문, 평서문 등에 따라 운율제어를 위한 정보를 분석한다.
207단계에서 제어부(160)는 텍스트데이터의 분석결과에 따라 텍스트데이터에 태그의 포함여부를 확인할 수 있다. 207단계의 확인 결과, 텍스트데이터에 태그가 포함된 상태이면 제어부(160)는 209단계를 수행하고, 태그가 포함된 상태가 아니면 제어부(160)는 217단계를 수행한다. 이때, 태그는 텍스트데이터에 괄호, 따옴표 등의 기호로 기재될 수 있다.
209단계에서 제어부(160)는 텍스트데이터에 포함된 태그가 특정 분야에 관련된 태그인지 확인한다. 예컨대, 제어부(160)는 텍스트데이터에 포함된 태그가 금융 분야, 스포츠 분야 등과 같이 특정 분야에 관련된 태그인지 확인할 수 있다. 209단계의 확인결과, 텍스트데이터에 포함된 태그가 특정 분야에 관련된 태그이면 제어부(160)는 213단계를 수행하고, 특정 분야에 관련된 태그가 아니면 211단계를 수행한다. 211단계에서 제어부(160)는 텍스트데이터에 포함된 태그의 종류를 확인하고 221단계를 수행할 수 있다. 이때, 텍스트데이터에 포함된 태그 종류는 감정 표현 태그 및 성대모사를 포함하는 부가 서비스 태그 등일 수 있다. 221단계에서 제어부(160)는 텍스트데이터에 음성발생 모델을 적용하고 223단계를 수행한다.
213단계에서 제어부(160)는 확인된 특정 분야 태그와 관련된 음편결합 데이터베이스가 제1 DB(151)에 존재하는지 확인한다. 213단계의 확인결과, 제1 DB(151)에 특정 분야 태그와 관련된 음편결합 데이터베이스가 없으면 제어부(160)는 215단계를 수행한다. 215단계에서 제어부(160)는 서버에 접속하여 특정 분야 태그와 관련된 음편결합 데이터베이스를 다운로드하여 제1 DB(151)에 저장하고, 217단계를 수행한다. 213단계의 확인결과, 제1 DB(151)에 특정 분야 태그와 관련된 음편결합 데이터베이스가 있으면 제어부(160)는 217단계를 수행한다.
217단계에서 제어부(160)는 텍스트데이터를 음편결합 모델에 적용한다. 219단계에서 제어부(160)는 음편결합 모델에 적용한 적용결과가 기준치 이하이면 221단계를 수행하고, 기준치를 초과하면 223단계를 수행한다. 223단계에서 제어부(160)는 텍스트데이터를 음편결합 모델에 적용하여 음성 합성 데이터를 생성하고, 생성된 음성 합성 데이터를 출력한 후 225단계를 수행한다. 이때, 기준치는, 텍스트데이터에 음편결합 모델을 적용하여 도출된 음편과 음편결합 데이터베이스에 포함된 음편에 대한 유사도, 텍스트데이터에 음편결합 모델을 적용하여 도출된 단위 음편과 단위 음편의 전후 음편과의 운율 차이와 음편결합 데이터베이스에 포함된 단위 음편과 단위 음편의 전후 음편과의 운율 차이에 대한 유사도를 의미한다. 보다 구체적으로, 텍스트데이터에 음편결합 모델을 적용하여 도출된 음편과 음편결합 데이터베이스에 포함된 음편에 대한 유사도가 기준치 이하이면, 음성 합성에 대한 명료성이 저하된다. 또한, 텍스트데이터에 음편결합 모델을 적용하여 도출된 단위 음편과 단위 음편의 전후 음편과의 운율 차이와 음편결합 데이터베이스에 포함된 단위 음편과 단위 음편의 전후 음편과의 운율 차이에 대한 유사도가 기준치 이하이면, 음성 합성이 자연스럽지 못하다. 따라서, 제어부(160)는 텍스트데이터에 음편결합 모델을 적용하여 도출된 적용결과가 임계치 이하이면 보다 자연스러운 음성 합성을 위해 221단계를 수행한다.
221단계에서 제어부(160)는 텍스트데이터에 음성발생 모델을 적용하여 223단계를 수행한다. 223단계에서 제어부(160)는 텍스트데이터를 음성발생 모델에 적용한 결과에 따라 음성 합성 데이터를 생성하고, 생성된 음성 합성 데이터를 출력한 후 225단계를 수행한다.
225단계에서 제어부(160)는 입력부(120)를 통해 음성 합성 종료 신호가 수신되면 상기 프로세스를 종료하고, 음성 합성 종료 신호가 수신되지 않으면 203단계로 회귀하여 상기의 단계들을 재수행할 수 있다.
본 명세서와 도면에 개시된 본 발명의 실시 예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것일 뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 따라서 본 발명의 범위는 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상을 바탕으로 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (14)

  1. 음성 합성을 위해 수신된 텍스트데이터를 분석하는 단계;
    상기 텍스트데이터 분석결과, 상기 텍스트데이터에 태그의 포함여부를 확인하는 단계;
    상기 태그의 포함여부를 기반으로 상기 텍스트데이터를 음편결합 모델에 적용하는 단계;
    상기 음편결합 모델의 적용결과가 기저장된 기준치 이하이면 상기 텍스트데이터에 음성발생 모델을 적용하는 단계; 및
    상기 음성발생 모델의 적용결과로 생성된 음성 합성 데이터를 출력하는 단계;
    를 포함하는 것을 특징으로 하는 방법.
  2. 제1항에 있어서,
    상기 음편결합 모델의 적용결과가 상기 기준치를 초과하면 상기 음편결합 모델의 적용결과로 생성된 음성 합성 데이터를 출력하는 단계;
    를 더 포함하는 것을 특징으로 하는 방법.
  3. 제2항에 있어서,
    상기 텍스트데이터에 상기 태그의 포함여부를 확인하는 단계 이후에,
    상기 태그가 포함된 상태이면, 상기 태그의 종류를 확인하는 단계; 및
    상기 태그의 종류에 따라 상기 텍스트데이터를 상기 음성발생 모델에 적용하는 단계;
    를 더 포함하는 것을 특징으로 하는 방법.
  4. 제2항에 있어서,
    상기 텍스트데이터를 음편결합 모델에 적용하는 단계는,
    상기 텍스트데이터에 포함된 상기 태그가 특정 분야의 태그이면, 상기 텍스트데이터를 상기 음편결합 모델에 적용하는 단계인 것을 특징으로 하는 방법.
  5. 제4항에 있어서,
    상기 음편결합 모델에 적용하는 단계는,
    상기 특정 분야에 대응되는 음편결합 데이터베이스의 존재여부를 확인하는 단계;
    상기 음편결합 데이터베이스가 존재하지 않으면, 음편결합 데이터베이스를 제공하는 서버로부터 상기 음편결합 데이터베이스를 수신하는 단계; 및
    상기 수신된 음편결합 데이터베이스에 상기 텍스트데이터를 적용하는 단계;
    를 포함하는 것을 특징으로 하는 방법.
  6. 제3항에 있어서,
    상기 태그의 종류를 확인하는 단계는,
    상기 텍스트데이터에 포함된 태그가 감정 표현 태그 및 성대모사를 포함하는 부가 서비스 태그인지를 확인하는 단계인 것을 특징으로 하는 방법.
  7. 제2항에 있어서,
    상기 기준치는,
    상기 음편결합 모델의 적용결과인 음편과 음편결합 데이터베이스에 포함된 음편에 대한 유사도, 상기 음편결합 모델의 적용결과에 따른 단위 음편과 전후 음편과의 운율 차이와 음편결합 데이터베이스에 포함된 단위 음편과 전후 음편과의 운율 차이에 대한 유사도를 포함하는 것을 특징으로 하는 방법.
  8. 음성 합성을 위해 수신된 텍스트데이터를 분석결과에 따라 상기 텍스트데이터에 태그의 포함여부를 확인하고, 상기 태그의 포함여부를 기반으로 상기 텍스트데이터를 음편결합 모델에 적용하고, 상기 음편결합 모델의 적용결과가 기저장된 기준치 이하이면 상기 텍스트데이터에 음성발생 모델을 적용하여 음성 합성 데이터를 생성하는 제어부; 및
    상기 제어부의 제어에 의해 상기 음성 합성 데이터를 출력하는 스피커;
    를 포함하는 것을 특징으로 하는 장치.
  9. 제8항에 있어서,
    상기 제어부는,
    상기 음편결합 모델의 적용결과가 상기 기준치를 초과하면 상기 음편결합 모델의 적용결과로 음성 합성 데이터를 생성하는 것을 특징으로 하는 장치.
  10. 제9항에 있어서,
    상기 제어부는,
    상기 텍스트데이터에 상기 태그가 포함된 상태이면 상기 태그의 종류를 확인하고, 상기 태그의 종류에 따라 상기 텍스트데이터를 상기 음성발생 모델에 적용하는 것을 특징으로 하는 장치.
  11. 제9항에 있어서,
    상기 제어부는,
    상기 텍스트데이터에 포함된 상기 태그가 특정 분야의 태그이면 상기 텍스트데이터를 상기 음편결합 모델에 적용하는 것을 특징으로 하는 장치.
  12. 제11항에 있어서,
    상기 제어부는,
    상기 특정 분야에 대응되는 음편결합 데이터베이스가 존재하지 않으면, 외부 서버로부터 상기 음편결합 데이터베이스를 수신하고, 상기 수신된 음편결합 데이터베이스에 상기 텍스트데이터를 적용하는 것을 특징으로 하는 장치.
  13. 제10항에 있어서,
    상기 태그의 종류는,
    감정 표현 태그 및 성대모사를 포함하는 부가 서비스 태그를 포함하는 것을 특징으로 하는 장치.
  14. 제9항에 있어서,
    상기 기준치는,
    상기 음편결합 모델의 적용결과인 음편과 음편결합 데이터베이스에 포함된 음편에 대한 유사도, 상기 음편결합 모델의 적용결과인 단위 음편과 전후 음편과의 운율 차이와 음편결합 데이터베이스에 포함된 단위 음편과 전후 음편과의 운율 차이에 대한 유사도인 것을 특징으로 하는 장치.
KR1020170082270A 2017-06-29 2017-06-29 음성 합성 방법 및 장치 KR20190002003A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170082270A KR20190002003A (ko) 2017-06-29 2017-06-29 음성 합성 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170082270A KR20190002003A (ko) 2017-06-29 2017-06-29 음성 합성 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20190002003A true KR20190002003A (ko) 2019-01-08

Family

ID=65021033

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170082270A KR20190002003A (ko) 2017-06-29 2017-06-29 음성 합성 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20190002003A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102116014B1 (ko) * 2019-04-15 2020-05-27 미디어젠(주) 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102116014B1 (ko) * 2019-04-15 2020-05-27 미디어젠(주) 음성인식엔진과 성대모사용음성합성엔진을 이용한 화자 성대모사시스템

Similar Documents

Publication Publication Date Title
US11514886B2 (en) Emotion classification information-based text-to-speech (TTS) method and apparatus
CN106796785B (zh) 用于产生声音检测模型的声音样本验证
US20160071512A1 (en) Multilingual prosody generation
JP2018532165A (ja) 個別化されたエンティティ発音の学習
KR102615154B1 (ko) 전자 장치 및 전자 장치의 제어 방법
KR20210043449A (ko) 텍스트용 음성 마크업 언어 태그 자동 생성
US9437195B2 (en) Biometric password security
JP5834291B2 (ja) 音声認識装置、自動応答方法及び、自動応答プログラム
US20230122824A1 (en) Method and system for user-interface adaptation of text-to-speech synthesis
JP6625772B2 (ja) 検索方法及びそれを用いた電子機器
KR20190012419A (ko) 발화 유창성 자동 평가 시스템 및 방법
KR20160131505A (ko) 음성 변환 방법 및 음성 변환 장치
Zhang et al. Commandergabble: A universal attack against asr systems leveraging fast speech
KR20190002003A (ko) 음성 합성 방법 및 장치
US11790913B2 (en) Information providing method, apparatus, and storage medium, that transmit related information to a remote terminal based on identification information received from the remote terminal
JP2010197858A (ja) 音声対話システム
KR102416041B1 (ko) 다국어 동시 학습 시스템
JP2017021245A (ja) 語学学習支援装置、語学学習支援方法および語学学習支援プログラム
US20220101829A1 (en) Neural network speech recognition system
JP2020515915A (ja) 人間の発話のきめ細かな評価による発話言語スキルの教育および評価
JP6807491B1 (ja) 補聴器用合成音声セットの修正方法
US20220208174A1 (en) Text-to-speech and speech recognition for noisy environments
KR20180103273A (ko) 음성 합성 장치 및 음성 합성 방법
KR200412740Y1 (ko) 외국어 학습효율을 향상시키는 외국어 학습장치 및 이를이용한 온라인 외국어 학습시스템
JP2020140042A (ja) 音声認識装置、及び、音声認識システム