KR102072162B1 - 인공 지능 기반 외국어 음성 합성 방법 및 장치 - Google Patents

인공 지능 기반 외국어 음성 합성 방법 및 장치 Download PDF

Info

Publication number
KR102072162B1
KR102072162B1 KR1020180001553A KR20180001553A KR102072162B1 KR 102072162 B1 KR102072162 B1 KR 102072162B1 KR 1020180001553 A KR1020180001553 A KR 1020180001553A KR 20180001553 A KR20180001553 A KR 20180001553A KR 102072162 B1 KR102072162 B1 KR 102072162B1
Authority
KR
South Korea
Prior art keywords
foreign language
learning model
speech synthesis
voice
feature vector
Prior art date
Application number
KR1020180001553A
Other languages
English (en)
Other versions
KR20190088126A (ko
Inventor
윤성로
이세일
송종윤
김현재
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020180001553A priority Critical patent/KR102072162B1/ko
Publication of KR20190088126A publication Critical patent/KR20190088126A/ko
Application granted granted Critical
Publication of KR102072162B1 publication Critical patent/KR102072162B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

인공 지능 기반 외국어 음성 합성 방법은 컴퓨터 장치가 특정 사용자의 음성 데이터에서 상기 사용자의 음성 특성에 해당하는 특성 벡터를 추출하는 단계, 상기 컴퓨터 장치가 사전에 마련한 학습 모델에 상기 특성 벡터 및 외국어 텍스트(text)를 입력하는 단계, 상기 컴퓨터 장치가 조절 인자에 대한 특정 값을 상기 학습 모델에 입력하는 단계 및 상기 컴퓨터 장치가 상기 학습 모델에서 출력하는 값을 이용하여 외국어 음성을 출력하는 단계를 포함한다. 상기 조절 인자는 상기 학습 모델에서 음성 합성을 위해 사용되는 파라미터 중 유창정 정도를 조절하는 인자로 사전에 결정된다.

Description

인공 지능 기반 외국어 음성 합성 방법 및 장치{ARTIFICIAL INTELLIGENCE SPEECH SYNTHESIS METHOD AND APPARATUS IN FOREIGN LANGUAGE}
이하 설명하는 기술은 외국어 음성을 합성하는 기법에 관한 것이다.
음성 합성은 주어진 문자를 분석하여 내용 및 발음 정보로 변환하여 파형의 형태인 음성으로 합성해주는 음성 만들어내는 기술이다. 최근 음성 합성 분야에서 심화 인공 신경망(deep neural networks)이 주목 받고 있다. 딥러닝은 사람의 신경망 구조를 모방한 인공 신경망 구조를 이용하여, 주어진 데이터로부터 원하는 목적에 맞추어 특징을 추출하고 문제를 해결하는 인공지능의 한 기술이다. 크게 두 가지 딥러닝 알고리즘이 음성 합성에 많이 활용되는데, 1차원 합성곱 신경망 (1-d Convolutional Neural Network)와 회귀 신경망 (Recurrent Neural Networks)이다.
종래 음성 합성 기술은 음성 합성의 자연스러움에 초점이 맞추어져 있으며, 변화를 주더라도 목소리만을 변화시키는 다화자(Multi-speaker) 음성합성 정도를 제공한다.
한국공개특허 제10-1997-0050108
종래 음성 합성 기술들은 억양 및 발음의 조절이 불가능하다. 종래 음성 합성 기술을 이용하여 목소리의 변화를 주기 위해서는 최소 10여 시간 정도가 필요하다. 이하 설명하는 기술은 사용자의 음성에 내재된 특징을 활용하여 목소리를 유지하면서 음성의 억양 내지 발음에 변화를 줄 수 있는 음성 합성 방법을 제공하고자 한다.
인공 지능 기반 외국어 음성 합성 방법은 컴퓨터 장치가 특정 사용자의 음성 데이터에서 상기 사용자의 음성 특성에 해당하는 특성 벡터를 추출하는 단계, 상기 컴퓨터 장치가 사전에 마련한 학습 모델에 상기 특성 벡터 및 외국어 텍스트(text)를 입력하는 단계, 상기 컴퓨터 장치가 조절 인자에 대한 특정 값을 상기 학습 모델에 입력하는 단계 및 상기 컴퓨터 장치가 상기 학습 모델에서 출력하는 값을 이용하여 외국어 음성을 출력하는 단계를 포함한다.
인공 지능 기반 외국어 음성 합성 장치는 특정 사용자의 음성 데이터, 외국어 텍스트(text) 및 조절 인자에 대한 특정값을 입력받는 입력장치, 상기 음성 데이터에서 음성 특성에 해당하는 특성 벡터를 추출하는 제1 학습 모델 및 상기 특성 벡터, 상기 텍스트 및 상기 조절 인자를 입력받아 외국어 음성을 출력하는 제2 학습 모델을 저장하는 저장장치 및 상기 음성 데이터를 비지도 학습 모델인 상기 제1 학습 모델에 입력하여 파형의 배열 특징에 해당하는 상기 특성 벡터를 추출하고, 상기 특성 벡터, 상기 텍스트 및 상기 조절 인자를 상기 제2 학습 모델에 입력하여 외국어 음성을 생성하는 연산장치를 포함한다.
상기 조절 인자는 상기 학습 모델에서 음성 합성을 위해 사용되는 파라미터 중 유창성 정도를 조절하는 인자로 사전에 결정된다.
이하 설명하는 기술을 적용하면 매우 빠르게 억양 내지 발음에 변화를 줄 수 있는 음성 합성이 가능하다. 이하 설명하는 기술은 외국어를 유창하게 발음하는 음성 합성 서비스를 제공할 수 있다.
도 1은 인공 지능 기반 외국어 음성 합성 방법에 대한 순서도의 예이다.
도 2는 음성의 특성을 추출하는 모델에 대한 예이다.
도 3은 음성을 합성하는 모델에 대한 예이다.
도 4는 외국어 음성 합성을 하는 과정에 대한 예이다.
도 5는 외국어 음성 합성을 하는 과정에 대한 다른 예이다.
도 6은 인공 지능 기반 외국어 음성 합성 장치에 대한 예이다.
이하 설명하는 기술은 다양한 변경을 가할 수 있고 여러 가지 실시례를 가질 수 있는 바, 특정 실시례들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 이하 설명하는 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 이하 설명하는 기술의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 해당 구성요소들은 상기 용어들에 의해 한정되지는 않으며, 단지 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 이하 설명하는 기술의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
본 명세서에서 사용되는 용어에서 단수의 표현은 문맥상 명백하게 다르게 해석되지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함한다" 등의 용어는 설시된 특징, 개수, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 의미하는 것이지, 하나 또는 그 이상의 다른 특징들이나 개수, 단계 동작 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 배제하지 않는 것으로 이해되어야 한다.
도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.
또, 방법 또는 동작 방법을 수행함에 있어서, 상기 방법을 이루는 각 과정들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 과정들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
이하 설명하는 기술은 음성 합성에 관한 기법이다. 이하 설명하는 기술은 학습 모델을 이용하여 음성을 합성한다. 예컨대, 이하 설명하는 기술은 오토인코더(auto encoder), RNN(Recurrent Neural Network), CNN(Convolutional Neural Network) 등과 같은 인공 신경망을 이용할 수 있다. 이하 컴퓨터 장치가 음성 합성을 수행한다고 가정한다. 컴퓨터 장치는 PC, 스마트기기, 서버 등과 같은 장치일 수 있다.
도 1은 인공 지능 기반 외국어 음성 합성 방법(100)에 대한 순서도의 예이다. 컴퓨터 장치는 특정 사용자의 음성에서 특성에 해당하는 특성 벡터를 추출한다(110). 여기서 음성의 특성은 해당 사용자의 음색(tone)을 나타내는 요소이다. 음성의 특성은 물리적으로 파형의 배열 특징에 해당한다. 특성 벡터는 각 사용자에 따라 서로 다른 값일 수 있다. 이후 컴퓨터 장치는 추출한 특성 벡터를 이용하여 음성을 합성하게 된다.
컴퓨터 장치는 사전에 음성 합성 모델을 마련한다. 음성 합성 모델은 전술한 바와 같이 학습 모델이다. 따라서 사전에 학습된 모델을 마련하여야 한다. 컴퓨터 장치는 음성 합성 모델에 추출한 특성 벡터와 텍스트를 입력한다(120). 텍스트는 합성하고자하는 음성을 나타내는 내용(문장 등)에 해당한다. 또 추가적으로 컴퓨터 장치는 음성 합성 모델에 조절 인자를 입력한다(130). 조절 인자는 외국어의 유창성 정도에 대응하는 특정한 값을 갖는다. 예컨대, 유창성 정도가 0 ~ 10의 범위를 갖는 경우, 컴퓨터 장치가 0의 값을 갖는 조절 인자를 음성 합성 모델에 입력하면 매우 어색한 외국어 음성이 출력될 수 있다. 컴퓨터 장치가 10의 값을 갖는 조절 인자를 음성 합성 모델에 입력하면 원어민 수준의 외국어 음성이 출력될 수 있다.
조절 인자는 사실 특정 언어의 억양 내지 발음을 조절하는 파라미터에 해당한다. 따라서 조절 인자는 외국어의 유창성 정도를 조절할 뿐만 아니라, 동일 외국어에 대한 지역적 특성을 반영할 수 있다. 예컨대, 미국에서 사용하는 영어 억양과 영국에서 사용하는 영어 억양이 차이가 있는데, 조절 인자는 이와 같이 지역적 특성을 반영한 억양 내지 발음을 반영할 수도 있다. 따라서 이하 조절 인자를 음성/발음 조절 인자로 명명하여 설명한다.
컴퓨터 장치는 음성 합성 모델의 출력값에 따른 음성을 출력할 수 있다(140).
인공 지능 기반 외국어 음성 합성 방법(100)은 인공 신경망과 같은 학습 모델을 이용하여 음성을 합성한다. 인공 지능 기반 외국어 음성 합성 방법(100)은 특정 사용자의 음성 특성을 이용하는 것이 특징이다. 또 인공 지능 기반 외국어 음성 합성 방법(100)은 외국어의 유창성을 조절할 수 있는 조절 인자를 사용하는 것이 특징이다.
도 2는 음성의 특성을 추출하는 모델에 대한 예이다. 사용자의 음성 특성에 해당하는 특성 벡터를 추출하는 과정에 대한 예이다. 컴퓨터 장치는 사전에 특정 사용자의 특성 벡터를 추출한다. 컴퓨터 장치는 고유의 학습 모델을 이용하여 특정 사용자의 음성 데이터로부터 특성 벡터를 추출할 수 있다. 컴퓨터 장치는 특정 사용자에 대한 다양한 음성 데이터를 이용하여 특성 벡터를 추출할 수 있다. 특성 추출 모델은 일반적으로 비지도 학습(unsupervised learning) 모델이다. 예컨대, 특성 추출 모델은 오토인코더와 같은 모델일 수 있다. 도 2 하단에 오토인코더의 예를 도시하였다. 도 2는 은닉층(hidden layer)가 하나인 오토인코더를 예로 도시한다. 오토인코더는 입력층과 은닉층 구간을 인코더(encoder)라고하고, 은닉층과 출력층 구간을 디코더(decoder)라고 한다. 오토인코더의 주요한 동작은 입력 벡터의 차원을 축소하는 것이다.
특성 추출 모델은 사용자의 음성 데이터가 입력되면 음성 데이터 중 사용자의 음색에 해당하는 특성 벡터를 추출한다. 특성 벡터는 음성의 파형의 배열 상태로 정의되는 특징값에 해당한다.
도 3은 음성을 합성하는 모델에 대한 예이다. 음성 합성 모델은 3가지 입력값을 받아서 음성을 합성한다. 음성 합성 모델은 ①음성/발음 조절 인자, ② 특성 벡터 및 ③ 외국어 문장을 입력받는다. 외국어 문장은 합성하고자 하는 문장에 해당하는 텍스트(text) 데이터이다. 음성 합성 모델은 학습 모델이다. 예컨대, 음성 합성 모델은 RNN 또는 CNN으로 구현될 수 있다.
딥러닝이 크게 기여한 언어처리 기술은 단어 임베딩(embedding)이다. 과거에는 단어를 표현하기 위해 사전의 단어 수만큼 크기를 가지는 벡터를 이용하여 해당 단어의 존재 여부 또는 빈도를 표시하는 방법을 사용하였다. 단어 임베딩기술에서는 단어를 고차원 연속 공간에 할당하되, 의미가 유사하면 거리도 가깝도록 임베딩 된다. 단어 의미의 유사성은 문장 안에서 인접한 단어의 분포가 얼마나 유사한지를 기준으로 판단하며 기본적인 신경망 구조로 학습이 가능하다.
도 3은 RNN에 해당하는 음성 합성 모델을 예로 도시하였다. 이후 RNN을 중심으로 설명한다. RNN은 강력한 동적 시스템으로서, 입출력 사이에 은닉 계층이 있고, 이 안에 연속 벡터로 표현되는 상태값을 갖는다. RNN의 파라미터는 입력단 행렬 U, 상태 전이행렬 W, 출력단 행렬 V 만으로 구성되지만 추론을 수행하면 도 3과 같이 시퀀스 길이만큼 펼쳐지면서 심층 구조가 생성된다. 나아가 LSTM(Long Short-term Memory), GRU(Gated Recurrent Unit)과 같이 은닉 계층의 상태값과 입력에 따라 입출력, 전이 정보의 흐름 을 조절할 수 있는 모델을 사용할 수도 있다.
음성 합성 모델은 음색에 해당하는 특성 벡터 및 외국어 문장을 입력받아 특정 외국어 음성을 합성하도록 학습된 모델이다. 나아가 음성 합성 모델은 억양/발음 조절 인자를 입력받아 합성되는 음성의 억양 내지 발음을 변경할 수 있다.
억양/발음 조절 인자는 학습 모델에서 음성 합성에 사용하는 특정 파라미터에 대한 값을 변경한다. 억양/발음 조절 인자는 학습 모델의 노드(node)에서 사용하는 파라미터 중 특정 파라미터에 대한 값을 지정할 수 있다. 여기서 특정 파라미터는 학습 모델을 학습하는 과정 내지 학습 모델을 통해 음성을 합성하는 과정에서 해당 외국어의 유창성과 관련된 파라미터로 선택된 값일 수 있다. 억양/발음 조절 인자는 학습 모델에서 사용하는 특정 파라미터에 대한 가중치일 수도 있다.
억양/발음 조절 인자는 특정한 범주(예컨대, 0 ~ 1) 내의 값일 수 있다. 억양/발음 조절 인자는 학습 모델 학습 과정에서 학습되는 값일 수도 있다. 예컨대, 합성된 음성의 유창성을 평가하여 유창할 수록 1에 가까운 값을 주고, 어색할 수록 0에 가까운 값을 주면서 학습 모델을 학습할 수 있다. 즉, 억양/발음 조절 인자가 학습 모델에서 생성한 결과에 대한 피드백으로 생성되는 파라미터일 수 있다.
도 4는 외국어 음성 합성을 하는 과정에 대한 예이다. 먼저 컴퓨터 장치는 특정 사용자의 음성이 입력되면 특성 추출 모델을 이용하여 특성 벡터를 추출한다. 컴퓨터 장치는 특성 벡터와 외국어 문장(텍스트)을 음성 합성 모델에 입력한다. 특성 벡터는 사용자의 음색에 대한 특성을 나타내는 값이고, 억양이나 발음과는 관련이 없는 값이다. 컴퓨터 장치는 억양/발음 조절 인자를 음성 합성 모델에 입력한다. 음성 합성 모델은 특성 벡터를 사용하여 특정 사용자의 음색을 유지하면서, 억양/발음 조절 인자의 값에 따라 결정되는 억양 내지 발음(유창성)을 갖는 외국어 음성을 합성한다.
도 5는 외국어 음성 합성을 하는 과정에 대한 다른 예이다. 도 5는 음성 합성의 대상이 되는 문장을 음성 인식을 통해 획득하는 예이다. 사용자의 음성이 입력되는 음성 인식 모델을 통하여 사용자가 발음한 문장을 추출한다. 음성 인식 모델은 종래 개발된 다양한 모델을 사용할 수 있다. 나머지 구성은 도 4와 동일하다.
컴퓨터 장치는 특정 사용자의 음성이 입력되면 특성 추출 모델을 이용하여 특성 벡터를 추출한다. 컴퓨터 장치는 특성 벡터와 사용자 음성을 인식하여 추출한 외국어 문장(텍스트)을 음성 합성 모델에 입력한다. 특성 벡터는 사용자의 음색에 대한 특성을 나타내는 값이고, 억양이나 발음과는 관련이 없는 값이다. 컴퓨터 장치는 억양/발음 조절 인자를 음성 합성 모델에 입력한다. 음성 합성 모델은 특성 벡터를 사용하여 특정 사용자의 음색을 유지하면서, 억양/발음 조절 인자의 값에 따라 결정되는 억양 내지 발음(유창성)을 갖는 외국어 음성을 합성한다.
도 5와 같은 모델을 사용하는 경우, 사용자는 자신이 발음한 외국어 문장의 유창성을 변경한 결과물을 얻을 수 있다. 예컨대, 사용자가 어색한 발음을 갖고 있는 경우라도, 컴퓨터 장치는 유창한 외국어 문장을 출력할 수 있다.
도 6은 인공 지능 기반 외국어 음성 합성 장치에 대한 예이다. 도 6(A)는 네트워크상에 위치하는 서버를 통하여 음성 합성을 제공하는 시스템에 대한 예이다. 외국어 음성 합성 장치(200)는 클라이언트 장치(210) 및 서비스 서버(220)를 포함한다. 외국어 음성 합성 장치(200)는 모델 DB(230)를 포함할 수도 있다. 서비스 서버(220)는 전술한 컴퓨터 장치에 해당한다. 서비스 서버(220)는 전술한 방법에 따라 음성 합성 모델을 이용하여 음성을 합성할 수 있다. 모델 DB(230)는 전술한 학습 모델을 저장하는 데이터베이스를 의미한다. 도 6(A)는 모델 DB(230)를 별도의 객체로 도시하였지만, 서비스 서버(220)가 특성 추출 모델 및 음성 합성 모델을 보유할 수도 있다.
클라이언트 장치(210)는 사용자가 사용하는 장치이다. 도 6(A)는 PC와 같은 객체를 도시하였지만, 클라이언트 장치(210)는 PC, 노트북, 스마트기기 등과 같은 당야한 장치일 수 있다. 클라이언트 장치(210)는 사용자의 음성 데이터를 서비스 서버(220)에 전달할 수 있다. 또 클라이언트 장치(210)는 음성을 합성하고자 하는 외국어 문장을 서비스 서버(220)에 전달할 수 있다. 또 클라이언트 장치(210)는 억양 내지 발음을 조절하는 억양/발음 조절 인자에 대한 값을 서비스 서버(220)에 전달할 수 있다.
서비스 서버(220)는 특성 추출 모델을 이용하여 특정 사용자의 음성 데이터로부터 특성 벡터를 추출한다. 서비스 서버(220)는 특성 벡터, 외국어 문장 및 억양/발음 조절 인자에 대한 값을 음성 합성 모델에 입력하여 일정한 합성 음성을 생성할 수 있다. 서비스 서버(220)는 생성한 합성 음성을 클라이언트 장치(210)에 전송할 수 있다.
도 6(B)는 인공 지능 기반 외국어 음성을 합성하는 컴퓨터 장치(300)에 대한 예이다. 도 6(B)에 도시한 컴퓨터 장치(300)는 전술한 서비스 서버(220)일 수도 있다. 컴퓨터 장치(300)는 PC, 노트북, 스마트기기 또는 서버 등과 같은 장치를 의미한다. 컴퓨터 장치(300)는 입력장치(310), 연산장치(320), 저장장치(330) 및 출력장치(340)를 포함한다.
입력장치(310)는 음성 데이터, 외국어 문장 및 억양/발음 조절 인자에 대한 값을 입력받는다. 입력장치(310)는 컴퓨터 장치(300)를 통해 음성 데이터 등을 직접 입력받는 인터페이스 장치(마이크, 키보드, 마우스, 터치 스크린 등)일 수도 있다. 나아가 입력장치(310)는 네트워크를 통해 음성 데이터 등을 수신하는 통신 장치일 수도 있다. 나아가 입력 장치(310)는 USB와 같은 저장 매체로부터 데이터를 입력받은 인터페이스 장치일 수도 있다.
저장장치(330)는 전술한 학습 모델을 저장하는 장치이다. 저장장치(330)는 특성 추출 모델 및 음성 합성 모델을 저장할 수 있다. 또 저장장치(330)는 학습 모델을 이용하여 음성을 합성하는 프로그램을 저장할 수 있다. 저장장치(330)는 입력장치(310)로부터 전달받은 각종 데이터를 저장할 수 있다.
연산 장치(320)는 저장장치(330)에 저장된 학습 모델 또는 프로그램을 이용하여 입력되는 음성에서 특성 벡터를 추출한다. 연산 장치(320)는 특성 벡터, 외국어 문장 및 억양/발음 조절 인자에 대한 값을 음성 합성 모델에 입력하여 일정한 외국어 음성을 생성할 수 있다. 연산 장치(320)는 경우에 따라 사용자 음성을 인식하여 외국어 문장을 추출할 수도 있다.
출력장치(340)는 생성한 음성을 출력하는 장치이다. 출력장치(340)는 스피커와 같이 소리를 출력하는 장치일 수 있다. 나아가 출력장치(340)는 생성한 합성 음성(데이터)을 다른 객체에 전송하는 통신 장치일 수도 있다.
또한, 상술한 바와 같은 외국어 음성 합성 방법은 컴퓨터에서 실행될 수 있는 실행가능한 알고리즘을 포함하는 프로그램(또는 어플리케이션)으로 구현될 수 있다. 상기 프로그램은 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
본 실시례 및 본 명세서에 첨부된 도면은 전술한 기술에 포함되는 기술적 사상의 일부를 명확하게 나타내고 있는 것에 불과하며, 전술한 기술의 명세서 및 도면에 포함된 기술적 사상의 범위 내에서 당업자가 용이하게 유추할 수 있는 변형 예와 구체적인 실시례는 모두 전술한 기술의 권리범위에 포함되는 것이 자명하다고 할 것이다.
200 : 인공 지능 기반 외국어 음성 합성 장치
210 : 클라이언트 장치
220 : 서비스 서버
230 : 모델 DB
300 : 컴퓨터 장치
310 : 입력 장치
320 : 연산 장치
330 : 저장 장치
340 : 출력 장치

Claims (12)

  1. 컴퓨터 장치가 특정 사용자의 음성 데이터에서 상기 사용자의 음성 특성에 해당하는 특성 벡터를 추출하는 단계;
    상기 컴퓨터 장치가 사전에 마련한 학습 모델에 상기 특성 벡터 및 외국어 텍스트(text)를 입력하는 단계;
    상기 컴퓨터 장치가 조절 인자에 대한 특정 값을 상기 학습 모델에 입력하는 단계; 및
    상기 컴퓨터 장치가 상기 학습 모델에서 출력하는 값을 이용하여 외국어 음성을 출력하는 단계를 포함하되,
    상기 조절 인자는 상기 학습 모델에서 음성 합성을 위해 사용되는 파라미터 중 유창성 정도를 조절하는 인자로 사전에 결정되고, 상기 조절 인자는 외국어 유창성의 정도에 따라 서로 다른 값을 갖고, 상기 학습 모델은 입력되는 상기 특정 값에 대응되는 유창성을 갖는 음성을 출력하는 인공 지능 기반 외국어 음성 합성 방법.
  2. 제1항에 있어서,
    상기 특성 벡터는 상기 사용자의 음성에서 음색(tone)을 나타내는 인공 지능 기반 외국어 음성 합성 방법.
  3. 제1항에 있어서,
    상기 컴퓨터 장치는 상기 음성 데이터를 사전에 마련한 비지도 학습 모델에 입력하여 파형의 배열 특징에 해당하는 상기 특성 벡터를 추출하는 인공 지능 기반 외국어 음성 합성 방법.
  4. 제1항에 있어서,
    상기 학습 모델은 RNN(recurrent neural network)인 인공 지능 기반 외국어 음성 합성 방법.
  5. 삭제
  6. 제1항에 있어서,
    상기 조절 인자는 음성의 억양 내지 발음을 조절하는 인자이고, 외국어를 사용하는 지역에 따라 서로 다른 값을 갖는 인공 지능 기반 외국어 음성 합성 방법.
  7. 컴퓨터에서 제1항 내지 제4항 및 제6항 중 어느 하나의 항에 기재된 인공 지능 기반 외국어 음성 합성 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
  8. 특정 사용자의 음성 데이터, 외국어 텍스트(text) 및 조절 인자에 대한 특정값을 입력받는 입력장치;
    상기 음성 데이터에서 음성 특성에 해당하는 특성 벡터를 추출하는 제1 학습 모델 및 상기 특성 벡터, 상기 텍스트 및 상기 조절 인자를 입력받아 외국어 음성을 출력하는 제2 학습 모델을 저장하는 저장장치; 및
    상기 음성 데이터를 비지도 학습 모델인 상기 제1 학습 모델에 입력하여 파형의 배열 특징에 해당하는 상기 특성 벡터를 추출하고, 상기 특성 벡터, 상기 텍스트 및 상기 조절 인자를 상기 제2 학습 모델에 입력하여 외국어 음성을 생성하는 연산장치를 포함하되,
    상기 조절 인자는 외국어 유창성의 정도에 따라 서로 다른 값을 갖고, 상기 제2 학습 모델은 입력되는 상기 특정 값에 대응되는 유창성을 갖는 음성을 출력하는 인공 지능 기반 외국어 음성 합성 장치.
  9. 제8항에 있어서,
    상기 특징 벡터는 상기 사용자의 음성에서 음색(tone)을 나타내는 파형의 배열 특징인 인공 지능 기반 외국어 음성 합성 장치.
  10. 제8항에 있어서,
    상기 제1 학습 모델은 오토인코더(autoencoder)이고, 상기 제2 학습 모델은 RNN(recurrent neural network)인 인공 지능 기반 외국어 음성 합성 장치.
  11. 삭제
  12. 제8항에 있어서,
    상기 조절 인자는 음성의 억양 내지 발음을 조절하는 인자이고, 외국어를 사용하는 지역에 따라 서로 다른 값을 갖는 인공 지능 기반 외국어 음성 합성 장치.
KR1020180001553A 2018-01-05 2018-01-05 인공 지능 기반 외국어 음성 합성 방법 및 장치 KR102072162B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180001553A KR102072162B1 (ko) 2018-01-05 2018-01-05 인공 지능 기반 외국어 음성 합성 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180001553A KR102072162B1 (ko) 2018-01-05 2018-01-05 인공 지능 기반 외국어 음성 합성 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20190088126A KR20190088126A (ko) 2019-07-26
KR102072162B1 true KR102072162B1 (ko) 2020-01-31

Family

ID=67469752

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180001553A KR102072162B1 (ko) 2018-01-05 2018-01-05 인공 지능 기반 외국어 음성 합성 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102072162B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220230623A1 (en) * 2021-01-21 2022-07-21 Qualcomm Incorporated Synthesized speech generation

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102222597B1 (ko) * 2020-02-03 2021-03-05 (주)라이언로켓 콜미 서비스를 위한 음성 합성 장치 및 방법
CN112201277B (zh) * 2020-09-29 2024-03-22 中国银行股份有限公司 语音应答的方法、装置、及设备及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017032839A (ja) * 2015-08-04 2017-02-09 日本電信電話株式会社 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP2017058513A (ja) * 2015-09-16 2017-03-23 株式会社東芝 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0173340B1 (ko) 1995-12-23 1999-04-01 양승택 텍스트/음성변환기에서 억양패턴 정규화와 신경망 학습을 이용한 억양 생성 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017032839A (ja) * 2015-08-04 2017-02-09 日本電信電話株式会社 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
JP2017058513A (ja) * 2015-09-16 2017-03-23 株式会社東芝 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220230623A1 (en) * 2021-01-21 2022-07-21 Qualcomm Incorporated Synthesized speech generation
US11676571B2 (en) * 2021-01-21 2023-06-13 Qualcomm Incorporated Synthesized speech generation

Also Published As

Publication number Publication date
KR20190088126A (ko) 2019-07-26

Similar Documents

Publication Publication Date Title
Tan et al. A survey on neural speech synthesis
US20220059076A1 (en) Speech Processing System And A Method Of Processing A Speech Signal
US11443733B2 (en) Contextual text-to-speech processing
JP5768093B2 (ja) 音声処理システム
KR102101044B1 (ko) 텍스트 투 스피치 및 시맨틱스에 기초한 오디오 인적 상호 증명 기법
KR20200015418A (ko) 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
JP6342428B2 (ja) 音声合成装置、音声合成方法およびプログラム
KR20230043084A (ko) 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
US20220238116A1 (en) A Method Of Sequence To Sequence Data Processing And A System For Sequence To Sequence Data Processing
CN110599998B (zh) 一种语音数据生成方法及装置
KR102072162B1 (ko) 인공 지능 기반 외국어 음성 합성 방법 및 장치
KR20210045217A (ko) 감정 이식 장치 및 감정 이식 방법
Vekkot et al. Prosodic transformation in vocal emotion conversion for multi-lingual scenarios: A pilot study
JP6594251B2 (ja) 音響モデル学習装置、音声合成装置、これらの方法及びプログラム
Chen et al. Integrated expression prediction and speech synthesis from text
JP6082657B2 (ja) ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム
Stan et al. Generating the Voice of the Interactive Virtual Assistant
Christidou et al. Improved prosodic clustering for multispeaker and speaker-independent phoneme-level prosody control
KR102426020B1 (ko) 한 화자의 적은 음성 데이터로 감정 운율을 담은 음성 합성 방법 및 장치
Lazaridis et al. Comparative evaluation of phone duration models for Greek emotional speech
JP6309852B2 (ja) 強調位置予測装置、強調位置予測方法及びプログラム
US20240153486A1 (en) Operation method of speech synthesis system
Ni et al. Superpositional HMM-based intonation synthesis using a functional F0 model
Pakrashi et al. Analysis-By-Synthesis Modeling of Bengali Intonation
Huang et al. Hierarchical prosodic pattern selection based on Fujisaki model for natural mandarin speech synthesis

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right