KR20200016516A - Apparatus and method for synthesizing personalized virtual voice - Google Patents

Apparatus and method for synthesizing personalized virtual voice Download PDF

Info

Publication number
KR20200016516A
KR20200016516A KR1020180091710A KR20180091710A KR20200016516A KR 20200016516 A KR20200016516 A KR 20200016516A KR 1020180091710 A KR1020180091710 A KR 1020180091710A KR 20180091710 A KR20180091710 A KR 20180091710A KR 20200016516 A KR20200016516 A KR 20200016516A
Authority
KR
South Korea
Prior art keywords
voice
virtual
content
personalized
speech synthesis
Prior art date
Application number
KR1020180091710A
Other languages
Korean (ko)
Inventor
배지우
전영민
김건아
Original Assignee
주식회사 에스알유니버스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에스알유니버스 filed Critical 주식회사 에스알유니버스
Priority to KR1020180091710A priority Critical patent/KR20200016516A/en
Publication of KR20200016516A publication Critical patent/KR20200016516A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Disclosed are an apparatus and method for synthesizing personalized virtual voices. The apparatus and method generate novel content by combining text content and a voice of a voice provider. According to the present invention, not only virtual voices and text content, but also a variety of novel content may be generated by combining the virtual voices and text content.

Description

개인화된 가상 음성 합성 장치 및 방법{Apparatus and method for synthesizing personalized virtual voice}Apparatus and method for synthesizing personalized virtual voice

본 발명은 개인화된 가상 음성 합성 장치 및 방법에 관한 것으로, 더욱 상세하게는 텍스트 컨텐츠와 음성 제공자의 목소리를 조합하여 새로운 컨텐츠를 생성하는 장치 및 방법에 관한 것이다.The present invention relates to a personalized virtual speech synthesizing apparatus and method, and more particularly, to an apparatus and method for generating new content by combining text content and the voice of a voice provider.

현재 구글, 아마존, 네이버 등 기업에서 음성 합성(TTS) 기술을 활용하여 API 형태로 서비스를 제공하고 있고, 정교히 가공된 몇가지의 목소리 만을 사용할 수 있도록 되어 있으며, 기업과 개인들이 자유롭게 활용하기 보다는 특정 목적에 의해서만 활용되고 있어 음성을 이용한 컨텐츠 활성화에 많은 도움을 주지 못하고 있다.Currently, companies such as Google, Amazon, and Naver are providing services in the form of API using speech synthesis (TTS) technology, and only a few elaborate voices can be used. It is only used for the purpose does not help much to activate the content using the voice.

또한, 음성 모델을 생성할 때 필요한 데이터를 확보하고 서비스에 사용할 수 있도록 하기 위해서 사업자의 제한적인 목적에 부합하여 만들어지고 내부적으로도 상당히 많은 시간과 비용이 소요되어서, 다양한 서비스 분야에서 활용되지 못하고 있기도 하다.In addition, in order to obtain the data necessary to generate the voice model and to use it for the service, it is made in accordance with the limited purpose of the service provider and it takes a lot of time and money internally, so it may not be utilized in various service fields. Do.

다만, 근래들어 특정 유명인의 목소리를 이용하여 서비스를 제공하는 사례들이 나타나고 있으나, 컨텐츠 양산 및 참여자의 이익을 위해서 활용되고 있지는 못하고 있다.However, in recent years, there have been examples of providing services using the voices of specific celebrities, but they have not been used for the mass production of content and the benefit of participants.

그리고 음성 합성 기술을 통해 합성된 목소리들이 대부분 억양, 톤, 속도, 운율의 선택권을 많이 제공해주지 못하고 정해진 톤의 형태로만 제공되고 있기도 하다.And most of the voices synthesized through the voice synthesis technology do not provide a lot of options for intonation, tone, speed, and rhyme, but are provided only in the form of predetermined tones.

한국공개특허 제2002-0000053호 (배한영) 2002. 1. 4. 특허문헌 1은 인터넷상의 문자 정보를 음성으로 들려주는 인터넷 사이트로서, 특허문헌 1에는 음성정보 이용 사이트에 접속하여 사용자 정보를 로그인하는 페이지(200)와 텍스트를 음성으로 변환하는 프로그램(410)과 음성변환 프로그램을 개인 컴퓨터의 메모리에 저장하고 자동실행 시키는 프로그램(400)과 사이트에 연계된 텍스트 정보 서비스 업체(500)와 이를 외부로 출력하는 스피커(700)로 구성되어, 인터넷에서 제공하는 무수한 텍스트 정보를 인터넷에 접속하여 원하는 내용이나 제목을 선택한 후 사이트의 화면에 구성된 음성변환 선택 아이콘을 작동하면(600), 텍스트 정보를 음성으로 변환하여 외부의 스피커(700)로 전달해주는 사이트로, 적용은 기존의 신문, 잡지 등의 인터넷 사이트에 접속하여 기사, 사설, 소설 등의 텍스트로 제공되는 정보를 음성으로 변환하여주는 인터넷 정보이용 사이트로, 직접 눈으로 읽어서 습득하는 정보를 소리로 들음으로 눈의 피로를 완화시키며 두가지 일을 동시에 할 수 있는 내용이 개시되어 있다.Korean Patent Laid-Open No. 2002-0000053 (Bae Han-young) 1. Jan. 2002 Patent Document 1 is an Internet site that listens to text information on the Internet by voice. Patent Document 1 connects to a voice information using site and logs in user information. Page 200, a program for converting text to speech (410) and a program for storing and automatically executing the voice conversion program in the memory of the personal computer 400 and the text information service company (500) associated with the site and the outside The speaker 700 is configured to output numerous text information provided by the Internet, accesses the Internet, selects a desired content or title, and operates a voice conversion selection icon configured on the screen of the site (600). The site is converted and delivered to the external speaker 700, the application is connected to the Internet sites such as newspapers, magazines, articles, This is an Internet information site that converts information provided in texts such as editorials and novels into voice, and it is possible to reduce the fatigue of the eyes by listening to the information acquired by reading it with the eyes and to do both things simultaneously. It is.

본 발명이 이루고자 하는 기술적 과제는, 텍스트 컨텐츠와 음성 제공자의 목소리를 조합하여 새로운 컨텐츠를 생성하는 개인화된 가상 음성 합성 장치 및 방법을 제공하는 데 있다.An object of the present invention is to provide a personalized virtual speech synthesis apparatus and method for generating new content by combining text content with the voice of a voice provider.

상기의 기술적 과제를 달성하기 위한 본 발명에 따른 개인화된 가상 음성 합성 장치는, 음성 제공 단말, 컨텐츠 제공 단말, 및 사용자 단말과 통신망을 통해 연결되는 개인화된 가상 음성 합성 장치로서, 상기 컨텐츠 제공 단말로부터 제공받은 텍스트 컨텐츠를 저장하는 저장부; 상기 음성 제공 단말로부터 제공받은 음성 데이터를 기반으로 가상 음성 모델을 생성하는 가상 음성 모델 생성부; 및 상기 저장부에 저장된 텍스트 컨텐츠 중에서 상기 사용자 단말에 의해 선택된 텍스트 컨텐츠 및 상기 사용자 단말에 의해 선택된 가상 음성을 기반으로, 상기 가상 음성 모델을 이용하여 가상 음성 컨텐츠를 생성하는 가상 음성 컨텐츠 생성부;를 포함한다.In accordance with another aspect of the present invention, there is provided a personalized virtual speech synthesis apparatus, which is a personalized virtual speech synthesis apparatus connected to a voice providing terminal, a content providing terminal, and a user terminal through a communication network. A storage unit for storing the received text contents; A virtual voice model generator for generating a virtual voice model based on voice data received from the voice providing terminal; And a virtual voice content generator configured to generate virtual voice content using the virtual voice model based on the text content selected by the user terminal and the virtual voice selected by the user terminal among the text content stored in the storage unit. Include.

상기 가상 음성 컨텐츠 생성부는, 상기 사용자 단말에 의해 선택된 텍스트 컨텐츠를 기반으로 상기 사용자 단말에 의해 선택된 가상 음성을 상기 선택된 텍스트 컨텐츠를 구성하는 배역에 할당하고, 배역에 할당된 가상 음성을 기반으로 상기 가상 음성 모델을 이용하여 상기 선택된 텍스트 컨텐츠에 대응하는 상기 가상 음성 컨텐츠를 생성할 수 있다.The virtual voice content generator is configured to allocate the virtual voice selected by the user terminal to a role constituting the selected text content based on the text content selected by the user terminal, and based on the virtual voice assigned to the role. The virtual voice content corresponding to the selected text content may be generated using a voice model.

상기 가상 음성 모델 생성부는, 상기 음성 제공 단말로부터 제공받은 음성 데이터를 기반으로 머신 러닝 알고리즘을 적용하여 미리 설정된 유형으로 분류하고, 상기 음성 제공 단말로부터 제공받은 음성 데이터를 기반으로 음성 특징을 추출하며, 유형이 분류되고 음성 특징이 추출된 음성 데이터를 상기 저장부에 저장하고, 상기 저장부에 저장된 음성 데이터를 기반으로 기계 학습하여 상기 가상 음성 모델을 생성할 수 있다.The virtual voice model generation unit may be classified into a preset type by applying a machine learning algorithm based on the voice data provided from the voice providing terminal, extracting a voice feature based on the voice data provided from the voice providing terminal, The virtual data may be stored in the storage unit in which types are classified and voice features are extracted, and the virtual voice model may be generated by machine learning based on the voice data stored in the storage unit.

상기 가상 음성 모델 생성부는, 상기 음성 제공 단말로부터 제공받은 음성 데이터 중에서 사용 가능 음성 데이터를 획득하며, 상기 사용 가능 음성 데이터를 기반으로 머신 러닝 알고리즘을 적용하여 미리 설정된 유형으로 분류하고, 상기 사용 가능 음성 데이터를 기반으로 음성 특징을 추출하며, 유형이 분류되고 음성 특징이 추출된 사용 가능 음성 데이터를 상기 저장부에 저장하고, 상기 저장부에 저장된 사용 가능 음성 데이터를 기반으로 기계 학습하여 상기 가상 음성 모델을 생성할 수 있다.The virtual voice model generation unit obtains usable voice data from the voice data provided from the voice providing terminal, classifies the voice model into a preset type by applying a machine learning algorithm based on the usable voice data, and uses the available voice data. Extracting the voice feature based on the data, storing the usable voice data of which the type is classified and the voice feature is extracted into the storage unit, and machine learning based on the usable voice data stored in the storage unit. Can be generated.

상기 가상 음성 컨텐츠를 상기 저장부에 저장하고, 상기 사용자 단말로 상기 가상 음성 컨텐츠를 제공하는 가상 음성 컨텐츠 제공부를 더 포함할 수 있다.The apparatus may further include a virtual voice content providing unit storing the virtual voice content in the storage unit and providing the virtual voice content to the user terminal.

상기의 기술적 과제를 달성하기 위한 본 발명에 따른 개인화된 가상 음성 합성 방법은, 음성 제공 단말, 컨텐츠 제공 단말, 및 사용자 단말과 통신망을 통해 연결되는 개인화된 가상 음성 합성 장치의 가상 음성 합성 방법으로서, 상기 컨텐츠 제공 단말로부터 제공받은 텍스트 컨텐츠를 저장하는 단계; 상기 음성 제공 단말로부터 제공받은 음성 데이터를 기반으로 가상 음성 모델을 생성하는 단계; 및 상기 개인화된 가상 음성 합성 장치에 저장된 텍스트 컨텐츠 중에서 상기 사용자 단말에 의해 선택된 텍스트 컨텐츠 및 상기 사용자 단말에 의해 선택된 가상 음성을 기반으로, 상기 가상 음성 모델을 이용하여 가상 음성 컨텐츠를 생성하는 단계;를 포함한다.According to an aspect of the present invention, there is provided a personalized virtual speech synthesis method, which is a virtual speech synthesis method of a personalized virtual speech synthesis apparatus connected to a voice providing terminal, a content providing terminal, and a user terminal through a communication network. Storing the text content provided from the content providing terminal; Generating a virtual voice model based on voice data received from the voice providing terminal; And generating virtual voice content using the virtual voice model based on the text content selected by the user terminal and the virtual voice selected by the user terminal among text contents stored in the personalized virtual voice synthesis apparatus. Include.

상기 가상 음성 컨텐츠 생성 단계는, 상기 사용자 단말에 의해 선택된 텍스트 컨텐츠를 기반으로 상기 사용자 단말에 의해 선택된 가상 음성을 상기 선택된 텍스트 컨텐츠를 구성하는 배역에 할당하고, 배역에 할당된 가상 음성을 기반으로 상기 가상 음성 모델을 이용하여 상기 선택된 텍스트 컨텐츠에 대응하는 상기 가상 음성 컨텐츠를 생성하는 것으로 이루어질 수 있다.The generating of the virtual voice content may include assigning a virtual voice selected by the user terminal to a role constituting the selected text content based on the text content selected by the user terminal, and based on the virtual voice assigned to the role. The virtual voice model may be used to generate the virtual voice content corresponding to the selected text content.

상기 가상 음성 모델 생성 단계는, 상기 음성 제공 단말로부터 제공받은 음성 데이터를 기반으로 머신 러닝 알고리즘을 적용하여 미리 설정된 유형으로 분류하고, 상기 음성 제공 단말로부터 제공받은 음성 데이터를 기반으로 음성 특징을 추출하며, 유형이 분류되고 음성 특징이 추출된 음성 데이터를 상기 개인화된 가상 음성 합성 장치에 저장하고, 상기 개인화된 가상 음성 합성 장치에 저장된 음성 데이터를 기반으로 기계 학습하여 상기 가상 음성 모델을 생성하는 것으로 이루어질 수 있다.The virtual voice model generation step may be classified into a preset type by applying a machine learning algorithm based on the voice data provided from the voice providing terminal, and extracting a voice feature based on the voice data provided from the voice providing terminal. And storing the voice data classified into types and extracted voice features in the personalized virtual speech synthesis apparatus, and machine learning based on the voice data stored in the personalized virtual speech synthesis apparatus to generate the virtual speech model. Can be.

상기 가상 음성 모델 생성 단계는, 상기 음성 제공 단말로부터 제공받은 음성 데이터 중에서 사용 가능 음성 데이터를 획득하며, 상기 사용 가능 음성 데이터를 기반으로 머신 러닝 알고리즘을 적용하여 미리 설정된 유형으로 분류하고, 상기 사용 가능 음성 데이터를 기반으로 음성 특징을 추출하며, 유형이 분류되고 음성 특징이 추출된 사용 가능 음성 데이터를 상기 개인화된 가상 음성 합성 장치에 저장하고, 상기 개인화된 가상 음성 합성 장치에 저장된 사용 가능 음성 데이터를 기반으로 기계 학습하여 상기 가상 음성 모델을 생성하는 것으로 이루어질 수 있다.The generating of the virtual voice model may include acquiring usable voice data from among voice data provided from the voice providing terminal, classifying the voice model into a preset type by applying a machine learning algorithm based on the usable voice data, and using the available voice data. Extracting the voice feature based on the voice data, storing the usable voice data of which the type is classified and the voice feature is extracted in the personalized virtual voice synthesizer, and storing the usable voice data stored in the personalized virtual voice synthesizer. Machine learning based on the generated virtual voice model.

상기 가상 음성 컨텐츠를 상기 개인화된 가상 음성 합성 장치에 저장하고, 상기 사용자 단말로 상기 가상 음성 컨텐츠를 제공하는 단계를 더 포함할 수 있다.The method may further include storing the virtual voice content in the personalized virtual voice synthesis apparatus and providing the virtual voice content to the user terminal.

상기의 기술적 과제를 달성하기 위한 본 발명에 따른 컴퓨터 프로그램은 컴퓨터로 읽을 수 있는 기록 매체에 저장되어 상기한 방법 중 어느 하나를 컴퓨터에서 실행시킨다.A computer program according to the present invention for achieving the above technical problem is stored in a computer-readable recording medium to execute any one of the above methods in a computer.

본 발명에 따른 개인화된 가상 음성 합성 장치 및 방법에 의하면, 텍스트 컨텐츠와 음성 제공자의 목소리를 조합하여 새로운 컨텐츠를 생성함으로써, 가상 음성, 텍스트 컨텐츠뿐만 아니라, 가상 음성과 텍스트 컨텐츠를 조합하여 다양한 새로운 컨텐츠를 생성할 수 있다.According to the personalized virtual speech synthesis apparatus and method according to the present invention, by combining the text content and the voice of the voice provider to create a new content, a variety of new content by combining the virtual voice and text content as well as the virtual voice and text content Can be generated.

도 1은 본 발명의 바람직한 실시예에 따른 개인화된 가상 음성 합성 장치를 설명하기 위한 블록도이다.
도 2는 도 1에 도시한 개인화된 가상 음성 합성 장치를 보다 자세히 설명하기 위한 블록도이다.
도 3은 본 발명의 바람직한 실시예에 따른 개인화된 가상 음성 합성 방법을 설명하기 위한 흐름도이다.
도 4는 도 3에 도시한 가상 음성 모델 생성 단계의 일례를 설명하기 위한 흐름도이다.
도 5는 도 3에 도시한 가상 음성 모델 생성 단계의 다른 예를 설명하기 위한 흐름도이다.
도 6은 도 3에 도시한 가상 음성 컨텐츠 생성 단계를 설명하기 위한 흐름도이다.
1 is a block diagram illustrating a personalized virtual speech synthesis apparatus according to a preferred embodiment of the present invention.
FIG. 2 is a block diagram illustrating the personalized virtual speech synthesis apparatus shown in FIG. 1 in more detail.
3 is a flowchart illustrating a personalized virtual speech synthesis method according to a preferred embodiment of the present invention.
4 is a flowchart for explaining an example of the virtual voice model generation step shown in FIG. 3.
FIG. 5 is a flowchart for explaining another example of generating a virtual voice model shown in FIG. 3.
FIG. 6 is a flowchart for explaining a virtual voice content generation step shown in FIG. 3.

이하에서 첨부한 도면을 참조하여 본 발명에 따른 개인화된 가상 음성 합성 장치 및 방법의 바람직한 실시예에 대해 상세하게 설명한다.Hereinafter, exemplary embodiments of a personalized virtual speech synthesis apparatus and method according to the present invention will be described in detail with reference to the accompanying drawings.

먼저, 도 1을 참조하여 본 발명의 바람직한 실시예에 따른 개인화된 가상 음성 합성 장치에 대하여 설명한다.First, a personalized virtual speech synthesis apparatus according to a preferred embodiment of the present invention will be described with reference to FIG. 1.

도 1은 본 발명의 바람직한 실시예에 따른 개인화된 가상 음성 합성 장치를 설명하기 위한 블록도이다.1 is a block diagram illustrating a personalized virtual speech synthesis apparatus according to a preferred embodiment of the present invention.

도 1을 참조하면, 본 발명의 바람직한 실시예에 따른 개인화된 가상 음성 합성 장치(100)는 통신망(500)을 통해 복수의 컨텐츠 제공 단말(200), 복수의 음성 제공 단말(300) 및 사용자 단말(400)과 연결된다.Referring to FIG. 1, a personalized virtual speech synthesis apparatus 100 according to an exemplary embodiment of the present invention may include a plurality of content providing terminals 200, a plurality of voice providing terminals 300, and a user terminal through a communication network 500. Connected with 400.

개인화된 가상 음성 합성 장치(100)는 컨텐츠 제공 단말(200)로부터 제공된 텍스트 컨텐츠와 음성 제공 단말(300)로부터 제공된 음성 데이터를 기반으로 사용자 단말(400)에 의해 재구성된 새로운 컨텐츠를 생성한다. 그리고, 개인화된 가상 음성 합성 장치(100)는 생성된 새로운 컨텐츠를 사용자 단말(400)에 제공한다.The personalized virtual voice synthesizing apparatus 100 generates new content reconstructed by the user terminal 400 based on text content provided from the content providing terminal 200 and voice data provided from the voice providing terminal 300. The personalized virtual speech synthesis apparatus 100 provides the generated new content to the user terminal 400.

컨텐츠 제공 단말(200)은 텍스트 컨텐츠를 통신망(500)을 통해 개인화된 가상 음성 합성 장치(100)에 제공한다. 여기서, 텍스트 컨텐츠는 소설, 시, 수필, 문학 등과 같은 텍스트로 이루어진 다양한 유형의 글을 말한다.The content providing terminal 200 provides the text content to the personalized virtual speech synthesis apparatus 100 through the communication network 500. Here, the text content refers to various types of texts composed of texts such as novels, poems, essays, and literature.

여기서, 컨텐츠 제공 단말(200)은 데스크톱 컴퓨터뿐만 아니라 노트북 컴퓨터, 워크스테이션, 팜톱(palmtop) 컴퓨터, UMPC(Ultra Mobile Personal Computer), 태블릿 PC, 개인 휴대 정보 단말기(Personal Digital Assistant, PDA), 웹 패드, 스마트폰, 휴대전화 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 단말기로 이루어질 수 있다. 또한, 컨텐츠 제공 단말(200)은 개인화된 가상 음성 합성 장치(100)에서 제공하는 전용 어플리케이션이 설치되고, 설치된 전용 어플리케이션을 통해 텍스트 컨텐츠를 개인화된 가상 음성 합성 장치(100)에 제공할 수 있다.Here, the content providing terminal 200 is not only a desktop computer but also a laptop computer, a workstation, a palmtop computer, a UMPC (Ultra Mobile Personal Computer), a tablet PC, a personal digital assistant (PDA), a web pad. , A smartphone, a mobile phone, etc. may be formed of a terminal having a computing power by having a memory means and a microprocessor. In addition, the content providing terminal 200 may be provided with a dedicated application provided by the personalized virtual speech synthesis apparatus 100, and may provide text content to the personalized virtual speech synthesis apparatus 100 through the installed dedicated application.

음성 제공 단말(300)은 음성 데이터를 통신망(500)을 통해 개인화된 가상 음성 합성 장치(100)에 제공한다. 여기서, 음성 데이터는 자신의 고유 목소리 데이터로서, 가상 음성 모델의 생성에 이용되는 학습 데이터를 말한다. 이를 통해, 개인화된 가상 음성 합성 장치(100)는 음성 제공자에 의해 제공되는 고유 목소리 데이터를 통해 해당 음성 제공자의 가상 음성을 생성하는데 이용되는 해당 음성 제공자의 가상 음성 모델을 생성할 수 있다.The voice providing terminal 300 provides the voice data to the personalized virtual speech synthesis apparatus 100 through the communication network 500. Here, the voice data refers to learning data used for generating a virtual voice model as its own voice data. In this way, the personalized virtual speech synthesis apparatus 100 may generate a virtual speech model of the speech provider used to generate the virtual speech of the speech provider through the unique speech data provided by the speech provider.

여기서, 음성 제공 단말(300)은 데스크톱 컴퓨터뿐만 아니라 노트북 컴퓨터, 워크스테이션, 팜톱(palmtop) 컴퓨터, UMPC(Ultra Mobile Personal Computer), 태블릿 PC, 개인 휴대 정보 단말기(Personal Digital Assistant, PDA), 웹 패드, 스마트폰, 휴대전화 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 단말기로 이루어질 수 있다. 또한, 음성 제공 단말(300)은 개인화된 가상 음성 합성 장치(100)에서 제공하는 전용 어플리케이션이 설치되고, 설치된 전용 어플리케이션을 통해 음성 데이터를 개인화된 가상 음성 합성 장치(100)에 제공할 수 있다.Here, the voice providing terminal 300 may be a laptop computer, a workstation, a palmtop computer, a UMPC (Ultra Mobile Personal Computer), a tablet PC, a personal digital assistant (PDA), a web pad, as well as a desktop computer. , A smartphone, a mobile phone, etc. may be formed of a terminal having a computing power by having a memory means and a microprocessor. In addition, the voice providing terminal 300 may be provided with a dedicated application provided by the personalized virtual speech synthesis apparatus 100, and may provide the voice data to the personalized virtual speech synthesis apparatus 100 through the installed dedicated application.

사용자 단말(400)은 통신망(500)을 통해 개인화된 가상 음성 합성 장치(100)에 접속하여 새로운 컨텐츠의 생성을 요청한다. 즉, 사용자 단말(400)은 개인화된 가상 음성 합성 장치(100)에서 제공하는 가상 음성들을 조합하여 텍스트 컨텐츠로부터 가상 음성 컨텐츠를 생성할 수 있다.The user terminal 400 accesses the personalized virtual speech synthesis apparatus 100 through the communication network 500 and requests generation of new content. That is, the user terminal 400 may generate virtual voice content from the text content by combining virtual voices provided by the personalized virtual voice synthesis apparatus 100.

여기서, 사용자 단말(400)은 데스크톱 컴퓨터뿐만 아니라 노트북 컴퓨터, 워크스테이션, 팜톱(palmtop) 컴퓨터, UMPC(Ultra Mobile Personal Computer), 태블릿 PC, 개인 휴대 정보 단말기(Personal Digital Assistant, PDA), 웹 패드, 스마트폰, 휴대전화 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 단말기로 이루어질 수 있다. 또한, 사용자 단말(400)은 개인화된 가상 음성 합성 장치(100)에서 제공하는 전용 어플리케이션이 설치되고, 설치된 전용 어플리케이션을 통해 새로운 컨텐츠 생성을 요청할 수 있다.Here, the user terminal 400 is not only a desktop computer but also a laptop computer, a workstation, a palmtop computer, a UMPC (Ultra Mobile Personal Computer), a tablet PC, a personal digital assistant (PDA), a web pad, It can be made of a terminal having a computing capability by mounting a microprocessor such as a smart phone or a mobile phone. In addition, the user terminal 400 may install a dedicated application provided by the personalized virtual speech synthesis apparatus 100 and request generation of new content through the installed dedicated application.

통신망(500)은 구내 정보 통신망(local area network, LAN), 도시권 통신망(metropolitan area network, MAN), 광역 통신망(wide area network, WAN), 인터넷 등을 포함하는 데이터 통신망뿐만 아니라 전화망 등을 포함할 수 있고, 유선과 무선을 가리지 않으며, 어떠한 통신 방식을 사용하더라도 상관없다.The communication network 500 may include a telephone network as well as a data communication network including a local area network (LAN), a metropolitan area network (MAN), a wide area network (WAN), the Internet, and the like. It can be, wired and wireless, and it does not matter which communication method is used.

그러면, 도 2를 참조하여 본 발명의 바람직한 실시예에 따른 개인화된 가상 음성 합성 장치에 대하여 보다 자세하게 설명한다.Next, a personalized virtual speech synthesis apparatus according to a preferred embodiment of the present invention will be described in more detail with reference to FIG. 2.

도 2는 도 1에 도시한 개인화된 가상 음성 합성 장치를 보다 자세히 설명하기 위한 블록도이다.FIG. 2 is a block diagram illustrating the personalized virtual speech synthesis apparatus shown in FIG. 1 in more detail.

도 2를 참조하면, 개인화된 가상 음성 합성 장치(100)는 저장부(110), 가상 음성 모델 생성부(130), 가상 음성 컨텐츠 생성부(150) 및 가상 음성 컨텐츠 제공부(170)를 포함할 수 있다.Referring to FIG. 2, the personalized virtual speech synthesis apparatus 100 includes a storage 110, a virtual speech model generator 130, a virtual speech content generator 150, and a virtual speech content provider 170. can do.

저장부(110)는 개인화된 가상 음성 합성 장치(100)의 동작에 필요한 프로그램 및 데이터를 저장하는 역할을 수행하며, 프로그램 영역과 데이터 영역으로 구분될 수 있다. 여기서, 프로그램 영역은 개인화된 가상 음성 합성 장치(100)의 전반적인 동작을 제어하는 프로그램, 개인화된 가상 음성 합성 장치(100)를 부팅시키는 운영체제(Operating System, OS), 텍스트 컨텐츠 저장, 음성 데이터 저장, 가상 음성 모델 생성, 가상 음성 컨텐츠 생성 등과 같은 개인화된 가상 음성 합성 장치(100)의 동작에 필요한 응용 프로그램 등을 저장할 수 있다. 그리고, 데이터 영역은 개인화된 가상 음성 합성 장치(100)의 사용에 따라 발생하는 데이터가 저장되는 영역으로서, 텍스트 컨텐츠, 음성 데이터, 가상 음성 모델, 가상 음성 컨텐츠 등을 저장할 수 있다.The storage unit 110 stores a program and data necessary for the operation of the personalized virtual speech synthesis apparatus 100, and may be divided into a program area and a data area. Here, the program area includes a program for controlling the overall operation of the personalized virtual speech synthesis apparatus 100, an operating system (OS) for booting the personalized virtual speech synthesis apparatus 100, text content storage, voice data storage, An application program required for the operation of the personalized virtual speech synthesis apparatus 100, such as a virtual voice model generation or a virtual voice content generation, may be stored. The data area is an area in which data generated according to the use of the personalized virtual voice synthesis apparatus 100 is stored, and may store text content, voice data, virtual voice model, virtual voice content, and the like.

가상 음성 모델 생성부(130)는 음성 제공 단말(300)로부터 제공받은 음성 데이터를 기반으로 가상 음성 모델을 생성할 수 있다. 여기서, 가상 음성 모델은 텍스트 데이터를 입력 데이터로 하고, 음성 데이터를 출력 데이터로 한다. 예컨대, 가상 음성 모델은 텍스트를 입력받으면, 해당 음성 제공자의 목소리로 입력받은 텍스트를 읽는 음성인 가상 음성 데이터를 출력할 수 있다.The virtual voice model generator 130 may generate a virtual voice model based on the voice data provided from the voice providing terminal 300. Here, the virtual voice model uses text data as input data and voice data as output data. For example, when the virtual voice model receives text, the virtual voice model may output virtual voice data that is a voice that reads the text input by the voice of the corresponding voice provider.

즉, 가상 음성 모델 생성부(130)는 음성 제공 단말(300)로부터 제공받은 음성 데이터를 기반으로 머신 러닝 알고리즘을 적용하여 미리 설정된 유형으로 음성 데이터를 분류할 수 있다. 여기서, 미리 설정된 유형은 성별, 감정, 발화 속도 등을 말한다.That is, the virtual voice model generator 130 may classify the voice data into a preset type by applying a machine learning algorithm based on the voice data provided from the voice providing terminal 300. Here, the preset type refers to gender, emotion, speech rate, and the like.

보다 자세히 설명하면, 음성 제공자가 녹음한 음성 파일에 대해 머신 러닝 알고리즘을 구현한 음성 분류기를 통해서 성별, 감정, 발화 속도 등에 대한 분류 작업을 수행하여 각 음성 파일에 태그 정보를 설정할 수 있다. 이를 통해 학습에 필요한 클러스터링 방법에 사용되어 학습 최적화에 도움을 줄 수 있다.In more detail, tag information may be set for each voice file by performing classification on gender, emotion, and speech rate through a voice classifier implementing a machine learning algorithm on the voice file recorded by the voice provider. This can be used for clustering methods for learning to help optimize learning.

그리고, 가상 음성 모델 생성부(130)는 음성 제공 단말(300)로부터 제공받은 음성 데이터를 기반으로 음성 특징을 추출할 수 있다. 예컨대, 가상 음성 모델 생성부(130)는 Linear spectrogram, MFCC(Mel Frequency Cepstral Coefficient) 등을 이용하여 음성 특징을 추출할 수 있다.The virtual voice model generator 130 may extract a voice feature based on the voice data provided from the voice providing terminal 300. For example, the virtual voice model generator 130 may extract a voice feature using a linear spectrogram, a Mel Frequency Cepstral Coefficient (MFCC), or the like.

보다 자세히 설명하면, 음성 제공자가 녹음한 개별 음성 파일별로 음성 Spectrogram, 텍스트 레이블 등을 추출하고, 가상 음성 모델의 입력 정보에 맞게 음성 특징들을 변환할 수 있다.In more detail, voice spectrograms, text labels, etc. may be extracted for each voice file recorded by a voice provider, and voice features may be converted according to input information of a virtual voice model.

그런 다음, 가상 음성 모델 생성부(130)는 유형이 분류되고 음성 특징이 추출된 음성 데이터를 저장부(110)에 저장하고, 저장부(110)에 저장된 음성 데이터를 기반으로 기계 학습하여 가상 음성 모델을 생성할 수 있다. 예컨대, 가상 음성 모델 생성부(130)는 음성 데이터와 이에 대응되는 텍스트 파일을 학습 데이터로 하는 기계 학습을 수행하여 해당 음성 제공자에 대응되는 가상 음성 모델을 생성할 수 있다.Then, the virtual voice model generator 130 stores the voice data in which the type is classified and the voice feature is extracted in the storage 110, and machine-learns based on the voice data stored in the storage 110. You can create a model. For example, the virtual voice model generator 130 may generate a virtual voice model corresponding to the corresponding voice provider by performing machine learning using the voice data and the text file corresponding thereto as the training data.

위와 같은 동작을 음성 데이터를 제공하는 음성 제공 단말(300)별로 반복적으로 수행함으로써, 복수의 음성 제공자 각각에 대응되는 복수의 가상 음성 모델을 구축할 수 있다.By repeatedly performing the above operation for each voice providing terminal 300 providing voice data, a plurality of virtual voice models corresponding to each of the plurality of voice providers may be constructed.

한편, 가상 음성 모델 생성부(130)는 음성 제공 단말(300)로부터 제공받은 음성 데이터 중에서 획득된 사용 가능 음성 데이터를 기반으로 가상 음성 모델을 생성할 수도 있다.Meanwhile, the virtual voice model generator 130 may generate a virtual voice model based on the usable voice data obtained from the voice data provided from the voice providing terminal 300.

즉, 가상 음성 모델 생성부(130)는 음성 제공 단말(300)로부터 제공받은 음성 데이터 중에서 사용 가능 음성 데이터를 획득할 수 있다. 예컨대, 가상 음성 모델 생성부(130)는 음성 데이터의 노이즈, 발음의 정확도 등의 품질을 평가하여 음성 데이터 중에서 사용 가능 음성 데이터를 획득할 수 있다.That is, the virtual voice model generator 130 may obtain usable voice data from the voice data provided from the voice providing terminal 300. For example, the virtual voice model generator 130 may obtain usable voice data from the voice data by evaluating the quality of the noise, the accuracy of the pronunciation, and the like.

보다 자세히 설명하면, 음성 제공자가 녹음한 음성 파일에 대해 음성 특징을 추출해서 발화 여부를 체크하고, 발화 내용이 있는 경우에 대해서 음성 인식기를 사용하여 획득한 텍스트와 원본 텍스트를 서로 비교하여 측정한 유사도를 통해 개별 음성 파일의 유효성을 체크할 수 있다. 아울러, 텍스트를 대상으로 음성 합성기를 사용하여 획득한 음성의 유사도도 크로스 체크하여 음성 파일의 사용 가능 여부를 수행할 수 있다.In detail, the voice provider extracts voice features from the recorded voice file to check whether the voice is spoken, and the similarity measured by comparing the original text with the text obtained using the voice recognizer for the case where the speech is present. You can check the validity of individual voice files. In addition, it is possible to cross-check the similarity of the speech obtained using the speech synthesizer with respect to the text to perform the availability of the speech file.

그리고, 가상 음성 모델 생성부(130)는 사용 가능 음성 데이터를 기반으로 머신 러닝 알고리즘을 적용하여 미리 설정된 유형으로 분류하고, 사용 가능 음성 데이터를 기반으로 음성 특징을 추출할 수 있다.In addition, the virtual voice model generator 130 may apply a machine learning algorithm based on the available voice data to classify it into a preset type and extract a voice feature based on the available voice data.

그런 다음, 가상 음성 모델 생성부(130)는 유형이 분류되고 음성 특징이 추출된 사용 가능 음성 데이터를 저장부(110)에 저장하고, 저장부(110)에 저장된 사용 가능 음성 데이터를 기반으로 기계 학습하여 가상 음성 모델을 생성할 수 있다.Then, the virtual voice model generation unit 130 stores usable voice data whose types are classified and extracted voice features in the storage unit 110, and based on the available voice data stored in the storage unit 110. You can train to create a virtual speech model.

가상 음성 컨텐츠 생성부(150)는 저장부(110)에 저장된 텍스트 컨텐츠 중에서 사용자 단말(400)에 의해 선택된 텍스트 컨텐츠 및 사용자 단말(400)에 의해 선택된 가상 음성을 기반으로, 가상 음성 모델을 이용하여 가상 음성 컨텐츠를 생성할 수 있다.The virtual voice content generation unit 150 is based on the text content selected by the user terminal 400 and the virtual voice selected by the user terminal 400 among the text contents stored in the storage 110, using a virtual voice model. Virtual voice content may be generated.

즉, 가상 음성 컨텐츠 생성부(150)는 사용자 단말(400)에 의해 선택된 텍스트 컨텐츠를 기반으로 사용자 단말(400)에 의해 선택된 가상 음성을 선택된 텍스트 컨텐츠를 구성하는 배역에 할당할 수 있다.That is, the virtual voice content generation unit 150 may allocate the virtual voice selected by the user terminal 400 to the role of configuring the selected text content based on the text content selected by the user terminal 400.

그리고, 가상 음성 컨텐츠 생성부(150)는 배역에 할당된 가상 음성을 기반으로 가상 음성 모델을 이용하여 선택된 텍스트 컨텐츠에 대응하는 가상 음성 컨텐츠를 생성할 수 있다.The virtual voice content generator 150 may generate virtual voice content corresponding to the selected text content using a virtual voice model based on the virtual voice assigned to the cast.

예컨대, 텍스트 컨텐츠를 구성하는 각 세부 글에 대한 배역을 지정하고, 각각의 배역에 합성하고자 하는 가상 음성을 선택할 수 있다. 그러면, 가상 음성 컨텐츠 생성부(150)는 선택된 가상 음성들에 대응되는 가상 음성 모델을 이용하여 각 세부 글에 대응되는 가상 음성 데이터를 획득하고, 획득된 가상 음성 데이터들을 합성하여 선택된 텍스트 컨텐츠에 대응되는 가상 음성 컨텐츠를 생성할 수 있다.For example, a cast for each detail constituting text content may be designated, and a virtual voice to be synthesized in each cast may be selected. Then, the virtual voice content generation unit 150 obtains virtual voice data corresponding to each detail article by using a virtual voice model corresponding to the selected virtual voices, synthesizes the obtained virtual voice data, and corresponds to the selected text content. Virtual voice content may be generated.

가상 음성 컨텐츠 제공부(170)는 생성된 가상 음성 컨텐츠를 저장부(110)에 저장하고, 사용자 단말(400)로 가상 음성 컨텐츠를 제공할 수 있다.The virtual voice content providing unit 170 may store the generated virtual voice content in the storage unit 110 and provide the virtual voice content to the user terminal 400.

그러면, 도 3을 참조하여 본 발명의 바람직한 실시예에 따른 개인화된 가상 음성 합성 방법에 대하여 설명한다.Next, a personalized virtual speech synthesis method according to a preferred embodiment of the present invention will be described with reference to FIG. 3.

도 3은 본 발명의 바람직한 실시예에 따른 개인화된 가상 음성 합성 방법을 설명하기 위한 흐름도이다.3 is a flowchart illustrating a personalized virtual speech synthesis method according to a preferred embodiment of the present invention.

도 3을 참조하면, 개인화된 가상 음성 합성 장치(100)는 컨텐츠 제공 단말(200)로부터 제공받은 텍스트 컨텐츠를 저장한다(S110). 여기서, 텍스트 컨텐츠는 소설, 시, 수필, 문학 등과 같은 텍스트로 이루어진 다양한 유형의 글을 말한다.Referring to FIG. 3, the personalized virtual speech synthesis apparatus 100 stores text content provided from the content providing terminal 200 (S110). Here, the text content refers to various types of texts composed of texts such as novels, poems, essays, and literature.

그리고, 개인화된 가상 음성 합성 장치(100)는 음성 제공 단말(300)로부터 제공받은 음성 데이터를 기반으로 가상 음성 모델을 생성한다(S130). 여기서, 가상 음성 모델은 텍스트 데이터를 입력 데이터로 하고, 음성 데이터를 출력 데이터로 한다. 예컨대, 가상 음성 모델은 텍스트를 입력받으면, 해당 음성 제공자의 목소리로 입력받은 텍스트를 읽는 음성인 가상 음성 데이터를 출력할 수 있다.The personalized virtual speech synthesis apparatus 100 generates a virtual speech model based on the speech data provided from the speech providing terminal 300 (S130). Here, the virtual voice model uses text data as input data and voice data as output data. For example, when the virtual voice model receives text, the virtual voice model may output virtual voice data that is a voice that reads the text input by the voice of the corresponding voice provider.

이후, 개인화된 가상 음성 합성 장치(100)는 사용자 단말(400)에 의해 선택된 텍스트 콘텐츠와 가상 음성을 기반으로, 가상 음성 모델을 이용하여 가상 음성 컨텐츠를 생성한다(S150).Thereafter, the personalized virtual speech synthesis apparatus 100 generates the virtual speech content using the virtual speech model based on the text content and the virtual speech selected by the user terminal 400 (S150).

그런 다음, 개인화된 가상 음성 합성 장치(100)는 생성된 가상 음성 컨텐츠를 저장하고 사용자 단말(400)에 생성된 가상 음성 컨텐츠를 제공한다(S170).Then, the personalized virtual voice synthesis apparatus 100 stores the generated virtual voice content and provides the generated virtual voice content to the user terminal 400 (S170).

그러면, 도 4 및 도 5를 참조하여 본 발명의 바람직한 실시예에 따른 가상 음성 모델 생성 단계에 대하여 보다 자세하게 설명한다.4 and 5 will be described in more detail with respect to the virtual voice model generation step according to a preferred embodiment of the present invention.

도 4는 도 3에 도시한 가상 음성 모델 생성 단계의 일례를 설명하기 위한 흐름도이다.4 is a flowchart for explaining an example of the virtual voice model generation step shown in FIG. 3.

도 4를 참조하면, 개인화된 가상 음성 합성 장치(100)는 음성 제공 단말(300)로부터 제공받은 음성 데이터를 기반으로 머신 러닝 알고리즘을 적용하여 미리 설정된 유형으로 분류할 수 있다(S131a). 여기서, 미리 설정된 유형은 성별, 감정, 발화 속도 등을 말한다.Referring to FIG. 4, the personalized virtual speech synthesis apparatus 100 may classify the apparatus into a preset type by applying a machine learning algorithm based on the speech data provided from the speech providing terminal 300 (S131a). Here, the preset type refers to gender, emotion, speech rate, and the like.

그리고, 개인화된 가상 음성 합성 장치(100)는 음성 제공 단말(300)로부터 제공받은 음성 데이터를 기반으로 음성 특징을 추출할 수 있다(S133a). 예컨대, 개인화된 가상 음성 합성 장치(100)는 Linear spectrogram, MFCC(Mel Frequency Cepstral Coefficient) 등을 이용하여 음성 특징을 추출할 수 있다.In addition, the personalized virtual speech synthesis apparatus 100 may extract a speech feature based on the speech data provided from the speech providing terminal 300 (S133a). For example, the personalized virtual speech synthesis apparatus 100 may extract a speech feature using a linear spectrogram, a Mel Frequency Cepstral Coefficient (MFCC), or the like.

그런 다음, 개인화된 가상 음성 합성 장치(100)는 유형이 분류되고 음성 특징이 추출된 음성 데이터를 저장할 수 있다(S135a).Then, the personalized virtual speech synthesizing apparatus 100 may store the speech data in which the types are classified and the speech features are extracted (S135a).

그리고, 개인화된 가상 음성 합성 장치(100)는 저장된 음성 데이터를 기반으로 기계 학습하여 가상 음성 모델을 생성할 수 있다(S137a). 예컨대, 개인화된 가상 음성 합성 장치(100)는 음성 데이터와 이에 대응되는 텍스트 파일을 학습 데이터로 하는 기계 학습을 수행하여 해당 음성 제공자에 대응되는 가상 음성 모델을 생성할 수 있다.The personalized virtual speech synthesis apparatus 100 may generate a virtual speech model by machine learning based on the stored speech data (S137a). For example, the personalized virtual speech synthesis apparatus 100 may generate a virtual speech model corresponding to the speech provider by performing machine learning using the speech data and the text file corresponding thereto as the training data.

위와 같은 단계를 음성 데이터를 제공하는 음성 제공 단말(300)별로 반복적으로 수행함으로써, 복수의 음성 제공자 각각에 대응되는 복수의 가상 음성 모델을 생성할 수 있다.By repeatedly performing the above steps for each voice providing terminal 300 providing voice data, a plurality of virtual voice models corresponding to each of the plurality of voice providers may be generated.

도 5는 도 3에 도시한 가상 음성 모델 생성 단계의 다른 예를 설명하기 위한 흐름도이다.FIG. 5 is a flowchart for explaining another example of generating a virtual voice model shown in FIG. 3.

개인화된 가상 음성 합성 장치(100)는 음성 제공 단말(300)로부터 제공받은 음성 데이터 중에서 획득된 사용 가능 음성 데이터를 기반으로 가상 음성 모델을 생성할 수도 있다The personalized virtual speech synthesis apparatus 100 may generate a virtual speech model based on the available speech data obtained from the speech data provided from the speech providing terminal 300.

도 5를 참조하여 자세히 설명하면, 개인화된 가상 음성 합성 장치(100)는 음성 제공 단말(300)로부터 제공받은 음성 데이터 중에서 사용 가능 음성 데이터를 획득할 수 있다(S131b). 예컨대, 개인화된 가상 음성 합성 장치(100)는 음성 데이터의 노이즈, 발음의 정확도 등의 품질을 평가하여 음성 데이터 중에서 사용 가능 음성 데이터를 획득할 수 있다.Referring to FIG. 5 in detail, the personalized virtual speech synthesis apparatus 100 may obtain usable speech data from the speech data provided from the speech providing terminal 300 (S131b). For example, the personalized virtual speech synthesis apparatus 100 may obtain usable speech data from the speech data by evaluating the quality of the noise of the speech data, the accuracy of pronunciation, and the like.

그런 다음, 개인화된 가상 음성 합성 장치(100)는 사용 가능 음성 데이터를 기반으로 머신 러닝 알고리즘을 적용하여 미리 설정된 유형으로 분류할 수 있다(S133b).Thereafter, the personalized virtual speech synthesis apparatus 100 may classify the apparatus into a preset type by applying a machine learning algorithm based on the available speech data (S133b).

그리고, 개인화된 가상 음성 합성 장치(100)는 사용 가능 음성 데이터를 기반으로 음성 특징을 추출할 수 있다(S135b).In operation S135b, the personalized virtual speech synthesis apparatus 100 may extract the speech feature based on the available speech data.

그런 다음, 개인화된 가상 음성 합성 장치(100)는 유형이 분류되고 음성 특징이 추출된 사용 가능 음성 데이터를 저장할 수 있다(S137b).Then, the personalized virtual speech synthesizing apparatus 100 may store usable speech data in which the types are classified and the speech features are extracted (S137b).

그리고, 개인화된 가상 음성 합성 장치(100)는 저장된 사용 가능 음성 데이터를 기반으로 기계 학습하여 가상 음성 모델을 생성할 수 있다(S139b).The personalized virtual speech synthesis apparatus 100 may generate a virtual speech model by machine learning based on the stored usable speech data (S139b).

그러면, 도 6을 참조하여 본 발명의 바람직한 실시예에 따른 가상 음성 컨텐츠 생성 단계에 대하여 보다 자세하게 설명한다.Next, the virtual voice content generation step according to the preferred embodiment of the present invention will be described in more detail with reference to FIG. 6.

도 6은 도 3에 도시한 가상 음성 컨텐츠 생성 단계를 설명하기 위한 흐름도이다.FIG. 6 is a flowchart for explaining a virtual voice content generation step shown in FIG. 3.

도 6을 참조하면, 개인화된 가상 음성 합성 장치(100)는 사용자 단말(400)에 의해 선택된 텍스트 컨텐츠를 기반으로 사용자 단말(400)에 의해 선택된 가상 음성을 선택된 텍스트 컨텐츠를 구성하는 배역에 할당할 수 있다(S151).Referring to FIG. 6, the personalized virtual voice synthesizing apparatus 100 may allocate a virtual voice selected by the user terminal 400 to a role constituting the selected text content based on the text content selected by the user terminal 400. It may be (S151).

그런 다음, 개인화된 가상 음성 합성 장치(100)는 배역에 할당된 가상 음성을 기반으로 가상 음성 모델을 이용하여 선택된 텍스트 컨텐츠에 대응하는 가상 음성 컨텐츠를 생성할 수 있다(S153).Then, the personalized virtual voice synthesis apparatus 100 may generate virtual voice content corresponding to the selected text content using the virtual voice model based on the virtual voice assigned to the cast (S153).

예컨대, 텍스트 컨텐츠를 구성하는 각 세부 글에 대한 배역을 지정하고, 각각의 배역에 합성하고자 하는 가상 음성을 선택할 수 있다. 그러면, 개인화된 가상 음성 합성 장치(100)는 선택된 가상 음성들에 대응되는 가상 음성 모델을 이용하여 각 세부 글에 대응되는 가상 음성 데이터를 획득하고, 획득된 가상 음성 데이터들을 합성하여 선택된 텍스트 컨텐츠에 대응되는 가상 음성 컨텐츠를 생성할 수 있다.For example, a cast for each detail constituting text content may be designated, and a virtual voice to be synthesized in each cast may be selected. Then, the personalized virtual voice synthesizing apparatus 100 obtains virtual voice data corresponding to each detail text by using a virtual voice model corresponding to the selected virtual voices, synthesizes the obtained virtual voice data to the selected text content. Corresponding virtual voice content may be generated.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터로 읽을 수 있는 기록 매체는 컴퓨터에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 롬(ROM), 램(RAM), 씨디-롬(CD-ROM), 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 유무선 통신망으로 연결된 컴퓨터 장치에 분산되어 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.The present invention can also be embodied as computer readable code on a computer readable recording medium. The computer-readable recording medium includes all kinds of recording devices in which data that can be read by a computer is stored. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disks, optical data storage devices, and the like. The computer-readable recording medium can also be distributed over computer devices connected over a wired or wireless communication network so that the computer-readable code is stored and executed in a distributed fashion.

이상에서 본 발명의 바람직한 실시예에 대하여 상세하게 설명하였지만 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 다음의 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.Although the preferred embodiments of the present invention have been described in detail above, the present invention is not limited to the specific preferred embodiments described above, and the technical field to which the present invention pertains without departing from the gist of the present invention claimed in the following claims. Anyone of ordinary skill in the art that various modifications can be made, of course, such changes are within the scope of the claims.

100: 개인화된 가상 음성 합성 장치,
110: 저장부, 130: 가상 음성 모델 생성부,
150: 가상 음성 컨텐츠 생성부, 170: 가상 음성 컨텐츠 제공부,
200: 컨텐츠 제공 단말, 300: 음성 제공 단말,
400: 사용자 단말, 500: 통신망
100: personalized virtual speech synthesizer,
110: a storage unit, 130: a virtual voice model generator,
150: virtual voice content generation unit, 170: virtual voice content providing unit,
200: a content providing terminal, 300: a voice providing terminal,
400: user terminal, 500: communication network

Claims (11)

음성 제공 단말, 컨텐츠 제공 단말, 및 사용자 단말과 통신망을 통해 연결되는 개인화된 가상 음성 합성 장치로서,
상기 컨텐츠 제공 단말로부터 제공받은 텍스트 컨텐츠를 저장하는 저장부;
상기 음성 제공 단말로부터 제공받은 음성 데이터를 기반으로 가상 음성 모델을 생성하는 가상 음성 모델 생성부; 및
상기 저장부에 저장된 텍스트 컨텐츠 중에서 상기 사용자 단말에 의해 선택된 텍스트 컨텐츠 및 상기 사용자 단말에 의해 선택된 가상 음성을 기반으로, 상기 가상 음성 모델을 이용하여 가상 음성 컨텐츠를 생성하는 가상 음성 컨텐츠 생성부;
를 포함하는 개인화된 가상 음성 합성 장치.
A personalized virtual speech synthesis apparatus connected to a voice providing terminal, a content providing terminal, and a user terminal through a communication network,
A storage unit for storing the text content provided from the content providing terminal;
A virtual voice model generator for generating a virtual voice model based on voice data received from the voice providing terminal; And
A virtual voice content generator configured to generate virtual voice content using the virtual voice model based on the text content selected by the user terminal and the virtual voice selected by the user terminal among the text content stored in the storage unit;
Personalized virtual speech synthesis device comprising a.
제1항에서,
상기 가상 음성 컨텐츠 생성부는, 상기 사용자 단말에 의해 선택된 텍스트 컨텐츠를 기반으로 상기 사용자 단말에 의해 선택된 가상 음성을 상기 선택된 텍스트 컨텐츠를 구성하는 배역에 할당하고, 배역에 할당된 가상 음성을 기반으로 상기 가상 음성 모델을 이용하여 상기 선택된 텍스트 컨텐츠에 대응하는 상기 가상 음성 컨텐츠를 생성하는,
개인화된 가상 음성 합성 장치.
In claim 1,
The virtual voice content generating unit may allocate the virtual voice selected by the user terminal to a role constituting the selected text content based on the text content selected by the user terminal and the virtual voice based on the virtual voice assigned to the role. Generating the virtual voice content corresponding to the selected text content by using a voice model;
Personalized Virtual Speech Synthesis Device.
제1항에서,
상기 가상 음성 모델 생성부는, 상기 음성 제공 단말로부터 제공받은 음성 데이터를 기반으로 머신 러닝 알고리즘을 적용하여 미리 설정된 유형으로 분류하고, 상기 음성 제공 단말로부터 제공받은 음성 데이터를 기반으로 음성 특징을 추출하며, 유형이 분류되고 음성 특징이 추출된 음성 데이터를 상기 저장부에 저장하고, 상기 저장부에 저장된 음성 데이터를 기반으로 기계 학습하여 상기 가상 음성 모델을 생성하는,
개인화된 가상 음성 합성 장치.
In claim 1,
The virtual voice model generation unit may be classified into a predetermined type by applying a machine learning algorithm based on the voice data provided from the voice providing terminal, extracting a voice feature based on the voice data provided from the voice providing terminal, Storing the voice data whose types are classified and extracted voice features into the storage unit, and generating the virtual voice model by machine learning based on the voice data stored in the storage unit;
Personalized Virtual Speech Synthesis Device.
제3항에서,
상기 가상 음성 모델 생성부는, 상기 음성 제공 단말로부터 제공받은 음성 데이터 중에서 사용 가능 음성 데이터를 획득하며, 상기 사용 가능 음성 데이터를 기반으로 머신 러닝 알고리즘을 적용하여 미리 설정된 유형으로 분류하고, 상기 사용 가능 음성 데이터를 기반으로 음성 특징을 추출하며, 유형이 분류되고 음성 특징이 추출된 사용 가능 음성 데이터를 상기 저장부에 저장하고, 상기 저장부에 저장된 사용 가능 음성 데이터를 기반으로 기계 학습하여 상기 가상 음성 모델을 생성하는,
개인화된 가상 음성 합성 장치.
In claim 3,
The virtual voice model generation unit obtains usable voice data from the voice data provided from the voice providing terminal, classifies the voice model into a preset type by applying a machine learning algorithm based on the usable voice data, and uses the available voice data. Extracting the voice feature based on the data, storing the usable voice data in which the type is classified and the voice feature has been extracted in the storage unit, and machine learning based on the usable voice data stored in the storage unit to generate the virtual voice model. To generate,
Personalized Virtual Speech Synthesis Device.
제1항에서,
상기 가상 음성 컨텐츠를 상기 저장부에 저장하고, 상기 사용자 단말로 상기 가상 음성 컨텐츠를 제공하는 가상 음성 컨텐츠 제공부;
를 더 포함하는 개인화된 가상 음성 합성 장치.
In claim 1,
A virtual voice content providing unit storing the virtual voice content in the storage unit and providing the virtual voice content to the user terminal;
Personalized virtual speech synthesis device further comprising.
음성 제공 단말, 컨텐츠 제공 단말, 및 사용자 단말과 통신망을 통해 연결되는 개인화된 가상 음성 합성 장치의 가상 음성 합성 방법으로서,
상기 컨텐츠 제공 단말로부터 제공받은 텍스트 컨텐츠를 저장하는 단계;
상기 음성 제공 단말로부터 제공받은 음성 데이터를 기반으로 가상 음성 모델을 생성하는 단계; 및
상기 개인화된 가상 음성 합성 장치에 저장된 텍스트 컨텐츠 중에서 상기 사용자 단말에 의해 선택된 텍스트 컨텐츠 및 상기 사용자 단말에 의해 선택된 가상 음성을 기반으로, 상기 가상 음성 모델을 이용하여 가상 음성 컨텐츠를 생성하는 단계;
를 포함하는 개인화된 가상 음성 합성 방법.
A virtual speech synthesis method of a personalized virtual speech synthesis apparatus connected to a speech providing terminal, a content providing terminal, and a user terminal through a communication network,
Storing the text content provided from the content providing terminal;
Generating a virtual voice model based on voice data received from the voice providing terminal; And
Generating virtual voice content using the virtual voice model based on the text content selected by the user terminal and the virtual voice selected by the user terminal among text contents stored in the personalized virtual voice synthesis apparatus;
Personalized virtual speech synthesis method comprising a.
제6항에서,
상기 가상 음성 컨텐츠 생성 단계는, 상기 사용자 단말에 의해 선택된 텍스트 컨텐츠를 기반으로 상기 사용자 단말에 의해 선택된 가상 음성을 상기 선택된 텍스트 컨텐츠를 구성하는 배역에 할당하고, 배역에 할당된 가상 음성을 기반으로 상기 가상 음성 모델을 이용하여 상기 선택된 텍스트 컨텐츠에 대응하는 상기 가상 음성 컨텐츠를 생성하는 것으로 이루어진,
개인화된 가상 음성 합성 방법.
In claim 6,
The generating of the virtual voice content may include assigning a virtual voice selected by the user terminal to a role constituting the selected text content based on the text content selected by the user terminal, and based on the virtual voice assigned to the role. Generating the virtual voice content corresponding to the selected text content using a virtual voice model,
Personalized virtual speech synthesis method.
제6항에서,
상기 가상 음성 모델 생성 단계는, 상기 음성 제공 단말로부터 제공받은 음성 데이터를 기반으로 머신 러닝 알고리즘을 적용하여 미리 설정된 유형으로 분류하고, 상기 음성 제공 단말로부터 제공받은 음성 데이터를 기반으로 음성 특징을 추출하며, 유형이 분류되고 음성 특징이 추출된 음성 데이터를 상기 개인화된 가상 음성 합성 장치에 저장하고, 상기 개인화된 가상 음성 합성 장치에 저장된 음성 데이터를 기반으로 기계 학습하여 상기 가상 음성 모델을 생성하는 것으로 이루어진,
개인화된 가상 음성 합성 방법.
In claim 6,
The virtual voice model generation step may be classified into a predetermined type by applying a machine learning algorithm based on the voice data provided from the voice providing terminal, and extracting a voice feature based on the voice data provided from the voice providing terminal. And storing the voice data classified in the type and extracted the voice feature in the personalized virtual speech synthesis apparatus, and machine learning based on the voice data stored in the personalized virtual speech synthesis apparatus to generate the virtual speech model. ,
Personalized virtual speech synthesis method.
제8항에서,
상기 가상 음성 모델 생성 단계는, 상기 음성 제공 단말로부터 제공받은 음성 데이터 중에서 사용 가능 음성 데이터를 획득하며, 상기 사용 가능 음성 데이터를 기반으로 머신 러닝 알고리즘을 적용하여 미리 설정된 유형으로 분류하고, 상기 사용 가능 음성 데이터를 기반으로 음성 특징을 추출하며, 유형이 분류되고 음성 특징이 추출된 사용 가능 음성 데이터를 상기 개인화된 가상 음성 합성 장치에 저장하고, 상기 개인화된 가상 음성 합성 장치에 저장된 사용 가능 음성 데이터를 기반으로 기계 학습하여 상기 가상 음성 모델을 생성하는 것으로 이루어진,
개인화된 가상 음성 합성 방법.
In claim 8,
The generating of the virtual voice model may include acquiring usable voice data from among voice data provided from the voice providing terminal, classifying the voice model into a preset type by applying a machine learning algorithm based on the usable voice data, and using the available voice data. Extracting the voice feature based on the voice data, storing the usable voice data of which the type is classified and the voice feature is extracted in the personalized virtual voice synthesis device, and storing the usable voice data stored in the personalized virtual voice synthesis device. Generating the virtual speech model by machine learning based on the
Personalized virtual speech synthesis method.
제6항에서,
상기 가상 음성 컨텐츠를 상기 개인화된 가상 음성 합성 장치에 저장하고, 상기 사용자 단말로 상기 가상 음성 컨텐츠를 제공하는 단계;
를 더 포함하는 개인화된 가상 음성 합성 방법.
In claim 6,
Storing the virtual voice content in the personalized virtual voice synthesizing apparatus and providing the virtual voice content to the user terminal;
Personalized virtual speech synthesis method further comprising.
제6항 내지 제10항 중 어느 한 항에 기재된 개인화된 가상 음성 합성 방법을 컴퓨터에서 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록 매체에 저장된 컴퓨터 프로그램.
A computer program stored in a computer readable recording medium for executing the personalized virtual speech synthesis method according to any one of claims 6 to 10 on a computer.
KR1020180091710A 2018-08-07 2018-08-07 Apparatus and method for synthesizing personalized virtual voice KR20200016516A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180091710A KR20200016516A (en) 2018-08-07 2018-08-07 Apparatus and method for synthesizing personalized virtual voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180091710A KR20200016516A (en) 2018-08-07 2018-08-07 Apparatus and method for synthesizing personalized virtual voice

Publications (1)

Publication Number Publication Date
KR20200016516A true KR20200016516A (en) 2020-02-17

Family

ID=69670717

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180091710A KR20200016516A (en) 2018-08-07 2018-08-07 Apparatus and method for synthesizing personalized virtual voice

Country Status (1)

Country Link
KR (1) KR20200016516A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220001140A (en) * 2020-06-29 2022-01-05 김민곤 System to provide a service for reciting poetry based on artificial intelligence
KR20220040813A (en) 2020-09-24 2022-03-31 장원준 Computing Detection Device for AI Voice

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020000053A (en) 2000-06-20 2002-01-04 배한영 Text file of voice file by change internet site

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020000053A (en) 2000-06-20 2002-01-04 배한영 Text file of voice file by change internet site

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220001140A (en) * 2020-06-29 2022-01-05 김민곤 System to provide a service for reciting poetry based on artificial intelligence
KR20220040813A (en) 2020-09-24 2022-03-31 장원준 Computing Detection Device for AI Voice

Similar Documents

Publication Publication Date Title
KR102581346B1 (en) Multilingual speech synthesis and cross-language speech replication
JP7106680B2 (en) Text-to-Speech Synthesis in Target Speaker's Voice Using Neural Networks
WO2017190674A1 (en) Method and device for processing audio data, and computer storage medium
CN107945786A (en) Phoneme synthesizing method and device
WO2021083071A1 (en) Method, device, and medium for speech conversion, file generation, broadcasting, and voice processing
CN105609097A (en) Speech synthesis apparatus and control method thereof
US8380508B2 (en) Local and remote feedback loop for speech synthesis
CN105957515B (en) Speech synthesizing method, speech synthesizing device and the medium for storing sound synthesis programs
WO2022178969A1 (en) Voice conversation data processing method and apparatus, and computer device and storage medium
US11545136B2 (en) System and method using parameterized speech synthesis to train acoustic models
US20220383876A1 (en) Method of converting speech, electronic device, and readable storage medium
CN101901598A (en) Humming synthesis method and system
KR20200027331A (en) Voice synthesis device
CN113327574B (en) Speech synthesis method, device, computer equipment and storage medium
Panda et al. A waveform concatenation technique for text-to-speech synthesis
KR20200016516A (en) Apparatus and method for synthesizing personalized virtual voice
JP2020042131A (en) Information processor, information processing method and program
CN113421584B (en) Audio noise reduction method, device, computer equipment and storage medium
Mukherjee et al. A Bengali speech synthesizer on Android OS
CN113555003B (en) Speech synthesis method, device, electronic equipment and storage medium
Basu et al. Real time challenges to handle the telephonic speech recognition system
CN114464163A (en) Method, device, equipment, storage medium and product for training speech synthesis model
US20210280167A1 (en) Text to speech prompt tuning by example
Hsu et al. Speaker-dependent model interpolation for statistical emotional speech synthesis
JP2023530970A (en) A system for voice-to-text tagging of rich transcripts of human speech

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application