KR20200016516A - Apparatus and method for synthesizing personalized virtual voice - Google Patents
Apparatus and method for synthesizing personalized virtual voice Download PDFInfo
- Publication number
- KR20200016516A KR20200016516A KR1020180091710A KR20180091710A KR20200016516A KR 20200016516 A KR20200016516 A KR 20200016516A KR 1020180091710 A KR1020180091710 A KR 1020180091710A KR 20180091710 A KR20180091710 A KR 20180091710A KR 20200016516 A KR20200016516 A KR 20200016516A
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- virtual
- content
- personalized
- speech synthesis
- Prior art date
Links
- 230000002194 synthesizing effect Effects 0.000 title claims abstract description 9
- 238000000034 method Methods 0.000 title abstract description 12
- 230000015572 biosynthetic process Effects 0.000 claims description 64
- 238000003786 synthesis reaction Methods 0.000 claims description 64
- 238000010801 machine learning Methods 0.000 claims description 25
- 238000004891 communication Methods 0.000 claims description 13
- 238000001308 synthesis method Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000008451 emotion Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
본 발명은 개인화된 가상 음성 합성 장치 및 방법에 관한 것으로, 더욱 상세하게는 텍스트 컨텐츠와 음성 제공자의 목소리를 조합하여 새로운 컨텐츠를 생성하는 장치 및 방법에 관한 것이다.The present invention relates to a personalized virtual speech synthesizing apparatus and method, and more particularly, to an apparatus and method for generating new content by combining text content and the voice of a voice provider.
현재 구글, 아마존, 네이버 등 기업에서 음성 합성(TTS) 기술을 활용하여 API 형태로 서비스를 제공하고 있고, 정교히 가공된 몇가지의 목소리 만을 사용할 수 있도록 되어 있으며, 기업과 개인들이 자유롭게 활용하기 보다는 특정 목적에 의해서만 활용되고 있어 음성을 이용한 컨텐츠 활성화에 많은 도움을 주지 못하고 있다.Currently, companies such as Google, Amazon, and Naver are providing services in the form of API using speech synthesis (TTS) technology, and only a few elaborate voices can be used. It is only used for the purpose does not help much to activate the content using the voice.
또한, 음성 모델을 생성할 때 필요한 데이터를 확보하고 서비스에 사용할 수 있도록 하기 위해서 사업자의 제한적인 목적에 부합하여 만들어지고 내부적으로도 상당히 많은 시간과 비용이 소요되어서, 다양한 서비스 분야에서 활용되지 못하고 있기도 하다.In addition, in order to obtain the data necessary to generate the voice model and to use it for the service, it is made in accordance with the limited purpose of the service provider and it takes a lot of time and money internally, so it may not be utilized in various service fields. Do.
다만, 근래들어 특정 유명인의 목소리를 이용하여 서비스를 제공하는 사례들이 나타나고 있으나, 컨텐츠 양산 및 참여자의 이익을 위해서 활용되고 있지는 못하고 있다.However, in recent years, there have been examples of providing services using the voices of specific celebrities, but they have not been used for the mass production of content and the benefit of participants.
그리고 음성 합성 기술을 통해 합성된 목소리들이 대부분 억양, 톤, 속도, 운율의 선택권을 많이 제공해주지 못하고 정해진 톤의 형태로만 제공되고 있기도 하다.And most of the voices synthesized through the voice synthesis technology do not provide a lot of options for intonation, tone, speed, and rhyme, but are provided only in the form of predetermined tones.
본 발명이 이루고자 하는 기술적 과제는, 텍스트 컨텐츠와 음성 제공자의 목소리를 조합하여 새로운 컨텐츠를 생성하는 개인화된 가상 음성 합성 장치 및 방법을 제공하는 데 있다.An object of the present invention is to provide a personalized virtual speech synthesis apparatus and method for generating new content by combining text content with the voice of a voice provider.
상기의 기술적 과제를 달성하기 위한 본 발명에 따른 개인화된 가상 음성 합성 장치는, 음성 제공 단말, 컨텐츠 제공 단말, 및 사용자 단말과 통신망을 통해 연결되는 개인화된 가상 음성 합성 장치로서, 상기 컨텐츠 제공 단말로부터 제공받은 텍스트 컨텐츠를 저장하는 저장부; 상기 음성 제공 단말로부터 제공받은 음성 데이터를 기반으로 가상 음성 모델을 생성하는 가상 음성 모델 생성부; 및 상기 저장부에 저장된 텍스트 컨텐츠 중에서 상기 사용자 단말에 의해 선택된 텍스트 컨텐츠 및 상기 사용자 단말에 의해 선택된 가상 음성을 기반으로, 상기 가상 음성 모델을 이용하여 가상 음성 컨텐츠를 생성하는 가상 음성 컨텐츠 생성부;를 포함한다.In accordance with another aspect of the present invention, there is provided a personalized virtual speech synthesis apparatus, which is a personalized virtual speech synthesis apparatus connected to a voice providing terminal, a content providing terminal, and a user terminal through a communication network. A storage unit for storing the received text contents; A virtual voice model generator for generating a virtual voice model based on voice data received from the voice providing terminal; And a virtual voice content generator configured to generate virtual voice content using the virtual voice model based on the text content selected by the user terminal and the virtual voice selected by the user terminal among the text content stored in the storage unit. Include.
상기 가상 음성 컨텐츠 생성부는, 상기 사용자 단말에 의해 선택된 텍스트 컨텐츠를 기반으로 상기 사용자 단말에 의해 선택된 가상 음성을 상기 선택된 텍스트 컨텐츠를 구성하는 배역에 할당하고, 배역에 할당된 가상 음성을 기반으로 상기 가상 음성 모델을 이용하여 상기 선택된 텍스트 컨텐츠에 대응하는 상기 가상 음성 컨텐츠를 생성할 수 있다.The virtual voice content generator is configured to allocate the virtual voice selected by the user terminal to a role constituting the selected text content based on the text content selected by the user terminal, and based on the virtual voice assigned to the role. The virtual voice content corresponding to the selected text content may be generated using a voice model.
상기 가상 음성 모델 생성부는, 상기 음성 제공 단말로부터 제공받은 음성 데이터를 기반으로 머신 러닝 알고리즘을 적용하여 미리 설정된 유형으로 분류하고, 상기 음성 제공 단말로부터 제공받은 음성 데이터를 기반으로 음성 특징을 추출하며, 유형이 분류되고 음성 특징이 추출된 음성 데이터를 상기 저장부에 저장하고, 상기 저장부에 저장된 음성 데이터를 기반으로 기계 학습하여 상기 가상 음성 모델을 생성할 수 있다.The virtual voice model generation unit may be classified into a preset type by applying a machine learning algorithm based on the voice data provided from the voice providing terminal, extracting a voice feature based on the voice data provided from the voice providing terminal, The virtual data may be stored in the storage unit in which types are classified and voice features are extracted, and the virtual voice model may be generated by machine learning based on the voice data stored in the storage unit.
상기 가상 음성 모델 생성부는, 상기 음성 제공 단말로부터 제공받은 음성 데이터 중에서 사용 가능 음성 데이터를 획득하며, 상기 사용 가능 음성 데이터를 기반으로 머신 러닝 알고리즘을 적용하여 미리 설정된 유형으로 분류하고, 상기 사용 가능 음성 데이터를 기반으로 음성 특징을 추출하며, 유형이 분류되고 음성 특징이 추출된 사용 가능 음성 데이터를 상기 저장부에 저장하고, 상기 저장부에 저장된 사용 가능 음성 데이터를 기반으로 기계 학습하여 상기 가상 음성 모델을 생성할 수 있다.The virtual voice model generation unit obtains usable voice data from the voice data provided from the voice providing terminal, classifies the voice model into a preset type by applying a machine learning algorithm based on the usable voice data, and uses the available voice data. Extracting the voice feature based on the data, storing the usable voice data of which the type is classified and the voice feature is extracted into the storage unit, and machine learning based on the usable voice data stored in the storage unit. Can be generated.
상기 가상 음성 컨텐츠를 상기 저장부에 저장하고, 상기 사용자 단말로 상기 가상 음성 컨텐츠를 제공하는 가상 음성 컨텐츠 제공부를 더 포함할 수 있다.The apparatus may further include a virtual voice content providing unit storing the virtual voice content in the storage unit and providing the virtual voice content to the user terminal.
상기의 기술적 과제를 달성하기 위한 본 발명에 따른 개인화된 가상 음성 합성 방법은, 음성 제공 단말, 컨텐츠 제공 단말, 및 사용자 단말과 통신망을 통해 연결되는 개인화된 가상 음성 합성 장치의 가상 음성 합성 방법으로서, 상기 컨텐츠 제공 단말로부터 제공받은 텍스트 컨텐츠를 저장하는 단계; 상기 음성 제공 단말로부터 제공받은 음성 데이터를 기반으로 가상 음성 모델을 생성하는 단계; 및 상기 개인화된 가상 음성 합성 장치에 저장된 텍스트 컨텐츠 중에서 상기 사용자 단말에 의해 선택된 텍스트 컨텐츠 및 상기 사용자 단말에 의해 선택된 가상 음성을 기반으로, 상기 가상 음성 모델을 이용하여 가상 음성 컨텐츠를 생성하는 단계;를 포함한다.According to an aspect of the present invention, there is provided a personalized virtual speech synthesis method, which is a virtual speech synthesis method of a personalized virtual speech synthesis apparatus connected to a voice providing terminal, a content providing terminal, and a user terminal through a communication network. Storing the text content provided from the content providing terminal; Generating a virtual voice model based on voice data received from the voice providing terminal; And generating virtual voice content using the virtual voice model based on the text content selected by the user terminal and the virtual voice selected by the user terminal among text contents stored in the personalized virtual voice synthesis apparatus. Include.
상기 가상 음성 컨텐츠 생성 단계는, 상기 사용자 단말에 의해 선택된 텍스트 컨텐츠를 기반으로 상기 사용자 단말에 의해 선택된 가상 음성을 상기 선택된 텍스트 컨텐츠를 구성하는 배역에 할당하고, 배역에 할당된 가상 음성을 기반으로 상기 가상 음성 모델을 이용하여 상기 선택된 텍스트 컨텐츠에 대응하는 상기 가상 음성 컨텐츠를 생성하는 것으로 이루어질 수 있다.The generating of the virtual voice content may include assigning a virtual voice selected by the user terminal to a role constituting the selected text content based on the text content selected by the user terminal, and based on the virtual voice assigned to the role. The virtual voice model may be used to generate the virtual voice content corresponding to the selected text content.
상기 가상 음성 모델 생성 단계는, 상기 음성 제공 단말로부터 제공받은 음성 데이터를 기반으로 머신 러닝 알고리즘을 적용하여 미리 설정된 유형으로 분류하고, 상기 음성 제공 단말로부터 제공받은 음성 데이터를 기반으로 음성 특징을 추출하며, 유형이 분류되고 음성 특징이 추출된 음성 데이터를 상기 개인화된 가상 음성 합성 장치에 저장하고, 상기 개인화된 가상 음성 합성 장치에 저장된 음성 데이터를 기반으로 기계 학습하여 상기 가상 음성 모델을 생성하는 것으로 이루어질 수 있다.The virtual voice model generation step may be classified into a preset type by applying a machine learning algorithm based on the voice data provided from the voice providing terminal, and extracting a voice feature based on the voice data provided from the voice providing terminal. And storing the voice data classified into types and extracted voice features in the personalized virtual speech synthesis apparatus, and machine learning based on the voice data stored in the personalized virtual speech synthesis apparatus to generate the virtual speech model. Can be.
상기 가상 음성 모델 생성 단계는, 상기 음성 제공 단말로부터 제공받은 음성 데이터 중에서 사용 가능 음성 데이터를 획득하며, 상기 사용 가능 음성 데이터를 기반으로 머신 러닝 알고리즘을 적용하여 미리 설정된 유형으로 분류하고, 상기 사용 가능 음성 데이터를 기반으로 음성 특징을 추출하며, 유형이 분류되고 음성 특징이 추출된 사용 가능 음성 데이터를 상기 개인화된 가상 음성 합성 장치에 저장하고, 상기 개인화된 가상 음성 합성 장치에 저장된 사용 가능 음성 데이터를 기반으로 기계 학습하여 상기 가상 음성 모델을 생성하는 것으로 이루어질 수 있다.The generating of the virtual voice model may include acquiring usable voice data from among voice data provided from the voice providing terminal, classifying the voice model into a preset type by applying a machine learning algorithm based on the usable voice data, and using the available voice data. Extracting the voice feature based on the voice data, storing the usable voice data of which the type is classified and the voice feature is extracted in the personalized virtual voice synthesizer, and storing the usable voice data stored in the personalized virtual voice synthesizer. Machine learning based on the generated virtual voice model.
상기 가상 음성 컨텐츠를 상기 개인화된 가상 음성 합성 장치에 저장하고, 상기 사용자 단말로 상기 가상 음성 컨텐츠를 제공하는 단계를 더 포함할 수 있다.The method may further include storing the virtual voice content in the personalized virtual voice synthesis apparatus and providing the virtual voice content to the user terminal.
상기의 기술적 과제를 달성하기 위한 본 발명에 따른 컴퓨터 프로그램은 컴퓨터로 읽을 수 있는 기록 매체에 저장되어 상기한 방법 중 어느 하나를 컴퓨터에서 실행시킨다.A computer program according to the present invention for achieving the above technical problem is stored in a computer-readable recording medium to execute any one of the above methods in a computer.
본 발명에 따른 개인화된 가상 음성 합성 장치 및 방법에 의하면, 텍스트 컨텐츠와 음성 제공자의 목소리를 조합하여 새로운 컨텐츠를 생성함으로써, 가상 음성, 텍스트 컨텐츠뿐만 아니라, 가상 음성과 텍스트 컨텐츠를 조합하여 다양한 새로운 컨텐츠를 생성할 수 있다.According to the personalized virtual speech synthesis apparatus and method according to the present invention, by combining the text content and the voice of the voice provider to create a new content, a variety of new content by combining the virtual voice and text content as well as the virtual voice and text content Can be generated.
도 1은 본 발명의 바람직한 실시예에 따른 개인화된 가상 음성 합성 장치를 설명하기 위한 블록도이다.
도 2는 도 1에 도시한 개인화된 가상 음성 합성 장치를 보다 자세히 설명하기 위한 블록도이다.
도 3은 본 발명의 바람직한 실시예에 따른 개인화된 가상 음성 합성 방법을 설명하기 위한 흐름도이다.
도 4는 도 3에 도시한 가상 음성 모델 생성 단계의 일례를 설명하기 위한 흐름도이다.
도 5는 도 3에 도시한 가상 음성 모델 생성 단계의 다른 예를 설명하기 위한 흐름도이다.
도 6은 도 3에 도시한 가상 음성 컨텐츠 생성 단계를 설명하기 위한 흐름도이다.1 is a block diagram illustrating a personalized virtual speech synthesis apparatus according to a preferred embodiment of the present invention.
FIG. 2 is a block diagram illustrating the personalized virtual speech synthesis apparatus shown in FIG. 1 in more detail.
3 is a flowchart illustrating a personalized virtual speech synthesis method according to a preferred embodiment of the present invention.
4 is a flowchart for explaining an example of the virtual voice model generation step shown in FIG. 3.
FIG. 5 is a flowchart for explaining another example of generating a virtual voice model shown in FIG. 3.
FIG. 6 is a flowchart for explaining a virtual voice content generation step shown in FIG. 3.
이하에서 첨부한 도면을 참조하여 본 발명에 따른 개인화된 가상 음성 합성 장치 및 방법의 바람직한 실시예에 대해 상세하게 설명한다.Hereinafter, exemplary embodiments of a personalized virtual speech synthesis apparatus and method according to the present invention will be described in detail with reference to the accompanying drawings.
먼저, 도 1을 참조하여 본 발명의 바람직한 실시예에 따른 개인화된 가상 음성 합성 장치에 대하여 설명한다.First, a personalized virtual speech synthesis apparatus according to a preferred embodiment of the present invention will be described with reference to FIG. 1.
도 1은 본 발명의 바람직한 실시예에 따른 개인화된 가상 음성 합성 장치를 설명하기 위한 블록도이다.1 is a block diagram illustrating a personalized virtual speech synthesis apparatus according to a preferred embodiment of the present invention.
도 1을 참조하면, 본 발명의 바람직한 실시예에 따른 개인화된 가상 음성 합성 장치(100)는 통신망(500)을 통해 복수의 컨텐츠 제공 단말(200), 복수의 음성 제공 단말(300) 및 사용자 단말(400)과 연결된다.Referring to FIG. 1, a personalized virtual
개인화된 가상 음성 합성 장치(100)는 컨텐츠 제공 단말(200)로부터 제공된 텍스트 컨텐츠와 음성 제공 단말(300)로부터 제공된 음성 데이터를 기반으로 사용자 단말(400)에 의해 재구성된 새로운 컨텐츠를 생성한다. 그리고, 개인화된 가상 음성 합성 장치(100)는 생성된 새로운 컨텐츠를 사용자 단말(400)에 제공한다.The personalized virtual
컨텐츠 제공 단말(200)은 텍스트 컨텐츠를 통신망(500)을 통해 개인화된 가상 음성 합성 장치(100)에 제공한다. 여기서, 텍스트 컨텐츠는 소설, 시, 수필, 문학 등과 같은 텍스트로 이루어진 다양한 유형의 글을 말한다.The
여기서, 컨텐츠 제공 단말(200)은 데스크톱 컴퓨터뿐만 아니라 노트북 컴퓨터, 워크스테이션, 팜톱(palmtop) 컴퓨터, UMPC(Ultra Mobile Personal Computer), 태블릿 PC, 개인 휴대 정보 단말기(Personal Digital Assistant, PDA), 웹 패드, 스마트폰, 휴대전화 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 단말기로 이루어질 수 있다. 또한, 컨텐츠 제공 단말(200)은 개인화된 가상 음성 합성 장치(100)에서 제공하는 전용 어플리케이션이 설치되고, 설치된 전용 어플리케이션을 통해 텍스트 컨텐츠를 개인화된 가상 음성 합성 장치(100)에 제공할 수 있다.Here, the
음성 제공 단말(300)은 음성 데이터를 통신망(500)을 통해 개인화된 가상 음성 합성 장치(100)에 제공한다. 여기서, 음성 데이터는 자신의 고유 목소리 데이터로서, 가상 음성 모델의 생성에 이용되는 학습 데이터를 말한다. 이를 통해, 개인화된 가상 음성 합성 장치(100)는 음성 제공자에 의해 제공되는 고유 목소리 데이터를 통해 해당 음성 제공자의 가상 음성을 생성하는데 이용되는 해당 음성 제공자의 가상 음성 모델을 생성할 수 있다.The
여기서, 음성 제공 단말(300)은 데스크톱 컴퓨터뿐만 아니라 노트북 컴퓨터, 워크스테이션, 팜톱(palmtop) 컴퓨터, UMPC(Ultra Mobile Personal Computer), 태블릿 PC, 개인 휴대 정보 단말기(Personal Digital Assistant, PDA), 웹 패드, 스마트폰, 휴대전화 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 단말기로 이루어질 수 있다. 또한, 음성 제공 단말(300)은 개인화된 가상 음성 합성 장치(100)에서 제공하는 전용 어플리케이션이 설치되고, 설치된 전용 어플리케이션을 통해 음성 데이터를 개인화된 가상 음성 합성 장치(100)에 제공할 수 있다.Here, the
사용자 단말(400)은 통신망(500)을 통해 개인화된 가상 음성 합성 장치(100)에 접속하여 새로운 컨텐츠의 생성을 요청한다. 즉, 사용자 단말(400)은 개인화된 가상 음성 합성 장치(100)에서 제공하는 가상 음성들을 조합하여 텍스트 컨텐츠로부터 가상 음성 컨텐츠를 생성할 수 있다.The
여기서, 사용자 단말(400)은 데스크톱 컴퓨터뿐만 아니라 노트북 컴퓨터, 워크스테이션, 팜톱(palmtop) 컴퓨터, UMPC(Ultra Mobile Personal Computer), 태블릿 PC, 개인 휴대 정보 단말기(Personal Digital Assistant, PDA), 웹 패드, 스마트폰, 휴대전화 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 단말기로 이루어질 수 있다. 또한, 사용자 단말(400)은 개인화된 가상 음성 합성 장치(100)에서 제공하는 전용 어플리케이션이 설치되고, 설치된 전용 어플리케이션을 통해 새로운 컨텐츠 생성을 요청할 수 있다.Here, the
통신망(500)은 구내 정보 통신망(local area network, LAN), 도시권 통신망(metropolitan area network, MAN), 광역 통신망(wide area network, WAN), 인터넷 등을 포함하는 데이터 통신망뿐만 아니라 전화망 등을 포함할 수 있고, 유선과 무선을 가리지 않으며, 어떠한 통신 방식을 사용하더라도 상관없다.The
그러면, 도 2를 참조하여 본 발명의 바람직한 실시예에 따른 개인화된 가상 음성 합성 장치에 대하여 보다 자세하게 설명한다.Next, a personalized virtual speech synthesis apparatus according to a preferred embodiment of the present invention will be described in more detail with reference to FIG. 2.
도 2는 도 1에 도시한 개인화된 가상 음성 합성 장치를 보다 자세히 설명하기 위한 블록도이다.FIG. 2 is a block diagram illustrating the personalized virtual speech synthesis apparatus shown in FIG. 1 in more detail.
도 2를 참조하면, 개인화된 가상 음성 합성 장치(100)는 저장부(110), 가상 음성 모델 생성부(130), 가상 음성 컨텐츠 생성부(150) 및 가상 음성 컨텐츠 제공부(170)를 포함할 수 있다.Referring to FIG. 2, the personalized virtual
저장부(110)는 개인화된 가상 음성 합성 장치(100)의 동작에 필요한 프로그램 및 데이터를 저장하는 역할을 수행하며, 프로그램 영역과 데이터 영역으로 구분될 수 있다. 여기서, 프로그램 영역은 개인화된 가상 음성 합성 장치(100)의 전반적인 동작을 제어하는 프로그램, 개인화된 가상 음성 합성 장치(100)를 부팅시키는 운영체제(Operating System, OS), 텍스트 컨텐츠 저장, 음성 데이터 저장, 가상 음성 모델 생성, 가상 음성 컨텐츠 생성 등과 같은 개인화된 가상 음성 합성 장치(100)의 동작에 필요한 응용 프로그램 등을 저장할 수 있다. 그리고, 데이터 영역은 개인화된 가상 음성 합성 장치(100)의 사용에 따라 발생하는 데이터가 저장되는 영역으로서, 텍스트 컨텐츠, 음성 데이터, 가상 음성 모델, 가상 음성 컨텐츠 등을 저장할 수 있다.The
가상 음성 모델 생성부(130)는 음성 제공 단말(300)로부터 제공받은 음성 데이터를 기반으로 가상 음성 모델을 생성할 수 있다. 여기서, 가상 음성 모델은 텍스트 데이터를 입력 데이터로 하고, 음성 데이터를 출력 데이터로 한다. 예컨대, 가상 음성 모델은 텍스트를 입력받으면, 해당 음성 제공자의 목소리로 입력받은 텍스트를 읽는 음성인 가상 음성 데이터를 출력할 수 있다.The virtual
즉, 가상 음성 모델 생성부(130)는 음성 제공 단말(300)로부터 제공받은 음성 데이터를 기반으로 머신 러닝 알고리즘을 적용하여 미리 설정된 유형으로 음성 데이터를 분류할 수 있다. 여기서, 미리 설정된 유형은 성별, 감정, 발화 속도 등을 말한다.That is, the virtual
보다 자세히 설명하면, 음성 제공자가 녹음한 음성 파일에 대해 머신 러닝 알고리즘을 구현한 음성 분류기를 통해서 성별, 감정, 발화 속도 등에 대한 분류 작업을 수행하여 각 음성 파일에 태그 정보를 설정할 수 있다. 이를 통해 학습에 필요한 클러스터링 방법에 사용되어 학습 최적화에 도움을 줄 수 있다.In more detail, tag information may be set for each voice file by performing classification on gender, emotion, and speech rate through a voice classifier implementing a machine learning algorithm on the voice file recorded by the voice provider. This can be used for clustering methods for learning to help optimize learning.
그리고, 가상 음성 모델 생성부(130)는 음성 제공 단말(300)로부터 제공받은 음성 데이터를 기반으로 음성 특징을 추출할 수 있다. 예컨대, 가상 음성 모델 생성부(130)는 Linear spectrogram, MFCC(Mel Frequency Cepstral Coefficient) 등을 이용하여 음성 특징을 추출할 수 있다.The virtual
보다 자세히 설명하면, 음성 제공자가 녹음한 개별 음성 파일별로 음성 Spectrogram, 텍스트 레이블 등을 추출하고, 가상 음성 모델의 입력 정보에 맞게 음성 특징들을 변환할 수 있다.In more detail, voice spectrograms, text labels, etc. may be extracted for each voice file recorded by a voice provider, and voice features may be converted according to input information of a virtual voice model.
그런 다음, 가상 음성 모델 생성부(130)는 유형이 분류되고 음성 특징이 추출된 음성 데이터를 저장부(110)에 저장하고, 저장부(110)에 저장된 음성 데이터를 기반으로 기계 학습하여 가상 음성 모델을 생성할 수 있다. 예컨대, 가상 음성 모델 생성부(130)는 음성 데이터와 이에 대응되는 텍스트 파일을 학습 데이터로 하는 기계 학습을 수행하여 해당 음성 제공자에 대응되는 가상 음성 모델을 생성할 수 있다.Then, the virtual
위와 같은 동작을 음성 데이터를 제공하는 음성 제공 단말(300)별로 반복적으로 수행함으로써, 복수의 음성 제공자 각각에 대응되는 복수의 가상 음성 모델을 구축할 수 있다.By repeatedly performing the above operation for each
한편, 가상 음성 모델 생성부(130)는 음성 제공 단말(300)로부터 제공받은 음성 데이터 중에서 획득된 사용 가능 음성 데이터를 기반으로 가상 음성 모델을 생성할 수도 있다.Meanwhile, the virtual
즉, 가상 음성 모델 생성부(130)는 음성 제공 단말(300)로부터 제공받은 음성 데이터 중에서 사용 가능 음성 데이터를 획득할 수 있다. 예컨대, 가상 음성 모델 생성부(130)는 음성 데이터의 노이즈, 발음의 정확도 등의 품질을 평가하여 음성 데이터 중에서 사용 가능 음성 데이터를 획득할 수 있다.That is, the virtual
보다 자세히 설명하면, 음성 제공자가 녹음한 음성 파일에 대해 음성 특징을 추출해서 발화 여부를 체크하고, 발화 내용이 있는 경우에 대해서 음성 인식기를 사용하여 획득한 텍스트와 원본 텍스트를 서로 비교하여 측정한 유사도를 통해 개별 음성 파일의 유효성을 체크할 수 있다. 아울러, 텍스트를 대상으로 음성 합성기를 사용하여 획득한 음성의 유사도도 크로스 체크하여 음성 파일의 사용 가능 여부를 수행할 수 있다.In detail, the voice provider extracts voice features from the recorded voice file to check whether the voice is spoken, and the similarity measured by comparing the original text with the text obtained using the voice recognizer for the case where the speech is present. You can check the validity of individual voice files. In addition, it is possible to cross-check the similarity of the speech obtained using the speech synthesizer with respect to the text to perform the availability of the speech file.
그리고, 가상 음성 모델 생성부(130)는 사용 가능 음성 데이터를 기반으로 머신 러닝 알고리즘을 적용하여 미리 설정된 유형으로 분류하고, 사용 가능 음성 데이터를 기반으로 음성 특징을 추출할 수 있다.In addition, the virtual
그런 다음, 가상 음성 모델 생성부(130)는 유형이 분류되고 음성 특징이 추출된 사용 가능 음성 데이터를 저장부(110)에 저장하고, 저장부(110)에 저장된 사용 가능 음성 데이터를 기반으로 기계 학습하여 가상 음성 모델을 생성할 수 있다.Then, the virtual voice
가상 음성 컨텐츠 생성부(150)는 저장부(110)에 저장된 텍스트 컨텐츠 중에서 사용자 단말(400)에 의해 선택된 텍스트 컨텐츠 및 사용자 단말(400)에 의해 선택된 가상 음성을 기반으로, 가상 음성 모델을 이용하여 가상 음성 컨텐츠를 생성할 수 있다.The virtual voice
즉, 가상 음성 컨텐츠 생성부(150)는 사용자 단말(400)에 의해 선택된 텍스트 컨텐츠를 기반으로 사용자 단말(400)에 의해 선택된 가상 음성을 선택된 텍스트 컨텐츠를 구성하는 배역에 할당할 수 있다.That is, the virtual voice
그리고, 가상 음성 컨텐츠 생성부(150)는 배역에 할당된 가상 음성을 기반으로 가상 음성 모델을 이용하여 선택된 텍스트 컨텐츠에 대응하는 가상 음성 컨텐츠를 생성할 수 있다.The virtual
예컨대, 텍스트 컨텐츠를 구성하는 각 세부 글에 대한 배역을 지정하고, 각각의 배역에 합성하고자 하는 가상 음성을 선택할 수 있다. 그러면, 가상 음성 컨텐츠 생성부(150)는 선택된 가상 음성들에 대응되는 가상 음성 모델을 이용하여 각 세부 글에 대응되는 가상 음성 데이터를 획득하고, 획득된 가상 음성 데이터들을 합성하여 선택된 텍스트 컨텐츠에 대응되는 가상 음성 컨텐츠를 생성할 수 있다.For example, a cast for each detail constituting text content may be designated, and a virtual voice to be synthesized in each cast may be selected. Then, the virtual voice
가상 음성 컨텐츠 제공부(170)는 생성된 가상 음성 컨텐츠를 저장부(110)에 저장하고, 사용자 단말(400)로 가상 음성 컨텐츠를 제공할 수 있다.The virtual voice
그러면, 도 3을 참조하여 본 발명의 바람직한 실시예에 따른 개인화된 가상 음성 합성 방법에 대하여 설명한다.Next, a personalized virtual speech synthesis method according to a preferred embodiment of the present invention will be described with reference to FIG. 3.
도 3은 본 발명의 바람직한 실시예에 따른 개인화된 가상 음성 합성 방법을 설명하기 위한 흐름도이다.3 is a flowchart illustrating a personalized virtual speech synthesis method according to a preferred embodiment of the present invention.
도 3을 참조하면, 개인화된 가상 음성 합성 장치(100)는 컨텐츠 제공 단말(200)로부터 제공받은 텍스트 컨텐츠를 저장한다(S110). 여기서, 텍스트 컨텐츠는 소설, 시, 수필, 문학 등과 같은 텍스트로 이루어진 다양한 유형의 글을 말한다.Referring to FIG. 3, the personalized virtual
그리고, 개인화된 가상 음성 합성 장치(100)는 음성 제공 단말(300)로부터 제공받은 음성 데이터를 기반으로 가상 음성 모델을 생성한다(S130). 여기서, 가상 음성 모델은 텍스트 데이터를 입력 데이터로 하고, 음성 데이터를 출력 데이터로 한다. 예컨대, 가상 음성 모델은 텍스트를 입력받으면, 해당 음성 제공자의 목소리로 입력받은 텍스트를 읽는 음성인 가상 음성 데이터를 출력할 수 있다.The personalized virtual
이후, 개인화된 가상 음성 합성 장치(100)는 사용자 단말(400)에 의해 선택된 텍스트 콘텐츠와 가상 음성을 기반으로, 가상 음성 모델을 이용하여 가상 음성 컨텐츠를 생성한다(S150).Thereafter, the personalized virtual
그런 다음, 개인화된 가상 음성 합성 장치(100)는 생성된 가상 음성 컨텐츠를 저장하고 사용자 단말(400)에 생성된 가상 음성 컨텐츠를 제공한다(S170).Then, the personalized virtual
그러면, 도 4 및 도 5를 참조하여 본 발명의 바람직한 실시예에 따른 가상 음성 모델 생성 단계에 대하여 보다 자세하게 설명한다.4 and 5 will be described in more detail with respect to the virtual voice model generation step according to a preferred embodiment of the present invention.
도 4는 도 3에 도시한 가상 음성 모델 생성 단계의 일례를 설명하기 위한 흐름도이다.4 is a flowchart for explaining an example of the virtual voice model generation step shown in FIG. 3.
도 4를 참조하면, 개인화된 가상 음성 합성 장치(100)는 음성 제공 단말(300)로부터 제공받은 음성 데이터를 기반으로 머신 러닝 알고리즘을 적용하여 미리 설정된 유형으로 분류할 수 있다(S131a). 여기서, 미리 설정된 유형은 성별, 감정, 발화 속도 등을 말한다.Referring to FIG. 4, the personalized virtual
그리고, 개인화된 가상 음성 합성 장치(100)는 음성 제공 단말(300)로부터 제공받은 음성 데이터를 기반으로 음성 특징을 추출할 수 있다(S133a). 예컨대, 개인화된 가상 음성 합성 장치(100)는 Linear spectrogram, MFCC(Mel Frequency Cepstral Coefficient) 등을 이용하여 음성 특징을 추출할 수 있다.In addition, the personalized virtual
그런 다음, 개인화된 가상 음성 합성 장치(100)는 유형이 분류되고 음성 특징이 추출된 음성 데이터를 저장할 수 있다(S135a).Then, the personalized virtual
그리고, 개인화된 가상 음성 합성 장치(100)는 저장된 음성 데이터를 기반으로 기계 학습하여 가상 음성 모델을 생성할 수 있다(S137a). 예컨대, 개인화된 가상 음성 합성 장치(100)는 음성 데이터와 이에 대응되는 텍스트 파일을 학습 데이터로 하는 기계 학습을 수행하여 해당 음성 제공자에 대응되는 가상 음성 모델을 생성할 수 있다.The personalized virtual
위와 같은 단계를 음성 데이터를 제공하는 음성 제공 단말(300)별로 반복적으로 수행함으로써, 복수의 음성 제공자 각각에 대응되는 복수의 가상 음성 모델을 생성할 수 있다.By repeatedly performing the above steps for each
도 5는 도 3에 도시한 가상 음성 모델 생성 단계의 다른 예를 설명하기 위한 흐름도이다.FIG. 5 is a flowchart for explaining another example of generating a virtual voice model shown in FIG. 3.
개인화된 가상 음성 합성 장치(100)는 음성 제공 단말(300)로부터 제공받은 음성 데이터 중에서 획득된 사용 가능 음성 데이터를 기반으로 가상 음성 모델을 생성할 수도 있다The personalized virtual
도 5를 참조하여 자세히 설명하면, 개인화된 가상 음성 합성 장치(100)는 음성 제공 단말(300)로부터 제공받은 음성 데이터 중에서 사용 가능 음성 데이터를 획득할 수 있다(S131b). 예컨대, 개인화된 가상 음성 합성 장치(100)는 음성 데이터의 노이즈, 발음의 정확도 등의 품질을 평가하여 음성 데이터 중에서 사용 가능 음성 데이터를 획득할 수 있다.Referring to FIG. 5 in detail, the personalized virtual
그런 다음, 개인화된 가상 음성 합성 장치(100)는 사용 가능 음성 데이터를 기반으로 머신 러닝 알고리즘을 적용하여 미리 설정된 유형으로 분류할 수 있다(S133b).Thereafter, the personalized virtual
그리고, 개인화된 가상 음성 합성 장치(100)는 사용 가능 음성 데이터를 기반으로 음성 특징을 추출할 수 있다(S135b).In operation S135b, the personalized virtual
그런 다음, 개인화된 가상 음성 합성 장치(100)는 유형이 분류되고 음성 특징이 추출된 사용 가능 음성 데이터를 저장할 수 있다(S137b).Then, the personalized virtual
그리고, 개인화된 가상 음성 합성 장치(100)는 저장된 사용 가능 음성 데이터를 기반으로 기계 학습하여 가상 음성 모델을 생성할 수 있다(S139b).The personalized virtual
그러면, 도 6을 참조하여 본 발명의 바람직한 실시예에 따른 가상 음성 컨텐츠 생성 단계에 대하여 보다 자세하게 설명한다.Next, the virtual voice content generation step according to the preferred embodiment of the present invention will be described in more detail with reference to FIG. 6.
도 6은 도 3에 도시한 가상 음성 컨텐츠 생성 단계를 설명하기 위한 흐름도이다.FIG. 6 is a flowchart for explaining a virtual voice content generation step shown in FIG. 3.
도 6을 참조하면, 개인화된 가상 음성 합성 장치(100)는 사용자 단말(400)에 의해 선택된 텍스트 컨텐츠를 기반으로 사용자 단말(400)에 의해 선택된 가상 음성을 선택된 텍스트 컨텐츠를 구성하는 배역에 할당할 수 있다(S151).Referring to FIG. 6, the personalized virtual
그런 다음, 개인화된 가상 음성 합성 장치(100)는 배역에 할당된 가상 음성을 기반으로 가상 음성 모델을 이용하여 선택된 텍스트 컨텐츠에 대응하는 가상 음성 컨텐츠를 생성할 수 있다(S153).Then, the personalized virtual
예컨대, 텍스트 컨텐츠를 구성하는 각 세부 글에 대한 배역을 지정하고, 각각의 배역에 합성하고자 하는 가상 음성을 선택할 수 있다. 그러면, 개인화된 가상 음성 합성 장치(100)는 선택된 가상 음성들에 대응되는 가상 음성 모델을 이용하여 각 세부 글에 대응되는 가상 음성 데이터를 획득하고, 획득된 가상 음성 데이터들을 합성하여 선택된 텍스트 컨텐츠에 대응되는 가상 음성 컨텐츠를 생성할 수 있다.For example, a cast for each detail constituting text content may be designated, and a virtual voice to be synthesized in each cast may be selected. Then, the personalized virtual
본 발명은 또한 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터로 읽을 수 있는 기록 매체는 컴퓨터에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 롬(ROM), 램(RAM), 씨디-롬(CD-ROM), 자기 테이프, 플로피 디스크, 광 데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 유무선 통신망으로 연결된 컴퓨터 장치에 분산되어 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.The present invention can also be embodied as computer readable code on a computer readable recording medium. The computer-readable recording medium includes all kinds of recording devices in which data that can be read by a computer is stored. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disks, optical data storage devices, and the like. The computer-readable recording medium can also be distributed over computer devices connected over a wired or wireless communication network so that the computer-readable code is stored and executed in a distributed fashion.
이상에서 본 발명의 바람직한 실시예에 대하여 상세하게 설명하였지만 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 다음의 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.Although the preferred embodiments of the present invention have been described in detail above, the present invention is not limited to the specific preferred embodiments described above, and the technical field to which the present invention pertains without departing from the gist of the present invention claimed in the following claims. Anyone of ordinary skill in the art that various modifications can be made, of course, such changes are within the scope of the claims.
100: 개인화된 가상 음성 합성 장치,
110: 저장부,
130: 가상 음성 모델 생성부,
150: 가상 음성 컨텐츠 생성부,
170: 가상 음성 컨텐츠 제공부,
200: 컨텐츠 제공 단말,
300: 음성 제공 단말,
400: 사용자 단말,
500: 통신망100: personalized virtual speech synthesizer,
110: a storage unit, 130: a virtual voice model generator,
150: virtual voice content generation unit, 170: virtual voice content providing unit,
200: a content providing terminal, 300: a voice providing terminal,
400: user terminal, 500: communication network
Claims (11)
상기 컨텐츠 제공 단말로부터 제공받은 텍스트 컨텐츠를 저장하는 저장부;
상기 음성 제공 단말로부터 제공받은 음성 데이터를 기반으로 가상 음성 모델을 생성하는 가상 음성 모델 생성부; 및
상기 저장부에 저장된 텍스트 컨텐츠 중에서 상기 사용자 단말에 의해 선택된 텍스트 컨텐츠 및 상기 사용자 단말에 의해 선택된 가상 음성을 기반으로, 상기 가상 음성 모델을 이용하여 가상 음성 컨텐츠를 생성하는 가상 음성 컨텐츠 생성부;
를 포함하는 개인화된 가상 음성 합성 장치.A personalized virtual speech synthesis apparatus connected to a voice providing terminal, a content providing terminal, and a user terminal through a communication network,
A storage unit for storing the text content provided from the content providing terminal;
A virtual voice model generator for generating a virtual voice model based on voice data received from the voice providing terminal; And
A virtual voice content generator configured to generate virtual voice content using the virtual voice model based on the text content selected by the user terminal and the virtual voice selected by the user terminal among the text content stored in the storage unit;
Personalized virtual speech synthesis device comprising a.
상기 가상 음성 컨텐츠 생성부는, 상기 사용자 단말에 의해 선택된 텍스트 컨텐츠를 기반으로 상기 사용자 단말에 의해 선택된 가상 음성을 상기 선택된 텍스트 컨텐츠를 구성하는 배역에 할당하고, 배역에 할당된 가상 음성을 기반으로 상기 가상 음성 모델을 이용하여 상기 선택된 텍스트 컨텐츠에 대응하는 상기 가상 음성 컨텐츠를 생성하는,
개인화된 가상 음성 합성 장치.In claim 1,
The virtual voice content generating unit may allocate the virtual voice selected by the user terminal to a role constituting the selected text content based on the text content selected by the user terminal and the virtual voice based on the virtual voice assigned to the role. Generating the virtual voice content corresponding to the selected text content by using a voice model;
Personalized Virtual Speech Synthesis Device.
상기 가상 음성 모델 생성부는, 상기 음성 제공 단말로부터 제공받은 음성 데이터를 기반으로 머신 러닝 알고리즘을 적용하여 미리 설정된 유형으로 분류하고, 상기 음성 제공 단말로부터 제공받은 음성 데이터를 기반으로 음성 특징을 추출하며, 유형이 분류되고 음성 특징이 추출된 음성 데이터를 상기 저장부에 저장하고, 상기 저장부에 저장된 음성 데이터를 기반으로 기계 학습하여 상기 가상 음성 모델을 생성하는,
개인화된 가상 음성 합성 장치.In claim 1,
The virtual voice model generation unit may be classified into a predetermined type by applying a machine learning algorithm based on the voice data provided from the voice providing terminal, extracting a voice feature based on the voice data provided from the voice providing terminal, Storing the voice data whose types are classified and extracted voice features into the storage unit, and generating the virtual voice model by machine learning based on the voice data stored in the storage unit;
Personalized Virtual Speech Synthesis Device.
상기 가상 음성 모델 생성부는, 상기 음성 제공 단말로부터 제공받은 음성 데이터 중에서 사용 가능 음성 데이터를 획득하며, 상기 사용 가능 음성 데이터를 기반으로 머신 러닝 알고리즘을 적용하여 미리 설정된 유형으로 분류하고, 상기 사용 가능 음성 데이터를 기반으로 음성 특징을 추출하며, 유형이 분류되고 음성 특징이 추출된 사용 가능 음성 데이터를 상기 저장부에 저장하고, 상기 저장부에 저장된 사용 가능 음성 데이터를 기반으로 기계 학습하여 상기 가상 음성 모델을 생성하는,
개인화된 가상 음성 합성 장치.In claim 3,
The virtual voice model generation unit obtains usable voice data from the voice data provided from the voice providing terminal, classifies the voice model into a preset type by applying a machine learning algorithm based on the usable voice data, and uses the available voice data. Extracting the voice feature based on the data, storing the usable voice data in which the type is classified and the voice feature has been extracted in the storage unit, and machine learning based on the usable voice data stored in the storage unit to generate the virtual voice model. To generate,
Personalized Virtual Speech Synthesis Device.
상기 가상 음성 컨텐츠를 상기 저장부에 저장하고, 상기 사용자 단말로 상기 가상 음성 컨텐츠를 제공하는 가상 음성 컨텐츠 제공부;
를 더 포함하는 개인화된 가상 음성 합성 장치.In claim 1,
A virtual voice content providing unit storing the virtual voice content in the storage unit and providing the virtual voice content to the user terminal;
Personalized virtual speech synthesis device further comprising.
상기 컨텐츠 제공 단말로부터 제공받은 텍스트 컨텐츠를 저장하는 단계;
상기 음성 제공 단말로부터 제공받은 음성 데이터를 기반으로 가상 음성 모델을 생성하는 단계; 및
상기 개인화된 가상 음성 합성 장치에 저장된 텍스트 컨텐츠 중에서 상기 사용자 단말에 의해 선택된 텍스트 컨텐츠 및 상기 사용자 단말에 의해 선택된 가상 음성을 기반으로, 상기 가상 음성 모델을 이용하여 가상 음성 컨텐츠를 생성하는 단계;
를 포함하는 개인화된 가상 음성 합성 방법.A virtual speech synthesis method of a personalized virtual speech synthesis apparatus connected to a speech providing terminal, a content providing terminal, and a user terminal through a communication network,
Storing the text content provided from the content providing terminal;
Generating a virtual voice model based on voice data received from the voice providing terminal; And
Generating virtual voice content using the virtual voice model based on the text content selected by the user terminal and the virtual voice selected by the user terminal among text contents stored in the personalized virtual voice synthesis apparatus;
Personalized virtual speech synthesis method comprising a.
상기 가상 음성 컨텐츠 생성 단계는, 상기 사용자 단말에 의해 선택된 텍스트 컨텐츠를 기반으로 상기 사용자 단말에 의해 선택된 가상 음성을 상기 선택된 텍스트 컨텐츠를 구성하는 배역에 할당하고, 배역에 할당된 가상 음성을 기반으로 상기 가상 음성 모델을 이용하여 상기 선택된 텍스트 컨텐츠에 대응하는 상기 가상 음성 컨텐츠를 생성하는 것으로 이루어진,
개인화된 가상 음성 합성 방법.In claim 6,
The generating of the virtual voice content may include assigning a virtual voice selected by the user terminal to a role constituting the selected text content based on the text content selected by the user terminal, and based on the virtual voice assigned to the role. Generating the virtual voice content corresponding to the selected text content using a virtual voice model,
Personalized virtual speech synthesis method.
상기 가상 음성 모델 생성 단계는, 상기 음성 제공 단말로부터 제공받은 음성 데이터를 기반으로 머신 러닝 알고리즘을 적용하여 미리 설정된 유형으로 분류하고, 상기 음성 제공 단말로부터 제공받은 음성 데이터를 기반으로 음성 특징을 추출하며, 유형이 분류되고 음성 특징이 추출된 음성 데이터를 상기 개인화된 가상 음성 합성 장치에 저장하고, 상기 개인화된 가상 음성 합성 장치에 저장된 음성 데이터를 기반으로 기계 학습하여 상기 가상 음성 모델을 생성하는 것으로 이루어진,
개인화된 가상 음성 합성 방법.In claim 6,
The virtual voice model generation step may be classified into a predetermined type by applying a machine learning algorithm based on the voice data provided from the voice providing terminal, and extracting a voice feature based on the voice data provided from the voice providing terminal. And storing the voice data classified in the type and extracted the voice feature in the personalized virtual speech synthesis apparatus, and machine learning based on the voice data stored in the personalized virtual speech synthesis apparatus to generate the virtual speech model. ,
Personalized virtual speech synthesis method.
상기 가상 음성 모델 생성 단계는, 상기 음성 제공 단말로부터 제공받은 음성 데이터 중에서 사용 가능 음성 데이터를 획득하며, 상기 사용 가능 음성 데이터를 기반으로 머신 러닝 알고리즘을 적용하여 미리 설정된 유형으로 분류하고, 상기 사용 가능 음성 데이터를 기반으로 음성 특징을 추출하며, 유형이 분류되고 음성 특징이 추출된 사용 가능 음성 데이터를 상기 개인화된 가상 음성 합성 장치에 저장하고, 상기 개인화된 가상 음성 합성 장치에 저장된 사용 가능 음성 데이터를 기반으로 기계 학습하여 상기 가상 음성 모델을 생성하는 것으로 이루어진,
개인화된 가상 음성 합성 방법.In claim 8,
The generating of the virtual voice model may include acquiring usable voice data from among voice data provided from the voice providing terminal, classifying the voice model into a preset type by applying a machine learning algorithm based on the usable voice data, and using the available voice data. Extracting the voice feature based on the voice data, storing the usable voice data of which the type is classified and the voice feature is extracted in the personalized virtual voice synthesis device, and storing the usable voice data stored in the personalized virtual voice synthesis device. Generating the virtual speech model by machine learning based on the
Personalized virtual speech synthesis method.
상기 가상 음성 컨텐츠를 상기 개인화된 가상 음성 합성 장치에 저장하고, 상기 사용자 단말로 상기 가상 음성 컨텐츠를 제공하는 단계;
를 더 포함하는 개인화된 가상 음성 합성 방법.In claim 6,
Storing the virtual voice content in the personalized virtual voice synthesizing apparatus and providing the virtual voice content to the user terminal;
Personalized virtual speech synthesis method further comprising.
A computer program stored in a computer readable recording medium for executing the personalized virtual speech synthesis method according to any one of claims 6 to 10 on a computer.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180091710A KR20200016516A (en) | 2018-08-07 | 2018-08-07 | Apparatus and method for synthesizing personalized virtual voice |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180091710A KR20200016516A (en) | 2018-08-07 | 2018-08-07 | Apparatus and method for synthesizing personalized virtual voice |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20200016516A true KR20200016516A (en) | 2020-02-17 |
Family
ID=69670717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180091710A KR20200016516A (en) | 2018-08-07 | 2018-08-07 | Apparatus and method for synthesizing personalized virtual voice |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20200016516A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220001140A (en) * | 2020-06-29 | 2022-01-05 | 김민곤 | System to provide a service for reciting poetry based on artificial intelligence |
KR20220040813A (en) | 2020-09-24 | 2022-03-31 | 장원준 | Computing Detection Device for AI Voice |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020000053A (en) | 2000-06-20 | 2002-01-04 | 배한영 | Text file of voice file by change internet site |
-
2018
- 2018-08-07 KR KR1020180091710A patent/KR20200016516A/en not_active Application Discontinuation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020000053A (en) | 2000-06-20 | 2002-01-04 | 배한영 | Text file of voice file by change internet site |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220001140A (en) * | 2020-06-29 | 2022-01-05 | 김민곤 | System to provide a service for reciting poetry based on artificial intelligence |
KR20220040813A (en) | 2020-09-24 | 2022-03-31 | 장원준 | Computing Detection Device for AI Voice |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7106680B2 (en) | Text-to-Speech Synthesis in Target Speaker's Voice Using Neural Networks | |
KR102581346B1 (en) | Multilingual speech synthesis and cross-language speech replication | |
WO2017190674A1 (en) | Method and device for processing audio data, and computer storage medium | |
WO2021083071A1 (en) | Method, device, and medium for speech conversion, file generation, broadcasting, and voice processing | |
CN107945786A (en) | Phoneme synthesizing method and device | |
CN105609097A (en) | Speech synthesis apparatus and control method thereof | |
US8380508B2 (en) | Local and remote feedback loop for speech synthesis | |
CN105957515B (en) | Speech synthesizing method, speech synthesizing device and the medium for storing sound synthesis programs | |
WO2022178969A1 (en) | Voice conversation data processing method and apparatus, and computer device and storage medium | |
US11545136B2 (en) | System and method using parameterized speech synthesis to train acoustic models | |
CN101901598A (en) | Humming synthesis method and system | |
KR20200027331A (en) | Voice synthesis device | |
CN113327574B (en) | Speech synthesis method, device, computer equipment and storage medium | |
Panda et al. | A waveform concatenation technique for text-to-speech synthesis | |
KR20200016516A (en) | Apparatus and method for synthesizing personalized virtual voice | |
JP2020042131A (en) | Information processor, information processing method and program | |
Panda et al. | An efficient model for text-to-speech synthesis in Indian languages | |
CN113421584B (en) | Audio noise reduction method, device, computer equipment and storage medium | |
Mukherjee et al. | A Bengali speech synthesizer on Android OS | |
WO2023215222A1 (en) | Speaker embeddings for improved automatic speech recognition | |
CN113555003B (en) | Speech synthesis method, device, electronic equipment and storage medium | |
Basu et al. | Real time challenges to handle the telephonic speech recognition system | |
US20210280167A1 (en) | Text to speech prompt tuning by example | |
Hsu et al. | Speaker-dependent model interpolation for statistical emotional speech synthesis | |
JP2023530970A (en) | A system for voice-to-text tagging of rich transcripts of human speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |