KR102267651B1 - Method and apparatus for providing audio content - Google Patents

Method and apparatus for providing audio content Download PDF

Info

Publication number
KR102267651B1
KR102267651B1 KR1020190091177A KR20190091177A KR102267651B1 KR 102267651 B1 KR102267651 B1 KR 102267651B1 KR 1020190091177 A KR1020190091177 A KR 1020190091177A KR 20190091177 A KR20190091177 A KR 20190091177A KR 102267651 B1 KR102267651 B1 KR 102267651B1
Authority
KR
South Korea
Prior art keywords
sound source
audio content
title
content
type
Prior art date
Application number
KR1020190091177A
Other languages
Korean (ko)
Other versions
KR20210012815A (en
Inventor
박종세
김봉완
김진영
송나혜
Original Assignee
주식회사 카카오
주식회사 카카오엔터프라이즈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 카카오, 주식회사 카카오엔터프라이즈 filed Critical 주식회사 카카오
Priority to KR1020190091177A priority Critical patent/KR102267651B1/en
Publication of KR20210012815A publication Critical patent/KR20210012815A/en
Application granted granted Critical
Publication of KR102267651B1 publication Critical patent/KR102267651B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Abstract

오디오 컨텐츠 제공 방법 및 장치가 개시된다. 일 실시예에 따른 오디오 컨텐츠 제공 방법은 오디오 컨텐츠의 재생 요청을 수신하는 단계, 오디오 컨텐츠에 대응하는 컨텐츠 음원을 획득하는 단계, 오디오 컨텐츠의 유형에 기초하여 사용자에 대응하는 호칭 음원을 생성하는 단계 및 컨텐츠 음원과 호칭 음원을 결합함으로써 오디오 컨텐츠를 제공하는 단계를 포함한다.A method and apparatus for providing audio content are disclosed. A method of providing audio content according to an embodiment includes the steps of: receiving a request for reproduction of audio content; obtaining a content sound source corresponding to the audio content; generating a title sound source corresponding to a user based on the type of audio content; and providing audio content by combining the content sound source and the title sound source.

Description

오디오 컨텐츠 제공 방법 및 장치{METHOD AND APPARATUS FOR PROVIDING AUDIO CONTENT}Method and apparatus for providing audio content {METHOD AND APPARATUS FOR PROVIDING AUDIO CONTENT}

아래 실시예들은 오디오 컨텐츠 제공 방법 및 장치에 관한 것으로, 보다 구체적으로는 인명을 포함한 구연동화 재생 방법에 관한 것이다.The following embodiments relate to a method and apparatus for providing audio content, and more particularly, to a method for reproducing a storytelling including a person's name.

도서 내용이 단말기에 음성으로 출력되는 오디오북 서비스는 이동 단말기가 대중화됨에 따라 그 사용이 날로 증가하고 있다. 오디오북 서비스는 단말기 화면에 계속 집중하지 않고도 이동 중 이어폰을 이용하여 도서 내용을 전달받을 수 있을 뿐만 아니라, 시각 장애인들도 도서 내용을 손쉽게 획득할 수 있는 장점이 있다. 특히, 어린이들에게 말로 재미있고 실감나게 동화 내용을 들려주는 구연동화 분야에서 오디오북 서비스가 활발하게 활용되고 있다.The use of an audiobook service in which book contents are output as voice to a terminal is increasing day by day as mobile terminals become popular. The audio book service has the advantage that not only can the contents of the book be delivered using earphones while on the move without continuing to focus on the terminal screen, but also the visually impaired can easily obtain the contents of the book. In particular, audiobook services are being actively used in the field of oral fairy tales, which tell children stories in a fun and realistic way.

하지만, 종래의 오디오북 서비스는 도서 내용을 성우 또는 특정인의 음성으로 직접 녹음하고, 녹음된 음성 정보를 저장하고 있는 소정의 저장 매체를 단말기에 실행시켜 음성 정보가 출력되도록 하였다.However, in the conventional audiobook service, the contents of a book are directly recorded with the voice of a voice actor or a specific person, and a predetermined storage medium storing the recorded voice information is executed in the terminal to output the voice information.

종래의 오디오북 서비스로 제공되는 구연 동화의 경우, 단순히 하나의 음성을 그대로 녹음하여 재생하는 방법을 사용하고 있기 때문에, 대중화된 매체를 통해 이미 획일화되어 가고 있는 아이들의 다양한 정서발달을 고려하지 못하고 있다. 나아가, 종래의 구연동화는 부모가 읽어주는 동화와는 다른 느낌 때문에 어린이의 관심을 끌지 못하여 제 기능을 다하지 못하고 있는 실정이다.In the case of oral fairy tales provided by the conventional audiobook service, since a method is used to simply record and reproduce a single voice, it cannot take into account the diverse emotional development of children, which is already standardized through popular media. have. Furthermore, the conventional oral fairy tales do not attract children's attention because of a different feeling from the children's stories read by parents, and thus do not fulfill their functions.

실시예들은 단순히 오디오 컨텐츠를 재생하는 것이 아니라, 컨텐츠에 호칭 음원(예를 들어 자녀의 이름)이 결합된 오디오 컨텐츠를 제공하고자 한다.Embodiments do not simply reproduce audio content, but provide audio content in which a title sound source (eg, a child's name) is combined with the content.

실시예들은 호칭 음원이 결합된 오디오 컨텐츠 제공 시, 오디오 컨텐츠 유형에 어울리는 호칭 음원을 제공하고자 한다.Embodiments intend to provide a title sound source suitable for an audio content type when providing audio content combined with a title sound source.

실시예들은 호칭 음원이 결합된 오디오 컨텐츠 제공 시, 호칭에 결합되는 조사의 종류에 따라 호칭 음원과 컨텐츠 음원 사이의 묵음 간격을 다르게 설정하여 보다 자연스러운 오디오 컨텐츠를 제공하고자 한다.Embodiments intend to provide more natural audio content by differently setting the silence interval between the title sound source and the content sound source according to the type of irradiation combined with the title when providing audio content combined with the title sound source.

일 실시예에 따른 오디오 컨텐츠 제공 방법은 오디오 컨텐츠의 재생 요청을 수신하는 단계; 상기 오디오 컨텐츠에 대응하는 컨텐츠 음원을 획득하는 단계; 상기 오디오 컨텐츠의 유형에 기초하여 사용자에 대응하는 호칭 음원을 생성하는 단계; 및 상기 컨텐츠 음원과 상기 호칭 음원을 결합함으로써 상기 오디오 컨텐츠를 제공하는 단계를 포함한다.A method of providing audio content according to an embodiment includes: receiving a request to reproduce audio content; obtaining a content sound source corresponding to the audio content; generating a title sound source corresponding to the user based on the type of the audio content; and providing the audio content by combining the content sound source and the title sound source.

상기 오디오 컨텐츠는 상기 호칭 음원과 상기 컨텐츠 음원을 결합하기 위한 스크립트를 포함하고, 상기 오디오 컨텐츠를 제공하는 단계는 상기 스크립트에 기초하여, 상기 호칭 음원과 상기 컨텐츠 음원을 결합하는 단계를 포함할 수 있다.The audio content may include a script for combining the title sound source and the content sound source, and providing the audio content may include combining the title sound source and the content sound source based on the script. .

상기 호칭 음원을 생성하는 단계는 상기 사용자의 호칭 문자(text)를 획득하는 단계; 상기 오디오 컨텐츠의 유형에 대응하는 호칭 음원 데이터베이스에 기반하여 구축된 TTS(Text-to-Speech; TTS) 엔진을 통해, 상기 사용자의 호칭 문자에 대응하는 상기 호칭 음원을 생성하는 단계를 포함할 수 있다.The generating of the title sound source may include: obtaining a title text of the user; The method may include generating the title sound source corresponding to the title character of the user through a Text-to-Speech (TTS) engine built based on a title sound source database corresponding to the type of audio content. .

상기 호칭 음원은 상기 컨텐츠 음원의 성우 음성 및 상기 오디오 컨텐츠의 유형에 대응하는 톤에 기초하여 생성될 수 있다.The title sound source may be generated based on a voice actor voice of the content sound source and a tone corresponding to the type of the audio content.

상기 호칭 음원을 생성하는 단계는 상기 사용자의 호칭 문자가 기 등록된 경우에는, 상기 기 등록된 호칭 문자에 대응하는 호칭 음원을 생성하는 단계; 및 상기 사용자의 호칭 문자가 기 등록되지 않은 경우에는, 미리 정해진 호칭 문자에 대응하는 호칭 음원으로 생성하는 단계 중 적어도 하나를 포함할 수 있다.The generating of the title sound source may include generating a title sound source corresponding to the pre-registered title character when the title character of the user is previously registered; and when the user's title character is not previously registered, generating a title sound source corresponding to a predetermined title character.

상기 호칭 음원을 생성하는 단계는 상기 스크립트에 기초하여, 상기 호칭 음원에 결합되는 조사를 결정하는 단계; 상기 조사에 대응하는 묵음 간격을 결정하는 단계; 및 상기 사용자의 호칭 문자, 상기 조사 및 상기 묵음 간격이 포함된 호칭 음원을 생성하는 단계를 포함할 수 있다.The generating of the title sound source may include, based on the script, determining an irradiation coupled to the title sound source; determining a silence interval corresponding to the irradiation; and generating a title sound source including the user's title character, the irradiation, and the silence interval.

상기 스크립트는 상기 오디오 컨텐츠의 제목, 상기 오디오 컨텐츠의 유형, 상기 오디오 컨텐츠의 출력 순서, 상기 오디오 컨텐츠의 성우 정보, 상기 오디오 컨텐츠 내 상기 출력 순서에 따른 음원의 종류, 상기 출력 순서에 따른 상기 컨텐츠 음원의 파일명, 상기 출력 순서에 따른 상기 컨텐츠 음원의 파일 길이, 및 상기 출력 순서에 따라 상기 호칭 음원에 결합되는 조사 종류 중 적어도 하나를 포함할 수 있다.The script includes a title of the audio content, a type of the audio content, an output order of the audio content, voice actor information of the audio content, a type of sound source according to the output order in the audio content, and the content sound source according to the output order may include at least one of a file name of , a file length of the content sound source according to the output order, and a type of irradiation coupled to the title sound source according to the output order.

상기 오디오 컨텐츠의 유형은 일반 오디오 컨텐츠, 수면 오디오 컨텐츠, 외국어 오디오 컨텐츠, 액션 오디오 컨텐츠, 판소리 오디오 컨텐츠 및 뮤지컬 오디오 컨텐츠 중 적어도 하나를 포함할 수 있다.The type of the audio content may include at least one of general audio content, sleep audio content, foreign language audio content, action audio content, pansori audio content, and musical audio content.

상기 오디오 컨텐츠의 유형이 외국어 오디오 컨텐츠인 경우, 상기 호칭 음원을 생성하는 단계는 호칭 문자를 외국어 호칭 문자로 변환하는 단계; 상기 외국어 호칭 문자를 발음기호 형태로 변환하는 단계; 및 상기 발음기호 형태 및 상기 오디오 컨텐츠의 유형에 기초하여, 상기 호칭 문자를 상기 호칭 음원으로 변환하는 단계를 포함할 수 있다.When the type of the audio content is foreign language audio content, the generating of the title sound source may include: converting title characters into foreign language title characters; converting the foreign language name character into a phonetic symbol form; and converting the title character into the title sound source based on the phonetic symbol type and the type of the audio content.

일 실시예에 따른 오디오 컨텐츠 제공 서버는 오디오 컨텐츠 재생 요청을 수신하는 마이크; 상기 오디오 컨텐츠를 재생하는 스피커; 및 서버로부터 상기 오디오 컨텐츠에 대응하는 컨텐츠 음원을 획득하며, 상기 오디오 컨텐츠의 유형에 기초하여 사용자에 대응하는 호칭 음원을 생성하고, 상기 컨텐츠 음원과 상기 호칭 음원을 결합함으로써 상기 오디오 컨텐츠가 재생되도록 상기 스피커를 제어하는 프로세서를 포함한다,.An audio content providing server according to an embodiment includes a microphone for receiving an audio content reproduction request; a speaker for playing the audio content; and obtaining a content sound source corresponding to the audio content from a server, generating a title sound source corresponding to a user based on the type of the audio content, and combining the content sound source and the title sound source to reproduce the audio content It contains a processor that controls the speaker.

상기 오디오 컨텐츠는 상기 호칭 음원과 상기 컨텐츠 음원을 결합하기 위한 스크립트를 포함하고, 상기 프로세서는 상기 스크립트에 기초하여, 상기 호칭 음원과 상기 컨텐츠 음원을 결합할 수 있다.The audio content may include a script for combining the title sound source and the content sound source, and the processor may combine the title sound source and the content sound source based on the script.

상기 프로세서는 상기 사용자의 호칭 문자(text)를 획득하고, 상기 오디오 컨텐츠의 유형에 대응하는 호칭 음원 데이터베이스에 기반하여 구축된 TTS(Text-to-Speech; TTS) 엔진을 통해, 상기 사용자의 호칭 문자에 대응하는 상기 호칭 음원을 생성할 수 있다.The processor acquires the title text of the user, and through a Text-to-Speech (TTS) engine built based on a title sound source database corresponding to the type of the audio content, the title text of the user It is possible to generate the title sound source corresponding to .

상기 프로세서는 상기 사용자의 호칭 문자가 기 등록된 경우에는, 상기 기 등록된 호칭 문자에 대응하는 호칭 음원을 생성하고, 상기 사용자의 호칭 문자가 기 등록되지 않은 경우에는, 미리 정해진 호칭 문자에 대응하는 호칭 음원으로 생성할 수 있다.The processor generates a title sound source corresponding to the previously registered title character when the user's title character is pre-registered, and when the user's title character is not pre-registered, corresponding to a predetermined title character It can be created as a title sound source.

상기 프로세서는 상기 스크립트에 기초하여, 상기 호칭 음원에 결합되는 조사를 결정하고, 상기 조사에 대응하는 묵음 간격을 결정하고, 상기 사용자의 호칭 문자, 상기 조사 및 상기 묵음 간격이 포함된 호칭 음원을 생성할 수 있다.The processor, based on the script, determines the irradiation coupled to the title sound source, determines the silence interval corresponding to the irradiation, and generates a title sound source including the title character of the user, the irradiation and the silence interval can do.

상기 프로세서는 호칭 문자를 외국어 호칭 문자로 변환하고, 상기 외국어 호칭 문자를 발음기호 형태로 변환하며, 상기 발음기호 형태 및 상기 오디오 컨텐츠의 유형에 기초하여, 상기 호칭 문자를 상기 호칭 음원으로 변환할 수 있다.The processor converts a title character into a foreign-language title character, converts the foreign-language title character into a phonetic symbol form, and converts the title character into the title sound source based on the phonetic symbol form and the type of the audio content. have.

실시예들은 단순히 오디오 컨텐츠를 재생하는 것이 아니라, 컨텐츠에 호칭 음원(예를 들어 자녀의 이름)이 결합된 오디오 컨텐츠를 제공할 수 있다.Embodiments may not simply reproduce audio content, but may provide audio content in which a title sound source (eg, a child's name) is combined with the content.

실시예들은 호칭 음원이 결합된 오디오 컨텐츠 제공 시, 오디오 컨텐츠 유형에 어울리는 호칭 음원을 제공할 수 있다.In embodiments, when providing audio content combined with a title sound source, a title sound source suitable for an audio content type may be provided.

실시예들은 호칭 음원이 결합된 오디오 컨텐츠 제공 시, 호칭에 결합되는 조사의 종류에 따라 호칭 음원과 컨텐츠 음원 사이의 묵음 간격을 다르게 설정하여 보다 자연스러운 오디오 컨텐츠를 제공할 수 있다.In embodiments, when providing audio content combined with a title sound source, a more natural audio content may be provided by differently setting a silence interval between the title sound source and the content sound source according to the type of irradiation combined with the title.

도 1은 일 실시예에 따른 사용자에게 오디오 컨텐츠를 제공하는 방법을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 오디오 컨텐츠 제공 서버와 단말 사이의 관계를 개괄적으로 나타낸 도면이다.
도 3은 일 실시예에 따른 오디오 컨텐츠 제공 방법을 설명하기 위한 순서도 이다.
도 4는 일 실시예에 따른 호칭 음원을 생성하고 컨텐츠 음원을 획득하는 방법을 설명하기 위한 도면이다.
도 5는 일 실시예에 따른 영문 오디오 컨텐츠의 경우 호칭 음원을 생성하는 방법을 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 호칭에 결합되는 조사의 종류에 따라 호칭 음원과 컨텐츠 음원 사이의 묵음 간격을 다르게 설정하는 방법을 설명하기 위한 도면이다.
1 is a diagram for explaining a method of providing audio content to a user according to an exemplary embodiment.
2 is a diagram schematically illustrating a relationship between an audio content providing server and a terminal according to an exemplary embodiment.
3 is a flowchart illustrating a method of providing audio content according to an exemplary embodiment.
4 is a diagram for explaining a method of generating a title sound source and acquiring a content sound source according to an embodiment.
5 is a diagram for explaining a method of generating a title sound source in case of English audio content according to an embodiment.
6 is a diagram for explaining a method of differently setting a silence interval between a title sound source and a content sound source according to a type of irradiation combined with a title according to an embodiment.

본 명세서에서 개시되어 있는 특정한 구조적 또는 기능적 설명들은 단지 기술적 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 실시예들은 다양한 다른 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.Specific structural or functional descriptions disclosed in this specification are merely illustrative for the purpose of describing embodiments according to technical concepts, and the embodiments may be embodied in various other forms and are limited to the embodiments described herein. doesn't happen

제1 또는 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 이해되어야 한다. 예를 들어 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.Terms such as first or second may be used to describe various elements, but these terms should be understood only for the purpose of distinguishing one element from another element. For example, a first component may be termed a second component, and similarly, a second component may also be termed a first component.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~간의에"와 "바로~간의에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.When a component is referred to as being “connected” or “connected” to another component, it is understood that the other component may be directly connected or connected to the other component, but other components may exist in between. it should be On the other hand, when it is mentioned that a certain element is "directly connected" or "directly connected" to another element, it should be understood that the other element does not exist in the middle. Expressions describing the relationship between elements, for example, “between” and “between” or “neighboring to” and “directly adjacent to”, etc. should be interpreted similarly.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The singular expression includes the plural expression unless the context clearly dictates otherwise. In this specification, terms such as "comprise" or "have" are intended to designate that the described feature, number, step, operation, component, part, or combination thereof exists, and includes one or more other features or numbers, It should be understood that the possibility of the presence or addition of steps, operations, components, parts or combinations thereof is not precluded in advance.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art. Terms such as those defined in a commonly used dictionary should be interpreted as having a meaning consistent with the meaning in the context of the related art, and should not be interpreted in an ideal or excessively formal meaning unless explicitly defined in the present specification. does not

실시예들은 퍼스널 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트 폰, 텔레비전, 스마트 가전 기기, 지능형 자동차, 키오스크, 웨어러블 장치 등 다양한 형태의 제품으로 구현될 수 있다. 이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.The embodiments may be implemented in various types of products, such as personal computers, laptop computers, tablet computers, smart phones, televisions, smart home appliances, intelligent cars, kiosks, wearable devices, and the like. Hereinafter, embodiments will be described in detail with reference to the accompanying drawings. Like reference numerals in each figure indicate like elements.

도 1은 일 실시예에 따른 사용자에게 오디오 컨텐츠를 제공하는 방법을 설명하기 위한 도면이다.1 is a diagram for explaining a method of providing audio content to a user according to an exemplary embodiment.

도 1을 참조하면, 일 실시예에 따른 단말(110)은 사용자(120)에게 오디오 컨텐츠를 제공할 수 있다. 오디오 컨텐츠(audio contents)는 음성과 같은 청각적으로 생성될 수 있는 컨텐츠를 의미할 수 있다. 오디오 북(audio book)이 대표적인 오디오 컨텐츠에 해당하고, 오디오 북은 전문 성우나 저자가 직접 책을 낭독하여 눈으로 읽는 대신 귀로 들을 수 있게 제작한 디지털 컨텐츠를 의미할 수 있다. 오디오 컨텐츠는 청 각적으로 생성될 수 있는 오디오 형식(예: WAV, AIFF, AU, FLAG, MPS, 무손실 또는 손실 압축이 가능한 다른 형식) 및/또는 청각적으로 생성될 수 있는 포맷으로 변환될 수 있는 텍스트 형식(예: doc, pdf, txt, html, xml, 기타 형식)의 데이터를 포함할 수 있다. 이하, 설명의 편의를 위하여 오디오 컨텐츠는 오디오 북, 오디오 북에서도 오디오 동화를 예시로 설명하겠다. 다만, 일 실시예에 따른 오디오 컨텐츠는 오디오 동화에 국한되어 적용될 필요는 없고, 다양한 유형의 오디오 컨텐츠에 적용될 수 있다.Referring to FIG. 1 , a terminal 110 according to an embodiment may provide audio content to a user 120 . Audio contents may refer to contents that can be audibly generated, such as voice. An audio book corresponds to a representative audio content, and the audio book may refer to digital content produced so that a professional voice actor or an author directly reads a book and listens to the book instead of reading it with the eyes. Audio content may be converted to an aurally-produced audio format (e.g. WAV, AIFF, AU, FLAG, MPS, other formats capable of lossless or lossy compression) and/or an aurally-produceable format. It can contain data in text format (eg doc, pdf, txt, html, xml, other formats). Hereinafter, for convenience of description, audio content will be described as an audio book and an audio moving picture in an audio book as an example. However, the audio content according to an embodiment does not need to be limitedly applied to an audio moving picture, and may be applied to various types of audio content.

단말(110)은 사용자(120)에게 오디오 동화를 제공할 수 있다. 종래의 경우, 기 설정된 음성(예를 들어, 성우나 저자)을 wav 파일로 녹음하여 서버에 저장한 후에, 단말이 서버에 접속하여 오디오 동화 요청을 통해 녹음된 파일을 다운로드하는 방식으로 사용자(120)에게 오디오 동화를 제공하였다. 그러나 종래에 제공되고 있는 오디오 동화는 성우가 책의 내용을 낭독하는 정도의 경험만을 제공하기 때문에, 부모가 읽어주는 동화와는 느낌이 달라 어린이의 관심을 끌지 못하여 제 기능을 다하지 못하고 있다.The terminal 110 may provide an audio moving picture to the user 120 . In the conventional case, after recording a preset voice (eg, a voice actor or an author) as a wav file and storing it in the server, the terminal accesses the server and downloads the recorded file through an audio assimilation request. ) were provided with an audio fairy tale. However, since the audio fairy tale provided in the prior art provides only the experience of a voice actor reading the contents of a book, it has a different feel from a fairy tale read by parents, and thus does not attract children's attention, and thus does not fulfill its function.

일 실시예에 따른 단말(110)은 사용자(120)에게 단순히 동화 내용을 재생하는 것에서 나아가, 동화 중간 중간에 사용자(120)의 호칭(예를 들어, 아이의 이름)을 넣어서 보다 생동감 있는 오디오 동화를 제공할 수 있다.The terminal 110 according to an embodiment goes beyond simply playing the content of the moving picture to the user 120, and puts the user 120's name (for example, the child's name) in the middle of the moving picture to make the audio animation more lively. can provide

또한, 최근에는 동화의 종류가 전래동화나 명작동화 뿐만 아니라 수면동화(잠자리에서 듣는 동화), 영어동화 등 다양한 형태로 늘어나고 있다. 이러한 환경에서, 동화의 유형에 상관없이 아이의 이름을 항상 동일한 음성합성 음원을 사용한다면, 동화 부분과 아이 이름 부분의 목소리 톤이 어울리지 않는 문제가 생길 수 있다.In addition, in recent years, the types of fairy tales are increasing in various forms such as traditional fairy tales and famous fairy tales, as well as sleep fairy tales (stories heard in bed) and English fairy tales. In such an environment, regardless of the type of fairy tale, if the same voice synthesis sound source is always used for the child's name, there may be a problem that the tone of the voice of the child's name and the child's name does not match.

일 실시예에 따른 단말(110)은 사용자(120)에게 동화의 유형에 따라 알맞는 호칭 음원을 생성하고, 호칭 음원과 동화 음원이 자연스럽게 연결된 오디오 동화를 제공할 수 있다.The terminal 110 according to an embodiment may generate a title sound source suitable for the type of the moving picture to the user 120 and provide an audio moving picture in which the title sound source and the moving picture sound source are naturally connected.

도 2는 일 실시예에 따른 오디오 컨텐츠 제공 서버와 단말 사이의 관계를 개괄적으로 나타낸 도면이다.2 is a diagram schematically illustrating a relationship between an audio content providing server and a terminal according to an exemplary embodiment.

도 2를 참조하면, 일 실시예에 따른 오디오 컨텐츠 제공 서비스는 통신망(220)을 통해 통신 가능한 단말(210)과 오디오 컨텐츠 제공 서버(230)를 주체로 포함할 수 있다. 단말(210)은 도 1을 참조하여 설명한 단말(110)일 수 있고, 사용자(120)는 오디오 컨텐츠 어플리케이션이 설치된 단말(210)을 통하여 오디오 컨텐츠 제공 서버(230)에 접속할 수 있다. 도 2는 발명의 일례를 설명하기 위한 것으로 단말이나 서버가 도 2에 도시된 사항과 같이 한정되는 것은 아니다.Referring to FIG. 2 , an audio content providing service according to an exemplary embodiment may include a terminal 210 capable of communicating through a communication network 220 and an audio content providing server 230 as main subjects. The terminal 210 may be the terminal 110 described with reference to FIG. 1 , and the user 120 may access the audio content providing server 230 through the terminal 210 in which the audio content application is installed. FIG. 2 is for explaining an example of the invention, and a terminal or a server is not limited as shown in FIG. 2 .

통신망(220)은 네트워크가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들간의 근거리 무선 통신 역시 포함할 수 있다. 예를 들어, 네트워크는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.The communication network 220 may include not only a communication method using a communication network (eg, a mobile communication network, a wired Internet, a wireless Internet, a broadcasting network) that the network may include, but also short-range wireless communication between devices. For example, the network is a personal area network (PAN), a local area network (LAN), a campus area network (CAN), a metropolitan area network (MAN), a wide area network (WAN), a broadband network (BBN), the Internet, etc. may include any one or more of the networks of Further, the network may include, but is not limited to, any one or more of a network topology including, but not limited to, a bus network, a star network, a ring network, a mesh network, a star-bus network, a tree or a hierarchical network, and the like. .

단말(210)은 사용자(120)로부터 소정 명령을 수신하여 이에 해당하는 동작을 구동하는 기기로서, 오디오 출력 기능, 유무선 통신 기능 또는 이와는 다른 기능을 포함하는 디지털 기기일 수 있다. 일 실시예에 따르면, 단말(210)은 인공지능 스피커, 태블릿 PC, 스마트폰, 개인용 컴퓨터(예를 들어, 노트북 컴퓨터 등), 스마트 TV, 이동 전화기, 내비게이션, 웹 패드, PDA, 워크스테이션 등과 같이 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기를 모두 포함하는 개념일 수 있다.The terminal 210 is a device that receives a predetermined command from the user 120 and drives an operation corresponding thereto, and may be a digital device including an audio output function, a wired/wireless communication function, or other functions. According to an embodiment, the terminal 210 may include an artificial intelligence speaker, a tablet PC, a smartphone, a personal computer (eg, a notebook computer, etc.), a smart TV, a mobile phone, a navigation system, a web pad, a PDA, a workstation, etc. It may be a concept including all digital devices having a memory means and a microprocessor mounted thereon to have arithmetic capabilities.

단말(210)은 오디오 컨텐츠 제공 서버(230)와 관련된 오디오 컨텐츠 어플리케이션의 설치 및 실행이 가능한 모든 사용자 장치를 의미할 수 있다. 이때, 단말(210)은 오디오 컨텐츠 어플리케이션의 제어 하에 서비스 화면의 구성, 데이터 입력, 데이터 송수신, 데이터 저장 등 서비스 전반의 동작을 수행할 수 있다. 오디오 컨텐츠 어플리케이션은 PC 환경은 물론 모바일 환경에서 사용 가능하도록 구현되며, 독립적으로 동작하는 프로그램 형태로 구현되거나 혹은 특정 어플리케이션의 인-앱(in-app) 형태로 구성되어 상기 특정 어플리케이션 상에서 동작이 가능하도록 구현될 수 있다.The terminal 210 may refer to any user device capable of installing and executing an audio content application related to the audio content providing server 230 . In this case, the terminal 210 may perform overall service operations such as configuration of a service screen, data input, data transmission/reception, data storage, etc. under the control of the audio content application. The audio content application is implemented to be usable in the mobile environment as well as the PC environment, and is implemented in the form of a program that operates independently or is configured in the form of an in-app of a specific application so that it can be operated on the specific application. can be implemented.

단말(210)은 음향학적 신호(acoustic speech signal)를 수신하는 마이크와 오디오 컨텐츠를 재생하는 스피커를 포함하는 기기일 수 있다. 단말(210)은 음성 인식 기술을 통해 다양한 서비스(또는 기능)을 제공할 수 있다. 예를 들어, 단말(210)은 마이크를 통해 수신한 사용자(120)의 음성 명령을 바탕으로 스피커를 통해 오디오 컨텐츠를 제공할 수 있다.The terminal 210 may be a device including a microphone for receiving an acoustic speech signal and a speaker for playing audio content. The terminal 210 may provide various services (or functions) through voice recognition technology. For example, the terminal 210 may provide audio content through a speaker based on a voice command of the user 120 received through a microphone.

단말(210)은 사용자(120)에게 오디오 컨텐츠 제공 서비스와 관련된 인터페이스를 제공할 수 있다. 예를 들어, 단말(210)은 사용자(120)에게 실행 중인 오디오 컨텐츠 어플리케이션에 대응되는 직관적인 사용자 인터페이스를 제공할 수 있다. 단말(210)은 사용자(120)의 음성을 인식하여 사용자의 의도 및 목적을 달성하기 위한 동작을 파악하여 오디오 컨텐츠 어플리케이션을 단계적으로 실행시킬 수 있는 인터페이스를 제공할 수 있다. 또는, 단말(210)은 사용자(120)로부터 의도 및 목적을 달성하기 위한 동작을 입력 받기 위한 인터페이스(예를 들어, 사용자(120)로부터 오디오 컨텐츠를 선택 받기 위해 오디오 컨텐츠 목록을 제공하는 인터페이스) 및 입력에 따른 오디오 컨텐츠 어플리케이션의 동작 과정을 사용자(120)에게 시각적으로 표시하는 인터페이스를 제공할 수 있다. 인터페이스는 단말(210) 자체적으로 제공하는 것일 수 있다. 예를 들면, 단말(210)의 OS(Operation System)에 의해 제공되는 것일 수도 있고, 단말(210)에 설치된 어플리케이션에 의해 제공되는 것일 수도 있다. 또한, 인터페이스는 오디오 컨텐츠 제공 서버(230)에 의해 제공되는 것일 수도 있으며, 단말(210)은 단순히 오디오 컨텐츠 제공 서버(230)로부터 제공되는 인터페이스를 수신하여 표시하기만 할 수도 있다.The terminal 210 may provide the user 120 with an interface related to an audio content providing service. For example, the terminal 210 may provide the user 120 with an intuitive user interface corresponding to the audio content application being executed. The terminal 210 may provide an interface capable of executing the audio content application step by step by recognizing the voice of the user 120 to identify an operation for achieving the user's intention and purpose. Alternatively, the terminal 210 is an interface for receiving an operation for achieving an intention and purpose from the user 120 (eg, an interface that provides an audio content list to receive audio content selection from the user 120) and An interface for visually displaying the operation process of the audio content application according to the input to the user 120 may be provided. The interface may be provided by the terminal 210 itself. For example, it may be provided by an OS (Operation System) of the terminal 210 or may be provided by an application installed in the terminal 210 . Also, the interface may be provided by the audio content providing server 230 , and the terminal 210 may simply receive and display the interface provided from the audio content providing server 230 .

아래에서 상세하게 설명하겠으나, 실시예들에 따른 오디오 컨텐츠 제공 장치는 단말(210) 또는 오디오 컨텐츠 제공 서버(230)에 구비될 수 있고, 오디오 컨텐츠 제공 장치는 컨텐츠의 유형에 따라 알맞는 호칭 음원을 생성하고, 호칭 음원과 컨텐츠 음원이 자연스럽게 연결된 오디오 컨텐츠를 제공할 수 있다.As will be described in detail below, the audio content providing apparatus according to embodiments may be provided in the terminal 210 or the audio content providing server 230 , and the audio content providing apparatus selects an appropriate title sound source according to the type of content. It is possible to provide audio content in which the title sound source and the content sound source are naturally connected.

도 3은 일 실시예에 따른 오디오 컨텐츠 제공 방법을 설명하기 위한 순서도 이다.3 is a flowchart illustrating a method of providing audio content according to an exemplary embodiment.

도 3을 참조하면, 일 실시예에 따른 단계들(310 내지 330)은 도 2를 참조하여 전술된 오디오 컨텐츠 제공 장치에 의해 수행될 수 있다. 오디오 컨텐츠 제공 장치는 하나 또는 그 이상의 하드웨어 모듈, 하나 또는 그 이상의 소프트웨어 모듈, 또는 이들의 다양한 조합에 의하여 구현될 수 있다. 전술한 것과 같이 오디오 컨텐츠 제공 장치는 서버 혹은 단말에 구비될 수 있고, 설명의 편의를 위하여 오디오 컨텐츠 제공 장치가 서버에 구비되는 것을 가정하고 도 3의 실시예를 설명한다.Referring to FIG. 3 , steps 310 to 330 according to an exemplary embodiment may be performed by the audio content providing apparatus described above with reference to FIG. 2 . The audio content providing apparatus may be implemented by one or more hardware modules, one or more software modules, or various combinations thereof. As described above, the audio content providing apparatus may be provided in a server or a terminal, and for convenience of explanation, it is assumed that the audio content providing apparatus is provided in the server, and the embodiment of FIG. 3 will be described.

단계(310)에서, 오디오 컨텐츠 제공 장치는 오디오 컨텐츠의 재생 요청을 수신한다. 단말은 사용자로부터 오디오 동화 재생 명령을 수신할 수 있고, 오디오 컨텐츠 제공 장치는 단말로부터 오디오 컨텐츠 재생 요청을 수신할 수 있다. 예를 들어, 단말은 사용자에게 오디오 동화 리스트를 제공할 수 있고, 사용자로부터 재생될 오디오 동화를 입력 받을 수 있다. In step 310, the audio content providing apparatus receives a request to reproduce the audio content. The terminal may receive an audio moving image reproduction command from the user, and the audio content providing apparatus may receive an audio content reproduction request from the terminal. For example, the terminal may provide an audio moving picture list to the user and may receive an audio moving picture to be played back from the user.

오디오 컨텐츠의 유형이란 임의의 기준에 따라 나뉘어진 오디오 컨텐츠 분류를 의미하는 것으로, 예로 들어, 오디오 동화는 일반동화, 수면동화, 외국어동화, 액션동화, 판소리동화 및 뮤지컬동화로 분류될 수 있다. 오디오 컨텐츠 유형은 오디오 컨텐츠 스타일로 지칭될 수도 있다. 오디오 컨텐츠 유형과 구별되는 개념으로 오디오 컨텐츠 제목이 있을 수 있다. 오디오 컨텐츠 제목은 백설공주, 신데렐라와 같이 오디오 컨텐츠 각각에 부여된 고유의 이름일 수 있다. 하나의 백설공주 오디오 컨텐츠는 백설공주 일반동화, 백설공주 수면동화, 백설공주 영어동화와 같은 여러 유형을 포함할 수 있다.The type of audio content means the classification of audio content divided according to arbitrary criteria. For example, audio fairy tales may be classified into general fairy tales, sleep fairy tales, foreign language fairy tales, action fairy tales, pansori fairy tales, and musical fairy tales. An audio content type may also be referred to as an audio content style. As a concept distinct from the audio content type, there may be an audio content title. The audio content title may be a unique name given to each audio content, such as Snow White and Cinderella. One Snow White audio content may include several types, such as a Snow White general fairy tale, a Snow White sleep fairy tale, and a Snow White English fairy tale.

단말은 사용자로부터 재생하고자 하는 오디오 컨텐츠와 함께 그 유형도 함께 입력 받을 수 있다. 예를 들어, 단말은 사용자로부터 재생하고자 하는 오디오 컨텐츠와 그 유형을 한번에 선택 받거나, 또는 오디오 컨텐츠를 선택 받은 후 사용자에게 오디오 컨텐츠의 유형 리스트를 제공하여 사용자로부터 오디오 컨텐츠 유형을 선택 받을 수도 있다.The terminal may receive input from the user along with the type of audio content to be reproduced. For example, the terminal may receive a selection of the audio content and its type to be reproduced from the user at once, or may provide the user with a list of audio content types after receiving the selection of the audio content to receive the selection of the audio content type from the user.

단말은 마이크를 구비할 수 있고, 마이크를 통해 오디오 컨텐츠 재생 요청을 수신할 수도 있다. 예를 들어, 단말은 인공지능 스피커일 수 있고, 이 경우 인공지능 스피커는 사용자로부터 "백설공주 수면동화 읽어줘"와 같은 음성 신호를 수신할 수 있다. 사용자로부터 오디오 컨텐츠 재생 요청을 수신한 단말은, 오디오 컨텐츠 제공 장치로 오디오 컨텐츠 재생 요청을 전달할 수 있다.The terminal may include a microphone, and may receive an audio content reproduction request through the microphone. For example, the terminal may be an artificial intelligence speaker, and in this case, the artificial intelligence speaker may receive a voice signal such as "Read Snow White's sleep fairy tale" from the user. Upon receiving the audio content reproduction request from the user, the terminal may transmit the audio content reproduction request to the audio content providing apparatus.

사용자가 오디오 컨텐츠의 유형을 선택하지 않는 경우에는, 오디오 컨텐츠 제공 장치는 사용자가 미리 정해진 유형을 선택한 것으로 간주할 수 있다. 예를 들어, 사용자가 오디오 동화의 유형을 선택하지 않는 경우 오디오 컨텐츠 제공 장치는 사용자가 일반동화를 선택한 것으로 간주할 수 있다.When the user does not select the type of audio content, the audio content providing apparatus may consider that the user has selected a predetermined type. For example, when the user does not select a type of an audio moving picture, the audio content providing apparatus may consider that the user selects a general moving picture.

단계(320)에서, 오디오 컨텐츠 제공 장치는 오디오 컨텐츠의 유형에 대응하는 컨텐츠 음원을 획득할 수 있다. 컨텐츠 음원은 오디오 컨텐츠 내용에 대응하는 음원일 수 있다. 컨텐츠 음원은 성우 또는 특정인의 목소리로 녹음되어 컨텐츠 음원 데이터베이스에 저장될 수 있고, 컨텐츠 음원 데이터베이스는 오디오 컨텐츠 유형 별로 구축될 수 있다. 오디오 컨텐츠 제공 장치는 컨텐츠 음원 데이터베이스에서 오디오 컨텐츠의 유형에 대응하는 데이터베이스를 선택할 수 있고, 선택된 데이터베이스에서 컨텐츠 음원을 획득할 수 있다.In operation 320, the audio content providing apparatus may acquire a content sound source corresponding to the type of audio content. The content sound source may be a sound source corresponding to the audio content content. The content sound source may be recorded with the voice of a voice actor or a specific person and stored in the content sound source database, and the content sound source database may be built for each type of audio content. The audio content providing apparatus may select a database corresponding to the type of audio content from the content sound source database, and may acquire the content sound source from the selected database.

단계(330)에서, 오디오 컨텐츠 제공 장치는 오디오 컨텐츠 유형에 기초하여 사용자에 대응하는 호칭 음원을 생성한다. 호칭 음원은 보다 생동감 있는 오디오 컨텐츠 제공을 위해 오디오 컨텐츠 중간 중간에 삽입되는 사용자의 호칭(예를 들어, 이름이나 별명)에 대응하는 음원일 수 있다. 예를 들어, 컨텐츠 음원은 백설공주 동화 내용에 대응하는 음원이고, 호칭 음원은 "지원아"와 같은 아이의 이름에 대응하는 음원일 수 있다.In step 330, the audio content providing apparatus generates a title sound source corresponding to the user based on the audio content type. The title sound source may be a sound source corresponding to a user's title (eg, name or nickname) inserted in the middle of audio content to provide more lively audio content. For example, the content sound source may be a sound source corresponding to the contents of a Snow White fairy tale, and the title sound source may be a sound source corresponding to a child's name such as "Jeon Ji-ah".

오디오 컨텐츠 제공 장치는 오디오 컨텐츠의 유형에 따라 다른 컨텐츠 음원을 획득할 수 있고, 호칭 음원을 생성할 수 있다. 예를 들어, 백설공주 재생 요청을 받은 경우, 오디오 컨텐츠 제공 장치는 백설공주 일반동화, 백설공주 수면동화, 백설공주 영어동화 등 오디오 컨텐츠 유형에 따라 다른 컨텐츠 음원을 획득하고, 호칭 음원을 생성할 수 있다. 보다 구체적으로, 오디오 컨텐츠 제공 장치는 일반동화인 경우에는 보통의 목소리 톤으로, 수면동화의 경우에는 졸린 톤으로, 영어동화의 경우에는 영어 발음으로 구성된 컨텐츠 음원을 획득하고.호칭 음원을 생성할 수 있다.The audio content providing apparatus may acquire a different content sound source according to the type of audio content and may generate a title sound source. For example, when receiving a request to play Snow White, the audio content providing device may acquire different content sound sources according to the type of audio content, such as Snow White's general fairy tale, Snow White's sleep fairy tale, and Snow White's English fairy tale, and create a title sound source. have. More specifically, the audio content providing device obtains a content sound source composed of a normal voice tone in the case of a general fairy tale, a sleepy tone in the case of a sleep fairy tale, and English pronunciation in the case of an English fairy tale. have.

호칭 음원은 컨텐츠 음원의 성우 음성 및 오디오 컨텐츠의 유형에 대응하는 톤에 기초하여 생성될 수 있다. 이를 통해, 오디오 컨텐츠 제공 장치는 호칭 음원과 컨텐츠 음원이 자연스럽게 연결된 오디오 컨텐츠를 제공할 수 있다. 예를 들어, 오디오 컨텐츠 제공 장치는 수면동화 요청을 받은 경우, 호칭 음원은 컨텐츠 음원과 동일한 성우 음성을 및 컨텐츠 음원과 동일한 졸린 톤을 갖도록 생성할 수 있다. 컨텐츠 음원을 획득하고, 호칭 음원을 생성하는 보다 구체적인 방법은 아래에서 도 4를 참조하여 상세히 설명된다.The title sound source may be generated based on a voice actor voice of the content sound source and a tone corresponding to the type of audio content. Through this, the audio content providing apparatus may provide audio content in which the title sound source and the content sound source are naturally connected. For example, when the audio content providing apparatus receives a sleep assimilation request, the title sound source may generate the same voice actor voice as the content sound source and the same sleepy tone as the content sound source. A more specific method of acquiring a content sound source and generating a title sound source will be described in detail with reference to FIG. 4 below.

단계(340)에서, 오디오 컨텐츠 제공 장치는 컨텐츠 음원과 호칭 음원을 결합함으로써 오디오 컨텐츠를 제공한다. 오디오 컨텐츠 하나를 다 청취하려면, 컨텐츠 부분과 호칭 부분이 오디오 컨텐츠 내용에 맞게 순서대로 재생되어야 한다. 이를 위해 각 오디오 컨텐츠 별로 컨텐츠 부분과 호칭 부분의 순서를 정의하는 스크립트가 필요할 수 있다. 오디오 컨텐츠는 호칭 음원과 컨텐츠 음원을 결합하기 위한 스크립트를 포함할 수 있고, 오디오 컨텐츠 제공 장치는 스크립트에 기초하여 호칭 음원과 컨텐츠 음원을 결합하여 오디오 컨텐츠를 생성할 수 있다.In step 340, the audio content providing apparatus provides audio content by combining the content sound source and the title sound source. In order to listen to one audio content, the content part and the title part should be played in order according to the audio content content. For this, a script defining the order of the content part and the title part for each audio content may be required. The audio content may include a script for combining the title sound source and the content sound source, and the audio content providing apparatus may generate the audio content by combining the title sound source and the content sound source based on the script.

스크립트는 오디오 컨텐츠의 제목, 오디오 컨텐츠의 유형, 오디오 컨텐츠의 출력 순서, 오디오 컨텐츠의 성우 정보, 오디오 컨텐츠 내 출력 순서에 따른 음원의 종류, 출력 순서에 따른 컨텐츠 음원의 파일명, 출력 순서에 따른 컨텐츠 음원의 파일 길이, 및 출력 순서에 따라 호칭 음원에 결합되는 조사 종류 중 적어도 하나를 포함할 수 있다. 일 예로, 스크립트는 표 1과 같은 형태로 구성될 수 있다.The script is the title of the audio content, the type of audio content, the output order of the audio content, the voice actor information of the audio content, the type of sound source according to the output order in the audio content, the file name of the content sound source according to the output order, the content sound source according to the output order It may include at least one of a type of irradiation coupled to a title sound source according to a file length of , and an output order. As an example, the script may be configured in the form shown in Table 1.

Figure 112019077213374-pat00001
Figure 112019077213374-pat00001

오디오 컨텐츠의 출력 순서는 호칭 음원과 컨텐츠 음원이 제공되는 순서를 의미할 수 있다. 오디오 컨텐츠의 성우 정보는 해당 오디오 컨텐츠를 녹음한 성우의 정보(이름 또는 인덱스)를 의미할 수 있다. 음원의 종류는 해당 음원이 TTS 엔진에 의해 생성된 것인지, Audio 파일인지에 관한 정보일 수 있다. 컨텐츠 음원의 파일명은 컨텐츠 음원 파일에 할당된 고유 이름일 수 있다. 컨텐츠 음원의 파일 길이는 해당 컨텐츠 음원 파일의 총 재생 시간을 의미할 수 있다.The output order of the audio content may mean the order in which the title sound source and the content sound source are provided. The voice actor information of the audio content may mean information (name or index) of a voice actor who recorded the corresponding audio content. The type of sound source may be information on whether the corresponding sound source is generated by the TTS engine or an audio file. The file name of the content sound source may be a unique name assigned to the content sound source file. The file length of the content sound source may mean the total playback time of the corresponding content sound source file.

스크립트는 표 1과 같이, 오디오 컨텐츠 제목 및 유형 별로 존재할 수 있다. 오디오 컨텐츠 제공 장치는 스크립트를 통해 각각의 컨텐츠 음원 및 호칭 음원의 파일 길이를 알 수 있고, 이를 통해 각각의 음원 재생이 끝나는 시점 직후에 다음 동작을 바로 실행할 수 있기 때문에 끊김없이 동화 스트리밍이 가능하다. 예를 들어, 오디오 컨텐츠 제공 장치는 단말로부터 현재 재생되고 있는 음원이 종료되었으니 다음 음원을 재생해달라는 요청을 기다릴 필요 없이, 각각의 음원 재생이 끝나는 시점 직후에 다음 동작을 바로 실행할 수 있다.As shown in Table 1, the script may exist for each audio content title and type. The audio content providing device can know the file length of each content sound source and the title sound source through the script, and through this, the next operation can be executed immediately after the playback of each sound source is finished, so that the streaming of the moving picture is possible without interruption. For example, the audio content providing apparatus may immediately execute the next operation immediately after the end of each sound source reproduction without waiting for a request to play the next sound source since the sound source currently being reproduced from the terminal has ended.

실시예에 따라 오디오 컨텐츠 제공 장치가 단말에 구비되는 경우, 단계(310)는 단말의 마이크를 통하여 오디오 컨텐츠 재생 요청을 수신하는 단계로 해석되고, 단계(320)는 서버로부터 컨텐츠 음원을 획득하는 단계로 해석되며, 단계(330)는 단말에 탑재된 TTS 엔진을 이용하거나 혹은 서버와 연동하여 호칭 음원을 생성하는 단계로 해석되고, 단계(340)는 사용자에게 오디오 컨텐츠를 제공하는 단계로 해석될 수 있다.According to an embodiment, when the apparatus for providing audio content is provided in the terminal, step 310 is interpreted as receiving an audio content reproduction request through a microphone of the terminal, and step 320 is a step of obtaining a content sound source from a server , step 330 is interpreted as a step of generating a title sound source by using the TTS engine mounted on the terminal or interworking with the server, and step 340 can be interpreted as a step of providing audio content to the user. have.

도 4는 일 실시예에 따른 호칭 음원을 생성하고, 컨텐츠 음원을 획득하는 방법을 설명하기 위한 도면이다.4 is a diagram for explaining a method of generating a title sound source and acquiring a content sound source according to an embodiment.

도 4를 참조하면, 점선을 기준으로 오른쪽 도면(450, 455)는 재생기기(예를 들어, 인공지능 스피커)영역에서 동작을 설명하기 위한 도면이고, 왼쪽 도면(410 내지 446)은 오디오 컨텐츠 제공 장치 영역에서 동작을 설명하기 위한 도면일 수 있다. 점선 기준 왼쪽 도면에 도시된 오디오 컨텐츠 제공 장치는 서버나 단말에 구성될 수 있다. 오디오 컨텐츠 제공 장치가 단말에 구성되는 경우, 재생기기(450)는 해당 단말에 포함될 수 있다.Referring to FIG. 4 , the right drawings 450 and 455 based on the dotted line are diagrams for explaining the operation in the playback device (eg, artificial intelligence speaker) area, and the left drawings 410 to 446 are audio content providing It may be a drawing for explaining an operation in the device area. The audio content providing apparatus shown in the left drawing based on the dotted line may be configured in a server or a terminal. When the audio content providing apparatus is configured in a terminal, the player 450 may be included in the corresponding terminal.

동화 재생 요청(410)을 받은 오디오 컨텐츠 제공 장치는 동화 종류를 판단(415)할 수 있다.The audio content providing apparatus receiving the moving picture reproduction request 410 may determine the type of moving picture ( 415 ).

오디오 컨텐츠 제공 장치는 오디오 컨텐츠 유형 별로 구축된 컨텐츠 음원 데이터베이스(425, 435)에서 오디오 컨텐츠의 유형에 대응하는 데이터베이스를 선택할 수 있고, 선택된 데이터베이스 및 음원 획득 모듈(445, 446)에 기초하여 컨텐츠 음원을 획득할 수 있다. 음원 획득 모듈(445, 446)은 오디오 컨텐츠의 유형에 따라 컨텐츠 음원 데이터베이스(425, 435)에서 컨텐츠 음원을 로드(load)하는 모듈이다. 오디오 컨텐츠의 유형은 예를 들어, 재생 요청된 동화 종류에 대응하여 결정될 수 있다. 설명의 편의를 위하여 오디오 컨텐츠 제공 장치가 복수의 음원 획득 모듈들을 포함하고, 오디오 컨텐츠의 유형에 대응하는 어느 하나의 음원 획득 모듈이 선택적으로 활성화되는 실시예를 도시하였으나, 실시예에 따라 복수의 음원 획득 모듈들은 단일 음원 획득 모듈의 형태로 구현될 수도 있다. 이 경우, 단일 음원 획득 모듈은 오디오 컨텐츠의 유형에 따른 데이터베이스(425, 435)에 접근하여, 컨텐츠 음원을 획득할 수 있다.The audio content providing apparatus may select a database corresponding to the type of audio content from the content sound source databases 425 and 435 constructed for each audio content type, and select the content sound source based on the selected database and sound source acquisition modules 445 and 446. can be obtained The sound source acquisition modules 445 and 446 are modules for loading content sound sources from the content sound source databases 425 and 435 according to the type of audio content. The type of audio content may be determined, for example, in response to the type of a moving picture requested to be reproduced. For convenience of explanation, an embodiment has been shown in which the audio content providing apparatus includes a plurality of sound source acquisition modules, and any one sound source acquisition module corresponding to the type of audio content is selectively activated, but according to the embodiment, a plurality of sound sources The acquisition modules may be implemented in the form of a single sound source acquisition module. In this case, the single sound source acquisition module may acquire the content sound source by accessing the databases 425 and 435 according to the type of audio content.

컨텐츠 음원이 저장된 데이터베이스를 컨텐츠 음원 데이터베이스라 할 수 있다. 컨텐츠 음원 데이터베이스는 컨텐츠의 제목 및 유형별로 구축될 수 있다. 예를 들어, 백설공주 일반동화, 백설공주 수면동화, 백설공주 영어동화 각각의 컨텐츠 음원 데이트베이스가 존재하고, 오디오 컨텐츠 제공 장치는 요청 받은 오디오 컨텐츠 제목 및 유형(예를 들어, 백설공주 수면동화)에 대응하는 데이터베이스(435) 및 음원 획득 모듈(446)에 기초하여 컨텐츠 음원을 획득할 수 있다.A database in which a content sound source is stored may be referred to as a content sound source database. The content sound source database may be built for each title and type of content. For example, there is a content sound source database for each of Snow White's general fairy tale, Snow White's sleep fairy tale, and Snow White's English fairy tale, and the audio content providing device provides the requested audio content title and type (eg, Snow White's sleep fairy tale). A content sound source may be obtained based on the database 435 and the sound source acquisition module 446 corresponding to .

오디오 컨텐츠 제공 장치는 오디오 컨텐츠 유형 별로 구축된 호칭 음원 데이터베이스(420, 430)에서 오디오 컨텐츠의 유형에 대응하는 데이터베이스를 선택할 수 있고, 선택된 데이터베이스에 기초하여 하여 호칭 음원을 생성할 수 있다. 호칭 음원이 저장된 데이터베이스를 호칭 음원 데이터베이스라 할 수 있다. 호칭 음원 데이터베이스는 오디오 컨텐츠 유형별로 구축될 수 있다.The audio content providing apparatus may select a database corresponding to the type of audio content from the name sound source databases 420 and 430 constructed for each audio content type, and may generate a title sound source based on the selected database. A database in which a title sound source is stored may be referred to as a title sound source database. The title sound source database may be built for each type of audio content.

예를 들어, 일반동화, 수면동화, 영어동화 각각의 컨텐츠 음원 데이트베이스가 존재하고, 오디오 컨텐츠 제공 장치는 요청 받은 오디오 컨텐츠 유형(예를 들어, 수면동화)에 대응하는 데이터베이스(430)에 기초하여 호칭 음원을 생성할 수 있다.For example, each content sound source database exists for a general fairy tale, a sleep fairy tale, and an English fairy tale, and the audio content providing device is based on the database 430 corresponding to the requested audio content type (eg, sleep fairy tale). You can create a title sound source.

오디오 컨텐츠 제공 장치는 호칭 음원 데이터베이스에 기반하여 구축된 TTS(Text-to-Speech; TTS) 엔진(440, 441)을 통해 호칭 음원을 생성할 수 있다. 사용자는 호칭 음원에 대응하는 호칭 문자를 오디오 컨텐츠 제공 장치에 사전 등록할 수 있다. 예를 들어, 호칭 문자는 호칭 음원 데이터베이스(420, 430)에 저장될 수도 있고, 별도의 저장 공간에 저장될 수도 있다. 실시예들에 따르면, 호칭 문자의 등록을 요청하는 사용자와 해당 호칭 문자에 의하여 호칭되는 사용자는 동일할 수도 있고, 서로 다를 수도 있다. 예를 들어, 사용자는 오디오 컨텐츠 어플리케이션의 '서비스 설정-키즈설정-자녀설정' 경로를 통해 호칭 문자(자녀 이름)를 설정할 수 있다. 이 경우, 호칭 문자의 등록을 요청하는 사용자는 부모이고, 해당 호칭 문자에 의하여 호칭되는 사용자는 자녀일 수 있다.The audio content providing apparatus may generate a title sound source through the text-to-speech (TTS) engines 440 and 441 constructed based on the title sound source database. The user may pre-register the title character corresponding to the title sound source in the audio content providing apparatus. For example, the title character may be stored in the title sound source database (420, 430) or may be stored in a separate storage space. According to embodiments, the user requesting registration of the title character and the user called by the corresponding title character may be the same or different from each other. For example, the user may set the title character (child name) through the 'service setting-kids setting-child setting' path of the audio content application. In this case, the user requesting registration of the title character may be a parent, and the user called by the title character may be a child.

오디오 컨텐츠 제공 장치는 오디오 컨텐츠의 유형에 대응하는 호칭 음원 데이터베이스를 선택할 수 있고, 선택된 호칭 음원 데이터베이스에 기반하여 구축된 TTS 엔진을 통해 미리 등록한 호칭 문자에 대응하는 호칭 음원을 생성할 수 있다.The audio content providing apparatus may select a title sound source database corresponding to the type of audio content, and may generate a title sound source corresponding to a title character registered in advance through a TTS engine built based on the selected title sound source database.

예를 들어, 오디오 컨텐츠 제공 장치는 수면동화에 대응하는 호칭 데이터베이스(430)를 선택할 수 있고, 호칭 데이터베이스(430)에 기초하여 구축된 TTS 엔진(441) 엔진을 통해 미리 등록한 호칭 문자에 대응하는 호칭 음원을 생성할 수 있다.For example, the audio content providing apparatus may select a title database 430 corresponding to a sleep assimilation, and a title corresponding to a title character registered in advance through the TTS engine 441 engine constructed based on the title database 430 . You can create a sound source.

사용자가 호칭 문자를 등록하지 않은 경우에는, 미리 정해진 호칭 문자를 호칭 음원으로 생성할 수 있다. 예를 들어, 사용자가 호칭 문자를 등록하지 않은 경우에는, "친구", "어린이"처럼 미리 정해진 호칭을 대신 사용할 수 있다.When the user does not register a title character, a predetermined title character may be generated as a title sound source. For example, when the user does not register a title character, predetermined titles such as “friend” and “child” may be used instead.

일 실시예에 따르면, 복수의 호칭 음원도 생성될 수 있다. 예를 들어, 복수의 자녀가 있는 경우, 복수의 호칭 문자를 등록할 수 있다. 예를 들어, 두 개의 호칭 문자"지원", 민수"가 등록될 수 있다. 일반적인 경우 오디오 컨텐츠 제공 장치는 대표 호칭 문자로 등록된 호칭 문자에 대응하는 호칭 음원만 생성할 수 있다. 예를 들어, "백설공주 수면동화 틀어줘"라는 입력을 받으면, 오디오 컨텐츠 제공 장치는 대표 호칭 문자로 설정된 "지원"에 대응하는 호칭 음원만 생성할 수 있다.According to an embodiment, a plurality of title sound sources may also be generated. For example, if there are a plurality of children, a plurality of title characters may be registered. For example, two title characters “support” and “minsu” may be registered. In general, the audio content providing apparatus may generate only a title sound source corresponding to a title character registered as a representative title character. For example, Upon receiving an input of "Play Snow White's Sleeping Fairy Tale", the audio content providing apparatus may generate only a title sound source corresponding to "Support" set as a representative title character.

또는, 사용자가 특정 호칭 문자를 지정하여 오디오 컨텐츠를 요청하는 경우, 지정된 호칭 문자에 대응하는 호칭 음원만 생성할 수 있다. 예를 들어, "민수에게 백설공주 수면동화 틀어줘"라는 입력을 받으면, 오디오 컨텐츠 제공 장치는 "민수"에 대응하는 호칭 음원만 생성할 수 있다.Alternatively, when a user requests audio content by designating a specific title character, only a title sound source corresponding to the designated title character may be generated. For example, when receiving an input of "Play Snow White's fairy tale to Minsu", the audio content providing device may generate only a title sound source corresponding to "Minsu".

또는, 오디오 컨텐츠 내 호칭 음원을 출력하는 부분들에서, 복수의 호칭 문자들 중 미리 정해진 방식에 따라 선택된 어느 하나의 호칭 문자에 대응하는 호칭 음원이 생성될 수 있다. 예를 들어, "지원"과 "민수"가 번갈아 선택되거나, 상기 오디오 컨텐츠의 챕터(chapter) 별로 "지원" 혹은 "민수" 중 어느 하나의 호칭 문자가 선택되는 등 다양한 방식이 이용될 수 있다.Alternatively, a title sound source corresponding to any one title character selected according to a predetermined method among a plurality of title characters may be generated from parts outputting a title sound source in the audio content. For example, various methods may be used, such as alternately selecting "Support" and "Minsu" or selecting one of the title characters of "Support" or "Minsu" for each chapter of the audio content.

또는, 특정 오디오 컨텐츠에서는 복수의 호칭 문자에 대응하는 호칭 음원들을 생성할 수 있다. 예를 들어, "헨젤과 그레텔"과 같이 복수의 주인공이 등장하고 주인공의 성별 등의 특성에 따라 주인공을 호칭 문자와 매칭시킬 수 있는 오디오 컨텐츠의 경우, 오디오 컨텐츠 제공 장치는 "지원"과 "민수"를 호칭 음원으로 생성하여, 여성 주인공인 "헨젤"과 남성 주인공인 "그레텔" 호칭 부분을 여성 사용자인 "지원"과 남성 사용자인 "민수"로 치환하여 재생할 수도 있다.Alternatively, in specific audio content, title sound sources corresponding to a plurality of title characters may be generated. For example, in the case of audio content in which a plurality of main characters appear, such as "Hansel and Gretel," and the main character can be matched with a title character according to the characteristics of the main character, such as gender, the audio content providing device is "Support" and "Minsu" " can be created as a sound source, and the female protagonist "Hansel" and the male protagonist "Gretel" can be played by substituting the female user "Jiwon" and the male user "Minsu".

TTS 엔진에는 문자를 바로 소리로 바꿔 전달하는 문자음성 자동변환 기술이 탑재될 수 있다. TTS 엔진은 호칭 음원 데이터베이스 별로 존재할 수 있고, 각각의 호칭 음원 데이터베이스의 '호칭 문자-호칭 음원'에 기초하여 학습된 인공신경망 모듈일 수 있다. 학습이 완료된 TTS 엔진을 사용하는 오디오 컨텐츠 제공 장치의 경우에는 호칭 음원 데이터베이스를 포함하지 않을 수 있다. 도면에 도시하지 않았으나, TTS 엔진이 인공신경망 모듈일 경우에는 TTS 엔진은 단말에 탑재될 수 있다. TTS 엔진은 실시간으로 호칭 음원을 생성할 수도 있고, 호칭 문자를 생성한 시점에 미리 호칭 음원을 생성해 저장해둘 수도 있다.The TTS engine can be equipped with a text-to-speech automatic conversion technology that converts text into sound and delivers it. The TTS engine may exist for each title sound source database, and may be an artificial neural network module learned based on 'title character-name sound source' of each title sound source database. In the case of an audio content providing apparatus using a TTS engine for which learning is completed, the title sound source database may not be included. Although not shown in the drawing, when the TTS engine is an artificial neural network module, the TTS engine may be mounted in the terminal. The TTS engine may generate a title sound source in real time, or may generate and store a title sound source in advance at the time the title character is generated.

다른 실시예에 따르면, 오디오 컨텐츠 제공 장치는 TTS 엔진을 사용하지 않고 미리 녹음된 호칭 음원을 사용할 수도 있다. 예를 들어, 사용자로부터 호칭 문자를 입력 받으면 오디오 컨텐츠 제공 장치는 호칭 문자에 대응하는 호칭 음원을 유형 별로 미리 녹음해 놓을 수 있고, 오디오 컨텐츠 재생 요청 시 해당 유형에 대응하는 호칭 음원을 선택할 수 있다.According to another embodiment, the audio content providing apparatus may use a pre-recorded title sound source without using the TTS engine. For example, when receiving a title text from the user, the audio content providing apparatus may pre-record a title sound source corresponding to the title text for each type, and may select a title sound source corresponding to the corresponding type when requesting to reproduce the audio content.

나아가, 컨텐츠 음원 데이터베이스 및 호칭 음원 데이터베이스는 컨텐츠 음원 및 호칭 음원을 녹음한 성우 별로 구축될 수 있다. 예를 들어, '성우1'이 녹음한 백설공주 수면동화 버전과 '성우2'가 녹음한 백설공주 수면동화 버전이 따로 구축될 수도 있다.Furthermore, the content sound source database and the title sound source database may be constructed for each voice actor who recorded the content sound source and the title sound source. For example, a version of Snow White's sleep fairy tale recorded by 'Voice Actor 1' and a version of Snow White's sleep fairy tale recorded by 'Voice Actor 2' may be built separately.

도 4에서는, 일반 스타일 및 수면 스타일의 오디오 컨텐츠를 예시로, 컨텐츠 음원을 획득하고 호칭 음원을 생성하는 방법을 설명하였으나, 외국어 오디오 컨텐츠의 경우 도 4에서 설명한 방법 이외의 동작이 더 필요할 수 있다. 외국어 오디오 컨텐츠의 경우 호칭 음원을 생성하는 방법은 아래에서 도 5를 참조하여 상세히 설명된다.In FIG. 4 , a method of acquiring a content sound source and generating a title sound source has been described using general style and sleep style audio content as an example, but in the case of foreign language audio content, an operation other than the method described in FIG. 4 may be further required. In the case of foreign language audio content, a method of generating a title sound source will be described in detail below with reference to FIG. 5 .

도 5는 일 실시예에 따른 영문 오디오 컨텐츠의 경우 호칭 음원을 생성하는 방법을 설명하기 위한 도면이다.5 is a diagram for explaining a method of generating a title sound source in case of English audio content according to an embodiment.

도 5 를 참조하면, 일 실시예에 따른 오디오 컨텐츠 제공 장치는 영문 오디오 컨텐츠 재생 요청(예를 들어, 영어 동화 재생 요청)(510)을 받을 수 있다. 영문 오디오 컨텐츠를 제공 시, 호칭 음원도 컨텐츠 음원과 마찬가지로 영어 발음 형태로 제공되어야 보다 자연스러운 오디오 컨텐츠가 재생될 수 있다.Referring to FIG. 5 , the apparatus for providing audio content according to an embodiment may receive an English audio content reproduction request (eg, an English moving picture reproduction request) 510 . When providing English audio content, the title sound source should be provided in the form of English pronunciation like the content sound source so that more natural audio content can be reproduced.

영문 오디오 컨텐츠 재생 요청을 받은 오디오 컨텐츠 제공 장치는 영문변환기(515), 영어발음 변환기(520), 발음사전(525)을 더 이용하여 호칭 문자를 호칭 음원으로 변환할 수 있다. 영문변환기(515)는 한글 호칭 문자를 수신하여, 한글 호칭 문자를 영문 호칭 문자로 변환하여 출력할 수 있다. 영어발음 변환기(520)는 영문변환기(515)로부터 영문 호칭 문자를 수신하여, 영문 호칭 문자를 영어 발음기호로 변환 하여 출력할 수 있다. 나아가, 영어발음 변환기(520)는 영문 호칭 문자를 영어 발음기호로 변환 시, 호칭 문자의 발음 정보를 포함하는 발음사전(525)을 참고할 수도 있다.The audio content providing device receiving the English audio content reproduction request may convert the title character into the title sound source by further using the English converter 515 , the English pronunciation converter 520 , and the pronunciation dictionary 525 . The English converter 515 may receive the Hangul title character, convert the Hangul title character into an English title character, and output it. The English pronunciation converter 520 may receive an English title character from the English converter 515, convert the English title character into an English phonetic symbol, and output it. Furthermore, the English pronunciation converter 520 may refer to the pronunciation dictionary 525 including pronunciation information of the title character when converting the English title character into the English phonetic symbol.

예를 들어, 사용자가 호칭 문자를 "민수"라고 등록해 둔 경우, 영문변환기(515)는 "민수"를 “min soo”로 자동 변환할 수 있다. 발음사전(525)에 "민수"가 입력될 수 있고, 영어발음 변환기(520)에는 “min soo”가 입력될 수 있다. “min soo”를 입력 받은 영어발음 변환기(520)는 발음사전(525)의 출력을 참고하여 “min soo”에 대한 발음기호인 [m], [i], [n], [s], [u] 로 변환할 수 있다. 영어 호칭 음원 데이터베이스(535)에 기반하여 구축된 TTS 엔진(530)은 발음기호 [m], [i], [n], [s], [u]에 대응하는 호칭 음원을 생성할 수 있다.For example, when the user registers the title character as “minsu”, the English converter 515 may automatically convert “minsoo” to “min soo”. “Minsu” may be input to the pronunciation dictionary 525 , and “min soo” may be input to the English pronunciation converter 520 . The English pronunciation converter 520 that received “min soo” refers to the output of the pronunciation dictionary 525, and refers to the pronunciation symbols for “min soo” [m], [i], [n], [s], [ u] can be converted to The TTS engine 530 built based on the English title sound source database 535 may generate title sound sources corresponding to the phonetic symbols [m], [i], [n], [s], and [u].

도 1 내지 도 5를 참조하여, 호칭 음원을 생성하고 컨텐츠 음원을 획득하여 호칭 음원이 결합된 오디오 컨텐츠를 제공하는 방법에 대하여 설명하였다. 아래에서 도 6을 참조하여, 호칭 음원이 결합된 오디오 컨텐츠 제공 시 호칭에 결합되는 조사의 종류에 따라 호칭 음원과 컨텐츠 음원 사이의 묵음 간격을 다르게 설정하여 보다 자연스러운 오디오 컨텐츠를 제공하는 방법에 대해 설명한다.A method of generating a title sound source and acquiring a content sound source to provide audio content in which the title sound source is combined has been described with reference to FIGS. 1 to 5 . With reference to FIG. 6 below, when providing audio content in which a title sound source is combined, a method of providing more natural audio content by setting a silence interval between a title sound source and a content sound source differently according to the type of irradiation combined with a title is described. do.

도 6은 일 실시예에 따른 호칭에 결합되는 조사의 종류에 따라 호칭 음원과 컨텐츠 음원 사이의 묵음 간격을 다르게 설정하는 방법을 설명하기 위한 도면이다.6 is a diagram for explaining a method of differently setting a silence interval between a title sound source and a content sound source according to a type of irradiation coupled to a title according to an embodiment.

도 6을 참조하면, 일 실시예에 따른 오디오 컨텐츠 제공 장치는 호칭 문자에 결합되는 조사를 결정할 수 있다. 호칭 구간과 컨텐츠 구간을 연결하여 재생할 때 자연스러움이 중요한데, 호칭 문자에 붙는 조사의 종류에 따라서 호칭 음원과 컨텐츠 음원 사이 묵음 간격을 다르게 설정할 수 있다. 묵음 간격(620)은 호칭 구간(예를 들어, 이름 구간)(610)과 컨텐츠 구간(예를 들어, 동화 구간)(630) 사이의 간격을 의미할 수 있다. Referring to FIG. 6 , the apparatus for providing audio content according to an exemplary embodiment may determine a survey combined with a title character. Naturalness is important when reproducing by connecting the title section and the content section, and the silence interval between the title sound source and the content sound source can be set differently depending on the type of irradiation attached to the title character. The silence interval 620 may mean an interval between a calling section (eg, a name section) 610 and a content section (eg, a moving picture section) 630 .

호칭 문자는 대부분 조사와 결합되어 사용된다. 이때 호칭 문자 마지막 음절의 받침 유무에 따라 이름과 조사 사이에 “이”가 삽입되기도 한다. 예를 들어, “철수+처럼”의 경우에는 조사 "이"가 삽입되지 않지만, “영식+이+처럼”의 경우에는 조사 "이"가 삽입될 수도 있다. 또한, 호칭 음원과 컨텐츠 음원을 이어서 재생할 때는 사이에 약간의 묵음구간이 생기도록 한다. 실제로 호칭 구간과 컨텐츠 구간을 한 문장으로 읽은 게 아니기 때문에 약간의 운율상의 어색함이 생기는데, 묵음 간격을 사용하여 어색함을 줄일 수 있다. 적절한 묵음 간격은 컨텐츠 내 문장의 내용에 따라 달라질 수 있다. 예를 들어, 오디오 컨텐츠 제공 장치는 스크립트에 기초하여, 호칭 문자에 결합되는 조사를 결정할 수 있고, 묵은 간격은 표 2와 같이 호칭 문자에 붙은 조사의 종류에 따라 다르게 설정할 수 있다.The title character is mostly used in conjunction with the proposition. At this time, depending on whether the last syllable of the title character has a backing, “i” is sometimes inserted between the name and the verb. For example, in the case of “like chulsu +”, the proposition “i” is not inserted, but in the case of “like English + yi+”, the proposition “i” may be inserted. In addition, when the title sound source and the content sound source are continuously reproduced, a slight silence section is created between them. In fact, since the title section and the content section are not read in one sentence, there is some prosody awkwardness, but the awkwardness can be reduced by using the silence interval. An appropriate silence interval may vary depending on the content of a sentence in the content. For example, the audio content providing apparatus may determine the irradiation to be combined with the title character based on the script, and the empty interval may be set differently according to the type of the irradiation attached to the title character as shown in Table 2.

Figure 112019077213374-pat00002
Figure 112019077213374-pat00002

표 2를 참조하면, “철수야” 처럼 호격 조사는 묵음 간격이 길고(0.3초), “철수는” 처럼 주격 조사는 묵음 간격이 짧은(0.1초) 게 자연스러울 수 있다.Referring to Table 2, it can be natural that the silent proposition like “Chulsu-ya” has a long silence (0.3 seconds), and the nominative proposition like “Chul-su” has a short silence (0.1 second).

오디오 컨텐츠 제공 장치는 스크립트에 기초하여 호칭 문자에 붙을 조사를 결정할 수 있고, 묵음 간격은 조사에 기초하여 결정될 수 있다. 예를 들어, 오디오 컨텐츠 제공 장치는 표 1의 스크립트에 따라 순서 2에서 TTS 엔진을 이용하여 "[이름]에게"의 호칭 음원을 생성할 수 있다. 이 경우, 조사의 종류가 "에게"이므로, 오디오 컨텐츠 제공 장치는 표 2를 참조하여 "에게"에 해당하는 0.2초를 묵음 간격으로 결정할 수 있다. 오디오 컨텐츠 제공 장치는 사용자의 호칭 문자, 조사 및 묵음 간격이 포함된 호칭 음원을 생성할 수 있다.The audio content providing apparatus may determine a survey to be attached to the title character based on the script, and the silence interval may be determined based on the survey. For example, the audio content providing apparatus may generate a title sound source of "to [name]" by using the TTS engine in step 2 according to the script of Table 1. In this case, since the type of irradiation is “to”, the audio content providing apparatus may determine 0.2 seconds corresponding to “to” as the silence interval with reference to Table 2. The audio content providing apparatus may generate a title sound source including the user's title character, survey, and silence interval.

도면에 도시하지 않았으나, 오디오 컨텐츠 제공 장치는 프로세서 및 메모리를 포함한다. 프로세서는 도 1 내지 도 6를 통하여 전술한 적어도 하나의 방법을 수행할 수 있다. 메모리는 컨텐츠 음원 데이터베이스, 호칭 음원 데이터베이스를 포함할 수 있다. 메모리는 휘발성 메모리 또는 비휘발성 메모리일 수 있다.Although not shown in the drawings, the audio content providing apparatus includes a processor and a memory. The processor may perform at least one method described above with reference to FIGS. 1 to 6 . The memory may include a content sound source database and a title sound source database. The memory may be volatile memory or non-volatile memory.

프로세서는 프로그램을 실행하고, 오디오 컨텐츠 제공 장치를 제어할 수 있다. 프로세서에 의하여 실행되는 프로그램의 코드는 메모리에 저장될 수 있다. 오디오 컨텐츠 제공 장치는 입출력 장치(도면 미 표시)를 통하여 외부 장치(예를 들어, 퍼스널 컴퓨터 또는 네트워크)에 연결되고, 데이터를 교환할 수 있다.The processor may execute a program and control the audio content providing apparatus. The code of the program executed by the processor may be stored in the memory. The audio content providing apparatus may be connected to an external device (eg, a personal computer or a network) through an input/output device (not shown) and exchange data.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The embodiments described above may be implemented by a hardware component, a software component, and/or a combination of a hardware component and a software component. For example, the apparatus, methods and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate (FPGA) array), a programmable logic unit (PLU), a microprocessor, or any other device capable of executing and responding to instructions, may be implemented using one or more general purpose or special purpose computers. The processing device may execute an operating system (OS) and one or more software applications running on the operating system. The processing device may also access, store, manipulate, process, and generate data in response to execution of the software. For convenience of understanding, although one processing device is sometimes described as being used, one of ordinary skill in the art will recognize that the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that can include For example, the processing device may include a plurality of processors or one processor and one controller. Other processing configurations are also possible, such as parallel processors.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may comprise a computer program, code, instructions, or a combination of one or more thereof, which configures a processing device to operate as desired or is independently or collectively processed You can command the device. The software and/or data may be any kind of machine, component, physical device, virtual equipment, computer storage medium or device, to be interpreted by or to provide instructions or data to the processing device. , or may be permanently or temporarily embody in a transmitted signal wave. The software may be distributed over networked computer systems, and stored or executed in a distributed manner. Software and data may be stored in one or more computer-readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, etc. alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the embodiment, or may be known and available to those skilled in the art of computer software. Examples of the computer-readable recording medium include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic such as floppy disks. - includes magneto-optical media, and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.As described above, although the embodiments have been described with reference to the limited drawings, those skilled in the art may apply various technical modifications and variations based on the above. For example, the described techniques are performed in a different order than the described method, and/or the described components of the system, structure, apparatus, circuit, etc. are combined or combined in a different form than the described method, or other components Or substituted or substituted by equivalents may achieve an appropriate result.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.

Claims (16)

오디오 컨텐츠의 재생 요청을 수신하는 단계;
상기 오디오 컨텐츠에 대응하는 컨텐츠 음원을 획득하는 단계;
상기 오디오 컨텐츠의 유형에 기초하여 사용자에 대응하는 호칭 음원을 생성하는 단계; 및
상기 컨텐츠 음원과 상기 호칭 음원을 결합함으로써 상기 오디오 컨텐츠를 제공하는 단계
를 포함하고,
상기 호칭 음원은
상기 컨텐츠 음원의 성우 음성 및 상기 오디오 컨텐츠의 유형에 대응하는 톤에 기초하여 생성되고,
상기 단계들은 적어도 하나의 프로세서에 의해서 수행되는 오디오 컨텐츠 제공 방법.
receiving a request to play audio content;
obtaining a content sound source corresponding to the audio content;
generating a title sound source corresponding to the user based on the type of the audio content; and
providing the audio content by combining the content sound source and the title sound source
including,
The name sound source is
It is generated based on the voice actor voice of the content sound source and a tone corresponding to the type of the audio content,
The above steps are performed by at least one processor.
제1항에 있어서,
상기 오디오 컨텐츠는 상기 호칭 음원과 상기 컨텐츠 음원을 결합하기 위한 스크립트를 포함하고,
상기 오디오 컨텐츠를 제공하는 단계는
상기 스크립트에 기초하여, 상기 호칭 음원과 상기 컨텐츠 음원을 결합하는 단계
를 포함하는, 오디오 컨텐츠 제공 방법.
According to claim 1,
The audio content includes a script for combining the title sound source and the content sound source,
The step of providing the audio content
Combining the title sound source and the content sound source based on the script
Including, an audio content providing method.
제1항에 있어서,
상기 호칭 음원을 생성하는 단계는
상기 사용자의 호칭 문자(text)를 획득하는 단계;
상기 오디오 컨텐츠의 유형에 대응하는 호칭 음원 데이터베이스에 기반하여 구축된 TTS(Text-to-Speech; TTS) 엔진을 통해, 상기 사용자의 호칭 문자에 대응하는 상기 호칭 음원을 생성하는 단계
를 포함하는, 오디오 컨텐츠 제공 방법.
According to claim 1,
The step of generating the title sound source is
obtaining the title text of the user;
generating the title sound source corresponding to the title character of the user through a Text-to-Speech (TTS) engine built based on a title sound source database corresponding to the type of the audio content
Including, an audio content providing method.
삭제delete 제1항에 있어서,
상기 호칭 음원을 생성하는 단계는
상기 사용자의 호칭 문자가 기 등록된 경우에는, 상기 기 등록된 호칭 문자에 대응하는 호칭 음원을 생성하는 단계; 및
상기 사용자의 호칭 문자가 기 등록되지 않은 경우에는, 미리 정해진 호칭 문자에 대응하는 호칭 음원으로 생성하는 단계
중 적어도 하나를 포함하는, 오디오 컨텐츠 제공 방법.
According to claim 1,
The step of generating the title sound source is
generating a title sound source corresponding to the pre-registered title character when the user's title character is pre-registered; and
If the user's title character is not registered in advance, generating a title sound source corresponding to a predetermined title character
A method of providing audio content, comprising at least one of.
제2항에 있어서,
상기 호칭 음원을 생성하는 단계는
상기 스크립트에 기초하여, 상기 호칭 음원에 결합되는 조사를 결정하는 단계;
상기 조사에 대응하는 묵음 간격을 결정하는 단계; 및
상기 사용자의 호칭 문자, 상기 조사 및 상기 묵음 간격이 포함된 호칭 음원을 생성하는 단계
를 포함하는, 오디오 컨텐츠 제공 방법.
3. The method of claim 2,
The step of generating the title sound source is
Based on the script, determining the irradiation coupled to the title sound source;
determining a silence interval corresponding to the irradiation; and
generating a title sound source including the user's title character, the irradiation, and the silence interval
Including, an audio content providing method.
제2항에 있어서,
상기 스크립트는
상기 오디오 컨텐츠의 제목, 상기 오디오 컨텐츠의 유형, 상기 오디오 컨텐츠의 출력 순서, 상기 오디오 컨텐츠의 성우 정보, 상기 오디오 컨텐츠 내 상기 출력 순서에 따른 음원의 종류, 상기 출력 순서에 따른 상기 컨텐츠 음원의 파일명, 상기 출력 순서에 따른 상기 컨텐츠 음원의 파일 길이, 및 상기 출력 순서에 따라 상기 호칭 음원에 결합되는 조사 종류 중 적어도 하나를 포함하는, 오디오 컨텐츠 제공 방법.
3. The method of claim 2,
the script is
The title of the audio content, the type of the audio content, the output order of the audio content, voice actor information of the audio content, the type of sound source according to the output order in the audio content, the file name of the content sound source according to the output order, A method for providing audio content, comprising at least one of a file length of the content sound source according to the output order, and a type of irradiation coupled to the title sound source according to the output order.
제1항에 있어서,
상기 오디오 컨텐츠의 유형은
일반 오디오 컨텐츠, 수면 오디오 컨텐츠, 외국어 오디오 컨텐츠, 액션 오디오 컨텐츠, 판소리 오디오 컨텐츠 및 뮤지컬 오디오 컨텐츠 중 적어도 하나를 포함하는, 오디오 컨텐츠 제공 방법.
According to claim 1,
The type of audio content is
A method of providing audio content including at least one of general audio content, sleep audio content, foreign language audio content, action audio content, pansori audio content, and musical audio content.
제1항에 있어서,
상기 오디오 컨텐츠의 유형이 외국어 오디오 컨텐츠인 경우, 상기 호칭 음원을 생성하는 단계는
호칭 문자를 외국어 호칭 문자로 변환하는 단계;
상기 외국어 호칭 문자를 발음기호 형태로 변환하는 단계; 및
상기 발음기호 형태 및 상기 오디오 컨텐츠의 유형에 기초하여, 상기 호칭 문자를 상기 호칭 음원으로 변환하는 단계
를 포함하는, 오디오 컨텐츠 제공 방법.
According to claim 1,
When the type of the audio content is foreign language audio content, the step of generating the title sound source includes:
converting the title character into a foreign language title character;
converting the foreign language name character into a phonetic symbol form; and
converting the title character into the title sound source based on the phonetic symbol type and the type of the audio content
Including, an audio content providing method.
하드웨어와 결합되어 제1항 내지 제3항 및 제5항 내지 제9항 중 어느 하나의 항의 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
A computer program stored in a medium for executing the method of any one of claims 1 to 3 and 5 to 9 in combination with hardware.
오디오 컨텐츠 재생 요청을 수신하는 마이크;
상기 오디오 컨텐츠를 재생하는 스피커; 및
서버로부터 상기 오디오 컨텐츠에 대응하는 컨텐츠 음원을 획득하며, 상기 오디오 컨텐츠의 유형에 기초하여 사용자에 대응하는 호칭 음원을 생성하고, 상기 컨텐츠 음원과 상기 호칭 음원을 결합함으로써 상기 오디오 컨텐츠가 재생되도록 상기 스피커를 제어하는 프로세서
를 포함하고,
상기 호칭 음원은
상기 컨텐츠 음원의 성우 음성 및 상기 오디오 컨텐츠의 유형에 대응하는 톤에 기초하여 생성되는 오디오 컨텐츠 제공 장치.
a microphone for receiving an audio content playback request;
a speaker for playing the audio content; and
The speaker obtains a content sound source corresponding to the audio content from a server, generates a title sound source corresponding to a user based on the type of the audio content, and combines the content sound source and the title sound source to reproduce the audio content processor to control
including,
The name sound source is
An audio content providing apparatus generated based on a voice actor voice of the content sound source and a tone corresponding to the type of the audio content.
제11항에 있어서,
상기 오디오 컨텐츠는 상기 호칭 음원과 상기 컨텐츠 음원을 결합하기 위한 스크립트를 포함하고,
상기 프로세서는
상기 스크립트에 기초하여, 상기 호칭 음원과 상기 컨텐츠 음원을 결합하는, 오디오 컨텐츠 제공 장치.
12. The method of claim 11,
The audio content includes a script for combining the title sound source and the content sound source,
the processor
Based on the script, the audio content providing apparatus for combining the title sound source and the content sound source.
제11항에 있어서,
상기 프로세서는
상기 사용자의 호칭 문자(text)를 획득하고, 상기 오디오 컨텐츠의 유형에 대응하는 호칭 음원 데이터베이스에 기반하여 구축된 TTS(Text-to-Speech; TTS) 엔진을 통해, 상기 사용자의 호칭 문자에 대응하는 상기 호칭 음원을 생성하는, 오디오 컨텐츠 제공 장치.
12. The method of claim 11,
the processor
Obtaining the title text of the user, and using a Text-to-Speech (TTS) engine built based on a title sound source database corresponding to the type of the audio content, corresponding to the title text of the user An audio content providing apparatus for generating the title sound source.
제11항에 있어서,
상기 프로세서는
상기 사용자의 호칭 문자가 기 등록된 경우에는, 상기 기 등록된 호칭 문자에 대응하는 호칭 음원을 생성하고, 상기 사용자의 호칭 문자가 기 등록되지 않은 경우에는, 미리 정해진 호칭 문자에 대응하는 호칭 음원으로 생성하는, 오디오 컨텐츠 제공 장치.
12. The method of claim 11,
the processor
When the user's title character is previously registered, a title sound source corresponding to the previously registered title character is generated, and when the user's title character is not previously registered, a title sound source corresponding to a predetermined title character is used. A device for providing audio content.
제12항에 있어서,
상기 프로세서는
상기 스크립트에 기초하여, 상기 호칭 음원에 결합되는 조사를 결정하고, 상기 조사에 대응하는 묵음 간격을 결정하고, 상기 사용자의 호칭 문자, 상기 조사 및 상기 묵음 간격이 포함된 호칭 음원을 생성하는, 오디오 컨텐츠 제공 장치.
13. The method of claim 12,
the processor
Based on the script, determining the irradiation coupled to the title sound source, determining the silence interval corresponding to the irradiation, and generating a title sound source including the title character of the user, the survey, and the silence interval, audio content delivery device.
제11항에 있어서,
상기 프로세서는
호칭 문자를 외국어 호칭 문자로 변환하고, 상기 외국어 호칭 문자를 발음기호 형태로 변환하며, 상기 발음기호 형태 및 상기 오디오 컨텐츠의 유형에 기초하여, 상기 호칭 문자를 상기 호칭 음원으로 변환하는, 오디오 컨텐츠 제공 장치.
12. The method of claim 11,
the processor
Converting a title character into a foreign language title character, converting the foreign language title character into a phonetic symbol form, and converting the title character into the title sound source based on the phonetic symbol form and the type of the audio content, providing audio content Device.
KR1020190091177A 2019-07-26 2019-07-26 Method and apparatus for providing audio content KR102267651B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190091177A KR102267651B1 (en) 2019-07-26 2019-07-26 Method and apparatus for providing audio content

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190091177A KR102267651B1 (en) 2019-07-26 2019-07-26 Method and apparatus for providing audio content

Publications (2)

Publication Number Publication Date
KR20210012815A KR20210012815A (en) 2021-02-03
KR102267651B1 true KR102267651B1 (en) 2021-06-22

Family

ID=74571899

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190091177A KR102267651B1 (en) 2019-07-26 2019-07-26 Method and apparatus for providing audio content

Country Status (1)

Country Link
KR (1) KR102267651B1 (en)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020082328A (en) * 2001-04-20 2002-10-31 김장휘 The techknowledge maken my animation on network
KR20040089905A (en) * 2003-04-15 2004-10-22 주식회사 포스티브 System for providing audiobook using audio synthetic- technology and method thereof
KR20140058746A (en) * 2012-11-05 2014-05-15 주식회사 인프라웨어북스 System and method for storytelling
KR101907957B1 (en) * 2013-06-19 2018-10-16 한국전자통신연구원 Method and apparatus for producing descriptive video service by using text to speech

Also Published As

Publication number Publication date
KR20210012815A (en) 2021-02-03

Similar Documents

Publication Publication Date Title
US10720145B2 (en) Speech synthesis apparatus, speech synthesis method, speech synthesis program, portable information terminal, and speech synthesis system
US9330657B2 (en) Text-to-speech for digital literature
US9330720B2 (en) Methods and apparatus for altering audio output signals
US9318100B2 (en) Supplementing audio recorded in a media file
CN110782900B (en) Collaborative AI storytelling
CN108228132A (en) Promote the establishment and playback of audio that user records
US20090254826A1 (en) Portable Communications Device
US20030028380A1 (en) Speech system
JP2015517684A (en) Content customization
JP2020056996A (en) Tone color selectable voice reproduction system, its reproduction method, and computer readable storage medium
JPH11249867A (en) Voice browser system
US11049490B2 (en) Audio playback device and audio playback method thereof for adjusting text to speech of a target character using spectral features
KR20160131505A (en) Method and server for conveting voice
JP2019091416A (en) Method and device for constructing artificial intelligence application
CN109460548B (en) Intelligent robot-oriented story data processing method and system
JPH11109991A (en) Man machine interface system
Royston Podcasts and new orality in the African mediascape
US20090306960A1 (en) Music playback apparatus and music playback method
KR101790709B1 (en) System, apparatus and method for providing service of an orally narrated fairy tale
KR102184053B1 (en) Method for generating webtoon video for delivering lines converted into different voice for each character
KR102267651B1 (en) Method and apparatus for providing audio content
KR20180042116A (en) System, apparatus and method for providing service of an orally narrated fairy tale
KR102232642B1 (en) Media play device and voice recognition server for providing sound effect of story contents
US11790913B2 (en) Information providing method, apparatus, and storage medium, that transmit related information to a remote terminal based on identification information received from the remote terminal
JP7229296B2 (en) Related information provision method and system

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant