KR20190075765A - Webtoon tts system - Google Patents

Webtoon tts system Download PDF

Info

Publication number
KR20190075765A
KR20190075765A KR1020170177616A KR20170177616A KR20190075765A KR 20190075765 A KR20190075765 A KR 20190075765A KR 1020170177616 A KR1020170177616 A KR 1020170177616A KR 20170177616 A KR20170177616 A KR 20170177616A KR 20190075765 A KR20190075765 A KR 20190075765A
Authority
KR
South Korea
Prior art keywords
voice
scene
character
speech
unit
Prior art date
Application number
KR1020170177616A
Other languages
Korean (ko)
Inventor
전달용
Original Assignee
(주)아이디어 콘서트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)아이디어 콘서트 filed Critical (주)아이디어 콘서트
Priority to KR1020170177616A priority Critical patent/KR20190075765A/en
Publication of KR20190075765A publication Critical patent/KR20190075765A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • G06K9/00442
    • G06K9/00624
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Processing Or Creating Images (AREA)

Abstract

The present invention relates to an audio output system for webcomics using automatic text-to-speech conversion. The audio output system for webcomics using automatic text-to-speech conversion comprises: a scene recognizing unit (11) configured to receive one photo of the webcomics, divide a scene according to components, which form the scene, such as characters, a background, a speech bubble, a sound effect, and an effect line, connect the divided components related to each other and store the same; a character recognizing unit (12) configured to separately recognize the characters in the recognized components so as to distinguish a main character from a one-time character; a voice selection unit (13) configured to select a voice for each character according to characteristics of the recognized characters; a text recognizing unit (14) configured to recognize a text in the speech bubble; an emotion control unit (15) configured to recognize the atmosphere of the photo and emotions of the characters from the components recognized by the scene recognizing unit (11) and select a tone and a speech speed of each character; and a voice output unit (16) configured to output a voice. Accordingly, a user is able to realistically enjoy webcomics.

Description

문자음성자동변환을 이용한 웹툰의 음성출력 시스템{WEBTOON TTS SYSTEM}WEBTOON TTS SYSTEM <br> <br> <br> Patents - stay tuned to the technology WEBTOON TTS SYSTEM {

본 발명은 문자음성자동변환을 이용한 웹툰의 음성출력 시스템에 관한 것이다BACKGROUND OF THE INVENTION 1. Field of the Invention [0001]

본 발명은 문자음성자동변환을 이용한 웹툰의 음성출력 시스템에 관한 것이다. 웹툰은 웹에서 보여주기 위한 만화를 말하는 것으로서 최근에는 네이버나 다음과 같은 포탈을 중심으로 만화를 게재하기도 하며 개인블로그나 홈페이지의 발달과 만화를 그릴 수 있는 도구들이 보급되면서 만화는 웹툰으로 옮겨가고 있는 추세이다. BACKGROUND OF THE INVENTION 1. Field of the Invention [0002] The present invention relates to a voice output system of WebtoTun using automatic voice / voice conversion. Webtoon is a cartoon for showing on the web. In recent years, it has posted manga around Naver and the following portals. As the development of personal blogs and homepages and the tools to draw manga have become popular, Trend.

그런데 현재의 웹툰은 종이에 그린 만화를 스캔하여 그대로 올리거나 컴퓨터 상에서 작업한것이라고 하더라도 종이에 그리는 방법을 컴퓨터로 옮겨서 그리기 때문에 책 형태로 보던 만화를 웹에서 보는 것이외에는 종이에 그린 종래의 만화와 크게 차이가 없다. 최근에는 약간의 애니메이션이나 소리 등이 함께 표시되도록 하여 차별성을 주고 있지만 좀 더 다양한 효과가 구현될 수 있지만 아직 제한적으로 사용되고 있다. 대한민국 특허등록 제10-1040585호 'TTS 서버를 이용한 웹 리더 시스템 및 그 방법'은 마우스 포인터가 위치한 곳의 텍스트를 추출하여 음성으로 합성하고 이를 재생하도록 하는데 텍스트를 추출하는 단계 추출한 텍스트를 TTS 엔진으로 전송하는 단계, 음성을 합성하는 단계, 합성된 음성 데이터를 웹리더 클라이언트로 전송하는 단계를 포함한다. 대개는 남성과 여성 각각 한명의 그런데 단순한 기사, 뉴스의 경우에는 한가지 어조로 읽는 다고 하여도 듣는 사람 쪽에서는 크게 문제가 없지만 만화의 경우에는 말하는 사람의 성별, 나이, 성격 등과 연관시킬 수 밖에 없기 때문에 한 가지 음성만으로 합성하는 경우에 만화의 재미가 떨어지게 된다. However, the current webtoon is to scan the comic drawn on paper and upload it as it is, or even to work on the computer, but because it draws the way to draw on the computer to the computer, There is no difference. In recent years, some animations and sounds have been displayed together to give differentiation, but more various effects can be implemented, but they are still being used in a limited manner. Korean Patent Registration No. 10-1040585 'Web reader system using TTS server and method thereof' extracts the text where the mouse pointer is located, synthesizes it by voice, and reproduces it. Extracting the Text Step The extracted text is sent to the TTS engine Transmitting voice data, and transmitting the synthesized voice data to a web reader client. Most men and women are single, but in the case of news, they read in one tone, but there is no big problem in the listener, but in the case of comics, they have to associate with the sex, age and personality of the person speaking. When synthesizing with only the voice of a branch, the fun of the cartoon is reduced.

본 발명은 상기한 바와 같은 문제점을 해결하기 위하여 안출된 것으로서 웹툰에 등장하는 인물의 성, 나이, 성격 등에 따라 합성되는 목소리를 다르게 하는 시스템을 제공하는 것을 목적으로 한다. SUMMARY OF THE INVENTION The present invention has been made in order to solve the above-mentioned problems, and it is an object of the present invention to provide a system for differently synthesizing voices according to the sex, age,

상기한 바와 같은 과제를 해결하기 위하여 문자음성자동변환을 이용한 웹툰의 음성출력 시스템을 제공하는데 웹툰의 한 컷을 입력받아 장면을 구성하고 있는 인믈, 배경, 말풍선, 효과음, 효과선을 포함하는 장면의 구성요소별로 장면을 분할하고 분할된 구성요소를 관계가 있는 것끼리 연결하여 저장하는 장면인식부(11)와 인식된 구성요소에서 인물을 따로 인식하여 주요등장인물과 1회성 등장인물을 구분하는 인물인식부(12)와 인식된 인물의 특성에 따라서 인물의 음성을 선택하는 음성선택부(13)와 말풍선내의 텍스트를 인식하는 텍스트인식부(14)와 장면인식부(11)에서 인식된 구성요소로부터 컷내의 분위기와 인물의 감정을 파악하여 인물의 말하는 어조,톤, 빠르기를 선택하는 감정조절부(15)와 음성을 출력하는 음성출력부(16)를 포함할 수 있다. In order to solve the above-mentioned problems, the present invention provides a voice output system of Webtoont using automatic text-to-speech conversion, in which a cut of a webtoon is inputted and a scene including a character, background, speech bubble, A scene recognizing unit 11 for dividing a scene into individual components and storing the divided components connected to each other and storing them, and a person who recognizes the characters separately from the recognized components and distinguishes between the main characters and the one-time characters A recognition unit 12 and a voice selection unit 13 for selecting a voice of a person in accordance with the recognized personality, a text recognition unit 14 for recognizing text in a speech balloon, An emotion control unit 15 for picking up the atmosphere and the emotion of the person in the cut and selecting the tone, tone, and speed of the person to speak, and an audio output unit 16 for outputting audio.

상기한 바와 같은 발명에 의하여 웹툰을 실감있게 감상할 수 있는 효과를 가진다. According to the above-described invention, the webtoons can be sensed realistically.

도1은 본 발명에 따른 일실시예를 도시하는 도면1 is a view showing an embodiment according to the present invention

이하, 첨부한 도면을 참고로 하여 본 발명을 상세하게 설명한다. 본 발명에 따른 일실시예를 도시한다. 본 발명에 따른 시스템은 웹툰의 한페이지 혹은 한컷을 입력받게 되면 해당 장면에서 인물과 인물의 대사 효과음을 인식하게 되는데 장면인식부(11)는 만화의 컷에서 이러한 인물, 인물의 대사, 배경, 효과음을 따로 분리하여 인식하게 된다. 이때 장면인식부(11)는 단순히 여러 가지 구성요소를 나누기만 하는게 아니라 각각의 구성요소가 어떻게 결합되어 있는지를 판단하고 관계있는 것끼리 1차적으로 결합시키게 된다. 즉, 대사가 있는 인물인 경우 어떤 대사가 어떤 인물의 것인지 확인하는데 말풍선의 연결관계등에서 대사를 하는 인물, 효과음을 내는 인물, 인물과는 관계없는 배경음등을 확인하여 저장하게 된다. Hereinafter, the present invention will be described in detail with reference to the accompanying drawings. FIG. 4 shows an embodiment according to the present invention. FIG. The system according to the present invention recognizes a character and a metabolic sound effect of a person in a scene when a page or a single cut of the webtoon is received. The scene recognition unit 11 recognizes the character, character metabolism, background, Are separated and recognized. At this time, the scene recognition unit 11 does not simply divide the various components but determines how the respective components are combined and primarily combines the related components. In other words, in the case of a person with a dialogue, a person who is metabolized in the connection relationship of a speech bubble, a person who gives a sound effect, and a background sound unrelated to the person are checked and confirmed.

인물인식부(12)는 장면에서 인식된 인물이 미리 설정된 인물인지 1회성으로 등장하는 인물인지를 확인하게 되어 미리 설정된 인물이라면 미리 저장된 인물의 특성(나이, 성별, 직업등)과 관련되어 미리 설정된 음성데이터를 불러오게 된다. 주요 등장인물이 아닌 경우 그림에서 얻을 수 있는 정보에 의하여 음성을 선택하게 된다.  The person recognizing unit 12 confirms whether the person recognized in the scene is a preset person or a person who appears in a one-time manner. If the person is a preset person, the person recognizing unit 12 sets the person in advance in relation to the characteristics (age, sex, The voice data is retrieved. If you are not a major character, you will select the voice by the information available in the picture.

음성선택은 음성선택부(13)에 의하여 이루어질 수 있으며 미리 설정된 인물인 경우 미리 설정된 변수를 적용하여 음성을 선택하게 되며 사용자에 의하여 직접 선택하도록 할 수 있다.  The voice selection may be performed by the voice selection unit 13, and in the case of a predetermined person, a voice is selected by applying a preset parameter, and the voice can be directly selected by the user.

이때 사용자의 기호에 따라서 이퀄라이징을 포함하여 말하는 톤, 속도 등을 조절할 수 있도록 하여 사용자가 원하는 형태로 선택가능하게 할 수 있으며 이렇게 선택된 음성은 저장되어 해당인물이 인식될때마다 같은 음성을 사용하도록 한다. At this time, it is possible to adjust the talking tone, speed, etc. including equalizing according to the user's preference, so that the user can select the desired voice. The voice thus selected is stored and uses the same voice every time the person is recognized.

텍스트인식부(14)는 말풍선내의 텍스트를 OCR 기법을 이용하여 인식을 하게 되며 음성출력부(16)를 통하여 출력을 하게 된다. 감정조절부(15)는 인물의 감정을 인식하여 감정에 따라서 어조에 변화를 주게 된다. The text recognition unit 14 recognizes the text in the speech balloon by using the OCR technique and outputs the text through the speech output unit 16. The emotion control unit 15 recognizes the emotion of the person and changes the tone according to the emotion.

최초에 장면인식부(11)에서 장면을 인식할 때 인물의 표정, 장면의 배경, 효과음으로부터 인물의 감정을 추출해내게 된다. 만화의 경우 단순한 텍스트로 담아내지 못하는 것을 표현하기 위하여 배경선, 효과음, 과장된 표정등을 사용하기 때문에 일반적인 그림에서보다 인물의 감정이나 분위기를 파악하는 것이 용이하다. When the scene recognition unit 11 recognizes the scene for the first time, the emotion of the person is extracted from the facial expression of the person, the scene background, and the effect sound. In the case of comics, it is easy to grasp the emotions and moods of characters rather than general pictures because they use background lines, effect sounds, and exaggerated facial expressions to express things that can not be contained in simple texts.

이를 위하여 기존에 출판된 만화의 인물, 배경, 인물의 표정, 효과선,효과음등을 변수로 하여 각각의 컷의 등장인물의 감정을 학습시키고 현재의 장면을 제시하여 각각의 인물의 감정을 판단하도록 하여 텍스트인식부가 인식한 텍스트를 출력할 때 감정조절부에서 이를 반영할 수 있게 한다. For this purpose, the emotion of the character of each cut is learned, the current scene is presented, and the emotion of each person is judged by using the character, background, character expression, effect line, And when the text recognizing unit outputs the recognized text, the emotion adjusting unit can reflect the same.

감정조절부(15)가 없는 경우 교과서 읽기와 같은 텍스트 출력이 될 수 있지만 감정조절부(15)에 의하여 만화의 분위기에 맞는 음성출력이 될 수 있다. In the absence of the emotion control unit 15, text output such as reading a textbook may be obtained. However, the emotion control unit 15 may output sound corresponding to the mood of the comic.

또하느 배경음출력부(17)는 음성과 함께 혹은 음성의 전후에 따로 출력되는데 배경이 되는 소리를 데이터베이스로부터 가져와 음성과 함께 출력되도록 하여 현장감을 더하도록 할 수 있다. In addition, the background sound output unit 17 is separately output before or after the sound, and the background sound is taken out from the database and outputted together with the sound, so that the sense of presence can be added.

Claims (1)

문자음성자동변환을 이용한 웹툰의 음성출력 시스템으로서,
웹툰의 한 컷을 입력받아 장면을 구성하고 있는 인믈, 배경, 말풍선, 효과음, 효과선을 포함하는 장면의 구성요소별로 장면을 분할하고 분할된 구성요소를 관계가 있는 것끼리 연결하여 저장하는 장면인식부(11)와
인식된 구성요소에서 인물을 따로 인식하여 주요등장인물과 1회성 등장인물을 구분하는 인물인식부(12)와
인식된 인물의 특성에 따라서 인물의 음성을 선택하는 음성선택부(13)와
말풍선내의 텍스트를 인식하는 텍스트인식부(14)와
장면인식부(11)에서 인식된 구성요소로부터 컷내의 분위기와 인물의 감정을 파악하여 인물의 말하는 어조,톤, 빠르기를 선택하는 감정조절부(15)와
음성을 출력하는 음성출력부(16)를 포함하는, 문자음성자동변환을 이용한 웹툰의 음성출력 시스템

A speech output system of WebtoTun using automatic speech-to-speech conversion,
Scene recognition is performed by dividing a scene into components of a scene including a character, a background, a speech bubble, an effect sound, and an effect line constituting a scene by receiving a cut of the Webtoon, The portions 11 and
A person recognition unit 12 for recognizing a person separately from the recognized component and distinguishing the main character from the one-time character
A voice selecting unit 13 for selecting the voice of the person according to the recognized personality,
A text recognition unit 14 for recognizing text in a speech balloon
An emotion control unit 15 for recognizing emotions of an atmosphere and a person in the cut from the components recognized by the scene recognition unit 11 and selecting a tone,
And a voice output unit (16) for outputting voice, and a voice output system

KR1020170177616A 2017-12-21 2017-12-21 Webtoon tts system KR20190075765A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170177616A KR20190075765A (en) 2017-12-21 2017-12-21 Webtoon tts system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170177616A KR20190075765A (en) 2017-12-21 2017-12-21 Webtoon tts system

Publications (1)

Publication Number Publication Date
KR20190075765A true KR20190075765A (en) 2019-07-01

Family

ID=67255763

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170177616A KR20190075765A (en) 2017-12-21 2017-12-21 Webtoon tts system

Country Status (1)

Country Link
KR (1) KR20190075765A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102180805B1 (en) 2019-11-12 2020-11-19 네오코믹스 주식회사 An automatic audio extraction system for webtoon by identifying speakers of a speech buble

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102180805B1 (en) 2019-11-12 2020-11-19 네오코믹스 주식회사 An automatic audio extraction system for webtoon by identifying speakers of a speech buble

Similar Documents

Publication Publication Date Title
CN108962217B (en) Speech synthesis method and related equipment
US11202131B2 (en) Maintaining original volume changes of a character in revoiced media stream
US9330657B2 (en) Text-to-speech for digital literature
US11159597B2 (en) Systems and methods for artificial dubbing
US20210224319A1 (en) Artificially generating audio data from textual information and rhythm information
US8954328B2 (en) Systems and methods for document narration with multiple characters having multiple moods
US11520079B2 (en) Personalizing weather forecast
KR101628050B1 (en) Animation system for reproducing text base data by animation
JP2003521750A (en) Speech system
US20140019137A1 (en) Method, system and server for speech synthesis
CN111079423A (en) Method for generating dictation, reading and reporting audio, electronic equipment and storage medium
US20220189461A1 (en) Augmented training data for end-to-end models
US20080243510A1 (en) Overlapping screen reading of non-sequential text
CN111160051B (en) Data processing method, device, electronic equipment and storage medium
CN117351929A (en) Translation method, translation device, electronic equipment and storage medium
KR102184053B1 (en) Method for generating webtoon video for delivering lines converted into different voice for each character
KR20190075765A (en) Webtoon tts system
CN114514576A (en) Data processing method, device and storage medium
CN113192484A (en) Method, apparatus, and storage medium for generating audio based on text
KR20190111642A (en) Image processing system and method using talking head animation based on the pixel of real picture
KR102613350B1 (en) Method and device for providing contents using text
CN113505612B (en) Multi-user dialogue voice real-time translation method, device, equipment and storage medium
KR20090112882A (en) Multimedia data offering service by Using TTS and Talking head
CN118762712A (en) Theatre audio work generation method, device, equipment, medium and program product
ELNOSHOKATY CINEMA INDUSTRY AND ARTIFICIAL INTELLIGENCY DREAMS