KR20190075765A - Webtoon tts system - Google Patents
Webtoon tts system Download PDFInfo
- Publication number
- KR20190075765A KR20190075765A KR1020170177616A KR20170177616A KR20190075765A KR 20190075765 A KR20190075765 A KR 20190075765A KR 1020170177616 A KR1020170177616 A KR 1020170177616A KR 20170177616 A KR20170177616 A KR 20170177616A KR 20190075765 A KR20190075765 A KR 20190075765A
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- scene
- character
- speech
- unit
- Prior art date
Links
- 230000008451 emotion Effects 0.000 claims abstract description 16
- 230000000694 effects Effects 0.000 claims abstract description 10
- 238000006243 chemical reaction Methods 0.000 claims abstract description 5
- 241000556720 Manga Species 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G06K9/00442—
-
- G06K9/00624—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/30—Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Processing Or Creating Images (AREA)
Abstract
Description
본 발명은 문자음성자동변환을 이용한 웹툰의 음성출력 시스템에 관한 것이다BACKGROUND OF THE INVENTION 1. Field of the Invention [0001]
본 발명은 문자음성자동변환을 이용한 웹툰의 음성출력 시스템에 관한 것이다. 웹툰은 웹에서 보여주기 위한 만화를 말하는 것으로서 최근에는 네이버나 다음과 같은 포탈을 중심으로 만화를 게재하기도 하며 개인블로그나 홈페이지의 발달과 만화를 그릴 수 있는 도구들이 보급되면서 만화는 웹툰으로 옮겨가고 있는 추세이다. BACKGROUND OF THE INVENTION 1. Field of the Invention [0002] The present invention relates to a voice output system of WebtoTun using automatic voice / voice conversion. Webtoon is a cartoon for showing on the web. In recent years, it has posted manga around Naver and the following portals. As the development of personal blogs and homepages and the tools to draw manga have become popular, Trend.
그런데 현재의 웹툰은 종이에 그린 만화를 스캔하여 그대로 올리거나 컴퓨터 상에서 작업한것이라고 하더라도 종이에 그리는 방법을 컴퓨터로 옮겨서 그리기 때문에 책 형태로 보던 만화를 웹에서 보는 것이외에는 종이에 그린 종래의 만화와 크게 차이가 없다. 최근에는 약간의 애니메이션이나 소리 등이 함께 표시되도록 하여 차별성을 주고 있지만 좀 더 다양한 효과가 구현될 수 있지만 아직 제한적으로 사용되고 있다. 대한민국 특허등록 제10-1040585호 'TTS 서버를 이용한 웹 리더 시스템 및 그 방법'은 마우스 포인터가 위치한 곳의 텍스트를 추출하여 음성으로 합성하고 이를 재생하도록 하는데 텍스트를 추출하는 단계 추출한 텍스트를 TTS 엔진으로 전송하는 단계, 음성을 합성하는 단계, 합성된 음성 데이터를 웹리더 클라이언트로 전송하는 단계를 포함한다. 대개는 남성과 여성 각각 한명의 그런데 단순한 기사, 뉴스의 경우에는 한가지 어조로 읽는 다고 하여도 듣는 사람 쪽에서는 크게 문제가 없지만 만화의 경우에는 말하는 사람의 성별, 나이, 성격 등과 연관시킬 수 밖에 없기 때문에 한 가지 음성만으로 합성하는 경우에 만화의 재미가 떨어지게 된다. However, the current webtoon is to scan the comic drawn on paper and upload it as it is, or even to work on the computer, but because it draws the way to draw on the computer to the computer, There is no difference. In recent years, some animations and sounds have been displayed together to give differentiation, but more various effects can be implemented, but they are still being used in a limited manner. Korean Patent Registration No. 10-1040585 'Web reader system using TTS server and method thereof' extracts the text where the mouse pointer is located, synthesizes it by voice, and reproduces it. Extracting the Text Step The extracted text is sent to the TTS engine Transmitting voice data, and transmitting the synthesized voice data to a web reader client. Most men and women are single, but in the case of news, they read in one tone, but there is no big problem in the listener, but in the case of comics, they have to associate with the sex, age and personality of the person speaking. When synthesizing with only the voice of a branch, the fun of the cartoon is reduced.
본 발명은 상기한 바와 같은 문제점을 해결하기 위하여 안출된 것으로서 웹툰에 등장하는 인물의 성, 나이, 성격 등에 따라 합성되는 목소리를 다르게 하는 시스템을 제공하는 것을 목적으로 한다. SUMMARY OF THE INVENTION The present invention has been made in order to solve the above-mentioned problems, and it is an object of the present invention to provide a system for differently synthesizing voices according to the sex, age,
상기한 바와 같은 과제를 해결하기 위하여 문자음성자동변환을 이용한 웹툰의 음성출력 시스템을 제공하는데 웹툰의 한 컷을 입력받아 장면을 구성하고 있는 인믈, 배경, 말풍선, 효과음, 효과선을 포함하는 장면의 구성요소별로 장면을 분할하고 분할된 구성요소를 관계가 있는 것끼리 연결하여 저장하는 장면인식부(11)와 인식된 구성요소에서 인물을 따로 인식하여 주요등장인물과 1회성 등장인물을 구분하는 인물인식부(12)와 인식된 인물의 특성에 따라서 인물의 음성을 선택하는 음성선택부(13)와 말풍선내의 텍스트를 인식하는 텍스트인식부(14)와 장면인식부(11)에서 인식된 구성요소로부터 컷내의 분위기와 인물의 감정을 파악하여 인물의 말하는 어조,톤, 빠르기를 선택하는 감정조절부(15)와 음성을 출력하는 음성출력부(16)를 포함할 수 있다. In order to solve the above-mentioned problems, the present invention provides a voice output system of Webtoont using automatic text-to-speech conversion, in which a cut of a webtoon is inputted and a scene including a character, background, speech bubble, A scene recognizing unit 11 for dividing a scene into individual components and storing the divided components connected to each other and storing them, and a person who recognizes the characters separately from the recognized components and distinguishes between the main characters and the one-time characters A recognition unit 12 and a voice selection unit 13 for selecting a voice of a person in accordance with the recognized personality, a text recognition unit 14 for recognizing text in a speech balloon, An emotion control unit 15 for picking up the atmosphere and the emotion of the person in the cut and selecting the tone, tone, and speed of the person to speak, and an audio output unit 16 for outputting audio.
상기한 바와 같은 발명에 의하여 웹툰을 실감있게 감상할 수 있는 효과를 가진다. According to the above-described invention, the webtoons can be sensed realistically.
도1은 본 발명에 따른 일실시예를 도시하는 도면1 is a view showing an embodiment according to the present invention
이하, 첨부한 도면을 참고로 하여 본 발명을 상세하게 설명한다. 본 발명에 따른 일실시예를 도시한다. 본 발명에 따른 시스템은 웹툰의 한페이지 혹은 한컷을 입력받게 되면 해당 장면에서 인물과 인물의 대사 효과음을 인식하게 되는데 장면인식부(11)는 만화의 컷에서 이러한 인물, 인물의 대사, 배경, 효과음을 따로 분리하여 인식하게 된다. 이때 장면인식부(11)는 단순히 여러 가지 구성요소를 나누기만 하는게 아니라 각각의 구성요소가 어떻게 결합되어 있는지를 판단하고 관계있는 것끼리 1차적으로 결합시키게 된다. 즉, 대사가 있는 인물인 경우 어떤 대사가 어떤 인물의 것인지 확인하는데 말풍선의 연결관계등에서 대사를 하는 인물, 효과음을 내는 인물, 인물과는 관계없는 배경음등을 확인하여 저장하게 된다. Hereinafter, the present invention will be described in detail with reference to the accompanying drawings. FIG. 4 shows an embodiment according to the present invention. FIG. The system according to the present invention recognizes a character and a metabolic sound effect of a person in a scene when a page or a single cut of the webtoon is received. The scene recognition unit 11 recognizes the character, character metabolism, background, Are separated and recognized. At this time, the scene recognition unit 11 does not simply divide the various components but determines how the respective components are combined and primarily combines the related components. In other words, in the case of a person with a dialogue, a person who is metabolized in the connection relationship of a speech bubble, a person who gives a sound effect, and a background sound unrelated to the person are checked and confirmed.
인물인식부(12)는 장면에서 인식된 인물이 미리 설정된 인물인지 1회성으로 등장하는 인물인지를 확인하게 되어 미리 설정된 인물이라면 미리 저장된 인물의 특성(나이, 성별, 직업등)과 관련되어 미리 설정된 음성데이터를 불러오게 된다. 주요 등장인물이 아닌 경우 그림에서 얻을 수 있는 정보에 의하여 음성을 선택하게 된다. The person recognizing unit 12 confirms whether the person recognized in the scene is a preset person or a person who appears in a one-time manner. If the person is a preset person, the person recognizing unit 12 sets the person in advance in relation to the characteristics (age, sex, The voice data is retrieved. If you are not a major character, you will select the voice by the information available in the picture.
음성선택은 음성선택부(13)에 의하여 이루어질 수 있으며 미리 설정된 인물인 경우 미리 설정된 변수를 적용하여 음성을 선택하게 되며 사용자에 의하여 직접 선택하도록 할 수 있다. The voice selection may be performed by the voice selection unit 13, and in the case of a predetermined person, a voice is selected by applying a preset parameter, and the voice can be directly selected by the user.
이때 사용자의 기호에 따라서 이퀄라이징을 포함하여 말하는 톤, 속도 등을 조절할 수 있도록 하여 사용자가 원하는 형태로 선택가능하게 할 수 있으며 이렇게 선택된 음성은 저장되어 해당인물이 인식될때마다 같은 음성을 사용하도록 한다. At this time, it is possible to adjust the talking tone, speed, etc. including equalizing according to the user's preference, so that the user can select the desired voice. The voice thus selected is stored and uses the same voice every time the person is recognized.
텍스트인식부(14)는 말풍선내의 텍스트를 OCR 기법을 이용하여 인식을 하게 되며 음성출력부(16)를 통하여 출력을 하게 된다. 감정조절부(15)는 인물의 감정을 인식하여 감정에 따라서 어조에 변화를 주게 된다. The text recognition unit 14 recognizes the text in the speech balloon by using the OCR technique and outputs the text through the speech output unit 16. The emotion control unit 15 recognizes the emotion of the person and changes the tone according to the emotion.
최초에 장면인식부(11)에서 장면을 인식할 때 인물의 표정, 장면의 배경, 효과음으로부터 인물의 감정을 추출해내게 된다. 만화의 경우 단순한 텍스트로 담아내지 못하는 것을 표현하기 위하여 배경선, 효과음, 과장된 표정등을 사용하기 때문에 일반적인 그림에서보다 인물의 감정이나 분위기를 파악하는 것이 용이하다. When the scene recognition unit 11 recognizes the scene for the first time, the emotion of the person is extracted from the facial expression of the person, the scene background, and the effect sound. In the case of comics, it is easy to grasp the emotions and moods of characters rather than general pictures because they use background lines, effect sounds, and exaggerated facial expressions to express things that can not be contained in simple texts.
이를 위하여 기존에 출판된 만화의 인물, 배경, 인물의 표정, 효과선,효과음등을 변수로 하여 각각의 컷의 등장인물의 감정을 학습시키고 현재의 장면을 제시하여 각각의 인물의 감정을 판단하도록 하여 텍스트인식부가 인식한 텍스트를 출력할 때 감정조절부에서 이를 반영할 수 있게 한다. For this purpose, the emotion of the character of each cut is learned, the current scene is presented, and the emotion of each person is judged by using the character, background, character expression, effect line, And when the text recognizing unit outputs the recognized text, the emotion adjusting unit can reflect the same.
감정조절부(15)가 없는 경우 교과서 읽기와 같은 텍스트 출력이 될 수 있지만 감정조절부(15)에 의하여 만화의 분위기에 맞는 음성출력이 될 수 있다. In the absence of the emotion control unit 15, text output such as reading a textbook may be obtained. However, the emotion control unit 15 may output sound corresponding to the mood of the comic.
또하느 배경음출력부(17)는 음성과 함께 혹은 음성의 전후에 따로 출력되는데 배경이 되는 소리를 데이터베이스로부터 가져와 음성과 함께 출력되도록 하여 현장감을 더하도록 할 수 있다. In addition, the background sound output unit 17 is separately output before or after the sound, and the background sound is taken out from the database and outputted together with the sound, so that the sense of presence can be added.
Claims (1)
웹툰의 한 컷을 입력받아 장면을 구성하고 있는 인믈, 배경, 말풍선, 효과음, 효과선을 포함하는 장면의 구성요소별로 장면을 분할하고 분할된 구성요소를 관계가 있는 것끼리 연결하여 저장하는 장면인식부(11)와
인식된 구성요소에서 인물을 따로 인식하여 주요등장인물과 1회성 등장인물을 구분하는 인물인식부(12)와
인식된 인물의 특성에 따라서 인물의 음성을 선택하는 음성선택부(13)와
말풍선내의 텍스트를 인식하는 텍스트인식부(14)와
장면인식부(11)에서 인식된 구성요소로부터 컷내의 분위기와 인물의 감정을 파악하여 인물의 말하는 어조,톤, 빠르기를 선택하는 감정조절부(15)와
음성을 출력하는 음성출력부(16)를 포함하는, 문자음성자동변환을 이용한 웹툰의 음성출력 시스템
A speech output system of WebtoTun using automatic speech-to-speech conversion,
Scene recognition is performed by dividing a scene into components of a scene including a character, a background, a speech bubble, an effect sound, and an effect line constituting a scene by receiving a cut of the Webtoon, The portions 11 and
A person recognition unit 12 for recognizing a person separately from the recognized component and distinguishing the main character from the one-time character
A voice selecting unit 13 for selecting the voice of the person according to the recognized personality,
A text recognition unit 14 for recognizing text in a speech balloon
An emotion control unit 15 for recognizing emotions of an atmosphere and a person in the cut from the components recognized by the scene recognition unit 11 and selecting a tone,
And a voice output unit (16) for outputting voice, and a voice output system
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170177616A KR20190075765A (en) | 2017-12-21 | 2017-12-21 | Webtoon tts system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170177616A KR20190075765A (en) | 2017-12-21 | 2017-12-21 | Webtoon tts system |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20190075765A true KR20190075765A (en) | 2019-07-01 |
Family
ID=67255763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170177616A KR20190075765A (en) | 2017-12-21 | 2017-12-21 | Webtoon tts system |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20190075765A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102180805B1 (en) | 2019-11-12 | 2020-11-19 | 네오코믹스 주식회사 | An automatic audio extraction system for webtoon by identifying speakers of a speech buble |
-
2017
- 2017-12-21 KR KR1020170177616A patent/KR20190075765A/en unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102180805B1 (en) | 2019-11-12 | 2020-11-19 | 네오코믹스 주식회사 | An automatic audio extraction system for webtoon by identifying speakers of a speech buble |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108962217B (en) | Speech synthesis method and related equipment | |
US11202131B2 (en) | Maintaining original volume changes of a character in revoiced media stream | |
US9330657B2 (en) | Text-to-speech for digital literature | |
US11159597B2 (en) | Systems and methods for artificial dubbing | |
US20210224319A1 (en) | Artificially generating audio data from textual information and rhythm information | |
US8954328B2 (en) | Systems and methods for document narration with multiple characters having multiple moods | |
US11520079B2 (en) | Personalizing weather forecast | |
KR101628050B1 (en) | Animation system for reproducing text base data by animation | |
JP2003521750A (en) | Speech system | |
US20140019137A1 (en) | Method, system and server for speech synthesis | |
CN111079423A (en) | Method for generating dictation, reading and reporting audio, electronic equipment and storage medium | |
US20220189461A1 (en) | Augmented training data for end-to-end models | |
US20080243510A1 (en) | Overlapping screen reading of non-sequential text | |
CN111160051B (en) | Data processing method, device, electronic equipment and storage medium | |
CN117351929A (en) | Translation method, translation device, electronic equipment and storage medium | |
KR102184053B1 (en) | Method for generating webtoon video for delivering lines converted into different voice for each character | |
KR20190075765A (en) | Webtoon tts system | |
CN114514576A (en) | Data processing method, device and storage medium | |
CN113192484A (en) | Method, apparatus, and storage medium for generating audio based on text | |
KR20190111642A (en) | Image processing system and method using talking head animation based on the pixel of real picture | |
KR102613350B1 (en) | Method and device for providing contents using text | |
CN113505612B (en) | Multi-user dialogue voice real-time translation method, device, equipment and storage medium | |
KR20090112882A (en) | Multimedia data offering service by Using TTS and Talking head | |
CN118762712A (en) | Theatre audio work generation method, device, equipment, medium and program product | |
ELNOSHOKATY | CINEMA INDUSTRY AND ARTIFICIAL INTELLIGENCY DREAMS |