KR102138132B1 - 언어학습을 위한 애니메이션 더빙 서비스 제공 시스템 - Google Patents
언어학습을 위한 애니메이션 더빙 서비스 제공 시스템 Download PDFInfo
- Publication number
- KR102138132B1 KR102138132B1 KR1020190062890A KR20190062890A KR102138132B1 KR 102138132 B1 KR102138132 B1 KR 102138132B1 KR 1020190062890 A KR1020190062890 A KR 1020190062890A KR 20190062890 A KR20190062890 A KR 20190062890A KR 102138132 B1 KR102138132 B1 KR 102138132B1
- Authority
- KR
- South Korea
- Prior art keywords
- dubbing
- user terminal
- user
- character
- content
- Prior art date
Links
- 239000000284 extract Substances 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 description 39
- 238000012549 training Methods 0.000 description 19
- 238000004891 communication Methods 0.000 description 10
- 238000013515 script Methods 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000001815 facial effect Effects 0.000 description 5
- 230000008921 facial expression Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 241000270295 Serpentes Species 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
-
- G06Q50/30—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B17/00—Teaching reading
- G09B17/003—Teaching reading electrically operated apparatus or devices
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/06—Foreign languages
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/06—Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
- G09B5/065—Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
- H04N21/2368—Multiplexing of audio and video streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/265—Mixing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Educational Technology (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Marketing (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Entrepreneurship & Innovation (AREA)
- Computing Systems (AREA)
- Operations Research (AREA)
- Processing Or Creating Images (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
언어학습을 위한 애니메이션 더빙 서비스 제공 시스템이 제공되며, 더빙 서비스 페이지에 접속하여 애니메이션 콘텐츠를 선택하고, 선택된 애니메이션 콘텐츠 내에 포함된 적어도 하나의 캐릭터 중 하나의 캐릭터를 선택하고, 선택된 캐릭터 및 선택된 애니메이션에 대한 정보를 수신하여 출력하고, 적어도 하나의 배경음 중 어느 하나의 배경음을 선택하고, 애니메이션 콘텐츠의 영상 콘텐츠를 스트리밍받아 화면에 출력하면서 출력장치로 선택된 배경음을 출력하도록 제어되고, 사용자의 음성 발화를 입력장치를 통하여 입력받는 사용자 단말, 및 사용자 단말에서 더빙 서비스 페이지에 엑세스하는 이벤트가 발생하는 경우, 적어도 하나의 애니메이션 콘텐츠 중 어느 하나를 선택하도록 하는 선택부, 사용자 단말에서 선택된 애니메이션 콘텐츠 내에 포함된 적어도 하나의 캐릭터 중 어느 하나의 캐릭터를 선택하도록 하는 캐릭터결정부, 사용자 단말에서 적어도 하나의 배경음 중 어느 하나의 배경음을 선택하도록 하는 배경음결정부, 애니메이션 콘텐츠의 플롯 및 선택된 캐릭터의 성격에 대한 정보를 사용자 단말로 전송하는 정보 제공부, 사용자 단말에서 더빙 이벤트가 발생하는 경우, 선택된 배경음을 사용자 단말과 연동된 출력장치로 출력하도록 제어하고, 입력장치로 입력된 사용자의 발화를 입력받아 더빙을 수행하는 더빙부를 포함하는 더빙 서비스 제공 서버를 포함한다.
Description
본 발명은 언어학습을 위한 애니메이션 더빙 서비스 제공 시스템에 관한 것으로, 가정에서도 손 쉽게 애니메이션의 더빙을 진행할 수 있는 플랫폼을 제공한다.
외국어 교육에서 문법을 교수하는 다양한 방법이 있지만, 대부분은 교수자의 강의 설명이 있은 후 학습자는 무작정 암기를 하는 것이 일반적인 교수법이다. 따라서 문법은 그 특성상 문장 맥락의 흐름 없이 외우는 데에 치중하면 곧바로 잊어버리기가 쉽고 암기해야만 하는 딱딱한 것으로 인식될 수 있다. 현재 대부분의 외국어 교육의 초점은 의사소통 능력의 향상에 있으며, 외국어 학습 또한 상황에 맞게 유창하고 자연스럽게 언어를 구사하는 것이 중요한 일이 되었다. 외국어 교육에서 의사소통을 중요시하는 문법은 형식(form), 의미(meaning), 기능(function)을 모두 포함되는 것이다. 문법 교육은 문법 규칙에 대한 설명을 단어, 문형, 문단의 이해 및 생성과 함께 결합함으로써 학습자로 하여금 음성, 어휘를 학습하는 동시에 단어를 사용하고 문장을 만드는 기능까지 익히게 하고 또 외국어 의사소통을 가능하게 해야 하는 것인데, 이를 위해 외국어 문법적 교재로서 영화나 드라마, 애니메이션 등과 같은 영상을 활용한 자료들이 진정성 있는 자료로 평가 받고 있는 것은 타당한 일이라 하겠다.
이때, 외국어를 포함한 언어를 배울 때, 의사소통을 위한 대화를 훈련하는 방법이 연구 및 개발되었는데, 이와 관련하여, 선행기술인 한국공개특허 제2019-0004486호(2019년01월14일 공개)에는, 대화훈련학습에 사용될 대화내용과 대화훈련학습수준을 가지는 콘텐츠를 학습자로부터 선택받아, 선택된 콘텐츠를 대화훈련콘텐츠로 결정하는 대화훈련콘텐츠 선택 과정, 대화훈련콘텐츠의 대화훈련화면을 제공하여 대화훈련화면을 통한 대화훈련이 이루어지도록 하는 대화학습 훈련 과정, 대화학습 훈련 종료 후 평가를 거쳐 미리 설정된 기준에 미달할 경우, 대화훈련콘텐츠의 대화실전더빙화면을 제공하여 대화실전더빙을 통한 대화훈련이 이루어지도록 하는 대화실전더빙 훈련 과정, 및 대화실전더빙 훈련 종료 후 평가를 거쳐 미리 설정된 기준에 미달할 경우, 대화훈련콘텐츠의 증강현실화면을 제공하여 증강현실을 통한 대화훈련이 이루어지도록 하는 증강현실 훈련 과정이 개시되어 있다.
다만, 상술한 구성은 대화를 나눈다기 보다는, 훈련콘텐츠의 원 발화를 얼마나 정확히 따라하는지에 초점이 맞추어져 있기 때문에, 즉 대화시작 타이밍, 말속도, 억양, 명료도 등이 원 발화와 동일하지 않은 경우 오류로 인식하도록 함으로써, 원 발화자와 동일(Identify)하게 학습할 수 있을 뿐, 대화상황 및 문맥을 인지하고, 대화를 할 타이밍에 해당 문장을 발화하도록 하는 의사소통교육 및 이를 위한 콘텐츠를 제공하고 있지 않다.
본 발명의 일 실시예는, 더빙 콘텐츠를 선택받고, 더빙할 객체를 선택받으면, 해당 객체의 캐릭터 및 성격을 파악하도록 플롯을 제공하고, 대본을 리딩하는 과정을 거친 후, 영상 더빙 및 촬영을 수행하되, 배경음은 사용자가 선택할 수 있도록 옵션을 제공하고, 사용자는 영상 콘텐츠만을 수신하여 스피커에서 배경음이 나오도록 제어하며, 마이크를 이용하여 학습자가 자신의 음성을 입력하여 더빙할 수 있도록 하는, 언어학습을 위한 애니메이션 더빙 서비스 제공 방법을 제공할 수 있다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는, 음성을 포함하는 소리를 입력받는 입력장치 및 소리를 출력하는 출력장치와 연동되고, 더빙 서비스 페이지에 접속하여 애니메이션 콘텐츠를 선택하고, 선택된 애니메이션 콘텐츠 내에 포함된 적어도 하나의 캐릭터 중 하나의 캐릭터를 선택하고, 선택된 캐릭터 및 선택된 애니메이션에 대한 정보를 수신하여 출력하고, 적어도 하나의 배경음 중 어느 하나의 배경음을 선택하고, 애니메이션 콘텐츠의 영상 콘텐츠를 스트리밍받아 화면에 출력하면서 출력장치로 선택된 배경음을 출력하도록 제어되고, 사용자의 음성 발화를 입력장치를 통하여 입력받는 사용자 단말, 및, 사용자 단말에서 더빙 서비스 페이지에 엑세스하는 이벤트가 발생하는 경우, 적어도 하나의 애니메이션 콘텐츠 중 어느 하나를 선택하도록 하는 선택부, 사용자 단말에서 선택된 애니메이션 콘텐츠 내에 포함된 적어도 하나의 캐릭터 중 어느 하나의 캐릭터를 선택하도록 하는 캐릭터결정부, 사용자 단말에서 적어도 하나의 배경음 중 어느 하나의 배경음을 선택하도록 하는 배경음결정부, 애니메이션 콘텐츠의 플롯 및 선택된 캐릭터의 성격에 대한 정보를 사용자 단말로 전송하는 정보 제공부, 사용자 단말에서 더빙 이벤트가 발생하는 경우, 선택된 배경음을 사용자 단말과 연동된 출력장치로 출력하도록 제어하고, 입력장치로 입력된 사용자의 발화를 입력받아 더빙을 수행하는 더빙부를 포함하는 더빙 서비스 제공 서버를 포함한다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 더빙 콘텐츠를 선택받고, 더빙할 객체를 선택받으면, 해당 객체의 캐릭터 및 성격을 파악하도록 플롯을 제공하고, 대본을 리딩하는 과정을 거친 후, 영상 더빙 및 촬영을 수행하되, 배경음은 사용자가 선택할 수 있도록 옵션을 제공하고, 사용자는 영상 콘텐츠만을 수신하여 스피커에서 배경음이 나오도록 제어하며, 마이크를 이용하여 학습자가 자신의 음성을 입력하여 더빙할 수 있도록 함으로써, 외국어 및 한국어를 포함하는 언어의 학습능력을 길러주고, 자신감을 높여주며 발성법 및 감정표현법을 배울 수 있는 기회를 제공해줄 수 있다.
도 1은 본 발명의 일 실시예에 따른 언어학습을 위한 애니메이션 더빙 서비스 제공 시스템을 설명하기 위한 도면이다.
도 2는 도 1의 시스템에 포함된 더빙 서비스 제공 서버를 설명하기 위한 블록 구성도이다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 언어학습을 위한 애니메이션 더빙 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 언어학습을 위한 애니메이션 더빙 서비스 제공 방법을 설명하기 위한 동작 흐름도이다.
도 2는 도 1의 시스템에 포함된 더빙 서비스 제공 서버를 설명하기 위한 블록 구성도이다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 언어학습을 위한 애니메이션 더빙 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 언어학습을 위한 애니메이션 더빙 서비스 제공 방법을 설명하기 위한 동작 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
명세서 전체에서 사용되는 정도의 용어 "약", "실질적으로" 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본 발명의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본 발명의 명세서 전체에서 사용되는 정도의 용어 "~(하는) 단계" 또는 "~의 단계"는 "~ 를 위한 단계"를 의미하지 않는다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1개의 유닛이 2개 이상의 하드웨어를 이용하여 실현되어도 되고, 2개 이상의 유닛이 1개의 하드웨어에 의해 실현되어도 된다.
본 명세서에 있어서 단말, 장치 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말, 장치 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말, 장치 또는 디바이스에서 수행될 수도 있다.
본 명세서에서 있어서, 단말과 매핑(Mapping) 또는 매칭(Matching)으로 기술된 동작이나 기능 중 일부는, 단말의 식별 정보(Identifying Data)인 단말기의 고유번호나 개인의 식별정보를 매핑 또는 매칭한다는 의미로 해석될 수 있다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 언어학습을 위한 애니메이션 더빙 서비스 제공 시스템을 설명하기 위한 도면이다. 도 1을 참조하면, 언어학습을 위한 애니메이션 더빙 서비스 제공 시스템(1)은, 적어도 하나의 사용자 단말(100), 더빙 서비스 제공 서버(300), 적어도 하나의 피공유 단말(400)을 포함할 수 있다. 다만, 이러한 도 1의 언어학습을 위한 애니메이션 더빙 서비스 제공 시스템(1)은, 본 발명의 일 실시예에 불과하므로, 도 1을 통하여 본 발명이 한정 해석되는 것은 아니다.
이때, 도 1의 각 구성요소들은 일반적으로 네트워크(network, 200)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 적어도 하나의 사용자 단말(100)은 네트워크(200)를 통하여 더빙 서비스 제공 서버(300)와 연결될 수 있다. 그리고, 더빙 서비스 제공 서버(300)는, 네트워크(200)를 통하여 적어도 하나의 사용자 단말(100), 적어도 하나의 피공유 단말(400)과 연결될 수 있다. 또한, 적어도 하나의 피공유 단말(400)은, 네트워크(200)를 통하여 더빙 서비스 제공 서버(300)와 연결될 수 있다.
여기서, 네트워크는, 복수의 단말 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 RF, 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5GPP(5th Generation Partnership Project) 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, NFC 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.
하기에서, 적어도 하나의 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다. 또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시예에 따라 변경가능하다 할 것이다.
적어도 하나의 사용자 단말(100)은, 언어학습을 위한 애니메이션 더빙 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하여 애니메이션의 캐릭터와 배경음을 선택하고, 사용자의 음성을 발화한 발화 데이터를 더빙 서비스 제공 서버(300)로 전송하여 더빙 콘텐츠를 생성하는 단말일 수 있다. 이때, 적어도 하나의 사용자 단말(100)은, 음성 뿐만 아니라 사용자의 얼굴을 합성하도록 얼굴 영상 또는 이미지 등을 더빙 서비스 제공 서버(300)로 전송하는 단말일 수 있다. 그리고, 적어도 하나의 사용자 단말(100)은, 캐릭터의 입술을 립싱크하기 위하여 사용자의 얼굴 중 입술부위를 촬영하여 더빙 서비스 제공 서버(300)로 전송하는 단말일 수 있다.
여기서, 적어도 하나의 사용자 단말(100)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 사용자 단말(100)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 사용자 단말(100)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 스마트 패드(smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.
더빙 서비스 제공 서버(300)는, 언어학습을 위한 애니메이션 더빙 서비스 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 제공하는 서버일 수 있다. 그리고, 더빙 서비스 제공 서버(300)는, 사용자 단말(100)로부터 애니메이션 및 캐릭터를 선택받으면, 플롯 및 장면이나 상황을 이해할 수 있도록 플롯 및 캐릭터 정보를 사용자 단말(100)로 전송하는 서버일 수 있다. 또한, 더빙 서비스 제공 서버(300)는 사용자 단말(100)에서 대본 리딩을 수행한 후, 원하는 비디오 클립을 선택하여 더빙을 수행하도록 하는 서버일 수 있다. 이때, 더빙 서비스 제공 서버(300)는, 사용자의 음성 발화를 입력받고 비디오 클립에 배경음 및 음성 발화를 합성하여 더빙 콘텐츠를 생성하고, 사용자 단말(100)로 전송하는 서버일 수 있다. 또한, 더빙 서비스 제공 서버(300)는, 더빙 콘텐츠를 사용자 단말(100)의 소셜미디어로 공유하여 적어도 하나의 피공유 단말(400)에서 더빙 콘텐츠를 출력할 수 있도록 하는 서버일 수 있다. 그리고, 더빙 서비스 제공 서버(300)는, 사용자 단말(100) 및 적어도 하나의 피공유 단말(400)에서 함께 더빙을 할 수 있도록 다중사용자 모드를 제공하는 서버일 수 있다. 또한, 더빙 서비스 제공 서버(300)는, 사용자의 음성만을 합성하는 것이 아니라, 사용자의 얼굴을 캐릭터의 얼굴로 대체하는 합성을 진행하는 서버일 수 있다. 더 나아가, 더빙 서비스 제공 서버(300)는, 사용자의 얼굴 중 입술 부위를 마커로 실시간 립싱크를 수행하고, 캐릭터의 얼굴 중 입술 부위와 매칭시키는 합성을 진행하는 서버일 수도 있다.
여기서, 더빙 서비스 제공 서버(300)는, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다.
적어도 하나의 피공유 단말(400)은, 언어학습을 위한 애니메이션 더빙 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하는 피공유자의 단말일 수 있다. 이때, 적어도 하나의 피공유 단말(400)은, 더빙 서비스 제공 서버(300)로부터 사용자 단말(100)의 더빙 콘텐츠를 공유받는 단말일 수 있다. 그리고, 적어도 하나의 피공유 단말(400)은, 더빙 서비스 제공 서버(300)를 통하여 사용자 단말(100)과 함께 더빙을 수행하는 단말일 수 있다.
여기서, 적어도 하나의 피공유 단말(400)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 피공유 단말(400)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 피공유 단말(400)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 스마트 패드(smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.
도 2는 도 1의 시스템에 포함된 더빙 서비스 제공 서버를 설명하기 위한 블록 구성도이고, 도 3 및 도 4는 본 발명의 일 실시예에 따른 언어학습을 위한 애니메이션 더빙 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.
도 2를 참조하면, 더빙 서비스 제공 서버(300)는, 선택부(310), 캐릭터 결정부(320), 배경음 결정부(330), 정보 제공부(340), 더빙부(350), 저장부(360), 공유부(370)를 포함할 수 있다.
본 발명의 일 실시예에 따른 더빙 서비스 제공 서버(300)나 연동되어 동작하는 다른 서버(미도시)가 적어도 하나의 사용자 단말(100), 및 적어도 하나의 피공유 단말(400)로 언어학습을 위한 애니메이션 더빙 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 전송하는 경우, 적어도 하나의 사용자 단말(100), 및 적어도 하나의 피공유 단말(400)은, 언어학습을 위한 애니메이션 더빙 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 설치하거나 열 수 있다. 또한, 웹 브라우저에서 실행되는 스크립트를 이용하여 서비스 프로그램이 적어도 하나의 사용자 단말(100), 및 적어도 하나의 피공유 단말(400)에서 구동될 수도 있다. 여기서, 웹 브라우저는 웹(WWW: world wide web) 서비스를 이용할 수 있게 하는 프로그램으로 HTML(hyper text mark-up language)로 서술된 하이퍼 텍스트를 받아서 보여주는 프로그램을 의미하며, 예를 들어 넷스케이프(Netscape), 익스플로러(Explorer), 크롬(chrome) 등을 포함한다. 또한, 애플리케이션은 단말 상의 응용 프로그램(application)을 의미하며, 예를 들어, 모바일 단말(스마트폰)에서 실행되는 앱(app)을 포함한다.
도 2를 참조하면, 선택부(310)는, 사용자 단말(100)에서 더빙 서비스 페이지에 엑세스하는 이벤트가 발생하는 경우, 적어도 하나의 애니메이션 콘텐츠 중 어느 하나를 선택하도록 한다. 이때, 적어도 하나의 애니메이션 콘텐츠는 전체 동영상일 수도 있고, 부분 동영상일 수도 있다. 전자의 경우에는 사용자 단말(100)에서 더빙을 할 부분을 설정할 수도 있고, 전체의 동영상을 처음부터 끝까지 모두 더빙하는 경우에는 선택을 하지 않을 수도 있다. 이를 위하여, 사용자 단말(100)은, 음성을 포함하는 소리를 입력받는 입력장치 및 소리를 출력하는 출력장치와 연동되고, 더빙 서비스 페이지에 접속하여 애니메이션 콘텐츠를 선택할 수 있다. 이때, 입력장치는, 마이크일 수 있고, 출력장치는 스피커나 이어폰일 수 있으나 이에 한정되지는 않는다.
캐릭터결정부(320)는, 사용자 단말(100)에서 선택된 애니메이션 콘텐츠 내에 포함된 적어도 하나의 캐릭터 중 어느 하나의 캐릭터를 선택하도록 할 수 있다. 예를 들어, A 영화에 등장하는 캐릭터가 1,2,3,4...등이라면, 이 중 어느 하나를 선택할 수도 있고, 복수개의 캐릭터를 선택할 수도 있다. 이를 위하여, 사용자 단말(100)은, 선택된 애니메이션 콘텐츠 내에 포함된 적어도 하나의 캐릭터 중 하나의 캐릭터를 선택하고, 선택된 캐릭터 및 선택된 애니메이션에 대한 정보를 수신하여 출력할 수 있다. 더빙을 하기 위해서는, 전체적인 줄거리인 플롯과 캐릭터에 대한 이해가 요구된다. 어떠한 상황에서 어떠한 감정으로 해당 대사를 하는지를 이해해야 하기 때문이다. 따라서, 이후에 후술될 정보 제공부(340)는, 사용자 단말(100)에서 캐릭터를 선택한 경우, 캐릭터에 대한 이해를 위하여 기 저장된 캐릭터 정보와 플롯 정보를 사용자 단말(100)로 전송하여 출력하도록 할 수 있다.
배경음결정부(330)는, 사용자 단말(100)에서 적어도 하나의 배경음 중 어느 하나의 배경음을 선택하도록 할 수 있다. 예를 들어, A 장면에서 단조풍의 빠른비트의 음악이 나오는데, 사용자는 이를 느린 장조풍의 음악으로 바꾸고 싶어하는 경우에는, 사용자가 원하는 음악으로 원 배경음악을 변경할 수 있도록 한다.
정보 제공부(340)는, 애니메이션 콘텐츠의 플롯 및 선택된 캐릭터의 성격에 대한 정보를 사용자 단말(100)로 전송할 수 있다. 이때, 애니메이션 콘텐츠의 플롯과 캐릭터는 전체 줄거리 및 캐릭터에 관련된 메타 데이터이지만, 각 장면마다 캐릭터의 발화에 감정을 실어주기 위해서는 각 장면마다 상황이 다르기에 이를 스크립트 형식으로 제공해야 한다. 여기서, 정보 제공부(340)는 대본에 각 신(Scene)으로 나뉘어져 있는 것을 하나의 클립(Clip) 단위로 설정하고, 각 클립 단위마다 상황 정보를 설명하는 키워드나 문장 등을 미리 스크립트 형식 또는 메타데이터로 제공하기 위하여, 각 클립 단위별로 스크립트 또는 메타데이터를 매핑하여 저장할 수 있고, 이를 클립 단위로 제공할 수 있다.
더빙부(350)는, 사용자 단말(100)에서 더빙 이벤트가 발생하는 경우, 선택된 배경음을 사용자 단말(100)과 연동된 출력장치로 출력하도록 제어하고, 입력장치로 입력된 사용자의 발화를 입력받아 더빙을 수행할 수 있다. 이를 위하여, 사용자 단말(100)은, 적어도 하나의 배경음 중 어느 하나의 배경음을 선택하고, 애니메이션 콘텐츠의 영상 콘텐츠를 스트리밍받아 화면에 출력하면서 출력장치로 선택된 배경음을 출력하도록 제어되고, 사용자의 음성 발화를 입력장치를 통하여 입력받을 수 있다. 이때, 영상 콘텐츠는, 사용자 단말(100)에서 선택한 캐릭터가 발화하는 시점의 기 설정된 시간 이전에 숫자를 카운팅하는 지시자막이 오버레이된 콘텐츠일 수 있다. 즉, 어느 순간 사용자가 선택한 캐릭터가 발화하는지를 숫자를 화면에 카운트하여 알려줄 수 있다.
더빙부(350)는, 더빙이 발생된 비디오 클립, 사용자의 발화 및 선택된 배경음을 합성하여 더빙 콘텐츠를 생성하고, 사용자 단말(100)로 더빙 콘텐츠를 전송할 수 있다. 이때, 배경음은 물론 효과음 등도 선택가능할 수 있다. 여기서, 효과음은 의성어로 검색하는 경우 의성어 특징벡터와 기 저장된 효과음을 로딩(Loading)시킬 수 있도록 함으로써, 애니메이션 편집 저작 도구가 복잡해지지 않도록 직관적인 인터페이스를 제공할 수 있다. 예를 들어, 강아지가 짖는 소리를 효과음으로 넣고 싶은 경우, 사용자는 "멍멍"을 발화함으로써 짖는 소리를 효과음으로 넣을 수도 있다.
더빙부(350)는, 사용자 단말(100)의 촬영장치에서 수집된 사용자의 얼굴 중 입술부위를 추출하여 더빙이 발생된 비디오 클립에서 사용자가 선택한 캐릭터의 얼굴 중 입술부위와 실시간 립싱크를 수행할 수 있다. 이때, 얼굴의 애니메이션 작업은 입술모양의 변화(Lip Synchronization)을 중심으로 하는 대화부분이 포함되는데, 이때 입술은 가장 움직임의 변화가 심한 부분으로, 사용자의 얼굴을 촬영하여 마커를 추적하는 방법으로 정합을 맞출 수도 있다. 이때, 영역화 기법을 이용할 수 있는데, 이는 비슷한 화소들을 하나의 단위로 생각하여 동일한 성질을 가지는 영역들을 추출하여 내는 영역기반 영역화 기법과 영상내부에서 경계선을 추출한 후 얻어진 경계선 기반의 영역화 기법을 포함할 수 있다. 또는, 실시간으로 얼굴영상에서 특징점인 마커를 추출하고 추적하기에는 노이즈에 강건한 계산량이 적은 영역분할 또는 병합기법을 이용할 수도 있다. 여기서, 실시간으로 마커의 위치를 추출하고 추적하기 위해서는 영상이 입력되면 이를 이진화한 후, 영역을 분할하고 신경망을 이용하여 병합한 후 다수의 마커를 추출하고 신경망을 이용한 추적을 하는 방법을 이용할 수 있다. 물론, 상술한 방법 이외에도 다양한 방법이 이용될 수 있으며 상술한 것들로 한정되지 않음은 자명하다 할 것이다.
저장부(360)는, 사용자 단말(100)로부터 사용자의 얼굴 이미지 및 영상을 입력받아 사용자의 얼굴을 저장할 수 있다. 이때, 더빙부(350)는, 더빙이 발생된 비디오 클립에서 사용자가 선택한 캐릭터의 얼굴을 사용자 단말(100)로부터 수신된 사용자의 얼굴로 대체하여 합성할 수 있다. 즉, 사용자의 얼굴을 3차원으로 모델링하고, 이를 2차원 기반인 애니메이션 캐릭터의 얼굴에 정합 및 합성하여 사용자 맞춤형으로 애니메이션을 재생성할 수 있도록 한다. 기본적인 3차원의 얼굴 모델을 생성하기 위해서 MPEG-4 SNHC(synthetic/natural hybrid coding) FBA (face and body animation) 그룹에서 표준화한 얼굴 객체의 FDP(facial definition parameters)를 이용할 수 있다. FDP는 인간의 얼굴 객체를 묘사하기 위해서 얼굴 모델을 정의하는데, 얼굴의 3차원적인 특징점 정보를 포함하고 있다. 다시 말해, FDP는 실제 인간의 얼굴을 대상으로 해서 개개인의 얼굴 특징을 84개의 특징점을 이용하여 표현할 수 있다. 즉, 최소한 이 84개의 특징점만을 이용하면 개개인의 독특한 얼굴 특징을 표현할 수 있다. 그리고, 사용자에 대한 정면 얼굴 영상을 받아들여 3차원 얼굴 모델의 특징점에 대응하는 점들을 템플릿 스네이크(template snake)를 활용하여 추출하고, 이를 3차원의 얼굴 모델에 투영한다. 그리고 사용자의 측면 영상에 대해서도 위와 동일한 처리를 수행하여 3차원의 얼굴 모델을 생성한다. 이때, 템플릿 스네이크를 통해 추출된 2차원 얼굴의 특징점들을 기반으로 3차원 표준 얼굴모델의 형태를 변형하는 과정에서 얼굴모델의 자연스러운 변형을 위해 RBF(radial basis function) 보간 기법을 이용할 수 있다. 일반적으로, RBF를 이용한 방법은 최소한의 정점으로부터 부드러운 기하학적인 변형을 할 수 있으며, 얼굴 변형을 쉽고 빠르게 할 수 있다. 그리고, 기 추출된 얼굴의 특징점 정보가 사용자 얼굴에 대한 위치 및 형태 정보를 포함하고 있으므로 3차원 표준 얼굴모델의 대응하는 정점들과의 정합을 통해 3차원 얼굴모델의 형태를 사용자의 얼굴을 반영하도록 조정할 수 있다. 그리고 이 조정 과정에서 RBF 보간 기법을 활용하는데, RBF 함수는 3차원 표준 얼굴모델 상의 정점들을 대응하는 사용자의 얼굴 특징점의 위치로 이동하고, 각 특징점의 영향을 받는 영역 내의 정점들은 중간적인 위치로 사상시킨다. 그리고, 특징점과 가까운 거리에 있는 정점들에는 큰 가중치를 부여하고, 특징점과 먼 거리에 있는 정점들에는 작은 가중치를 부여하여 특징점의 이동에 따라 정점들의 부드러운 변형이 발생되도록 유도한다. RBF 보간을 통해 3차원의 얼굴모델을 조정한 후에는 사용자에 대한 정면과 측면 영상을 얼굴모델에 텍스처(texture) 매핑하여 사용자의 3차원 얼굴모델을 생성할 수 있다.
일반적으로, 3차원의 얼굴모델에 텍스처 데이터를 투영하는 방법에는 다시점으로 입력영상을 촬영하고, 다수의 입력영상을 구형, 상자형, 원통형 텍스처로 재 생성한 후, 재생성된 텍스처를 3차원의 모델에 매핑하는 방법을 이용할 수도 있고, 정면과 측면의 2장의 사용자 얼굴 입력영상만을 이용할 경우에는, 구형, 원통형 등의 텍스처로 생성할 때 왜곡이 발생할 수도 있다. 후자의 경우에는, 정면 영상을 그대로 3차원 모델의 정면에 투영하고, 측면 영상 역시 모델의 측면에 그대로 투영한 후 정면과 측면을 구분지어 텍스처 매핑을 수행할 수 있다. 이때, 모델의 경계를 정면과 측면으로 구분함으로써 하나의 면이 여러 텍스처를 혼합하는 방식이 아니라 정면 혹은 측면 중에서 선택된 하나의 텍스처를 사용하여 다중 텍스처의 보간 없이 텍스처링 할 수 있다. 그리고 정면과 측면 텍스처의 경계를 구분하는 방법 특징점을 기준으로 정면과 측면의 경계를 구분하는 방법을 사용할 수도 있으나, 이에 한정되는 것은 아니다.
저장부(360)는, 상술한 구성으로 획득한 사용자의 얼굴을 최대한 반영한 개인화된 3차원의 얼굴모델을 애니메이션 캐릭터의 얼굴로 대체하기 위해서는 애니메이션 캐릭터 얼굴과 얼굴의 구성요소를 검출해야 하며, 이를 바탕으로 애니메이션 캐릭터 얼굴의 위치, 크기, 표정, 회전정보를 인식해야 한다. 먼저, 애니메이션 캐릭터의 얼굴과 얼굴의 구성요소를 검출하기 위해서 기존의 얼굴 메쉬모델의 형태를 애니메이션 캐릭터 얼굴의 특성에 맞게 간략화한 캐릭터 얼굴 메쉬모델을 정의하여 사용할 수 있다. 애니메이션 캐릭터 얼굴의 3가지 구성요소인 눈썹, 눈, 입을 부각시키고, 나머지 구성요소는 제거함으로써 필수적인 특징점들로만 구성한 애니메이션 캐릭터 얼굴의 메쉬모델을 생성하고, 캐릭터 얼굴이 가진 가장 고유한 특징 중의 하나인 색상정보를 이용해 얼굴 및 얼굴의 구성요소를 검출할 수 있는데, Mpeg-7에서 정의된 주색상 서술자인 DCD(dominant color descriptor)를 이용할 수 있다. 그리고, 저장부(360)는, 애니메이션 캐릭터 얼굴의 구성요소에 맞도록 메쉬모델을 수작업으로 정합시킨 후, 메쉬모델에 포함된 얼굴의 구성요소인 눈썹, 눈, 입에 대한 주색상을 추출한다. 그리고 메쉬모델에 포함되지 않은 영역의 주색상을 활용하여 캐릭터 얼굴에 대한 주색상을 추출하고, 인식단계에서 새롭게 입력되는 애니메이션 영상으로부터 기 학습된 주색상 정보를 이용하여 캐릭터의 얼굴과 얼굴 구성요소의 후보를 각각 추출한 후 유사도 분석을 통해 최종적인 얼굴과 얼굴의 구성요소를 획득한다.
저장부(360)는, 주색상을 이용하여 애니메이션 캐릭터 얼굴과 얼굴의 구성요소를 추출한 후에는 애니메이션 캐릭터 얼굴의 표정을 인식할 수 있다. 이때, 추출된 캐릭터 얼굴의 각 구성요소 내에서 수평과 수직 에지에 민감하게 반응하는 프리윗(Prewit) 에지 검출기를 이용하여 표정인식을 위한 특징점을 추출할 수 있다. 즉, 각 구성요소로부터 각 요소를 가장 잘 특징지우는 특징점을 추출하고, 각 구성요소로부터 추출된 특징점들의 위치와 모양 정보를 신경망 학습을 통해 해당 AU(action unit)로 분류하고, 표정 AU 명세서를 이용하여 최종적으로 캐릭터의 표정을 인식한다. 애니메이션 캐릭터 얼굴의 3차원 회전정보 측정은 캐릭터 얼굴을 원형체라고 가정하고 캐릭터의 눈을 기준으로 얼굴의 상하좌우 및 기울어진 정도를 측정함으로써 구할 수 있다. 그런 다음, 기준좌표계를 기준으로 캐릭터에 대응하는 대상좌표계가 좌우로 이동한 정도로 얼굴의 좌우회전 정도를 측정하며, 상하로 이동한 정도를 분석하여 얼굴의 상하회전 정도를 측정한다. 그리고 대상좌표계의 세로축이 기울어져 있는 정도로 얼굴의 기울어진 정도를 측정한다. 이와 같이 애니메이션 캐릭터 얼굴과 얼굴 구성요소의 위치 및 크기, 캐릭터 얼굴의 표정인식 결과, 캐릭터 얼굴의 3축 방향으로의 회전정보를 추출한 후에는, 기 생성한 개인화된 3차원의 얼굴모델을 위에서 추출한 정보에 맞게 조정한 후 애니메이션 캐릭터 얼굴에 합성함으로써 사용자 맞춤형의 애니메이션 캐릭터를 재생성할 수 있다. 물론, 캐릭터의 얼굴을 사용자의 얼굴로 변환하는 방법은 상술한 방법에 한정되지 않고 실시예에 따라 다양한 방법이 적용될 수 있음은 자명하다 할 것이다.
공유부(370)는, 더빙부에서 더빙된 더빙 콘텐츠를 적어도 하나의 소셜미디어를 통하여 공유할 수 있다. 이때, 공유부(370)는 공유를 할 때 적어도 하나의 피공유 단말(400)로 더빙 콘텐츠를 공유하는 것 뿐만 아니라, 동일한 애니메이션의 다른 캐릭터를 더빙한 더빙 콘텐츠가 존재하는 경우, 두 개의 더빙 콘텐츠를 믹싱 또는 합성할 수도 있다. 따라서, A가 B 캐릭터를 더빙하고, C가 D 캐릭터를 더빙했다고 가정하면, A와 C가 더빙한 B와 D 캐릭터가 존재하는 더빙 콘텐츠를 생성할 수도 있다.
이하, 상술한 도 2의 더빙 서비스 제공 서버의 구성에 따른 동작 과정을 도 3 및 도 4를 예로 들어 상세히 설명하기로 한다. 다만, 실시예는 본 발명의 다양한 실시예 중 어느 하나일 뿐, 이에 한정되지 않음은 자명하다 할 것이다.
도 3a를 참조하면, 한국어를 이용한 우리말 애니메이션을 더빙할 수도 있고, 영어 애니메이션을 더빙할 수도 있다. 이를 위해서는 도 3b와 같이 8개의 단계를 거쳐서 최종본을 얻게 되는데, 애플리케이션을 이용할 경우 도 4a와 같이 애플리케이션을 실행하고, 도 4b 및 도 4c와 같이 복수의 애니메이션 중 어느 하나를 선택하며, 도 4d에 도시된 바와 같이 플롯이나 줄거리 및 캐릭터나 대본 등의 정보를 출력하고, 도 4e와 같이 재생을 하거나 녹음을 하는 등을 선택할 수 있고, 이를 피공유자에게 공유할 수도 있다.
이와 같은 도 2 및 도 3의 언어학습을 위한 애니메이션 더빙 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1을 통해 언어학습을 위한 애니메이션 더빙 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.
도 5는 본 발명의 일 실시예에 따른 언어학습을 위한 애니메이션 더빙 서비스 제공 방법을 설명하기 위한 동작 흐름도이다. 도 5를 참조하면, 더빙 서비스 제공 서버는, 사용자 단말에서 더빙 서비스 페이지에 엑세스하는 이벤트가 발생하는 경우, 적어도 하나의 애니메이션 콘텐츠 중 어느 하나를 선택하도록 한다(S5100). 그리고, 더빙 서비스 제공 서버는, 사용자 단말에서 선택된 애니메이션 콘텐츠 내에 포함된 적어도 하나의 캐릭터 중 어느 하나의 캐릭터를 선택하도록 하고(S5200), 사용자 단말에서 적어도 하나의 배경음 중 어느 하나의 배경음을 선택하도록 한다(S5300).
또한, 더빙 서비스 제공 서버는, 애니메이션 콘텐츠의 플롯 및 선택된 캐릭터의 성격에 대한 정보를 사용자 단말로 전송하고(S5400), 사용자 단말에서 더빙 이벤트가 발생하는 경우, 선택된 배경음을 사용자 단말과 연동된 출력장치로 출력하도록 제어하고, 입력장치로 입력된 사용자의 발화를 입력받아 더빙을 수행한다(S5500).
이와 같은 도 5의 언어학습을 위한 애니메이션 더빙 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 4를 통해 언어학습을 위한 애니메이션 더빙 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.
도 5를 통해 설명된 일 실시예에 따른 언어학습을 위한 애니메이션 더빙 서비스 제공 방법은, 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 일 실시예에 따른 언어학습을 위한 애니메이션 더빙 서비스 제공 방법은, 단말기에 기본적으로 설치된 애플리케이션(이는 단말기에 기본적으로 탑재된 플랫폼이나 운영체제 등에 포함된 프로그램을 포함할 수 있음)에 의해 실행될 수 있고, 사용자가 애플리케이션 스토어 서버, 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버를 통해 마스터 단말기에 직접 설치한 애플리케이션(즉, 프로그램)에 의해 실행될 수도 있다. 이러한 의미에서, 전술한 본 발명의 일 실시예에 따른 언어학습을 위한 애니메이션 더빙 서비스 제공 방법은 단말기에 기본적으로 설치되거나 사용자에 의해 직접 설치된 애플리케이션(즉, 프로그램)으로 구현되고 단말기에 등의 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
Claims (7)
- 음성을 포함하는 소리를 입력받는 입력장치 및 소리를 출력하는 출력장치와 연동되고, 더빙 서비스 페이지에 접속하여 애니메이션 콘텐츠를 선택하고, 선택된 애니메이션 콘텐츠 내에 포함된 적어도 하나의 캐릭터 중 하나의 캐릭터를 선택하고, 상기 선택된 캐릭터 및 상기 선택된 애니메이션에 대한 정보를 수신하여 출력하고, 적어도 하나의 배경음 중 어느 하나의 배경음을 선택하고, 상기 애니메이션 콘텐츠의 영상 콘텐츠를 스트리밍받아 화면에 출력하면서 상기 출력장치로 상기 선택된 배경음을 출력하도록 제어되고, 사용자의 음성 발화를 상기 입력장치를 통하여 입력받는 사용자 단말; 및,
상기 사용자 단말에서 상기 더빙 서비스 페이지에 엑세스하는 이벤트가 발생하는 경우, 적어도 하나의 애니메이션 콘텐츠 중 어느 하나를 선택하도록 하는 선택부, 상기 사용자 단말에서 선택된 애니메이션 콘텐츠 내에 포함된 적어도 하나의 캐릭터 중 어느 하나의 캐릭터를 선택하도록 하는 캐릭터결정부, 상기 사용자 단말에서 적어도 하나의 배경음 중 어느 하나의 배경음을 선택하도록 하는 배경음결정부, 상기 애니메이션 콘텐츠의 플롯 및 상기 선택된 캐릭터의 성격에 대한 정보를 상기 사용자 단말로 전송하는 정보 제공부, 상기 사용자 단말에서 더빙 이벤트가 발생하는 경우, 상기 선택된 배경음을 상기 사용자 단말과 연동된 출력장치로 출력하도록 제어하고, 상기 입력장치로 입력된 사용자의 발화를 입력받아 더빙을 수행하는 더빙부를 포함하는 더빙 서비스 제공 서버;를 포함하고,
상기 영상 콘텐츠는, 상기 사용자 단말에서 선택한 캐릭터가 발화하는 시점의 기 설정된 시간 이전에 숫자를 카운팅하는 지시자막이 오버레이된 콘텐츠이며,
상기 더빙부는, 상기 더빙이 발생된 비디오 클립, 상기 사용자의 발화 및 상기 선택된 배경음을 합성하여 더빙 콘텐츠를 생성하고, 상기 사용자 단말로 상기 더빙 콘텐츠를 전송하고,
상기 더빙 서비스 제공 서버는, 상기 사용자 단말로부터 상기 사용자의 얼굴 이미지 및 영상을 입력받아 상기 사용자의 얼굴을 저장하는 저장부;를 더 포함하며,
상기 더빙부는, 상기 더빙이 발생된 비디오 클립에서 상기 사용자가 선택한 캐릭터의 얼굴을 상기 사용자 단말로부터 수신된 사용자의 얼굴로 대체하여 합성하고,
상기 더빙부는, 상기 사용자 단말의 촬영장치에서 수집된 사용자의 얼굴 중 입술부위를 추출하여 상기 더빙이 발생된 비디오 클립에서 상기 사용자가 선택한 캐릭터의 얼굴 중 입술부위와 실시간 립싱크를 수행하며,
상기 더빙 서비스 제공 서버는, 상기 더빙부에서 더빙된 더빙 콘텐츠를 적어도 하나의 소셜미디어를 통하여 공유하는 공유부;를 더 포함하는 것을 특징으로 하는 언어학습을 위한 애니메이션 더빙 서비스 제공 시스템. - 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190062890A KR102138132B1 (ko) | 2019-05-29 | 2019-05-29 | 언어학습을 위한 애니메이션 더빙 서비스 제공 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190062890A KR102138132B1 (ko) | 2019-05-29 | 2019-05-29 | 언어학습을 위한 애니메이션 더빙 서비스 제공 시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102138132B1 true KR102138132B1 (ko) | 2020-07-27 |
Family
ID=71894122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190062890A KR102138132B1 (ko) | 2019-05-29 | 2019-05-29 | 언어학습을 위한 애니메이션 더빙 서비스 제공 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102138132B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022177094A1 (ko) * | 2021-02-17 | 2022-08-25 | 박수빈 | 인공지능 기반 콘텐츠 ip를 이용한 동영상 공유 서비스 제공 시스템 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110133654A (ko) * | 2010-06-07 | 2011-12-14 | 숭실대학교산학협력단 | 사용자 맞춤형 애니메이션 저작 서비스 제공방법 및 그 시스템 |
-
2019
- 2019-05-29 KR KR1020190062890A patent/KR102138132B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110133654A (ko) * | 2010-06-07 | 2011-12-14 | 숭실대학교산학협력단 | 사용자 맞춤형 애니메이션 저작 서비스 제공방법 및 그 시스템 |
Non-Patent Citations (1)
Title |
---|
금영노래방, https://tcatmon.com/wiki/%EA%B8%88%EC%98%81%EB%85%B8%EB%9E%98%EB%B0%A9 (2017.01.24.)* * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022177094A1 (ko) * | 2021-02-17 | 2022-08-25 | 박수빈 | 인공지능 기반 콘텐츠 ip를 이용한 동영상 공유 서비스 제공 시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Taylor et al. | A deep learning approach for generalized speech animation | |
WO2022048403A1 (zh) | 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端 | |
US20210224319A1 (en) | Artificially generating audio data from textual information and rhythm information | |
CN111741326B (zh) | 视频合成方法、装置、设备及存储介质 | |
Garrido et al. | Vdub: Modifying face video of actors for plausible visual alignment to a dubbed audio track | |
Taylor et al. | Dynamic units of visual speech | |
US9548048B1 (en) | On-the-fly speech learning and computer model generation using audio-visual synchronization | |
JP6019108B2 (ja) | 文字に基づく映像生成 | |
US20120130717A1 (en) | Real-time Animation for an Expressive Avatar | |
KR20210048441A (ko) | 디지털 비디오에서의 입 모양과 움직임을 대체 오디오에 매칭 | |
Cosatto et al. | Lifelike talking faces for interactive services | |
CN116250036A (zh) | 用于合成语音的照片级真实感视频的系统和方法 | |
US11581020B1 (en) | Facial synchronization utilizing deferred neural rendering | |
CN114144790A (zh) | 具有三维骨架正则化和表示性身体姿势的个性化语音到视频 | |
JP2014519082A5 (ko) | ||
CN110148406B (zh) | 一种数据处理方法和装置、一种用于数据处理的装置 | |
CN110162598B (zh) | 一种数据处理方法和装置、一种用于数据处理的装置 | |
US11582519B1 (en) | Person replacement utilizing deferred neural rendering | |
Liu et al. | Realistic facial expression synthesis for an image-based talking head | |
Wang et al. | HMM trajectory-guided sample selection for photo-realistic talking head | |
Xie et al. | A statistical parametric approach to video-realistic text-driven talking avatar | |
CN115497448A (zh) | 语音动画的合成方法、装置、电子设备及存储介质 | |
CN117036555A (zh) | 数字人的生成方法、装置和数字人的生成系统 | |
KR102138132B1 (ko) | 언어학습을 위한 애니메이션 더빙 서비스 제공 시스템 | |
CN115550744B (zh) | 一种语音生成视频的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
AMND | Amendment | ||
X091 | Application refused [patent] | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant |