KR20140133056A - 애니메이션 립싱크 자동화 장치 및 방법 - Google Patents

애니메이션 립싱크 자동화 장치 및 방법 Download PDF

Info

Publication number
KR20140133056A
KR20140133056A KR1020130052593A KR20130052593A KR20140133056A KR 20140133056 A KR20140133056 A KR 20140133056A KR 1020130052593 A KR1020130052593 A KR 1020130052593A KR 20130052593 A KR20130052593 A KR 20130052593A KR 20140133056 A KR20140133056 A KR 20140133056A
Authority
KR
South Korea
Prior art keywords
mouth shape
voice
pronunciation
mouth
animation
Prior art date
Application number
KR1020130052593A
Other languages
English (en)
Other versions
KR101492816B1 (ko
Inventor
김탁훈
Original Assignee
중앙대학교기술지주 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 중앙대학교기술지주 주식회사 filed Critical 중앙대학교기술지주 주식회사
Priority to KR20130052593A priority Critical patent/KR101492816B1/ko
Publication of KR20140133056A publication Critical patent/KR20140133056A/ko
Application granted granted Critical
Publication of KR101492816B1 publication Critical patent/KR101492816B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0356Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for synchronising with other signals, e.g. video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen

Abstract

애니메이션 립싱크 자동화 장치 및 방법이 개시된다. 음성 입력부로 애니메이션 영상의 대본에 대응하고 상기 애니메이션 영상을 구성하는 프레임에 동기가 맞춰진 음성 파일이 입력된다. 음성 인식부는 음성 파일로부터 각각의 어소를 구성하는 자음, 모음 및 소리의 높낮이를 파악하여 음성 인식 결과를 출력한다. 입모양 선택부는 음성 인식 결과를 기초로 각 어소에 대응하는 발음 분류를 결정하고, 결정된 발음 분류에 대응하는 입모양을 한국어의 발음특성을 고려한 일정 개수의 입모양이 발음 분류에 대응되어 저장되는 입모양 저장부에서 선택한다. 그리고 입모양 선택부는, 묵음 구간의 입모양으로 양입술이 붙어있는 제1입모양을 선택하고, 음성이 시작되기 제1개수의 프레임 전에 양입술이 제1크기만큼 떨어져 있는 제2입모양을 선택하고, 음성이 시작되는 시점부터 각 어소에 대해 결정된 발음 분류에 대응하는 입모양을 선택하고, 음성이 종료된 시점부터 제2개수의 프레임동안 최종적인 입모양을 유지한 이후에 다음 음성이 시작될 때까지의 입모양으로 제1입모양을 선택한다. 본 발명에 따르면, 한국어의 발음 구조와 애니메이션의 제작 특성을 정확하게 반영하여 애니메이션 캐릭터의 입모양을 성우의 발음과 완벽하게 일치시킬 수 있고, 실시간으로 애니메이션 캐릭터의 립싱크를 자동으로 구현할 수 있다.

Description

애니메이션 립싱크 자동화 장치 및 방법{Apparatus and method for providing auto lip-synch in animation}
본 발명은 애니메이션 립싱크 자동화 장치 및 방법에 관한 것으로, 보다 상세하게는, 컴퓨터 그래픽으로 제작된 애니메이션 영상과 성우의 음성 사이의 동기를 자동으로 일치시켜 애니메이션 영상에 존재하는 캐릭터의 입모양을 성우의 음성에 대응하는 입모양과 동일하게 표현하기 위한 장치 및 방법에 관한 것이다.
미국의 메이저 영화 제작사에 의해 제작된 애니메이션 영화에서는 완벽한 립싱크 구현으로 캐릭터 연기를 완벽히 재생하여 관객의 몰입도를 향상시킨다. 이와 같이 애니메이션 영화에서 캐릭터의 입모양을 성우의 음성에 대응하는 입모양과 동일하게 표현함으로써 미국의 애니메이션 영화들은 고품질의 애니메이션이라고 불려지고 있다. 그러나 국내 애니메이션 학계와 업계에서는 립싱크에 관한 연구 및 기술이 절대적으로 부족한 상황이다.
일반적으로 애니메이션의 립싱크는 애니메이션을 먼저 제작한 후 성우가 영상을 시청하면서 대본을 녹음하는 방식을 취하거나 경험이 많은 작업자가 사전에 설정되어 있는 입모양 데이터베이스에서 대본의 각 단어들의 실제 발음에 대응하는 애니메이션의 캐릭터의 입모양을 선택하여 애니메이션을 제작한 후 성우가 영상을 시청하면서 대본을 녹음하는 방식을 취하고 있다. 그러나 전자의 방법은 사람의 실제 발음에 대응하는 입모양을 정확하게 반영하지 못하여 현실감이 떨어지고, 후자의 방법은 전문적인 지식과 경험을 가진 작업자에 의해 이루어져야 하므로 제작기간이 오래 걸리며 실시간으로 립싱크 화면을 제작할 수 없다는 문제가 있다.
한편 사람이 말할 때 입모양은 주로 모음인 "아, 에, 이, 오, 우, 어, 으"에 따라 변화함에 주목하여 음성 신호에서 모음에 대한 데이터를 추출한 후 이를 기초로 캐릭터의 입모양을 결정하는 방법이 제안된 바 있으나, 이는 받침으로 사용되는 자음이 입모양에 미치는 영향을 배제한 것으로 역시 정확한 입모양을 표현하기 어려운 문제가 있고, 각각의 모음에 대해 입모양을 대응시키기 때문에 지나치게 자주 입모양이 변화하게 되고 묵음 구간에 대한 처리를 하지 않기 때문에 실제 사람이 발음할 때 나타나는 입모양과 달라지게 되는 문제가 있다.
한국공개특허공보 제2002-0026617호 (발명의 명칭: 실시간 음성 인식에 의한 립싱크 애니메이션 제공 방법, 공개일: 2002년 4월 12일) 한국공개특허공보 제2008-0008432호 (발명의 명칭: 음성 신호에 대한 립싱크 동기화 방법 및 장치, 공개일: 2008년 1월 23일)
한국만화애니메이션학회집 2008년 13호 "애니메이션 캐릭터의 한국어 립싱크 연구"
본 발명이 이루고자 하는 기술적 과제는 한국어의 발음 구조와 애니메이션의 제작 특성을 정확하게 반영하여 애니메이션 캐릭터의 입모양을 성우의 발음과 완벽하게 일치시킬 수 있고, 실시간으로 애니메이션 캐릭터의 립싱크를 자동으로 구현할 수 있는 장치 및 방법을 제공하는 데 있다.
본 발명이 이루고자 하는 기술적 과제는 한국어의 발음 구조와 애니메이션의 제작 특성을 정확하게 반영하여 애니메이션 캐릭터의 입모양을 성우의 발음과 완벽하게 일치시킬 수 있고, 실시간으로 애니메이션 캐릭터의 립싱크를 자동으로 구현할 수 있는 방법을 컴퓨터에서 실행시킬 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다.
상기의 기술적 과제를 달성하기 위한, 본 발명에 따른 애니메이션 립싱크 자동화 장치는, 애니메이션 영상의 대본에 대응하고 상기 애니메이션 영상을 구성하는 프레임에 동기가 맞춰진 음성 파일이 입력되는 음성 입력부; 상기 음성 파일로부터 각각의 어소를 구성하는 자음, 모음 및 소리의 높낮이를 파악하여 음성 인식 결과를 출력하는 음성 인식부; 한국어의 발음특성을 고려한 일정 개수의 입모양이 발음 분류에 대응되어 저장되는 입모양 저장부; 및 상기 음성 인식 결과를 기초로 각 어소에 대응하는 발음 분류를 결정하고, 결정된 발음 분류에 대응하는 입모양을 상기 입모양 저장부에서 선택하는 입모양 선택부;를 구비하며, 상기 입모양 선택부는, 묵음 구간의 입모양으로 양입술이 붙어있는 제1입모양을 선택하고, 음성이 시작되기 제1개수의 프레임 전에 양입술이 제1크기만큼 떨어져 있는 제2입모양을 선택하고, 음성이 시작되는 시점부터 각 어소에 대해 결정된 발음 분류에 대응하는 입모양을 선택하고, 음성이 종료된 시점부터 제2개수의 프레임동안 최종적인 입모양을 유지한 이후에 다음 음성이 시작될 때까지의 입모양으로 상기 제1입모양을 선택한다.
상기의 다른 기술적 과제를 달성하기 위한, 본 발명에 따른 애니메이션 립싱크 자동화 방법은, (a) 애니메이션 영상의 대본에 대응하고 상기 애니메이션 영상을 구성하는 프레임에 동기가 맞춰진 음성 파일로부터 각각의 어소를 구성하는 자음, 모음 및 소리의 높낮이를 파악하여 음성 인식 결과를 출력하는 단계; (b) 한국어의 발음특성을 고려한 일정 개수의 입모양이 발음 분류에 대응되어 저장되어 있는 입모양 데이터베이스로부터 묵음 구간의 입모양으로 양입술이 붙어있는 제1입모양을 선택하고, 음성이 시작되기 제1개수의 프레임 전에 양입술이 제1크기만큼 떨어져 있는 제2입모양을 선택하는 단계; (c) 상기 음성 인식 결과를 기초로 각 어소에 대응하는 발음 분류를 결정하고, 결정된 발음 분류에 대응하는 입모양을 상기 입모양 데이터베이스에서 선택하는 단계; 및 (d) 음성이 종료된 시점부터 제2개수의 프레임동안 최종적인 입모양을 유지한 이후에 다음 음성이 시작될 때까지의 입모양으로 상기 제1입모양을 선택하는 단계;를 갖는다.
본 발명에 따른 애니메이션 립싱크 자동화 장치 및 방법에 의하면, 한국어의 발음 구조와 애니메이션의 제작 특성을 정확하게 반영하여 애니메이션 캐릭터의 입모양을 성우의 발음과 완벽하게 일치시킬 수 있고, 실시간으로 애니메이션 캐릭터의 립싱크를 자동으로 구현할 수 있다.
도 1은 본 발명에 따른 애니메이션 립싱크 자동화 장치에 대한 바람직한 실시예의 구성을 도시한 도면,
도 2는 발음 분류와 그에 대응하는 입모양을 도시한 도면, 그리고,
도 3은 본 발명에 따른 애니메이션 립싱크 자동화 방법에 대한 바람직한 실시예의 수행과정을 도시한 흐름도이다.
이하에서 첨부된 도면들을 참고하여 본 발명에 따른 애니메이션 립싱크 자동화 장치 및 방법의 바람직한 실시예에 대해 상세하게 설명한다.
도 1은 본 발명에 따른 애니메이션 립싱크 자동화 장치에 대한 바람직한 실시예의 구성을 도시한 도면이다.
도 1을 참조하면, 발명에 따른 애니메이션 립싱크 자동화 장치는 영상 입력부(110), 음성 입력부(120), 음성 인식부(130), 입모양 저장부(140), 입모양 선택부(150), 입모양 합성부(160) 및 제어부(170)를 구비한다.
영상 입력부(110)는 애니메이션 영상을 입력받는 구성요소이다. 영상 입력부(110)로 입력된 영상은 용도, 품질 등에 따라 초당 프레임의 개수가 24개, 30개 등으로 상이하며, 이하의 설명에서는 초당 30개의 프레임으로 구성된 영상을 예로 들어 설명한다.
음성 입력부(120)는 성우가 애니메이션의 대본에 따라 녹음한 음성 파일을 입력받는 구성요소이다. 음성 입력부(120)로 입력되는 음성 파일은 애니메이션 영상의 각 프레임에 동기가 맞춰지며, 따라서 음성 파일은 초당 30 프레임으로 설정된 디지털 파일이다.
음성 인식부(130)는 음성 입력부(120)를 통해 입력된 음성 파일을 분석하여 각각의 어소를 구성하는 자음과 모음, 그리고 소리의 높낮이를 파악한다. 그리고 음성 인식부(130)는 음성 인식 결과를 출력하며, 이때, 음성 인식 결과는 각 어소에 대응하는 코드(예를 들면, 완성형 한글 코드, 조합형 한글 코드 등)로 출력될 수 있다.
입모양 저장부(140)에는 한국어의 발음특성을 고려한 일정 개수(예를 들면, 8개)의 입모양이 발음 분류에 대응되어 저장되어 있다. 발음 분류는 각 어소의 발음시 실제 입모양을 입모양 저장부(140)에 저장되어 있는 입모양을 기준으로 분류하여 얻어진다. 도 2에는 발음 분류와 그에 대응하는 입모양이 도시되어 있다.
입모양 선택부(150)는 음성 인식부(130)로부터 입력되는 음성 인식 결과를 기초로 각 어소에 대응하는 발음 분류를 결정한다. 표 1에는 발음 분류 기준의 예가 기재되어 있다.
발음 분류 발음 분류 기준
A 묵음, 초성 또는 종성에 쓰인 ㅁ, ㅂ, ㅍ
B 초성 또는 종성에 쓰인 ㅅ, ㅈ, ㅊ, ㅡ, ㅣ, ㅢ
C ㅏ, ㅓ, ㅔ, ㅐ
D ㅏ(장음, 고음), ㅑ(장음, 고음)
E ㅓ, ㅕ
F ㅗ, ㅛ
G ㅜ, ㅠ
H ㄷ, ㅌ,
표 1에는 8개의 발음 분류가 기재되어 있으나, 필요에 따라 발음 분류를 추가할 수 있으며, 발음 분류 기준 역시 보다 세밀하게 구성할 수 있다.
이와 같이 각 어소에 대응하는 발음 분류를 결정한 이후에 입모양 선택부(150)는 다음의 기준에 따라 입모양을 선택한다.
1. 음성이 시작되기 제1개수의 프레임(예를 들면, 10 프레임) 전에 입모양 C를 선택한다.
2. 음성이 시작되는 시점부터 제2개수의 프레임(예를 들면, 4 프레임)마다 음성 인식 결과로 입력되는 어소 및 소리의 높낮이를 분석하여 해당 어소에 대응하는 입모양을 선택한다. 이와 같이 4 프레임마다 입모양을 선택하는 이유는 연산량을 줄이기 위한 목적과 사람의 시각적 변화에 대한 인식능력(즉, 입모양이 일정시간 유지되어도 발음과 입모양의 동기가 일치하는 것으로 인식됨)을 고려한 것이다. 이때 음성 인식부(130)가 4 프레임마다 음성 인식 결과를 출력하도록 구현할 수도 있다.
3. ㅁ, ㅂ, ㅍ 등과 같이 입술이 닫히는 소리가 날 때만 제3개수의 프레임(예를 들면, 2 프레임) 전에 입모양 A를 선택한다. 이때 소리가 나는 순간에는 모음대로 입모양을 선택하여야 하지만 그 전 2 프레임에서는 입모양 A를 선택한다.
4. 문장과 문장 사이의 묵음에서는 묵음 바로 전의 입모양으로 제4개수의 프레임(예를 들면, 10 프레임) 정도를 유지한 후 다음 음성이 나올 때까지 입모양 C로 변경한다.
입모양 합성부(160)는 입모양 선택부(150)에 의해 선택된 입모양을 영상 입력부(110)로부터 입력되는 애니메이션 영상에 합성하여 음성과 입모양이 동기화된 영상을 생성한다. 이때 입모양 합성부(160)는 입모양 선택부(150)에 의해 입모양이 선택된 영상 프레임의 정보(예를 들면, 프레임 번호)를 제공받으며, 애니메이션 영상을 구성하는 프레임 내에서 캐릭터의 입에 해당하는 영역을 검출하여 해당 영역에 입모양 선택부(150)에 의해 선택된 입모양을 합성한다. 이러한 입모양 합성부(160)는 별도의 장치로 구현될 수 있다.
제어부(170)는 다음 구성요소의 동작을 제어하며, 사용자로부터 설정값을 입력받는다. 사용자로부터 입력받는 설정값은 제1개수 내지 제4개수의 값이 될 수 있다.
도 3은 본 발명에 따른 애니메이션 립싱크 자동화 방법에 대한 바람직한 실시예의 수행과정을 도시한 흐름도이다.
도 3을 참조하면, 음성 인식부(130)는 음성 입력부(120)를 통해 입력된 음성 파일을 분석하여 각각의 어소를 구성하는 자음과 모음, 그리고 소리의 높낮이를 파악한 후 음성 인식 결과를 출력한다(S300). 다음으로, 입모양 선택부(150)는 음성 인식부(130)로부터 입력되는 음성 인식 결과를 기초로 각 어소에 대응하는 발음 분류를 결정한다(S310). 다음으로, 입모양 선택부(150)는 입모양 저장부(140)에서 묵음 구간의 입모양으로 입모양 A를 선택하고, 음성이 시작되기 10 프레임 전에 입모양 저장부(140)에서 입모양 C를 선택한다(S320). 다음으로, 입모양 선택부(150)는 입모양 저장부(140)에서 각 어소에 대해 결정된 발음 분류에 대응하는 입모양을 선택한다(S330). 이때 입모양 선택부(150)는 ㅁ, ㅂ, ㅍ 등과 같이 입술이 닫히는 소리가 날 때만 2 프레임 전에 입모양 A를 선택한 후 소리가 나는 순간에는 모음대로 입모양을 선택한다. 다음으로, 입모양 선택부(150)는 다시 묵음 구간이 시작되는 지점(즉, 음성이 종료된 시점)부터 10 프레임 정도를 최종적인 입모양을 유지하고, 다음 음성이 시작될 때까지의 입모양으로 입모양 저장부(140)에서 입모양 C를 선택한다(S340). 다음으로, 입모양 합성부(160)는 입모양 선택부(150)에 의해 선택된 입모양을 영상 입력부(110)로부터 입력되는 애니메이션 영상에 합성하여 음성과 입모양이 동기화된 영상을 생성한다(S350).
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
이상에서 본 발명의 바람직한 실시예에 대해 도시하고 설명하였으나, 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.

Claims (8)

  1. 애니메이션 영상의 대본에 대응하고 상기 애니메이션 영상을 구성하는 프레임에 동기가 맞춰진 음성 파일이 입력되는 음성 입력부;
    상기 음성 파일로부터 각각의 어소를 구성하는 자음, 모음 및 소리의 높낮이를 파악하여 음성 인식 결과를 출력하는 음성 인식부;
    한국어의 발음특성을 고려한 일정 개수의 입모양이 발음 분류에 대응되어 저장되는 입모양 저장부; 및
    상기 음성 인식 결과를 기초로 각 어소에 대응하는 발음 분류를 결정하고, 결정된 발음 분류에 대응하는 입모양을 상기 입모양 저장부에서 선택하는 입모양 선택부;를 포함하며,
    상기 입모양 선택부는, 묵음 구간의 입모양으로 양입술이 붙어있는 제1입모양을 선택하고, 음성이 시작되기 제1개수의 프레임 전에 양입술이 제1크기만큼 떨어져 있는 제2입모양을 선택하고, 음성이 시작되는 시점부터 각 어소에 대해 결정된 발음 분류에 대응하는 입모양을 선택하고, 음성이 종료된 시점부터 제2개수의 프레임동안 최종적인 입모양을 유지한 이후에 다음 음성이 시작될 때까지의 입모양으로 상기 제1입모양을 선택하는 것을 특징으로 하는 애니메이션 립싱크 자동화 장치.
  2. 제 1항에 있어서,
    상기 애니메이션 영상이 입력되는 영상 입력부; 및
    상기 입모양 선택부에 의해 선택된 입모양을 상기 영상 입력부를 통해 입력되는 애니메이션 영상에 합성하여 음성과 입모양이 동기화된 영상을 생성하는 입모양 합성부를 더 포함하는 것을 특징으로 하는 애니메이션 립싱크 자동화 장치.
  3. 제 1항 또는 제 2항에 있어서,
    상기 입모양 선택부는 음성이 시작되는 시점부터 제3개수의 프레임마다 상기 음성 인식 결과를 기초로 각 어소에 대응하는 발음 분류를 결정하고, 결정된 발음 분류에 대응하는 입모양을 상기 입모양 저장부에서 선택하는 것을 특징으로 하는 애니메이션 립싱크 자동화 장치.
  4. 제 1항 또는 제 2항에 있어서,
    상기 입모양 선택부는 입술이 닫히는 소리가 날 때 제4개수의 프레임 전에 상기 제1입모양을 선택하는 것을 특징으로 하는 애니메이션 립싱크 자동화 장치.
  5. (a) 애니메이션 영상의 대본에 대응하고 상기 애니메이션 영상을 구성하는 프레임에 동기가 맞춰진 음성 파일로부터 각각의 어소를 구성하는 자음, 모음 및 소리의 높낮이를 파악하여 음성 인식 결과를 출력하는 단계;
    (b) 한국어의 발음특성을 고려한 일정 개수의 입모양이 발음 분류에 대응되어 저장되어 있는 입모양 데이터베이스로부터 묵음 구간의 입모양으로 양입술이 붙어있는 제1입모양을 선택하고, 음성이 시작되기 제1개수의 프레임 전에 양입술이 제1크기만큼 떨어져 있는 제2입모양을 선택하는 단계;
    (c) 상기 음성 인식 결과를 기초로 각 어소에 대응하는 발음 분류를 결정하고, 결정된 발음 분류에 대응하는 입모양을 상기 입모양 데이터베이스에서 선택하는 단계; 및
    (d) 음성이 종료된 시점부터 제2개수의 프레임동안 최종적인 입모양을 유지한 이후에 다음 음성이 시작될 때까지의 입모양으로 상기 제1입모양을 선택하는 단계;를 포함하는 것을 특징으로 하는 애니메이션 립싱크 자동화 방법.
  6. 제 5항에 있어서,
    (e) 상기 선택된 입모양을 상기 애니메이션 영상에 합성하여 음성과 입모양이 동기화된 영상을 생성하는 단계를 더 포함하는 것을 특징으로 하는 애니메이션 립싱크 자동화 방법.
  7. 제 5항 또는 제 6항에 있어서,
    상기 (c)단계에서, 음성이 시작되는 시점부터 제3개수의 프레임마다 상기 음성 인식 결과를 기초로 각 어소에 대응하는 발음 분류를 결정하고, 결정된 발음 분류에 대응하는 입모양을 선택하는 것을 특징으로 하는 애니메이션 립싱크 자동화 방법.
  8. 제 5항 또는 제 6항에 기재된 애니메이션 립싱크 자동화 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR20130052593A 2013-05-09 2013-05-09 애니메이션 립싱크 자동화 장치 및 방법 KR101492816B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR20130052593A KR101492816B1 (ko) 2013-05-09 2013-05-09 애니메이션 립싱크 자동화 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20130052593A KR101492816B1 (ko) 2013-05-09 2013-05-09 애니메이션 립싱크 자동화 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20140133056A true KR20140133056A (ko) 2014-11-19
KR101492816B1 KR101492816B1 (ko) 2015-02-13

Family

ID=52453816

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20130052593A KR101492816B1 (ko) 2013-05-09 2013-05-09 애니메이션 립싱크 자동화 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101492816B1 (ko)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105959723A (zh) * 2016-05-16 2016-09-21 浙江大学 一种基于机器视觉和语音信号处理相结合的假唱检测方法
CN107203734A (zh) * 2016-03-17 2017-09-26 掌赢信息科技(上海)有限公司 一种获取嘴部状态的方法及电子设备
CN108922533A (zh) * 2018-07-26 2018-11-30 广州酷狗计算机科技有限公司 确定是否是真唱的方法和装置
CN110136698A (zh) * 2019-04-11 2019-08-16 北京百度网讯科技有限公司 用于确定嘴型的方法、装置、设备和存储介质
CN110366032A (zh) * 2019-08-09 2019-10-22 腾讯科技(深圳)有限公司 视频数据处理方法、装置和视频播放方法、装置
WO2020167304A1 (en) * 2019-02-13 2020-08-20 Td Ameritrade Ip Company, Inc. Real-time lip synchronization animation
CN111638781A (zh) * 2020-05-15 2020-09-08 广东小天才科技有限公司 基于ar的发音引导方法、装置、电子设备及存储介质
US10776977B2 (en) 2017-08-16 2020-09-15 Td Ameritrade Ip Company, Inc. Real-time lip synchronization animation
CN111951629A (zh) * 2019-05-16 2020-11-17 上海流利说信息技术有限公司 一种发音纠正系统、方法、介质和计算设备
CN112331184A (zh) * 2020-10-29 2021-02-05 网易(杭州)网络有限公司 语音口型同步方法、装置、电子设备及存储介质
KR102251781B1 (ko) * 2020-12-30 2021-05-14 (주)라이언로켓 인공신경망을 이용한 입모양 합성 장치 및 방법
CN115222856A (zh) * 2022-05-20 2022-10-21 一点灵犀信息技术(广州)有限公司 表情动画生成方法及电子设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018091954A (ja) * 2016-12-01 2018-06-14 オリンパス株式会社 音声認識装置、及び音声認識方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100300962B1 (ko) * 1998-07-24 2001-10-27 윤종용 음성합성을위한립싱크방법및그장치
KR100733772B1 (ko) * 2005-08-12 2007-07-02 주식회사 인프라밸리 이동통신 가입자를 위한 립싱크 서비스 제공 방법 및 이를위한 시스템

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203734A (zh) * 2016-03-17 2017-09-26 掌赢信息科技(上海)有限公司 一种获取嘴部状态的方法及电子设备
CN105959723B (zh) * 2016-05-16 2018-09-18 浙江大学 一种基于机器视觉和语音信号处理相结合的假唱检测方法
CN105959723A (zh) * 2016-05-16 2016-09-21 浙江大学 一种基于机器视觉和语音信号处理相结合的假唱检测方法
US10776977B2 (en) 2017-08-16 2020-09-15 Td Ameritrade Ip Company, Inc. Real-time lip synchronization animation
CN108922533A (zh) * 2018-07-26 2018-11-30 广州酷狗计算机科技有限公司 确定是否是真唱的方法和装置
WO2020167304A1 (en) * 2019-02-13 2020-08-20 Td Ameritrade Ip Company, Inc. Real-time lip synchronization animation
CN110136698A (zh) * 2019-04-11 2019-08-16 北京百度网讯科技有限公司 用于确定嘴型的方法、装置、设备和存储介质
CN111951629A (zh) * 2019-05-16 2020-11-17 上海流利说信息技术有限公司 一种发音纠正系统、方法、介质和计算设备
CN110366032A (zh) * 2019-08-09 2019-10-22 腾讯科技(深圳)有限公司 视频数据处理方法、装置和视频播放方法、装置
CN111638781A (zh) * 2020-05-15 2020-09-08 广东小天才科技有限公司 基于ar的发音引导方法、装置、电子设备及存储介质
CN111638781B (zh) * 2020-05-15 2024-03-19 广东小天才科技有限公司 基于ar的发音引导方法、装置、电子设备及存储介质
CN112331184A (zh) * 2020-10-29 2021-02-05 网易(杭州)网络有限公司 语音口型同步方法、装置、电子设备及存储介质
CN112331184B (zh) * 2020-10-29 2024-03-15 网易(杭州)网络有限公司 语音口型同步方法、装置、电子设备及存储介质
KR102251781B1 (ko) * 2020-12-30 2021-05-14 (주)라이언로켓 인공신경망을 이용한 입모양 합성 장치 및 방법
KR20220097119A (ko) * 2020-12-30 2022-07-07 (주)라이언로켓 얼굴 판별기를 포함하는 인공신경망을 이용한 입모양 합성 장치 및 방법
KR20220097121A (ko) * 2020-12-30 2022-07-07 (주)라이언로켓 랜덤 널링 인공신경망을 이용한 입모양 합성 장치 및 방법
KR20220097120A (ko) * 2020-12-30 2022-07-07 (주)라이언로켓 입크기 판별기를 포함하는 인공신경망을 이용한 입모양 합성 장치 및 방법
CN115222856A (zh) * 2022-05-20 2022-10-21 一点灵犀信息技术(广州)有限公司 表情动画生成方法及电子设备
CN115222856B (zh) * 2022-05-20 2023-09-26 一点灵犀信息技术(广州)有限公司 表情动画生成方法及电子设备

Also Published As

Publication number Publication date
KR101492816B1 (ko) 2015-02-13

Similar Documents

Publication Publication Date Title
KR101492816B1 (ko) 애니메이션 립싱크 자동화 장치 및 방법
US11436780B2 (en) Matching mouth shape and movement in digital video to alternative audio
CA2956566C (en) Custom video content
US7076429B2 (en) Method and apparatus for presenting images representative of an utterance with corresponding decoded speech
EP3226245B1 (en) System and method to insert visual subtitles in videos
US20200166670A1 (en) Personalizing weather forecast
Öktem et al. Prosodic phrase alignment for machine dubbing
JP2015212732A (ja) 音喩認識装置、及びプログラム
TW522739B (en) System and method for eliminating synchronization errors in electronic audiovisual transmissions and presentations
US20150187112A1 (en) System and Method for Automatic Generation of Animation
KR102319753B1 (ko) 딥러닝 기반의 영상 컨텐츠 제작 방법 및 장치
JP2019097016A (ja) コーパス生成装置、コーパス生成方法、およびプログラム
KR100710600B1 (ko) 음성합성기를 이용한 영상, 텍스트, 입술 모양의 자동동기 생성/재생 방법 및 그 장치
US20230039248A1 (en) Systems and Methods for Assisted Translation and Lip Matching for Voice Dubbing
JP3755503B2 (ja) アニメーション制作システム
CN114363531B (zh) 基于h5的文案解说视频生成方法、装置、设备以及介质
Mattheyses et al. On the importance of audiovisual coherence for the perceived quality of synthesized visual speech
KR101039668B1 (ko) 텍스트데이터 기반의 얼굴 애니메이션 출력방법 및 그 시스템
Aleksandrova et al. Audiovisual content analysis in the translation process
Kadam et al. A Survey of Audio Synthesis and Lip-syncing for Synthetic Video Generation
Kolivand et al. Realistic lip syncing for virtual character using common viseme set
KR20190111642A (ko) 실제 사진의 픽셀 기반의 토킹 헤드 애니메이션을 이용한 영상 처리 시스템 및 방법
JP2019213160A (ja) 動画編集装置、動画編集方法、及び動画編集プログラム
JP2001005476A (ja) プレゼンテーション装置
US20230245644A1 (en) End-to-end modular speech synthesis systems and methods

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20180206

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190117

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20200206

Year of fee payment: 6