KR100754430B1 - 음성 기반 자동 립싱크 애니메이션 장치와 방법 및 기록매체 - Google Patents

음성 기반 자동 립싱크 애니메이션 장치와 방법 및 기록매체 Download PDF

Info

Publication number
KR100754430B1
KR100754430B1 KR1020040080488A KR20040080488A KR100754430B1 KR 100754430 B1 KR100754430 B1 KR 100754430B1 KR 1020040080488 A KR1020040080488 A KR 1020040080488A KR 20040080488 A KR20040080488 A KR 20040080488A KR 100754430 B1 KR100754430 B1 KR 100754430B1
Authority
KR
South Korea
Prior art keywords
lip
pronunciation
key frame
animation
sync
Prior art date
Application number
KR1020040080488A
Other languages
English (en)
Other versions
KR20060031449A (ko
Inventor
오범수
김화성
조성업
정재홍
Original Assignee
비쥬텍쓰리디(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 비쥬텍쓰리디(주) filed Critical 비쥬텍쓰리디(주)
Priority to KR1020040080488A priority Critical patent/KR100754430B1/ko
Publication of KR20060031449A publication Critical patent/KR20060031449A/ko
Application granted granted Critical
Publication of KR100754430B1 publication Critical patent/KR100754430B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Processing Or Creating Images (AREA)

Abstract

본 발명은 음성 기반 자동 립싱크 애니메이션 장치와 방법 및 기록매체에 관한 것으로, 대사의 발음이 들어 있는 음성 파일 및 상기 음성 파일의 모든 음성 내용을 담고 있는 텍스트 파일을 입력받고, 상기 음성 파일에서 각각의 발음 내용을 음절별 및 음소별로 구분하여 발음 시간 정보를 추출한 후에 그 결과를 텍스트 파일 형태의 파일로 출력하는 발음정보 생성기; 상기 발음정보 생성기로부터의 파일내의 정보를 기본 발음 모델에 따라 음절/음소별로 구분하여 애니메이션을 위한 키 프레임의 위치를 위치를 추출하고, 자연스러운 립싱크 애니메이션을 위해 상기 추출된 위치별 키 프레임을 브랜딩하는 립싱크 키 프레임 조정기; 상기 립싱크 키 프레임 조정기로부터의 키 프레임을 이용하여 모든 프레임의 립싱크 애니메이션 정보를 생성하고, 그 생성된 모든 프레임의 립싱크 애니메이션 정보를 기본으로 실시간 립싱크 애니메이션을 화면에 디스플레이하는 립싱크 애니메이션 프리뷰어; 및 음성인식을 위해 미리 정의된 다수의 음소 모델과 립싱크 애니메이션에 사용될 다수의 기본 발음 모델 및 한글의 음절단위를 기본으로 해서 정의된 다수의 브랜딩 규칙 모델을 저장하고 있으며, 상기 발음정보 생성기와 립싱크 키 프레임 조정기 및 립싱크 애니메이션 프리뷰어에 의해 내부의 데이터가 독출되는 음향 모델 데이터베이스를 구비한다.

Description

음성 기반 자동 립싱크 애니메이션 장치와 방법 및 기록매체{Voice-based automatic lip-synchronization animation apparatus, Voice-based automatic lip-synchronization animation method, and storage medium}
도 1은 본 발명의 실시예에 따른 음성 기반 자동 립싱크 애니메이션 장치의 전체 구성도,
도 2는 도 1의 발음정보 생성기의 내부 구성도,
도 3은 도 1의 립싱크 키 프레임 조정기의 내부 구성도,
도 4a 및 도 4b는 본 발명의 실시예 설명에 채용되는 혼합 형상 모델을 설명하기 위한 도면,
도 5는 본 발명의 실시예에 채용되는 기본 모음 발음 모델을 설명하기 위한 도면,
도 6은 본 발명의 실시예에 채용되는 기본 자음 발음 모델을 설명하기 위한 도면,
도 7a와 도 7b와 도 8 및 도 9는 도 1의 립싱크 키 프레임 조정기에 대한 설명에 적용되는 도면,
도 10a 내지 도 10f는 본 발명의 실시예에 채용되는 브랜딩 규칙 모델을 설명하기 위한 도면,
도 11a 내지 도 11d 및 도 12는 도 1의 키 프레임 편집기에 대한 설명에 적용되는 도면,
도 13 내지 도 16은 도 1의 립싱크 애니메이션 프리뷰어에 대한 설명에 적용되는 도면,
도 17은 본 발명의 실시예에 따른 음성 기반 자동 립싱크 애니메이션 방법을 설명하는 플로우차트이다.
* 도면의 주요부분에 대한 부호의 설명
10 : 읽기 변환부 12 : 음소 모델 변환부
14 : 특징 추출부 16 : 음소 구간 분석부
18 : 발음정보 추출부 30 : 키 프레임 추출부
32 : 키 프레임 브랜딩부 100 : 발음정보 생성기
200 : 립싱크 키 프레임 조정기 300 : 키 프레임 편집기
400 : 립싱크 애니메이션 프리뷰어 500 : 음향 모델 데이터베이스
본 발명은 음성 기반 자동 립싱크 애니메이션 장치에 관한 것으로, 보다 상세하게는 대사 음성파일을 입력으로 받아들여 자동으로 3D 립싱크 애니메이션을 위한 키 프레임(Key Frame) 정보를 추출하고 이를 조합하여 립싱크 애니메이션 정보파일을 생성하도록 한 장치에 관한 것이다.
최근 컴퓨터 그래픽으로 합성된 얼굴과 사람 음성간의 립싱크를 통하여 말하는 사람의 얼굴을 구현하는 방법에 관한 연구가 이루어지고 있다. 즉, 소정의 음성 정보를 인식하여 이 음성 정보에 부합되도록 합성된 사람 얼굴의 입모양을 변화시켜 음성 정보를 보다 입체적으로 전달하도록 하는 립싱크 방법에 대한 연구가 활발히 이루어지고 있다. 이러한 립싱크 기능은 사이버 도우미나 사이버 가수와 같은 분야에서 많이 이용되고 있다.
이러한 립싱크에 대하여 종래에는, 첫째 임의의 텍스트를 입력하고 입력된 텍스트로부터의 음성 합성 결과를 립싱크하는 방식을 취하고 있거나, 둘째 인간의 실제 음성을 입력하고 이에 맞추어 고도의 숙련된 엔니지어(즉, 애니메이터)들의 작업에 의해 립싱크 동작 화면을 완성하는 방식을 취하여 왔다.
전자(첫번째 방식)의 경우는, 텍스트 즉 문자 형태로 최초의 입력이 이루어지고 이를 바탕으로 음성 합성 기술을 이용하여 인간의 음성에 가깝도록 음을 합성 하는 동시에 그래픽으로 합성된 얼굴의 입모양을 상기 음성 합성 결과와 부합되도록 동기시키고 있다. 그러나, 상기 텍스트 인식을 통하여 립싱크를 하는 전자의 방식은 현장에서 바로바로 음성 서비스를 해야 하는 경우와 같이 음성으로 바로 입력이 이루어져야 하는 경우에는 매우 어려울 수 밖에 없다는 단점이 있다. 특히, 전자의 방식은 립싱크시 제공되는 음성이 인간의 실제 음성이 아니라 음성 합성에 의한 합성음이므로 인간의 실제 육성에 비해 자연스럽지 못하다는 단점이 있다.
그래서, 3D 애니메이션에서 립싱크 애니메이션을 수행하는 가장 기본적인 방식은 애니메이터가 대사 음성을 직접 들어가면서 일일이 수작업을 통해 3D 모델의 키 애니메이션(Key Animation)을 잡아 주는 두 번째 방식이다.
하지만, 상기의 두 번째 방식의 경우 입력은 인간의 실제 육성에 의해 이루어지지만 립싱크 화면의 구성은 전문적인 엔지니어에 의해 이루어져야 하므로 제작 기간이 매우 오래 걸리며, 또한 음성 입력에 대해 실시간으로 립싱크 화면을 제공하기가 어렵다는 문제점이 있다. 즉, 많은 시간 투자와 함께 애니메이터의 번거러운 수작업이 필수적이며, 이에 반해 그 정확성은 그리 만족할만한 결과를 가져다 주지 못한다.
그리고, 종래에 연구된 많은 립싱크 방식은 주로 영어 발음에 의존하는 관계로 발음 구조상 상이한 한국어의 립싱크와는 많은 차이가 있다.
본 발명은 상기한 종래의 문제점을 해결하기 위해 제안된 것으로, 본 발명의 목적은 3D 애니메이션 제작과정에서의 한글 기반 립싱크 애니메이션을 수행함에 있 어 애니메이터의 수작업을 최소화함과 더불어 결과물의 정확성을 극대화시키도록 한 음성 기반 자동 립싱크 애니메이션 장치를 제공함에 있다.
그리고, 본 발명의 다른 목적은 3D 애니메이션 제작과정에서의 한글 기반 립싱크 애니메이션을 수행함에 있어 애니메이터의 수작업을 최소화함과 더불어 결과물의 정확성을 극대화시키도록 한 음성 기반 자동 립싱크 애니메이션 방법 및 기록매체를 제공함에 있다.
상기와 같은 목적을 달성하기 위하여 본 발명의 바람직한 실시예에 따른 음성 기반 자동 립싱크 애니메이션 장치는, 대사의 발음이 들어 있는 음성 파일 및 상기 음성 파일의 모든 음성 내용을 담고 있는 텍스트 파일을 입력받고, 상기 음성 파일에서 각각의 발음 내용을 음절별 및 음소별로 구분하여 발음 시간 정보를 추출한 후에 그 결과를 텍스트 파일 형태의 파일로 출력하는 발음정보 생성기; 상기 발음정보 생성기로부터의 파일내의 정보를 기본 발음 모델에 따라 음절/음소별로 구분하여 애니메이션을 위한 키 프레임의 위치를 위치를 추출하고, 자연스러운 립싱크 애니메이션을 위해 상기 추출된 위치별 키 프레임을 브랜딩하는 립싱크 키 프레임 조정기; 상기 립싱크 키 프레임 조정기로부터의 키 프레임을 이용하여 모든 프레임의 립싱크 애니메이션 정보를 생성하고, 그 생성된 모든 프레임의 립싱크 애니메이션 정보를 기본으로 실시간 립싱크 애니메이션을 화면에 디스플레이하는 립싱크 애니메이션 프리뷰어; 및 음성인식을 위해 미리 정의된 다수의 음소 모델과 립싱크 애니메이션에 사용될 다수의 기본 발음 모델 및 한글의 음절단위를 기본으로 해서 정의된 다수의 브랜딩 규칙 모델을 저장하고 있으며, 상기 발음정보 생성기와 립싱크 키 프레임 조정기 및 립싱크 애니메이션 프리뷰어에 의해 내부의 데이터가 독출되는 음향 모델 데이터베이스를 구비한다.
그리고, 본 발명의 음성 기반 자동 립싱크 애니메이션 방법은, 발음정보 생성기가, 대사의 발음이 들어 있는 음성 파일 및 상기 음성 파일의 모든 음성 내용을 담고 있는 텍스트 파일을 입력받아서 상기 음성 파일에서 각각의 발음 내용을 음절별 및 음소별로 구분하여 발음 시간 정보를 추출한 후에 그 결과를 텍스트 파일 형태의 파일로 하여 립싱크 키 프레임 조정기에게로 제공하는 제 1과정; 상기 립싱크 키 프레임 조정기가, 상기 발음정보 생성기로부터의 파일내의 정보를 기본 발음 모델에 따라 음절/음소별로 구분하여 애니메이션을 위한 키 프레임의 위치를 추출하고 자연스러운 립싱크 애니메이션을 위해 상기 추출된 위치별 키 프레임을 브랜딩하여 출력하는 제 2과정; 및 립싱크 애니메이션 프리뷰어가, 상기 립싱크 키 프레임 조정기로부터의 키 프레임을 이용하여 모든 프레임의 립싱크 애니메이션 정보를 생성하고 그 생성된 모든 프레임의 립싱크 애니메이션 정보를 기본으로 실시간 립싱크 애니메이션을 화면에 디스플레이하는 제 3과정을 구비한다.
그리고, 본 발명의 음성 기반 자동 립싱크 애니메이션 프로그램을 기록한 컴퓨터 판독 가능한 기록매체는, 대사의 발음이 들어 있는 음성 파일 및 상기 음성 파일의 모든 음성 내용을 담고 있는 텍스트 파일을 입력받아서 상기 음성 파일에서 각각의 발음 내용을 음절별 및 음소별로 구분하여 발음 시간 정보를 추출한 후에 그 결과를 텍스트 파일 형태로 파일화하는 제 1과정; 상기 제 1과정에 의한 파일내의 정보를 기본 발음 모델에 따라 음절/음소별로 구분하여 애니메이션을 위한 키 프레임의 위치를 추출하고 자연스러운 립싱크 애니메이션을 위해 상기 추출된 위치별 키 프레임을 브랜딩하는 제 2과정; 및 상기 제 2과정에 의한 키 프레임을 이용하여 모든 프레임의 립싱크 애니메이션 정보를 생성하고 그 생성된 모든 프레임의 립싱크 애니메이션 정보를 기본으로 실시간 립싱크 애니메이션을 화면에 디스플레이하는 제 3과정을 구비한다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예에 따른 음성 기반 자동 립싱크 애니메이션 장치와 방법에 대하여 설명하면 다음과 같다.
도 1은 본 발명의 실시예에 따른 음성 기반 자동 립싱크 애니메이션 장치의 전체 구성도로서, 대사의 발음이 들어 있는 음성 파일 및 상기 음성 파일의 모든 음성 내용을 담고 있는 텍스트 파일을 입력받고, 상기 음성 파일에서 각각의 발음 내용을 음절별 및 음소별로 구분하여 발음 시간 정보를 추출한 후에 그 결과를 텍스트 파일 형태의 파일(이하의 명세서에서는 SXT 파일이라 함)로 출력하는 발음정보 생성기(100); 상기 발음정보 생성기(100)로부터의 파일(SXT 파일)내의 정보에서 애니메이션을 위한 키 프레임(Key Frame)의 위치를 추출하고, 자연스러운 립싱크 애니메이션을 위해 상기 추출된 위치별 키 프레임을 브랜딩하는 립싱크 키 프레임 조정기(200); 상기 립싱크 키 프레임 조정기(200)에서 출력되는 키 프레임 정보를 사용자가 편집할 수 있도록 하는 사용자 인터페이스를 제공하는 키 프레임 편집기(300); 상기 립싱크 키 프레임 조정기(200) 또는 상기 키 프레임 편집기(300)로부터의 키 프레임을 이용하여 모든 프레임의 립싱크 애니메이션 정보를 생성하고, 그 생성된 모든 프레임의 립싱크 애니메이션 정보를 기본으로 실시간 립싱크 애니메이션을 화면에 디스플레이하는 립싱크 애니메이션 프리뷰어(400); 및 음성인식을 위해 미리 정의된 다수의 음소 모델과 립싱크 애니메이션에 사용될 다수의 기본 발음 모델 및 한글의 음절단위를 기본으로 해서 정의된 다수의 브랜딩 규칙 모델을 저장하고 있으며, 상기 발음정보 생성기(100)와 립싱크 키 프레임 조정기(200) 및 립싱크 애니메이션 프리뷰어(400)에 의해 내부의 데이터가 독출되는 음향 모델 데이터베이스(500)를 구비한다.
여기서, 상기 발음정보 생성기(100)는 얼굴 애니메이션의 립싱크를 위해 음성 데이터로부터 음소를 분석하는 것으로서, 음성 파일과 텍스트 파일을 이용하여 음성 파일의 각 음절/음소별로 음성 파일내에서의 발음 시작시간, 발음 유지시간, 발음이 끝나는 시간을 자동으로 찾아내 텍스트 파일내의 해당 음절/음소에 대응시키고 그 결과를 SXT 파일로 출력한다.
상기 발음정보 생성기(100)에게로 입력되는 음성 파일은 사람의 음성을 담고 있는 웨이브 파일(wave file)이다. 그 웨이브 파일의 샘플링 주파수는 대략 16kHz 정도이고, 그 웨이브 파일의 샘플당 비트수는 16비트(bit) 정도이며, 그 웨이브 파일은 압축되지 않은 선형(linear) PCM 포맷이다.
그리고, 상기 발음정보 생성기(100)에게로 입력되는 텍스트 파일은 음성 내용을 모두 담고 있는데, 그 텍스트 파일의 모든 내용은 한글로 구성되고, 영어와 아라비아 숫자 및 기호 등은 모두 한글로 그 발음을 표기한다. 또한, 쉼표, 마침표, 물음표, 느낌표 등 음성 발음과 직접 상관이 없는 기호는 기호 그대로 표현되어도 무방하다.
그리고, 상기 발음정보 생성기(100)는 도 2에 도시된 바와 같이, 상기 텍스트 파일내의 텍스트를 소리나는 형태로 읽기 변환하는 읽기 변환부(10); 상기 읽기 변환부(10)에 의해 읽기 변환된 문장을 상기 음향 모델 데이터베이스(500)에 저장된 음소 모델을 근거로 해당하는 음소 모델로 변환하는 음소 모델 변환부(12); 입력되는 상기 음성 파일내의 음성 데이터로부터 실제 음소 구간 분석에 필요한 특징을 추출하는 특징 추출부(14); 상기 특징 추출부(14)로부터의 정보를 상기 음향 모델 데이터베이스(500)내의 각 음소 모델을 근거로 하여 해당하는 음소 모델을 생성하고 음소 구간을 분석하는 음소 구간 분석부(16); 및 상기 음소 모델 변환부(12)와 음소 구간 분석부(16)로부터의 정보를 이용하여 음성인식을 행한 후에 각 대사의 발음 음절별 및 음소별 시간 정보를 추출하여 텍스트 파일 포맷의 파일(SXT 파일)로 출력하는 발음 정보 추출부(18)를 구비한다.
상기 읽기 변환부(10)는 텍스트를 입력으로 받아 소리 나는 형태로 읽기 변환을 수행하는데, 예를 들어 "힘센 철수는 어제 한라산에 올라갔다."라는 문장에 대하여 "힘쎈 철쑤는 어제 할라사네 올라갇따."와 같이 소리라는 대로 읽기 변환을 수행한다.
상기 읽기 변환부(10)에서의 동작시, 규칙으로 처리되지 않는 발음을 처리하기 위하여 예외 발음 사전을 필요로 한다. 특히, 입력으로 들어오는 대사가 녹음된 음성 웨이브 파일과 대사의 내용이 텍스트로 적혀 있는 파일은 엄격히 말해 서로 다른 내용을 포함하고 있다고 말할 수 있다. 대사의 내용이 적힌 텍스트 파일은 문법에 맞게 맞춤법이 적용된 형태로 단어와 문장이 배열되어 있으므로 실제 발음 내용이 들어 있는 웨이브 파일과는 정확하게 일치하지 않는다. 따라서, 보다 정확한 웨이브 파일의 음성 분석을 위해서는 텍스트 파일의 문장 내용을 발음시 소리 나는대로 변환시켜 주어야 한다. 립싱크 애니메이션은 발음시의 입모양을 그대도 본따서 애니메이션하는 기술이므로 문법에 맞게 적힌 문장을 기준으로 하는 것보다 실제 발음되는 데로 적힌 문장을 기준으로 해서 애니메이션을 구현하는 것이 더 정확한 결과를 낳을 수 있다.
한편, 상기 음소 모델 변환부(12)에서는 읽기 변환된 문장(예컨대, "힘쎈 철쑤는 어제 할라사네 올라갇따.")을 "sil h i m S e n sp c v l S u n U n sp v j e sp h a l r a s a n e sp o l r a g a d0 D a sil"와 같이 변환시킨다. 여기에서 sil는 무음 구간을 모델링하고 있는 심볼이고, sp는 휴지구간을 모델링하고 있는 심볼이다. 음성 인식을 위한 음향모델 데이터베이스(500)의 경우 음성 인식 성능의 향상을 위하여 음소 모델을 다양하게 사용할 수 있으므로, 시스템을 이러한 음소 모델로부터 독립적으로 설계할 필요가 있다.
상기 특징 추출부(14)는 음성 데이터로부터 음성 인식을 위한 특징을 추출해 내는 부분으로서, Mel-Frequency Cepstral Coeffients 음소 분석 기술이 적용되었다. 그 특징 추출부(14)는 음성 신호의 시간 변화에 따른 변화를 모델링하기 위한 차분, 차차분 파라미터를 추출한다.
상기 음소 구간 분석부(16)는 음성 인식을 위한 음향 모델 데이터베이스(500)를 읽어 오게 되는데, 음소 구간 분석을 위해 그 음향 모델 데이터베이스(500)로부터 각 음소 모델들에 대한 정보를 읽어 들이고 해당 모델들을 생성한다. 그 음소 구간 분석부(16)는 연속 HMM(Continuous Hidden Markov Model)을 이용한다.
상기 발음정보 추출부(18)는 비터비 알고리즘(Viterbi algorithm)을 통하여 음성인식을 수행하는데, 발음 음절별, 음소별 시간 정보를 추출하고, 발음 시간 정보는 1/100 초 단위로 추출된다. 그 추출된 발음 시간 정보는 SXT File 포맷(즉, 본 발명에서 정의한 파일 포맷임)으로 출력된다.
상기 발음정보 추출부(18)에서 출력되는 SXT 파일은 상기 입력된 텍스트 파일의 각 음절 및 음소별로 음성 파일에서의 발음 시작 시간과 발음의 유지시간 및 발음이 끝나는 시간에 대한 정보를 담고 있다.
상기 SXT 파일의 구성은 다음과 같다.
sxt file start TAG
각 음절의 발음 시작 시간: milliseconds
각 음절의 발음 유지 시간: milliseconds
각 음절의 발음 마침 시간: millisecond
발음되는 음절(2byte XWanSung 한글 Code)
음절 내 음소의 발음 시작 시간: milliseconds
음절 내 음소의 발음 유지 시간: milliseconds
음절 내 음소의 발음 마침 시간: millisecond
발음되는 음소(2byte XWanSung 한글 Code)
sxt file end TAG
상기 SXT 파일 포맷은, 음절별 분할 알고리즘에 의해 분할된 결과를 수록하고 있는 파일로서, 파일의 시작과 끝은 "#! SXT !#"이라는 TAG에 의해 표시되고, "#"으로 시작하는 라인은 주석을 의미하며, 각 음절에 대하여 기술되는 포맷은 다음과 같다. <시작 시간>, <종료 시간>, <음절>의 순으로 기록되어 있으며, 각 항목은 TAB_KEY에 의해 구분된다. 음절을 구성하는 음소의 지속구간을 표기하기 위하여 각 음소별로 <시각 시간>, <종료 시간>, <음소>의 순으로 표기하였으며, 음소의 경우 첫 번째 문자를 TAB_KEY로 두어 음절의 경우와 다르게 표시하였다. 음소의 경우에도 각 항목은 TAB_KEY에 의해 구분하고, 현재 디폴트로 사용되고 있는 주석은 다음과 같다.
- 버전 정보 : "#! Ver. 2.0 !#"
- 음성 파일의 전체 길이: "#! Len 4.800 !#"
상기 SXT 파일의 예는 다음과 같다.
#! SXT !#
#! Ver. 2.0 !#
#! Len 4.800 !#
0.460 0.740 나
0.460 0.620 ㄴ
0.620 0.740 ㅏ
0.740 1.170 는
0.740 0.790 ㄴ
0.790 0.840 ㅡ
0.840 1.170 ㄴ
1.600 1.910 학
1.600 1.730 ㅎ
1.730 1.790 ㅏ
1.790 1.910 ㄱ
1.910 2.000 꾜
1.910 1.970 ㄲ
1.970 2.000 ㅛ
2.000 2.570 에
2.000 2.570 ㅔ
2.900 3.120 감
2.900 2.980 ㄱ
2.980 3.030 ㅏ
3.030 3.120 ㅁ
3.120 3.240 니
3.120 3.150 ㄴ
3.150 3.240 ㅣ
3.240 3.650 다
3.240 3.310 ㄷ
3.310 3.650 ㅏ
#! SXT !#
상기 립싱크 키 프레임 조정기(200)는 립싱크 애니메이션을 수행하기 위해 필요한 키 프레임을 추출하고, 각각의 키 프레임에 필요한 애니메이션 정보를 세팅하고, 이 정보를 기반으로 좀 더 자연스러운 립싱크 애니메이션이 수행될 수 있도록 수정 및 보완한다.
상기 립싱크 키 프레임 조정기(200)는 도 3에 도시된 바와 같이, 상기 발음정보 생성기(100)로부터의 출력 파일(SXT 파일)을 입력받아 각 대사의 발음 시간 정보를 음절별 및 음소별로 구분하여 추출하는 키 프레임 추출부(30); 및 음절 발음 애니메이션을 위해 상기 키 프레임 추출부(30)로부터의 키 프레임을 브랜딩시키되, 상기 음향 모델 데이터베이스(500)에 저장된 다수의 브랜딩 규칙 모델에 근거하여 브랜딩하는 키 프레임 브랜딩부(32)를 구비한다.
본 발명은 Blend-Shape Model Based Animation 기법을 기본으로 하고 있기 때문에, 혼합 형상 모델(Blend-Shape Model)을 먼저 정의해야 하는 전처리 과정이 필요한다.
Blend-Shape Model Based Animation 기법이란 도 4a 및 도 4b에서와 같은 구조를 가지는 여러개의 모델을 섞어서 하나의 새로운 모델을 만들어 내는 기법이다. 구현 기법은 다음과 같다.
우선, 기준이 되는 무표정한 얼굴 모델을 표준 모델(Neutral Model; 도 4a 참조) 로 정의한다. 그리고 나서, 다양한 표정 및 발음을 가진 얼굴 모델(Blend- Shape Model; 도 4b 참조)을 정의한다. 그후, 버텍스(Vertex)별로 "표준 모델 - 다양한 표정 및 발음을 가진 얼굴 모델"을 계산해서 각 표정 및 발음 모델의 표준 모델에 대한 움직임 벡터(Motion Vector)를 구한다. 이렇게 계산된 움직임 벡터들을 MVi 라 정의한다. 그리고, 하나의 새로운 얼굴 표정을 만들어 내기 위해서는 하기의 식 1과 같이 표준 모델에 MVi 를 브랜딩(blending)시켜 주면 된다.
(식 1)
Figure 112004045810826-pat00001
상기 식 1에서, αi는 보간계수이다.
본 발명은 Blend-Shape Base Animation 기법을 기본으로 사용하여 립싱크 애니메이션을 자동으로 수행하게 되므로, 키 프레임을 자동으로 선택하고 선택된 키 프레임에서 미리 정의되어 있는 기본 발음 모델들의 MV에 대한 αi 값들을 자동으로 계산한다.
따라서, 본 발명에서는 립싱크 애니메이션을 위한 키 프레임을 추출하기 전에 립싱크 애니메이션에 사용될 기본 발음 모델을 Blend Shape로 먼저 정의해 두고, 그 정의된 기본 발음 모델들을 음향 모델 데이터베이스(500)에 미리 저장해 둔 다.
본 발명에서 미리 정의되는 기본 발음 모델에 대하여 설명하면 다음과 같다. 우선, 한글의 자모 체계는 다음의 표 1 및 표 2에서와 같이 분류된다.
Figure 112004045810826-pat00002
이와 같은 한글의 자모 체계를 기본으로 하여, 본 발명에서는 기본 모음 발음 모델을 7가지로 하였다. (외) 및 (위)를 제외한 7가지 단모음의 발음 입모양을 도 5에서와 같이 정의하고((애), (에)는 같은 모양으로 함) (외) 및 (위)를 포함한 이중 모음은 단모음의 연결로 사용하도록 한다.
즉, 단모음의 경우 : (아) = 아/야, (어) = 어/여, (오) = 오/요, (우) = 우/유, (으) = 으, (이) = 이, (애) = 애/에 이고,
이중 모음의 경우 : (오) + (애) = 외/왜, (우) + (이) = 위, (우) + (어) = 워,
(우) + (애) = 웨, (오) + (아) = 와, (이) + (애) = 예/얘, (으) + (이) = 의 이다.
그리고, 본 발명에서의 기본 자음 발음 모델은 도 6에서와 같이 3가지이다. 순음(ㅁ, ㅂ, ㅍ)은 입술이 맞닿아 나는 자음이므로 독립적인 입모양으로 정의된다. 설음(ㄴ, ㄷ, ㅌ, ㄹ) 및 치음(ㅅ, ㅈ, ㅊ)은 혀끝에서 발음이 되는 자음으로 입술 모양에도 영향을 미치므로 독립적인 입모양으로 정의된다. 상기 두 가지 종류의 발음을 제외한 나머지 자음에 대응하는 공통된 입모양을 기타 자음으로 정의된다.
상기 기본 발음 모델은 모든 자음/모음에 대해서 정의할수록 보다 정교하고 자연스러운 애니메이션 결과를 얻을 수 있다. 본 발명에서는 겉으로 보이는 입모양의 형태 변화를 기준으로 모양 변화가 큰 모델을 기본 모델로 정의해서 총 10개의 자음 + 모음 발음 모델을 정의하였다.
상기 키 프레임 추출부(30)는 초성/종성(자음)의 키 프레임을 추출하는데, 해당 자음에 대응되는 발음 모델(i)을 선택하고 도 7a와 같이 발음의 시작 부분(f1), 중간 부분(f2), 종결 부분(f3) 3개의 키 프레임을 잡아서 선택된 발음 모델의 αi값을 할당한다. 그리고, 그 키 프레임 추출부(30)는 중성(모음)의 키 프레임도 추출하는데, 그 중성이 단모음인 경우는 도 6과 같은 방법으로 3개의 키(Key)를 잡는다. 그리고, 그 중성이 이중 모음인 경우에는 이중 모음은 두 개의 단모음이 연속해서 발음되는 것으로 처리하므로 도 7b에서와 같이 두 개의 발음 모델에 대해서 연속적으로 5개의 키(Key)를 잡고 각각의 발음 모델의 (i), (j)에 대해 αi, αj를 잡는다.
상기와 같은 방법으로 키(Key)를 잡게 되면 한 음절을 발음할 때 최소 한 번(예:아) 에서 최대 4번(예:봤)의 입술의 열고 닫힘이 반복된다. 하지만, 하나의 음절을 발음할 때 이렇게 입술이 여러 번 열렸다 닫혔다 하게 되면 결과적으로 애니메이션이 부자연스러울 뿐만 아니라 실제 발음 입모양을 관찰해 보면 이런 현상이 나타나지 않는다는 것을 알 수 있다.
따라서, 상기 키 프레임 브랜딩부(32)는 상기에서 잡은 키 프레임을 수정해서 도 8에서와 같이 모든 α값들이 0.0인 부분들의 위치로 되도록 보정해 준다. 이와 더불어 그 키 프레임 브랜딩부(32)는 α값들도 균일하게 최대값을 1.0으로 주지 않고 초성/중성/종성에 따라 및 발음 위치에 따라 서로 다른 값을 주어서 애니메이션에서의 입술 발음 모양이 보다 더 자연스럽게 표현될 수 있도록 한다. 즉, 한 음절을 발음하는데 있어서 연달아 입술을 열었다 닫았다 하지 않고 도 9에서와 같이 전체적으로 한 번 입을 열고 닫는 모양에 가까워지도록 브랜딩(Blending)을 적용한다.
상기 키 프레임 브랜딩부(32)는 하나의 음절에 대해서 초성/중성(단모음-이 중모음)/종성의 각 키(Key)를 브랜딩시키게 되는데, 최대 α값을 서로 다르게 할당하는 것은 도 10a 내지 도 10f와 같이 6가지의 브랜딩 규칙 모델중 하나로 매핑시켜 브랜딩을 완성한다. 도 10a는 단모음(예, (아))에 대한 브랜딩 규칙 모델이고, 도 10b는 초성 + 단모음(예, (바))/이중모음(예, (와))에 대한 브랜딩 규칙 모델이며, 도 10c는 단모음 + 종성(예, (압))에 대한 브랜딩 규칙 모델이고, 도 10d는 초성 + 단모음 + 종성(예, (밥))/이중모음 + 종성(예, (왑))에 대한 브랜딩 규칙 모델이며, 도 10e는 초성 + 이중모음(예, (봐))에 대한 브랜딩 규칙 모델이고, 도 10f는 초성 + 이중모음 + 종성(예, (
Figure 112004045810826-pat00003
))에 대한 브랜딩 규칙 모델이다. 각각의 브랜딩 규칙 모델의 α수치값과 키 프레임 브랜딩 위치는 실험적 결과에 의해서 가장 자연스러운 애니메이션 결과를 낳는 위치를 선택한 것이다.
상기 키 프레임 브랜딩부(32)는 립싱크 애니메이션을 수행하기 위한 키 프레임의 프레임 번호 및 각각의 키 프레임에 대한 애니메이션 정보를 출력시킨다.
도 1에서, 키 프레임 편집기(300)는 상기 립싱크 키 프레임 조정기(200)의 결과물인 링싱크 애니메이션 키 프레임 정보가 입력으로 들어온다. 즉, 혼합 형상(Blend Shape)별로 키 프레임의 위치와 각각의 키 프레임에서의 브랜딩 웨이트(Blending Weight)값이 입력으로 들어온다. 이 값들은 화면상에 수치로도 디스플레이되고 그래프 형태로도 디스플레이되어서 사용자가 직접 키보드 입력으로 수치를 수정하거나 마우스(Mouse) 조작을 통해 그래프를 수정함으로써 간접적으로 수치값을 수정할 수 있게 한다.
상기 키 프레임 편집기(300)는, 키 프레임 선택(Key Frame selection) 기능, 키 프레임 위치 수정 기능, 브랜딩 웨이트(Blending Weight) 수정 기능, 키 프레임 복사 기능, 키 프레임 컷(Key Frame Cut) 기능, 키 프레임 컷/삽입 기능 등을 갖는다. 상기 키 프레임 선택 기능은 도 11a에서와 같이 마우스를 사용해 편집을 적용할 키 프레임을 클릭해서 선택하도록 한다. 하나 이상의 키 프레임을 다중으로 선택해 그룹으로 편집하는 것이 가능하다. 상기 키 프레임 위치 수정 기능은 도 11b에서와 같이 선택된 키 프레임의 위치를 마우스의 좌/우 움직임이나 키보드의 좌/우 방향 키를 사용해 원하는 위치로 이동시키는 것을 가능하게 한다. 상기 브랜딩 웨이트 수정 기능은 도 11c에서와 같이 선택된 키 프레임에서의 대응되는 혼합 형상(Blend Shape)의 브랜딩 웨이트를 마우스의 상/하 움직임이나 키보드의 상/하 방향 키를 이용해 수정하도록 한다. 정교한 값을 세팅하기 위해서 키보드의 숫자 키를 이용해 값을 직접 입력할 수 있는 편집 인터페이스도 제공한다. 상기 키 프레임 복사 기능은 선택된 키 프레임을 메모리에 복사하고 선택된 키 프레임은 그대로 남겨 둔다. 상기 키 프레임 컷 기능은 선택된 키 프레임을 메모리에 복사하고 선택된 키 프레임을 지운다. 상기 키 프레임 컷/삽입 기능은 메모리에 복사된 키 프레임을 마우스로 선택한 프레임 위치에 삽입해 붙여 넣는다. 마우스로 선택한 임의의 위치에 새로운 키 프레임을 정의해 넣는 기능도 가능하다. 도 11d는 상술한 키 프레임 복사 기능, 키 프레임 컷(Key Frame Cut) 기능, 키 프레임 컷/삽입 기능에 대한 예시도이다. 한편, 도 12에서와 같이 키보드 숫자판을 이용하여 직접 값을 입력하는 편집 기능도 가능하다.
상기 키 프레임 편집기(300)는 각 혼합 형상 모델(Blend Shape Model)별로 수정된 키 프레임의 위치 정보, 수정된 브랜딩 웨이트(Blending Weight) 정보를 출력시킨다.
도 1에서, 립싱크 애니메이션 프리뷰어(400)는 수정된 키 프레임 정보를 기본으로 해서 모니터상에 립싱크 애니메이션을 실시간(real-time) 디스플레이하는 기능을 수행한다.
보다 세부적으로, 상기 립싱크 애니메이션 프리뷰어(400)는 첫 번째로 모델 등록을 한다. 즉, 미리 정의된 기본 발음 입 모양을 가지는 3D 모델(즉, 기본 발음 모델)을 모두 내부의 메모리(도시 생략)상으로 읽어 들인 후에 모든 모델에 대해서 3D 모델의 버텍스(Vertex)별로 "표준 모델(Neutral Model) 발음 모델"을 계산해 각 발음 모델의 표준 모델에 대한 움직임 벡터(Motion Vector)를 구한다. 이렇게 계산된 움직인 벡터들을 MVi 라 정의해 등록한다.
두 번째로 애니메이션 프레임 정보를 계산한다. 즉, 실제 애니메이션을 화면에 디스플레이하기 위해서는 시간의 흐름에 따라 프레임 레이트(Frame Rate)에 맞추어서 모든 프레임 정보를 화면에 디스플레이해 주어야 한다. 키 프레임은 모든 프레임이 아닌 말 그대로 키가 되는 프레임의 애니메이션 정보만을 포함하고 있으므로 키 프레임과 키 프레임 사이의 모든 프레임에 대한 애니메이션 정보(Blending Weight)를 계산해야 한다. 이 작업은 혼합 형상 모델(Blend Shape Model)별로 이루어지며(모든 혼합 형상 모델 각각에 대해 키 프레임과 키 프레임에서의 브랜딩 웨 이트가 계산되어 있다) 브랜딩 함수(blending function)를 정의해 계산된다. 그 브랜딩 함수로는 삼각함수, 선형함수, 가우스(Gaussian) 함수, 넙스(NURBS: Non-Uniform Rational B-Spline) 함수가 제공되며 사용자가 원하는 스타일의 브랜딩 함수를 선택하여 적용할 수 있다. 예를 들어, 도 13에서와 같이 각각의 혼합 형상 모델(Blend Shape Model)에 대해서 프레임 f에서의 브랜딩 웨이트 Wf는 브랜딩 함수를 정의해 수치적으로 계산된다.
세 번째로 음성 재생을 행한다. 즉, 상기 발음정보 생성기(100)에서 입력으로 사용된 대사가 녹음된 음성 파일(wave file)을 스피커(도시 생략)를 통해서 실시간으로 출력한다.
네 번째로 립싱크 모델 영상을 디스플레이한다. 즉, 현재 프레임에서 상기 계산된 각 혼합 형상(Blend Shape)의 브랜딩 웨이트(Blending Weight)를 이용해서 표준 모델(Neutral Model)에 각 혼합 형상의 움직임 벡터를 브랜딩한다. 각각의 Blend Shape i의 움직임 벡터(motion vector)를 MVi이라 하고, 브랜딩 웨이트(blending weight)를 αi 라 할 때, 브랜딩을 통해 생성되는 최종 모델은 상술한 식 1과 같이 구성된다. 상술한 식 1에 의해 생성된 립싱크 모델을 화면에 디스플레이한다. 이때 디스플레이 속도는 음성과 싱크(Sync)를 맞추면서 실시간으로 애니메이션을 수행하기 위해서 24fps 이상으로 한다. 임의의 프레임 f에서 각 혼합 형상 모델의 브랜딩 웨이트는 도 14에서와 같이 나타날 수 있다.
다섯 번째로 (음성 재생 + 립싱크 애니메이션 영상 디스플레이)가 도 15에 예시된 바와 같이 실시간 실시간 립싱크 애니메이션 미리보기를 구성하게 된다. 상 기 실시간 립싱크 애니메이션 미리보기(음성 + 영상)는 Play/Pause/Stop 기능을 가진다.
마지막으로, 도 16에 예시된 바와 같이 립싱크 애니메이션 모델을 3D로 화면에 디스플레이한다.
상술한 바와 같은 상기 립싱크 애니메이션 프리뷰어(400)에 따르면, 대사 음성이 스피커(도시 생략)를 통해서 실시간으로 흘러나오고, 이 대사에 동기가 맞는 립싱크 애니메이션이 모니터(도시 생략)에서 실시간으로 디스플레이되는 "립싱크 애니메이션 미리보기"(도 15 참조)가 출력되어 나온다.
이어, 본 발명의 실시예에 따른 음성 기반 자동 립싱크 애니메이션 장치의 전체적인 동작에 대하여 도 17의 플로우차트를 참조하여 설명하면 다음과 같다.
일단, 사람의 음성을 담고 있는 음성 파일과 그 음성 파일의 음성 내용을 모두 담고 있는 텍스트 파일이 발음정보 생셩기(100)에게로 입력되면(단계 S10), 그 발음정보 생성기(100)는 그 입력된 텍스트 파일을 소리나는대로 읽기 변환하고 음향 모델 데이터베이스(500)내의 데이터를 근거로 읽기 변환된 문장을 그에 상응하는 음소 모델로 변환함과 더불어 상기 입력된 음성 파일에 대하여 실제 음소 구간 분석에 필요한 특징을 추출하여 음소 구간을 분석한다(단계 S12).
그리고, 그 발음정보 생성기(100)는 상기 변환된 음소 모델과 분석된 음소 구간 정보에 근거하여 발음 시간 정보(즉, 발음 시작 시간, 발음 유지 시간, 발음이 끝나는 시간)를 추출하고 그 결과를 텍스트 파일 형태의 SXT 파일화하여 립싱크 키 프레임 조정기(200)에게로 보낸다(단계 S14).
그에 따라, 그 립싱크 키 프레임 조정기(200)는 입력된 SXT 파일내의 각 대사의 발음 시간 정보를 상기 음향 모델 데이터베이스(500)에 기저장된 기본 발음 모델(즉, 혼합 형상 모델(Blend-Shape Model)을 기반으로 한 기본 발음 모델)에 근거하여 음절/음소별로 구분하여 키 프레임을 추출한다(단계 S16).
이어, 그 립싱크 키 프레임 조정기(200)는 그 추출된 음절/음소별 키 프레임에 대하여 좀 더 자연스러운 애니메이션을 위해 브랜딩을 행한다(단계 S18).
그 립싱크 키 프레임 조정기(200)에서 출력되는 키 프레임 정보는 사용자에 의해 수정이 가능한데, 만약 사용자가 그 립싱크 키 프레임 조정기(200)에서 출력되는 키 프레임 정보를 수정하지 않은 경우(단계 S20에서 "No")에는 그 립싱크 키 프레임 조정기(200)에서 출력되는 키 프레임 정보가 립싱크 애니메이션 프리뷰어(400)에게로 입력되고, 그 립싱크 애니메이션 프리뷰어(400)는 그 브랜딩된 키 프레임 정보를 근거로 립싱크 애니메이션 영상을 만들어 출력한다(단계 S22).
그런데, 상기 단계 S20에서 사용자가 키 프레임 편집기(300)를 이용하여 그 립싱크 키 프레임 조정기(200)에서 출력되는 키 프레임 정보를 수정한 경우에는 그 수정된 최종 키 프레임 정보가 립싱크 애니메이션 프리뷰어(400)에게로 입력되고, 그 립싱크 애니메이션 프리뷰어(400)는 그 수정된 최종 키 프레임 정보를 근거로 립싱크 애니메이션 영상을 만들어 출력한다(단계 S24).
한편, 본 발명은 상술한 실시예로만 한정되는 것이 아니라 본 발명의 요지를 벗어나지 않는 범위내에서 수정 및 변형하여 실시할 수 있고, 그러한 수정 및 변형이 가해진 기술사상 역시 이하의 특허청구범위에 속하는 것으로 보아야 한다.
이상 상세히 설명한 바와 같이 본 발명에 따르면, 대사 및 음성 파일을 입력으로 받아들여 자동으로 3D 립싱크 애니메이션을 위한 키 프레임 정보를 추출하고 이를 조합하여 립싱크 애니메이션 정보 파일을 생성하므로, 3D 애니메이션 제작과정에서의 립싱크 애니메이션을 수행함에 있어 애니메이터의 수작업을 최소할 뿐만 아니라 결과물의 정확성이 최대화된다.


Claims (14)

  1. 대사의 발음이 들어 있는 음성 파일 및 상기 음성 파일의 모든 음성 내용을 담고 있는 텍스트 파일을 입력받아, 상기 음성 파일의 각 음절/음소별로 발음 시간 정보를 추출하여 상기 텍스트 파일내의 해당 음절/음소에 대응시킨 결과를 출력하는 발음정보 생성기;
    상기 발음정보 생성기로부터의 결과를 기본 발음 모델에 따라 음절/음소별로 구분하여 애니메이션을 위한 키 프레임의 위치를 추출하고, 상기 추출된 위치별 키 프레임을 브랜딩하는 립싱크 키 프레임 조정기;
    상기 립싱크 키 프레임 조정기로부터의 키 프레임을 이용하여 모든 프레임의 립싱크 애니메이션 정보를 생성하고, 그 생성된 모든 프레임의 립싱크 애니메이션 정보를 기본으로 실시간 립싱크 애니메이션을 화면에 디스플레이하는 립싱크 애니메이션 프리뷰어; 및
    음성인식을 위해 미리 정의된 다수의 음소 모델과 립싱크 애니메이션에 사용될 다수의 기본 발음 모델 및 한글의 음절단위를 기본으로 해서 정의된 다수의 브랜딩 규칙 모델을 저장하고 있으며, 상기 발음정보 생성기와 립싱크 키 프레임 조정기 및 립싱크 애니메이션 프리뷰어에 의해 내부의 데이터가 독출되는 음향 모델 데이터베이스를 구비하고,
    상기 립싱크 키 프레임 조정기는, 상기 발음정보 생성기로부터의 결과를 입력받아 각 대사의 발음 시간 정보를 음절별 및 음소별로 구분하여 추출하는 키 프레임 추출부; 및 상기 음향 모델 데이터베이스에 저장된 다수의 브랜딩 규칙 모델에 근거하여 상기 키 프레임 추출부로부터의 키 프레임을 브랜딩하되, 상기 브랜딩되는 키 프레임이 음절내 각 음소별로 서로 다른 브랜딩 웨이트를 가지게 하는 키 프레임 브랜딩부를 구비하는 것을 특징으로 하는 음성 기반 자동 립싱크 애니메이션 장치.
  2. 제 1항에 있어서,
    상기 립싱크 키 프레임 조정기에서 출력되는 키 프레임 정보를 사용자가 편집할 수 있도록 하는 사용자 인터페이스를 제공하는 키 프레임 편집기를 추가로 구비한 것을 특징으로 하는 음성 기반 자동 립싱크 애니메이션 장치.
  3. 제 1항 또는 제 2항에 있어서,
    상기 발음정보 생성기는, 상기 텍스트 파일내의 텍스트를 소리나는 형태로 읽기 변환하는 읽기 변환부; 상기 읽기 변환부에 의해 읽기 변환된 문장을 상기 음향 모델 데이터베이스에 저장된 음소 모델을 근거로 해당하는 음소 모델로 변환하는 음소 모델 변환부; 입력되는 상기 음성 파일내의 음성 데이터로부터 실제 음소 구간 분석에 필요한 특징을 추출하는 특징 추출부; 상기 특징 추출부로부터의 정보를 상기 음향 모델 데이터베이스내의 각 음소 모델을 근거로 하여 해당하는 음소 모델을 생성하고 음소 구간을 분석하는 음소 구간 분석부; 및 상기 음소 모델 변환부와 음소 구간 분석부로부터의 정보를 이용하여 음성인식을 행한 후에 각 대사의 발음 음절별 및 음소별 시간 정보를 추출하여 텍스트 파일 포맷의 파일로 출력하는 발음 정보 추출부를 구비하는 것을 특징으로 하는 음성 기반 자동 립싱크 애니메이션 장치.
  4. 제 3항에 있어서,
    상기 발음정보 생성기에서 출력되는 파일은, 상기 입력된 텍스트 파일의 각 음절 및 음소별로 음성 파일에서의 발음 시작 시간과 발음의 유지시간 및 발음이 끝나는 시간에 대한 정보를 담고 있는 것을 특징으로 하는 음성 기반 자동 립싱크 애니메이션 장치.
  5. 삭제
  6. 제 1항 또는 제 2항에 있어서,
    상기 음향 모델 데이터베이스의 기본 발음 모델은, 외 및 위를 제외한 7가지의 단모음의 발음 입모양으로 정의되고, 이중 모음은 상기 단모음의 연결로 사용되며, 자음에 대해서는 순음과 설음 및 기타 자음에 대한 발음 입모양으로 정의된 것을 특징으로 하는 음성 기반 자동 립싱크 애니메이션 장치.
  7. 제 1항 또는 제 2항에 있어서,
    상기 음향 모델 데이터베이스내의 브랜딩 규칙 모델은, 단모음, 초성+단모음/이중모음, 단모음+종성, 초성+단모음+종성/이중모음+종성, 초성+이중모음, 및 초성+이중모음+종성에 대한 모델인 것을 특징으로 하는 음성 기반 자동 립싱크 애니메이션 장치.
  8. 제 7항에 있어서,
    상기 초성 및 종성의 브랜딩 웨이트는 상기 단모음 및 이중모음의 브랜딩 웨이트의 3/5인 것을 특징으로 하는 음성 기반 자동 립싱크 애니메이션 장치.
  9. 제 1항 또는 제 2항에 있어서,
    상기 립싱크 애니메이션 프리뷰어는, 하기의 식
    Figure 112004045810826-pat00004
    αi는 보간계수임,
    에 의해 실시간 립싱크 애니메이션을 만들어 화면에 디스플레이시키는 것을 특징으로 하는 음성 기반 자동 립싱크 애니메이션 장치.
  10. 발음정보 생성기가, 대사의 발음이 들어 있는 음성 파일 및 상기 음성 파일의 모든 음성 내용을 담고 있는 텍스트 파일을 입력받아 상기 음성 파일의 각 음절/음소별로 발음 시간 정보를 추출한 후에 상기 텍스트 파일내의 해당 음절/음소에 대응시킨 결과를 립싱크 키 프레임 조정기에게로 제공하는 제 1과정;
    상기 립싱크 키 프레임 조정기가, 상기 발음정보 생성기로부터의 결과를 기본 발음 모델에 따라 음절/음소별로 구분하여 애니메이션을 위한 키 프레임의 위치를 추출하고 상기 추출된 위치별 키 프레임을 브랜딩하여 출력하되, 상기 브랜딩되는 위치별 키 프레임에게 음절내 각 음소별로 서로 다른 브랜딩 웨이트를 부여하여 출력하는 제 2과정; 및
    립싱크 애니메이션 프리뷰어가, 상기 립싱크 키 프레임 조정기로부터의 키 프레임을 이용하여 모든 프레임의 립싱크 애니메이션 정보를 생성하고 그 생성된 모든 프레임의 립싱크 애니메이션 정보를 기본으로 실시간 립싱크 애니메이션을 화면에 디스플레이하는 제 3과정을 구비하는 것을 특징으로 하는 음성 기반 자동 립싱크 애니메이션 방법.
  11. 제 10항에 있어서,
    상기 립싱크 키 프레임 조정기에서 출력되는 키 프레임 정보를 사용자 인터페이스를 통해서 편집하는 과정을 추가로 구비한 것을 특징으로 하는 음성 기반 자동 립싱크 애니메이션 방법.
  12. 제 10항 또는 제 11항에 있어서,
    상기 제 1과정에서, 상기 발음정보 생성기는 상기 입력된 텍스트 파일의 각 음절 및 음소별로 음성 파일에서의 발음 시작 시간과 발음의 유지시간 및 발음이 끝나는 시간에 대한 정보를 담고 있는 텍스트 파일 형태의 파일을 상기 립싱크 키 프레임 조정기에게로 보내는 것을 특징으로 하는 음성 기반 자동 립싱크 애니메이션 방법.
  13. 제 10항 또는 제 11항에 있어서,
    상기 제 3과정에서의 립싱크 애니메이션 프리뷰어는, 하기의 식
    Figure 112004045810826-pat00005
    αi는 보간계수임,
    에 의해 실시간 립싱크 애니메이션을 만들어 화면에 디스플레이시키는 것을 특징으로 하는 음성 기반 자동 립싱크 애니메이션 방법.
  14. 대사의 발음이 들어 있는 음성 파일 및 상기 음성 파일의 모든 음성 내용을 담고 있는 텍스트 파일을 입력받아 상기 음성 파일의 각 음절/음소별로 발음 시간 정보를 추출한 후에 상기 텍스트 파일내의 해당 음절/음소에 대응시킨 결과를 출력하는 제 1과정;
    상기 제 1과정에 의한 결과를 기본 발음 모델에 따라 음절/음소별로 구분하여 애니메이션을 위한 키 프레임의 위치를 추출하고 상기 추출된 위치별 키 프레임을 브랜딩하되, 상기 위치별 키 프레임이 음절내 각 음소별로 서로 다른 브랜딩 웨이트를 가지게 브랜딩하는 제 2과정; 및
    상기 제 2과정에 의한 키 프레임을 이용하여 모든 프레임의 립싱크 애니메이션 정보를 생성하고 그 생성된 모든 프레임의 립싱크 애니메이션 정보를 기본으로 실시간 립싱크 애니메이션을 화면에 디스플레이하는 제 3과정을 구비하는 것을 특징으로 하는 음성 기반 자동 립싱크 애니메이션 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
KR1020040080488A 2004-10-08 2004-10-08 음성 기반 자동 립싱크 애니메이션 장치와 방법 및 기록매체 KR100754430B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020040080488A KR100754430B1 (ko) 2004-10-08 2004-10-08 음성 기반 자동 립싱크 애니메이션 장치와 방법 및 기록매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040080488A KR100754430B1 (ko) 2004-10-08 2004-10-08 음성 기반 자동 립싱크 애니메이션 장치와 방법 및 기록매체

Publications (2)

Publication Number Publication Date
KR20060031449A KR20060031449A (ko) 2006-04-12
KR100754430B1 true KR100754430B1 (ko) 2007-08-31

Family

ID=37141212

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040080488A KR100754430B1 (ko) 2004-10-08 2004-10-08 음성 기반 자동 립싱크 애니메이션 장치와 방법 및 기록매체

Country Status (1)

Country Link
KR (1) KR100754430B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104574474A (zh) * 2015-01-09 2015-04-29 何玉欣 一种通过字幕生成动画角色语言口型的匹配方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100849027B1 (ko) * 2008-01-04 2008-07-29 주식회사 이머시스 음성 신호에 대한 립싱크 동기화 방법 및 장치
KR102058783B1 (ko) * 2017-12-12 2020-01-22 중앙대학교 산학협력단 텍스트 기반 적응적 가창 립싱크 애니메이션 생성 장치 및 방법
KR102215256B1 (ko) 2019-11-18 2021-02-15 주식회사 인공지능연구원 동기화된 음성과 동작을 지원하는 멀티미디어 저작 장치 및 그 방법
KR102368300B1 (ko) 2020-09-08 2022-03-02 박일호 음성 및 표정에 기반한 캐릭터의 동작 및 감정 표현 시스템
CN112331184B (zh) * 2020-10-29 2024-03-15 网易(杭州)网络有限公司 语音口型同步方法、装置、电子设备及存储介质
KR20230123809A (ko) 2022-02-17 2023-08-24 박일호 음성 및 표정에 기반한 캐릭터의 동작 및 감정 표현 시스템
CN114928755B (zh) * 2022-05-10 2023-10-20 咪咕文化科技有限公司 一种视频制作方法、电子设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000005183A (ko) * 1996-03-26 2000-01-25 콜턴 리자 이미지 합성방법 및 장치
KR20000009490A (ko) * 1998-07-24 2000-02-15 윤종용 음성 합성을 위한 립싱크 방법 및 그 장치
KR20010038772A (ko) * 1999-10-27 2001-05-15 최창석 음성과 얼굴 애니메이션 통합 시스템에서 음성지속시간을 이용한 동영상 프레임의 자동 적응동기방법
KR20020026617A (ko) * 2000-10-02 2002-04-12 최두일 실시간 음성 인식에 의한 립싱크 애니메이션 제공 방법
KR20040076524A (ko) * 2003-02-26 2004-09-01 주식회사 메세지 베이 아시아 애니메이션 캐릭터 제작 방법 및 애니메이션 캐릭터를이용한 인터넷 서비스 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20000005183A (ko) * 1996-03-26 2000-01-25 콜턴 리자 이미지 합성방법 및 장치
KR20000009490A (ko) * 1998-07-24 2000-02-15 윤종용 음성 합성을 위한 립싱크 방법 및 그 장치
KR20010038772A (ko) * 1999-10-27 2001-05-15 최창석 음성과 얼굴 애니메이션 통합 시스템에서 음성지속시간을 이용한 동영상 프레임의 자동 적응동기방법
KR20020026617A (ko) * 2000-10-02 2002-04-12 최두일 실시간 음성 인식에 의한 립싱크 애니메이션 제공 방법
KR20040076524A (ko) * 2003-02-26 2004-09-01 주식회사 메세지 베이 아시아 애니메이션 캐릭터 제작 방법 및 애니메이션 캐릭터를이용한 인터넷 서비스 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104574474A (zh) * 2015-01-09 2015-04-29 何玉欣 一种通过字幕生成动画角色语言口型的匹配方法

Also Published As

Publication number Publication date
KR20060031449A (ko) 2006-04-12

Similar Documents

Publication Publication Date Title
US5278943A (en) Speech animation and inflection system
EP0831460B1 (en) Speech synthesis method utilizing auxiliary information
US8504368B2 (en) Synthetic speech text-input device and program
JPH0833744B2 (ja) 音声合成装置
Albrecht et al. Automatic generation of non-verbal facial expressions from speech
JPH02234285A (ja) 画像合成方法及びその装置
JP2003186379A (ja) 音声可視化処理のためのプログラム、音声可視化図形表示と音声及び動画像の再生処理のためのプログラム、及び訓練結果表示のためのプログラム、並びに発声発話訓練装置及びコンピュータ・システム
CN113538636B (zh) 一种虚拟对象的控制方法、装置、电子设备及介质
KR20080018408A (ko) 음성 사운드 소스를 이용한 얼굴 표정 변화 프로그램을기록한 컴퓨터에서 읽을 수 있는 기록매체
JP2006227589A (ja) 音声合成装置および音声合成方法
KR100754430B1 (ko) 음성 기반 자동 립싱크 애니메이션 장치와 방법 및 기록매체
Scott et al. Synthesis of speaker facial movement to match selected speech sequences
US20230317090A1 (en) Voice conversion device, voice conversion method, program, and recording medium
Ling et al. Articulatory control of HMM-based parametric speech synthesis driven by phonetic knowledge
JP2003058908A (ja) 顔画像制御方法および装置、コンピュータプログラム、および記録媒体
EP0982684A1 (en) Moving picture generating device and image control network learning device
JP4409279B2 (ja) 音声合成装置及び音声合成プログラム
JP2006030609A (ja) 音声合成データ生成装置、音声合成装置、音声合成データ生成プログラム及び音声合成プログラム
JP3785892B2 (ja) 音声合成装置及び記録媒体
Morishima et al. Facial expression synthesis based on natural voice for virtual face-to-face communication with machine
JP3742206B2 (ja) 音声合成方法及び装置
JP2003271172A5 (ko)
JPH0731509B2 (ja) 音声分析装置
JP2001013982A (ja) 音声合成装置
Wei et al. Speech animation based on Chinese mandarin triphone model

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100825

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee