KR102116309B1

KR102116309B1 - 가상 캐릭터와 텍스트의 동기화 애니메이션 출력 시스템

Info

Publication number: KR102116309B1
Application number: KR1020180162992A
Authority: KR
Inventors: 서경진
Original assignee: 주식회사 인공지능연구원
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2020-05-28

Abstract

본 발명의 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템은 사용자가 음성 또는 텍스트로 입력한 캐릭터의 대사 정보로부터 감정상태 및 캐릭터 성격, 대화의 패턴 등의 맥락을 인식하고 인식된 맥락에 맞게 텍스트에 적용한 특수효과를 생성하고 이를 적용하여 캐릭터의 립싱크 애니메이션과 텍스트 애니메이션을 동기화하여 출력한다.

Description

가상 캐릭터와 텍스트의 동기화 애니메이션 출력 시스템 {SYNCHRONIZATION ANIMATION OUTPUT SYSTEM OF VIRTUAL CHARACTERS AND TEXT}

본 발명은 가상 캐릭터의 입모양과 텍스트를 동기화하여 출력하는 시스템에 관한 것으로, 더욱 상세하게는 입력되는 문장에 부합하는 가상 캐릭터의 립싱크 애니메이션과 캐릭터의 입모양에 동기화되어 음절단위로 특수 효과가 가미되어 텍스트가 표시되는 텍스트 애니메이션을 생성하여 출력하는 시스템에 관한 것이다.

아바타 등의 가상의 캐릭터가 가상의 공간에서 사람 또는 다른 아바타와 대화하는 시스템이 많이 등장하고 있다. 이러한 시스템들은 소리와 가상의 캐릭터의 립싱크 구현에 초점을 맞추어 연구되고 개발되어 왔다. 일부 시스템은 소리와 함께 전달력을 높이기 위해 텍스트를 말풍선 형태로 함께 제공하기도 한다. 또는 사운드의 지원이 여의치 않은 경우나 다른 언어른 사용하는 경우 가상의 캐릭터의 대사를 텍스트로 표시하기도 한다.

소리와 함께 텍스트를 말풍선으로 제공하는 경우 또는 캐릭터의 대사를 텍스트로 제공하는 경우 음성의 경우와 달리 텍스트와 캐릭터의 립싱크를 고려하지 않고 캐릭터의 대사를 한번에 보여주는 방식을 주로 사용한다. 이런 방식을 사용하는 경우 캐릭터의 입모양과 텍스트가 동기화되어 있지 않아 효과적인 내용 전달이 어렵거나 몰입을 유도하기 어렵다.

본 발명은 가상의 캐릭터가 말하는 대사를 캐릭터의 립싱크 애니메이션과 동기화하여 텍스트를 출력하는 시스템을 제공하는 것을 목적으로 한다.

또한, 본 발명은 가상의 캐릭터가 말하는 대사의 맥락을 인식하고 맥락에 기초하여 강조하고자 하는 말이나 감정 상태에 따라 텍스트 애니메이션에 특수한 효과를 부여하여 출력하는 시스템을 제공하는 것을 또 다른 목적으로 한다.

발명의 일 양상에 따른 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템은 텍스트 입력부와, 맥락 정보 처리부와, 입모양 정보 생성부와, 텍스트 애니메이션 정보 생성부와, 캐릭터 애니메이션 생성부와, 텍스트 애니메이션 생성부를 포함한다.

텍스트 입력부는 입력 받은 텍스트 정보를 대사 텍스트 정보와 맥락 정보로 분류하여 전달한다.

맥락 정보 처리부는 대사 텍스트 정보와 맥락 정보를 기초로 각 음절의 텍스트 애니메이션에 적용할 효과 정보와 효과가 적용될 음절과 효과 정보와 음절간 매핑 정보를 포함하여 구성되는 음절 정보를 생성하여 출력하는 음절 정보 생성부와 각 음절이 텍스트로 표시될 음절 시간 정보를 생성하여 출력하는 시간 정보 생성부를 포함한다.

입모양 정보 생성부는 입력된 음절 정보와 음절 시간 정보로부터 시간 정보가 매핑된 캐릭터의 입모양 정보를 생성하여 출력한다.

텍스트 애니메이션 정보 생성부는 입력된 음절 정보와 음절 시간 정보로부터 각 음절에 대한 텍스트 애니메이션 효과와 음절 시간 정보가 매핑된 텍스트 애니메이션 정보를 생성하여 출력한다.

캐릭터 애니메이션 생성부는 아바타 캐릭터의 기본 애니메이션을 생성하고, 생성된 기본 애니메이션을 기초로 입력된 입모양 정보 및 음절 정보를 이용하여 립싱크 애니메이션을 생성한다.

텍스트 애니메이션 생성부는 입력된 음절 정보와 음절 시간 정보를 이용하여 텍스트 애니메이션을 생성한다.

발명의 또 다른 양상에 따르면, 텍스트 입력부에 입력되는 텍스트 정보는 맥락 정보 없이 대사 텍스트 정보를 포함하고, 맥락 정보 처리부는 입력된 대사 텍스트 정보와 이전에 입력되었던 대사 텍스트 정보들을 기반으로 맥락 정보를 생성하는 맥락 생성부를 더 포함할 수 있다.

발명의 또 다른 양상에 따르면, 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템은 음성 입력 장치로부터 음성 입력으로부터 음성 파형 정보를 생성하는 음성 신호 입력부와, 음성 신호 데이터에서 맥락 인식을 위한 맥락 인식 정보를 추출하는 맥락 인식 정보 추출부와, 음성 신호 데이터에서 음성을 인식하여 대사 텍스트 정보를 생성하는 음성 인식 처리부를 포함하는 음성 입력부를 더 포함할 수 있고, 맥락 정보 처리부는 입력된 대사 텍스트 정보와 맥락 인식 정보를 기반으로 맥락 정보를 하는 맥락 생성부를 더 포함할 수 있다.

발명의 다양한 양상에 따르면, 표현 정보는 대사의 속도, 감정, 대사의 모드, 대사의톤, 또는 대사의 강약을 포함하는 정보이고, 맥락 정보는 표현 정보 중 적어도 어느 하나 이상을 포함할 수 있다.

발명의 또 다른 양상에 따르면, 맥락 정보 처리부는 대사 텍스트, 음절 시간 정보 및 생성된 맥락 정보를 기반으로 음성을 합성하는 음성 합성부를 더 포함할 수 있고, 이때 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템은 생성된 음성을 음성 출력장치를 통해 출력하는 음성 출력부를 더 포함할 수 있다.

발명의 또 다른 양상에 따르면, 텍스트 애니메이션 정보 생성부는 텍스트 애니메이션이 표시될 배경 애니메이션 정보와 배경 애니메이션 시간 정보를 생성하는 배경 패널 생성부를 포함할 수 있다.

발명의 또 다른 양상에 따르면, 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템은 생성된 캐릭터 립싱크 애니메이션과 텍스트 애니메이션을 합성하여 영상 출력장치를 통해 출력하는 영상 출력부를 더 포함할 수 있다.

발명의 또 다른 양상에 따르면, 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템은 생성된 음성과 생성된 캐릭터 립싱크 애니메이션 및 텍스트 애니메이션을 합성하여 캐릭터 애니메이션을 생성하는 애니메이션 생성부를 더 포함할 수 있다.

본 발명의 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템에 의하면 가상의 캐릭터가 말하는 대사를 캐릭터의 립싱크 애니메이션과 동기화하여 텍스트를 출력할 수 있다.

또한, 본 발명의 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템에 의하면 가상의 캐릭터가 말하는 대사의 맥락을 인식하고 맥락에 기초하여 강조하고자 하는 말이나 감정 상태에 따라 텍스트 애니메이션에 특수한 효과를 부여하여 출력할 수 있다.

도 1은 일 실시 예에 따라 생성된 캐릭터의 립싱크 애니메이션과 텍스트 애니메이션이 출력 예시이다.
도 2는 일 양상에 따른 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템을 도시한 블록도이다.
도 3은 또 다른 양상에 따라 음성 입력부가 추가된 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템을 도시한 블록도이다.
도 4는 또 다른 양상에 따라 합성된 음성을 출력하는 음성 출력부가 추가된 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템을 도시한 블록도이다.
도 5는 또 다른 양상에 따라 합성된 영상을 출력하는 영상 출력부가 추가된 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템을 도시한 블록도이다.

전술한, 그리고 추가적인 양상들은 첨부된 도면을 참조하여 설명하는 실시 예들을 통해 구체화된다. 각 실시 예들의 구성 요소들은 다른 언급이나 상호간에 모순이 없는 한 실시 예 내에서 다양한 조합이 가능한 것으로 이해된다. 블록도의 각 블록은 어느 경우에 있어서 물리적인 부품을 표현할 수 있으나 또 다른 경우에 있어서 하나의 물리적인 부품의 기능의 일부 혹은 복수의 물리적인 부품에 걸친 기능의 논리적인 표현일 수 있다. 때로는 블록 혹은 그 일부의 실체는 프로그램 명령어들의 집합(set)일 수 있다. 이러한 블록들은 전부 혹은 일부가 하드웨어, 소프트웨어 혹은 이들의 결합에 의해 구현될 수 있다.

도 1은 일 실시 예에 따라 생성된 캐릭터의 립싱크 애니메이션과 텍스트 애니메이션이 출력 예시이다. 일 실시 예에 따르면, 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템(10)은 사용자가 음성 또는 텍스트로 입력한 캐릭터의 대사 정보(텍스트의 경우 대사 속도나 감정 상태 등을 표현하는 지문이 포함될 수 있음)를 입력 받고, 입력된 대사 정보를 텍스트로 변형한 후 감정상태 및 캐릭터 성격, 대화의 패턴 등의 맥락에 맞게 텍스트에 부여할 특수효과 생성하고, 캐릭터의 립싱크 애니메이션과 음절 단위로 동기화된 텍스트 애니메이션에 특수효과를 적용하여 생성된 애니메이션을 출력한다. 도 1의 예시에서는 사용자가 텍스트로 "안녕하세요. 반갑습니다"라는 대사와 "반"을 강하게 발음하라는 지문 형태의 맥락 정보가 입력하였고, 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템(10)은 해당 텍스트에 대한 캐릭터의 립싱크 애니메이션과 텍스트 애니메이션을 동기화하여 출력하고 있다. 도 1의 예에서는 캐릭터의 립싱크 애니메이션과 텍스트 애니메이션이 "안녕하세요. 반"까지 진행된 상태이며 텍스트 애니메이션에서 "반"에 특수 효과가 부여되어 표시되고 있다.

도 2는 일 양상에 따른 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템을 도시한 블록도이다. 일 양상에 따른 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템(10)은 텍스트 입력부(100)와, 맥락 정보 처리부(120)와, 입모양 정보 생성부(130)와, 텍스트 애니메이션 정보 생성부(140)와, 캐릭터 애니메이션 생성부(150)와, 텍스트 애니메이션 생성부(160)를 포함한다.

캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템(10)은 입출력 장치를 구비한 하나의 컴퓨팅 장치 또는 복수의 컴퓨팅 장치로 구성될 수 있다. 입력 장치는 텍스트의 입력을 위한 키보드일 수 있으며 음성을 입력으로 받을 때는 마이크 장치가 될 수 있다. 출력 장치는 음성의 출력을 위한 스피커, 영상 출력을 위한 디스플레이 장치가 될 수 있다. 컴퓨팅 장치는 메모리와 CPU와 스토리지 장치를 구비한 장치이다.

캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템(10)은 디스플레이 장치를 구비한 로봇에 적용될 수 있다.

텍스트 입력부(100)는 컴퓨팅 장치의 CPU에서 실행되는 프로그램 명령어 세트(set)일 수 있다. 텍스트 입력부(100)는 입력 받은 텍스트 정보를 대사 텍스트 정보와 맥락 정보로 분류하여 전달한다. 사용자가 텍스트 형태로 입력하기 위한 장치 즉, PC 기반 시스템의 경우 키보드나 마우스를 통해 입력한 캐릭터의 대사 정보를 텍스트 입력부(100)가 처리한다. 이때 입력되는 대사 정보는 미리 정리된 형태의 텍스트 파일 형태로 제공될 있으며, 이때 텍스트 입력부(100)는 해당 파일에서 대사 정보에 해당하는 텍스트를 추출한다.

입력되는 텍스트 정보는 대사 텍스트 정보를 반드시 포함하고, 선택적으로 대사의 맥락 정보를 더 포함할 수 있다. 대사의 맥락 정보는 어떤 대사를 어떤 감정이나 톤으로 표시할 지를 나타내는 표현 정보를 포함한다. 표현 정보는 대사 속도(느림/보통/빠름/매우 빠름 등)와, 감정 상태(보통/엄숙/활발/화남 등)와, 대사 모드(발표/설명/대화/속삭임 등)와, 대사의 톤과, 강조(강하게/약하게 등) 등의 정보를 포함할 수 있다. 다만, 이에 한정되는 것은 아니며 이 외에도 맥락을 표현할 수 있는 정보가 포함될 수 있다.

대사의 맥락 정보는 대본의 지문과 같은 형식으로 제공될 수 있다. 맥락 정보를 표현하는 방법은 제한이 없으며 시스템이 대사 텍스트와 구분하여 획득할 수 있는 방법이면 어떠한 방법이라도 가능하다.

또한, 텍스트 입력부(100)는 입력 받은 텍스트 정보를 대사 텍스트 정보와 맥락 정보로 분류한다. 대사 텍스트 정보는 텍스트 파일 형태로 저장할 수 있고, 맥락 정보 처리부(120)에 입력정보로 제공된다. 또한, 대사 속도, 감정 상태, 대사 모드 정보, 대사의 톤, 강조 등을 포함하는 맥락 정보도 맥락 정보 처리부(120)의 입력으로 활용된다.

맥락 정보 처리부(120)는 음절 정보 생성부(124)와, 시간 정보 생성부(126)와, 맥락 생성부(122)를 포함한다. 맥락 정보 처리부(120)와, 음절 정보 생성부(124)와, 시간 정보 생성부(126)와, 맥락 생성부(122)는 컴퓨팅 장치의 CPU에서 실행되는 프로그램 명령어 세트(set)일 수 있다.

음절 정보 생성부(124)는 텍스트 입력부(100)로부터 전달받은 대사 텍스트 정보와 맥락 정보를 기초로 음절 정보를 생성한다. 음절 정보는 음절 텍스트와 각 음절의 텍스트 애니메이션에 적용할 효과 정보와 효과가 적용될 음절과 효과 정보의 매핑 정보를 포함하여 구성된다.

시간 정보 생성부(126)는 각 음절이 캐릭터의 입모양과 동기화되어 텍스트로 표시될 음절 시간 정보를 생성한다. 이때 시간 정보 생성부(126)는 대사 텍스트와 맥락 정보로부터 임시의 음성 데이터를 생성하고 이를 이용하여 음절 시간 정보를 생성할 수 있다.

맥락 생성부(122)는 텍스트 입력부(100)에 입력되는 텍스트 정보가 맥락 정보 없이 대사 텍스트 정보만 포함하는 경우, 입력된 대사 텍스트 정보와 이전에 입력되었던 대사 텍스트 정보들을 기반으로 맥락 정보를 생성할 수 있다. 맥락 생성부(122)는 딥 러닝 등의 인공 신경망을 기반으로 이전의 대사 내용을 고려하여 입력된 텍스트로부터 감정 상태나 강조점 등의 맥락 정보를 생성하도록 학습된 엔진을 이용하여 입력된 대사 텍스트 정보로부터 맥락 정보를 생성할 수 있다. 이때 본 발명에서는 맥락 정보를 생성하도록 학습된 딥 러닝 등의 인공 신경망 알고리즘을 제한하지 않는다.

맥락 정보 처리부(120)는 필요에 따라 음절 정보 생성부(124)와, 시간 정보 생성부(126)와, 맥락 생성부(122)를 이용하여 사용자가 입력한 텍스트 정보와 맥락 정보에 기반하여 캐릭터의 대사에서 맥락 정보를 인식하거나 생성하고 해당 맥락에 최적화된 텍스트 애니메이션을 위한 정보를 생성한다. 또한, 맥락 정보 처리부(120)는 텍스트 입력부(100)를 통해 입력된 대사 정보를 음절 단위로 구분 처리하여 음절 정보와 음절이 표시될 음절 시간 정보를 생성한다. 맥락에 맞는 텍스트 애니메이션 효과 정보를 선택하고 이를 음절 단위로 매핑한다. 발명의 양상에 따라서는 어절 단위 또는 문장 단위로 음절 정보가 생성될 수 있으며, 텍스트 애니메이션 효과 또한 어절 단위 또는 문장 단위로 선택될 수 있다. 예를 들어, "사랑해"라는 대사에 대하여 각 음절마다 다른 효과와 효과정보를 매핑 할 수도 있으며 "사랑해" 한 어절에 대해 동일한 효과와 효과정보를 매핑 하여 생성할 수 있다.

입모양 정보 생성부(130)는 컴퓨팅 장치의 CPU에서 실행되는 프로그램 명령어 세트(set)일 수 있다. 입모양 정보 생성부(130)는 맥락 정보 처리부(120)에 의해 생성되어 입력된 음절 정보와 음절 시간 정보로부터 시간 정보가 매핑된 캐릭터의 입모양 정보를 생성하여 출력한다.

입모양 정보 생성부(130)는 맥락 정보 처리부(120)가 출력하는 정보인 음절 정보와 음절 시간 정보를 바탕으로 가상 캐릭터의 립싱크 애니메이션을 위한 입모양 정보를 추출하고 이를 시간정보에 매핑한다. 입모양 정보 생성부(130)가 생성하는 입모양 정보는 음절 정보를 바탕으로 해당 음절을 발음할 때 입모양이 변화하는 정보의 집합으로 구성된다. 입모양 정보는 미리 정의된 입모양 기호의 형태로 출력될 수 있다. 즉, 입모양 정보 생성부(130)가 생성하는 입모양 정보는 각 음절마다 음절 시간 정보에 매핑된 입모양 기호가 시간 정보와 함께 표시된 데이터이다.

텍스트 애니메이션 정보 생성부(140)는 컴퓨팅 장치의 CPU에서 실행되는 프로그램 명령어 세트(set)일 수 있다. 텍스트 애니메이션 정보 생성부(140)는 맥락 정보 처리부(120)가 출력하는 정보인 음절 정보와 음절 시간 정보를 기초로 각 음절에 대한 텍스트 애니메이션 효과와 음절이 표시될 시간 정보가 매핑된 텍스트 애니메이션 정보를 생성하여 출력한다. 텍스트 애니메이션 정보는 해당 효과가 지속될 지속 시간 정보 또는 해당 효과의 시작 시간과 종료 시간을 표시하는 정보도 포함한다.

텍스트 애니메이션 정보 생성부(140)는 맥락 정보 처리부(120)의 출력 결과인 음절 정보와 음절 시간 정보를 기반으로 캐릭터 립싱크 애니메이션과 동기화된 텍스트 애니메이션 정보를 생성한다. 이는 입모양 정보 생성부(130)와 텍스트 애니메이션 정보 생성부(140)가 동일한 음절 정보와 음절 시간 정보를 기반으로 애니메이션을 생성하므로 각각의 애니메이션을 따로 동기화하지 않아도 동기화된 애니메이션을 출력할 수 있다. 텍스트 애니메이션 정보 생성부(140)는 맥락 정보 처리부(120)에서 추출한 음절 정보를 이용하여 문장 단위, 어절 단위, 또는 음절 단위로 텍스트 애니메이션을 위한 정보를 생성할 수 있다. 이는 앞서 설명한 것과 같이 문장 또는 어절을 구성하는 모든 음절에 동일한 텍스트 효과가 적용되도록 텍스트 애니메이션을 생성하는 방법을 사용할 수 있다.

또한, 텍스트 애니메이션 정보 생성부(140)는 텍스트 애니메이션이 표시될 배경 애니메이션 정보와 배경 애니메이션 시간 정보를 생성하는 배경 패널 생성부를 포함할 수 있다. 캐릭터 립싱크 애니메이션은 통상 3D 애니메이션으로 생성될 수 있고, 2D 애니메이션으로 생성되더라도 주변 배경 때문에 텍스트 애니메이션의 가독성이 크게 떨어질 수 있다. 따라서, 배경 패널 생성부는 3차원 가상 공간 또는 배경 공간 상에 텍스트 애니메이션이 표시될 패널을 생성한다. 배경 패널은 사각형, 액자형, 말풍선형 등 그 형태에 제한이 없다. 배경 패널 생성부는 패널 애니메이션 정보에 패널이 표시될 시작 시간과 표시될 지속 시간 정보를 추가로 생성하여 추가하고, 패널을 표시하는 효과 또한 생성하여 추가할 수 있다.

다른 방법으로 텍스트 애니메이션 정보 생성부(140)는 맥락 정보 처리부(120)가 출력한 문장 단위로 동일하게 설정된 음절 정보를 이용하여 문장 단위로 문장 시작 표시 시간, 문장, 애니메이션 효과, 전환 효과를 생성할 수 있다. 이는 효과가 시작될 음절의 시간 정보와 효과가 지속될 시간 정보를 텍스트 애니메이션 정보에 포함시켜 구현할 수 있다. 어절 단위 또한 동일한 방법으로 텍스트 애니메이션 정보를 구성할 수 있다.

캐릭터 애니메이션 생성부(150)는 컴퓨팅 장치의 CPU에서 실행되는 프로그램 명령어 세트(set)일 수 있다. 캐릭터 애니메이션 생성부(150)는 캐릭터의 기본 애니메이션을 생성하고, 생성된 기본 애니메이션을 기초로 입력된 입모양 정보 및 음절 정보를 이용하여 립싱크 애니메이션을 생성한다.

캐릭터 애니메이션 생성부(150)는 먼저 애니메이션의 기본이 되는 기본적인 아바타 캐릭터의 애니메이션을 생성하고, 입모양 정보 생성부(130)가 생성한 입모양 정보를 적용하여 아바타 캐릭터의 립싱크 애니매이션 생성한다. 예를 들어, 캐릭터 애니메이션 생성부(150)는 캐릭터 모델에 정의된 입모양 블렌드 셰입을 구축하고, 입모양 정보 생성부(130)가 생성한 입모양 기호와 음절 시간 정보를 이용하여 각 음절에 대하여 입모양 블렌드 셰입의 가중치를 시간에 따라 변화시키며 립싱크 애니메이션을 생성할 수 있다.

텍스트 애니메이션 생성부(160)는 컴퓨팅 장치의 CPU에서 실행되는 프로그램 명령어 세트(set)일 수 있다. 텍스트 애니메이션 생성부(160)는 입력된 음절 정보와 음절 시간 정보를 이용하여 텍스트 애니메이션을 생성한다.

텍스트 애니메이션 생성부(160)는 텍스트 애니메이션 정보 생성부(140)의 출력 정보를 이용하여 텍스트 애니메이션을 생성한다. 텍스트 애니메이션 정보 생성부(140)의 출력 정보를 바탕으로 캐릭터 립싱크 애니메이션과 플레이 시간이 동기화된 텍스트 애니메이션을 음절 시간 정보에 따라 음절 단위로 출력하되, 텍스트 애니메이션 정보에 따라 음절 단위, 어절단위 또는 문장 단위로 다양한 텍스트 애니메이션 효과를 적용할 수 있다.

텍스트 애니메이션 생성부(160)는 배경 애니메이션 정보가 생성되어 있으면 텍스트 애니메이션을 해당 배경 위에 표시한다.

텍스트 애니메이션 생성부(160)는 음성 데이터를 재생하지 않더라도 음성 데이터가 출력되는 타임스탬프 시간과 동기화된 텍스트 애니메이션 정보를 바탕으로 전달력 있는 텍스트 애니메이션을 생성할 수 있다.

도 3은 또 다른 양상에 따라 음성 입력부가 추가된 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템을 도시한 블록도이다. 발명의 또 다른 양상에 따르면, 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템(10)은 음성 입력 장치로부터 음성 입력으로부터 음성 파형 정보를 생성하는 음성 신호 입력부(112)와, 음성 신호 데이터에서 맥락 인식을 위한 맥락 인식 정보를 추출하는 맥락 인식 정보 추출부(114)와, 음성 신호 데이터에서 음성을 인식하여 대사 텍스트 정보를 생성하는 음성 인식 처리부(116)를 포함하는 음성 입력부(110)를 더 포함할 수 있고, 맥락 정보 처리부(120)는 입력된 대사 텍스트 정보와 맥락 인식 정보를 기반으로 맥락 정보를 하는 맥락 생성부(122)를 더 포함할 수 있다.

사용자는 미리 녹음하거나 실시간으로 음성 입력을 수행할 수 있는 장치를 사용하여 대사를 입력할 수 있고, 또는 미리 녹음된 경우 음원파일(wav, mp3파일)을 통해 대사를 입력할 수 있다. 음성 입력부(110)는 이를 사운드 파형 정보로 변환하는 과정을 수행한다. 실시간으로 마이크를 통해 대사를 입력하는 경우, 음성 부분만 세그멘테이션(segmentation) 과정을 통해 유효한 음성 부분만 선택하고 이를 사운드 파형 정보로 변환한다.

음성 신호 입력부(112)는 컴퓨팅 장치의 CPU에서 실행되는 프로그램 명령어 세트(set)일 수 있다. 음성 신호 입력부(112)는 음성 인식을 위해서 음성 인식 모듈의 입력에 맞는 데이터로 변환할 수 있다.

맥락 인식 정보 추출부(114)는 컴퓨팅 장치의 CPU에서 실행되는 프로그램 명령어 세트(set)일 수 있다. 맥락 인식 정보 추출부(114)는 사용자의 감정상태, 톤, 그리고 억양, 강조점에 해당하는 정보 즉, 맥락 인식에 사용되는 정보를 추출한다. 정보 추출을 위해 음성 파형 데이터에서 주파수 기반 특징 정보(ex. MFCC, FFT, Spectrogram)와 템포/리듬 특징 정보 그리고 시간에 다른 음량 정보를 추출할 수 있다.맥락 인식 정보 추출부(114)는 음성 신호 데이터로부터 사용할 특징 정보를 별도로 추출하고, 시스템은 이러한 추출된 특징 정보를 딥러닝 기반 인공 신경망 모델의 입력으로 사용하여 맥락 정보를 인식하는 인공 신경망 모델을 학습시킬 수 있다.

음성 인식 처리부(116)는 컴퓨팅 장치의 CPU에서 실행되는 프로그램 명령어 세트(set)일 수 있다. 음성 인식 처리부(116)는 딥 러닝 기반 인공 신경망 모델로 입력된 음성 신호 데이터를 인식하여 대응되는 텍스트를 생성하도록 학습되어 있다. 음성 인식 처리부(116)는 음성 신호 데이터에서 음성을 인식하여 대사 텍스트 정보를 생성할 수 있다.

음성 입력부(110)는 컴퓨팅 장치의 CPU에서 실행되는 프로그램 명령어 세트(set)일 수 있다. 음성 입력부(110)는 음성 신호 입력부(112)와, 맥락 인식 정보 추출부(114)와, 음성 인식 처리부(116)를 포함하여 음성 데이터 신호를 바탕으로 음성 인식을 수행하여 텍스트 대사를 생성할 수 있다.

도 4는 또 다른 양상에 따라 합성된 음성을 출력하는 음성 출력부가 추가된 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템을 도시한 블록도이다. 발명의 또 다른 양상에 따르면, 맥락 정보 처리부(120)는 대사 텍스트, 음절 시간 정보 및 생성된 맥락 정보를 기반으로 음성을 합성하는 음성 합성부(128)를 더 포함할 수 있고, 이때 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템(10)은 생성된 음성을 음성 출력장치를 통해 출력하는 음성 출력부(180)를 더 포함할 수 있다.

음성 합성부(128)는 컴퓨팅 장치의 CPU에서 실행되는 프로그램 명령어 세트(set)일 수 있다. 음성 합성부(128)는 대사 텍스트 정보를 기반으로 음성을 합성한다. 음성을 합성함에 있어 선택적으로 입력된 맥락 정보가 있을 경우 맥락 정보에 기반하여 특화된 음성을 합성한다. 선택적으로 입력된 맥락 정보가 없는 경우에도 단일 대사와 이전 대사들을 기반으로 한 맥락 정보를 자동으로 생성하고 이에 맞는 음성 대사 데이터를 합성할 수 있다.

도 5는 또 다른 양상에 따라 합성된 영상을 출력하는 영상 출력부가 추가된 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템을 도시한 블록도이다. 발명의 또 다른 양상에 따르면, 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템(10)은 생성된 캐릭터 립싱크 애니메이션과 텍스트 애니메이션을 합성하여 영상 출력장치를 통해 출력하는 영상 출력부(170)를 더 포함할 수 있다.

영상 출력부(170)는 컴퓨팅 장치의 CPU에서 실행되는 프로그램 명령어 세트(set)일 수 있다. 영상 출력부(170)는 캐릭터 애니메이션 생성부(150)와 텍스트 애니메이션 생성부(160)의 애니메이션 출력을 합성하여 시각적 디스플레이 장치를 이용해 시각화 한다. 매체는 픽셀정보를 시각화 할 수 있는 장비(예, 모니터, LED스크린, 홀로그램, 모바일 디스플레이, 프로젝터, HMD 등)를 사용할 수 있다.

발명의 또 다른 양상에 따르면, 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템은 애니메이션 생성부를 더 포함할 수 있다.

애니메이션 생성부는 컴퓨팅 장치의 CPU에서 실행되는 프로그램 명령어 세트(set)일 수 있다. 애니메이션 생성부는 생성된 음성 데이터와 음성 데이터에 립싱크되어 생성된 캐릭터 립싱크 애니메이션과 음절 단위로 캐릭터 립싱크 애니메이션과 동기화된 텍스트 애니메이션을 합성하여 캐릭터 애니메이션을 생성할 수 있다. 생성된 캐릭터 애니메이션을 파일 형태로 저장되거나, 다른 장치(예, 디스플레이 또는 파일 전송 장치)로 출력될 수 있다.

이상에서 본 발명을 첨부된 도면을 참조하는 실시 예들을 통해 설명하였지만 이에 한정되는 것은 아니며, 이들로부터 당업자라면 자명하게 도출할 수 있는 다양한 변형 예들을 포괄하도록 해석되어야 한다. 특허청구범위는 이러한 변형 예들을 포괄하도록 의도되었다.

10: 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템
100: 텍스트 입력부
110: 음성 입력부
112: 음성 신호 입력부 114: 맥락 인식 정보 추출부
116: 음성 인식 처리부
120: 맥락 정보 처리부
122: 맥락 생성부 124: 음절 정보 생성부
126: 시간 정보 생성부 128: 음성 합성부
130: 입모양 정보 생성부
140: 텍스트 애니메이션 정보 생성부
150: 캐릭터 애니메이션 생성부
160: 텍스트 애니메이션 생성부
170: 영상 출력부
180: 음성 출력부

Claims

입력 받은 텍스트 정보를 대사 텍스트 정보와 맥락 정보로 분류하여 전달하는 텍스트 입력부;
대사 텍스트 정보와 맥락 정보를 기초로 각 음절의 텍스트 애니메이션에 적용할 효과 정보와 효과가 적용될 음절과 효과 정보의 매핑 정보를 포함하여 구성되는 음절 정보를 생성하여 출력하는 음절 정보 생성부와 각 음절이 텍스트로 표시될 음절 시간 정보를 생성하여 출력하는 시간 정보 생성부를 포함하는 맥락 정보 처리부;
입력된 음절 정보와 음절 시간 정보로부터 시간 정보가 매핑된 캐릭터의 입모양 정보를 생성하여 출력하는 입모양 정보 생성부;
입력된 음절 정보와 음절 시간 정보로부터 각 음절에 대한 텍스트 애니메이션 효과와 음절 시간 정보가 매핑된 텍스트 애니메이션 정보를 생성하여 출력하는 텍스트 애니메이션 정보 생성부;
아바타 캐릭터의 기본 애니메이션을 생성하고, 생성된 기본 애니메이션을 기초로 입력된 입모양 정보 및 음절 정보를 이용하여 립싱크 애니메이션을 생성하는 캐릭터 애니메이션 생성부;
입력된 음절 정보와 음절 시간 정보를 이용하여 텍스트 애니메이션을 생성하는 텍스트 애니메이션 생성부; 및
생성된 캐릭터 립싱크 애니메이션과 텍스트 애니메이션을 합성하여 영상 출력장치를 통해 출력하는 영상 출력부;
를 포함하는 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템.
제 1 항에 있어서,
텍스트 입력부에 입력되는 텍스트 정보는 맥락 정보 없이 대사 텍스트 정보를 포함하고,
맥락 정보 처리부는 입력된 대사 텍스트 정보와 이전에 입력되었던 대사 텍스트 정보들을 기반으로 맥락 정보를 생성하는 맥락 생성부를 더 포함하는 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템.
제1 항에 있어서,
상기 시스템은
음성 입력 장치로부터 음성 입력으로부터 음성 파형 정보를 생성하는 음성 신호 입력부와, 음성 신호 데이터에서 맥락 인식을 위한 맥락 인식 정보를 추출하는 맥락 인식 정보 추출부와, 음성 신호 데이터에서 음성을 인식하여 대사 텍스트 정보를 생성하는 음성 인식 처리부를 포함하는 음성 입력부를 더 포함하고,
맥락 정보 처리부가 입력된 대사 텍스트 정보와 맥락 인식 정보를 기반으로 맥락 정보를 하는 맥락 생성부를 더 포함하는 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템.
제 1 항 내지 제 3 항 중 어느 하나의 항에 있어서,
표현 정보는 대사의 속도, 감정, 대사의 모드, 대사의 톤, 또는 대사의 강약을 포함하는 정보이고,
맥락 정보는 표현 정보 중 적어도 어느 하나를 포함하는 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템.
제 1 항에 있어서,
맥락 정보 처리부는 대사 텍스트, 음절 시간 정보 및 생성된 맥락 정보를 기반으로 음성을 합성하는 음성 합성부를 더 포함하고,
상기 시스템은
생성된 음성을 음성 출력장치를 통해 출력하는 음성 출력부를 더 포함하는 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템.
제 1 항에 있어서,
텍스트 애니메이션 정보 생성부가 텍스트 애니메이션이 표시될 배경 애니메이션과 배경 애니메이션 시간 정보를 생성하는 배경 패널 생성부를 포함하는 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템.
삭제
제 5 항에 있어서,
상기 시스템은
생성된 음성과 생성된 캐릭터 립싱크 애니메이션 및 텍스트 애니메이션을 합성하여 캐릭터 애니메이션을 생성하는 애니메이션 생성부를 더 포함하는 캐릭터와 텍스트의 립싱크 애니메이션 출력 시스템.