KR20190070065A

KR20190070065A - 텍스트 기반 적응적 가창 립싱크 애니메이션 생성 장치 및 방법

Info

Publication number: KR20190070065A
Application number: KR1020170170537A
Authority: KR
Inventors: 박경주; 김남중
Original assignee: 중앙대학교 산학협력단
Priority date: 2017-12-12
Filing date: 2017-12-12
Publication date: 2019-06-20
Also published as: KR102058783B1

Abstract

본 발명은 텍스트 기반 적응적 가창 립싱크 애니메이션 생성 장치 및 방법을 개시한다. 본 발명에 따르면, 프로세서 및 상기 프로세서에 의해 연결된 메모리를 포함하며, 상기 메모리는, 입력된 가사 텍스트의 각 음운에 따른 복수의 얼굴 모양 데이터를 추출하고, 복수의 변형 항목을 포함하는 인터페이스를 출력하고, 상기 출력된 인터페이스를 통해 상기 복수의 변형 항목 각각의 변형량을 입력 받고, 상기 입력된 복수의 변형 항목 각각의 변형량 및 변형 커브를 이용하여 상기 복수의 얼굴 모양 데이터를 연결하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 가창 립싱크 애니메이션 생성 장치가 제공된다.

Description

텍스트 기반 적응적 가창 립싱크 애니메이션 생성 장치 및 방법{Method and apparatus for generating adaptlve song lip sync animation based on text}

본 발명은 텍스트 기반 적응적 가창 립싱크 애니메이션 생성 장치 및 방법에 관한 것이다.

20 여년이 넘는 기간 동안 사실적인 3차원 얼굴 애니메이션을 제작하는 연구들이 그래픽스와 비젼 학계에서 널리 이루어져 왔다. 그래프 구조를 이용하여 입력 오디오에 대응되는 얼굴 모양 데이터를 매칭시켜서 블렌딩하여 얼굴 애니메이션을 처리하는 방법이 제안되었다.

또한, 세밀한 얼굴 움직임의 추적과 사실적인 결과를 얻기 위해 복잡한 캡쳐 장비를 이용한 연구 및 사람이 대화할 때의 립싱크를 표현하기 위하여 오디오 신호를 사용하는 연구가 제안되었다.

하지만 오디오 신호만으로는 가창 환경에서 나타나는 입모양과 머리의 움직임을 표현할 수 없는 단점이 있다. 그리고 동적 베이시안 네트워크(dynamic Bayesian network)를 이용하여 발성효과를 효과적으로 애니메이션하는 연구가 제안되었다.

최근에는 딥러닝(deep learning) 기술에 기반하여 HMD(Head Mounted Display)를 착용한 사용자의 표정에서 가려진 부분을 추정하여 사실적인 얼굴 애니메이션을 수행하는 연구가 제안되었으며, 딥러닝 기술에 기반하여 다양한 언어로 대화하는 립싱크 애니메이션을 통합된 시스템에서 처리하는 연구가 제안되었다.

종래의 립싱크 연구들은 사람이 대화하는 환경의 입모양 움직임을 사실적으로 애니메이션하는 방법에 초점을 맞추어 왔으며, 대부분 사람이 대화하고 이야기하는 상황에서 자연스러운 립싱크 애니메이션을 처리하는 방법들이 연구되어 왔다.

초기의 립싱크 연구들은 사실적인 얼굴 애니메이션을 표현하기 위하여 복잡한 얼굴 캡쳐 장비에 의존하거나 매우 많은 얼굴 캡쳐 데이터를 기반으로 처리한 방법들을 다루어 왔다. 그리고 딥러닝처럼 최신의 인공지능 기술을 이용한 립싱크 애니메이션 기술도 개발되었지만, 여전히 사람이 대화하는 환경에 초점을 맞춘 연구들이 제안되었다. 하지만 사람이 노래를 부르는 환경에서는 입술과 머리의 움직임이 다양한 형태로 변화하며, 음운의 강도에 따라 입이 벌어지는 크기가 달라진다. 기존 방법으로는 가창 환경의 립싱크 애니메이션을 사실적으로 재현하기에는 한계가 있다.

한국공개특허공보 제10-2008-0018408호

상기한 바와 같은 종래기술의 문제점을 해결하기 위해, 본 발명에서는 간단한 방법으로서 적응적으로 가창 립싱크 애니메이션을 생성할 수 있는 장치 및 방법을 제안하고자 한다.

본 발명의 다른 목적들은 하기의 실시예를 통해 당업자에 의해 도출될 수 있을 것이다.

상기한 목적을 달성하기 위해 본 발명의 바람직한 일 실시예에 따르면, 가창 립싱크 애니메이션 생성 장치로서, 프로세서; 및 상기 프로세서에 의해 연결된 메모리를 포함하며, 상기 메모리는, 입력된 가사 텍스트의 각 음운에 따른 복수의 얼굴 모양 데이터를 추출하고, 복수의 변형 항목을 포함하는 인터페이스를 출력하고, 상기 출력된 인터페이스를 통해 상기 복수의 변형 항목 각각의 변형량을 입력 받고, 상기 입력된 복수의 변형 항목 각각의 변형량 및 변형 커브를 이용하여 상기 복수의 얼굴 모양 데이터를 연결하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 가창 립싱크 애니메이션 생성 장치가 제공된다.

상기 변형 항목은 목관절의 X축 회전, Y축 회전, Z축 회전, 입모양의 가로, 세로, 대각선 변형, 상기 입모양의 가로 변형 감쇠, 세로 변형 감쇠, 대각선 변형 감쇠 중 적어도 하나를 포함할 수 있다.

상기 복수의 변형 항목 각각의 변형량은 시간에 따라 다르게 설정될 수 있다.

상기 복수의 변형 항목 각각의 변형량의 최대, 최소 및 변형 범위는 서로 다르게 설정될 수 있다.

상기 변형 커브는 상기 가사 텍스트에 해당하는 노래의 장르에 의해 결정될 수 있다.

상기 변형 커브는 노래의 각 구간에서 음의 높이, 소리의 크기 및 음색 중 적어도 하나에 의해 시간 구간별로 다르게 설정될 수 있다.

상기 변형 커브는 상기 복수의 변형 항목 각각에 대해 설정될 수 있다.

상기 변형 커브는 선형 커브, 베지어 커브, 비스플라인 커브, 카멜롬(Catmell-Rom) 커브 및 큐빅 스플라인 커브 중 적어도 하나를 포함할 수 있다.

본 발명의 다른 측면에 따르면, 가창 립싱크 애니메이션 생성 방법으로서, 음운에 따른 복수의 얼굴 모양 데이터를 저장하는 단계; 가사 텍스트가 입력되는 경우, 입력된 가사 텍스트의 음운을 분류하는 단계; 상기 분류된 음운에 따른 복수의 얼굴 모양 데이터를 추출하는 단계; 복수의 변형 항목을 포함하는 인터페이스 상에서, 사용자가 설정한 복수의 변형 항목 각각의 변형량을 입력 받는 단계; 및 상기 입력된 복수의 변형 항목 각각의 변형량 및 변형 커브를 이용하여 상기 추출된 복수의 얼굴 모양 데이터를 연결하는 단계를 포함하는 가창 립싱크 애니메이션 생성 방법이 제공된다.

본 발명의 또 다른 측면에 따르면, 상기한 방법을 수행하기 위한 일련의 명령어들을 포함하는 매체에 저장된 컴퓨터 프로그램이 제공된다.

본 발명에 따르면, 변형 차트(deformation chart)에 기반한 GUI 기반 제어 방법을 이용하여 입모양과 머리의 움직임을 동적으로 변형시켜 가창 립싱크 애니메이션을 효과적으로 생성할 수 있다.

도 1은 본 실시예에 따른 가상 립싱크 애니메이션 생성을 위한 인터페이스를 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 가창 립싱크 애니메이션 생성 과정의 순서도이다.
도 3은 본 실시예에 따른 입모양의 세로 방향 변형 결과를 나타낸 도면이다.
도 4는 본 실시예에 따른 입모양의 가로 방향 변형 결과를 나타낸 도면이다.
도 5는 본 실시예에 따른 입모양의 대각선 방향 변형 결과를 나타낸 도면이다.
도 6은 본 실시예에 따른 목관절의 z축 회전 결과를 나타낸 도면이다.
도 7은 본 실시예에 따른 선형 커브를 나타낸 도면이다.
도 8은 본 실시예에 따른 비스플라인 커브를 나타낸 도면이다.
도 9는 본 실시예에 따른 카멜롬(Catmell-Rom) 커브를 나타낸 도면이다.
도 10은 본 발명의 바람직한 일 실시예에 따른 가창 립싱크 애니메이션 생성 장치의 구성을 도시한 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

이하에서, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.

본 발명은 변형 차트(Deformation Chart)를 이용한 GUI 기반으로 가창 립싱크 애니메이션을 생성한다.

본 실시예에 따른 변형 차트는 복수의 변형 항목과 사용자에 의해 설정된 변형 항목의 변형 커브(Deformation curve)를 포함한다.

도 1은 본 실시예에 따른 가상 립싱크 애니메이션 생성을 위한 인터페이스를 도시한 도면이다.

도 1에 도시된 바와 같이, 본 실시예에 따른 변형 항목 리스트는 다음과 같다.

(1) 목관절 X축 회전(위아래 방향 회전 조절)

(2) 목관절 Y축 회전(좌우 방향 회전 조절)

(3) 목관절 Z축 회전(목의 기울기 조절)

(4) 입모양 가로 변형(입모양의 가로 방향 변형 조절)

(5) 입모양 세로 변형(입모양의 세로 방향 변형 조절)

(6) 입모양 좌측 대각선 변형(입모양의 왼쪽 대각선 방향 변형 조절): 입모양이 왼쪽 방향에 치우치는 비대칭적인 변형 조절

(7) 입모양 우측 대각선 변형(입모양의 오른쪽 대각선 방향 변형 조절): 입모양이 오른쪽 방향에 치우치는 비대칭적인 변형 조절

(8) 입모양 가로 변형 감쇠(입모양의 가로 방향 변형의 감쇠율 조절)

(9) 입모양 세로 변형 감쇠(입모양의 세로 방향 변형의 감쇠율 조절)

(10) 입모양 좌측 대각선 변형 감쇠(입모양의 왼쪽 대각선 방향 변형의 감쇠 조절): 입모양이 왼쪽 방향에 치우치는 비대칭적인 변형에 대한 감쇠(damping) 조절

(11) 입모양 우측 대각선 변형 감쇠(입모양의 오른쪽 대각선 방향 변형의 감쇠 조절): 입모양이 오른쪽 방향에 치우치는 비대칭적인 변형에 대한 감쇠(damping) 조절

도 2는 본 발명의 일 실시예에 따른 가창 립싱크 애니메이션 생성 과정의 순서도이다.

도 2는 상기한 인터페이스를 화면상에 출력하고, 사용자의 인터페이스에서의 설정 정보를 수신하는 장치에서의 동작을 설명한 것이다.

도 2를 참조하면, 가창 립싱크 애니메이션 생성 장치는 모든 음운에 해당하는 얼굴 모양 데이터를 저장한다(단계 200).

가사 텍스트가 입력되는 경우. 입력되는 가사 텍스트에 따라 음운을 분류하고(단계 202), 분류된 음원 각각에 따른 얼굴 모양 데이터를 키 프레임으로 설정 한다(단계 204).

이후, 사용자가 상기한 인터페이스 상에서 설정한 각 변형 항목의 변형량을 입력 받아 변형 차트에 기반한 제약 사항을 결정한다(단계 206).

예를 들어, 애국가의 "동해물과...(이하 생략)"라는 가사가 입력되는 경우, 각 음운인 "동", "해", "물", "과"에 해당하는 얼굴 모양 데이터를 추출한 이후, 시간에 따라 각 변형 항목의 변형량을 설정한다.

본 실시예에 따른 변형량은 최대, 최소 범위 내에서 결정되며, 방향에 따라 양의 방향(기준 방향) 및 음의 방향으로 설정될 수도 있다.

또한, 각 변형 항목의 변형량은 최대, 최소 및 변형 범위가 다르게 설정될 수도 있다.

도 3 내지 도 6은 본 실시예에 따른 입모양의 세로 방향, 가로 방향, 대각선 방향 및 목관절의 z축 회전의 변형 결과를 나타낸 도면이다.

상기한 바와 같이, 각 음운에 따른 얼굴 모양 데이터가 키 프레임으로 설정된 이후, 각 변형 항목의 변형량, 변형 범위, 변형 커브와 같은 제약 사항이 결정되면, 결정된 제약을 적용하여 단계 204에서의 복수의 얼굴 모양 데이터를 연결한다(단계 208).

단계 206에서 공지의 Blend Shape 알고리즘 기반으로 얼굴 모양 데이터의 연결이 수행될 수 있다.

다음으로 캐릭터 리깅(rigging)일 수행되고(단계 210), 가창 립싱크 애니메이션이 생성된다(단계 212).

본 실시예에 따르면, 변형 커브의 종류, 변형 커브의 기울기와 등락폭 및 다중 컨트롤 포인트 지정에 의한 커브의 복잡도 조절 방법 등에 의하여 효율적인 입모양의 변형과 얼굴의 회전 및 기울어짐 등을 표현할 수 있다.

도 7 내지 도 9는 본 실시예에 따른 다양한 변형 커브를 나타낸 도면이다.

도 7을 참조하면, 선형(Linear) 커브는 사용자가 마우스로 클릭한 컨트롤 포인트를 모두 직선으로 연결하는 커브로서, 변형이 직선의 형태로 이루어지며 급격한 변형과 회전, 기울기를 표현할 수 있다.

베지어(Bezier) 커브는 도면에 도시하지 않았으나, 유선형 디자인에 널리 사용되는 커브로서, 사용자가 마우스로 클릭한 컨트롤 포인트 중에서 시작점과 끝점만 지나가는 완만한 커브를 생성하며, 기울기의 변화가 매우 적은 형태의 변형과 움직임을 표현할 때 최적의 커브이다.

도 8을 참조하면, 비스플라인(B-Spline) 커브는 사용자가 마우스로 클릭한 컨트롤 포인트 중에서 시작점과 끝점만 지나가며, 컨트롤 포인트들 중에서 전체적인(global) 경로에서 크게 벗어나는 컨트롤 포인트만 배제하면서 기울기의 변화가 매우 적은 것부터 기울기의 변화가 매우 큰 것까지 모두 표현 가능하여 부드러우면서 세밀하고 큰 변형과 회전, 기울어짐을 최적으로 표현 가능한 커브이다.

보간(Interpolation) 커브는 사용자가 마우스로 클릭한 컨트롤 포인트를 모두 지나가는 커브로서 사용자가 마우스로 클릭한 모든 지점을 부드러운 곡선의 형태로 지나가는 커브이다.

보간 커브로는 다음과 같이 크게 두 가지 커브가 있다. 첫째로 카멜롬(Catmell-Rom) 커브는 곡선의 1차 미분값(gradient)이 유지되면서 모든 컨트롤 포인트를 완만하게 지나가는 커브로 사용자가 클릭한 포인트의 위치를 반영하면서 기울기의 변화가 매우 적은 형태의 변형과 움직임을 표현할 때 최적으로 사용될 수 있다(도 9 참조). 둘째로 큐빅 스플라인 커브(Cubic Spline 커브)는 곡선의 1차 미분값(gradient)과 2차 미분값(curvature)을 모두 유지되면서 모든 컨트롤 포인트를 지나가는 커브로 사용자가 클릭한 포인트의 위치를 반영하면서 커브의 기울기의 변화가 매우 적은 것부터 커브의 기울기의 변화가 매우 큰 것까지 모두 표현 가능하여 부드러우면서 세밀하고 큰 변형과 회전, 기울어짐을 최적으로 표현 가능한 커브이다.

본 실시예에 따르면, 상기한 변형 커브는 변형을 위한 다중 컨트롤 포인트 간 연결을 정의하는 것으로서, 사용자가 설정할 수도 있으나, 노래의 장르에 따라 미리 결정될 수 있다.

본 실시예에 따른 가창 립싱크 애니메이션 생성 장치는 Pitch, Loudness, Timbre 특징들을 음악 데이터에서 추출하여 naive bayes, fisher linear discriminant, k-nearest neighbor, Linear discriminant 등의 다양한 방법들을 이용하여 장르들을 분류하고, 분류된 장르에 따라 변형 커브를 자동으로 결정할 수 있다.

예를 들어, 선형 커브는 가사에 따라 입모양이 급격하게 변화하는 랩/힙합 장르에 적용될 수 있고, 베지어 커브 및 비스플라인 커브는 재즈 및 발라드와 같은 장르에 적용될 수 있다.

변형 커브의 속성 상, 베지어 커브는 재즈, 비스플라인 커브는 발라드에 적용되며, 보간 커브는 댄스 또는 성악에 적용될 수 있을 것이다.

상기에서는 장르에 따라 변형 커브가 결정되는 것으로 설명하였으나, 하나의 노래에서 Pitch(음의 높이), Loudness(소리의 크기), Timbre(음색) 특징들이 변경되는 경우, 소정 시간 구간에 따라 다른 변형 커브가 적용되는 것으로 결정될 수도 있다.

또한, 하나의 노래에서, 복수의 변형 항목 모두에 동일한 변형 커브가 적용될 수 있으나, 이에 한정되지 않고, 자연스러운 가창 립싱크 애니메이션을 생성하기 위해 복수의 변형 항목 별로 서로 다른 변형 커브가 설정될 수도 있을 것이다.

도 10은 본 발명의 바람직한 일 실시예에 따른 가창 립싱크 애니메이션 생성 장치의 구성을 도시한 도면이다.

도 10에 도시된 바와 같이, 본 실시예에 따른 장치는 프로세서(1000) 및 메모리(1002)를 포함할 수 있다.

프로세서(1000)는 컴퓨터 프로그램을 실행할 수 있는 CPU(central processing unit)나 그밖에 가상 머신 등을 포함할 수 있다.

메모리(1002)는 고정식 하드 드라이브나 착탈식 저장 장치와 같은 불휘발성 저장 장치를 포함할 수 있다. 착탈식 저장 장치는 컴팩트 플래시 유닛, USB 메모리 스틱 등을 포함할 수 있다. 메모리(1002)는 각종 랜덤 액세스 메모리와 같은 휘발성 메모리도 포함할 수 있다.

본 발명의 바람직한 일 실시예에 따르면, 메모리(1002)에는 입력된 가사 텍스트의 각 음운에 따른 복수의 얼굴 모양 데이터를 추출하고, 복수의 변형 항목을 포함하는 인터페이스를 출력하고, 상기 출력된 인터페이스를 통해 상기 복수의 변형 항목 각각의 변형량을 입력 받고, 상기 입력된 복수의 변형 항목 각각의 변형량 및 변형 커브를 이용하여 상기 복수의 얼굴 모양 데이터를 연결하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들이 저장된다.

여기서, 변형 항목은 목관절의 X축 회전, Y축 회전, Z축 회전, 입모양의 가로, 세로, 대각선 변형, 상기 입모양의 가로 변형 감쇠, 세로 변형 감쇠, 대각선 변형 감쇠 중 적어도 하나를 포함할 수 있다.

또한, 본 실시예에 따르면, 복수의 변형 항목 각각의 변형량은 시간에 따라 다르게 설정되며, 상기한 바와 같이, 복수의 변형 항목 각각의 변형량의 최대, 최소 및 변형 범위는 서로 다르게 설정될 수 있다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims

가창 립싱크 애니메이션 생성 장치로서,
프로세서; 및
상기 프로세서에 의해 연결된 메모리를 포함하며,
상기 메모리는,
입력된 가사 텍스트의 각 음운에 따른 복수의 얼굴 모양 데이터를 추출하고,
복수의 변형 항목을 포함하는 인터페이스를 출력하고,
상기 출력된 인터페이스를 통해 상기 복수의 변형 항목 각각의 변형량을 입력 받고,
상기 입력된 복수의 변형 항목 각각의 변형량 및 변형 커브를 이용하여 상기 복수의 얼굴 모양 데이터를 연결하도록,
상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하는 가창 립싱크 애니메이션 생성 장치.
제1항에 있어서,
상기 변형 항목은 목관절의 X축 회전, Y축 회전, Z축 회전, 입모양의 가로, 세로, 대각선 변형, 상기 입모양의 가로 변형 감쇠, 세로 변형 감쇠, 대각선 변형 감쇠 중 적어도 하나를 포함하는 가창 립싱크 애니메이션 생성 장치.
제1항에 있어서,
상기 복수의 변형 항목 각각의 변형량은 시간에 따라 다르게 설정되는 가창 립싱크 애니메이션 장치.
제1항에 있어서,
상기 복수의 변형 항목 각각의 변형량의 최대, 최소 및 변형 범위는 서로 다르게 설정되는 가창 립싱크 애니메이션 장치.
제1항에 있어서,
상기 변형 커브는 상기 가사 텍스트에 해당하는 노래의 장르에 의해 결정되는 가창 립싱크 애니메이션 생성 장치.
제1항에 있어서,
상기 변형 커브는 노래의 각 구간에서 음의 높이, 소리의 크기 및 음색 중 적어도 하나에 의해 시간 구간별로 다르게 설정되는 가창 립싱크 애니메이션 장치.
제1항에 있어서,
상기 변형 커브는 상기 복수의 변형 항목 각각에 대해 설정되는 가창 립싱크 애니메이션 장치.
제1항에 있어서,
상기 변형 커브는 선형 커브, 베지어 커브, 비스플라인 커브, 카멜롬(Catmell-Rom) 커브 및 큐빅 스플라인 커브 중 적어도 하나를 포함하는 가창 립싱크 애니메이션 장치.
가창 립싱크 애니메이션 생성 방법으로서,
음운에 따른 복수의 얼굴 모양 데이터를 저장하는 단계;
가사 텍스트가 입력되는 경우, 입력된 가사 텍스트의 음운을 분류하는 단계;
상기 분류된 음운에 따른 복수의 얼굴 모양 데이터를 추출하는 단계;
복수의 변형 항목을 포함하는 인터페이스 상에서, 사용자가 설정한 복수의 변형 항목 각각의 변형량을 입력 받는 단계; 및
상기 입력된 복수의 변형 항목 각각의 변형량 및 변형 커브를 이용하여 상기 추출된 복수의 얼굴 모양 데이터를 연결하는 단계를 포함하는 가창 립싱크 애니메이션 생성 방법.
제9항에 따른 방법을 수행하기 위한 일련의 명령어들을 포함하는 매체에 저장된 컴퓨터 프로그램.