WO2024038975A1

WO2024038975A1 - 발화 비디오 제공 장치 및 방법

Info

Publication number: WO2024038975A1
Application number: PCT/KR2022/095117
Authority: WO
Inventors: 김두현
Original assignee: 주식회사 딥브레인에이아이
Priority date: 2022-08-16
Filing date: 2022-08-23
Publication date: 2024-02-22
Also published as: KR20240023962A

Abstract

발화 비디오 제공 장치 및 방법이 개시된다. 일 실시예에 따른 컴퓨팅 장치에 의해 수행되는 발화 비디오 제공 방법은 비디오 속 인물이 대기 상태에 있는 비디오 파일 포맷의 대기 상태 비디오를 재생하는 단계; 상기 대기 상태 비디오의 재생 중 발화 내용의 소스에 기반하여 상기 비디오 속 인물이 발화 상태에 있는 복수의 발화 상태 이미지들 및 발화 음성을 생성하는 단계; 상기 대기 상태 비디오의 재생을 중지하고 상기 대기 상태 비디오의 기준 프레임으로 되돌아가기 위한 비디오 파일 포맷의 백모션 비디오를 재생하는 단계; 및 상기 기준 프레임부터 상기 대기 상태 비디오에 상기 복수의 발화 상태 이미지들 및 상기 발화 음성을 합성하여 합성 발화 비디오를 생성하는 단계; 를 포함한다.

Description

발화 비디오 제공 장치 및 방법

발화 비디오를 제공하는 기술과 관련된다.

최근, 인공 지능 분야의 기술 발전에 따라 다양한 유형의 콘텐츠가 인공 지능(Artificial Intelligence, AI) 기술에 기초하여 생성되고 있다. 그 일 예로, 어떤 전달하고자 하는 음성 메시지가 있을 때, 그 음성 메시지를 유명 인물(예를 들어, 대통령 등)이 말하는 것과 같은 발화 동영상(비디오)을 생성하여 사람들의 주의를 끌고자 하는 경우가 있다. 이는 유명 인물의 동영상에서 유명 인물이 특정 메시지를 말하는 것처럼 입 모양 등을 특정 메시지에 맞게 생성하여 구현하게 된다.

또한, 인공 지능(AI)이 사람과 대화를 진행할 수 있는 기술들이 연구되고 있다. 이러한 기술들에서는 발화 이미지를 합성하는 데 시간이 걸리고 많은 데이터가 필요하기 때문에 실시간 대화하는 비디오(또는 발화하는 비디오)을 생성하기가 어렵다는 문제점이 있다.

인공 지능 기반의 발화 비디오를 실시간으로 제공하기 위한 장치 및 방법을 제공하는데 목적이 있다.

예시적 실시예에 따른 컴퓨팅 장치에 의해 수행되는 발화 비디오 제공 방법은 비디오 속 인물이 대기 상태에 있는 비디오 파일 포맷의 대기 상태 비디오를 재생하는 단계; 상기 대기 상태 비디오의 재생 중 발화 내용의 소스에 기반하여 상기 비디오 속 인물이 발화 상태에 있는 복수의 발화 상태 이미지들 및 발화 음성을 생성하는 단계; 상기 대기 상태 비디오의 재생을 중지하고 상기 대기 상태 비디오의 기준 프레임으로 되돌아가기 위한 비디오 파일 포맷의 백모션 비디오를 재생하는 단계; 및 상기 기준 프레임부터 상기 대기 상태 비디오에 상기 복수의 발화 상태 이미지들 및 상기 발화 음성을 합성하여 합성 발화 비디오를 생성하는 단계; 를 포함할 수 있다.

상기 백모션 비디오는 상기 대기 상태 비디오의 각 프레임과 상기 기준 프레임 간의 이미지 보간을 위한 복수의 백모션 프레임 세트들을 포함할 수 있다.

상기 백모션 비디오를 재생하는 단계는, 상기 복수의 발화 상태 이미지 및 상기 발화 음성의 생성이 완료되면, 완료 이후의 상기 대기 상태 비디오의 프레임들 중 백모션 프레임 세트를 갖는 가장 가까운 프레임을 검출하는 단계; 상기 백모션 비디오에서 상기 검출된 프레임에 대응하는 백모션 프레임 세트 구간을 검출하는 단계; 및 상기 대기 상태 비디오를 상기 검출된 프레임까지 재생한 다음 상기 백모션 프레임 세트 구간을 재생한 단계; 를 포함할 수 있다.

상기 기준 프레임은 첫번째 프레임일 수 있다.

상기 대기 상태 비디오를 재생하는 단계는, 상기 대기 상태 비디오를 반복 재생하는 단계; 를 포함할 수 있다.

상기 복수의 발화 상태 이미지들은 상기 비디오 속 인물의 얼굴 이미지들일 수 있다.

상기 합성 발화 비디오를 생성하는 단계는, 상기 기준 프레임부터 상기 비디오 속 인물의 얼굴을 각 발화 상태 이미지로 교체하고, 상기 발화 음성을 합성하여 상기 합성 발화 비디오를 생성할 수 있다.

다른 양상에 따른 발화 비디오 제공 장치는 비디오 속 인물이 대기 상태에 있는 비디오 파일 포맷의 대기 상태 비디오의 재생 중 발화 내용의 소스에 기반하여 복수의 발화 상태 이미지를 생성하는 발화 상태 이미지 생성부; 상기 대기 상태 비디오의 재생 중 상기 발화 내용의 소스에 기반하여 발화 음성을 생성하는 발화 음성 생성부; 상기 대기 상태 비디오를 재생하고, 상기 복수의 발화 상태 이미지 및 상기 발화 음성의 생성이 완료되면 상기 대기 상태 비디오의 재생을 중지하고 상기 대기 상태 비디오의 기준 프레임으로 되돌아가기 위한 비디오 파일 포맷의 백모션 비디오를 재생하는 재생부; 및 상기 기준 프레임부터 상기 대기 상태 비디오에 상기 복수의 발화 상태 이미지들 및 상기 발화 음성을 합성하여 합성 발화 비디오를 생성하는 합성 발화 비디오 생성부; 를 포함할 수 있다.

상기 재생부는, 상기 복수의 발화 상태 이미지 및 상기 발화 음성의 생성이 완료되면, 완료 이후의 상기 대기 상태 비디오의 프레임들 중 백모션 프레임 세트를 갖는 가장 가까운 프레임을 검출하고, 상기 백모션 비디오에서 상기 검출된 프레임에 대응하는 백모션 프레임 세트 구간을 검출하고, 상기 대기 상태 비디오를 상기 검출된 프레임까지 재생한 다음 상기 백모션 프레임 세트 구간을 재생할 수 있다.

상기 기준 프레임은 첫번째 프레임일 수 있다.

상기 재생부는, 상기 대기 상태 비디오를 반복 재생할 수 있다.

상기 합성 발화 비디오 생성부는 상기 기준 프레임부터 상기 비디오 속 인물의 얼굴을 각 발화 상태 이미지로 교체하고, 상기 발화 음성을 합성하여 상기 합성 발화 비디오를 생성할 수 있다.

이미지 파일 형식이 아닌 비디오 파일 형식의 대기 상태 비디오와 백모션 비디오를 이용함으로써, 이미지 파일 형식에 비하여 단말의 로딩 시간을 줄이는 것이 가능하며 그에 따라 대기 상태 비디오에 인물의 다양한 자세 또는 제스처를 추가하는 것이 가능하다.

또한 대기 상태 비디오를 미리 준비하여 대기 상태 비디오를 재생하는 중 발화 상태 이미지 및 발화 음성을 생성하여 대기 상태 비디오와 합성함으로써, 합성 발화 비디오를 실시간으로 생성할 수 있으며, 그로 인해 인공 지능 기반의 대화 관련 서비스를 실시간으로 제공할 수 있다.

또한, 발화 상태 이미지를 대기 상태 비디오 속 인물의 얼굴 부분에 대해 생성하고, 대기 상태 비디오의 얼굴 부분만을 발화 상태 이미지로 교체하여 합성 발화 비디오를 생성함으로써, 합성 발화 비디오의 생성에 따른 시간을 줄이면서 데이터 량을 줄일 수 있다.

또한, 대기 상태 비디오의 프레임들에 대하여 백모션 이미지 세트를 마련하고, 백모션 이미지 세트를 통해 재생 중인 대기 상태 비디오를 첫 번째 프레임으로 되돌린 후, 대기 상태 비디오의 첫 번째 프레임부터 발화 상태 이미지와 발화 음성을 합성함으로써, 대기 상태 비디오의 재생 중 언제 발화 상태 이미지와 발화 음성이 생성되더라도 다른 변수를 고려하지 않고도 합성 발화 비디오를 용이하게 생성할 수 있다.

도 1은 예시적 실시예에 따른 인공 지능을 이용한 대화 시스템을 도시한 도면이다.

도 2는 예시적 실시예에 따른 발화 비디오 제공 장치를 도시한 도면이다.

도 3은 예시적 실시예에 따른 대기 상태 비디오에 발화 상태 이미지와 발화 음성을 합성하는 과정을 설명하기 위한 도면이다.

도 4는 예시적 실시예에 따른 백모션 비디오를 설명하기 위한 도면이다.

도 5는 예시적 실시예에 따른 재생 중인 대기 상태 비디오를 첫 번째 프레임으로 되돌리는 과정을 설명하기 위한 도면이다.

도 6은 예시적 실시예에 따른 발화 비디오 제공 방법을 도시한 도면이다.

도 7은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도이다.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.

한편, 각 단계들에 있어, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않은 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 수행될 수 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.

후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하고, '포함하다' 또는 '가지다' 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

또한, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주 기능별로 구분한 것에 불과하다. 즉, 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있다. 각 구성부는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

도 1은 예시적 실시예에 따른 인공 지능을 이용한 대화 시스템을 도시한 도면이고, 도 2는 예시적 실시예에 따른 발화 비디오 제공 장치를 도시한 도면이고, 도 3은 예시적 실시예에 따른 대기 상태 비디오에 발화 상태 이미지와 발화 음성을 합성하는 과정을 설명하기 위한 도면이다.

도 1 내지 도 3을 참조하면, 인공 지능을 이용한 대화 시스템(100)은 발화 비디오 제공 장치(110) 및 단말(120)을 포함할 수 있다.

발화 비디오 제공 장치(110)는 단말(120)과 통신하여 단말(120)의 사용자와 인공 지능을 이용한 대화(AI 대화)를 수행할 수 있다.

발화 비디오 제공 장치(110)는 단말(120)을 통해 입력된 텍스트 또는 음성에 대해 답변하는 합성 발화 비디오를 생성하고, 생성된 합성 발화 비디오를 단말(120)에 제공할 수 있다.

예시적 실시예에 따르면, 합성 발화 비디오는 인공 지능을 기반으로 합성된 비디오로 소정의 인물이 발화하는 비디오일 수 있다. 여기서, 소정의 인물은 가상의 인물일 수도 있고, 대중들에게 널리 알려진 인물일 수 있으나 이에 한정되는 것은 아니다.

발화 비디오 제공 장치(110)는 도 2에 도시된 바와 같이, 발화 상태 이미지 생성부(210), 발화 음성 생성부(220), 합성 발화 비디오 생성부(230) 및 재생부(240)를 포함할 수 있다.

발화 상태 이미지 생성부(210)는 대기 상태 비디오의 재생 중 발화 내용의 소스에 기반하여 복수의 발화 상태 이미지를 생성할 수 있다. 이때 발화 상태 이미지는 비디오 속 인물(대기 상태 비디오 속 인물과 아이덴티티가 동일한 인물)이 발화를 하는 상태(대화 상대방에게 말을 하는 상태)에 있는 이미지일 수 있다.

예시적 실시예에 따르면, 발화 상태 이미지는 대기 상태 비디오 속 인물의 얼굴 이미지일 수 있다. 이와 같이, 발화 상태 이미지 생성부(210)는 대기 상태 비디오 속 인물의 얼굴만을 포함하는 발화 상태 이미지를 생성함으로써, 발화 상태 이미지를 보다 신속하게 생성하면서도 데이터 용량을 줄일 수 있다.

대기 상태 비디오는 비디오 속 인물이 대기 상태에 있는 비디오로서 비디오 파일 형식(예컨대, WebM, Matroska, 플래시 비디오(FLV), F4V, VOB, Ogg Video, Dirac, AVI, AMV, SVI, 3GPP, 윈도우 미디어 비디오, 고급 시스템 포맷(ASF), MPEG 등)으로 형성될 수 있다. 여기서 대기 상태는 비디오 속 인물이 발화를 하기 전의 상태(예를 들어, 상대방의 말을 듣고 있는 상태 또는 대화가 있기 전 말이 없는 상태 등)일 수 있다.

대기 상태 비디오는 소정의 재생 시간을 가지며, 비디오 속 인물이 대기 상태에 있는 동안 자연스러운 동작을 표현하도록 마련될 수 있다. 즉, 대기 상태 비디오는 비디오 속 인물이 대화 상대방의 말을 듣는 동안 그에 따른 인물의 표정, 자세, 및 동작(예를 들어, 고개를 끄덕이는 동작, 두 손을 모으고 경청하는 동작, 고개를 갸우뚱 하는 동작, 미소를 짓는 표정 등)을 자연스럽게 표현하도록 마련될 수 있다.

발화 내용의 소스는 단말(120)을 통해 입력된 텍스트 또는 음성에 대한 답변으로서 텍스트 형태일 수 있으나, 이에 한정되는 것은 아니며 음성 형태일 수도 있다.

발화 내용의 소스는 발화 비디오 제공 장치(110)가 단말(120)을 통해 입력된 텍스트 또는 음성을 분석하여 인공 지능을 통해 생성할 수 있으나, 이에 한정되는 것은 아니며 외부 장치(예를 들어, 단말(120)을 통해 입력된 텍스트 또는 음성을 분석하여 발화 내용의 소스를 생성하는 장치) 또는 관리자로부터 입력된 것일 수도 있다.

발화 음성 생성부(220)는 대기 상태 비디오의 재생 중 발화 내용의 소스에 기반하여 발화 음성을 생성할 수 있다. 여기서 발화 음성은 발화 상태 이미지 생성부(210)에서 생성된 복수의 발화 상태 이미지에 대응할 수 있다. 즉, 동일한 발화 내용의 소스를 기반으로 발화 상태 이미지 생성부(210)는 복수의 발화 상태 이미지를 생성하고, 발화 음성 생성부(220)는 발화 음성을 생성할 수 있다.

한편, 발화 내용의 소스(텍스트 또는 음성)를 기반으로 이미지 또는 음성을 생성하는 기술은 기 공지된 기술이므로 이에 대한 자세한 설명은 생략하기로 한다.

합성 발화 비디오 생성부(230)는 대기 상태 비디오에 발화 상태 이미지 생성부(210)에서 생성된 복수의 발화 상태 이미지와 발화 음성 생성부(220)에서 생성된 발화 음성을 합성하여 합성 발화 비디오를 생성할 수 있다.

예를 들어, 도 3에 도시된 바와 같이 합성 발화 비디오 생성부(230)는 대기 상태 비디오 속 인물의 얼굴을 발화 상태 이미지(즉, 해당 인물의 얼굴 부분)로 교체하고, 발화 음성을 합성하여 합성 발화 비디오를 생성할 수 있다.

예시적 실시예에 따르면, 합성 발화 비디오 생성부(230)는 대기 상태 비디오의 기준 프레임부터 각 발화 상태 이미지와 발화 음성을 합성할 수 있다. 여기서 기준 프레임은 대기 상태 비디오의 첫번째 프레임일 수 있으나 이에 한정되는 것은 아니다. 즉, 대기 상태 비디오, 발화 상태 이미지 및 발화 음성의 합성은 대기 상태 비디오의 기준 프레임(예컨대, 첫번째 프레임)부터 이루어질 수 있다.

예시적 실시예에 따른 발화 비디오 제공 장치(110)는 대기 상태 비디오, 발화 상태 이미지 및 발화 음성의 합성 지점을 대기 상태 비디오의 기준 프레임(예컨대, 첫번째 프레임)으로 통일시킴으로써, 대기 상태 비디오의 재생 중 언제 발화 상태 이미지 및 발화 음성이 생성되더라도 다른 변수(예를 들어, 발화 비디오 제공 장치(110)와 단말(120) 간의 네트워크 환경 등)을 고려하지 않고도 대기 상태 비디오, 발화 상태 이미지 및 발화 음성을 합성하여 합성 발화 비디오를 용이하게 생성할 수 있다. 이하에서는 기준 프레임이 첫번째 프레임인 경우를 예를 들어 설명한다.

재생부(240)는 대기 상태 비디오를 재생하여 단말(120)로 전송할 수 있다.

예시적 실시예에 따르면, 재생부(240)는 대기 상태 비디오를 반복 재생할 수 있다. 예를 들어, 재생부(240)는 대기 상태 비디오의 첫번째 프레임부터 마지막 프레임까지 재생 후, 다시 첫번째 프레임으로 되돌아가는 방법으로 대기 상태 비디오를 반복 재생할 수 있다. 이때 후술하는 바와 같이 대기 상태 비디오의 마지막 프레임의 재생이 완료되면, 재생부(240)는 대기 상태 비디오의 재생을 중지하고 대기 상태 비디오의 마지막 프레임에 대응하는 백모션 비디오의 백모션 프레임 세트를 재생함으로써 자연스럽게 대기 상태 비디오의 첫번째 프레임으로 되돌아 갈 수 있다.

재생부(240)는 대기 상태 비디오의 재생 중 발화 상태 이미지와 발화 음성의 생성이 완료되면, 대기 상태 비디오의 재생을 중지하고 백모션 비디오를 재생하여 단말(120)로 전송할 수 있다.

백모션 비디오는 대기 상태 비디오의 임의의 프레임과 대기 상태 비디오의 기준 프레임 간의 이미지 보간을 위한 것으로 비디오 파일 형식(예컨대, WebM, Matroska, 플래시 비디오(FLV), F4V, VOB, Ogg Video, Dirac, AVI, AMV, SVI, 3GPP, 윈도우 미디어 비디오, 고급 시스템 포맷(ASF), MPEG 등)으로 형성될 수 있다. 백모션 비디오를 통해 대기 상태 비디오의 임의의 프레임에서 대기 상태 비디오의 기준 프레임으로 되돌아갈 때 임의의 프레임과 기준 프레임이 자연스럽게 연결될 수 있다. 여기서 프레임간 자연스럽게 연결된다는 것은 비디오 속 인물의 동작이 자연스럽게 연결되는 것을 의미할 수 있다.

백모션 비디오는 복수의 백모션 프레임 세트(백모션 이미지 세트라고 호칭될 수 있음)를 포함할 수 있다. 즉, 복수의 백모션 프레임 세트가 모여 하나의 백모션 비디오를 형성할 수 있다. 각 백모션 프레임 세트는 대기 상태 비디오의 각 프레임과 기준 프레임 간의 이미지 보간을 위해 마련된 것일 수 있다. 예를 들어, 백모션 프레임 세트는 기 설정된 프레임 간격 또는 기 설정된 시간 간격마다 대기 상태 비디오의 각 프레임에 대하여 마련될 수 있다. 예컨대, 기 설정된 프레임 간격이 3인 경우, 백모션 프레임 세트는 대기 상태 비디오의 세번째 프레임, 여섯번째 프레임, 아홉번째 프레임 등에 대하여 마련될 수 있다.

예시적 실시예에 따르면 재생부(240)는 대기 상태 비디오의 재생 중 발화 상태 이미지와 발화 음성의 생성이 완료되면, 이후의 대기 상태 비디오의 프레임들 중 백모션 프레임 세트를 갖는 가장 가까운 프레임을 검출하고, 백모션 비디오에서 대기 상태 비디오의 검출된 프레임에 대응하는 백모션 프레임 세트가 존재하는 구간(이하 백모션 프레임 세트 구간)을 검출할 수 있다. 또한, 재생부(240)는 대기 상태 비디오를 검출된 프레임까지 재생한 다음 백모션 비디오의 검출된 백모션 프레임 세트 구간을 재생함으로써 자연스럽게 대기 상태 비디오의 첫번째 프레임으로 되돌릴 수 있다.

재생부(240)는 백모션 비디오의 검출된 백모션 프레임 세트 구간을 재생한 다음, 합성 발화 비디오를 재생하여 단말(120)로 전송할 수 있다.

전술한 바와 같이 합성 발화 비디오는 대기 상태 비디오의 첫번째 프레임부터 발화 상태 이미지 및 발화 음성과 합성되어 생성될 수 있다. 따라서, 백모션 비디오의 해당 백모션 프레임 세트 구간의 재생을 통해 대기 상태 비디오의 마지막 재생 프레임과 합성 발화 비디오는 자연스럽게 연결될 수 있다.

재생부(240)는 합성 발화 비디오의 재생이 종료되면, 합성 발화 비디오의 종료 시점부터 대기 상태 비디오를 다시 재생할 수 있다. 또한 재생부(240)은 대기 상태 비디오를 마지막 프레임까지 재생한 경우, 대기 상태 비디오의 마지막 프레임에 대응하는 백모션 비디오의 백모션 프레임 세트를 이용하여 대기 상태 비디오의 첫 번째 프레임으로 다시 돌아가 대기 상태 비디오를 재생할 수 있다.

예시적 실시예에 따르면, 발화 비디오 제공 장치(110)는 대기 상태 비디오 생성부(250) 및 백모션 비디오 생성부(260)를 더 포함할 수 있다.

대기 상태 비디오 생성부(250)는 소정의 재생 시간을 갖는 대기 상태 비디오를 생성할 수 있다. 예를 들어, 대기 상태 비디오 생성부(250)는 복수의 대기 상태 이미지를 인코딩하여 비디오 파일 형식의 하나의 대기 상태 비디오를 생성할 수 있다. 전술한 바와 같이, 대기 상태 비디오는 비디오 속 인물이 대기 상태에 있는 동안 취하는 자연스러운 동작을 표현할 수 있다.

백모션 비디오 생성부(260)는 대기 상태 비디오의 프레임들에 대하여 기 설정된 프레임 간격 또는 기 설정된 시간 간격마다 그에 대응하는 백모션 이미지 세트를 생성할 수 있다. 또한, 백모션 비디오 생성부(260)는 생성된 백모션 이미지 세트들을 인코딩하여 비디오 파일 형식의 하나의 백모션 비디오를 생성할 수 있다.

단말(120)은 통신 네트워크를 통해 발화 비디오 제공 장치(110)와 통신 가능하게 연결될 수 있다.

예시적 실시예에 따르면, 통신 네트워크는 인터넷, 하나 이상의 로컬 영역 네트워크(local area networks), 광역 네트워크(wide area networks), 셀룰러 네트워크, 모바일 네트워크, 그 밖에 다른 종류의 네트워크들, 또는 이러한 네트워크들의 조합을 포함할 수 있다.

단말(120)은 예를 들어, 인공 지능과 대화하고자 하는 사용자 단말(예를 들어, 스마트폰, 태블릿 PC, 노트북, 데스크탑 PC 등), 무인 주문용 키오스크, 전자식 안내 데스크, 옥외 광고 스크린, 로봇 등을 포함할 수 있다.

단말(120)은 통신 네트워크를 통해 발화 비디오 제공 장치(110)에 접속할 수 있다. 이 경우, 단말(120)은 대기 상태 비디오와 백모션 비디오를 발화 비디오 제공 장치(110)로부터 수신하는 로딩 과정이 필요하다. 그러나 대기 상태 비디오와 백모션 비디오가 비디오 파일 형식이 아닌 이미지 파일 형식인 경우, 데이터 용량이 커서 로딩 시간이 오래 걸리며, 그에 따라 대기 상태의 인물의 자세 또는 제스처를 추가하는 것도 한계가 있다.

예시적 실시예에 따른 발화 비디오 제공 장치(110)는 이미지 파일 형식이 아닌 비디오 파일 형식의 대기 상태 비디오와 백모션 비디오를 이용함으로써, 이미지 파일 형식에 비하여 단말(120)의 로딩 시간을 줄이는 것이 가능하며 그에 따라 대기 상태의 인물의 다양한 자세 또는 제스처를 추가하는 것이 가능하다.

예시적 실시예에 따른 발화 비디오 제공 장치(110)는 대기 상태 비디오를 미리 준비하여 대기 상태 비디오를 재생하는 중 발화 상태 이미지 및 발화 음성을 생성하여 대기 상태 비디오와 합성함으로써, 합성 발화 비디오를 실시간으로 생성할 수 있으며, 그로 인해 인공 지능 기반의 대화 관련 서비스를 실시간으로 제공할 수 있다.

도 4는 예시적 실시예에 따른 백모션 비디오를 설명하기 위한 도면이다. 도 4는 기 설정된 프레임 간격이 2인 경우를 예시한다.

도 4를 참조하면, 백모션 비디오 생성부(260)는 2 프레임 간격, 즉 대기 상태 비디오(310)의 두번째 프레임(2nd), 네번째 프레임(4th), … , n번째 프레임(nth) 마다 백모션 이미지 세트(411, 412, 413)를 생성할 수 있다. 이때 백모션 이미지 세트(411)는 두번째 프레임(2nd)을 첫번째 프레임(1st)에 자연스럽게 연결하고, 백모션 이미지 세트(412)는 네번째 프레임(4th)를 첫번째 프레임(1st)에 자연스럽게 연결하고, 백모션 이미지 세트(413)는 n번째 프레임(nth)를 첫번째 프레임(1st)에 자연스럽게 연결하도록 마련될 수 있다.

백모션 비디오 생성부(260)는 백모션 이미지 세트(411, 412, 413)를 순차적으로 나열하고 인코딩하여 비디오파일 형식의 하나의 백모션 비디오(410)를 생성할 수 있다.

도 5를 참조하면, 대기 상태 비디오(310)의 재생 중 j번째 프레임(jth)에서 발화 상태 이미지와 발화 음성의 생성이 완료되면, 재생부(240)는 j번째 프레임(jth) 이후의 프레임들(kth, lth) 중 백모션 이미지 세트를 갖는 가장 가까운 프레임을 검출할 수 있다.

예를 들어, 이후의 프레임들(kth, lth) 중 백모션 이미지 세트를 갖는 가장 가까운 프레임이 k번째 프레임(kth)인 경우, 재생부(240)는 백모션 비디오(410)에서 k번째 프레임(kth)에 대응하는 백모션 이미지 세트(414)를 검출하고 검출된 백모션 이미지 세트(414)를 이용하여 대기 상태 비디오(310)를 첫 번째 프레임(1st)으로 되돌릴 수 있다. 즉, 재생부(414)는 대기 상태 비디오(310)를 k번째 프레임(kth)까지 재생한 다음 백모션 비디오(410)의 백모션 이미지 세트(414)를 재생하여 대기 상태 비디오(310)를 첫번째 프레임으로 자연스럽게 되돌릴 수 있다. 또한 합성 발화 비디오 생성부(230)는 대기 상태 비디오(310)의 첫번째 프레임(1st)에서 발화 상태 이미지와 발화 음성을 합성하여 합성 발화 비디오를 생성하고, 재생부(414)는 백모션 이미지 세트(414)를 재생한 다음 합성 발화 비디오를 재생할 수 있다. 이를 통해 k번째 프레임(kth)과 합성 발화 비디오는 자연스럽게 연결될 수 있다.

도 6은 예시적 실시예에 따른 발화 비디오 제공 방법을 도시한 도면이다. 도 6의 발화 비디오 제공 방법은 도 1의 발화 비디오 제공 장치에 의해 수행될 수 있다.

도 6을 참조하면, 발화 비디오 제공 장치는 대기 상태 비디오를 재생할 수 있다(610). 이때, 대기 상태 비디오는 비디오 속 인물이 대기 상태에 있는 비디오로서 비디오 파일 형식으로 형성될 수 있다.

발화 비디오 제공 장치는 발화 내용의 소스에 기반하여 복수의 발화 상태 이미지와 발화 음성을 생성할 수 있다(620).

발화 내용의 소스는 발화 비디오 제공 장치와 통신 네트워크를 통해 연결된 단말을 통해 입력된 텍스트 또는 음성에 대한 답변으로서 텍스트 형태 또는 음성 형태일 수 있다. 발화 내용의 소스는 단말을 통해 입력된 텍스트 또는 음성을 분석하여 인공 지능을 통해 생성될 수 있다.

발화 상태 이미지는 대기 상태 비디오 속 인물이 발화를 하는 상태에 있는 이미지로서 비디오 속 인물의 얼굴 이미지일 수 있다.

발화 비디오 제공 장치는 대기 상태 비디오의 재생을 중지하고 백모션 비디오를 재생할 수 있다(630). 여기서 백모션 비디오는 대기 상태 비디오의 임의의 프레임과 대기 상태 비디오의 기준 프레임 간의 이미지 보간을 위한 것으로 비디오 파일 형식으로 형성될 수 있다. 백모션 비디오는 대기 상태 비디오의 각 프레임과 기준 프레임 간의 이미지 보간을 위해 마련된 복수의 백모션 프레임 세트를 포함할 수 있다.

예를 들어, 발화 비디오 제공 장치는 대기 상태 비디오의 재생 중 발화 상태 이미지와 발화 음성의 생성이 완료되면, 이후의 대기 상태 비디오의 프레임들 중 백모션 프레임 세트를 갖는 가장 가까운 프레임을 검출하고, 백모션 비디오에서 대기 상태 비디오의 검출된 프레임에 대응하는 백모션 프레임 세트 구간을 검출할 수 있다. 또한, 발화 비디오 제공 장치는 대기 상태 비디오를 검출된 프레임까지 재생한 다음 백모션 비디오의 검출된 백모션 프레임 세트 구간을 재생함으로써 자연스럽게 대기 상태 비디오의 첫번째 프레임으로 되돌릴 수 있다.

발화 비디오 제공 장치는 대기 상태 비디오에 복수의 발화 상태 이미지 및 발화 음성을 합성하여 합성 발화 비디오를 생성하여 재생할 수 있다(640).

예를 들어, 발화 비디오 제공 장치는 대기 상태 비디오의 첫번째 프레임부터 대기 상태 비디오 속 인물의 얼굴을 발화 상태 이미지(즉, 해당 인물의 얼굴 부분)로 교체하고, 발화 음성을 합성하여 합성 발화 비디오를 생성할 수 있다.

도 7은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.

도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 발화 비디오 제공 장치(110)일 수 있다.

컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.

컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.

통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.

컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.

이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시 예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.

Claims

컴퓨팅 장치에 의해 수행되는 발화 비디오 제공 방법에 있어서,

비디오 속 인물이 대기 상태에 있는 비디오 파일 포맷의 대기 상태 비디오를 재생하는 단계;

상기 대기 상태 비디오의 재생 중 발화 내용의 소스에 기반하여 상기 비디오 속 인물이 발화 상태에 있는 복수의 발화 상태 이미지들 및 발화 음성을 생성하는 단계;

상기 대기 상태 비디오의 재생을 중지하고 상기 대기 상태 비디오의 기준 프레임으로 되돌아가기 위한 비디오 파일 포맷의 백모션 비디오를 재생하는 단계; 및

상기 기준 프레임부터 상기 대기 상태 비디오에 상기 복수의 발화 상태 이미지들 및 상기 발화 음성을 합성하여 합성 발화 비디오를 생성하는 단계; 를 포함하는,

발화 비디오 제공 방법.
제1항에 있어서,

상기 백모션 비디오는 상기 대기 상태 비디오의 각 프레임과 상기 기준 프레임 간의 이미지 보간을 위한 복수의 백모션 프레임 세트들을 포함하는,

발화 비디오 제공 방법.
제2항에 있어서,

상기 백모션 비디오를 재생하는 단계는,

상기 복수의 발화 상태 이미지 및 상기 발화 음성의 생성이 완료되면, 완료 이후의 상기 대기 상태 비디오의 프레임들 중 백모션 프레임 세트를 갖는 가장 가까운 프레임을 검출하는 단계;

상기 백모션 비디오에서 상기 검출된 프레임에 대응하는 백모션 프레임 세트 구간을 검출하는 단계; 및

상기 대기 상태 비디오를 상기 검출된 프레임까지 재생한 다음 상기 백모션 프레임 세트 구간을 재생한 단계; 를 포함하는,

발화 비디오 제공 방법.
제1항에 있어서,

상기 기준 프레임은 첫번째 프레임인,

발화 비디오 제공 방법.
제1항에 있어서,

상기 대기 상태 비디오를 재생하는 단계는,

상기 대기 상태 비디오를 반복 재생하는 단계; 를 포함하는,

발화 비디오 제공 방법.
제1항에 있어서,

상기 복수의 발화 상태 이미지들은 상기 비디오 속 인물의 얼굴 이미지들인,

발화 비디오 제공 방법.
제6항에 있어서,

상기 합성 발화 비디오를 생성하는 단계는,

상기 기준 프레임부터 상기 비디오 속 인물의 얼굴을 각 발화 상태 이미지로 교체하고, 상기 발화 음성을 합성하여 상기 합성 발화 비디오를 생성하는,

발화 비디오 제공 방법.
비디오 속 인물이 대기 상태에 있는 비디오 파일 포맷의 대기 상태 비디오의 재생 중 발화 내용의 소스에 기반하여 복수의 발화 상태 이미지를 생성하는 발화 상태 이미지 생성부;

상기 대기 상태 비디오의 재생 중 상기 발화 내용의 소스에 기반하여 발화 음성을 생성하는 발화 음성 생성부;

상기 대기 상태 비디오를 재생하고, 상기 복수의 발화 상태 이미지 및 상기 발화 음성의 생성이 완료되면 상기 대기 상태 비디오의 재생을 중지하고 상기 대기 상태 비디오의 기준 프레임으로 되돌아가기 위한 비디오 파일 포맷의 백모션 비디오를 재생하는 재생부; 및

상기 기준 프레임부터 상기 대기 상태 비디오에 상기 복수의 발화 상태 이미지들 및 상기 발화 음성을 합성하여 합성 발화 비디오를 생성하는 합성 발화 비디오 생성부; 를 포함하는,

발화 비디오 제공 장치.
제8항에 있어서,

상기 백모션 비디오는 상기 대기 상태 비디오의 각 프레임과 상기 기준 프레임 간의 이미지 보간을 위한 복수의 백모션 프레임 세트들을 포함하는,

발화 비디오 제공 장치.
제9항에 있어서,

상기 재생부는,

상기 복수의 발화 상태 이미지 및 상기 발화 음성의 생성이 완료되면, 완료 이후의 상기 대기 상태 비디오의 프레임들 중 백모션 프레임 세트를 갖는 가장 가까운 프레임을 검출하고,

상기 백모션 비디오에서 상기 검출된 프레임에 대응하는 백모션 프레임 세트 구간을 검출하고,

상기 대기 상태 비디오를 상기 검출된 프레임까지 재생한 다음 상기 백모션 프레임 세트 구간을 재생하는,

발화 비디오 제공 장치.
제8항에 있어서,

상기 기준 프레임은 첫번째 프레임인,

발화 비디오 제공 장치.
제8항에 있어서,

상기 재생부는,

상기 대기 상태 비디오를 반복 재생하는,

발화 비디오 제공 장치.
제8항에 있어서,

상기 복수의 발화 상태 이미지들은 상기 비디오 속 인물의 얼굴 이미지들인,

발화 비디오 제공 장치.
제13항에 있어서,

상기 합성 발화 비디오 생성부는,

상기 기준 프레임부터 상기 비디오 속 인물의 얼굴을 각 발화 상태 이미지로 교체하고, 상기 발화 음성을 합성하여 상기 합성 발화 비디오를 생성하는,

발화 비디오 제공 장치.