KR102509106B1 - 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치 - Google Patents

발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치 Download PDF

Info

Publication number
KR102509106B1
KR102509106B1 KR1020210083147A KR20210083147A KR102509106B1 KR 102509106 B1 KR102509106 B1 KR 102509106B1 KR 1020210083147 A KR1020210083147 A KR 1020210083147A KR 20210083147 A KR20210083147 A KR 20210083147A KR 102509106 B1 KR102509106 B1 KR 102509106B1
Authority
KR
South Korea
Prior art keywords
image
interpolation
standby state
interpolated
state image
Prior art date
Application number
KR1020210083147A
Other languages
English (en)
Other versions
KR20230000702A (ko
Inventor
김두현
Original Assignee
주식회사 딥브레인에이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 딥브레인에이아이 filed Critical 주식회사 딥브레인에이아이
Priority to KR1020210083147A priority Critical patent/KR102509106B1/ko
Priority to US17/764,718 priority patent/US20240046540A1/en
Priority to PCT/KR2021/008825 priority patent/WO2022270669A1/ko
Publication of KR20230000702A publication Critical patent/KR20230000702A/ko
Application granted granted Critical
Publication of KR102509106B1 publication Critical patent/KR102509106B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0135Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0356Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for synchronising with other signals, e.g. video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치가 개시된다. 개시되는 일 실시예에 따른 컴퓨팅 장치는, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치로서, 영상 내 인물이 대기 상태에 있는 대기 상태 영상을 생성하는 대기 상태 영상 생성 모듈, 대기 상태 영상과 기 저장된 발화 준비 영상 간의 보간을 위한 보간 이미지 셋을 생성하는 보간 이미지 생성 모듈, 및 발화 상태 영상이 생성되는 경우, 보간 이미지 셋에 기반하여 상기 대기 상태 영상과 상기 발화 상태 영상을 연결하는 연결 영상을 생성하는 영상 재생 모듈을 포함한다.

Description

발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치{METHOD FOR PROVIDING SPEECH VIDEO AND COMPUTING DEVICE FOR EXECUTING THE METHOD}
본 발명의 실시예는 발화 영상 제공 기술과 관련된다.
최근, 인공 지능 분야의 기술 발전에 따라 다양한 유형의 콘텐츠가 인공 지능(Artificial Intelligence : AI) 기술에 기초하여 생성되고 있다. 그 일 예로, 어떤 전달하고자 하는 음성 메시지가 있을 때, 그 음성 메시지를 유명 인물(예를 들어, 대통령 등)이 말하는 것과 같은 발화 영상을 생성하여 사람들의 주의를 끌고자 하는 경우가 있다. 이는 유명 인물의 영상에서 유명 인물이 특정 메시지를 말하는 것처럼 입 모양 등을 특정 메시지에 맞게 생성하여 구현하게 된다.
또한, 인공 지능(AI)이 사람과 대화(예를 들어, 영상 통화 등)를 진행할 수 있는 기술들이 연구되고 있다. 이러한 기술들에서는 발화 영상을 합성하는데 시간이 걸리고 많은 데이터가 필요하기 때문에 실시간 대화하는 영상(또는 발화하는 영상)을 생성하기가 어렵다는 문제점이 있다.
한국등록특허공보 10-1925440호(2018.12.05)
본 발명의 실시예는 인공 지능 기반의 발화 영상을 실시간 제공하는 새로운 기법을 제공하기 위한 것이다.
개시되는 일 실시예에 따른 컴퓨팅 장치는, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치로서, 영상 내 인물이 대기 상태에 있는 대기 상태 영상을 생성하는 대기 상태 영상 생성 모듈; 상기 대기 상태 영상과 기 저장된 발화 준비 영상 간의 보간을 위한 보간 이미지 셋을 생성하는 보간 이미지 생성 모듈; 및 발화 상태 영상이 생성되는 경우, 상기 보간 이미지 셋에 기반하여 상기 대기 상태 영상과 상기 발화 상태 영상을 연결하는 연결 영상을 생성하는 영상 재생 모듈을 포함한다.
상기 발화 상태 영상의 첫 번째 프레임은, 상기 대기 상태 영상의 기 설정된 기준 프레임과 연속성이 있도록 마련되고, 상기 발화 준비 영상의 마지막 프레임은, 상기 발화 상태 영상의 첫 번째 프레임과 연속성이 있도록 마련될 수 있다.
상기 보간 이미지 생성 모듈은, 상기 대기 상태 영상의 기 설정된 시구간 단위로 상기 발화 준비 영상 간의 보간을 위한 보간 이미지 셋을 생성하며, 상기 시구간 단위의 프레임 개수는, 상기 발화 준비 영상의 프레임 개수와 동일하게 설정될 수 있다.
상기 보간 이미지 생성 모듈은, 상기 대기 상태 영상의 시구간에 포함된 각 프레임과 상기 발화 준비 영상의 각 프레임 간의 보간을 위한 보간 이미지 셋을 각각 생성하고, 상기 각 보간 이미지 셋은, 상기 발화 준비 영상의 프레임 개수와 동일한 보간 이미지를 갖도록 마련될 수 있다.
상기 영상 재생 모듈은, 상기 각 보간 이미지 셋에서 어느 하나의 보간 이미지를 추출하여 상기 연결 영상의 프레임으로 사용할 수 있다.
상기 영상 재생 모듈은, 상기 보간 이미지 셋 중 상기 발화 준비 영상의 첫 번째 프레임에서 마지막 프레임으로 갈수록 상기 발화 준비 영상과 점점 유사한 보간 이미지를 추출하여 상기 연결 영상의 프레임으로 사용할 수 있다.
상기 보간 이미지 셋들의 개수가 n(n은 자연수)개이고, 상기 각 보간 이미지 셋은 상기 대기 상태 영상의 프레임과 상기 발화 준비 영상의 프레임 사이에 n개의 보간 이미지를 포함하며, 상기 영상 재생 모듈은, k(k=1에서 n까지)번째 보간 이미지 셋에서는 k번째 보간 이미지를 추출하여 상기 연결 영상의 프레임으로 사용할 수 있다.
상기 영상 재생 모듈은, 상기 대기 상태 영상을 재생하다가 상기 발화 상태 영상의 생성이 완료되면 상기 연결 영상을 재생시키고 상기 연결 영상 이후에 상기 발화 상태 영상을 재생시킬 수 있다.
개시되는 다른 실시예에 따른 컴퓨팅 장치는, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치로서, 영상 내 인물이 대기 상태에 있는 대기 상태 영상을 생성하는 대기 상태 영상 생성 모듈; 상기 대기 상태 영상과 기 저장된 발화 준비 영상 간의 보간을 위한 보간 이미지 셋을 생성하는 보간 이미지 생성 모듈; 및 발화 내용의 소스를 서버로 전송하고, 상기 서버로부터 영상 내 인물이 발화 상태에 있는 발화 상태 영상을 수신하며, 상기 보간 이미지 셋에 기반하여 상기 대기 상태 영상과 상기 발화 상태 영상을 연결하는 연결 영상을 생성하는 영상 재생 모듈을 포함한다.
개시되는 일 실시예에 따른 발화 영상 제공 방법은, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서, 영상 내 인물이 대기 상태에 있는 대기 상태 영상을 생성하는 동작; 상기 대기 상태 영상과 기 저장된 발화 준비 영상 간의 보간을 위한 보간 이미지 셋을 생성하는 동작; 및 발화 상태 영상이 생성되는 경우, 상기 보간 이미지 셋에 기반하여 상기 대기 상태 영상과 상기 발화 상태 영상을 연결하는 연결 영상을 생성하는 동작을 포함한다.
개시되는 다른 실시예에 따른 발화 영상 제공 방법은, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서, 영상 내 인물이 대기 상태에 있는 대기 상태 영상을 생성하는 동작; 상기 대기 상태 영상과 기 저장된 발화 준비 영상 간의 보간을 위한 보간 이미지 셋을 생성하는 동작; 발화 내용의 소스를 서버로 전송하는 동작; 상기 서버로부터 영상 내 인물이 발화 상태에 있는 발화 상태 영상을 수신하는 동작; 및 상기 보간 이미지 셋에 기반하여 상기 대기 상태 영상과 상기 발화 상태 영상을 연결하는 연결 영상을 생성하는 동작을 포함한다.
개시되는 실시예에 의하면, 대기 상태 영상의 각 시구간 별로 보간 이미지 셋을 미리 마련하고, 발화 이벤트 발생 시 대기 상태 영상과 발화 상태 영상 사이에 보간 이미지 셋에 기반하여 연결 영상을 재생함으로써, 인공 지능 기반의 대화 관련 서비스를 실시간으로 제공할 수 있게 된다.
또한, 보간 이미지 셋 중 발화 준비 영상의 첫 번째 프레임에서 마지막 프레임으로 갈수록 발화 준비 영상과 점점 유사한 보간 이미지를 추출하여 연결 영상의 프레임으로 사용함으로써, 대기 상태 영상에서 발화 상태 영상으로 자연스럽게 연결될 수 있게 된다.
도 1은 본 발명의 일 실시예에 따른 발화 영상 제공 장치의 구성을 나타낸 블록도
도 2는 본 발명의 일 실시예에서 보간 이미지 셋이 생성되는 상태를 나타낸 도면
도 3은 본 발명의 일 실시예에서 발화 상태 영상을 생성하는 상태를 나타낸 도면
도 4는 본 발명의 일 실시예에서 영상 재생 모듈이 대기 상태 영상과 발화 상태 영상 사이에 연결 영상을 생성하여 재생하는 상태를 나타낸 도면
도 5는 본 발명이 일 실시예에서 영상 재생 모듈이 각 영상을 재생하는 과정을 개략적으로 나타낸 도면
도 6은 본 발명의 일 실시예에 따른 발화 영상 제공 시스템의 구성을 나타낸 도면
도 7은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명의 실시예들을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 본 발명의 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.
이하의 설명에 있어서, 신호 또는 정보의 "전송", "통신", "송신", "수신" 기타 이와 유사한 의미의 용어는 일 구성요소에서 다른 구성요소로 신호 또는 정보가 직접 전달되는 것뿐만이 아니라 다른 구성요소를 거쳐 전달되는 것도 포함한다. 특히 신호 또는 정보를 일 구성요소로 "전송" 또는 "송신"한다는 것은 그 신호 또는 정보의 최종 목적지를 지시하는 것이고 직접적인 목적지를 의미하는 것이 아니다. 이는 신호 또는 정보의 "수신"에 있어서도 동일하다. 또한 본 명세서에 있어서, 2 이상의 데이터 또는 정보가 "관련"된다는 것은 하나의 데이터(또는 정보)를 획득하면, 그에 기초하여 다른 데이터(또는 정보)의 적어도 일부를 획득할 수 있음을 의미한다.
또한, 제1, 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로 사용될 수 있다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.
도 1은 본 발명의 일 실시예에 따른 발화 영상 제공 장치의 구성을 나타낸 블록도이다.
도 1을 참조하면, 발화 영상 제공 장치(100)는 대기 상태 영상 생성 모듈(102), 보간 이미지 생성 모듈(104), 발화 상태 영상 생성 모듈(106), 및 영상 재생 모듈(108)을 포함할 수 있다.
일 실시예에서, 대기 상태 영상 생성 모듈(102), 보간 이미지 생성 모듈(104), 발화 상태 영상 생성 모듈(106), 및 영상 재생 모듈(108)은 물리적으로 구분된 하나 이상의 장치를 이용하여 구현되거나, 하나 이상의 프로세서 또는 하나 이상의 프로세서 및 소프트웨어의 결합에 의해 구현될 수 있으며, 도시된 예와 달리 구체적 동작에 있어 명확히 구분되지 않을 수 있다.
예시적인 실시예에서, 발화 영상 제공 장치(100)는 인공 지능을 이용한 대화(AI 대화) 또는 영상 통화(AI 영상 통화) 등을 수행하기 위한 장치일 수 있으나, 이에 한정되는 것은 아니다. 발화 영상 제공 장치(100)는 인공 지능을 기반으로 발화 영상(예를 들어, 대화 또는 영상 통화 등을 위한 발화 영상)을 생성하고 생성한 발화 영상을 화면에 표시하거나 외부(예를 들어, 대화 상대방의 단말 또는 대화 상대방 단말과 발화 영상 제공 장치(100)를 중계하는 중계 서버 등)로 전송할 수 있다.
예를 들어, 발화 영상 제공 장치(100)는 인공 지능과 대화하고자 하는 사용자 단말에 설치될 수도 있고, 무인 주문용 키오스크, 전자식 안내 데스크, 옥외 광고 스크린, 로봇 등 다양한 장치 또는 시설에 설치될 수 있다.
여기서, 발화 영상은 인공 지능 기반으로 합성된 영상으로, 소정의 인물이 발화하는 영상이다. 소정의 인물은 가상의 인물일 수도 있고 대중들에게 널리 알려진 인물(예를 들어, 연예인, 스포츠 선수, 대통령 등)일 수 있으나, 이에 한정되는 것은 아니다.
대기 상태 영상 생성 모듈(102)은 영상 내 인물이 대기 상태에 있는 영상(이하, 대기 상태 영상이라 지칭할 수 있음)을 생성할 수 있다. 여기서, 대기 상태는 영상 내 인물이 발화를 하기 전의 상태(예를 들어, 상대방의 말을 듣고 있는 상태 또는 대화가 있기 전 말 없이 있는 상태 등)일 수 있다.
대기 상태 영상 생성 모듈(102)은 기 설정된 재생 시간(예를 들어, 5초 내지 30초 등)을 갖는 대기 상태 영상을 생성할 수 있다. 대기 상태 영상은 영상 내 인물이 대기 상태에 있는 동안 자연스러운 동작을 표현하도록 마련될 수 있다. 즉, 대기 상태 영상은 영상 내 인물이 상대방의 말을 듣는 동안 그에 따른 인물의 표정, 자세, 및 동작(예를 들어, 고개를 끄덕이는 동작, 두 손을 모으고 경청하는 동작, 고개를 갸우뚱 하는 동작, 미소를 짓는 표정 등)을 자연스럽게 표현하도록 마련될 수 있다.
대기 상태 영상은 기 설정된 재생 기간을 가지는 바, 복수 개의 프레임을 포함하게 된다. 그리고, 영상 내 인물이 대기 상태에 있는 동안 자연스러운 동작을 표현하기 위해 대기 상태 영상 내 각 프레임은 변화된 이미지를 포함할 수 있다. 예시적인 실시예에서, 대기 상태 영상은 첫 번째 프레임부터 마지막 프레임까지 재생되는 경우, 마지막 프레임에서 다시 첫 번째 프레임으로 되돌아가서 반복 재생되도록 마련될 수 있다.
보간 이미지 생성 모듈(104)은 대기 상태 영상과 기 저장된 발화 준비 영상 간의 보간을 위한 보간 이미지 셋을 생성할 수 있다. 여기서, 발화 준비 영상은 대기 상태 영상과 후술하는 발화 상태 영상의 자연스러운 연결을 위해 사용되는 영상이다. 이에 대한 자세한 설명은 후술하기로 한다.
보간 이미지 생성 모듈(104)은 대기 상태 영상의 기 설정된 시구간 단위로 기 저장된 발화 준비 영상 간의 보간을 위한 보간 이미지 셋을 생성할 수 있다. 여기서, 기 설정된 시구간 단위는 발화 준비 영상의 재생 시간과 동일할 수 있다. 예를 들어, 발화 준비 영상은 0.5초 ~ 1초의 재생 시간을 갖는 영상일 수 있으며, 보간 이미지 생성 모듈(104)은 대기 상태 영상에서 0.5초 ~ 1초의 시구간 단위로 보간 이미지 셋을 생성할 수 있다.
도 2는 본 발명의 일 실시예에서 보간 이미지 셋이 생성되는 상태를 나타낸 도면이다. 도 2를 참조하면, 보간 이미지 생성 모듈(104)은 대기 상태 영상의 기 설정된 시구간 단위로 보간 이미지 셋을 각각 생성할 수 있다. 여기서는, 대기 상태 영상의 3번째 시구간에 대해 보간 이미지 셋을 생성하는 것을 일 예로 도시하였다.
설명의 편의상, 발화 준비 영상은 5개의 프레임을 갖는 것으로 도시하였다. 이 경우, 기 설정된 시구간 단위는 5개의 프레임 단위가 될 수 있다. 즉, 대기 상태 영상의 기 설정된 각 시구간은 발화 준비 영상과 동일한 개수의 프레임을 갖도록 구분될 수 있다.
발화 준비 영상의 마지막 프레임은 후술하는 발화 상태 영상의 첫 번째 프레임과 자연스럽게 연결되도록(즉, 연속적 이도록) 마련될 수 있다. 즉, 발화 준비 영상의 마지막 프레임 속 인물의 자세, 동작, 및 입 모양 등이 발화 상태 영상의 첫 번째 프레임 속 인물의 자세, 동작, 및 입 모양 등과 자연스럽게 연결되도록(동일하거나 최대한 유사하도록) 마련될 수 있다.
보간 이미지 생성 모듈(104)은 대기 상태 영상의 각 시구간에 포함된 프레임에 대해 그에 대응하는 발화 준비 영상의 프레임 간의 보간을 위한 보간 이미지 셋을 생성할 수 있다. 대기 상태 영상의 3번째 시구간에 대해 살펴보면, 보간 이미지 생성 모듈(104)은 대기 상태 영상의 3번째 시구간의 첫 번째 프레임과 발화 준비 영상의 첫 번째 프레임 간의 보간을 위한 제1 보간 이미지 셋을 생성할 수 있다. 보간 이미지 생성 모듈(104)은 대기 상태 영상의 3번째 시구간의 두 번째 프레임과 발화 준비 영상의 두 번째 프레임 간의 보간을 위한 제2 보간 이미지 셋을 생성할 수 있다.
또한, 보간 이미지 생성 모듈(104)은 대기 상태 영상의 3번째 시구간의 세 번째 프레임, 네 번째 프레임, 및 다섯 번째 프레임과 발화 준비 영상의 세 번째 프레임, 네 번째 프레임, 및 다섯 번째 프레임 간의 보간을 위한 제3 보간 이미지 셋, 제4 보간 이미지 셋, 및 제5 보간 이미지 셋을 각각 생성할 수 있다.
여기서, 제1 보간 이미지 셋 내지 제5 보간 이미지 셋은 발화 준비 영상과 동일한 프레임 개수(도 2에서는 5개)로 생성될 수 있다. 제1 보간 이미지 셋 내지 제5 보간 이미지 셋은 각각 대기 상태 영상과 발화 준비 영상 사이에서 일련의 시퀀스를 이루며 생성될 수 있다. 이때, 제1 보간 이미지 셋 내지 제5 보간 이미지 셋은 대기 상태 영상과 가까울수록 대기 상태 영상과 유사하도록 생성되고, 발화 준비 영상과 가까울수록 발화 준비 영상과 유사하도록 생성될 수 있다.
다시 도 1을 참조하면, 발화 상태 영상 생성 모듈(106)은 영상 내 인물(대기 상태 영상 속 인물과 아이덴티티가 동일한 인물)이 발화 상태에 있는 영상(이하, 발화 상태 영상이라 지칭할 수 있음)을 생성할 수 있다. 여기서, 발화 상태는 영상 내 인물이 발화를 하는 상태(예를 들어, 대화 또는 영상 통화 등의 상대방에게 말을 하는 상태)를 의미할 수 있다.
발화 상태 영상 생성 모듈(106)은 입력되는 발화 내용의 소스에 기반하여 발화 상태 영상을 생성할 수 있다. 발화 내용의 소스는 텍스트 형태일 수 있으나, 이에 한정되는 것은 아니며 음성 형태일 수도 있다.
발화 내용의 소스는 발화 영상 제공 장치(100)가 상대방의 발화를 분석하여 인공 지능을 통해 생성할 수 있으나, 이에 한정되는 것은 아니며 외부 장치(미도시)(예를 들어, 상대방의 발화를 분석하여 발화 내용의 소스를 생성하는 장치) 또는 관리자로부터 입력된 것일 수도 있다. 이하, 발화 내용의 소스는 텍스트인 것을 일 예로 설명하기로 한다.
발화 상태 영상 생성 모듈(106)은 발화 내용의 텍스트(예를 들어, "안녕하세요. 저는 AI 튜터 대니입니다")에 기반하여 발화 상태 영상의 음성 파트 및 영상 파트를 각각 생성하고, 생성한 음성 파트와 영상 파트를 합성하여 발화 상태 영상을 생성할 수 있다. 텍스트 기반으로 음성 및 영상을 생성하는 기술은 기 공지된 기술이므로 이에 대한 자세한 설명은 생략하기로 한다.
발화 상태 영상 생성 모듈(106)은 발화 내용의 텍스트에 기반하여 영상 파트를 생성하는 경우, 대기 상태 영상 속 인물의 얼굴 부분에 대해 영상 파트를 생성한 후 도 3에 도시된 바와 같이, 대기 상태 영상에서 인물의 얼굴 부분만 변경(얼굴 부위 교체)하여 발화 상태 영상을 생성할 수 있다. 이 경우, 발화 상태 영상을 보다 신속하게 생성하면서도 데이터 용량을 줄일 수 있게 된다.
발화 상태 영상 생성 모듈(106)은 발화 상태 영상의 첫 번째 프레임이 대기 상태 영상의 기 설정된 기준 프레임(예를 들어, 대기 상태 영상의 첫 번째 프레임)과 연속성이 있도록 발화 상태 영상을 생성할 수 있다. 예시적인 실시예에서, 발화 상태 영상의 첫 번째 프레임은 인물의 발화 관련 부분(예를 들어, 입, 입 주변, 턱 등)을 제외하고 대기 상태 영상의 기준 프레임 속 인물의 자세 및 동작과 동일하도록 마련될 수 있다.
발화 상태 영상의 첫 번째 프레임을 대기 상태 영상의 기준 프레임과 연속성이 있도록 생성함으로써, 대기 상태 영상의 재생 중 언제 발화 상태 영상이 생성되더라도 다른 변수(예를 들어, 발화 영상 제공 장치(100)와 상대방 단말 간의 네트워크 환경 등)를 고려하지 않고도 대기 상태 영상에 이어서 발화 상태 영상을 재생할 수 있게 된다.
영상 재생 모듈(108)은 대기 상태 영상 모듈(102)이 생성한 대기 상태 영상을 재생시킬 수 있다. 영상 재생 모듈(108)은 대기 상태 영상을 재생하여 대화 상대방에게 제공할 수 있다. 예시적인 실시예에서, 영상 재생 모듈(108)은 대기 상태 영상을 재생하여 발화 영상 제공 장치(100)에 구비된 화면에 표시할 수 있다. 이 경우, 대화 상대방은 발화 영상 제공 장치(100)의 화면을 보면서 영상 속 인물과 대화할 수 있다.
또한, 영상 재생 모듈(108)은 대기 상태 영상을 재생하여 외부 장치(예를 들어, 대화 상대방의 단말 또는 중계 서버 등)로 전송할 수 있다. 이 경우, 대화 상대방은 자신의 단말(예를 들어, 스마트 폰, 태블릿 PC, 노트북, 데스크 탑 PC 등)이나 무인 주문용 키오스크, 전자식 안내 데스크, 옥외 광고 스크린 등을 통해 영상을 제공 받고 영상 속 인물과 대화할 수 있다. 영상 재생 모듈(108)은 발화 이벤트(상대방과 대화를 시작하거나 상대방의 말에 답변을 해야 하는 상황 등)가 발생하기 전까지 대기 상태 영상을 반복하여 재생시킬 수 있다.
영상 재생 모듈(108)은 대기 상태 영상을 재생하는 중 발화 이벤트의 발생에 따라 발화 상태 영상이 생성되는 경우, 대기 상태 영상에서 발화 상태 영상으로 전환하여 재생할 수 있다. 이때, 영상 재생 모듈(108)은 대기 상태 영상과 발화 상태 영상 사이에 보간 이미지 셋에 기반한 연결 영상을 생성하여 재생할 수 있다.
도 4는 본 발명의 일 실시예에서 영상 재생 모듈(108)이 대기 상태 영상과 발화 상태 영상 사이에 연결 영상을 생성하여 재생하는 상태를 나타낸 도면이다. 도 4를 참조하면, 영상 재생 모듈(108)은 발화 상태 영상의 생성이 완료된 시점을 기준으로 대기 상태 영상의 특정 시구간을 확인한 후 해당 대기 상태 영상의 시구간의 보간 이미지 셋들을 추출할 수 있다. 예시적인 실시예에서, 영상 재생 모듈(108)은 발화 상태 영상의 생성이 완료된 시점을 기준으로 대기 상태 영상에서 가장 가까운 시구간에서 보간 이미지 셋들을 추출할 수 있다.
즉, 대기 상태 영상의 각 시구간에 대해서는 도 2에서 살펴본 바와 같이, 해당 대기 상태 영상의 시구간 내 프레임과 발화 준비 영상의 프레임 간의 보간을 위한 보간 이미지 셋들이 생성되어 있으므로, 영상 재생 모듈(108)은 발화 상태 영상의 생성이 완료된 시점을 기준으로 특정 대기 상태 영상의 시구간과 관련된 보간 이미지 셋들을 추출할 수 있다.
이때, 보간 이미지 셋들은 발화 준비 영상의 프레임과 동일한 개수로 생성될 수 있으며, 도 4에서는 보간 이미지 셋이 5개(즉, 발화 준비 영상의 프레임 개수가 5개)인 것을 일 예로 도시하였다. 제1 보간 이미지 셋(IS1) 내지 제5 보간 이미지 셋(IS5)은 각각 발화 준비 영상의 프레임과 동일한 개수의 보간 이미지를 포함할 수 있다.
영상 재생 모듈(108)은 대기 상태 영상과 발화 상태 영상 사이에 상기 추출한 보간 이미지 셋에 기반하여 연결 영상을 재생시킬 수 있다. 영상 재생 모듈(108)은 각 보간 이미지 셋에서 어느 하나의 보간 이미지를 추출하여 연결 영상의 프레임으로 사용할 수 있다.
영상 재생 모듈(108)은 보간 이미지 셋 중 발화 준비 영상(또는 대기 상태 영상)의 첫 번째 프레임에서 마지막 프레임으로 갈수록 발화 준비 영상과 점점 유사한 보간 이미지를 추출하여 연결 영상의 프레임으로 사용할 수 있다. 다시 말하면, 영상 재생 모듈(108)은 보간 이미지 셋 중 발화 준비 영상의 첫 번째 프레임에서 마지막 프레임으로 갈수록 대기 상태 영상과 점점 유사하지 않은 보간 이미지를 추출하여 연결 영상의 프레임으로 사용할 수 있다.
구체적으로, 영상 재생 모듈(108)은 제1 보간 이미지 셋(IS1)에서는 제1 보간 이미지(즉, 대기 상태 영상과 가장 유사한 보간 이미지)(#1)를 추출하고, 제2 보간 이미지 셋(IS2)에서는 제2 보간 이미지(#2)를 추출하며, 제3 보간 이미지 셋(IS3)에서는 제3 보간 이미지(#3)를 추출하고, 제4 보간 이미지 셋(IS4)에서는 제4 보간 이미지(#4)를 추출하며, 제5 보간 이미지 셋(IS5)에서는 제5 보간 이미지(즉, 발화 준비 영상과 가장 유사한 보간 이미지)(#5)를 추출하여 연결 영상의 프레임으로 사용할 수 있다.
즉, 보간 이미지 셋의 개수가 n개(즉, 발화 준비 영상의 프레임 개수가 n개)이고, 각 보간 이미지 셋은 대기 상태 영상의 프레임과 발화 준비 영상의 프레임 사이에 n개의 보간 이미지를 포함하며, n개의 보간 이미지는 일련의 시퀀스를 가지며 배열되게 된다. 이때, 영상 재생 모듈(108)은 k(k=1에서 n까지)번째 보간 이미지 셋에서는 k번째 보간 이미지를 추출하여 연결 영상의 프레임으로 사용할 수 있다.
이와 같이, 연결 영상은 제1 보간 이미지(#1) 내지 제5 보간 이미지(#5)를 포함하게 된다. 영상 재생 모듈(108)은 제1 보간 이미지(#1) 내지 제5 보간 이미지(#5)를 순차적으로 재생시킬 수 있다. 이 경우, 연결 영상의 첫 번째 프레임(즉, 제1 보간 이미지)은 대기 상태 영상과 유사하나 연결 영상의 마지막 프레임(즉, 제5 보간 이미지)으로 갈수록 점점 발화 준비 영상과 유사하게 된다. 여기서, 발화 준비 영상의 마지막 프레임은 발화 상태 영상의 첫 번째 프레임과 연속적이게 마련되는 바, 연결 영상에서 발화 상태 영상이 자연스럽게 연결될 수 있게 된다.
도 5는 본 발명이 일 실시예에서 영상 재생 모듈이 각 영상을 재생하는 과정을 개략적으로 나타낸 도면이다. 도 5를 참조하면, 영상 재생 모듈(108)은 대기 상태 영상을 재생하다가(①), 발화 상태 영상의 생성이 완료되면 보간 이미지 셋들을 기반하여 생성된 연결 영상을 재생시키고(②), 그 이후 발화 상태 영상을 재생시킨다(③). 이 경우, 대기 상태 영상과 발화 상태 영상이 연결 영상을 통해 자연스럽게 이어지게 된다.
개시되는 실시예에 의하면, 대기 상태 영상의 각 시구간 별로 보간 이미지 셋을 미리 마련하고, 발화 이벤트 발생 시 대기 상태 영상과 발화 상태 영상 사이에 보간 이미지 셋에 기반하여 연결 영상을 재생함으로써, 인공 지능 기반의 대화 관련 서비스를 실시간으로 제공할 수 있게 된다.
또한, 보간 이미지 셋 중 발화 준비 영상의 첫 번째 프레임에서 마지막 프레임으로 갈수록 발화 준비 영상과 점점 유사한 보간 이미지를 추출하여 연결 영상의 프레임으로 사용함으로써, 대기 상태 영상에서 발화 상태 영상으로 자연스럽게 연결될 수 있게 된다.
본 명세서에서 모듈이라 함은, 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 "모듈"은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아니다.
도 6은 본 발명의 일 실시예에 따른 발화 영상 제공 시스템의 구성을 나타낸 도면이다.
도 6을 참조하면, 발화 영상 제공 시스템(200)은 발화 영상 제공 장치(201), 서버(203), 및 상대방 단말(205)을 포함할 수 있다. 발화 영상 제공 장치(201)는 통신 네트워크(250)를 통해 서버(203) 및 상대방 단말(205)과 통신 가능하게 연결될 수 있다.
몇몇 실시예들에서, 통신 네트워크(250)는 인터넷, 하나 이상의 로컬 영역 네트워크(local area networks), 광역 네트워크(wide area networks), 셀룰러 네트워크, 모바일 네트워크, 그 밖에 다른 종류의 네트워크들, 또는 이러한 네트워크들의 조합을 포함할 수 있다.
발화 영상 제공 장치(201)는 대기 상태 영상 생성 모듈(211), 보간 이미지 생성 모듈(213), 및 영상 재생 모듈(215)을 포함할 수 있다. 여기서, 대기 상태 영상 생성 모듈(211) 및 보간 이미지 생성 모듈(213)은 도 1에 도시된 대기 상태 영상 생성 모듈(102) 및 보간 이미지 생성 모듈(104)과 동일하므로 이에 대한 자세한 설명은 생략하기로 한다.
영상 재생 모듈(215)은 발화 내용의 소스가 입력되는 경우, 발화 내용의 소스를 서버(203)로 전송할 수 있다. 서버(203)는 발화 내용의 소스에 기반하여 발화 상태 영상을 생성할 수 있다. 즉, 서버(203)는 발화 상태 영상 생성 모듈(221)을 포함할 수 있다. 예시적인 실시예에서, 서버(203)는 머신 러닝 기술에 기반하여 발화 내용의 소스로부터 발화 상태 영상(즉, 음성 파트 및 영상 파트)를 생성할 수 있다. 서버(203)는 생성한 발화 상태 영상을 영상 재생 모듈(215)로 송신할 수 있다.
영상 재생 모듈(215)은 대기 상태 영상을 재생하여 상대방 단말(205)로 제공할 수 있다. 영상 재생 모듈(215)은 대기 상태 영상을 재생하는 중에 서버(203)로부터 기 설정된 시간 분량의 발화 상태 영상을 수신하는 경우, 보간 이미지 셋에 기반하여 연결 영상을 재생시킨 후 발화 상태 영상을 재생하여 상대방 단말(205)로 제공할 수 있다.
도 7은 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.
도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 발화 영상 제공 장치(100)일 수 있다.
컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.
통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.
컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.
이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
100 : 발화 영상 제공 장치
102 : 대기 상태 영상 생성 모듈
104 : 보간 이미지 생성 모듈
106 : 발화 상태 영상 생성 모듈
108 : 영상 재생 모듈
200 : 발화 영상 제공 시스템
201 : 발화 영상 제공 장치
203 : 서버
205 : 상대방 단말
211 : 대기 상태 영상 생성 모듈
213 : 보간 이미지 생성 모듈
215 : 영상 재생 모듈
221 : 발화 상태 영상 생성 모듈

Claims (11)

  1. 하나 이상의 프로세서들, 및
    상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치로서,
    영상 내 인물이 대기 상태에 있는 대기 상태 영상을 생성하는 대기 상태 영상 생성 모듈;
    상기 대기 상태 영상과 기 저장된 발화 준비 영상 간의 보간을 위한 보간 이미지 셋을 생성하는 보간 이미지 생성 모듈; 및
    발화 상태 영상이 생성되는 경우, 상기 보간 이미지 셋에 기반하여 상기 대기 상태 영상과 상기 발화 상태 영상을 연결하는 연결 영상을 생성하는 영상 재생 모듈을 포함하고,
    상기 보간 이미지 생성 모듈은, 상기 대기 상태 영상의 시구간에 포함된 각 프레임과 상기 발화 준비 영상의 대응 프레임 간의 보간을 위한 보간 이미지 셋을 각각 생성하고,
    상기 보간 이미지 셋의 개수가 n(n은 자연수)개이고 각 보간 이미지 셋이 상기 대기 상태 영상의 각 프레임과 상기 발화 준비 영상의 대응 프레임 간의 보간을 위한 n개의 보간 이미지를 포함하는 경우, 상기 영상 재생 모듈은, 각 보간 이미지 셋에서 하나의 보간 이미지를 추출하여 상기 연결 영상을 생성하되, k(k=1에서 n까지)번째 보간 이미지 셋에서는 k번째 보간 이미지를 추출하여 상기 연결 영상을 생성하는, 컴퓨팅 장치.
  2. 청구항 1에 있어서,
    상기 발화 상태 영상의 첫 번째 프레임은, 상기 대기 상태 영상의 기 설정된 기준 프레임과 연속성이 있도록 마련되고,
    상기 발화 준비 영상의 마지막 프레임은, 상기 발화 상태 영상의 첫 번째 프레임과 연속성이 있도록 마련되는, 컴퓨팅 장치.
  3. 청구항 2에 있어서,
    상기 보간 이미지 생성 모듈은,
    상기 대기 상태 영상의 기 설정된 시구간 단위로 상기 발화 준비 영상 간의 보간을 위한 보간 이미지 셋을 생성하며,
    상기 시구간 단위의 프레임 개수는, 상기 발화 준비 영상의 프레임 개수와 동일하게 설정되는, 컴퓨팅 장치.
  4. 청구항 3에 있어서,
    상기 각 보간 이미지 셋은, 상기 발화 준비 영상의 프레임 개수와 동일한 보간 이미지를 갖도록 마련되는, 컴퓨팅 장치.
  5. 삭제
  6. 삭제
  7. 삭제
  8. 청구항 1에 있어서,
    상기 영상 재생 모듈은,
    상기 대기 상태 영상을 재생하다가 상기 발화 상태 영상의 생성이 완료되면 상기 연결 영상을 재생시키고 상기 연결 영상 이후에 상기 발화 상태 영상을 재생시키는, 컴퓨팅 장치.
  9. 하나 이상의 프로세서들, 및
    상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치로서,
    영상 내 인물이 대기 상태에 있는 대기 상태 영상을 생성하는 대기 상태 영상 생성 모듈;
    상기 대기 상태 영상과 기 저장된 발화 준비 영상 간의 보간을 위한 보간 이미지 셋을 생성하는 보간 이미지 생성 모듈; 및
    발화 내용의 소스를 서버로 전송하고, 상기 서버로부터 영상 내 인물이 발화 상태에 있는 발화 상태 영상을 수신하며, 상기 보간 이미지 셋에 기반하여 상기 대기 상태 영상과 상기 발화 상태 영상을 연결하는 연결 영상을 생성하는 영상 재생 모듈을 포함하고,
    상기 보간 이미지 생성 모듈은, 상기 대기 상태 영상의 시구간에 포함된 각 프레임과 상기 발화 준비 영상의 대응 프레임 간의 보간을 위한 보간 이미지 셋을 각각 생성하고,
    상기 보간 이미지 셋의 개수가 n(n은 자연수)개이고 각 보간 이미지 셋이 상기 대기 상태 영상의 각 프레임과 상기 발화 준비 영상의 대응 프레임 간의 보간을 위한 n개의 보간 이미지를 포함하는 경우, 상기 영상 재생 모듈은, 각 보간 이미지 셋에서 하나의 보간 이미지를 추출하여 상기 연결 영상을 생성하되, k(k=1에서 n까지)번째 보간 이미지 셋에서는 k번째 보간 이미지를 추출하여 상기 연결 영상을 생성하는, 컴퓨팅 장치.
  10. 하나 이상의 프로세서들, 및
    상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서,
    영상 내 인물이 대기 상태에 있는 대기 상태 영상을 생성하는 동작;
    상기 대기 상태 영상과 기 저장된 발화 준비 영상 간의 보간을 위한 보간 이미지 셋을 생성하는 동작; 및
    발화 상태 영상이 생성되는 경우, 상기 보간 이미지 셋에 기반하여 상기 대기 상태 영상과 상기 발화 상태 영상을 연결하는 연결 영상을 생성하는 동작을 포함하고,
    상기 보간 이미지 셋을 생성하는 동작은, 상기 대기 상태 영상의 시구간에 포함된 각 프레임과 상기 발화 준비 영상의 대응 프레임 간의 보간을 위한 보간 이미지 셋을 각각 생성하고,
    상기 보간 이미지 셋의 개수가 n(n은 자연수)개이고 각 보간 이미지 셋이 상기 대기 상태 영상의 각 프레임과 상기 발화 준비 영상의 대응 프레임 간의 보간을 위한 n개의 보간 이미지를 포함하는 경우, 상기 연결 영상을 생성하는 동작은, 각 보간 이미지 셋에서 하나의 보간 이미지를 추출하여 상기 연결 영상을 생성하되, k(k=1에서 n까지)번째 보간 이미지 셋에서는 k번째 보간 이미지를 추출하여 상기 연결 영상을 생성하는, 발화 영상 제공 방법.
  11. 하나 이상의 프로세서들, 및
    상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서,
    영상 내 인물이 대기 상태에 있는 대기 상태 영상을 생성하는 동작;
    상기 대기 상태 영상과 기 저장된 발화 준비 영상 간의 보간을 위한 보간 이미지 셋을 생성하는 동작;
    발화 내용의 소스를 서버로 전송하는 동작;
    상기 서버로부터 영상 내 인물이 발화 상태에 있는 발화 상태 영상을 수신하는 동작; 및
    상기 보간 이미지 셋에 기반하여 상기 대기 상태 영상과 상기 발화 상태 영상을 연결하는 연결 영상을 생성하는 동작을 포함하고,
    상기 보간 이미지 셋을 생성하는 동작은, 상기 대기 상태 영상의 시구간에 포함된 각 프레임과 상기 발화 준비 영상의 대응 프레임 간의 보간을 위한 보간 이미지 셋을 각각 생성하고,
    상기 보간 이미지 셋의 개수가 n(n은 자연수)개이고 각 보간 이미지 셋이 상기 대기 상태 영상의 각 프레임과 상기 발화 준비 영상의 대응 프레임 간의 보간을 위한 n개의 보간 이미지를 포함하는 경우, 상기 연결 영상을 생성하는 동작은, 각 보간 이미지 셋에서 하나의 보간 이미지를 추출하여 상기 연결 영상을 생성하되, k(k=1에서 n까지)번째 보간 이미지 셋에서는 k번째 보간 이미지를 추출하여 상기 연결 영상을 생성하는, 발화 영상 제공 방법.
KR1020210083147A 2021-06-25 2021-06-25 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치 KR102509106B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020210083147A KR102509106B1 (ko) 2021-06-25 2021-06-25 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치
US17/764,718 US20240046540A1 (en) 2021-06-25 2021-07-09 Speech image providing method and computing device for performing the same
PCT/KR2021/008825 WO2022270669A1 (ko) 2021-06-25 2021-07-09 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210083147A KR102509106B1 (ko) 2021-06-25 2021-06-25 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치

Publications (2)

Publication Number Publication Date
KR20230000702A KR20230000702A (ko) 2023-01-03
KR102509106B1 true KR102509106B1 (ko) 2023-03-10

Family

ID=84544481

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210083147A KR102509106B1 (ko) 2021-06-25 2021-06-25 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치

Country Status (3)

Country Link
US (1) US20240046540A1 (ko)
KR (1) KR102509106B1 (ko)
WO (1) WO2022270669A1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017094527A1 (ja) * 2015-12-04 2017-06-08 日本電産株式会社 動画生成システムおよび動画表示システム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100300962B1 (ko) * 1998-07-24 2001-10-27 윤종용 음성합성을위한립싱크방법및그장치
KR20080019842A (ko) * 2006-08-29 2008-03-05 김용일 유명 인사의 동영상 메시지 제공 시스템 및 방법
JP2019096114A (ja) * 2017-11-24 2019-06-20 学校法人早稲田大学 口唇アニメーション生成装置及び口唇アニメーション生成方法
KR101925440B1 (ko) 2018-04-23 2018-12-05 이정도 가상현실 기반 대화형 인공지능을 이용한 화상 대화 서비스 제공 방법
KR102346755B1 (ko) * 2019-06-21 2022-01-03 주식회사 딥브레인에이아이 음성 신호를 이용한 발화 동영상 생성 방법 및 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017094527A1 (ja) * 2015-12-04 2017-06-08 日本電産株式会社 動画生成システムおよび動画表示システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Amir Jamaludin et al., ‘You Said That?: Synthesising Talking Faces from Audio’, International Journal of Computer Vision, 127, pp.1767~1779, 2019.*
유석호 외 2명, ‘디지털기반 3D 게임캐릭터애니메니션 제작에 있어서 모션캡쳐 활용에 관한 연구’, 한국콘텐츠학회논문지, Vol.5, No.5, 2005.*

Also Published As

Publication number Publication date
US20240046540A1 (en) 2024-02-08
KR20230000702A (ko) 2023-01-03
WO2022270669A1 (ko) 2022-12-29

Similar Documents

Publication Publication Date Title
JP2023553101A (ja) ライブストリーミングインタラクション方法、装置、デバイス及び媒体
JP7391913B2 (ja) 代替インタフェースでのプレゼンテーションのための電子会話の解析
US10938725B2 (en) Load balancing multimedia conferencing system, device, and methods
US10991380B2 (en) Generating visual closed caption for sign language
US10217466B2 (en) Voice data compensation with machine learning
CN107294837A (zh) 采用虚拟机器人进行对话交互的方法和系统
KR102639526B1 (ko) 발화 영상 제공 방법
CN104735480A (zh) 移动终端与电视之间的信息发送方法及系统
JP2024513640A (ja) 仮想対象のアクション処理方法およびその装置、コンピュータプログラム
KR102509106B1 (ko) 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치
KR102546532B1 (ko) 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치
JP2023099309A (ja) アバターを通じて映像の音声を手話に通訳する方法、コンピュータ装置、およびコンピュータプログラム
WO2022215361A1 (ja) 情報処理装置及び情報処理方法
KR102510892B1 (ko) 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치
US20200184973A1 (en) Transcription of communications
CN113312928A (zh) 文本翻译方法、装置、电子设备和存储介质
US20240185877A1 (en) Method for providing speech video and computing device for executing the method
WO2024032111A9 (zh) 在线会议的数据处理方法、装置、设备、介质及产品
KR20240023963A (ko) 발화 비디오 제공 장치 및 방법
CN117198293B (zh) 数字人语音交互方法、装置、计算机设备和存储介质
JP7344612B1 (ja) プログラム、会話要約装置、および会話要約方法
KR20240023962A (ko) 발화 비디오 제공 장치 및 방법
CN112995568B (zh) 一种基于视频客服系统及构建方法

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant