KR20230020796A

KR20230020796A - 다수준 등장인물 주의집중을 통한 비디오 스토리 이해 방법 및 이를 수행하기 위한 컴퓨팅 장치

Info

Publication number: KR20230020796A
Application number: KR1020210102621A
Authority: KR
Inventors: 장병탁; 최성호; 온경운; 허유정; 장유원; 서아정; 이민수
Original assignee: 서울대학교산학협력단
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2023-02-13
Also published as: KR102675490B1; WO2023013813A1

Abstract

일 실시예에 따른 비디오 스토리 질의응답 방법은, 입력 스트림(비디오 입력, 대본, 질의응답 쌍)에 맥락을 임베딩한 후, 등장인물 중심으로 다수준으로 표현함으로써 다수준 맥락 임베딩을 획득하고, 이를 이용하여 맥락 매칭을 수행함으로써 다수준 맥락 벡터를 획득하고, 이를 이용하여 산출되는 점수에 기초하여 정답을 선택한다.

Description

다수준 등장인물 주의집중을 통한 비디오 스토리 이해 방법 및 이를 수행하기 위한 컴퓨팅 장치 {METHOD FOR UNDERSTANDING VIDEO STORY WITH MULTI-LEVEL CHARACTER ATTENTION, AND APPARATUS FOR PERFORMING THE SAME}

본 명세서에서 개시되는 실시예들은 다수준 등장인물 주의집중 기법을 이용하여 비디오 스토리를 이해하는 방법 및 이를 수행하기 위한 컴퓨팅 장치에 관한 것이다.

최근 비디오 스토리 모델링 분야는 시각 및 자연어 처리 연구를 융합하는 고난도의 분야로 새롭게 떠오르고 있다. 이러한 시각 및 자연어 처리의 융합된 영역을 다루는 대표적인 기술로서 Visual Question Answering (VQA) 기술이 있다. VQA 기술은 비디오에 내포된 의미나 줄거리에 대한 질의에 응답할 수 있도록 비디오에 포함된 데이터를 분석하고 그에 따라 질문에 대한 답변을 추론한다.

그러나 비디오 스토리 질의응답 문제는 단순한 이미지와는 차원이 다르게 많은 정보를 내포하는 비디오 자체의 특성과, 그 특성에서 오는 질의의 다양한 종류로 인한 문제 난이도의 증가로 인해, 해결하기 어려운 분야로 평가 받고 있다. 특히, 스토리가 연결되는 긴 길이의 비디오의 경우에는 원하는 정보를 얻어내기 힘든 한계가 있다.

한편, 전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.

본 명세서에서 개시되는 실시예들은, 비디오 스토리 질의응답을 수행하기 위한 모델을 제공함에 있어서, 비디오 스토리에 대한 이해도를 효과적으로 높일 수 있는 모델을 제공하고자 한다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 일 실시예에 따르면 비디오 스토리 질의응답을 수행하는 방법은, 비디오에 대한 시각적 메타데이터를 포함하는 시각적 입력, 상기 비디오의 대본(script) 및 상기 비디오의 스토리에 대한 질의응답 쌍(QA pair)을 각각 입력 스트림으로서 수신하는 단계, 상기 각각의 입력 스트림에 맥락을 임베딩함으로써, 각각의 입력 스트림에 대한 맥락 임베딩을 획득하는 단계, 상기 맥락 임베딩을, 등장인물을 중심으로 다수준(multi-level)으로 표현함으로써, 상기 시각적 입력 및 상기 대본 각각에 대해서 저수준(low-level) 맥락 임베딩 및 고수준(high-level) 맥락 임베딩을 획득하는 단계, 상기 질의응답 쌍에 대한 맥락 임베딩과, 상기 획득한 저수준 맥락 임베딩 및 고수준 맥락 임베딩을 이용하여 맥락 매칭(context matching)을 수행함으로써, 상기 시각적 입력 및 상기 대본 각각에 대해서 저수준 맥락 벡터 및 고수준 맥락 벡터를 획득하는 단계, 상기 저수준 맥락 임베딩 및 상기 고수준 맥락 임베딩, 그리고 상기 저수준 맥락 벡터 및 상기 고수준 맥락 벡터를 이용하여 상기 질의응답 쌍에 포함된 질문에 대한 정답을 선택하기 위한 점수를 산출하는 단계 및 상기 산출된 점수에 기초하여 정답을 선택하는 단계를 포함할 수 있다.

다른 실시예에 따르면, 비디오 스토리 질의응답 방법을 수행하기 위한 컴퓨터 프로그램으로서, 비디오 스토리 질의응답 방법은, 비디오에 대한 시각적 메타데이터를 포함하는 시각적 입력, 상기 비디오의 대본(script) 및 상기 비디오의 스토리에 대한 질의응답 쌍(QA pair)을 각각 입력 스트림으로서 수신하는 단계, 상기 각각의 입력 스트림에 맥락을 임베딩함으로써, 각각의 입력 스트림에 대한 맥락 임베딩을 획득하는 단계, 상기 맥락 임베딩을, 등장인물을 중심으로 다수준(multi-level)으로 표현함으로써, 상기 시각적 입력 및 상기 대본 각각에 대해서 저수준(low-level) 맥락 임베딩 및 고수준(high-level) 맥락 임베딩을 획득하는 단계, 상기 질의응답 쌍에 대한 맥락 임베딩과, 상기 획득한 저수준 맥락 임베딩 및 고수준 맥락 임베딩을 이용하여 맥락 매칭(context matching)을 수행함으로써, 상기 시각적 입력 및 상기 대본 각각에 대해서 저수준 맥락 벡터 및 고수준 맥락 벡터를 획득하는 단계, 상기 저수준 맥락 임베딩 및 상기 고수준 맥락 임베딩, 그리고 상기 저수준 맥락 벡터 및 상기 고수준 맥락 벡터를 이용하여 상기 질의응답 쌍에 포함된 질문에 대한 정답을 선택하기 위한 점수를 산출하는 단계 및 상기 산출된 점수에 기초하여 정답을 선택하는 단계를 포함할 수 있다.

또 다른 실시예에 따르면, 비디오 스토리 질의응답 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체로서, 비디오 스토리 질의응답 방법은, 비디오에 대한 시각적 메타데이터를 포함하는 시각적 입력, 상기 비디오의 대본(script) 및 상기 비디오의 스토리에 대한 질의응답 쌍(QA pair)을 각각 입력 스트림으로서 수신하는 단계, 상기 각각의 입력 스트림에 맥락을 임베딩함으로써, 각각의 입력 스트림에 대한 맥락 임베딩을 획득하는 단계, 상기 맥락 임베딩을, 등장인물을 중심으로 다수준(multi-level)으로 표현함으로써, 상기 시각적 입력 및 상기 대본 각각에 대해서 저수준(low-level) 맥락 임베딩 및 고수준(high-level) 맥락 임베딩을 획득하는 단계, 상기 질의응답 쌍에 대한 맥락 임베딩과, 상기 획득한 저수준 맥락 임베딩 및 고수준 맥락 임베딩을 이용하여 맥락 매칭(context matching)을 수행함으로써, 상기 시각적 입력 및 상기 대본 각각에 대해서 저수준 맥락 벡터 및 고수준 맥락 벡터를 획득하는 단계, 상기 저수준 맥락 임베딩 및 상기 고수준 맥락 임베딩, 그리고 상기 저수준 맥락 벡터 및 상기 고수준 맥락 벡터를 이용하여 상기 질의응답 쌍에 포함된 질문에 대한 정답을 선택하기 위한 점수를 산출하는 단계 및 상기 산출된 점수에 기초하여 정답을 선택하는 단계를 포함할 수 있다.

다른 실시예에 따르면, 비디오 스토리 질의응답을 수행하기 위한 컴퓨팅 장치는, 비디오에 대한 시각적 메타데이터를 포함하는 시각적 입력, 상기 비디오의 대본(script) 및 상기 비디오의 스토리에 대한 질의응답 쌍(QA pair)을 각각 입력 스트림으로서 수신하기 위한 입출력부, 비디오 스토리 질의응답을 수행하기 위한 프로그램 및 데이터가 저장되는 저장부 및 적어도 하나의 프로세서를 포함하며, 상기 저장된 프로그램을 실행함으로써 비디오 스토리 질의응답을 수행하는 제어부를 포함하며, 상기 제어부는 상기 프로그램을 실행함으로써, 상기 각각의 입력 스트림에 맥락을 임베딩함으로써, 각각의 입력 스트림에 대한 맥락 임베딩을 획득하고, 상기 맥락 임베딩을, 등장인물을 중심으로 다수준(multi-level)으로 표현함으로써, 상기 시각적 입력 및 상기 대본 각각에 대해서 저수준(low-level) 맥락 임베딩 및 고수준(high-level) 맥락 임베딩을 획득하고, 상기 질의응답 쌍에 대한 맥락 임베딩과, 상기 획득한 저수준 맥락 임베딩 및 고수준 맥락 임베딩을 이용하여 맥락 매칭(context matching)을 수행함으로써, 상기 시각적 입력 및 상기 대본 각각에 대해서 저수준 맥락 벡터 및 고수준 맥락 벡터를 획득하고, 상기 저수준 맥락 임베딩 및 상기 고수준 맥락 임베딩, 그리고 상기 저수준 맥락 벡터 및 상기 고수준 맥락 벡터를 이용하여 상기 질의응답 쌍에 포함된 질문에 대한 정답을 선택하기 위한 점수를 산출하고, 상기 산출된 점수에 기초하여 정답을 선택할 수 있다.

전술한 과제 해결 수단 중 어느 하나에 의하면, 등장인물을 중심으로 다수준(multi-level)으로 스토리를 표현함으로써 비디오 스토리의 이해도를 높일 수 있는 효과가 있다.

개시되는 실시예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 개시되는 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 일 실시예에 따른 비디오 스토리 질의응답 방법을 수행하기 위한 모델의 구조를 도시한 도면이다.
도 2는 일 실시예에 따른 비디오 스토리 질의응답을 수행하기 위한 컴퓨팅 장치의 구성을 도시한 도면이다.
도 3 내지 도 5는 실시예들에 따른 비디오 스토리 질의응답 방법을 설명하기 위한 순서도들이다.

아래에서는 첨부한 도면을 참조하여 다양한 실시예들을 상세히 설명한다. 아래에서 설명되는 실시예들은 여러 가지 상이한 형태로 변형되어 실시될 수도 있다. 실시예들의 특징을 보다 명확히 설명하기 위하여, 이하의 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 널리 알려져 있는 사항들에 관해서 자세한 설명은 생략하였다. 그리고, 도면에서 실시예들의 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 구성이 다른 구성과 "연결"되어 있다고 할 때, 이는 '직접적으로 연결'되어 있는 경우뿐 아니라, '그 중간에 다른 구성을 사이에 두고 연결'되어 있는 경우도 포함한다. 또한, 어떤 구성이 어떤 구성을 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한, 그 외 다른 구성을 제외하는 것이 아니라 다른 구성들을 더 포함할 수도 있음을 의미한다.

본 명세서에서 설명되는 실시예들은 비디오 스토리에 대한 질의응답을 수행하기 위한 방법 및 이를 수행하기 위한 컴퓨팅 장치에 관한 것이다.

이하에서는 먼저 비디오 스토리 질의응답을 수행하기 위한 컴퓨팅 장치의 구성에 대해서 간단히 설명하고, 이어서 컴퓨팅 장치가 비디오 스토리 질의응답을 수행하는 프로세스에 대해서 자세히 설명한다.

도 1은 일 실시예에 따른 비디오 스토리 질의응답 방법을 수행하기 위한 모델(이하, '질의응답 모델')의 구조를 도시한 도면이다. 도 1에 도시된 질의응답 모델(100)은 후술할 도 2에 도시된 컴퓨팅 장치에 의해 구현될 수 있다. 도 1의 질의응답 모델(100)이 수행하는 동작들에 대해서는 도 2에 대한 설명 후 이어서 설명한다.

도 2는 일 실시예에 따른 비디오 스토리 질의응답을 수행하기 위한 컴퓨팅 장치의 구성을 도시한 도면이다. 도 2를 참조하면, 일 실시예에 따른 컴퓨팅 장치(200)는 입출력부(210), 제어부(220) 및 저장부(230)를 포함할 수 있다.

입출력부(210)는 비디오 데이터 및 질문 데이터를 입력받고, 비디오 스토리 질의응답 결과를 출력하기 위한 구성이다. 입출력부(210)는 사용자로부터 입력을 수신하기 위한 다양한 종류의 입력장치(e.g. 키보드, 터치스크린 등)를 포함할 수 있으며, 또한 비디오 스토리 질의응답의 수행에 필요한 데이터를 송수신하기 위한 연결 포트나 통신 모듈을 포함할 수도 있다.

제어부(220)는 CPU 등과 같은 적어도 하나의 프로세서를 포함하는 구성으로서, 저장부(230)에 저장된 프로그램을 실행함으로써 이하에서 제시되는 프로세스에 따라 비디오 스토리 질의응답을 수행한다. 다시 말해, 제어부(220)가 저장부(230)에 저장된 프로그램을 실행함으로써 도 1에 도시된 질의응답 모델(100)이 구현되고, 제어부(220)는 이를 통해 비디오 스토리 질의응답을 수행한다. 제어부(220)가 질의응답 모델(100)을 이용하여 비디오 스토리 질의응답을 수행하는 방법에 대해서는 아래에서 자세히 설명한다.

저장부(230)는 파일 및 프로그램이 저장될 수 있는 구성으로서 다양한 종류의 메모리를 통해 구성될 수 있다. 특히, 저장부(230)에는 제어부(220)가 이하에서 제시되는 프로세스에 따라 비디오 스토리 질의응답을 수행할 수 있도록 하는 데이터 및 프로그램이 저장될 수 있다.

이하에서는 제어부(220)가 저장부(230)에 저장된 프로그램을 실행시킴으로써 질의응답 모델(100)을 구현하고, 이를 이용하여 비디오 질의응답을 수행하는 과정에 대해서 자세히 설명한다. 아래에서 설명되는 프로세스들은 특별히 다른 언급이 없는 한 제어부(220)가 저장부(230)에 저장된 프로그램을 실행시킴으로써 수행하는 것이다.

일 실시예에 따른 비디오 스토리 질의응답을 수행하는 과정은 1. 입력 스트림으로부터 맥락 임베딩(context embedding)을 획득하는 단계, 2. 등장인물을 중심으로 다수준(multi-level)으로 스토리를 표현하는 단계, 3. 맥락 매칭(context matching)을 수행하는 단계 및 4. 정답을 선택하는 단계로 구성될 수 있다. 각각의 단계에 대해서는 아래에서 도 1 및 2를 참조하여 자세히 설명한다. 앞서 설명한 바와 같이 도 1의 질의응답 모델(100)은 도 2의 제어부(220)가 저장부(230)에 저장된 프로그램을 실행함으로써 구현되는 것이므로, 이하에서 질의응답 모델(100)에 포함된 각 구성이 수행하는 것으로 설명되는 동작들은, 실질적으로는 제어부(220)에 의해 실행되는 것으로 볼 수 있다.

1. 입력 스트림으로부터 맥락 임베딩을 획득

컴퓨팅 장치(200)는 입출력부(210)를 통해 3가지 입력 스트림을 수신한다. 3가지 입력 스트림은 각각 다음과 같다.

(1) 시각적 메타데이터(등장인물을 포함하는 바운딩박스 , 등장인물의 행동 및 감정에 대한 정보)를 포함하는 비디오 (이하, '시각적 입력') (도 1의 식별번호 11)

비디오 프레임들의 모든 시각적 메타데이터를 순서대로 이어 붙여서 만든 시계열 데이터가 입력 스트림이 되며, 이는 다음의 수학식 1과 같이 표현될 수 있다. 행동 및 감정은 단어 임베딩으로 변환되어 각각의 바운딩박스 특징벡터에 이어 붙여진다.

이때,

는 하나의 비디오 클립(clip)에 포함된 샷(shot)의 개수이고,

는 하나의 샷마다 포함된 프레임의 개수이며,

는 각각의 바운딩 박스의 특징 차원(feature dimension)이다.

(2) 비디오의 대본(script) (도 1의 식별번호 13)

대본에 포함된 모든 단어들을 이어 붙여서 만든 시계열 데이터가 입력 스트림이 되며, 이는 다음의 수학식 2와 같이 표현될 수 있다.

이때,

는 문장들의 개수이고,

는 문장당 단어의 최대 숫자이고,

는 단어 임베딩 차원(word embedding dimension)을 의미한다.

(3) 비디오 스토리에 대한 질의응답 쌍( QA pair) ( 다지선다의 질의응답 쌍) (도 1의 식별번호 12)

다지선다의 질문에 대해서, 각각의 응답후보에 질문을 이어 붙인 것이 입력 스트림이 되며, 이는 다음의 수학식 3과 같이 표현될 수 있다.

이때, 이때,

및

은 각 문장의 길이이고,

는 단어 임베딩 차원을 의미한다.

질의응답 모델(100)에 포함된 맥락 임베딩 모듈들(contextual embedding modules)(110v, 110s, 110qa)은 각각의 입력 스트림(11, 12, 13)에 시간의 흐름에 따른 맥락(temporal context)을 임베딩함으로써 맥락 임베딩(contextual embedding)을 획득할 수 있다.

자세하게는, 맥락 임베딩 모듈들(110v, 110s, 110qa)은 등장인물의 이름에 대한 일관성을 유지하기 위해 '대본의 화자(speaker)'와 '바운딩박스에 포함된 등장인물의 이름'을 사용하고, 이러한 등장인물의 이름에 대한 정보를 모두 원핫 벡터(one-hot vector)로 변환하여 각각의 입력 스트림에 연결한다.

이어서, 맥락 임베딩 모듈들(110v, 110s, 110qa)은 각각의 입력 스트림을 양방향 LSTM에 넣어 맥락 흐름을 가지는 시계열 시퀀스로 바꾸는데, 이것이 '맥락 임베딩(contextual embedding)'이 되며, 3가지 입력 스트림에 대한 맥락 임베딩은 다음의 수학식 4 내지 6과 같다.

2. 등장인물을 중심으로 다수준(multi-level)으로 스토리를 표현

등장인물 중심의 다수준 표현 모듈(character-guided multi-level representation module)(130)은 시각적 입력(11)에 대한 맥락 임베딩

로부터 저수준 맥락 임베딩(low-level contextual embedding)

와 고수준 맥락 임베딩(high-level contextual embedding)

를 획득하고, 대본(13)에 대한 맥락 임베딩

로부터 저수준 맥락 임베딩

와 고수준 맥락 임베딩

를 획득한다.

저수준 맥락 임베딩을 획득하는 방법에 대해서 먼저 살펴보면, 다수준 표현 모듈(130)은

및

를 각각 2-D 행렬로 변환함으로써 다음의 수학식 7 및 8로 표현되는 저수준 맥락 임베딩을 획득할 수 있다.

위와 같이 생성된 저수준 맥락 임베딩으로부터 고수준 맥락 임베딩을 생성하기 위해서는 등장인물 쿼리(character query)

를 필요로 하는데, 이는 등장인물 쿼리 생성 모듈(120)에 의해 생성될 수 있다.

등장인물 쿼리 생성 모듈(120)은, 각 등장인물의 특성 등과 같은 비디오 클립 전체에 대한 배경지식에 기초하여, 각 등장인물에 대한 벡터를

으로 표현한다. 이때, d는 각 등장인물 표현의 차원이며, 일 실시예에 따르면 d는 각각의 맥락 임베딩(contextual embedding)의 차원과 동일하다.

등장인물 쿼리 생성 모듈(120)은 각 질문에 포함된 등장인물과, i번째 응답후보 쌍(i-th answer candidate pair)을 이용하여 등장인물 쿼리

를 얻을 수 있다.

등장인물 쿼리 생성 모듈(120)은 등장인물 쿼리

를 사용하고 주의집중 메커니즘(attention mechanism)을 적용함으로써, 저수준 맥락 임베딩

및

으로부터 각각의 입력 스트림에 대한 등장인물 중심의 고수준 스토리 표현(character-guided high-level story representation)인

및

를 획득할 수 있고, 이것이 고수준 맥락 임베딩이 된다. 이를 수학식으로 표현하면 다음의 수학식 9 및 10과 같다.

와

는 각각 대본에서 문장 수준의 임베딩(sentence-level embedding)과 시각적 입력에서 샷(shot) 수준의 임베딩(shot-level embedding)을 표현한다.

이때, '샷'이란 비디오의 길이에 따른 분류 기준으로, 카메라 앵글이 바뀌기 전의 연속된 비디오의 길이를 말하며 일반적으로 수 초 정도의 길이를 가진다. 관련하여, '씬(scene)'은 장소나 시간의 변화가 이루어지기 전의 비디오의 길이를 말하며 일반적으로 수 분 정도의 길이를 가진다.

3. 맥락 매칭(context matching)의 수행

맥락 매칭 모듈들(140vl, 140vh, 140sl, 140sh)은 질의응답 쌍에 포함되는 질문 및 응답을 쿼리로 사용함으로써 각각의 입력 시퀀스를 쿼리가 반영된 맥락(query-aware context)으로 변환한다. 그 결과, 맥락 매칭 모듈들(140vl, 140vh, 140sl, 140sh)은 시각적 입력(11) 및 대본(13) 각각에 대해서 다수준으로 맥락 벡터(context vector)를 획득한다. 그리고, 맥락 벡터들은 각각의 쿼리 타임스텝(query timestep)과 그에 대응되는 맥락 벡터 간 유사도 점수(similarity score)에 기초하여 쿼리 시퀀스들의 가중치 합으로 업데이트된다. 다수준 맥락 벡터들은 다음의 수학식 11 내지 14와 같이 표현될 수 있다.

4. 정답 선택

정답 선택 모듈들(150vl, 150vh, 150sl, 150sh)은 저수준 맥락 임베딩 및 고수준 맥락 임베딩, 그리고 저수준 맥락 벡터 및 고수준 맥락 벡터를 이용하여 상기 질의응답 쌍(12)에 포함된 질문에 대한 정답을 선택하기 위한 점수를 산출할 수 있다.

예를 들어, 정답 선택 모듈(150sl, 150sh)은 대본(13)에 대한 저수준 및 고수준 임베딩 각각에 대해서

,

및

를 이어 붙이고, 이진 플래그 f도 이어 붙임으로써 다음의 수학식 15 및 16으로 표현되는 응답후보별 저수준 출력 점수(24) 및 고수준 출력 점수(23)를 구할 수 있다.

이때,

는 행렬의 원소별 곱을 뜻하며, f는 질의응답 쌍에 대본의 화자 또는 시각적 메타데이터의 등장인물 이름이 나타날 때 참(true) 값을 갖는 이진 플래그이다.

유사하게 정답 선택 모듈(150vl, 150vh)은 시각적 입력(11)에 대해서 다음의 수학식 17 및 18과 같이 응답후보별 저수준 출력 점수(21) 및 고수준 출력 점수(22)를 구할 수 있다.

정답 선택 모듈들(150vl, 150vh, 150sl, 150sh)은 각 스트림

,

및

에 대해 다양한 커널 크기로 1차원 합성곱 필터(1-D convolution filter)를 적용하고, 각 필터로부터 나온 결과를 연결한다. 정답 선택 모듈들(150vl, 150vh, 150sl, 150sh)은 모든 시간에 대해 맥스-풀(max-pool)을 적용하고, 선형 레이어를 적용함으로써, i번째 응답후보(i-th candidate answer)에 대해서 스칼라 점수(scalar score)를 계산할 수 있다.

최종 출력 점수는 서로 다른 4개의 출력 점수의 합이고, 질의응답 모델(100)은 최종 출력 점수가 가장 큰 응답후보를 질문에 대한 응답으로 선택할 수 있다.

이하에서는 상술한 바와 같은 컴퓨팅 장치(200)를 이용하여 비디오 스토리 질의응답을 수행하는 방법을 설명한다. 도 3 내지 도 5는 일 실시예에 따른 비디오 스토리 질의응답 방법을 설명하기 위한 순서도들이다.

도 3 내지 도 5에 도시된 실시예들에 따른 비디오 스토리 질의응답 방법은 도 2에 도시된 컴퓨팅 장치(200)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하에서 생략된 내용이라고 하더라도 도 2의 컴퓨팅 장치(200)에 관하여 이상에서 기술한 내용은 도 3 내지 도 5에 도시된 실시예들에 따른 비디오 스토리 질의응답 방법에도 적용될 수 있다.

도 3을 참고하면, 301 단계에서 컴퓨팅 장치(200)의 입출력부(210)는 비디오에 대한 시각적 메타데이터를 포함하는 시각적 입력, 비디오의 대본(script) 및 비디오의 스토리에 대한 질의응답 쌍(QA pair)을 각각 입력 스트림으로서 수신한다.

302 단계에서 제어부(220)는 각각의 입력 스트림에 맥락을 임베딩함으로써, 각각의 입력 스트림에 대한 맥락 임베딩을 획득한다. 302 단계에 포함되는 세부단계들을 도 4에 도시하였다.

도 4를 참고하면, 401 단계에서 제어부(220)는 대본의 화자(speaker)의 이름과, 시각적 메타데이터에 포함된 바운딩 박스(bounding box)에 포함된 등장인물의 이름에 대한 정보를 원핫 벡터(one-hot vector)로 변환한다.

402 단계에서 제어부(220)는 원핫 벡터를 각각의 입력 스트림에 연결한다.

403 단계에서 제어부(220)는 원핫 벡터가 연결된 각각의 입력 스트림을 양방향 LSTM에 통과시킴으로써 맥락 임베딩을 획득한다.

다시 도 3으로 돌아와서, 303 단계에서 제어부(220)는 맥락 임베딩 스트림을, 등장인물을 중심으로 다수준(multi-level)으로 표현함으로써, 시각적 입력 및 대본 각각에 대해서 저수준(low-level) 맥락 임베딩 및 고수준(high-level) 맥락 임베딩을 획득한다. 303 단계에 포함되는 세부단계들을 도 5에 도시하였다.

도 5를 참고하면, 501 단계에서 제어부(220)는 시각적 입력 및 대본 각각에 대해서, 맥락 임베딩으로부터 저수준 맥락 임베딩(low-level contextual embedding)을 획득한다.

502 단계에서 제어부(220)는 질의응답 쌍에 포함된 각 질문에 포함된 등장인물과, i번째 응답후보 쌍(i-th answer candidate pair)을 이용하여 등장인물 쿼리(character query)를 생성한다.

503 단계에서 제어부(220)는 등장인물 쿼리를 사용하고 주의집중 메커니즘(attention mechanism)을 적용함으로써, 저수준 맥락 임베딩으로부터 등장인물 중심의 고수준 스토리 표현(character-guided high-level story representation)인 고수준 맥락 임베딩을 획득한다.

다시 도 3으로 돌아와서, 304 단계에서 제어부(220)는 질의응답 쌍에 대한 맥락 임베딩과, 저수준 맥락 임베딩 및 고수준 맥락 임베딩을 이용하여 맥락 매칭(context matching)을 수행함으로써, 시각적 입력 및 대본 각각에 대해서 저수준 맥락 벡터 및 고수준 맥락 벡터를 획득한다.

305 단계에서 제어부(220)는 저수준 맥락 임베딩 및 고수준 맥락 임베딩, 그리고 저수준 맥락 벡터 및 고수준 맥락 벡터를 이용하여 상기 질의응답 쌍에 포함된 질문에 대한 정답을 선택하기 위한 점수를 산출한다.

306 단계에서 제어부(220)는 산출된 점수에 기초하여 정답을 선택한다.

이상 살펴본 실시예들에 따르면, 등장인물을 중심으로 다수준(multi-level)으로 스토리를 표현함으로써 비디오 스토리의 이해도를 높일 수 있는 효과를 기대할 수 있다.

이상의 실시예들에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field programmable gate array) 또는 ASIC 와 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램특허 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다.

구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로부터 분리될 수 있다.

뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU 들을 재생시키도록 구현될 수도 있다.

도 3 내지 도 5를 통해 설명된 실시예들에 따른 비디오 스토리 질의응답 방법은 컴퓨터에 의해 실행 가능한 명령어 및 데이터를 저장하는, 컴퓨터로 판독 가능한 매체의 형태로도 구현될 수 있다. 이때, 명령어 및 데이터는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 소정의 프로그램 모듈을 생성하여 소정의 동작을 수행할 수 있다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터 기록 매체일 수 있는데, 컴퓨터 기록 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 예를 들어, 컴퓨터 기록 매체는 HDD 및 SSD 등과 같은 마그네틱 저장 매체, CD, DVD 및 블루레이 디스크 등과 같은 광학적 기록 매체, 또는 네트워크를 통해 접근 가능한 서버에 포함되는 메모리일 수 있다.

또한 도 3 내지 도 5를 통해 설명된 실시예들에 따른 비디오 스토리 질의응답 방법은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 컴퓨터 프로그램(또는 컴퓨터 프로그램 제품)으로 구현될 수도 있다. 컴퓨터 프로그램은 프로세서에 의해 처리되는 프로그래밍 가능한 기계 명령어를 포함하고, 고레벨 프로그래밍 언어(High-level Programming Language), 객체 지향 프로그래밍 언어(Object-oriented Programming Language), 어셈블리 언어 또는 기계 언어 등으로 구현될 수 있다. 또한 컴퓨터 프로그램은 유형의 컴퓨터 판독가능 기록매체(예를 들어, 메모리, 하드디스크, 자기/광학 매체 또는 SSD(Solid-State Drive) 등)에 기록될 수 있다.

따라서 도 3 내지 도 5를 통해 설명된 실시예들에 따른 비디오 스토리 질의응답 방법은 상술한 바와 같은 컴퓨터 프로그램이 컴퓨팅 장치에 의해 실행됨으로써 구현될 수 있다. 컴퓨팅 장치는 프로세서와, 메모리와, 저장 장치와, 메모리 및 고속 확장포트에 접속하고 있는 고속 인터페이스와, 저속 버스와 저장 장치에 접속하고 있는 저속 인터페이스 중 적어도 일부를 포함할 수 있다. 이러한 성분들 각각은 다양한 버스를 이용하여 서로 접속되어 있으며, 공통 머더보드에 탑재되거나 다른 적절한 방식으로 장착될 수 있다.

여기서 프로세서는 컴퓨팅 장치 내에서 명령어를 처리할 수 있는데, 이런 명령어로는, 예컨대 고속 인터페이스에 접속된 디스플레이처럼 외부 입력, 출력 장치상에 GUI(Graphic User Interface)를 제공하기 위한 그래픽 정보를 표시하기 위해 메모리나 저장 장치에 저장된 명령어를 들 수 있다. 다른 실시예로서, 다수의 프로세서 및(또는) 다수의 버스가 적절히 다수의 메모리 및 메모리 형태와 함께 이용될 수 있다. 또한 프로세서는 독립적인 다수의 아날로그 및(또는) 디지털 프로세서를 포함하는 칩들이 이루는 칩셋으로 구현될 수 있다.

또한 메모리는 컴퓨팅 장치 내에서 정보를 저장한다. 일례로, 메모리는 휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 다른 예로, 메모리는 비휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 또한 메모리는 예컨대, 자기 혹은 광 디스크와 같이 다른 형태의 컴퓨터 판독 가능한 매체일 수도 있다.

그리고 저장장치는 컴퓨팅 장치에게 대용량의 저장공간을 제공할 수 있다. 저장 장치는 컴퓨터 판독 가능한 매체이거나 이런 매체를 포함하는 구성일 수 있으며, 예를 들어 SAN(Storage Area Network) 내의 장치들이나 다른 구성도 포함할 수 있고, 플로피 디스크 장치, 하드 디스크 장치, 광 디스크 장치, 혹은 테이프 장치, 플래시 메모리, 그와 유사한 다른 반도체 메모리 장치 혹은 장치 어레이일 수 있다.

상술된 실시예들은 예시를 위한 것이며, 상술된 실시예들이 속하는 기술분야의 통상의 지식을 가진 자는 상술된 실시예들이 갖는 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 상술된 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 명세서를 통해 보호 받고자 하는 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태를 포함하는 것으로 해석되어야 한다.

100: 질의응답 모델
200: 컴퓨팅 장치 210: 입출력부
220: 제어부 230: 저장부

Claims

비디오 스토리 질의응답을 수행하는 방법에 있어서,
비디오에 대한 시각적 메타데이터를 포함하는 시각적 입력, 상기 비디오의 대본(script) 및 상기 비디오의 스토리에 대한 질의응답 쌍(QA pair)을 각각 입력 스트림으로서 수신하는 단계;
상기 각각의 입력 스트림에 맥락을 임베딩함으로써, 각각의 입력 스트림에 대한 맥락 임베딩을 획득하는 단계;
상기 맥락 임베딩을, 등장인물을 중심으로 다수준(multi-level)으로 표현함으로써, 상기 시각적 입력 및 상기 대본 각각에 대해서 저수준(low-level) 맥락 임베딩 및 고수준(high-level) 맥락 임베딩을 획득하는 단계;
상기 질의응답 쌍에 대한 맥락 임베딩과, 상기 획득한 저수준 맥락 임베딩 및 고수준 맥락 임베딩을 이용하여 맥락 매칭(context matching)을 수행함으로써, 상기 시각적 입력 및 상기 대본 각각에 대해서 저수준 맥락 벡터 및 고수준 맥락 벡터를 획득하는 단계;
상기 저수준 맥락 임베딩 및 상기 고수준 맥락 임베딩, 그리고 상기 저수준 맥락 벡터 및 상기 고수준 맥락 벡터를 이용하여 상기 질의응답 쌍에 포함된 질문에 대한 정답을 선택하기 위한 점수를 산출하는 단계; 및
상기 산출된 점수에 기초하여 정답을 선택하는 단계를 포함하는, 방법.
제1항에 있어서,
상기 각각의 입력 스트림에 대한 맥락 임베딩을 획득하는 단계는,
상기 대본의 화자(speaker)의 이름과, 상기 시각적 메타데이터에 포함된 바운딩 박스(bounding box)에 포함된 등장인물의 이름에 대한 정보를 원핫 벡터(one-hot vector)로 변환하는 단계;
상기 원핫 벡터를 상기 각각의 입력 스트림에 연결하는 단계; 및
상기 원핫 벡터가 연결된 각각의 입력 스트림을 양방향 LSTM에 통과시킴으로써 상기 맥락 임베딩을 획득하는 단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 저수준 맥락 임베딩 및 고수준 맥락 임베딩을 획득하는 단계는,
상기 시각적 입력 및 상기 대본 각각에 대해서, 상기 맥락 임베딩으로부터 저수준 맥락 임베딩(low-level contextual embedding)을 획득하는 단계;
상기 질의응답 쌍에 포함된 각 질문에 포함된 등장인물과, i번째 응답후보 쌍(i-th answer candidate pair)을 이용하여 등장인물 쿼리(character query)를 생성하는 단계; 및
상기 등장인물 쿼리를 사용하고 주의집중 메커니즘(attention mechanism)을 적용함으로써, 상기 저수준 맥락 임베딩으로부터 등장인물 중심의 고수준 스토리 표현(character-guided high-level story representation)인 고수준 맥락 임베딩을 획득하는 단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 저수준 맥락 벡터 및 고수준 맥락 벡터를 획득하는 단계는,
상기 질의응답 쌍에 포함된 질문 및 응답을 쿼리로 사용함으로써, 상기 저수준 맥락 임베딩 및 상기 고수준 맥락 임베딩 각각을 쿼리가 반영된 맥락(query-aware context)으로 변환하는 방식으로 상기 맥락 매칭을 수행하여 상기 저수준 맥락 벡터 및 고수준 맥락 벡터를 획득하는 것을 특징으로 하는 방법.
제1항에 있어서,
컴퓨터에 제1항에 기재된 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
컴퓨팅 장치에 의해 수행되며, 제1항에 기재된 방법을 수행하기 위해 기록 매체에 저장된 컴퓨터 프로그램.
비디오 스토리 질의응답을 수행하기 컴퓨팅 장치에 있어서,
비디오에 대한 시각적 메타데이터를 포함하는 시각적 입력, 상기 비디오의 대본(script) 및 상기 비디오의 스토리에 대한 질의응답 쌍(QA pair)을 각각 입력 스트림으로서 수신하기 위한 입출력부;
비디오 스토리 질의응답을 수행하기 위한 프로그램 및 데이터가 저장되는 저장부; 및
적어도 하나의 프로세서를 포함하며, 상기 저장된 프로그램을 실행함으로써 비디오 스토리 질의응답을 수행하는 제어부를 포함하며,
상기 제어부는 상기 프로그램을 실행함으로써,
상기 각각의 입력 스트림에 맥락을 임베딩함으로써, 각각의 입력 스트림에 대한 맥락 임베딩을 획득하고, 상기 맥락 임베딩을, 등장인물을 중심으로 다수준(multi-level)으로 표현함으로써, 상기 시각적 입력 및 상기 대본 각각에 대해서 저수준(low-level) 맥락 임베딩 및 고수준(high-level) 맥락 임베딩을 획득하고, 상기 질의응답 쌍에 대한 맥락 임베딩과, 상기 획득한 저수준 맥락 임베딩 및 고수준 맥락 임베딩을 이용하여 맥락 매칭(context matching)을 수행함으로써, 상기 시각적 입력 및 상기 대본 각각에 대해서 저수준 맥락 벡터 및 고수준 맥락 벡터를 획득하고, 상기 저수준 맥락 임베딩 및 상기 고수준 맥락 임베딩, 그리고 상기 저수준 맥락 벡터 및 상기 고수준 맥락 벡터를 이용하여 상기 질의응답 쌍에 포함된 질문에 대한 정답을 선택하기 위한 점수를 산출하고, 상기 산출된 점수에 기초하여 정답을 선택하는, 컴퓨팅 장치.
제7항에 있어서,
상기 제어부는 상기 각각의 입력 스트림에 대한 맥락 임베딩을 획득함에 있어서,
상기 대본의 화자(speaker)의 이름과, 상기 시각적 메타데이터에 포함된 바운딩 박스(bounding box)에 포함된 등장인물의 이름에 대한 정보를 원핫 벡터(one-hot vector)로 변환하고, 상기 원핫 벡터를 상기 각각의 입력 스트림에 연결한 후, 상기 원핫 벡터가 연결된 각각의 입력 스트림을 양방향 LSTM에 통과시킴으로써 상기 맥락 임베딩을 획득하는 것을 특징으로 하는 컴퓨팅 장치.
제7항에 있어서,
상기 제어부는 상기 저수준 맥락 임베딩 및 고수준 맥락 임베딩을 획득함에 있어서,
상기 시각적 입력 및 상기 대본 각각에 대해서 상기 맥락 임베딩으로부터 저수준 맥락 임베딩(low-level contextual embedding)을 획득하고, 상기 질의응답 쌍에 포함된 각 질문에 포함된 등장인물과 i번째 응답후보 쌍(i-th answer candidate pair)을 이용하여 등장인물 쿼리(character query)를 생성하고, 상기 등장인물 쿼리를 사용하고 주의집중 메커니즘(attention mechanism)을 적용함으로써 상기 저수준 맥락 임베딩으로부터 등장인물 중심의 고수준 스토리 표현(character-guided high-level story representation)인 고수준 맥락 임베딩을 획득하는 것을 특징으로 하는 컴퓨팅 장치.
제7항에 있어서,
상기 제어부는 상기 저수준 맥락 벡터 및 고수준 맥락 벡터를 획득함에 있어서,
상기 질의응답 쌍에 포함된 질문 및 응답을 쿼리로 사용함으로써, 상기 저수준 맥락 임베딩 및 상기 고수준 맥락 임베딩 각각을 쿼리가 반영된 맥락(query-aware context)으로 변환하는 방식으로 상기 맥락 매칭을 수행하여 상기 저수준 맥락 벡터 및 고수준 맥락 벡터를 획득하는 것을 특징으로 하는 컴퓨팅 장치.