KR102413960B1

KR102413960B1 - 질의 응답 장치 및 방법

Info

Publication number: KR102413960B1
Application number: KR1020200131339A
Authority: KR
Inventors: 장병탁; 최성호; 온경운; 허유정; 장유원; 서아정; 이승찬; 이민수
Original assignee: 서울대학교산학협력단
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2022-06-27
Also published as: US20220350826A1; KR20220048319A; WO2022080567A1; JP7394118B2; JP2023502801A

Abstract

질의 응답 방법 및 이를 수행하기 위한 질의 응답 장치를 제시하며, 본 명세서에 기재된 일 실시예에 따르면 질의 응답 방법은, 질의 응답 장치에서 수행되는 질의 응답 방법에 있어서, 비디오 콘텐츠 및 질의응답 쌍을 포함하는 데이터 세트를 입력받는 단계, 상기 입력된 데이터 세트 중 상기 비디오 콘텐츠로부터 입력 시계열 시퀀스를 생성하고, 상기 입력된 데이터 세트 중 상기 질의응답 쌍으로부터 질의응답 시계열 시퀀스를 생성하는 전처리 단계, 상기 입력 시계열 시퀀스와 상기 질의응답 시퀀스를 연관시켜 가중치를 계산하고, 상기 계산된 가중치와 상기 입력 시계열 시퀀스와 연산하여 제1결과 값을 산출하는 단계, 상기 입력 시계열 시퀀스 중 질의응답에서 등장하는 인물에 직접적으로 연관되는 부분에 주의집중하여 제2결과 값을 산출하는 단계, 상기 시계열 시퀀스, 상기 제1결과 값, 상기 제2결과 값 및 부울플래그를 연결하여 제3결과 값을 산출하고, 상기 제3결과 값에 기초하여 최종 답안을 선택하는 단계를 포함할 수 있다.

Description

질의 응답 장치 및 방법{APPARTUS AND METHOD FOR PERFORMING QUESTION AND ANSWER}

본 명세서에서 개시되는 실시예들은 계층적 비디오 스토리 모델링과 이를 이용하여 비디오를 대상으로 하는 질의에 응답하는 질의 응답 장치 및 방법에 대한 것이다.

최근 비디오 스토리 모델링 분야는 시각 및 자연어 처리 연구를 융합하는 고난도의 분야로 새롭게 떠오르고 있다. 이러한 시각 및 자연어 처리의 융합된 영역을 다루는 대표적인 기술로서 Visual Question Answering(VQA)기술이 있다. VQA기술은 비디오에 내포된 의미나 줄거리에 대한 질의에 응답할 수 있도록 비디오에 포함된 데이터를 분석하고 그에 따라 질문에 대한 답변을 추론한다.

그러나 비디오 스토리 질의응답 문제는 단순한 이미지와는 차원이 다르게 많은 정보를 내포하는 비디오 자체의 특성과, 그 특성에서 오는 질의의 다양한 종류로 인한 문제 난이도의 증가로 인해, 해결하기 어려운 분야로 평가 받고 있다.

그에 따라 데이터 세트의 수집이 어려울 뿐 아니라, 현재 선행되어 있는 비디오 스토리 질의응답 데이터 세트는 여러 한계점을 가지고 있다.

또한 종래의 비디오 질의응답 모델들은 자막과 영상의 이미지 프레임 정보만을 사용했기 때문에, 자막이나 영상에서 추론되지 않는 등장인물의 목소리에 담긴 화자나 감정에 대한 정보를 이용하기 어렵다는 문제가 있었다.

관련하여 선행기술문헌인 한국공개특허 제2017-0043582호에는 ‘다중 언어 이미지 질의 응답’에 대해 개시되어있다. 이러한 선행기술문헌에서는 다중 언어의 질의에 대해 다중 언어로 응답 가능한 이미지 질의 응답 방법이 기재되어 있다. 그러나 이러한 종래기술은 단편적으로 캡셔닝 된 이미지 데이터 세트에 기초하여 질의 응답이 가능하도록 훈련되는 학습 모델에 대한 것으로서, 다수의 이미지 프레임과 자막, 오디오로 구성되는 비디오에 기반한 질의 응답 기술의 문제점이나 개선방향에 대해서는 제시하는 바가 없다.

따라서 비디오 질의응답의 난이도를 개선함과 동시에, 화자나 감정을 구분하여 질의에 대한 적절한 응답을 추론을 수행할 수 있는 방법이 요구된다.

한편, 전술한 배경기술은 발명자가 본 발명의 도출을 위해 보유하고 있었거나, 본 발명의 도출 과정에서 습득한 기술 정보로서, 반드시 본 발명의 출원 전에 일반 공중에게 공개된 공지기술이라 할 수는 없다.

본 명세서에서 개시되는 실시예들은, 비디오가 내재하는 스토리를 등장인물 중심으로 모델링하여 비디오 스토리 관련 질의응답을 효과적으로 해결하기 위한, 질의 응답 방법 및 이를 수행하기 위한 질의 응답 장치를 제공하고자 한다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서 일 실시예에 따르면, 질의 응답 방법은, 질의 응답 장치에서 수행되는 질의 응답 방법에 있어서, 비디오 콘텐츠 및 질의응답 쌍을 포함하는 데이터 세트를 입력받는 단계, 상기 입력된 데이터 세트 중 상기 비디오 콘텐츠로부터 입력 시계열 시퀀스를 생성하고, 상기 입력된 데이터 세트 중 상기 질의응답 쌍으로부터 질의응답 시계열 시퀀스를 생성하는 전처리 단계, 상기 입력 시계열 시퀀스와 상기 질의응답 시퀀스를 연관시켜 가중치를 계산하고, 상기 계산된 가중치와 상기 입력 시계열 시퀀스와 연산하여 제1결과 값을 산출하는 단계, 상기 입력 시계열 시퀀스 중 질의응답에서 등장하는 인물에 직접적으로 연관되는 부분에 주의집중하여 제2결과 값을 산출하는 단계, 상기 시계열 시퀀스, 상기 제1결과 값, 상기 제2결과 값 및 부울플래그를 연결하여 제3결과 값을 산출하고, 상기 제3결과 값에 기초하여 최종 답안을 선택하는 단계를 포함할 수 있다.

다른 실시예에 따르면, 질의 응답 장치는, 질의 응답 장치에 있어서, 질의 응답을 수행하는 프로그램이 저장되는 저장부, 적어도 하나의 프로세서를 포함하는 제어부를 포함하며, 상기 제어부는 상기 프로그램을 실행시킴으로써 비디오 콘텐츠 및 질의응답 쌍을 포함하는 데이터 세트를 입력받으면 상기 입력된 데이터 세트 중 상기 비디오 콘텐츠로부터 입력 시계열 시퀀스를 생성하고, 상기 입력된 데이터 세트 중 상기 질의응답 쌍으로부터 질의응답 시계열 시퀀스를 생성하며, 상기 입력 시계열 시퀀스와 상기 질의응답 시퀀스를 연관시켜 가중치를 계산하고, 상기 계산된 가중치와 상기 입력 시계열 시퀀스와 연산하여 제1결과 값을 산출하며, 상기 입력 시계열 시퀀스 중 질의응답에 등장하는 인물에 직접적으로 연관되는 부분에 주의집중하여 제2결과 값을 산출하며, 상기 입력 시계열 시퀀스, 상기 제1결과 값, 상기 제2결과 값 및 부울플래그를 연결하여 제3결과 값을 산출하고, 상기 제3결과 값에 기초하여 최종 답안을 선택할 수 있다.

다른 실시예에 따르면, 컴퓨터에 질의 응답 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체로서, 질의 응답 장치에서 수행되는 질의 응답 방법에 있어서, 비디오 콘텐츠 및 질의응답 쌍을 포함하는 데이터 세트를 입력받는 단계, 상기 입력된 데이터 세트 중 상기 비디오 콘텐츠로부터 입력 시계열 시퀀스를 생성하고, 상기 입력된 데이터 세트 중 상기 질의응답 쌍으로부터 질의응답 시계열 시퀀스를 생성하는 전처리 단계, 상기 입력 시계열 시퀀스와 상기 질의응답 시퀀스를 연관시켜 가중치를 계산하고, 상기 계산된 가중치와 상기 입력 시계열 시퀀스와 연산하여 제1결과 값을 산출하는 단계, 상기 입력 시계열 시퀀스 중 질의응답에서 등장하는 인물에 직접적으로 연관되는 부분에 주의집중하여 제2결과 값을 산출하는 단계, 상기 시계열 시퀀스, 상기 제1결과 값, 상기 제2결과 값 및 부울플래그를 연결하여 제3결과 값을 산출하고, 상기 제3결과 값에 기초하여 최종 답안을 선택하는 단계를 포함할 수 있다.

다른 실시에에 다르면, 질의 응답 장치에 의해 수행되며, 질의 응답 방법을 수행하기 위해 기록매체에 저장된 컴퓨터프로그램으로서, 질의 응답 장치에서 수행되는 질의 응답 방법에 있어서, 비디오 콘텐츠 및 질의응답 쌍을 포함하는 데이터 세트를 입력받는 단계, 상기 입력된 데이터 세트 중 상기 비디오 콘텐츠로부터 입력 시계열 시퀀스를 생성하고, 상기 입력된 데이터 세트 중 상기 질의응답 쌍으로부터 질의응답 시계열 시퀀스를 생성하는 전처리 단계, 상기 입력 시계열 시퀀스와 상기 질의응답 시퀀스를 연관시켜 가중치를 계산하고, 상기 계산된 가중치와 상기 입력 시계열 시퀀스와 연산하여 제1결과 값을 산출하는 단계, 상기 입력 시계열 시퀀스 중 질의응답에서 등장하는 인물에 직접적으로 연관되는 부분에 주의집중하여 제2결과 값을 산출하는 단계, 상기 시계열 시퀀스, 상기 제1결과 값, 상기 제2결과 값 및 부울플래그를 연결하여 제3결과 값을 산출하고, 상기 제3결과 값에 기초하여 최종 답안을 선택하는 단계를 포함할 수 있다.

전술한 과제 해결 수단 중 어느 하나에 의하면, 질의 응답 장치는 계층적 난이도를 가진 평가방법과 등장인물 중심의 비디오 주석을 가지는 데이터세트를 통하여 비디오 스토리의 포괄적 이해를 수행할 수 있다.

또한, 질의 응답 장치는 컨텍스트 매칭 모듈(Context Matching Module)과 캐릭터 매칭 모듈(Character Matching Module)을 활용하여 등장인물 중심의 스토리 이해를 기반으로 정답을 추론하는 듀얼 매칭 멀티스트림 모델(Dual Matching Multistream Model)을 통하여 등장인물 중심의 표현을 효과적으로 학습할 수 있다.

개시되는 실시예들에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 개시되는 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 일 실시예에 따라 비디오에 대한 질의에 대하여 최적의 응답을 산출하기 위해 구성된 듀얼 매칭 멀티스트림 모델 및 듀얼 매칭 멀티스트림 모델에서의 데이터의 흐름을 도시한 도면이다.
도 2는 일 실시예에 따른 비디오에 대한 질의에 대하여 최적의 응답을 산출하기 위한 장치의 구성을 도시한 도면이다.
도 3은 일 실시예에 따른 질의 응답 장치에서 사용하는 데이터 세트의 일례를 도시한 도면이다.
도 4 및 도 5는 일 실시예에 따른 질의 응답 장치에 의해 수행되는 질의 응답 방법을 단계적으로 도시한 도면이다.

아래에서는 첨부한 도면을 참조하여 다양한 실시예들을 상세히 설명한다. 아래에서 설명되는 실시예들은 여러 가지 상이한 형태로 변형되어 실시될 수도 있다. 실시예들의 특징을 보다 명확히 설명하기 위하여, 이하의 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자에게 널리 알려져 있는 사항들에 관해서 자세한 설명은 생략하였다. 그리고, 도면에서 실시예들의 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 구성이 다른 구성과 "연결"되어 있다고 할 때, 이는 '직접적으로 연결'되어 있는 경우뿐 아니라, '그 중간에 다른 구성을 사이에 두고 연결'되어 있는 경우도 포함한다. 또한, 어떤 구성이 어떤 구성을 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한, 그 외 다른 구성을 제외하는 것이 아니라 다른 구성들을 더 포함할 수도 있음을 의미한다.

또한, 명세서에 기재된 "…부", "…모듈" 의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

도 1은 일 실시예에 따라 비디오에 대한 질의에 대하여 최적의 응답을 산출하기 위해 구성된 듀얼 매칭 멀티스트림 모델(100) 및 듀얼 매칭 멀티스트림 모델(100)에서의 데이터의 흐름을 도시한 도면이고, 도 2는 일 실시예에 따른 비디오에 대한 질의에 대하여 최적의 응답을 산출하기 위한 장치의 구성을 도시한 도면이다.

우선 도 2에 도시된 장치의 구성들에 대해서 설명하고, 이어서 도 2의 장치가 도 1의 듀얼 매칭 멀티스트림 모델(100)을 구성하고 이를 이용하여 비디오에 대한 질의에 대하여 최적의 응답을 산출하는 방법에 대해서 설명한다.

도 2를 참조하면, 일 실시예에 따른 질의 응답 장치(200)는 저장부(210), 입출력부(220), 제어부(230), 그리고 통신부(240)를 포함할 수 있다.

저장부(210)는 질의응답에 필요한 각종 데이터나 프로그램들을 저장할 수 있다. 저장부(210)는 비디오에 대한 질의 응답의 학습 과정에 필요한 데이터 세트를 저장할 수 있다.

또한, 저장부(210)는 비디오에 대한 질의응답을 학습하고, 그에 따라 질의에 대한 응답을 수행할 수 있도록 하는 프로그램과, 학습 및 질의응답에 이용되는 각각의 모델이나 신경망에 연관된 데이터들을 적어도 일시적으로 보유하거나 갱신할 수 있다.

한편 입출력부(220)는 데이터나 사용자 명령을 수신하고, 사용자의 입력에 따라 데이터를 연산하고 처리한 결과를 출력하는 구성이다. 일 실시예에 따르면 입출력부(220)는 키보드나 마우스, 터치패널 등의 사용자 입력수단과, 모니터나 스피커 등의 출력수단을 포함할 수 있다.

그리고 제어부(230)는 CPU 등과 같은 적어도 하나의 프로세서를 포함하는 구성으로서, 질의 응답 장치(200)의 전반적인 동작과 구성을 제어할 수 있다. 특히, 제어부(230)는 저장부(210)에 저장된 프로그램을 실행하거나 데이터를 읽어 비디오 스토리 모델링을 수행하고 그에 따라 질의에 대한 적절한 응답을 선택할 수 있다.

특히 제어부(230)는 비디오의 이미지 프레임과 스크립트, 감정 및 행동 데이터를 각각 분석하여 비디오 스토리를 모델링한다. 제어부(230)가 비디오 스토리를 모델링하고 그에 따라 질의 응답을 수행하는 구체적인 과정은 추후 더욱 구체적으로 설명한다.

한편 통신부(240)는 질의 응답 장치(200)가 다른 장치와 데이터를 교환하도록 하는 구성이다. 통신부(240)는 제어부(230)가 분석할 비디오 데이터 세트를 수신하거나, 제어부(230)가 비디오 데이터 세트를 분석하거나 이를 이용하여 비디오 스토리를 모델링하는 과정에서 필요한 신경망과 관련된 데이터를 수신하여 제공할 수도 있다. 나아가 통신부(240)는 타 단말과 통신하여 제어부(230)로 타 단말에서 수신한 질의를 전달하거나 제어부(230)는 제어부(230)가 연산하여 선택된 응답을 타 단말로 제공할 수도 있다.

이하에서는 질의 응답 장치(200)가 수행되는 질의 응답 과정을 구체적으로 설명한다. 다만 이에 앞서 우선 듀얼 매칭 멀티스트림 모델(100)에 이용하는 데이터 세트에 대해 설명한다. 도 3은 일 실시예에 따른 질의 응답 장치에서 사용하는 데이터 세트의 일례를 도시한 도면이다.

우선 비디오 데이터 세트는 도 3에 도시된 바와 같이 비디오 데이터 세트(300)는 질의응답 쌍 데이터(307)와 비디오로부터 나오는 세 종류의 비디오 콘텐츠 데이터(301,303,305)를 포함할 수 있다. 이때 세 종류의 비디오 콘텐츠 데이터는 발화자가 표시된 스크립트 데이터(301), 행동 및 감정에 대한 시각적 메타데이터(303), 바운딩박스 데이터(305)로 구성된다.

질의응답 쌍 데이터(307)에는 질문 데이터와 질문에 대한 복수의 선택지 데이터가 포함될 수 있다. 발화자가 표시된 스크립트 데이터(301)는 비디오의 대사에서 대명사가 가리키는 대상이 주요 등장인물에 해당하면 그 인물이 누구인지에 대한 정보를 제공한다. 시각 메타데이터(303)는 주요 등장인물에 대한 행동, 감정을 포함하며, 비디오에 존재하는 모든 프레임에 인물의 행동 및 감정을 나타내는 주석이 존재한다. 행동 및 감정의 종류는 미리 정의될 수 있다. 바운딩박스(305)는 등장인물의 얼굴 부분을 포함하거나, 몸 전체를 포함하여 표시하는 것으로, 이미지 분석을 통해 등장인물 식별 시 이용될 수 있다. 바운딩박스(305)는 얼굴 부분 및 몸 전체 부분을 포함하는 두 종류가 존재한다.

이하에서는 제어부(230)가 비디오에 대한 질의에 대하여 최적의 응답을 산출하기 위한 과정을 도 1을 참고하여 설명한다.

도 1을 참조하면, 듀얼 매칭 멀티스트림 모델(100)은 전처리부(10), 컨텍스트 매칭 모듈(20), 캐릭터 매칭 모듈(30), 정답선택부(40)로 이루어짐을 알 수 있다.

제어부(230)는 저장부(210)에 저장된 프로그램을 실행하여 듀얼 매칭 멀티스트림 모델(100)을 구현하고, 이를 통하여 비디오에 대한 질의에 대한 최적의 응답을 산출한다.

1. 전처리 단계

전처리부(10)는 데이터 세트(300)를 입력 받으면, 전처리 과정을 통하여 입력 시계열 시퀀스 및 질의 응답 시계열 시퀀스를 생성한다. 구체적인 과정은 다음과 같다.

데이터 세트를 입력 받으면, 전처리부(10)는 데이터 세트에 포함된 데이터를 각각 순서대로 연결(Concatenation)하여 시계열 데이터를 생성한다. 일 실시예에 따르면, 데이터 세트는 오지선다의 질의응답 쌍, 비디오로부터 나오는 세 종류의 비디오 데이터(발화자가 표시된 스크립트, 시각적 메타데이터(행동 및 감정), 바운딩박스)로 구성될 수 있다.

전처리부(10)는 스크립트의 모든 단어들, 비디오 프레임들의 모든 행동 및 감정들, 비디오 프레임들의 인물 바운딩박스, 질의응답 쌍의 질문과 선택지를 각각 순서대로 연결(Concatenation)하여 시계열 데이터로 만든다. 이때, 비디오로부터 나오는 스크립트, 시각적 메타데이터(행동 및 감정), 바운딩박스 관련 시계열 데이터는 입력 시계열 데이터로 정의되며, 질의응답 쌍의 질문과 선택지 관련 시계열 데이터는 질의응답 시계열 데이터로 정의한다.

전처리부(10)는 시계열 데이터에서 단어 벡터 및 이미지 특징 벡터를 추출하고, 추출된 벡터에 시계열 데이터의 관련인물 정보를 원-핫 벡터로 연결(Concatenation)하여 관련인물이 포함된 특징 벡터를 생성한다. 이때 관련인물은 스크립트의 발화자, 행동 및 감정의 대상 인물, 바운딩박스의 대상 인물 등을 지칭한다. 일 실시예에 따르면, 전처리부(10)는 모든 시계열 데이터에 대해 단어들은 사전 학습된 Glove 모델로 단어벡터를 추출하고, 이미지는 사전 학습된 ResNet-18 모델로 이미지 특징벡터를 추출한다. 추출된 단어벡터나 이미지 특징벡터에 시계열 데이터의 관련인물에 대한 정보를 원-핫 벡터로 연결하여 관련인물이 포함된 특징 벡터를 생성한다.

전처리부(10)는 양방향 장단기메모리(bi-LSTM) 모델에 관련인물이 포함된 특징벡터를 입력하여, 문맥적 흐름을 가지는 시계열 시퀀스를 생성한다. 이때, 스크립트(S, Script)는

, 행동 및 감정에 대한 시각적 메타데이터(M, Metadate)은

, 바운딩박스(B, Bounding Box)는

형태로 나타낼 수 있고, 같은 방식으로 질문은

, 선택지는 각각

로 나타낼 수 있다. 이때 T는 각 시계열 데이터의 길이이며, h는 bi-LSTM의 은닉벡터의 차원수 이다. 이때, 비디오로부터 나오는 스크립트, 시각적 메타데이터(행동 및 감정), 시각 바운딩박스 관련 시계열 시퀀스는 입력 시계열 시퀀스로 정의되며, 질의응답 쌍의 질문과 선택지 관련 시계열 시퀀스는 질의응답 시계열 시퀀스로 정의한다.

2. 컨택스트 매칭 모듈(Context Matching Module)

컨텍스트 매칭 모듈(20)은 입력 시계열 시퀀스와 질의응답 시퀀스를 연관시켜 가중치를 계산하고, 계산된 가중치와 입력 시계열 시퀀스와 연산하여 제1결과 값을 산출한다.

일 실시예에 따르면, 컨텍스트 매칭 모듈(20)은 각각의 입력 시계열 시퀀스를 질의응답 시퀀스와 연관된 형태로 변환하여 제1결과 값(

) 을 산출한다.

입력 시계열 시퀀스 중 스크립트 시계열 시퀀스의 제1결과값은 아래와 같은 수식(1) 및 (2)에 의해 산출된다.

[수식 (1) 및 (2)]

이와 같은 방식으로,

도 산출할 수 있다.

3. 캐릭터 매칭 모듈(Character Matching Module)

캐릭터 매칭 모듈(30)은 입력 시계열 시퀀스에서 질의응답에서 나오는 인물에 직접적으로 연관되는 부분에 주의집중하여 제2결과 값을 산출한다.

일 실시예에 따르면, 캐릭터 매칭 모듈(30)은 각각의 입력 시계열 시퀀스에서 질의응답에서 나오는 인물에 직접적으로 연관되는 부분에 주의집중하여 제2결과 값(

)을 산출한다.

구체적으로, 캐릭터 매칭 모듈(30)은 닷-프로덕트 주의집중(Dot-product Attention)과 멀티-헤드 주의집중(Multi-Head Attention)을 이용하여 제2결과 값을 산출한다.

우선 캐릭터 매칭 모듈(30)은, 질의응답 쌍

에 등장하는 인물을 멀티-핫 벡터인

로 나타내고,

와 인물 별 특징을 나타내는 행렬

의 곱인 캐릭터 쿼리(

)를 산출한다. 캐릭터 쿼리(character query,

)는 질의응답 쌍에 나타나는 등장인물의 특징 값의 합과 동일하다. 캐릭터 쿼리, 수식 (3) 및 (4)를 이용하여 닷-프로덕트 주의집중 스코어(Dot-product attention score)를 계산한다.

[수식 (3) 및 (4)]

이때, q는 캐릭터 쿼리(

)이고, K는 각 입력 시계열 시퀀스(

,

)이다. 캐릭터 쿼리와 각 입력 시계열 시퀀스를 각각

차원 수의 은닉벡터 h에 투영하여

와

를 산출한다. 그런 다음

와

을 이용하여 닷-프로덕트 주의집중 스코어(Dot-product attention score)를 계산한다. 이때,

는 각 입력 시계열 시퀀스에 대한 i번째 투영 닷-프로덕트 주의집중 스코어이고,

와

는 i번째 가중치 행렬이다.

상술한 닷-프로덕트 주의집중을 수행 후, 멀티-헤드 주의집중하기 위하여 닷-프로덕트 주의집중 스코어를 확장하고 각 투영벡터에 곱하여 i번째 헤드를 계산한다. 이는 수식 (5)로 표현될 수 있다.

[수식 (5)]

이때, 1행렬은 원소가 모두 1이며, 차원수는

인 것을 의미하고, X는 벡터 외적 연산을 의미하고, ⊙는 행렬간 원소단위곱(element-wise multiplication)을 수행하는 연산을 의미하고,

는 i번째 투영 행렬이다.

2차원에서 모든 헤드를 연결(concatenation)하고, 입력 시계열 시퀀스와 동일한 차원을 갖게 투영을 수행한다. 이는 수식 (6)으로 표현될 수 있다.

[수식 (6)]

이때,

은 선형계층이고

로 표현된다.

멀티-헤드 주의집중의 결과는 입력 시계열 시퀀스의 차원과 동일하여, 입력과 출력을 합산할 수 있고, 이를 표준화(Normalization)하여 제3결과 값을 산출한다. 이는 수식 (7)로 표현될 수 있다.

[수식 (7)]

이때, H가

(스크립트),

(시각적 메타데이터(행동 및 감정)),

(바운딩박스)일 경우에 대응되는 제3결과 값은 각각

이다. 제2결과 값은 질의응답 쌍의 인물과 직접 관련된 스토리의 문맥적 흐름을 나타내는 값이다.

4. 정답선택 단계

정답선택부(40)는 각각의 비디오 데이터마다 입력 시계열 시퀀스, 제1결과 값, 제2결과 값 및 부울프래그를 연결(Concatenation)하여 제3결과 값을 산출하고, 산출된 제3결과 값에 기초하여 최종 답안을 선택한다. 이때, 부울플래그(

)는 시각 메타데이터의 대상 인물 또는 화자가 질의응답 쌍에 나타났을 때 참값(True)을 표시하는 것으로 정의된다. 일 실시예에 따르면, 스크립트 데이터의 경우, 정답선택부(40)는 전처리 결과인

, 컨텍스트 모듈의 결과인

와

, 캐릭터 매칭 모듈의 결과인

를 모두 연결(Concatenation)하여 스트립트 데이터에 대한 제3결과 값(

)을 산출한다. 이는 수식 (8)로 표현될 수 있다.

[수식 (8)]

같은 방식으로 시각적 메타데이터(행동 및 감정)에 대한 제3결과 값(

) 및 바운딩박스에 대한 제3결과 값(

)을 구할 수 있다.

따라서, 일 실시예에 따른 제3결과 값은

,

일 수 있다.

정답선택부(40)는 제3결과 값에 기초하여 최종 답안을 선택한다. 일 실시예에 따르면, 정답선택부(40)는 제3결과 값(

,

)에 서로 다른 Kernel 크기를 가진 여러 1-D Convolution 필터를 적용하여 Max-pooling을 거치고, 이를 Linear 층으로 각

에 대한 값

,

를 구하고, 이를 모두 더하여 가장 높은 값을 가지는 정답 후보를 최종 정답으로 선택한다.

도 4 및 도 5는 일 실시예에 따른 질의 응답 장치에 의해 수행되는 질의 응답 방법을 단계적으로 도시한 도면이다.

도면에 도시된 바와 같이 질의 응답 장치(200)는 비디오 스토리 모델링을 수행할 비디오 데이터 세트를 입력받는다(S410).

이때 데이터 세트는 질의응답 쌍과 비디오로부터 나오는 세 종류의 시계열 데이터를 포함할 수 있다. 이때 세 종류의 시계열데이터는 발화자가 표시된 스크립트 데이터, 시각적 메타데이터(행동 및 감정), 시각 바운딩박스 데이터로 구성된다.

질의 응답 장치(200)는 전처리 과정을 통하여 입력 시계열 시퀀스 및 질의 응답 시계열 시퀀스를 생성한다(S420). S420단계에서 전처리 과정을 수행하는 과정은 다시 S501단계 내지 S503단계로 구분될 수 있다.

S420단계에 대하여 도면5를 참조하여 자세하게 설명한다.

질의 응답 장치(200)는 데이터 세트에 포함된 데이터를 각각 순서대로 연결(Concatenation)한 시계열 데이터를 생성한다(S501). 일 실시예에 따르면, 데이터 세트는 오지선다의 질의응답 쌍, 비디오로부터 나오는 세 종류의 시계열 데이터(발화자가 표시된 스크립트, 시각적 메타데이터(행동 및 감정), 시각 바운딩박스)로 구성될 수 있다. 질의 응답 장치(200)는 스크립트의 모든 단어들, 비디오 프레임들의 모든 행동 및 감정들, 비디오 프레임들의 인물 바운딩박스, 질의응답 쌍의 질문과 선택지를 각각 순서대로 이어붙여서 시계열 데이터로 만든다. 이때, 비디오로부터 나오는 스크립트, 시각적 메타데이터(행동 및 감정), 시각 바운딩박스 관련 시계열 데이터는 입력 시계열 데이터로 정의되며, 질의응답 쌍의 질문과 선택지 관련 시계열 데이터는 질의응답 시계열 데이터로 정의한다.

질의 응답 장치(200)는 시계열 데이터에서 단어 벡터 및 이미지 특징 벡터를 추출하고, 추출된 벡터에 시계열 데이터의 매 시점 관련인물에 대한 정보를 원-핫 벡터로 연결(Concatenation)하여 관련인물이 포함된 특징 벡터를 생성한다(S502). 일 실시예에 따르면, 질의 응답 장치(10)는 모든 시계열 데이터에 대해 단어들은 사전 학습된 Glove 모델로 단어벡터를 추출하고, 이미지는 사전 학습된 ResNet-18 모델로 이미지 특징벡터를 추출한다. 질의 응답 장치(200)는 추출된 벡터에 각각의 입력 시계열 데이터 및 질의응답 시계열 데이터의 관련인물을 원-핫 벡터로 바꾸어 매 시점마다 연결(Concatenation)한다. 이때 관련인물은 스크립트의 발화자, 행동 및 감정의 대상 인물, 바운딩박스의 대상 인물 등을 지칭한다.

질의 응답 장치(200)는 양방향 장단기메모리(bi-LSTM) 모델에 관련인물이 포함된 특징벡터를 입력하여, 문맥적 흐름을 가지는 시계열 시퀀스를 생성한다(S503). 이때, 스크립트(S, Script)는

, 행동 및 감정(M, Metadate)은

, 바운딩박스(B, Bounding Box)는

형태로 나타낼 수 있고, 같은 방식으로 질문은

, 선택지는 각각

로 나타낼 수 있다. 이때 T는 각 시계열 데이터의 길이이며, h는 bi-LSTM의 은닉벡터의 차원수 이다.

질의 응답 장치(200)는 입력 시계열 시퀀스와 질의응답 시퀀스를 연관시켜 가중치를 계산하고, 계산된 가중치와 입력 시계열 시퀀스와 연산하여 제1결과 값을 산출한다(S430). S430단계는 컨텍스트 매칭 모듈이라 불리는 단계에 해당하며, 위의 수식(1) 및 (2)를 이용하여 시계열 시퀀스를 질의응답 시퀀스와 연관된 형태로 변환하여 제1결과 값(

)을 산출한다.

질의 응답 장치(200)는 입력 시계열 시퀀스에서 질의응답에서 나오는 인물에 직접적으로 연관되는 부분에 주의집중하여 제2결과 값을 산출한다(S440). S440단계는 캐릭터 매칭 모듈이라 불리는 단계에 해당하며, 수식(3) 내지 (7)을 이용하여 입력 시퀀스에서 질의응답에서 나오는 인물에 직접적으로 연관되는 부분에 주의집중하여 제2결과 값(

)을 산출한다.

질의 응답 장치(200)는 시계열 시퀀스, 제1결과 값, 제2결과 값 및 부울프래그를 연결(Concatenation)하여 제3결과 값을 산출한다(S450). 전처리 결과인

, 컨텍스트 매칭 모듈의 결과인

와

, 캐릭터 매칭 모듈의 결과인

를 모두 연결(Concatenation)하여 위의 수식(8)과 같이 제3결과 값(

,

)을 산출한다.

질의 응답 장치(200)는 제3결과 값에 기초하여 최종 답안을 선택한다(S460). 일 실시예에 따르면, 질의 응답 장치(10)는 제3결과 값에 서로 다른 Kernel 크기를 가진 여러 1-D Convolution 필터를 적용하여 Max-pooling을 거치고, 이를 Linear 층으로 각

에 대한 값

,

이상의 실시예들에서 사용되는 '~부'라는 용어는 소프트웨어 또는 FPGA(field programmable gate array) 또는 ASIC 와 같은 하드웨어 구성요소를 의미하며, '~부'는 어떤 역할들을 수행한다. 그렇지만 '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램특허 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들, 및 변수들을 포함한다.

구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로부터 분리될 수 있다.

뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU 들을 재생시키도록 구현될 수도 있다.

도 3 내지 도 5를 통해 설명된 실시예들에 따른 질의 응답 방법은 컴퓨터에 의해 실행 가능한 명령어 및 데이터를 저장하는, 컴퓨터로 판독 가능한 매체의 형태로도 구현될 수 있다. 이때, 명령어 및 데이터는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 소정의 프로그램 모듈을 생성하여 소정의 동작을 수행할 수 있다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터로 판독 가능한 매체는 컴퓨터 기록 매체일 수 있는데, 컴퓨터 기록 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함할 수 있다. 예를 들어, 컴퓨터 기록 매체는 HDD 및 SSD 등과 같은 마그네틱 저장 매체, CD, DVD 및 블루레이 디스크 등과 같은 광학적 기록 매체, 또는 네트워크를 통해 접근 가능한 서버에 포함되는 메모리일 수 있다.

또한 도 3 내지 도 5를 통해 설명된 실시예들에 따른 질의 응답 방법은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 컴퓨터 프로그램(또는 컴퓨터 프로그램 제품)으로 구현될 수도 있다. 컴퓨터 프로그램은 프로세서에 의해 처리되는 프로그래밍 가능한 기계 명령어를 포함하고, 고레벨 프로그래밍 언어(High-level Programming Language), 객체 지향 프로그래밍 언어(Object-oriented Programming Language), 어셈블리 언어 또는 기계 언어 등으로 구현될 수 있다. 또한 컴퓨터 프로그램은 유형의 컴퓨터 판독가능 기록매체(예를 들어, 메모리, 하드디스크, 자기/광학 매체 또는 SSD(Solid-State Drive) 등)에 기록될 수 있다.

따라서 도 3 내지 도 5를 통해 설명된 실시예들에 따른 질의 응답 방법은 상술한 바와 같은 컴퓨터 프로그램이 컴퓨팅 장치에 의해 실행됨으로써 구현될 수 있다. 컴퓨팅 장치는 프로세서와, 메모리와, 저장 장치와, 메모리 및 고속 확장포트에 접속하고 있는 고속 인터페이스와, 저속 버스와 저장 장치에 접속하고 있는 저속 인터페이스 중 적어도 일부를 포함할 수 있다. 이러한 성분들 각각은 다양한 버스를 이용하여 서로 접속되어 있으며, 공통 머더보드에 탑재되거나 다른 적절한 방식으로 장착될 수 있다.

여기서 프로세서는 컴퓨팅 장치 내에서 명령어를 처리할 수 있는데, 이런 명령어로는, 예컨대 고속 인터페이스에 접속된 디스플레이처럼 외부 입력, 출력 장치상에 GUI(Graphic User Interface)를 제공하기 위한 그래픽 정보를 표시하기 위해 메모리나 저장 장치에 저장된 명령어를 들 수 있다. 다른 실시예로서, 다수의 프로세서 및(또는) 다수의 버스가 적절히 다수의 메모리 및 메모리 형태와 함께 이용될 수 있다. 또한 프로세서는 독립적인 다수의 아날로그 및(또는) 디지털 프로세서를 포함하는 칩들이 이루는 칩셋으로 구현될 수 있다.

또한 메모리는 컴퓨팅 장치 내에서 정보를 저장한다. 일례로, 메모리는 휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 다른 예로, 메모리는 비휘발성 메모리 유닛 또는 그들의 집합으로 구성될 수 있다. 또한 메모리는 예컨대, 자기 혹은 광 디스크와 같이 다른 형태의 컴퓨터 판독 가능한 매체일 수도 있다.

그리고 저장장치는 컴퓨팅 장치에게 대용량의 저장공간을 제공할 수 있다. 저장 장치는 컴퓨터 판독 가능한 매체이거나 이런 매체를 포함하는 구성일 수 있으며, 예를 들어 SAN(Storage Area Network) 내의 장치들이나 다른 구성도 포함할 수 있고, 플로피 디스크 장치, 하드 디스크 장치, 광 디스크 장치, 혹은 테이프 장치, 플래시 메모리, 그와 유사한 다른 반도체 메모리 장치 혹은 장치 어레이일 수 있다.

상술된 실시예들은 예시를 위한 것이며, 상술된 실시예들이 속하는 기술분야의 통상의 지식을 가진 자는 상술된 실시예들이 갖는 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 상술된 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 명세서를 통해 보호받고자 하는 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태를 포함하는 것으로 해석되어야 한다.

10: 전처리부 20: 컨텍스트 매칭 모듈
30: 캐릭터 매칭 모듈 40: 정답선택부
100: 듀얼 매칭 멀티스트림 모델 200: 질의 응답 장치
210: 저장부 220: 입출력부
230: 제어부 240: 통신부
300: 비디오 데이터 세트
301: 발화자가 표시된 스크립트 데이터
303: 행동 및 감정에 대한 시각적 메타데이터
305: 바운딩박스 데이터

Claims

질의 응답 장치에서 수행되는 질의 응답 방법에 있어서,
비디오 콘텐츠 및 질의응답 쌍을 포함하는 데이터 세트를 입력받는 단계;
상기 입력된 데이터 세트 중 상기 비디오 콘텐츠로부터 입력 시계열 시퀀스를 생성하고, 상기 입력된 데이터 세트 중 상기 질의응답 쌍으로부터 질의응답 시계열 시퀀스를 생성하는 전처리 단계;
상기 입력 시계열 시퀀스와 상기 질의응답 시계열 시퀀스를 연관시켜 가중치를 계산하고, 상기 계산된 가중치와 상기 입력 시계열 시퀀스와 연산하여 제1결과 값을 산출하는 단계;
상기 입력 시계열 시퀀스 중 질의응답에서 등장하는 인물에 직접적으로 연관되는 부분에 주의집중하여 제2결과 값을 산출하는 단계; 및
상기 시계열 시퀀스, 상기 제1결과 값, 상기 제2결과 값 및 부울플래그를 연결하여 제3결과 값을 산출하고, 상기 제3결과 값에 기초하여 최종 답안을 선택하는 단계를 포함하고,
상기 전처리 단계는,
데이터 세트에 포함된 데이터를 각각 순서대로 연결하여 시계열 데이터를 생성하는 단계;
상기 시계열 데이터에서 단어 벡터, 이미지 특징 벡터를 추출하고, 상기 추출된 벡터에 상기 시계열 데이터의 관련인물 정보를 원-핫 벡터로 연결하여 관련인물이 포함된 특징 벡터를 생성하는 단계; 및
양방향 장단기메모리모델에 상기 관련인물이 포함된 특징 벡터를 입력하여, 문맥적 흐름을 가지는 시계열 시퀀스를 생성하는 단계를 더 포함하는 방법.
제1항에 있어서,
상기 데이터 세트는,
질의응답 쌍, 발화자가 표시된 스크립트, 시각적 메타데이터(행동 및 감정), 시각 바운딩박스를 포함하는 것을 특징으로 하는, 방법.
삭제
제1항에 있어서,
제2결과 값을 산출하는 단계에 있어서,
닷-프로덕트 주의집중(Dot-product Attention)과 멀티-헤드 주의집중(Multi-Head Attention)을 이용하여 제3결과값을 산출하는 것을 특징으로 하는, 방법.
질의 응답 장치에 있어서,
질의 응답을 수행하는 프로그램이 저장되는 저장부; 및
적어도 하나의 프로세서를 포함하는 제어부를 포함하며,
상기 제어부는 상기 프로그램을 실행시킴으로써 비디오 콘텐츠 및 질의응답 쌍을 포함하는 데이터 세트를 입력받으면 상기 입력된 데이터 세트 중 상기 비디오 콘텐츠로부터 입력 시계열 시퀀스를 생성하고, 상기 입력된 데이터 세트 중 상기 질의응답 쌍으로부터 질의응답 시계열 시퀀스를 생성하며,
상기 입력 시계열 시퀀스와 상기 질의응답 시계열 시퀀스를 연관시켜 가중치를 계산하고, 상기 계산된 가중치와 상기 입력 시계열 시퀀스와 연산하여 제1결과 값을 산출하며,
상기 입력 시계열 시퀀스 중 질의응답에 등장하는 인물에 직접적으로 연관되는 부분에 주의집중하여 제2결과 값을 산출하며,
상기 입력 시계열 시퀀스, 상기 제1결과 값, 상기 제2결과 값 및 부울플래그를 연결하여 제3결과 값을 산출하고, 상기 제3결과 값에 기초하여 최종 답안을 선택하며,
상기 제어부는 상기 입력된 데이터 세트에서 입력 시계열 시퀀스와 질의응답 시계열 시퀀스를 생성함에 있어서,
상기 데이터 세트에 포함된 데이터를 각각 순서대로 연결하여 시계열 데이터를 생성하며,
상기 시계열 데이터에서 단어 벡터, 이미지 특징 벡터를 추출하고, 상기 추출된 벡터에 상기 시계열 데이터의 관련인물 정보를 원-핫 벡터로 연결하여 관련인물이 포함된 특징 벡터를 생성하며,
양방향 장단기메모리모델에 상기 관련인물이 포함된 특징 벡터를 입력하여, 문맥적 흐름을 가지는 시계열 시퀀스를 생성하는 것을 특징으로 하는 장치.
제5항에 있어서,
상기 데이터 세트는 질의응답 쌍, 발화자가 표시된 스크립트, 시각적 메타데이터(행동 및 감정), 시각 바운딩박스가 포함되는 것을 특징으로 하는, 장치.
삭제
제5항에 있어서,
상기 제어부가 제2결과 값을 산출함에 있어서,
닷-프로덕트 주의집중(Dot-product Attention)과 멀티-헤드 주의집중(Multi-Head Attention)을 이용하여 제3결과 값을 산출하는 것을 특징으로 하는, 장치.
컴퓨터에 제1항에 기재된 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
질의 응답 장치에 의해 수행되며, 제1항에 기재된 방법을 수행하기 위해 매체에 저장된 컴퓨터 프로그램.