KR20180045165A

KR20180045165A - 시각적 질의응답을 위해 원소단위곱과 다중모달 잔차 학습을 이용한 데이터 처리 방법 및 시스템

Info

Publication number: KR20180045165A
Application number: KR1020160138984A
Authority: KR
Inventors: 하정우; 김정희; 장병탁; 김진화; 이상우; 곽동현; 허민오
Original assignee: 네이버 주식회사; 서울대학교산학협력단
Priority date: 2016-10-25
Filing date: 2016-10-25
Publication date: 2018-05-04
Also published as: KR101934372B1

Abstract

시각적 질의응답을 위해 원소단위곱과 다중모달 잔차 학습을 이용한 데이터 처리 방법 및 시스템이 개시된다. 데이터 처리 방법은 입력된 이미지에 대한 시각적 특징 벡터를 추출하고, 입력된 질문에 대한 질문 벡터를 추출하는 제1 단계, 상기 질문 벡터에 깊은 잔차 학습(Deep Residual Learning)을 위한 선형 사영(linear mapping) 및 하이퍼볼릭 탄젠트 사영(Hyperbolic Tangent mapping)을 반영하여 제1 결과값을 계산하는 제2 단계, 상기 시각적 특징 벡터에 상기 선형 사영 및 상기 하이퍼볼릭 탄젠트 사영을 반영하여 제2 결과값을 계산하는 제3 단계, 상기 제1 결과값과 상기 제2 결과값간의 원소단위곱에 대한 제3 결과값을 계산하는 제4 단계 및 상기 질문 벡터에 상기 선형 사영을 반영한 결과값과 상기 제3 결과값간의 원소단위합에 대한 제4 결과값을 계산하는 제5 단계를 포함할 수 있다.

Description

시각적 질의응답을 위해 원소단위곱과 다중모달 잔차 학습을 이용한 데이터 처리 방법 및 시스템{METHOD AND SYSTEM FOR PROCESSING DATA USING ELEMENT-WISE MULTIPLICATION AND MULTIMODAL RESIDUAL LEARNING FOR VISUAL QUESTION-ANSWERING}

아래의 설명은 시각적 질의응답을 위해 원소단위곱과 다중모달 잔차 학습을 이용한 데이터 처리 방법 및 시스템에 대한 것이다.

영상과 언어는 실세계를 이해하기 위한 인간 지능의 두 중심부이다. 영상과 언어는 또한 인공 지능에 도달함에 있어서 필수적인 구성요소이고 지난 10년간 컴퓨터 영상과 자연 언어 처리에서 엄청난 수의 연구들이 진행되어 왔다. 최근에는 딥 러닝 기술들(deep learning techniques)의 극적인 발전으로 인해 영상과 언어간의 경계가 무너지고 있으며, 영상과 언어의 교차에 대한 흥미가 증가하고 있다.

시각적 질의응답(Visual Question Answering, VQA)은 사진과 같은 이미지와 질문을 통해 인공지능(Artificial Intelligence, AI)의 답변을 얻는 과제로서, 그 동안의 AI분야의 좁은 연구 대상을 넘어선 시각 정보와 자연어 정보의 통합적 문제를 다루고 있다. 일례로, 참고문헌 1은 이러한 시각적 질의응답 기술에 대해 개시하고 있다.

<참고문헌 1: 논문 "Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C Lawrence Zitnick, and Devi Parikh. VQA: Visual Question Answering. In International Conference on Computer Vision, 2015.">

시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장하여, 다중모달(multimodal) 잔차 학습을 이용한 다중모달 잔차 네트워크(Multimodal Residual Networks, MRN)를 제공할 수 있는 데이터 처리 방법 및 시스템을 제공한다.

명시적인 어텐션 파라미터를 사용하지 않고도, 어텐션 모델을 내포함으로써 어텐션 효과를 얻을 수 있는 데이터 처리 방법 및 시스템을 제공한다.

입력된 이미지에 대한 시각적 특징 벡터를 추출하고, 입력된 질문에 대한 질문 벡터를 추출하는 제1 단계; 상기 질문 벡터에 깊은 잔차 학습(Deep Residual Learning)을 위한 선형 사영(linear mapping) 및 하이퍼볼릭 탄젠트 사영(Hyperbolic Tangent mapping)을 반영하여 제1 결과값을 계산하는 제2 단계; 상기 시각적 특징 벡터에 상기 선형 사영 및 상기 하이퍼볼릭 탄젠트 사영을 반영하여 제2 결과값을 계산하는 제3 단계; 상기 제1 결과값과 상기 제2 결과값간의 원소단위곱에 대한 제3 결과값을 계산하는 제4 단계; 및 상기 질문 벡터에 상기 선형 사영을 반영한 결과값과 상기 제3 결과값간의 원소단위합에 대한 제4 결과값을 계산하는 제5 단계를 포함하는 것을 특징으로 하는 데이터 처리 방법을 제공한다.

일측에 따르면, 상기 데이터 처리 방법은, 상기 제2 단계 내지 상기 제5 단계를 m(상기 m은 자연수) 회 반복 수행하는 제6 단계를 더 포함하고, 상기 제2 단계는, 상기 m이 1 이상인 경우, 이전 회차에 계산된 제4 결과값에 상기 선형 사영 및 상기 하이퍼볼릭 탄젠트 사영을 반영하여 금번 회차를 위한 제1 결과값을 계산하고, 상기 제5 단계는, 상기 m이 1 이상인 경우, 이전 회차에 계산된 제4 결과값에 선형 사영을 반영한 결과값과 금번 회차에 계산된 제3 결과값간의 원소단위합을 통해 금번 회차를 위한 제4 결과값을 계산하는 것을 특징으로 할 수 있다.

다른 측면에 따르면, 상기 데이터 처리 방법은, 상기 제2 단계 내지 상기 제5 단계를 m(상기 m은 자연수) 회 반복 수행하는 제6 단계를 더 포함하고, 상기 제2 단계는, 상기 m이 1 이상인 경우, 이전 회차에 계산된 제4 결과값에 상기 선형 사영 및 상기 하이퍼볼릭 탄젠트 사영을 반영하여 금번 회차를 위한 제1 결과값을 계산하고, 상기 제5 단계는, 상기 m이 1 이상인 경우, 상기 질문 벡터와 금번 회차에 계산된 제3 결과값간의 원소단위합을 통해 금번 회차를 위한 제4 결과값을 계산하는 것을 특징으로 할 수 있다.

또 다른 측면에 따르면, 상기 데이터 처리 방법은, 상기 제4 결과값과 상기 시각적 특징 벡터에 선형 사영을 반영한 결과값간의 원소단위합에 대한 제5 결과값을 계산하는 단계를 더 포함하는 것을 특징으로 할 수 있다.

또 다른 측면에 따르면, 상기 제3 단계는, 상기 시각적 특징 벡터에 상기 선형 사영 및 상기 하이퍼볼릭 탄젠트 사영을 반영한 결과값에 상기 선형 사영 및 상기 하이퍼볼릭 탄젠트 사영을 한 번 더 반영하여 제2 결과값을 계산하는 것을 특징으로 할 수 있다.

또 다른 측면에 따르면, 상기 제2 단계는, 상기 질문 벡터에 상기 선형 사영 및 상기 하이퍼볼릭 탄젠트 사영을 반영한 결과값에 상기 선형 사영 및 상기 하이퍼볼릭 탄젠트 사영을 한 번 더 반영하여 제1 결과값을 계산하는 것을 특징으로 할 수 있다.

또 다른 측면에 따르면, 상기 데이터 처리 방법은, 상기 제4 결과값에 선형 사영을 반영하고, 소프트맥스 함수(softmax function)를 적용하여 상기 입력된 이미지에 대한 상기 입력된 질문의 답변을 결정하는 단계를 더 포함하는 것을 특징으로 할 수 있다.

상기 데이터 처리 방법을 컴퓨터에 실행시키기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록매체를 제공한다.

컴퓨터와 결합되어 상술한 데이터 처리 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램을 제공한다.

데이터 처리 방법을 실행하기 위해 컴퓨터로 구현되는 데이터 처리 시스템에 있어서, 컴퓨터에서 판독 가능한 명령을 저장하는 메모리; 및 상기 메모리에 저장된 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 입력된 이미지에 대한 시각적 특징 벡터를 추출하고, 입력된 질문에 대한 질문 벡터를 추출하는 제1 프로세스; 상기 질문 벡터에 깊은 잔차 학습(Deep Residual Learning)을 위한 선형 사영(linear mapping) 및 하이퍼볼릭 탄젠트 사영(Hyperbolic Tangent mapping)을 반영하여 제1 결과값을 계산하는 제2 프로세스; 상기 시각적 특징 벡터에 상기 선형 사영 및 상기 하이퍼볼릭 탄젠트 사영을 반영하여 제2 결과값을 계산하는 제3 프로세스; 상기 제1 결과값과 상기 제2 결과값간의 원소단위곱에 대한 제3 결과값을 계산하는 제4 프로세스; 및 상기 질문 벡터에 상기 선형 사영을 반영한 결과값과 상기 제3 결과값간의 원소단위합에 대한 제4 결과값을 계산하는 제5 프로세스를 처리하는 것을 특징으로 하는 데이터 처리 시스템을 제공한다.

시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장하여, 다중모달(multimodal) 잔차 학습을 이용한 다중모달 잔차 네트워크(Multimodal Residual Networks, MRN)를 제공하여 시각 정보와 자연어 정보의 통합적 추론 문제를 해결하는데 도움을 줄 수 있다. 또한, 명시적인 어텐션 파라미터를 사용하지 않고도, 어텐션 모델을 내포함으로써 어텐션 효과를 얻을 수 있다. 뿐만 아니라, 명시적인 어텐션 파라미터를 사용하지 않고도, 어텐션 모델을 내포함으로써 어텐션 효과를 얻을 수 있다.

도 1은 본 발명의 일실시예에 있어서, MRN의 추론 흐름 예를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따른 MRN 모델의 구조를 구체적으로 도식화한 도면이다.
도 3 내지 도 6은 본 발명의 일실시예에 따른 대체 모델들의 예를 도시한 도면들이다.
도 7은 본 발명의 일실시예에 있어서, 데이터 처리 시스템의 내부 구성을 설명하기 위한 블록도이다.
도 8은 본 발명의 일실시예에 있어서, 데이터 처리 시스템의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 블록도이다.
도 9는 본 발명의 일실시예에 따른 데이터 처리 시스템이 수행할 수 있는 데이터 처리 방법의 예를 도시한 흐름도이다.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.

깊은 인공 신경망(Deep Neural Networks)은 이미지 인식 분야에서 뛰어난 성능을 보여주고 있지만, 다중모달(Multimodal) 학습에서는 여전히 제한적인 성능을 보이고 있다. 본 발명의 실시예들에 따른 다중모달 잔차 네트워크(Multimodal Residual Networks, MRN)는 다중모달을 포함한 시각적 질의응답(Visual Question-Answering, VQA)을 위하여 고안되었다. 이러한 MRN 방법은 깊은 잔차 학습(deep residual learning) 방법을 활용한다. 특히 기존의 주어진 상황과 달리 시각 정보와 질의어에서 결합 표현(joint representation)을 효과적으로 학습할 수 있다. 또한, 다중모달의 효과적인 학습을 위해 잔차 학습을 활용한 결합 잔차 사영(joint residual mapping)에서 원소단위곱(element-wise multiplication)이 수행될 수 있다. 게다가, 본 발명의 실시예들에서는, 심지어 공간 정보를 갖지 않는 시각적 특징들을 통해서도, 각각의 학습 블록들을 위한 결합 표현들의 어텐션 효과를 보일 수 있는 방법에 대해 설명한다.

1. 배경(background)

1.1 깊은 잔차 학습(Deep Residual Learning)

신경망은 다수의 층들을 깊게 쌓을수록 성능이 좋아진다고 알려져 있으나 깊어질수록 최적화가 어려워져서 한계가 있었다. 하지만 깊은 잔차 학습을 통해 신경망을 100개 층 이상으로 깊게 쌓을 수 있게 되었으며, 그로 인해 이미지 분류 및 검출 등의 분야에서 뛰어난 성능을 보여주었다. 잔차 학습은 지름 연결선(shortcut connection)을 통해 항등 사영(Identity mapping)을 가능하도록 해주었으며 비선형 매핑을 통해 지름 사영(shortcut mapping)에 초점을 맞추게 함으로써 깊은 층을 쌓을 수 있게 되었다. 일례로, 비선형 매핑 F(x)와 지름 사영 x를 고려할 때, 학습 블록은 다음 수학식 1과 같이 정의될 수 있다.

여기서, x와 y는 각각 학습 블록의 입력과 출력일 수 있다.

2. 계층적 어텐션 네트워크(Stacked Attention Networks, SAN)

계층적 어텐션 네트워크는 질문에서 받은 시각적 정보를 바탕으로 시각적 특징 벡터의 가중치를 학습할 수 있다. 뿐만 아니라, 시각적 정보를 줄여나가기 위해서 여러 단계에 걸쳐서 어텐션 네트워크를 쌓아나간다. 예를 들어, 질문에서 핑크색 가방을 찾는다면, 우선 핑크색 물체를 찾는 것으로 시작을 하게 되고, 이후 가방 여부를 판별하게 된다. 구체적으로, 질문 벡터와 시각적 특징 벡터로 학습을 할 수 있으며, 학습된 가중치들은 다수의 시각적 특징 벡터와 선형 조합에 사용될 수 있다. 이런 방법으로 SAN은 성공적으로 시각적 특징을 선택할 수 있게 된다. 마지막으로 다음 학습 블록의 질문 입력 값은 시각적 특징벡터와 이전 질문 벡터의 조합으로 얻어질 수 있다. 일례로, l 번째 학습 블록의 질문 벡터를 q ^l 이라 가정할 때, SAN에서 질문 벡터는 다음 수학식 2와 같이 얻어질 수 있다.

여기서, V는 컬럼들이 특정 공간 인덱스를 지시하는 시각적 특징 행렬을,

는 SAN의 어텐션 네트워크를 나타낼 수 있다.

3. 원소단위곱 방법

지안센 루(Jiasen Lu) 등에 의해 개발된 방법으로 결합 사영에서 임베딩(embedding) 후에 질문 벡터와 시각적 특징 벡터간의 원소단위곱을 이용하는 방법이 있다. 이러한 방법이 시각 정보와 질의어 같은 다중모달 환경에서의 효과적인 학습을 위해 본 발명의 실시예들에 통합될 수 있다. 이 방법은 최근의 연구 결과들을 뛰어넘는 성능의 시작점을 제시한다.

2. 다중모달 잔차 네트워크(Multimodal Residual Networks, MRN)

질문 벡터는 어텐션 네트워크의 연속적인 층들을 통해 직접 전송된다. 이때 SAN에서, 지름 사영은 질문 벡터이며, 비선형 사영(non-linear mapping)은 어텐션 네트워크가 된다. 어텐션 네트워크에서는 적절한 답변을 위해 질문 벡터에 의한 시각적 특징 벡터를 바탕으로 가중치를 업데이트함으로써 결합 표현을 충분히 학습할 수 있다. 그러나 질문 정보는 결합 표현을 학습할 때 병목 현상을 일으키는 계수 p 만을 통해 결합 표현에 기여하게 된다.

여기서, 계수 p는 질문 벡터 q와 시각적 특징 행렬 V의 비선형 함수의 결과물을 나타낼 수 있다. 또한, V _i 는 14 × 14 그리드에서 i번째 시각적 특징 벡터를 나타낼 수 있다.

시각적 질의 응답에서 사용된 간단하며 성능이 좋은 방법으로 결합 모델에서 임베딩 후 질문 벡터와 시각적 특징 벡터간의 원소단위곱을 수행하는 방법이 있다. 이와 관련해서 SAN의 어텐션 메커니즘(attention mechanism)을 위한 다중 시각적 특징 접근법 대신에 전역적 시각 특징 정보 접근법을 사용할 수 있다. 다시 말해, 본 발명의 실시예들에서는 전역적 시각 특징 정보 접근법에 따라, SAN의 층을 쌓는 아키텍처 및 지름 사영 방법을 처리할 수 있다. 이러한 원소단위곱의 사용에 따른 개선은 SAN의 어텐션 네트워크에서 병목 현상을 해결하면서 주어진 시각 정보와 질의어의 결합 표현을 효과적으로 학습하게 할 수 있다.

본 실시예에 따른 MRN은 깊은 잔차 학습으로 쌓인 다수의 학습 블록으로 구성될 수 있다. 이때, H(q, v)에 의한 최적의 사영을 아래 수학식 4와 같이 나타낼 수 있다.

여기서, 지름 사영인 첫 번째 선형 근사 항은

이며, 첫 번째 결합 잔차 함수는

로 주어진다. 선형 사영(linear mapping)

는 특징 벡터의 차원을 맞추는데 사용된다. 결합 잔차 함수는 아래 수학식 5로 정의될 수 있다.

여기서 σ는 하이퍼볼릭 탄젠트 'tanh'를, ⊙는 원소단위곱을 나타낼 수 있다. 질문 벡터와 시각적 특징 벡터는 결합 표현에 직접 기여할 수 있다. 깊은 잔차 학습을 위해, 다음 층에서는 q를 H(q, v)로 대체한다. 보다 일반적인 관점에서 수학식 4 및 수학식 5는 아래 수학식 6과 같이 다시 표현될 수 있다.

여기서, L은 학습 블록의 개수를 나타낼 수 있다. 위 수학식 6은 이후 설명될 도 2와 같이 직관적으로 표현될 수 있다. 시각적 부분을 위한 지름들(shortcurts)은 도 2에서 점선 화살표와 같이 각각의 층에 시각적 특징 벡터로서 전달되는 항등 사영들일 수 있다. 각각의 블록들의 마지막에서, H _l 은 l 번째 학습 블록의 출력일 수 있고,

은 원소단위합을 나타낼 수 있다.

3. 구체적인 실시 예

본 발명의 실시예들에 대한 설명을 용이하게 하기 위하여, 구체적인 실시 예를 소개한다.

도 1은 본 발명의 일실시예에 있어서, MRN의 추론 흐름 예를 도시한 도면이다. 도 1에서 'Q'는 자연어로 된 질의를, 'V'는 질의가 이루어지고 있는 시각적 상황 또는 질의의 대상이 되는 이미지를 나타낸다. 'Q'는 워드 임베딩(word embedding, 110)과 순환 인공 신경망(Recurrent Neural Network, RNN, 120)을 이용하여 특징 벡터(질문 벡터)로 변환되고, 'V'는 제1 점선박스(130)에 나타난 콘볼루션 인공 신경망(Convolutional Neural Network, CNN)을 통해서 특징 벡터(시각적 특징 벡터)로 변환된다. 이 두 모달의 특징 벡터들은 제2 점선박스(140)에 나타난 본 발명의 실시예들에 따른 방법 모델인 다중모달 잔차 네트워크(Multimodal Residual Networks, MRN)에 입력으로 들어가서 정답 'A'를 도출해낼 수 있다. 도1의 제2 점선박스에서는 세 개의 블록 층을 갖는 MRN의 예를 나타내고 있다. 또한, 도 1은 제3 점선박스(150)에 나타난 자연어로 된 질의 "동물의 종류는 무엇입니까(What kind of animals are these?)"에 대해, 제4 점선박스(160)에 나타난 정답 "양(sheep)"을 출력하는 예를 나타내고 있다. 여기서, 이미지들(170, 180, 190)은 입력된 이미지에 대해 각각의 학습 블록들을 위한 어텐션 효과의 입력 기울기들을 나타내고 있다. 각각의 화소를 위한 컬러 채널들의 기울기들은 이러한 기울기들의 절대값을 구한 후에 합쳐질 수 있다. 그때, 합쳐진 절대값들은 기울기 값들의 평균과 표준 편차의 합보다 크며, 이미지들(170, 180, 190)에서 어텐션 효과로서 시각화될 수 있다.

사전에 정의된 빈도 수가 높은 각각 1000개, 2000개, 3000개의 후보 답들을 포함하는 데이터 셋들은 원래 데이터 셋의 각각 87%, 90%, 92% 정도의 질의응답을 포함하게 된다. 실험을 통해 빈도 수가 높은 2000 개의 후보 답들을 포함하는 데이터 셋을 이용하여 실험하였다.

도 2는 본 발명의 일실시예에 따른 MRN 모델의 구조를 구체적으로 도식화한 도면이다. 도 2에 도시된 각 네모상자는 딥러닝 모듈을 나타내며, 'Linear'는 선형 사영 모듈을, 'Tanh'는 하이퍼볼릭 탄젠트 사영(Hyperbolic Tangent mapping) 모듈을 각각 나타낼 수 있다. 또한, '⊙'는 원소단위곱을,

은 원소단위합을 각각 나타낼 수 있다. 도 2는 세 개의 블록 층을 갖는 MRN을 도시하고 있으며, 각 블록의 끝에서 H _l 은 l 번째 학습 블록의 결과물을 나타낼 수 있다. 또한, 이미 설명한 바와 같이 도 2의 점선 화살표는 각각의 층에서 항등 사영으로 시각적 특징 벡터들이 전달됨을 나타낼 수 있다. 마지막으로 'Softmax'는 소프트맥스 함수가 적용되는 모듈을 나타낼 수 있다. 소프트맥스 함수는 깊은 인공 신경망에 대한 기반 기술을 통해 당업자가 용이하게 이해할 수 있다.

제안하는 방법 모델의 정량적 평가를 위해 시각적 질의응답 데이터셋인 VQA 데이터셋을 이용하여 평가하였다. 이러한 VQA 데이터셋은 일상생활 이미지에 대해 사람이 직접 작성하고 검증한 질의응답 데이터이다. 약 61만 건의 질의응답 데이터가 20만 건의 이미지에 대해서 수집되었다. 아래 표 1에 나타난 바와 같이 제안하는 방법은 이전의 다른 방법들에 비해 탁월한 성능을 보인다.

표 1에 나타난 다른 방법들은 시각적 질의응답 분야에서 이미 잘 알려진 기술들로 당업자가 쉽게 이해할 수 있을 것이며, 'Human'은 사람이 직접 응답한 경우를 나타낸다.

또한, 명시적인 어텐션 파라미터들을 활용하는 다른 방법들(일례로, SAN, DMN+)과 달리 MRN은 어떠한 명시적인 어텐션 메커니즘을 활용하지 않는다. 그러나 정보 마스킹으로서의 원소단위곱의 영상해석능력(interpretability)이 어텐션 효과를 가시화하기 위한 새로운 방법을 이끌어냄을 확인할 수 있다. 이처럼 MRN은 적은 어텐션 파라미터들(일례로, 14 × 14)에 의존하지 않기 때문에 다른 방법들보다 더 높은 해상도로 이미지들을 시각화하는 것이 가능해진다. 이처럼 MRN은 명시적인 어텐션 메커니즘 없는 암시적인 어텐션 모델을 구현할 수 있다.

도 3 내지 도 6은 본 발명의 일실시예에 따른 대체 모델들의 예를 도시한 도면들이다.

도 2의 블록들은 시각적 특징 벡터에 대해 선형 사영 모듈과 하이퍼볼릭 탄젠트 사영 모듈이 각각 두 번씩 반영된 실시예를 도시하고 있는 반면, 도 3의 대체 모델의 블록은 시각적 특징 벡터에 대해 선형 사영 모듈과 하이퍼볼릭 탄젠트 사영 모듈이 한 번씩만 반영된 실시예를 도시하고 있다.

도 4의 대체 모델은 시각적 특징 벡터에 대해서뿐만 아니라 질문 벡터에 대해서도 선형 사영 모듈과 하이퍼볼릭 탄젠트 사영 모듈이 각각 두 번씩 반영된 실시예를 도시하고 있다.

또한, 도 5의 대체 모델은 원소단위합의 피연산자로서 첫 번째 블록에서만 질문 벡터에 선형 사영 모듈을 반영한 결과값을 이용하고 두 번째 블록부터는 질문 벡터를 그대로 원소단위합의 피연산자로 이용하는 실시예를 도시하고 있다.

또한, 도 6의 대체 모델은 원소단위합의 피연산자로서 시각적 특징 벡터를 더 이용하는 실시예를 도시하고 있다. 이때, 첫 번째 블록에서만 시각적 특징 벡터에 선형 사영 모듈을 반영한 결과값을 원소단위합의 피연산자로서 이용할 수 있다. 두 번째 블록부터는 시각적 특징 벡터가 원소단위합의 피연산자로 이용되지 않을 수 있다.

이처럼, 도 2의 블록 구조가 본 발명의 바람직한 실시예이나, 본 발명의 실시예들이 깊은 잔차 학습을 확장하여 시각적 질의 응답을 위해 원소단위곱과 다중모달 잔차 학습을 활용한 다중모달 잔차 네트워크(Multimodal Residual Networks, MRN)를 제공하는 것을 특징으로 하고 있기 때문에 상술한 도 3 내지 도 6의 실시예들과 같은 다양한 변형이 가능할 수 있다.

이상에서와 같이, 본 발명의 실시예들은 원소단위곱을 적용하여 시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장함으로써 다중모달(multimodal) 잔차 학습을 이용한 다중모달 잔차 네트워크(Multimodal Residual Networks, MRN)를 제공할 수 있다. 또한, 원소단위곱의 사용은 명시적인 어텐션 파라미터들에 의존하지 않고도 어텐션 효과를 시각화할 수 있음을 설명하고 있다.

이하에서는 상술한 다중모달 잔차 네트워크를 구현하여 질의와 같은 텍스트, 그리고 이미지를 함께 처리하는 데이터 처리 방법 및 시스템에 대해 설명한다.

도 7은 본 발명의 일실시예에 있어서, 데이터 처리 시스템의 내부 구성을 설명하기 위한 블록도이다. 도 7에서는 데이터 처리 시스템(700)을 하나의 물리적인 장치처럼 설명하고 있으나, 실시예에 따라 데이터 처리 시스템(700)은 복수의 장치들이 연동된 형태로 구현될 수도 있다.

이러한 데이터 처리 시스템(700)은 도 7에 도시된 바와 같이 메모리(710), 프로세서(720), 통신 모듈(730) 그리고 입출력 인터페이스(740)를 포함할 수 있다. 메모리(710)는 컴퓨터에서 판독 가능한 기록매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 여기서 ROM과 비소멸성 대용량 기록장치는 메모리(710)와 분리되어 별도의 영구 저장 장치로서 포함될 수도 있다. 또한, 메모리(710)에는 운영체제와 적어도 하나의 프로그램 코드(일례로 본 발명의 실시예들에 따른 데이터 처리 방법을 수행하도록 데이터 처리 시스템(700)이 포함하는 기록매체에 저장되어 데이터 처리 시스템(700)을 제어하기 위한 컴퓨터 프로그램)가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(710)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 모듈(730)을 통해 메모리(710)에 로딩될 수도 있다.

프로세서(720)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(710) 또는 통신 모듈(730)에 의해 프로세서(720)로 제공될 수 있다. 예를 들어 프로세서(720)는 메모리(710)에 로딩된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다. 보다 구체적인 예로, 프로세서(720)는 메모리(710)에 로딩된 컴퓨터 프로그램의 코드에 따른 명령을 순차적으로 실행하여 본 발명의 실시예에 따른 데이터 처리 방법을 수행할 수 있다.

통신 모듈(730)은 실제 컴퓨터 네트워크를 통해 다른 물리적인 기기들과 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 데이터 처리 시스템(700)의 프로세서(720)가 처리하기 위한 이미지들과 질문으로서의 텍스트들은 네트워크의 다른 물리적인 기기로부터 컴퓨터 네트워크와 통신 모듈(730)을 통해 데이터 처리 시스템(700)으로 수신되어 메모리(710)나 프로세서(720)로 전달될 수 있다. 역으로, 데이터 처리 시스템(700)이 수신된 이미지들과 텍스트들에 대해 연산을 처리한 처리 결과가 통신 모듈(730)과 컴퓨터 네트워크를 통해 다른 물리적인 기기로 전송될 수도 있다.

입출력 인터페이스(740)는 입출력 장치(750)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입출력 장치(750)에서 입력 장치는 키보드 또는 마우스 등의 장치를, 그리고 출력 장치는 디스플레이나 스피커와 같은 장치를 포함할 수 있다. 도 7에서 입출력 장치(750)는 데이터 처리 시스템(700)과 별도의 장치로 표현되었으나, 실시예에 따라 입출력 장치(750)가 데이터 처리 시스템(700)에 포함되도록 데이터 처리 시스템(700)이 구현될 수도 있다.

또한, 다른 실시예들에서 데이터 처리 시스템(700)은 도 7의 구성요소들보다 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 데이터 처리 시스템(700)은 각종 물리적인 버튼이나 터치패널, 또는 광출력 장치 등의 다양한 구성요소들을 더 포함하도록 구현될 수 있음을 알 수 있다.

도 8은 본 발명의 일실시예에 있어서, 데이터 처리 시스템의 프로세서가 포함할 수 있는 구성요소의 예를 도시한 블록도이고, 도 9는 본 발명의 일실시예에 따른 데이터 처리 시스템이 수행할 수 있는 데이터 처리 방법의 예를 도시한 흐름도이다. 도 8은 앞서 설명한 데이터 처리 시스템(700)의 프로세서(720)가 포함할 수 있는 구성요소들로서 특징 벡터 추출부(810), 사영 반영부(820), 원소단위곱 계산부(830), 원소단위합 계산부(840), 반복 제어부(850) 및 답변 결정부(860)를 나타내고 있다. 이러한 프로세서(720) 및 프로세서(720)의 구성요소들은 도 9의 데이터 처리 방법이 포함하는 단계들(910 내지 970)을 수행할 수 있다. 이때, 프로세서(720) 및 프로세서(720)의 구성요소들은 메모리(710)가 포함하는 운영체제의 코드 및/또는 적어도 하나의 컴퓨터 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 여기서, 프로세서(720)의 구성요소들은 데이터 처리 시스템(700)에 저장된 컴퓨터 프로그램의 코드가 제공하는 제어 명령에 따라 프로세서(720)에 의해 수행되는 프로세서(720)의 서로 다른 기능들(different functions)의 표현들일 수 있다. 이때, 프로세서(720)는 데이터 처리 시스템(700)의 제어와 관련된 명령이 로딩된 메모리(710)로부터 필요한 제어 명령을 읽어드릴 수 있으며, 읽어들인 제어 명령에 따라 이후 설명될 단계들(910 내지 970)을 수행하도록 데이터 처리 시스템(700)을 제어할 수 있다.

단계(910)에서 특징 벡터 추출부(10)는 입력된 이미지에 대한 시각적 특징 벡터를 추출하고, 입력된 질문에 대한 질문 벡터를 추출할 수 있다. 이미 설명한 바와 같이 시각적 특징 벡터는 CNN을 이용하여, 질문 벡터는 워드 임베딩과 RNN을 이용하여 추출될 수 있다. CNN과 워드 임베딩, RNN 등은 이미 잘 알려진 기술로 이러한 기술들을 통해 시각적 특징 벡터와 질문 벡터를 추출하는 기술은 당업자가 용이하게 이해할 수 있다.

단계(920)에서 사영 반영부(820)는 질문 벡터에 깊은 잔차 학습(Deep Residual Learning)을 위한 선형 사영(linear mapping) 및 하이퍼볼릭 탄젠트 사영(Hyperbolic Tangent mapping)을 반영하여 제1 결과값을 계산할 수 있다. 여기서 제1 결과값을 계산하는 것은 앞서 설명한 수학식 5에서 첫 번째 항인

를 계산하는 것에 대응될 수 있다. 또한, 도 4의 실시예에서는 질문 벡터에 선형 사영 모듈과 하이퍼볼릭 탄젠트 사영 모듈이 두 번씩 적용됨을 설명한 바 있다. 이러한 실시예를 위해, 사영 반영부(820)는 질문 벡터에 선형 사영 및 하이퍼볼릭 탄젠트 사영을 반영한 결과값에 선형 사영 및 하이퍼볼릭 탄젠트 사영을 한 번 더 반영하여 제1 결과값을 계산할 수도 있다.

단계(930)에서 사영 반영부(820)는 시각적 특징 벡터에 선형 사영 및 하이퍼볼릭 탄젠트 사영을 반영하여 제2 결과값을 계산할 수 있다. 이때, 제2 결과값을 계산하는 것은 수학식 5에서 두 번째 항의

를 계산하는 것에 대응될 수 있다. 예를 들어, 이러한 계산 방식은 도 3의 실시예에서와 같이, 선형 사영 모듈과 하이퍼볼릭 탄젠트 사영 모듈이 시각적 특징 벡터에 한번씩만 적용되는 경우에 활용될 수 있다. 한편, 실시예에 따라 사영 반영부(820)는 시각적 특징 벡터에 선형 사영 및 하이퍼볼릭 탄젠트 사영을 반영한 결과값에 선형 사영 및 하이퍼볼릭 탄젠트 사영을 한 번 더 반영하여 제2 결과값을 계산할 수도 있다. 도 2와 도 4 내지 도 6에서는 시각적 특징 벡터에 각각 선형 사영 모듈과 하이퍼볼릭 탄젠트 사영 모듈이 두 번씩 적용되는 실시예를 설명한 바 있다.

단계(940)에서 원소단위곱 계산부(830)는 제1 결과값과 제2 결과값간의 원소단위곱에 대한 제3 결과값을 계산할 수 있다. 이때, 제3 결과값을 계산하는 것은 수학식 5에서

를 계산하는 것에 대응될 수 있다.

단계(950)에서 원소단위합 계산부(840)는 질문 벡터에 선형 사영을 반영한 결과값과 제3 결과값간의 원소단위합에 대한 제4 결과값을 계산할 수 있다. 여기서, 제4 결과값을 계산하는 것은 수학식 6에 기초하여 첫 번째 블록의 출력값 H ₁ 을 계산하는 것에 대응될 수 있다.

이미 설명한 바와 같이 실시예들에서 따라 복수의 블록들이 활용될 수 있다. 이를 위해 단계(960)에서 반복 제어부(850)는 단계(920) 내지 단계(950)를 m(m은 자연수) 회 반복 수행할 수 있다.

이때, 도 2의 실시예에서와 같이 두 번째 블록부터는 질문 벡터가 이전 블록의 출력값으로 대체될 수 있다. 이러한 실시예를 위해 사영 반영부(820)는 m이 1 이상인 경우, 이전 회차에 계산된 제4 결과값에 선형 사영 및 하이퍼볼릭 탄젠트 사영을 반영하여 금번 회차를 위한 제1 결과값을 계산할 수도 있다.

또한, 도 2의 실시예에서와 같이 두 번째 블록부터는 질문 벡터를 선형 사영에 반영한 결과가 아닌 제4 결과값에 선형 사영을 반영한 결과값이 원소단위합의 피연산자로 이용될 수 있다. 이러한 실시예를 위해 원소단위합 계산부(840)는 m이 1 이상인 경우, 이전 회차에 계산된 제4 결과값에 선형 사영을 반영한 결과값과 금번 회차에 계산된 제3 결과값간의 원소단위합을 통해 금번 회차를 위한 제4 결과값을 계산할 수 있다.

또한, 도 5의 실시예에서는 원소단위합의 피연산자로 첫 번째 블록에서는 질문 벡터를 선형 사영에 반영한 결과값을 이용하되, 두 번째 블록부터는 항등 사영, 다시 말해 질문 벡터를 그대로 원소단위합의 피연산자로 이용함을 설명하였다. 이러한 실시예를 위해 원소단위합 계산부(840)는 m이 1 이상인 경우, 질문 벡터와 금번 회차에 계산된 제3 결과값간의 원소단위합을 통해 금번 회차를 위한 제4 결과값을 계산할 수도 있다.

또한, 도 6의 실시예에서는 시각적 특징 벡터에 선형 사영을 반영한 결과값을 원소단위합에 대한 피연산자로 더 이용함을 설명하였다. 이를 위해, 원소단위합 계산부(840)는 제4 결과값과 시각적 특징 벡터에 선형 사영을 반영한 결과값간의 원소단위합에 대한 제5 결과값을 계산할 수도 있다. 이때 복수의 블록들이 존재하는 경우에는 제5 결과값이 제4 결과값 대신 다음 블록의 질문 벡터를 위한 입력으로 이용될 수 있다. 이러한 제5 결과값은 첫 번째 블록에서만 계산 및 이용될 수 있고, 두 번째 블록부터는 제4 결과값을 생성 및 이용할 수 있다. 다시 말해 첫 번째 블록에서만 시각적 특징 벡터에 선형 사영을 반영한 결과값을 원소단위합에 대한 피연산자 활용할 수 있다.

단계(970)에서 답변 결정부(860)는 제4 결과값에 선형 사영을 반영하고, 소프트맥스 함수(softmax function)를 적용하여 입력된 이미지에 대한 입력된 질문의 답변을 결정할 수 있다. 최적의 사영에 소프트맥스 함수를 적용하여 답변을 결정하는 것은 표 1을 통해 설명한 기존에 잘 알려진 다른 방법을 통해 당업자가 용이하게 이해할 수 있을 것이다.

이처럼 본 발명의 실시예들에 따르면, 시각적 질의응답(Visual Question Answering, VQA)을 위한 깊이 잔차 학습(Deep Residual Learning)을 확장하여, 다중모달(multimodal) 잔차 학습을 이용한 다중모달 잔차 네트워크(Multimodal Residual Networks, MRN)를 제공하여 시각 정보와 자연어 정보의 통합적 추론 문제를 해결하는데 도움을 줄 수 있다. 또한, 명시적인 어텐션 파라미터를 사용하지 않고도, 어텐션 모델을 내포함으로써 어텐션 효과를 얻을 수 있다. 게다가, 명시적인 어텐션 파라미터를 사용하지 않고도, 어텐션 모델을 내포함으로써 어텐션 효과를 얻을 수 있다.

이상에서 설명된 시스템 또는 장치는 하드웨어 구성요소, 소프트웨어 구성요소 또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

입력된 이미지에 대한 시각적 특징 벡터를 추출하고, 입력된 질문에 대한 질문 벡터를 추출하는 제1 단계;
상기 질문 벡터에 깊은 잔차 학습(Deep Residual Learning)을 위한 선형 사영(linear mapping) 및 하이퍼볼릭 탄젠트 사영(Hyperbolic Tangent mapping)을 반영하여 제1 결과값을 계산하는 제2 단계;
상기 시각적 특징 벡터에 상기 선형 사영 및 상기 하이퍼볼릭 탄젠트 사영을 반영하여 제2 결과값을 계산하는 제3 단계;
상기 제1 결과값과 상기 제2 결과값간의 원소단위곱에 대한 제3 결과값을 계산하는 제4 단계; 및
상기 질문 벡터에 상기 선형 사영을 반영한 결과값과 상기 제3 결과값간의 원소단위합에 대한 제4 결과값을 계산하는 제5 단계
를 포함하는 것을 특징으로 하는 데이터 처리 방법.
제1항에 있어서,
상기 제2 단계 내지 상기 제5 단계를 m(상기 m은 자연수) 회 반복 수행하는 제6 단계를 더 포함하고,
상기 제2 단계는,
상기 m이 1 이상인 경우, 이전 회차에 계산된 제4 결과값에 상기 선형 사영 및 상기 하이퍼볼릭 탄젠트 사영을 반영하여 금번 회차를 위한 제1 결과값을 계산하고,
상기 제5 단계는,
상기 m이 1 이상인 경우, 이전 회차에 계산된 제4 결과값에 선형 사영을 반영한 결과값과 금번 회차에 계산된 제3 결과값간의 원소단위합을 통해 금번 회차를 위한 제4 결과값을 계산하는 것을 특징으로 하는 데이터 처리 방법.
제1항에 있어서,
상기 제2 단계 내지 상기 제5 단계를 m(상기 m은 자연수) 회 반복 수행하는 제6 단계를 더 포함하고,
상기 제2 단계는,
상기 m이 1 이상인 경우, 이전 회차에 계산된 제4 결과값에 상기 선형 사영 및 상기 하이퍼볼릭 탄젠트 사영을 반영하여 금번 회차를 위한 제1 결과값을 계산하고,
상기 제5 단계는,
상기 m이 1 이상인 경우, 상기 질문 벡터와 금번 회차에 계산된 제3 결과값간의 원소단위합을 통해 금번 회차를 위한 제4 결과값을 계산하는 것을 특징으로 하는 데이터 처리 방법.
제1항에 있어서,
상기 제4 결과값과 상기 시각적 특징 벡터에 선형 사영을 반영한 결과값간의 원소단위합에 대한 제5 결과값을 계산하는 단계
를 더 포함하는 것을 특징으로 하는 데이터 처리 방법.
제1항에 있어서,
상기 제3 단계는,
상기 시각적 특징 벡터에 상기 선형 사영 및 상기 하이퍼볼릭 탄젠트 사영을 반영한 결과값에 상기 선형 사영 및 상기 하이퍼볼릭 탄젠트 사영을 한 번 더 반영하여 제2 결과값을 계산하는 것을 특징으로 하는 데이터 처리 방법.
제1항에 있어서,
상기 제2 단계는,
상기 질문 벡터에 상기 선형 사영 및 상기 하이퍼볼릭 탄젠트 사영을 반영한 결과값에 상기 선형 사영 및 상기 하이퍼볼릭 탄젠트 사영을 한 번 더 반영하여 제1 결과값을 계산하는 것을 특징으로 하는 데이터 처리 방법.
제1항에 있어서,
상기 제4 결과값에 선형 사영을 반영하고, 소프트맥스 함수(softmax function)를 적용하여 상기 입력된 이미지에 대한 상기 입력된 질문의 답변을 결정하는 단계
를 더 포함하는 것을 특징으로 하는 데이터 처리 방법.
제1항 내지 제7항 중 어느 한 항의 방법을 컴퓨터에 실행시키기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록매체.
컴퓨터와 결합되어 데이터 처리 방법을 컴퓨터에 실행시키기 위해 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램에 있어서,
상기 데이터 처리 방법은,
입력된 이미지에 대한 시각적 특징 벡터를 추출하고, 입력된 질문에 대한 질문 벡터를 추출하는 제1 단계;
상기 질문 벡터에 깊은 잔차 학습(Deep Residual Learning)을 위한 선형 사영(linear mapping) 및 하이퍼볼릭 탄젠트 사영(Hyperbolic Tangent mapping)을 반영하여 제1 결과값을 계산하는 제2 단계;
상기 시각적 특징 벡터에 상기 선형 사영 및 상기 하이퍼볼릭 탄젠트 사영을 반영하여 제2 결과값을 계산하는 제3 단계;
상기 제1 결과값과 상기 제2 결과값간의 원소단위곱에 대한 제3 결과값을 계산하는 제4 단계; 및
상기 질문 벡터에 상기 선형 사영을 반영한 결과값과 상기 제3 결과값간의 원소단위합에 대한 제4 결과값을 계산하는 제5 단계
를 포함하는 것을 특징으로 하는 컴퓨터 프로그램.
데이터 처리 방법을 실행하기 위해 컴퓨터로 구현되는 데이터 처리 시스템에 있어서,
컴퓨터에서 판독 가능한 명령을 저장하는 메모리; 및
상기 메모리에 저장된 명령을 실행하도록 구현되는 적어도 하나의 프로세서
를 포함하고,
상기 적어도 하나의 프로세서는,
입력된 이미지에 대한 시각적 특징 벡터를 추출하고, 입력된 질문에 대한 질문 벡터를 추출하는 제1 프로세스;
상기 질문 벡터에 깊은 잔차 학습(Deep Residual Learning)을 위한 선형 사영(linear mapping) 및 하이퍼볼릭 탄젠트 사영(Hyperbolic Tangent mapping)을 반영하여 제1 결과값을 계산하는 제2 프로세스;
상기 시각적 특징 벡터에 상기 선형 사영 및 상기 하이퍼볼릭 탄젠트 사영을 반영하여 제2 결과값을 계산하는 제3 프로세스;
상기 제1 결과값과 상기 제2 결과값간의 원소단위곱에 대한 제3 결과값을 계산하는 제4 프로세스; 및
상기 질문 벡터에 상기 선형 사영을 반영한 결과값과 상기 제3 결과값간의 원소단위합에 대한 제4 결과값을 계산하는 제5 프로세스
를 처리하는 것을 특징으로 하는 데이터 처리 시스템.
제10항에 있어서,
상기 적어도 하나의 프로세서는,
상기 제2 프로세스 내지 상기 제5 프로세스를 m(상기 m은 자연수) 회 반복 수행하는 제6 프로세스를 더 처리하고,
상기 m이 1 이상인 경우 상기 제2 프로세스를 반복 수행하기 위해, 이전 회차에 계산된 제4 결과값에 상기 선형 사영 및 상기 하이퍼볼릭 탄젠트 사영을 반영하여 금번 회차를 위한 제1 결과값을 계산하고,
상기 m이 1 이상인 경우 상기 제5 프로세스를 반복 수행하기 위해, 이전 회차에 계산된 제4 결과값에 선형 사영을 반영한 결과값과 금번 회차에 계산된 제3 결과값간의 원소단위합을 통해 금번 회차를 위한 제4 결과값을 계산하는 것을 특징으로 하는 데이터 처리 시스템.
제10항에 있어서,
상기 적어도 하나의 프로세서는, 상기 제3 프로세스를 처리하기 위해,
상기 시각적 특징 벡터에 상기 선형 사영 및 상기 하이퍼볼릭 탄젠트 사영을 반영한 결과값에 상기 선형 사영 및 상기 하이퍼볼릭 탄젠트 사영을 한 번 더 반영하여 제2 결과값을 계산하는 것을 특징으로 하는 데이터 처리 시스템.
제10항에 있어서,
상기 적어도 하나의 프로세서는,
상기 제4 결과값에 선형 사영을 반영하고, 소프트맥스 함수(softmax function)를 적용하여 상기 입력된 이미지에 대한 상기 입력된 질문의 답변을 결정하는 프로세스
를 더 처리하는 것을 특징으로 하는 데이터 처리 시스템.