KR20210098081A

KR20210098081A - 선택적 잔여학습을 이용한 시각 질의 응답 방법 및 장치

Info

Publication number: KR20210098081A
Application number: KR1020200011823A
Authority: KR
Inventors: 변혜란; 홍종광; 박성호; 황선희
Original assignee: 연세대학교 산학협력단
Priority date: 2020-01-31
Filing date: 2020-01-31
Publication date: 2021-08-10
Also published as: KR102368560B1

Abstract

본 실시예들은 셀프 어텐션 유닛, 선택적 어텐션 유닛, 및 가이드 어텐션 유닛을 포함하는 어텐션 기반의 정답 추론 모델에서 중요 영역에 해당하지 않는 일부 벡터를 선택적으로 제로 벡터로 치환하고, 어텐션 맵에서 중요 영역에 해당하지 않는 일부 열을 선택적으로 마스킹하여, 질문에 대한 정답의 정확도를 향상시킨 시각 질의 응답 장치 및 방법을 제공한다.

Description

선택적 잔여학습을 이용한 시각 질의 응답 방법 및 장치 {Visual Question Answering Apparatus Using Selective Residual Learning and Method Thereof}

본 발명이 속하는 기술 분야는 시각 질의 응답 장치 및 방법에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

시각적 질문 응답(Visual Question Answering, VQA)은 이미지에 관한 다양한 시각적인 의미론적 수준의 질문으로부터 단어를 찾고 이미지의 중요한 영역을 찾아서 정답을 추론하는 기술이다. 시각적 질문 응답은 동일한 이미지에 대하여 다양한 시각적인 의미론적 수준의 질문을 요구한다. 예컨대, 질문은 이미지에 대하여 "물체가 무엇인지", "물체의 색상이 무엇인지", "물체의 개수" 등을 요구할 수 있다.

셀프 어텐션 모델은 특징들을 질의, 키, 값으로 구분하고 특징들의 중요한 관계를 고려하여 어텐션 가중치를 산출한다.

한국등록특허공보 제10-1725885호 (2017.04.05)

본 발명의 실시예들은 셀프 어텐션 유닛, 선택적 어텐션 유닛, 및 가이드 어텐션 유닛을 포함하는 어텐션 기반의 정답 추론 모델에서 중요 영역에 해당하지 않는 일부 벡터를 선택적으로 제로 벡터로 치환하고, 어텐션 맵에서 중요 영역에 해당하지 않는 일부 열을 선택적으로 마스킹하여, 질문에 대한 정답의 정확도를 높이는 데 주된 목적이 있다.

본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 수 있다.

본 실시예의 일 측면에 의하면, 컴퓨팅 디바이스에 의한 시각 질의 응답 방법에 있어서, 질문 문장으로부터 질문 벡터를 추출하는 단계, 이미지로부터 영역 특징 벡터를 추출하는 단계, 및 상기 질문 벡터 및 상기 영역 특징 벡터로부터 어텐션 기반의 정답 추론 모델을 통해 정답 영역을 출력하는 단계를 포함하며, 상기 어텐션 기반의 정답 추론 모델은 어텐션 유닛이 적층된 계층적 모델이며, 상기 어텐션 유닛이 적층된 계층적 모델은 중요 관계에 있는 영역과 중요하지 않은 관계에 있는 영역을 구분하고, 상기 중요 관계에 있는 영역을 선택하여 상기 정답 영역을 추론하는 것을 특징으로 하는 시각 질의 응답 방법을 제공한다.

상기 어텐션 유닛은 질의에 대해서 키와의 유사도를 산출하고, 상기 산출한 유사도를 상기 키에 매핑된 값에 반영하고, 상기 유사도가 반영된 값을 출력할 수 있다.

상기 어텐션 유닛은 셀프 어텐션 유닛, 선택적 어텐션 유닛, 및 가이드 어텐션 유닛을 포함할 수 있다.

상기 셀프 어텐션 유닛이 복수로 적층되어 상기 질문 벡터를 처리하고, 상기 선택적 어텐션 유닛 및 상기 가이드 어텐션 유닛이 교대로 적층되어 상기 영역 특징 벡터를 처리할 수있다.

상기 셀프 어텐션 유닛이 상기 가이드 어텐션 유닛에 연결될 수 있다.

상기 셀프 어텐션 유닛은 상기 질문 벡터에 상기 질의, 상기 키, 및 상기 값을 적용하고, 상기 선택적 어텐션 유닛은 상기 영역 특징 벡터에 상기 질의, 상기 키, 및 상기 값을 적용하고, 상기 가이드 유닛은 상기 영역 특징 벡터에 상기 질의를 적용하고, 상기 질문 벡터에 상기 키 및 상기 값을 적용할 수 있다.

상기 선택적 어텐션 유닛은 상기 영역 특징 벡터 중에서 상기 중요하지 않은 관계에 있는 영역에 해당하는 일부 벡터를 제로 벡터로 치환하여, 입력 정보를 유지할 수 있다.

상기 선택적 어텐션 유닛은 상기 선택적 어텐션 유닛이 생성한 어텐션 맵에서 상기 중요 관계에 있는 영역에 해당하지 않는 일부 열에 마스킹을 적용하여, 상기 중요 관계에 있는 영역에 해당하는 일부 벡터를 유지할 수 있다.

상기 어텐션 기반의 정답 추론 모델은 상기 영역 특징 벡터에 상기 이미지에서의 위치 정보를 포함시킨 영역 위치 특징 벡터를 생성하고, 상기 영역 위치 특징 벡터를 이용하여 상기 정답 영역을 출력할 수 있다.

본 실시예의 다른 측면에 의하면, 하나 이상의 프로세서 및 상기 하나 이상의 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 시각 질의 응답 장치에 있어서, 상기 프로세서는 질문 문장으로부터 질문 벡터를 추출하고, 이미지로부터 영역 특징 벡터를 추출하고, 상기 질문 벡터 및 상기 영역 특징 벡터로부터 어텐션 기반의 정답 추론 모델을 통해 정답 영역을 출력하며, 상기 어텐션 기반의 정답 추론 모델은 어텐션 유닛이 적층된 계층적 모델이며, 상기 어텐션 유닛이 적층된 계층적 모델은 중요 관계에 있는 영역과 중요하지 않은 관계에 있는 영역을 구분하고, 상기 중요 관계에 있는 영역을 선택하여 상기 정답 영역을 추론하는 것을 특징으로 하는 시각 질의 응답 장치를 제공한다.

이상에서 설명한 바와 같이 본 발명의 실시예들에 의하면, 셀프 어텐션 유닛, 선택적 어텐션 유닛, 및 가이드 어텐션 유닛을 포함하는 어텐션 기반의 정답 추론 모델에서 중요 영역에 해당하지 않는 일부 벡터를 선택적으로 제로 벡터로 치환하고, 어텐션 맵에서 중요 영역에 해당하지 않는 일부 열을 선택적으로 마스킹하여, 질문에 대한 정답의 정확도를 향상시키는 효과가 있다.

여기에서 명시적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급된다.

도 1은 시간 질의 응답에서 객체 간의 관계를 예시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 시각 질의 응답 장치를 예시한 블록도이다.
도 3은 본 발명의 다른 실시예에 따른 시각 질의 응답 방법을 예시한 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 시각 질의 응답 장치의 정답 추론 모델을 예시한 도면이다.
도 5은 본 발명의 일 실시예에 따른 시각 질의 응답 장치의 정답 추론 모델의 선택적 어텐션 유닛을 예시한 도면이다.
도 6 및 도 7은 본 발명의 일 실시예에 따른 시각 질의 응답 장치의 정답 추론 모델이 어텐션 맵에 마스킹을 수행하는 것을 예시한 도면이다.
도 8은 본 발명의 일 실시예에 따른 시각 질의 응답 장치의 정답 추론 모델이 영역 특징에 위치 정보를 추가하는 것을 예시한 도면이다.
도 9는 본 발명의 실시예들에 따라 수행된 모의실험 결과를 도시한 것이다.

이하, 본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하고, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다.

도 1은 시간 질의 응답에서 객체 간의 관계를 예시한 도면이다.

이미지에서 추출된 영역 정보에서 중요 관계에 있는 영역과 중요하지 않은 관계에 있는 영역이 존재한다. 질문과 관련이 없는 정보에 해당하는 중요하지 않은 관계에 있는 영역은 정답 추론 과정에서 혼동을 줄 수 있다.

본 실시예에 따른 시각 질의 응답 장치 및 방법은 질문과 관련된 정보에 해당하는 중요 관계에 있는 영역을 중심으로 정답을 추론한다.

도 2는 본 발명의 일 실시예에 따른 시각 질의 응답 장치를 예시한 블록도이다.

시각 질의 응답 장치(210)는 적어도 하나의 프로세서(220), 컴퓨터 판독 가능한 저장매체(230) 및 통신 버스(270)를 포함한다.

프로세서(220)는 시각 질의 응답 장치(210)로 동작하도록 제어할 수 있다. 예컨대, 프로세서(220)는 컴퓨터 판독 가능한 저장 매체(230)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 컴퓨터 실행 가능 명령어는 프로세서(220)에 의해 실행되는 경우 시각 질의 응답 장치(210)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.

컴퓨터 판독 가능한 저장 매체(230)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능한 저장 매체(130)에 저장된 프로그램(240)은 프로세서(220)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독한 가능 저장 매체(230)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 시각 질의 응답 장치(210)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.

통신 버스(270)는 프로세서(220), 컴퓨터 판독 가능한 저장 매체(240)를 포함하여 시각 질의 응답 장치(210)의 다른 다양한 컴포넌트들을 상호 연결한다.

시각 질의 응답 장치(210)는 또한 하나 이상의 입출력 장치를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(250) 및 하나 이상의 통신 인터페이스(260)를 포함할 수 있다. 입출력 인터페이스(250) 및 통신 인터페이스(260)는 통신 버스(170)에 연결된다. 입출력 장치는 입출력 인터페이스(250)를 통해 시각 질의 응답 장치(210)의 다른 컴포넌트들에 연결될 수 있다.

시각 질의 응답 장치(210)는 셀프 어텐션 유닛, 선택적 어텐션 유닛, 및 가이드 어텐션 유닛을 포함하는 어텐션 기반의 정답 추론 모델에서 중요 영역에 해당하지 않는 일부 벡터를 선택적으로 제로 벡터로 치환하고, 어텐션 맵에서 중요 영역에 해당하지 않는 일부 열을 선택적으로 마스킹하여, 질문에 대한 정답의 정확도를 향상시킨다.

도 3은 본 발명의 다른 실시예에 따른 시각 질의 응답 방법을 예시한 흐름도이다. 시각 질의 응답 방법은 시각 질의 응답 장치에 의해 수행될 수 있다.

단계 S310에서 프로세서는 질문 문장으로부터 질문 벡터를 추출한다. 프로세서는 장단기 메모리(LSTM) 모델을 이용하여 단어 세트를 문장 벡터로 변환할 수 있다. 프로세서는 단어 임베딩 모델을 통해 질문 벡터를 추출할 수 있다.

단계 S320에서 프로세서는 이미지로부터 영역 특징 벡터를 추출한다. 프로세서는 특징 추출 모델을 통해 영역 특징 벡터를 추출할 수 있다. 특징 추출 모델은 필터를 적용하여 특징 벡터를 추출하는 레이어를 포함한다. 레이어는 특징을 추출하는 컨볼루션 레이어(Convolution Layer)와 대표 특징을 선택하여 서브 샘플링을 수행하는 풀링 레이어(Pooling Layer)를 포함할 수 있다. 특징 추출 모델은 컨볼루션 필터를 공유할 수 있고, 레이어는 파라미터를 포함할 수 있고, 레이어의 파라미터는 학습가능한 필터 집합을 포함한다. 파라미터는 노드 간의 가중치(ω) 및/또는 바이어스(b)를 포함할 수 있다.

단계 S330에서 프로세서는 질문 벡터 및 영역 특징 벡터로부터 어텐션 기반의 정답 추론 모델을 통해 정답 영역을 출력한다.

어텐션 기반의 정답 추론 모델은 어텐션 유닛이 적층된 계층적 모델이며, 어텐션 유닛이 적층된 계층적 모델은 중요 관계에 있는 영역과 중요하지 않은 관계에 있는 영역을 구분하고, 중요 관계에 있는 영역을 선택하여 정답 영역을 추론한다.

도 4는 본 발명의 일 실시예에 따른 시각 질의 응답 장치의 정답 추론 모델을 예시한 도면이다.

시각 질의 응답 장치는 특징 추출 모델, 임베딩 모델, 어텐션 모델, 정답 분류 모델을 포함할 수 있다.

특징 추출 모델은 레이어가 연결된 네트워크이면 가중치 및 바이어스를 학습하는 모델이다. 특징 추출 모델은 CNN(Convolutional Neural Network) 등으로 구현될 수 있다.

임베딩 모델은 단어를 벡터로 변경하는 모델이다. 임베딩 모델은 LSTM(Long Short Term Memory), GRU(Gated Recurrent Unit) 등으로 구현될 수 있다.

어텐션 모델은 예측 과정에서 특정 영역을 집중하여 관련된 영역에 어텐션 가중치를 부여하는 모델이다. 어텐션 메커니즘은 키-값 자료를 통해 매핑된 값을 추출할 수 있다. 주어진 쿼리에 대한 키의 유사도를 산출하고 키에 매핑된 값을 더해 반환한다.

정답 분류 모델은 데이터에 대한 클래스를 예측하고 해당하는 레이블을 부여한다. 신경 네트워크 등으로 구현된 다양한 분류 모델이 적용될 수 있다.

어텐션 유닛은 질의에 대해서 키와의 유사도를 산출하고, 산출한 유사도를 키에 매핑된 값에 반영하고, 유사도가 반영된 값을 출력한다.

어텐션 유닛은 셀프 어텐션 유닛, 선택적 어텐션 유닛, 및 가이드 어텐션 유닛을 포함한다. 셀프 어텐션 유닛이 복수로 적층되어 질문 벡터를 처리한다. 선택적 어텐션 유닛 및 가이드 어텐션 유닛이 교대로 적층되어 영역 특징 벡터를 처리한다. 셀프 어텐션 유닛이 가이드 어텐션 유닛에 연결된다.

영역 특징 벡터는 X = [x₁, x₂, ... , x_n]이고, 질문 벡터는 Y = [y₁, y₂, ... , y_m]로 표현될 수 있다.

셀프 어텐션 유닛은 질문 벡터에 질의, 키, 및 값을 적용하며, 수학식 1 및 수학식 2와 같이 표현된다.

d_k는 키의 차원이다.

선택적 어텐션 유닛은 영역 특징 벡터에 질의, 키, 및 값을 적용한다.

가이드 유닛은 영역 특징 벡터에 질의를 적용하고, 질문 벡터에 키 및 값을 적용한다. 인코더와 달리 디코더는 2 개의 입력 어텐션을 적용한다.

K'과 V'을 산출하고, 새로운 특징 벡터 X'를 산출한다.

도 5은 본 발명의 일 실시예에 따른 시각 질의 응답 장치의 정답 추론 모델의 선택적 어텐션 유닛을 예시한 도면이다.

선택적 어텐션 유닛은 영역 특징 벡터 중에서 중요하지 않은 관계에 있는 영역에 해당하는 일부 벡터를 제로 벡터로 치환하여, 입력 정보를 유지한다.

선택적 어텐션 유닛은 중요 관계에 있는 영역을 선택한다. a_i는 중요 관계 검출 변수이다.

n은 이미지 영역 특징의 개수이고, m, i는 어텐션 매트릭스의 행과 열의 인덱스이다. 선택 기준이 되는 임계치는 잔여 학습을 위한 선택율(r)에 의해 결정된다. 선택율은 0 내지 1의 범위에서 설정될 수 있다. 예컨대, r이 0.9이면 상위 90%를 제외하고 0 벡터로 치환된다.

도 6 및 도 7은 본 발명의 일 실시예에 따른 시각 질의 응답 장치의 정답 추론 모델이 어텐션 맵에 마스킹을 수행하는 것을 예시한 도면이다.

선택적 어텐션 유닛은 선택적 어텐션 유닛이 생성한 어텐션 맵에서 중요하지 않은 관계에 있는 영역에 해당하는 일부 열에 마스킹을 적용하여, 중요 관계에 있는 영역에 해당하는 일부 벡터를 유지한다.

이전 결과에서 선택되지 않은 벡터를 다음 연산에서 다시 선택되지 않게 마스크를 적용한다. 이전 결과를 기반으로 어텐션 맵의 열을 0으로 마스킹한다. 어텐션 맵의 설계 방식에 따라 행과 열은 반대로 위치할 수도 있고, 행 단위로 마스킹을 적용할 수 있다.

도 8은 본 발명의 일 실시예에 따른 시각 질의 응답 장치의 정답 추론 모델이 영역 특징에 위치 정보를 추가하는 것을 예시한 도면이다.

어텐션 기반의 정답 추론 모델은 영역 특징 벡터에 이미지에서의 위치 정보를 포함시킨 영역 위치 특징 벡터를 생성하고, 영역 위치 특징 벡터를 이용하여 정답 영역을 출력한다. 예컨대, 이미지 전체의 가로 및 세로를 기준으로 해당하는 추출 영역의 가로 좌표 및 세로 좌표에 대해 비율 정보를 추가한다. 상대 위치 정보를 통해 정답의 정확도를 향상 시킬 수 있다.

도 9는 본 발명의 실시예들에 따라 수행된 모의실험 결과를 도시한 것이다.

기존 모델은 이미지에 대해 시계의 개수를 1 개로 오답을 출력하였으나, 본 실시예에 따른 시각 질의 응답 장치는 정답에 해당하는 시계의 개수인 2를 정답을 출력하였고, 기존 모델이 전체 라이더가 헬멧을 썼는가에 대한 질문에 대해 "아니오"라는 오답을 출력하였으나, 본 실시예에 따른 시각 질의 응답 장치는 "예"라는 정답을 출력하였다.

셀프 어텐션 유닛, 선택적 어텐션 유닛, 및 가이드 어텐션 유닛을 포함하는 어텐션 기반의 정답 추론 모델에서 중요 영역에 해당하지 않는 일부 벡터를 선택적으로 제로 벡터로 치환하고, 어텐션 맵에서 중요 영역에 해당하지 않는 일부 열을 선택적으로 마스킹하여, 질문에 대한 정답의 정확도를 향상시킬 수 있음을 파악할 수 있다.

시각 질의 응답 장치는 하드웨어, 펌웨어, 소프트웨어 또는 이들의 조합에 의해 로직회로 내에서 구현될 수 있고, 범용 또는 특정 목적 컴퓨터를 이용하여 구현될 수도 있다. 장치는 고정배선형(Hardwired) 기기, 필드 프로그램 가능한 게이트 어레이(Field Programmable Gate Array, FPGA), 주문형 반도체(Application Specific Integrated Circuit, ASIC) 등을 이용하여 구현될 수 있다. 또한, 장치는 하나 이상의 프로세서 및 컨트롤러를 포함한 시스템온칩(System on Chip, SoC)으로 구현될 수 있다.

시각 질의 응답 장치는 하드웨어적 요소가 마련된 컴퓨팅 디바이스 또는 서버에 소프트웨어, 하드웨어, 또는 이들의 조합하는 형태로 탑재될 수 있다. 컴퓨팅 디바이스 또는 서버는 각종 기기 또는 유무선 통신망과 통신을 수행하기 위한 통신 모뎀 등의 통신장치, 프로그램을 실행하기 위한 데이터를 저장하는 메모리, 프로그램을 실행하여 연산 및 명령하기 위한 마이크로프로세서 등을 전부 또는 일부 포함한 다양한 장치를 의미할 수 있다.

도 3에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나 이는 예시적으로 설명한 것에 불과하고, 이 분야의 기술자라면 본 발명의 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 도 3에 기재된 순서를 변경하여 실행하거나 또는 하나 이상의 과정을 병렬적으로 실행하거나 다른 과정을 추가하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이다.

본 실시예들에 따른 동작은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능한 매체에 기록될 수 있다. 컴퓨터 판독 가능한 매체는 실행을 위해 프로세서에 명령어를 제공하는 데 참여한 임의의 매체를 나타낸다. 컴퓨터 판독 가능한 매체는 프로그램 명령, 데이터 파일, 데이터 구조 또는 이들의 조합을 포함할 수 있다. 예를 들면, 자기 매체, 광기록 매체, 메모리 등이 있을 수 있다. 컴퓨터 프로그램은 네트워크로 연결된 컴퓨터 시스템 상에 분산되어 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 본 실시예를 구현하기 위한 기능적인(Functional) 프로그램, 코드, 및 코드 세그먼트들은 본 실시예가 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있을 것이다.

본 실시예들은 본 실시예의 기술 사상을 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

컴퓨팅 디바이스에 의한 시각 질의 응답 방법에 있어서,
질문 문장으로부터 질문 벡터를 추출하는 단계;
이미지로부터 영역 특징 벡터를 추출하는 단계; 및
상기 질문 벡터 및 상기 영역 특징 벡터로부터 어텐션 기반의 정답 추론 모델을 통해 정답 영역을 출력하는 단계를 포함하며,
상기 어텐션 기반의 정답 추론 모델은 어텐션 유닛이 적층된 계층적 모델이며, 상기 어텐션 유닛이 적층된 계층적 모델은 중요 관계에 있는 영역과 중요하지 않은 관계에 있는 영역을 구분하고, 상기 중요 관계에 있는 영역을 선택하여 상기 정답 영역을 추론하는 것을 특징으로 하는 시각 질의 응답 방법.
제1항에 있어서,
상기 어텐션 유닛은 질의에 대해서 키와의 유사도를 산출하고, 상기 산출한 유사도를 상기 키에 매핑된 값에 반영하고, 상기 유사도가 반영된 값을 출력하는 것을 특징으로 하는 시각 질의 응답 방법.
제2항에 있어서,
상기 어텐션 유닛은 셀프 어텐션 유닛, 선택적 어텐션 유닛, 및 가이드 어텐션 유닛을 포함하며,
상기 셀프 어텐션 유닛이 복수로 적층되어 상기 질문 벡터를 처리하고,
상기 선택적 어텐션 유닛 및 상기 가이드 어텐션 유닛이 교대로 적층되어 상기 영역 특징 벡터를 처리하고,
상기 셀프 어텐션 유닛이 상기 가이드 어텐션 유닛에 연결되는 것을 특징으로 하는 시각 질의 응답 방법.
제3항에 있어서,
상기 셀프 어텐션 유닛은 상기 질문 벡터에 상기 질의, 상기 키, 및 상기 값을 적용하고,
상기 선택적 어텐션 유닛은 상기 영역 특징 벡터에 상기 질의, 상기 키, 및 상기 값을 적용하고,
상기 가이드 유닛은 상기 영역 특징 벡터에 상기 질의를 적용하고, 상기 질문 벡터에 상기 키 및 상기 값을 적용하는 것을 특징으로 하는 시각 질의 응답 방법.
제3항에 있어서,
상기 선택적 어텐션 유닛은 상기 영역 특징 벡터 중에서 상기 중요하지 않은 관계에 있는 영역에 해당하는 일부 벡터를 제로 벡터로 치환하여, 입력 정보를 유지하는 것을 특징으로 하는 시각 질의 응답 방법.
제3항에 있어서,
상기 선택적 어텐션 유닛은 상기 선택적 어텐션 유닛이 생성한 어텐션 맵에서 상기 중요하지 않은 관계에 있는 영역에 해당하는 일부 열에 마스킹을 적용하여, 상기 중요 관계에 있는 영역에 해당하는 일부 벡터를 유지하는 것을 특징으로 하는 시각 질의 응답 방법.
제1항에 있어서,
상기 어텐션 기반의 정답 추론 모델은 상기 영역 특징 벡터에 상기 이미지에서의 위치 정보를 포함시킨 영역 위치 특징 벡터를 생성하고, 상기 영역 위치 특징 벡터를 이용하여 상기 정답 영역을 출력하는 것을 특징으로 하는 시각 질의 응답 방법.
하나 이상의 프로세서 및 상기 하나 이상의 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 시각 질의 응답 장치에 있어서,
상기 프로세서는 질문 문장으로부터 질문 벡터를 추출하고, 이미지로부터 영역 특징 벡터를 추출하고, 상기 질문 벡터 및 상기 영역 특징 벡터로부터 어텐션 기반의 정답 추론 모델을 통해 정답 영역을 출력하며,
상기 어텐션 기반의 정답 추론 모델은 어텐션 유닛이 적층된 계층적 모델이며, 상기 어텐션 유닛이 적층된 계층적 모델은 중요 관계에 있는 영역과 중요하지 않은 관계에 있는 영역을 구분하고, 상기 중요 관계에 있는 영역을 선택하여 상기 정답 영역을 추론하는 것을 특징으로 하는 시각 질의 응답 장치.
제8항에 있어서,
상기 어텐션 유닛은 질의에 대해서 키와의 유사도를 산출하고, 상기 산출한 유사도를 상기 키에 매핑된 값에 반영하고, 상기 유사도가 반영된 값을 출력하는 것을 특징으로 하는 시각 질의 응답 장치.
제9항에 있어서,
상기 어텐션 유닛은 셀프 어텐션 유닛, 선택적 어텐션 유닛, 및 가이드 어텐션 유닛을 포함하며,
상기 셀프 어텐션 유닛이 복수로 적층되어 상기 질문 벡터를 처리하고,
상기 선택적 어텐션 유닛 및 상기 가이드 어텐션 유닛이 교대로 적층되어 상기 영역 특징 벡터를 처리하고,
상기 셀프 어텐션 유닛이 상기 가이드 어텐션 유닛에 연결되는 것을 특징으로 하는 시각 질의 응답 장치.
제8항에 있어서,
상기 셀프 어텐션 유닛은 상기 질문 벡터에 상기 질의, 상기 키, 및 상기 값을 적용하고,
상기 선택적 어텐션 유닛은 상기 영역 특징 벡터에 상기 질의, 상기 키, 및 상기 값을 적용하고,
상기 가이드 유닛은 상기 영역 특징 벡터에 상기 질의를 적용하고, 상기 질문 벡터에 상기 키 및 상기 값을 적용하며,
상기 선택적 어텐션 유닛은 상기 영역 특징 벡터 중에서 상기 중요하지 않은 관계에 있는 영역에 해당하는 일부 벡터를 제로 벡터로 치환하여, 입력 정보를 유지하며,
상기 선택적 어텐션 유닛은 상기 선택적 어텐션 유닛이 생성한 어텐션 맵에서 상기 중요하지 않은 관계에 있는 영역에 해당하는 일부 열에 마스킹을 적용하여, 상기 중요 관계에 있는 영역에 해당하는 일부 벡터를 유지하는 것을 특징으로 하는 시각 질의 응답 장치.
제8항에 있어서,
상기 어텐션 기반의 정답 추론 모델은 상기 영역 특징 벡터에 상기 이미지에서의 위치 정보를 포함시킨 영역 위치 특징 벡터를 생성하고, 상기 영역 위치 특징 벡터를 이용하여 상기 정답 영역을 출력하는 것을 특징으로 하는 시각 질의 응답 장치.