KR20220002067A

KR20220002067A - 이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램

Info

Publication number: KR20220002067A
Application number: KR1020210026684A
Authority: KR
Inventors: 리 위린; 친 시아멍; 후앙 쥐; 시에 췬인; 한 쥔위
Original assignee: 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date: 2020-06-30
Filing date: 2021-02-26
Publication date: 2022-01-06
Also published as: CN111782838B; CN111782838A; JP2022013645A; EP3819790A3; US20210406592A1; US11775574B2; JP7167216B2; EP3819790A2; KR102588894B1

Abstract

본 발명은, 입력 이미지 및 입력 질문을 취득하는 것, 입력 이미지에 기초하여 제1 노드 특징 및 제1 에지 특징을 포함하는 시각 그래프를 구축하는 것, 입력 질문에 기초하여, 제2 노드 특징 및 제2 에지 특징을 포함하는 질문 그래프를 구축하는 것, 시각 그래프 및 질문 그래프에 대해 멀티 양상 융합을 실행함으로써, 업데이트 된 시각 그래프 및 업데이트 된 질문 그래프를 얻는 것, 입력 질문에 기초하여 질문 특징을 확정하는 것, 업데이트 된 시각 그래프, 업데이트 된 질문 그래프 및 질문 특징에 기초하여, 융합 특징을 확정하는 것, 및 융합 특징에 기초하여 입력 이미지 및 입력 질문에 대한 예측 답안을 생성하는 것을 포함하는 이미지 문답 방법을 제공한다. 본 발명은 이미지 문답 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램도 제공한다.

Description

이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램{method, apparatus, computer equipment, computer readable storage medium and computer program for visual qustion answering}

본 발명은 컴퓨터 시각, 자연 언어 처리 분야에 관한 것으로서, 보다 구체적으로는, 이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램에 관한 것이다.

이미지 문답 (Visual Question Answering, VQA) 은 아주 도전성있는 임무로서 , 그 목적은 컴퓨터 시각과 자연 언어 처리를 연결시키는 것이다. 이미지 문답 임무에 있어서 , 예를 들어 , 하나의 이미지와 하나의 연관되는 질문이 주어지고, 기계로 하여금 이미지 내용에 따라 일부 상식에 의해 질문의 답안을 추리하여 얻어낼 것을 요구한다. 상기 이미지 문답 임무를 완성하기 위해, 기계는 반드시 교차 양상(CrossModal)의 이해능력을 구비하여, 시각과 언어 이 2 가지 부동한 양상( Modality)의 데이터에 대한 종합적인 이해를 실현하여야 한다.

따라서, 이미지 문답 임무는 다른 단일 양상의 임무(예를 들어, 이미지 식별, 문서 분류 등)에 비해 요구가 더 높다.

이를 감안하여, 본 발명은 이미지 문답 방법 및 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램을 제공한다.

본 발명의 한 측면에 의하면, 입력 이미지 및 입력 질문을 취득하는 것, 입력 이미지에 기초하여, 제1 노드 특징 및 제1 에지 특징을 포함하는 시각 그래프를 구축하는 것, 입력 질문에 기초하여, 제2 노드 특징 및 제2 에지 특징을 포함하는 질문 그래프를 구축하는 것, 시각 그래프 및 질문 그래프에 대해 멀티 양상 융합을 실행함으로써, 업데이트 된 시각 그래프 및 업데이트 된 질문 그래프를 얻는 것, 입력 질문에 기초하여 질문 특징을 확정하는 것, 업데이트 된 시각 그래프, 업데이트 된 질문 그래프 및 질문 특징에 기초하여, 융합 특징을 확정하는 것, 및 융합 특징에 기초하여, 입력 이미지 및 입력 질문에 대한 예측 답안을 생성하는 것을 포함하는 이미지 문답 방법을 제공한다.

본 발명의 실시예에 의하면, 상기 입력 이미지에 기초하여 시각 그래프를 구축하는 것은, 목표 검출 네트워크를 이용하여 입력 이미지를 처리함으로써, 목표 검출 네트워크의 중간층으로부터 입력 이미지중의 복수의 목표 대상에 대한 표상 특징 및 공간 특징을 추출하는 것, 상기 표상 특징 및 공간 특징에 기초하여 제1 노드 특징을 확정하는 것, 목표 검출 네트워크의 출력층이 출력한 처리 결과에 기초하여, 복수의 목표 대상 각각의 위치 정보를 확정하는 것, 복수의 목표 대상 각각의 위치 정보에 기초하여, 복수의 목표 대상 중 임의의 2개의 목표 대상사이의 위치 관계를 확정하는 것, 임의의 2개의 목표 대상사이의 위치 관계에 기초하여, 제1 에지 특징을 확정하는 것, 및 상기 제1 노드 특징 및 제1 에지 특징에 의해 시각 그래프를 구성하는 것을 포함한다.

본 발명의 실시예에 의하면, 상기 복수의 목표 대상 각각의 위치 정보에 기초하여, 복수의 목표 대상 중 임의의 2개의 목표 대상사이의 위치 관계를 확정하는 것은, 상기 임의의 2개의 목표 대상 각각의 위치 정보에 근거하여, 상기 임의의 2개의 목표 대상의 위치 영역사이의 교집합 및 합집합을 계산하는 것, 교집합 및 합집합의 비례 값을 계산하는 것, 상기 비례 값이 소정의 임계치보다 클 경우, 상기 임의의 2개의 목표 대상사이의 위치 관계를 1로 표시하는 것, 및 상기 비례 값이 소정의 임계치이하일 경우, 상기 임의의 2개의 목표 대상사이의 위치 관계를 0으로 표시하는 것을 포함한다.

본 발명의 실시예에 의하면, 상기 입력 질문에 기초하여, 질문 그래프를 구축하는 것은, 워드 인코딩 알고리즘 및 특징 인코딩 알고리즘을 이용하여 입력 질문을 순차적으로 처리함으로써, 입력 질문으로부터 입력 질문중의 복수의 워드 각자의 특징 정보를 나타내기 위한 복수의 워드 노드 특징을 추출하는 것, 의존 분석 알고리즘을 이용하여 복수의 워드 중 임의의 2개의 워드사이의 의존 관계를 확정하는 것, 임의의 2개의 워드사이의 의존 관계에 기초하여, 제2 에지 특징을 확정하는 것, 및 복수의 워드 노드 특징에 의해 제2 노드 특징을 구성하고, 제2 노드 특징 및 제2 에지 특징에 의해 질문 그래프를 구축하는 것 을 포함한다.

본 발명의 실시예에 의하면, 상기 시각 그래프 및 질문 그래프에 대해 멀티 양상 융합을 실행하는 것은, 적어도 1회의 멀티 양상 융합 동작을 실행하는 것을 포함한다. 상기 적어도 1회의 멀티 양상 융합 동작 중 매회의 멀티 양상 융합 동작은, 제1 노드 특징 및 제1 에지 특징에 기초하여, 제1 소정의 네트워크를 이용하여 제1 노드 특징을 인코딩함으로써, 인코딩 된 시각 그래프를 얻는 것, 제2 노드 특징 및 제2 에지 특징에 기초하여, 제2 소정의 네트워크를 이용하여 제2 노드 특징을 인코딩함으로써, 인코딩 된 질문 그래프를 얻는 것, 및 그래프 매칭 알고리즘을 이용하여, 인코딩 된 시각 그래프 및 인코딩 된 질문 그래프에 대해 멀티 양상 융합을 실행함으로써, 업데이트 된 시각 그래프 및 업데이트 된 질문 그래프를 얻는 것을 포함한다.

본 발명의 실시예에 의하면, 제1 소정의 네트워크는, 제1 완전 연결층, 제1 그래프 합성곱층 및 제2 그래프 합성곱층을 포함한다. 상기 제1 노드 특징을 인코딩하는 것은, 제1 완전 연결층을 이용하여 제1 노드 특징을 공간 차원수가 소정 수인 제1 특징으로 매핑하는 것, 제1 그래프 합성곱층을 이용하여 제1 특징을 처리함으로써, 제2 특징을 얻는 것, 제2 그래프 합성곱층을 이용하여 제2 특징을 처리함으로써, 인코딩 된 제1 노드 특징을 얻는 것, 및 인코딩 된 제1 노드 특징 및 제1 에지 특징에 의해 인코딩 된 시각 그래프를 구성하는 것을 포함한다.

본 발명의 실시예에 의하면, 상기 제1 노드 특징을 인코딩하는 것은, 제1 에지 특징에 기초하여 제1 라플라시안 매트릭스를 구축하는 것을 더 포함한다. 상기 제1 그래프 합성곱층을 이용하여 제1 특징을 처리하는 것은, 제1 그래프 합성곱층을 이용하여 제1 라플라시안 매트릭스에 기초하여 제1 특징을 처리함으로써, 복수의 제1 서브 특징을 포함하는 제2 특징을 얻는 것을 포함한다.

본 발명의 실시예에 의하면, 제1 소정의 네트워크는 제1 연관층을 더 포함한다. 상기 제1 노드 특징을 인코딩하는 것은, 제1 연관층을 이용하여 복수의 제1 서브 특징 중 임의의 2개의 제1 서브 특징사이의 연관관계를 계산하고, 임의의 2개의 제1 서브 특징사이의 연관관계에 기초하여 제1 관계 매트릭스를 확정하는 것을 더 포함한다. 상기 제2 그래프 합성곱층을 이용하여 제2 특징을 처리하는 것은, 제2 그래프 합성곱층을 이용하여 제1 관계 매트릭스에 기초하여 제2 특징을 처리함으로써, 인코딩 된 제1 노드 특징을 얻는 것을 포함한다.

본 발명의 실시예에 의하면, 제2 소정의 네트워크는, 제2 완전 연결층, 제3 그래프 합성곱층 및 제4 그래프 합성곱층을 포함한다. 상기 제2 노드 특징을 인코딩하는 것은, 제2 완전 연결층을 이용하여 제2 노드 특징을 공간 차원수가 소정 수인 제3 특징으로 매핑하는 것, 제3 그래프 합성곱층을 이용하여 제3 특징을 처리함으로써, 제4 특징을 얻는 것, 제4 그래프 합성곱층을 이용하여 제4 특징을 처리함으로써, 인코딩 된 제2 노드 특징을 얻는 것, 및 인코딩 된 제2 노드 특징 및 제2 에지 특징에 의해 인코딩 된 질문 그래프를 구성하는 것을 포함한다.

본 발명의 실시예에 의하면, 상기 제2 노드 특징을 인코딩하는 것은, 제2 에지 특징에 기초하여 제2 라플라시안 매트릭스을 구축하는 것을 더 포함한다. 상기 제3 그래프 합성곱층을 이용하여 제3 특징을 처리하는 것은, 제3 그래프 합성곱층을 이용하여 제2 라플라시안 매트릭스에 기초하여 제3 특징을 처리함으로써, 복수의 제2 서브 특징을 포함하는 제4 특징을 얻는 것을 포함한다.

본 발명의 실시예에 의하면, 제2 소정의 네트워크는 제2 연관층을 더 포함한다. 상기 제2 노드 특징을 인코딩하는 것은, 제2 연관층을 이용하여 복수의 제2 서브 특징 중 임의의 2개의 제2 서브 특징사이의 연관관계를 계산하고, 임의의 2개의 제2 서브 특징사이의 연관관계에 기초하여 제2 관계 매트릭스를 확정하는 것을 더 포함한다. 상기 제4 그래프 합성곱층을 이용하여 제4 특징을 처리하는 것은, 제4 그래프 합성곱층을 이용하여 제2 관계 매트릭스에 기초하여 제4 특징을 처리함으로써, 인코딩 된 제2 노드 특징을 얻는 것을 포함한다.

본 발명의 실시예에 의하면, 인코딩 된 시각 그래프중의 인코딩 된 제1 노드 특징은 복수의 제3 서브 특징을 포함하고, 인코딩 된 질문 그래프중의 인코딩 된 제2 노드 특징은 복수의 제4 서브 특징을 포함한다. 상기 그래프 매칭 알고리즘을 이용하여, 인코딩 된 시각 그래프 및 인코딩 된 질문 그래프에 대해 멀티 양상 융합을 실행하는 것은, 그래프 매칭 알고리즘을 이용하여 인코딩 된 제1 노드 특징 및 인코딩 된 제2 노드 특징에 대해 매칭 처리를 실행함으로써, 복수의 제3 서브 특징 중 임의의 제3 서브 특징과 복수의 제4 서브 특징 중 임의의 제4 서브 특징사이의 매칭 관계를 확정하는 것, 임의의 제3 서브 특징과 임의의 제4 서브 특징사이의 매칭 관계에 기초하여, 매칭 매트릭스를 확정하는 것, 주의력 메카니즘 및 매칭 매트릭스에 기초하여, 제1 주의력 가중치 집합 및 제2 주의력 가중치 집합을 각각 확정하는 것, 제1 주의력 가중치 집합, 인코딩 된 제1 노드 특징 및 인코딩 된 제2 노드 특징에 기초하여, 업데이트 된 제2 노드 특징을 확정하는 것, 제2 주의력 가중치 집합, 인코딩 된 제1 노드 특징 및 인코딩 된 제2 노드 특징에 기초하여, 업데이트 된 제1 노드 특징을 확정하는 것, 및 업데이트 된 제1 노드 특징 및 제1 에지 특징에 의해 업데이트 된 시각 그래프를 구성하고, 업데이트 된 제2 노드 특징 및 제2 에지 특징에 의해 업데이트 된 질문 그래프를 구성하는 것을 포함한다.

본 발명의 실시예에 의하면, 상기 입력 질문에 기초하여 질문 특징을 확정하는 것은, 소정의 워드 인코딩 알고리즘 및 소정의 특징 인코딩 알고리즘을 이용하여 입력 질문을 순차적으로 인코딩 처리함으로써, 질문 특징을 얻는 것을 포함한다.

본 발명의 실시예에 의하면, 상기 업데이트 된 시각 그래프, 업데이트 된 질문 그래프 및 질문 특징에 기초하여, 융합 특징을 확정하는 것은, 업데이트 된 제1 노드 특징 및 업데이트 된 제2 노드 특징에 대해 연결 병합을 실행함으로써, 병합 특징을 얻는 것, 병합 특징에 대해 소정의 풀링 동작을 실행함으로써, 추리 특징을 얻는 것, 및 추리 특징 및 질문 특징에 대해 융합 처리를 실행함으로써, 융합 특징을 얻는 것을 포함한다.

본 발명의 실시예에 의하면, 상기 추리 특징 및 질문 특징에 대해 융합 처리를 실행하는 것은, 추리 특징 및 질문 특징에 대해 원소별 내적 처리를 실행함으로써, 융합 특징을 얻는 것을 포함한다.

본 발명의 실시예에 의하면, 상기 융합 특징에 기초하여, 입력 이미지 및 입력 질문에 대한 예측 답안을 생성하는 것은, 멀티 레이어 퍼셉트론을 이용하여 융합 특징을 처리함으로써, 융합 특징에 대한 예측 답안을 얻는 것을 포함한다.

본 발명의 다른 측면에 의하면, 취득 모듈, 제1 그래프 구축 모듈, 제2 그래프 구축 모듈, 업데이트 모듈, 질문 특징 추출 모듈, 융합 모듈 및예측 모듈을 포함하는 이미지 문답 장치를 제공한다. 취득 모듈은, 입력 이미지 및 입력 질문을 취득하기 위한 것이다. 제1 그래프 구축 모듈은, 입력 이미지에 기초하여, 제1 노드 특징 및 제1 에지 특징을 포함하는 시각 그래프를 구축하기 위한 것이다. 제2 그래프 구축 모듈은, 입력 질문에 기초하여, 제2 노드 특징 및 제2 에지 특징을 포함하는 질문 그래프를 구축하기 위한 것이다. 업데이트 모듈은, 시각 그래프 및 질문 그래프에 대해 멀티 양상 융합을 실행함으로써, 업데이트 된 시각 그래프 및 업데이트 된 질문 그래프를 얻기 위한 것이다. 질문 특징 추출 모듈은, 입력 질문에 기초하여 질문 특징을 확정하기 위한 것이다. 융합 모듈은, 업데이트 된 시각 그래프, 업데이트 된 질문 그래프 및 질문 특징에 기초하여, 융합 특징을 확정하기 위한 것이다. 예측 모듈은, 융합 특징에 기초하여, 입력 이미지 및 입력 질문에 대한 예측 답안을 생성하기 위한 것이다.

본 발명의 실시예에 의하면, 제1 그래프 구축 모듈은, 목표 검출 네트워크를 이용하여 입력 이미지를 처리함으로써, 목표 검출 네트워크의 중간층으로부터 입력 이미지중의 복수의 목표 대상에 대한 표상 특징 및 공간 특징을 추출하기 위한 검출 서브 모듈, 상기 표상 특징 및 공간 특징에 기초하여 제1 노드 특징을 확정하기 위한 제1 노드 특징 확정 서브 모듈, 목표 검출 네트워크의 출력층이 출력한 처리 결과에 기초하여, 복수의 목표 대상 각각의 위치 정보를 확정하고, 복수의 목표 대상 각각의 위치 정보에 기초하여, 복수의 목표 대상 중 임의의 2개의 목표 대상사이의 위치 관계를 확정하고, 임의의 2개의 목표 대상사이의 위치 관계에 기초하여, 제1 에지 특징을 확정하기 위한 제1 에지 특징 확정 서브 모듈, 및 상기 제1 노드 특징 및 제1 에지 특징에 의해 시각 그래프를 구성하기 위한 제1 그래프 구축 서브 모듈을 포함한다.

본 발명의 실시예에 의하면, 제1 에지 특징 확정 서브 모듈이 복수의 목표 대상 각각의 위치 정보에 기초하여, 복수의 목표 대상 중 임의의 2개의 목표 대상사이의 위치 관계를 확정하는 것은, 제1 에지 특징 확정 서브 모듈이 상기 임의의 2개의 목표 대상 각각의 위치 정보에 근거하여, 상기 임의의 2개의 목표 대상의 위치 영역사이의 교집합 및 합집합을 계산하는 것, 교집합 및 합집합의 비례 값을 계산하는 것, 상기 비례 값이 소정의 임계치보다 클 경우, 상기 임의의 2개의 목표 대상사이의 위치 관계를 1로 표시하는 것, 및 상기 비례 값이 소정의 임계치이하일 경우, 상기 임의의 2개의 목표 대상사이의 위치 관계를 0으로 표시하는 것을 포함한다.

본 발명의 실시예에 의하면, 제2 그래프 구축 모듈은, 워드 인코딩 알고리즘 및 특징 인코딩 알고리즘을 이용하여 입력 질문을 순차적으로 처리함으로써, 입력 질문으로부터 입력 질문중의 복수의 워드 각자의 특징 정보를 나타내기 위한 복수의 워드 노드 특징을 추출하기 위한 제2 노드 특징 확정 서브 모듈, 의존 분석 알고리즘을 이용하여 복수의 워드 중 임의의 2개의 워드사이의 의존 관계를 확정하고, 임의의 2개의 워드사이의 의존 관계에 기초하여, 제2 에지 특징을 확정하기 위한 제2 에지 특징 확정 서브 모듈, 및 복수의 워드 노드 특징에 의해 제2 노드 특징을 구성하고, 제2 노드 특징 및 제2 에지 특징에 의해 질문 그래프를 구축하기 위한 제2 그래프 구축 서브 모듈을 포함한다.

본 발명의 실시예에 의하면, 업데이트 모듈은, 시각 그래프 및 질문 그래프에 대해 적어도 1회의 멀티 양상 융합 동작을 실행한다. 여기서, 업데이트 모듈은, 제1 노드 특징 및 제1 에지 특징에 기초하여, 제1 소정의 네트워크를 이용하여 제1 노드 특징을 인코딩함으로써, 인코딩 된 시각 그래프를 얻기 위한 제1 그래프 인코딩 서브 모듈, 제2 노드 특징 및 제2 에지 특징에 기초하여, 제2 소정의 네트워크를 이용하여 제2 노드 특징을 인코딩함으로써, 인코딩 된 질문 그래프를 얻기 위한 제2 그래프 인코딩 서브 모듈, 및 그래프 매칭 알고리즘을 이용하여, 인코딩 된 시각 그래프 및 인코딩 된 질문 그래프에 대해 멀티 양상 융합을 실행함으로써, 업데이트 된 시각 그래프 및 업데이트 된 질문 그래프를 얻기 위한 그래프 매칭 서브 모듈을 포함한다.

본 발명의 실시예에 의하면, 제1 소정의 네트워크는, 제1 완전 연결층, 제1 그래프 합성곱층 및 제2 그래프 합성곱층을 포함한다. 제1 그래프 인코딩 서브 모듈은, 제1 완전 연결층을 이용하여 제1 노드 특징을 공간 차원수가 소정 수인 제1 특징으로 매핑하기 위한 제1 매핑 유닛, 제1 그래프 합성곱층을 이용하여 제1 특징을 처리함으로써, 제2 특징을 얻기 위한 제1 그래프 합성곱 유닛, 제2 그래프 합성곱층을 이용하여 제2 특징을 처리함으로써, 인코딩 된 제1 노드 특징을 얻기 위한 제2 그래프 합성곱 유닛, 및 인코딩 된 제1 노드 특징 및 제1 에지 특징에 의해 인코딩 된 시각 그래프를 구성하기 위한 제1 인코딩 유닛을 포함한다.

본 발명의 실시예에 의하면, 제1 그래프 인코딩 서브 모듈은, 제1 에지 특징에 기초하여 제1 라플라시안 매트릭스를 구축하기 위한 제1 구축 유닛을 더 포함한다. 제1 그래프 합성곱 유닛은, 제1 그래프 합성곱층을 이용하여 제1 라플라시안 매트릭스에 기초하여 제1 특징을 처리함으로써, 복수의 제1 서브 특징을 포함하는 제2 특징을 얻는다.

본 발명의 실시예에 의하면, 제1 소정의 네트워크는 제1 연관층을 더 포함한다. 제1그래프 인코딩 서브 모듈은, 제1 노드 특징을 인코딩하는 것은, 제1 연관층을 이용하여 복수의 제1 서브 특징 중 임의의 2개의 제1 서브 특징사이의 연관관계를 계산하고, 임의의 2개의 제1 서브 특징사이의 연관관계에 기초하여 제1 관계 매트릭스를 확정하기 위한 제2 구축 유닛을 더 포함한다. 제2 그래프 합성곱 유닛은, 제2 그래프 합성곱층을 이용하여 제1 관계 매트릭스에 기초하여 제2 특징을 처리함으로써, 인코딩 된 제1 노드 특징을 얻는다.

본 발명의 실시예에 의하면, 제2 소정의 네트워크는, 제2 완전 연결층, 제3 그래프 합성곱층 및 제4 그래프 합성곱층을 포함한다. 제2 그래프 인코딩 서브 모듈은, 제2 완전 연결층을 이용하여 제2 노드 특징을 공간 차원수가 소정 수인 제3 특징으로 매핑하기 위한 제2 매핑 유닛, 제3 그래프 합성곱층을 이용하여 제3 특징을 처리함으로써, 제4 특징을 얻기 위한 제3 그래프 합성곱 유닛, 제4 그래프 합성곱층을 이용하여 제4 특징을 처리함으로써, 인코딩 된 제2 노드 특징을 얻기 위한 제4 그래프 합성곱 유닛, 및 인코딩 된 제2 노드 특징 및 제2 에지 특징에 의해 인코딩 된 질문 그래프를 구성하기 위한 제2 인코딩 유닛을 포함한다.

본 발명의 실시예에 의하면, 제2 그래프 인코딩 서브 모듈은, 제2 에지 특징에 기초하여 제2 라플라시안 매트릭스을 구축하기 위한 제3 구축 유닛을 더 포함한다. 제3 그래프 합성곱 유닛은, 제3 그래프 합성곱층을 이용하여 제2 라플라시안 매트릭스에 기초하여 제3 특징을 처리함으로써, 복수의 제2 서브 특징을 포함하는 제4 특징을 얻는다.

본 발명의 실시예에 의하면, 제2 소정의 네트워크는 제2 연관층을 더 포함한다. 제2 그래프 인코딩 서브 모듈은, 제2 연관층을 이용하여 복수의 제2 서브 특징 중 임의의 2개의 제2 서브 특징사이의 연관관계를 계산하고, 임의의 2개의 제2 서브 특징사이의 연관관계에 기초하여 제2 관계 매트릭스를 확정하기 위한 제4 구축 유닛을 더 포함한다. 제4 그래프 합성곱 유닛은, 제4 그래프 합성곱층을 이용하여 제2 관계 매트릭스에 기초하여 제4 특징을 처리함으로써, 인코딩 된 제2 노드 특징을 얻는다.

본 발명의 실시예에 의하면, 인코딩 된 시각 그래프중의 인코딩 된 제1 노드 특징은 복수의 제3 서브 특징을 포함하고, 인코딩 된 질문 그래프중의 인코딩 된 제2 노드 특징은 복수의 제4 서브 특징을 포함한다. 그래프 매칭 서브 모듈은, 매칭 유닛 및 업데이트 유닛을 포함한다. 매칭 유닛은, 그래프 매칭 알고리즘을 이용하여 인코딩 된 제1 노드 특징 및 인코딩 된 제2 노드 특징에 대해 매칭 처리를 실행함으로써, 복수의 제3 서브 특징 중 임의의 제3 서브 특징과 복수의 제4 서브 특징 중 임의의 제4 서브 특징사이의 매칭 관계를 확정하고, 임의의 제3 서브 특징과 임의의 제4 서브 특징사이의 매칭 관계에 기초하여, 매칭 매트릭스를 확정한다. 업데이트 유닛은, 주의력 메카니즘 및 매칭 매트릭스에 기초하여, 제1 주의력 가중치 집합 및 제2 주의력 가중치 집합을 각각 확정하고, 제1 주의력 가중치 집합, 인코딩 된 제1 노드 특징 및 인코딩 된 제2 노드 특징에 기초하여, 업데이트 된 제2 노드 특징을 확정하고, 제2 주의력 가중치 집합, 인코딩 된 제1 노드 특징 및 인코딩 된 제2 노드 특징에 기초하여, 업데이트 된 제1 노드 특징을 확정하고, 업데이트 된 제1 노드 특징 및 제1 에지 특징에 의해 업데이트 된 시각 그래프를 구성하고, 업데이트 된 제2 노드 특징 및 제2 에지 특징에 의해 업데이트 된 질문 그래프를 구성한다.

본 발명의 실시예에 의하면, 질문 특징 추출 모듈은, 소정의 워드 인코딩 알고리즘 및 소정의 특징 인코딩 알고리즘을 이용하여 상기 입력 질문을 순차적으로 인코딩 처리함으로써, 상기 질문 특징을 얻는다.

본 발명의 실시예에 의하면, 융합 모듈은, 업데이트 된 제1 노드 특징 및 업데이트 된 제2 노드 특징에 대해 연결 병합을 실행함으로써, 병합 특징을 얻기 위한 병합 서브 모듈, 병합 특징에 대해 소정의 풀링 동작을 실행함으로써, 추리 특징을 얻기 위한 처리 서브 모듈, 및 추리 특징 및 질문 특징에 대해 융합 처리를 실행함으로써, 융합 특징을 얻기 위한 융합 서브 모듈을 포함한다.

본 발명의 실시예에 의하면, 융합 서브 모듈은, 구체적으로, 추리 특징 및 질문 특징에 대해 원소별 내적 처리를 실행함으로써, 융합 특징을 얻는다.

본 발명의 실시예에 의하면, 예축 모듈은, 구체적으로, 멀티 레이어 퍼셉트론을 이용하여 융합 특징을 처리함으로써, 융합 특징에 대한 예측 답안을 얻는다.

본 발명의 다른 측면에 의하면, 컴퓨터 프로그램이 저장되어 있는 메모리, 및 적어도 하나의 프로세서를 포함하는 컴퓨터 장비에 있어서, 상기 컴퓨터 프로그램이 상기 프로세서에 의해 실행될 경우, 상기와 같은 방법을 구현하는 컴퓨터 장비를 제공한다.

본 발명의 다른 측면에 의하면, 컴퓨터 프로그램이 저장되어 있는 비 일시적 컴퓨터 판독가능 저장 매체에 있어서, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 상기와 같은 방법을 구현하는 비 일시적 컴퓨터 판독가능 저장 매체를 제공한다.

본 발명의 다른 측면에 의하면, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서, 상기 컴퓨터 프로그램의 명령이 프로세서에 의해 실행될 경우, 상기와 같은 방법을 구현하는 컴퓨터 프로그램을 제공한다.

본 발명의 실시예에 따른 이미지 문답 방법은, 입력 이미지 및 입력 질문을 취득한 후, 입력 이미지의 토폴로지 구조(시각 그래프)를 구축하여, 이미지 중 목표 대상의 특징 정보 및 목표 대상사이의 잠재적 관계를 나타내고, 입력 질문의 토폴로지 구조(질문 그래프)를 구축하여, 질문중의 워드의 특징 정보 및 워드사이의 잠재적 관계를 나타냄으로써, 복수의 목표 이미지 및 복잡한 질문으로 인한 노이즈의 영향을 감소시킨다. 시각 그래프 및 질문 그래프에 대한 멀티 양상 융합을 통해, 시각 그래프 및 질문 그래프중의 노드 특징의 일치화 및 업데이트를 실현함으로써, 양상 사이의 시맨틱 갭을 축소시킨다. 이에 기초하여, 업데이트 된 시각 그래프, 업데이트 된 질문 그래프 및 질문 특징에 기초하여 융합 특징을 얻고, 융합 특징에 기초하여 최종 답안을 예측한다. 초기 단계에서의 입력 이미지 및 입력 질문의 특징 표시에 대한 최적화, 및 중간 단계에서의 시각 그래프 및 질문 그래프에 대한 멀티 양상 융합을 통해, 이미지 문답 과정에서 복잡한 입력에 대한 추리 능력을 효과적으로 강화함으로써, 본 발명의 실시예에 따른 이미지 문답 과정이 보다 해석가능하도록 한다.

이하에서 첨부 도면을 참조하여 설명한 본 발명의 실시예를 통해, 본 발명의 상기 및 다른 목적, 특징 및 장점들은 보다 명확해질 것이다.
도1은 본 발명의 실시예에 따른 이미지 문답 방법 및 장치를 응용하는 예시적인 시스템 구성을 개략적으로 나타낸다.
도2는 본 발명의 실시예에 따른 이미지 문답 방법의 흐름도를 개략적으로 나타낸다.
도3a는 본 발명의 실시예에 따른 이미지 문답 과정의 예시도를 개략적으로 나타낸다.
도3b는 본 발명의 다른 실시예에 따른 이미지 문답 과정의 예시도를 개략적으로 나타낸다.
도3c는 본 발명의 실시예에 따른 그래프 합성곱 인코딩 모듈의 구성 예시도를 개략적으로 나타낸다.
도3d는 본 발명의 실시예에 따른 그래프 매칭 및 업데이트 모듈의 처리과정의 예시도를 개략적으로 나타낸다.
도4는 본 발명의 실시예에 따른 이미지 문답 장치의 블록도를 개략적으로 나타낸다.
도5는 본 발명의 실시예에 따른 컴퓨터 장비의 블록도를 개략적으로 나타낸다.

이하, 첨부 도면을 참조하여 본 발명의 실시예를 설명한다. 이러한 설명은 단지 예시적인 것일 뿐, 본 발명의 범위를 한정하기 위한 것이 아님을 이해하여야 한다. 이하의 상세한 설명에 있어서, 해석의 편리를 위하여, 다수의 구체적인 세부요소들을 설명함으로써 본 발명의 실시예에 대해 전면적으로 이해할 수 있도록 한다. 하지만, 하나 또는 복수의 실시예는 이러한 세부요소 없이도 실시가능함을 지적해둔다. 또한, 이하의 설명에서는, 본 발명의 개념에 혼선을 주지 않기 위해 공지적인 구조나 기술에 대한 설명은 생략한다.

본 명세서에서 사용하는 용어는 단지 구체적인 실시예를 설명하기 위한 것으로서, 본 발명을 한정하기 위한 취지로 해석되어서는 아니된다. 본 명세서에서 사용하는 "포함", "구비" 등 용어는 언급된 특징, 단계, 동작 및/또는 부품의 존재를 의미하는데, 하나 또는 복수의 다른 특징, 단계, 동작 또는 부품의 존재 또는 추가를 배제하지는 않는다.

본 명세서에서 사용하는 모든 용어(기술적 및 과학적 용어 포함)는 별도로 정의되지 않는 한, 당업자가 통상적으로 이해하는 의미를 갖는다. 본 명세서에서 사용하는 용어는 본 명세서의 문맥과 일치하는 의미를 갖는 것으로 해석되어야 하며, 이상적이거나 과도하게 사전상의 의미로 해석되어서는 아니되는 점에 유의해야 한다.

"A, B 및 C중 적어도 하나"와 같은 표현을 사용할 경우, 당업자가 통상적으로 이해하는 해당 표현의 의미에 따라 해석되어야 한다(예를 들어, "A, B 및 C중 적어도 하나를 구비한 시스템"에는, A만 구비한 시스템, B만 구비한 시스템, C만 구비한 시스템, A 및 B를 구비한 시스템, A 및 C를 구비한 시스템, B 및 C를 구비한 시스템, 및/또는 A, B, C를 구비한 시스템이 포함되는데, 이에 한정되지는 않는다). "A, B 또는 C중 적어도 하나"와 같은 표현을 사용할 경우, 당업자가 통상적으로 이해하는 해당 표현의 의미에 따라 해석되어야 한다(예를 들어, "A, B 또는 C중 적어도 하나를 구비한 시스템"에는, A만 구비한 시스템, B만 구비한 시스템, C만 구비한 시스템, A 및 B를 구비한 시스템, A 및 C를 구비한 시스템, B 및 C를 구비한 시스템, 및/또는 A, B, C를 구비한 시스템이 포함되는데, 이에 한정되지는 않는다).

본 발명의 실시예에 의하면, 이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램을 제공한다. 이미지 문답 방법은 취득 과정, 제1 그래프 구축 과정, 제2 그래프 구축과정, 업데이트 과정, 질문 특징 추출 과정, 융합 과정 및 예측 과정을 포함할 수 있다. 취득 과정에서는, 입력 이미지 및 입력 질문을 취득한다. 입력 이미지에 대해 제1 그래프 구축 과정을 실행함으로써, 제1 노드 특징 및 제1 에지 특징을 포함하는 시각 그래프를 구축한다. 입력 질문에 대해 제2 그래프 구축 과정을 실행함으로써, 제2 노드 특징 및 제2 에지 특징을 포함하는 질문 그래프를 구축한다. 업데이트 과정에서는, 시각 그래프 및 질문 그래프에 대해 멀티 양상 융합을 실행함으로써, 업데이트 된 시각 그래프 및 업데이트 된 질문 그래프를 얻는다. 입력 질문에 대해 질문 특징 추출 과정을 실행하여, 질문 특징을 확정한다. 이어서, 융합 과정을 실행하여, 업데이트 된 시각 그래프, 업데이트 된 질문 그래프 및 질문 특징에 기초하여, 융합 특징을 확정한다. 융합 특징에 기초하여 예측 과정을 실행함으로써, 입력 이미지 및 입력 질문에 대한 예측 답안을 생성할 수 있다.

현재, 인터넷 기술의 비속적인 발전에 따라, 생성되는 데이터 유형도 점점 풍부해지고 있다. '교차 양상' 데이터는 점차 주도적인 데이터 형태로 자리잡고 있다. 교차 양상 특징 일치화는, 멀티 미디어 분야 및 딥 러닝 분야의 중요한 연구방향으로서, 서로 다른 미디어(에를 들어, 이미지, 비디오 및 텍스트)사이의 시맨틱 갭을 메워, 통일된 시맨틱 표시를 구축하는 것을 목적으로 한다. 시각 문답 기술에 있어서, 교차 양상 특징의 일치화 및 융합은 해당 연구에 있어서의 난점이기도 하다. 시각 문답은, 시각 이미지에 대한 자연 언어 문답이고, 시각 이해에 관한 하나의 연구방향으로서, 시각과 언어를 연관시키고 있으며, 모델은 이미지를 이해한 후, 구체적인 질문에 대해 답변하여야 한다. 오늘날, 이미지 문답 시스템은 학술계 및 산업계에서 광범위하게 연구되고 있으며, 이러한 이미지 문답 시스템의 목표는 합리적인 모델을 설계하여, 이미지 문답 시스템으로 하여금, 임의의 자연 언어가 표현하는 질문 및 주어진 이미지에 대해, 충분한 이해와 추리를 거친 후, 자연 언어를 사용하여 정확하게 해답할 수 있도록 하는 것이다. 하지만, 현재의 이미지 문답 시스템은, 예를 들어, 교차 양상 데이터의 융합 및 효과적인 관계 추리와 같은 여전히 해결되지 못한 난제들이 존재한다.

도1은 본 발명의 실시 예에 따른 이미지 문답 방법 및 장치를 응용할 수 있는 예시적인 시스템 구성(100)을 개략적으로 나타낸다. 지적해두어야 할 것은, 도 1에 도시된 것 은 본 발명의 실시예를 응용할 수 있는 시스템 구조의 예시에 지나지 않으며, 당업자가 본 발명의 기술 내용을 보다 쉽게 이해하도록 돕기 위한 것으로, 본 발명의 실시예가 다른 장비, 시스템, 환경 또는 응용장면에 응용할 수 없음을 의미하는 것은 아니다.

도1에 도시된 바와 같이, 본 실시 예에 따른 시스템 구성(100)은 복수의 단말 장비(110), 네트웨크(120) 및 서버(130)를 포함할 수 있다. 여기서, 단말 장비(110)는 예를 들어 데스크탑, 휴대용 컴퓨터, 스마트 폰, 테블릿 등과 같은 다양한 단말 장비일 수 있고, 본 명세서에서는 이에 대해 한정하지 않는다. 서버(130)는 예를 들어 서버 또는 서버 클러스터와 같은 일정한 컴퓨팅 기능을 가진 다양한 전자 장비일 수 있고, 본 명세서에서는 이에 대해 한정하지 않는다. 단말 장비(110)에는 각종 기능의 소프트웨어 클라이언트가 설치되어, 소프트웨어 클라이언트를 통해 서버(130)와 인터액션하도록 할 수 있다.

일 실시예에 있어서, 본 발명의 실시예에 따른 이미지 문답 방법은 단말 장비(110)에 의해 실시될 수 있고, 이에 대응하여, 이미지 문답 장치는 단말 장비(110)에 설치될 수 있다. 다른 실시예에 있어서, 본 발명의 실시예에 따른 이미지 문답 방법은 서버(130)에 의해 실시될 수 있고, 이에 대응하여, 이미지 문답 장치는 서버(130)에 설치될 수 있다. 또 다른 실시예에 있어서, 본 발명의 실시예에 따른 이미지 문답 방법은 단말 장비(110) 및/또는 서버(130)와 서로 통신가능한 다른 장비에 의해 실시될 수 있고, 이에 대응하여, 이미지 문답 장치는 상기 다른 장비에 설치될 수 있다.

최근 몇년에, 이미지 문답은 신속한 발전을 이루고 있으며, 컴퓨터 시각 및 자연 언어 처리 분야의 광범한 주목을 받고 있다. 각 분야에서는 이미지 문답 임무를 해결하기 위한 수많은 방안을 제출하였다. 대다수 방안은 단대단(end-to-end) 프로세스를 사용하고 있는데, 예를 들어, 하나의 사전에 트레이닝된 합성곱 신경망을 이용하여 이미지 특징을 추출하고, 하나의 재귀 신경망을 이용하여 질문을 나타낸 다음, 이미지 특징 및 질문 특징을 연결시켜 답안을 예측한다. 현재, 이미지 문답 방안은 보편적으로 3가지 모델을 사용하는데, 이들은 각각 (1)굵은 입도(粒度) 교차 양상 표시 이미지 문답 모델, (2)주의력 메카니즘에 기반한 가는 입도 교차 양상 표시 모델, 및 (3) 외부 지식 또는 지식 네트워크에 기반한 이미지 문답 모델이다.

모델(1)은 가장 직접적인 이미지 문답 모델이다. 여기서, 교차 양상 특징 융합은 이와 같은 유형의 모델의 핵심인데, 처리내용이 상대적으로 복잡하고 많은 주체의 이미지가 존재할 경우, 불가피하게 많은 노이지를 도입하게 되는데, 이러한 노이즈는 답안 예측의 정확도에 영향을 미치게 된다. 질문 텍스트에 대한 처리도 동일한 문제점이 존재한다. 질문의 문구가 비교적 길고, 이미지와 연관되는 복수의 단어가 존재할 경우, 모델(1)은 질문자가 희망하는 키워드를 캡쳐하기 어려우므로, 최종적으로 답안 예측 정확도가 떨어지게 된다. 모델(2)은 상기 굵은 입도 교차 양상 표시 모델에 기초하여, 주의력 메카니즘을 도입하여 얻은 모델로서, 가는 입도 교차 양상 특징의 표현 능력이 대폭 향상되었다. 하지만, 현재 이미지 문답 모델에 사용되는 주의력 모델은 대부분 질문의 특징에 기초하여 이미지의 관심영역을 러닝하는데, 질문 자체의 관심 포인트에 대한 러닝은 소홀히 하고 있는 것이 실정이다. 즉, 질문중의 키워드 또는 구절에 대한 주의력 러닝을 소홀히 하고 있으므로, 답안 예측 정확도가 낮아지게 된다. 모델(3)일 경우, 기존 모델이 외부 지식을 이미지 문답 데이터 집합중의 모든 질문과 매핑하기 어렵고, 일부 유형의 질문만 해결가능하므로, 범용성이 부족하는 것이 난점이다.

상기의 분석으로부터 알수 있다 싶이, 현재의 이미지 문답 방안에는 하기의 문제점이 존재한다. 첫째, 교차 양상 융합 대응책이 이상적이지 않고, 복잡한 융합 모델을 도입하여야 할뿐만 아니라, 모델의 계산 효율도 대대적으로 저하된다. 따라서, 효과적인 특징 융합을 보장함과 동시에 계산 지출을 감소하는 알고리즘에 대한 연구가 이미지 문답에 있어서 하나의 관건적인 발전방향으로 자리잡고 있다. 둘째, 관계 추리 능력이 부족하다. 많은 실제적인 이미지 문답 과정에서, 모델은 복수의 단계의 관계 추리를 거쳐 최종적인 답안을 얻어내야 하지만, 현재의 모델은 단지 멀티 양상 특징 융합을 통해서만 질문을 해답하므로, 복잡한 질문에 대한 이해와 추리 효과가 이상적이지 않다.

본 발명의 실시 예에 따르면, 이미지 문답 방법을 제공한다. 이하, 도면을 참조하여 상기 방법을 예시적으로 설명한다. 지적해두어야 할 것은, 하기의 방법에 있어서, 각 동작의 번호는 단지 설명의 편의를 위한 해당 동작의 표시로서, 결코 각 동작의 실행 순서를 의미하는 것은 아니다. 별도로 언급하지 않는 한, 상기 방법은 굳이 설명한 순서에 따라 실행할 필요는 없다.

도2는 본 발명의 실시예에 따른 이미지 문답 방법의 흐름도를 개략적으로 나타낸다.

도2에 도시된 바와 같이, 상기 방법은 동작(S201)~동작(S207)을 포함할 수 있다.

동작(S201)에서는, 입력 이미지 및 입력 질문을 취득한다.

동작(S202)에서는, 입력 이미지에 기초하여 시각 그래프(Visual Graph)를 구축한다.

본 발명의 실시예에 따르면, 시각 그래프는 입력 이미지의 토폴로지 구조 표시이고, 보다 전면적이고 정확하게 입력 이미지의 특징 정보를 나타낸다. 예시적으로, 시각 그래프는 제1 노드(Node) 특징 및 제1 에지(Edge) 특징을 포함할 수 있다. 제1 노드 특징은 입력 이미지중의 하나 또는 복수의 목표 대상의 특징 정보를 나타내고, 제1 에지 특징은 입력 이미지중의 목표 대상사이의 잠재적 관계를 나타낸다.

동작(S203)에서는, 입력 질문에 기초하여, 질문 그래프(Question Graph)를 구축한다.

본 발명의 실시예에 따르면, 질문 그래프는 입력 질문의 토폴로지 구조 표시이고, 보다 전면적이고 정확하게 입력 질문의 특징 정보를 나타낸다. 예시적으로, 질문 그래프는 제2 노드 특징 및 제2 에지 특징을 포함할 수 있다. 제2 노드 특징은 입력 질문중의 하나 또는 복수의 워드의 특징 정보를 나타내고, 제2 에지 특징은 입력 질문중의 워드사이의 잠재적 관계를 나타낸다.

동작(S204)에서는, 시각 그래프 및 질문 그래프에 대해 멀티 양상 융합(Multimodal Fusion)을 실행함으로써, 업데이트 된 시각 그래프 및 업데이트 된 질문 그래프를 얻는다.

예시적으로, 동작(S204)의 멀티 양상 융합을 통해, 이미지 데이터와 텍스트 데이터사이의 시맨틱 갭(Semantic Gap)을 축소함으로써, 얻어진 업데이트 된 시각 그래프 및 업데이트 된 질문 그래프로 하여금 2개의 서로 다른 양상 특징의 일치화 및 업데이트를 실현하도록 한다.

동작(S205)에서는, 입력 질문에 기초하여 질문 특징을 확정한다.

동작(S206)에서는, 업데이트 된 시각 그래프, 업데이트 된 질문 그래프 및 질문 특징에 기초하여, 융합 특징을 확정한다.

동작(S207)에서는, 융합 특징에 기초하여 입력 이미지 및 입력 질문에 대한 예측 답안을 생성한다.

당업자라면, 하기의 내용을 이해할 수 있을 것이다. 본 발명의 실시예에 따른 이미지 문답 방법은, 입력 이미지 및 입력 질문을 취득한 후, 입력 이미지의 토폴로지 구조(시각 그래프)를 구축하여, 이미지 중 목표 대상의 특징 정보 및 목표 대상사이의 잠재적 관계를 나타내고, 입력 질문의 토폴로지 구조(질문 그래프)를 구축하여, 질문중의 워드의 특징 정보 및 워드사이의 잠재적 관계를 나타냄으로써, 복수의 목표 이미지 및 복잡한 질문으로 인한 노이즈의 영향을 감소시킨다. 시각 그래프 및 질문 그래프에 대한 멀티 양상 융합을 통해, 시각 그래프 및 질문 그래프중의 노드 특징의 일치화 및 업데이트를 실현함으로써, 양상 사이의 시맨틱 갭을 축소시킨다. 이에 기초하여, 업데이트 된 시각 그래프, 업데이트 된 질문 그래프 및 질문 특징에 기초하여 융합 특징을 얻고, 융합 특징에 기초하여 최종 답안을 예측한다. 초기 단계에서의 입력 이미지 및 입력 질문의 특징 표시에 대한 최적화, 및 중간 단계에서의 시각 그래프 및 질문 그래프에 대한 멀티 양상 융합을 통해, 이미지 문답 과정에서 복잡한 입력에 대한 추리 능력을 효과적으로 강화함으로써, 본 발명의 실시예에 따른 이미지 문답 과정이 보다 해석가능하도록 한다.

이하, 도3a~도3d를 참조하여, 구체적인 실시예를 들어 본 발명의 실시예에 따른 이미지 문답 방법을 예시적으로 설명한다.

도3a는 본 발명의 실시예에 따른 이미지 문답 과정의 예시도를 개략적으로 나타낸다. 도3b는 본 발명의 다른 실시예에 따른 이미지 문답 과정의 예시도를 개략적으로 나타낸다.

도3a에 도시된 예에 있어서, 우선 사전에 네트워크 모델(300)을 구축할 수 있는데, 상기 네트워크 모델(300)은 순차적으로 연결된 그래프 구축 모듈(301), 그래프 인코딩 모듈(302), 그래프 매칭 및 업데이트 모듈(303), 그래프 융합(Graph Fusion)모듈(304) 및 문답 모듈(305)을 포함할 수 있다. 여기서, 그래프 인코딩 모듈(302)은 예를 들어 그래프 합성곱 인코딩 모듈(GCN Encoder)(302)일 수 있고, 그래프 합성곱 인코딩 모듈(302)은 그래프 매칭 및 업데이트 모듈(303)과 직렬연결되어 일체화 업데이트 모듈을 구성할 수 있고, 네트워크 모델(300)은 하나 또는 복수의 해당 일체화 업데이트 모듈을 포함할 수 있다. 본 발명의 실시예에 따르면, 상기 네트워크 모델(300)을 트레이닝함으로써, 상기 네트워크 모델(300)로 하여금 도2에 도시된 바와 같은 이미지 문답 임무를 실행할 능력을 가지도록 하여야 한다. 트레이닝 과정에, 샘플 이미지 및 샘플 질문을 상기 네트워크 모델(300)에 입력하고, 네트워크 모델(300)의 출력과 샘플 라벨사이의 차이에 근거하여 네트워크 모델(300)의 목표 함수가 수렴할 때까지 네트워크 모델(300)의 파라미터를 최적화한다. 여기서, 샘플 라벨은 샘플 이미지 및 샘플 질문에 대한 실제 답안이다. 이때, 네트워크 모델(300)에 대한 트레이닝을 완료하고, 본 발명의 실시예에 따른 이미지 문답 방법은 상기 트레이닝 완료된 네트워크 모델(300)을 이용하여 실시할 수 있다. 이하, 실시 과정에 대해 예시적으로 설명한다.

본 발명의 실시예에 따르면, 도3a에 도시된 바와 같이, 네트워크 모델(300)중의 그래프 구축 모듈(301)은 입력 이미지I(306) 및 입력 질문Q(307)을 취득한다. 그래프 구축 모듈(301)은 상기 동작(S202)의 입력 이미지에 기초하여 시각 그래프를 구축하는 과정을 실행할 수 있다. 예시적으로, 그래프 구축 모듈(301)은 목표 검출(Object Detection) 네트워크를 이용하여 입력 이미지I(306)를 처리함으로써, 목표 검출 네트워크의 중간층으로부터 입력 이미지 중 복수의 목표 대상에 대한 표상 특징 및 공간 특징을 추출하고, 상기 표상 특징 및 공간 특징에 기초하여, 제1 노드 특징을 확정할 수 있다. 그 다음, 목표 검출 네트워크의 출력층이 출력한 처리 결과에 기초하여, 복수의 목표 대상 각각의 위치 정보를 확정한다. 복수의 목표 대상 각각의 위치 정보에 기초하여, 복수의 목표 대상 중 임의의 2개의 목표 대상사이의 위치 관계를 확정한다. 이어서, 임의의 2개의 목표 대상사이의 위치 관계에 기초하여, 제1 에지 특징을 확정한다. 이로써, 상기 제1 노드 특징 및 제1 에지 특징에 의해 시각 그래프를 구축한다.

도3b에 도시된 예에 있어서, 그래프 구축 모듈(301)은 Faster RCNN(Faster Region Convolutional Neural Network)(3011)을 이용하여 입력 이미지I(306)에 존재하는 K₁개의 목표 대상을 검출하고, 이들의 전체 특징 맵(Feature Map)에서 관심 영역 풀링 동작(ROI Pooling)을 거친 표상 특징

및 공간 특징

을 추출한다. 여기서, 표상 특징F는K₁개의 목표 대상에 대한 K₁개의 서브 특징을 포함할 수 있고, 각 서브 특징은 공간 차원수가 2048인 벡터로 표시될 수 있다. 공간 차원수는 설정할 수 있으며, 여기서는 단지 예시에 불과하다. 공간 특징S는 K₁개의 목표 대상에 대한 K₁개의 서브 특징을 포함할 수 있고, 각 서브 특징은 공간 차원수가 4인 벡터로 표시될 수 있다. 예를 들어, 목표 대상에 대한 바운딩 박스(Bounding Box)의 높이 값, 너비 값 및 중심점의 좌표를 포함할 수 있다. 이어서, 표상 특징F와 공간 특징S를 병합하여 시각 그래프G₁(308)의 제1 노드 특징

으로 한다. 병합방식은 예를 들어 연결 병합 일수 있다.

시각 그래프G₁(308)의 제1 에지 특징은 예를 들어 이진법 표시

일 수 있다. 제1 에지 특징은 입력 이미지I(306) 중 임의의 2개의 목표 대상사이의 위치 관계로부터 확정할 수 있다. 본 발명의 실시예에 따르면, 상기 임의의 2개의 목표 대상은 서로 다른 목표 대상을 포함할 수도 있고, 동일한 목표 대상을 포함할 수도 있다. 상기 목표 검출 네트워크의 처리를 통해, 입력 이미지I(306) 중 각 목표 대상의 위치 좌표를 취득할 수 있다. 즉, 각 목표 대상이 차지하는 위치 영역을 확정할 수 있다.

예시적으로, 임의의 2개의 목표 대상의 위치 영역사이의 IoU (Intersection-over-Union, 교집합과 합집합의 비례)가 소정의 임계치보다 큰지 않는지에 따라 제1 에지 특징

중 각 원소의 값을 판단할 수 있다. 예를 들어, 소정의 임계치를 0.3으로 설정하고, 입력 이미지 중 i번째 목표 대상 및 j번째 목표 대상에 대해, i번째 목표 대상의 위치 영역과 j번째 목표 대상의 위치 영역사이의 IoU 값을 계산하고, 상기 IoU 값이 소정의 임계치보다 클 경우, 제1 에지 특징

중의 원소e_ij를 1로 표시하고, 상기 IoU 값이 소정의 임계치이하일 경우, 제1 에지 특징

중의 원소e_ij를 0으로 표시한다. 본 예에 있어서, i 및 j는 모두 1이상, K₁이하의 양(陽) 정수이고, i와 j는 같을 수도 있고, 서로 다를수도 있다.

상기 예시적인 실시형태에 의하면, 시각 그래프

를 구축할 수 있다.

본 발명의 실시예에 의하면, 도3a에 도시된 바와 같이, 네트워크 모델(300)중의 그래프 구축 모듈(301)은 입력 질문Q(307)도 취득한다. 그래프 구축 모듈(301)은, 상기 동작(S203)의 입력 질문에 기초하여 질문 그래프를 구축하는 과정을 실행할 수도 있다. 예시적으로, 그래프 구축 모듈(301)은, 입력 질문Q중의 각 워드를 워드 노드로 하여, 워드 인코딩(Word Embedding) 알고리즘 및 특징 인코딩 알고리즘을 이용하여 입력 질문을 순차적으로 처리함으로써, 입력 질문Q로부터 복수의 워드 노드 특징(예를 들어, K₂개의 워드 노드 특징이 있다)을 추출할 수 있고, 복수의 워드 노드 특징은 입력 질문Q중의 복수의 워드 각각의 특징 정보를 나타낸다. 그 다음, 의존 분석(Dependency Parsing) 알고리즘(3012)을 이용하여, 복수의 워드 중 임의의 2개의 워드사이의 의존 관계를 확정하고, 임의의 2개의 워드사이의 의존 관계에 기초하여, 제2 에지 특징

을 확정한다. 상기 복수의 워드 노드 특징에 의해 제2 노드 특징

을 구성하고, 제2 노드 특징

및 제2 에지 특징

에 의해 질문 그래프G₂(309)를 구성한다.

상기 예시적인 실시형태에 의하면, 시각 그래프

를 구축할 수 있다.

본 발명의 실시예에 의하면, 상기 동작(S204)에서 시각 그래프 및 질문 그래프에 대해 멀티 양상 융합을 실행하는 과정은, 적어도 1회의 멀티 양상 융합 동작을 실행하는 것을 포함한다. 여기서, 상기 적어도 1회의 멀티 양상 융합 동작 중 매회의 멀티 양상 융합 동작은, 그래프 합성곱 인코딩 모듈(302)이 제1 노드 특징 및 제1 에지 특징에 기초하여, 제1 소정의 네트워크를 이용하여 제1 노드 특징을 인코딩함으로써, 인코딩 된 시각 그래프를 얻는 것, 그래프 합성곱 인코딩 모듈(302)이 제2 노드 특징 및 제2 에지 특징에 기초하여, 제2 소정의 네트워크를 이용하여 제2 노드 특징을 인코딩함으로써, 인코딩 된 질문 그래프를 얻는 것, 및 그래프 매칭 및 업데이트 모델(303)이 그래프 매칭 알고리즘을 이용하여, 인코딩 된 시각 그래프 및 인코딩 된 질문 그래프에 대해 멀티 양상 융합을 실행함으로써, 업데이트 된 시각 그래프 및 업데이트 된 질문 그래프를 얻는 것을 포함할 수 있다.

도3b에 도시된 바와 같이, 시각 그래프G₁(308)는 제1 소정의 네트워크에 입력되고, 질문 그래프G₂(309)는 제2 소정의 네트워크에 입력된다. 본 예에 있어서, 제1 소정의 네트워크 및 제2 소정의 네트워크는 모두 그래프 합성곱 인코딩 모듈(302)일 수 있다. 그래프 합성곱 인코딩 모듈(302)은, 그래프 합성곱(Graph Convolution Network, GCN) 방법에 기초하여 서로 다른 그래프(시각 그래프 및 질문 그래프) 각각의 노드 특징 업데이트 및 각 그래프 내부관계의 러닝을 실행할 수 있다. 그래프 합성곱 인코딩 모듈(302)이 시각 그래프에 대한 인코딩 과정 및 질문 그래프에 대한 인코딩 과정의 원리가 동일하므로, 이하에서는, 그래프 합성곱 인코딩 모듈(302)이 시각 그래프G₁(308)에 대한 인코딩 과정을 예로 들어, 예시적으로 설명한다.

도3c는 본 발명의 실시예에 따른 그래프 합성곱 인코딩 모듈의 구성 예시도를 개략적으로 나타낸다. 도3c에 도시된 바와 같이, 제1 소정의 네트워크로서의 그래프 합성곱 인코딩 모듈(302)은 제1 완전 연결층(Fully Connected Layer, FC)(3021), 제1 그래프 합성곱층(Graph Convolutional Layer, Gconv₁)(3022) 및 제2 그래프 합성곱층(Gconv₂)(3023)을 포함할 수 있다. 예시적으로, 상기 시각 그래프G₁(308)에 대한 인코딩 동작은, 제1 완전 연결층(3021)을 이용하여 시각 그래프G₁(308)의 제1 노드 특징

(3081)를 공간 차원수가 소정 수d인 제1 특징X(30811)로 매핑하는 것, 제1 그래프 합성곱층(3022)을 이용하여 제1 특징X(30811)을 처리함으로써, 제2 특징X’(30812)을 얻는 것, 제2 그래프 합성곱층(3023)을 이용하여 제2 특징X’(30812)을 처리함으로써, 인코딩 된 제1 노드 특징X''을 얻는 것, 및 인코딩 된 제1 노드 특징X'' 및 제1 에지 특징

(3082)에 의해 인코딩 된 시각 그래프G₁'(308')를 구성하는 것을 포함한다.

예를 들어, 상기 제1 완전 연결층(3021)을 이용하여 시각 그래프G₁(308)의 제1 노드 특징

(3081)을 공간 차원수가 d인 제1 특징X(30811)으로 매핑하는 과정은 수식 (1)과 같이 표시할 수 있다.

수식 (1)

여기서, σ는 비선형 함수이고, W₁은 제1 완전 연결층의 가중치 파라미터이다.

본 발명의 실시예에 따르면, 시각 그래프G₁(308)의 제1 에지 특징

(3082)에 근거하여, 제1 그래프 합성곱층(3022)를 사용하여 노드 특징의 업데이트 및 명시적 관계의 러닝을 실행할 수 있다.

도3c에 도시된 바와 같이, 상기 제1 노드 특징을 인코딩하는 것은, 제1 에지 특징

(3082)에 기초하여 제1 라플라시안 매트릭스(Graph Laplacians)L(30821)를 구축하는 것을 더 포함할 수 있다. 상기 제 1 그래프 합성곱층(3022)을 이용하여 제1 특징X(30811)을 처리하는 과정은, 제1 그래프 합성곱층(3022)을 이용하여 제1 라플라시안 매트릭스L(30821)에 기초하여 제1 특징X(30811)을 처리함으로써, 제2 특징X’(30812)을 얻는 것을 포함할 수 있다. 제2 특징X’(30812)은 복수의 제1 서브 특징x_i'을 포함하고, 여기서, i는 1이상, K₁이하의 정수이고, x_i'는 d개의 공간차원을 가진 벡터로 표시할 수 있다. 상기 제2 특징X'을 계산하는 과정 및 제1 라플라시안 매트릭스를 구축하는 과정은 각각 수식 (2) 및 (3)과 같이 표시할 수 있다.

수식 (2)

수식 (3)

여기서,

은 대각행렬이고,

,

이다. σ는 비선형 함수이고, W₂ 및 W₃은 제1 그래프 합성곱층의 가중치 파라미터이다.

또한, 입력 이미지중의 암시적 관계를 러닝하기 위해, 본 발명의 실시예에 따르면, 도3c에 도시된 바와 같이, 제1 소정의 네트워크로서의 그래프 합성곱 인코딩 모듈(302)은 제1 연관층(Adj)(3024)을 더 포함할 수 있다. 제1 그래프 합성곱층(3022)의 처리가 끝난 후, 제1 연관층(3024)을 이용하여 복수의 제1 서브 특징 중 임의의 2개의 제1 서브 특징x_i'와 x_j'사이의 연관관계를 계산하고, 임의의 2개의 제1 서브 특징사이의 연관관계에 기초하여 제1 관계 매트릭스A'(30812')를 확정할 수 있다.

여기서,

이다. 구체적으로는, 수식 (4)와 같이 표시할 수 있다. .

수식 (4)

수식 (4)로부터 알수 있다 싶이, 본 예에서는, x_i'와 x_j'사이의 L-2거리(유클리드 거리)로부터 x_i'와 x_j'사이의 연관관계를 확정한다. 다른 예에 있어서는, 임의의 유사도 계산 방식을 통해 x_i'와 x_j'사이의 연관관계를 계산할수 있다. 예를 들어, 유사도는 코사인 유사도 등 일 수 있는데, 본 명세서에서는 이에 대해 한정하지 않는다. 본 실시예에 의하면, 연관층을 통해 그래프 노드사이의 암시적 관계 매트릭스를 러닝한다.

이에 기초하여, 제2 그래프 합성곱층(3023)을 이용하여 제2 특징X’(30812)을 처리할 수 있다. 예시적으로, 러닝한 제1 관계 매트릭스에 따라 제2 그래프 합성곱층(3023)을 이용하여

깊은 차원의 노드 특징의 업데이트 및 러닝을 실행하여, 인코딩 된 제1 노드 특징X''을 얻을 수 있다. 제2 그래프 합성곱층(3023)의 업데이트 대응책은 수식 (5)와 같이 정의할 수 있다.

수식 (5)

여기서, W₄는 제2 그래프 합성곱층의 가중치 파라미터이다.

본 발명의 실시예에 의하면, 제2 소정의 네트워크로서의 그래프 합성곱 인코딩 모듈(302)은 제2 완전 연결층, 제3 그래프 합성곱층 및 제4 그래프 합성곱층을 포함할 수 있다. 상기 질문 그래프G₂(309)중의 제2 노드 특징

을 인코딩하는 과정은, 제2 완전 연결층을 이용하여 제2 노드 특징

을 공간 차원수가 소정 수d인 제3 특징Y로 매핑하는 것, 제3 그래프 합성곱층을 이용하여 제3 특징Y를 처리함으로써, 제4 특징Y'를 얻는 것, 제4 그래프 합성곱층을 이용하여 제4 특징Y'를 처리함으로써, 인코딩 된 제2 노드 특징Y''를 얻는 것, 및 인코딩 된 제2 노드 특징 및 제2 에지 특징에 의해 인코딩 된 질문 그래프G₂'(309')을 구성하는 것을 포함한다. 이 과정은 앞에서 그래프 합성곱 인코딩 모듈(302)을 이용하여 시각 그래프를 인코딩하는 과정과 원리가 동일하므로, 여기서는 설명을 생략한다.

예시적으로, 질문 그래프중의 명시적 관계를 러닝하기 위해, 상기 제2 노드 특징

을 인코딩하는 것은, 제2 에지 특징

에 기초하여 제2 라플라시안 매트릭스를 구축하는 것을 더 포함할 수 있다. 상기 제3 그래프 합성곱층을 이용하여 제3 특징을 처리하는 것은, 제3 그래프 합성곱층을 이용하여 제2 라플라시안 매트릭스에 기초하여 제3 특징Y을 처리함으로써, 제4 특징Y'를 얻는 것을 포함한다. 제4 특징Y'는, 복수의 제2 서브 특징y_j'을 포함하고, 여기서, j는 1이상, K₂이하의 정수이다. 이 과정은 앞에서 제1 그래프 합성곱층을 이용하여 시각 그래프를 처리하는 과정과 원리가 동일하므로, 여기서는 설명을 생략한다.

또한, 질문 그래프중의 암시적 관계를 러닝하기 위해, 예시적으로, 제2 소정의 네트워크로서의 그래프 합성곱 인코딩 모듈(302)은 제2 연관층을 더 포함할 수 있다. 상기 제2 노드 특징을 인코딩하는 것은, 제2 연관층을 이용하여 복수의 제2 서브 특징 중 임의의 2개의 제2 서브 특징사이의 연관관계를 계산하고, 임의의 2개의 제2 서브 특징사이의 연관관계에 기초하여 제2 관계 매트릭스를 확정하는 것을 더 포함할 수 있다. 상기 제4 그래프 합성곱층을 이용하여 제4 특징을 처리하는 것은, 제4 그래프 합성곱층을 이용하여 제2 관계 매트릭스에 기초하여 제4 특징을 처리함으로써, 인코딩 된 제2 노드 특징을 얻는 것을 더 포함할 수 있다. 이 과정은 앞에서 제2 그래프 합성곱층을 이용하여 시각 그래프를 처리하는 과정과 원리가 동일하므로, 여기서는 설명을 생략한다.

본 발명의 실시예에 의하면, 2개의 병행되는 그래프 합성곱 인코딩 모듈(302)을 사용하여 각각 시각 그래프 및 질문 그래프에 대해 인코딩 처리를 실행하고, 2층의 그래프 합성곱 네트워크를 거친 후, 제1 소정의 네트워크로서의 그래프 합성곱 인코딩 모듈(302)의 출력은 하나의 인코딩 된 시각 그래프

이다. 제2 소정의 네트워크로서의 그래프 합성곱 인코딩 모듈(302)의 출력은 하나의 인코딩 된 질문 그래프

이다. 여기서, 인코딩 된 제1 노드 특징X"는 복수의 제3 서브 특징x_i''을 포함한다. i는 1이상, K₁이하의 정수이다. 인코딩 된 제2 노드 특징Y"는 복수의 제4 서브 특징y_j''을 포함한다. j는 1이상, K₂이하의 정수이다.

도3b 및 3c에 도시된 바와 같이, 본 발명의 실시예의 이미지 문답 방법은, 2개의 병행되는 그래프 합성곱 인코딩 모듈을 사용하여 각각 시각 그래프 및 질문 그래프를 인코딩한다. 이 2개의 병행되는 인코딩 모둘 중, 시각 그래프를 처리하는 제1 그래프 합성곱층 및 질문 그래프를 처리하는 제3 그래프 합성곱층은 가중치를 공유하고, 시각 그래프를 처리하는 제2 그래프 합성곱층 및 질문 그래프를 처리하는 제4 그래프 합성곱층은 가중치를 공유한다. 가중치를 공유한다는 것은, 트레이닝 과정에 동일한 그래프 합성곱층을 사용하여 2개의 그래프를 업데이트 하는 것을 의미하고, 이들 그래프 합성곱층의 가중치 파라미터 및 업데이트는 일치하다.

계속하여 도3a 및 도3b을 참조하여, 그래프 합성곱 인코딩 모듈(302)에 대한 설명을 마친 후, 그래프 매칭 및 업데이트 모듈(303)의 실시형태에 대해 예시적으로 설명한다. 그래프 합성곱 인코딩 모듈을 거친 후, 인코딩 된 시각 그래프상의 각 노드 특징은 러닝한 관계에 따라 관련 노드의 특징을 융합하였고, 인코딩 된 질문 그래프상의 각 노드 특징은 러닝한 관계에 따라 관련 노드의 특징을 융합하였으므로, 일정한 정도에서 깊은 차원의 시맨틱 특징을 포함하게 된다. 이어서, 그래프 매칭 및 업데이트 모듈(303)을 이용하여 2개의 서로 다른 그래프의 노드사이의 매칭을 실행함으로써, 2개의 서로 다른 양상에서의 특징을 일치화하여 양상간의 시맨틱 갭을 축소하고, 효과적으로 교차 양상 특징의 융합을 실현하여야 한다.

도3d는 본 발명의 실시예에 따른 그래프 매칭 및 업데이트 모듈의 처리과정의 예시도를 개략적으로 나타낸다.

도3d에 도시된 바와 같이, 본 발명의 실시예에 의하면, 상기 그래프 매칭 및 업데이트 모델(303)이 그래프 매칭 알고리즘을 이용하여, 인코딩 된 시각 그래프 및 인코딩 된 질문 그래프에 대해 멀티 양상 융합을 실행하는 과정은, 우선, 그래프 매칭(Graph Match) 알고리즘을 이용하여 인코딩 된 제1 노드 특징 및 인코딩 된 제2 노드 특징에 대해 매칭 처리를 실행함으로써, 복수의 제3 서브 특징 중 임의의 제3 서브 특징x_i"과 복수의 제4 서브 특징 중 임의의 제4 서브 특징y_j"사이의 매칭 관계를 확정하고, 임의의 제3 서브 특징x_i"과 임의의 제4 서브 특징y_j"사이의 매칭 관계에 기초하여, 매칭 매트릭스S(3031),

를 확정한다. 이는 수식 (6)과 같이 표시할 수 있다.

수식 (6)

여기서,

,

이고, k₁ 및 K₂는 각각 매칭을 실행하는 2개의그래프(인코딩 된 시각 그래프 및 인코딩 된 질문 그래프)의 노드 수이다.

는 하나의 이중 선형 매핑을 설정할 수 있고, 예를 들어, 수식 (7)과 같이 표시할 수 있다.

수식 (7)

여기서,

는 러닝가능한 매트릭스 파리미터이고, τ는 수치 문제의 하이퍼 파라미터이다.

상기 매칭 과정을 거친 후, 2개의 그래프 노드사이의 매칭 매트릭스

를 얻을 수 있다. 그 다음, 주의력 메카니즘 및 매칭 매트릭스S에 기초하여, 제1 주의력 가중치 집합S₁(3032) 및 제2 주의력 가중치 집합S₂(3033)를 각각 확정한다.

예시적으로, 도3d에 도시된 바와 같이, S₁ 및 S₂는 각각 서로 다른 차원에서 매칭 매트릭스S에 대해 softmax동작을 실행하여 얻은 시각 그래프 특징 차원에서의 주의력 매핑(attention map) 및 질문 그래프 특징 차원에서의 주의력 매핑이다. 예를 들어, 매칭 매트릭스S의 1-K₁ 차원에 대해 softmax동작을 실행하여, S₁을 얻고, 매칭 매트릭스S의 1-K₂차원에 대해 softmax동작을 실행하여, S₂를 얻는다.

그 다음, 제 1 주의력 가중치 집합S₁, 인코딩 된 제 1 노드 특징X" 및 인코딩 된 제 2 노드 특징Y" 에 기초하여, 업데이트 된 제 2 노드 특징

을 확정하고, 제 2 주의력 가중치 집합S₂, 인코딩 된 제 1 노드 특징X" 및 인코딩 된 제 2 노드 특징Y" 에 기초하여, 업데이트 된 제 1 노드 특징

를 확정한다. 이로써, 업데이트 된 제 1 노드 특징

및 제 1 에지 특징

에 의해 업데이트 된 시각 그래프

(308"),

를 구성하고, 업데이트 된 제 2 노드 특징

및 제 2 에지 특징

에 의해 업데이트 된 질문 그래프

(309''),

를 구성한다.

도3d에 도시된 예에서는, S₁ 및 S₂를 사용하여 2개의 그래프 노드 특징을 각각 업데이트한다. 구체적인 업데이트 대응책은 수식 (8)과 같이 표시할 수 있다.

수식 (8)

여기서,

및

는 업데이트 된 후의 2개의 그래프의 노드 특징이고, 그래프 매칭 및 업데이트 모듈이 출력한 2개의 새로운 그래프 표시

및

를 얻을 수 있다. 본 예에서, 그래프 매칭 및 업데이트 모델(303)은 제3 완전 연결층(3034) 및 제4 완전 연결층(3035)을 더 포함하고, 수식 (8)에서, W₅는 제3 완전 연결층(3034) 및 제4 완전 연결층(3035)의 가중치 파라미터이다.

보다 양호한 업데이트 효과를 달성하기 위해, 본 발명의 실시예에 의하면, 그래프 합성곱 인코딩 모듈(302) 및 그래프 매칭 및 업데이트 모듈(303)을 직렬연결하여 하나의 일체형 업데이트 모듈을 구성하고, 사전에 구축한 네트워크 모델에 여러개의 일체형 업데이트 모듈을 직렬연결하여 그래프의 노드 특징에 대한 복수회의 업데이트를 실현함으로써, 보다 깊은 차원의 시맨틱 관계를 러닝하도록 할 수 있다. 예를 들어, p개의 일체형 업데이트 모듈을 통해 p회의 업데이트를 실현함으로써, 업데이트 된 시각 그래프

(308") 및 업데이트 된 질문 그래프

(309")를 얻을 수 있고, 여기서, p는 양(陽) 정수이다.

본 발명의 실시예에 의하면, 상기 동작(S206)에서 업데이트 된 시각 그래프, 업데이트 된 질문 그래프 및 질문 특징에 기초하여, 융합 특징을 확정하는 과정은, 그래프 융합 모듈(304)이 업데이트 된 제1 노드 특징 및 업데이트 된 제2 노드 특징에 대해 연결 병합을 실행함으로써, 병합 특징을 얻고, 병합 특징에 대해 소정의 풀링 동작을 실행함으로써, 추리 특징을 얻는 것, 그 다음, 문답 모듈(305)이 추리 특징 및 질문 특징에 대해 융합 처리를 실행함으로써, 융합 특징을 얻는 것을 포함할 수 있다. 문답 모듈(305)이 융합 처리를 실행하기 전에, 문답 모듈(305)은 입력 질문Q(307)을 취득하고, 입력 질문에 기초하여 질문 특징을 확정하는 상기 동작(S205)을 실행할 수 있다.

예시적으로, 본 발명의 실시예에서는, 그래프 매칭 및 업데이트 모델(303)의 후단에, 새로운 그래프 융합 모듈(304)을 설계하여 2개의 그래프의 융합을 실행함으로써, 최종적으로 질문 추리에 사용될 추리 특징(Reasoning Feature)을 얻을 수 있다. 예를 들어, 우선, 단지 2개의 그래프의 노드 특징을 연결(Concatenate) 병합한 다음, 예를 들어 최대 풀링(Maxpool)동작을 통해 추리 특징r(310),

을 취득한다. 구체적인 융합 방식은 수식 (9)와 같이 표시할 수 있다.

수식 (9)

이어서, 도3b에 도시된 바와 같이, 문답 모듈(305)을 이용하여 질문에 대한 최종 추리 및 답압의 예측을 실행할 수 있다. 예를 들어, 우선, 입력 질문Q(307)의 각 워드로부터 Glove 워드 인코딩(3051) 및 Bi-GRU 특징 인코딩(3052)을 통해 전반적인 입력 질문의 질문 특징q(307')을 얻는다. 본 예에서는,

이다. 그 다음, 그래프 융합 모듈(304)이 출력한 추리 특징r(310)을 취득한다. 본 예에서는,

이다. 추리 특징r과 질문 특징q에 대해 원소별(Element-wise) 내적 처리를 실행함으로써, 추리 특징r과 질문 특징q를 융합한다. 그 다음, 융합 결과를 MLP(3053)에 보내어, 최종적인 답안

(311)을 예측한다. 본 예에서는, 2층의 MLP를 사용하고, 처리 과정은 수식 (10)과 같이 표시할 수 있다.

수식 (10)

알수 있다 싶이, 트레이닝 완료된 네트워크 모델(300)을 사용할 경우, 예측할 입력 이미지 및 입력 질문을 상기 네트워크 모델(300)에 입력하여, 네트워크 모델(300)이 대응하는 답안 카테고리 및 신뢰도를 출력하고, 신뢰도가 가장 높은 답안 카테고리를 예측할 입력 이미지 및 입력 질문에 대해 얻은 예측 답안으로 한다. 상기 입력 이미지 및 입력 질문에 대한 처리 과정은 트레이닝 단계에서 샘플 이미지 및 샘플 질문에 대한 처리 과정과 동일하므로, 여기서는 설명을 생략한다.

상기 각 실시예로부터 알수 있다 싶이, 본 발명의 실시예에 따른 이미지 문답 방법은, 시각 그래프 및 질문 그래프를 구축하여 서로 다른 양상의 관심 포인트를 러닝함으로써, 멀티 목표 이미지 및 복잡한 질문으로 인한 노이즈를 감소시킬 수 있다. 이와 더불어, 그래프 합성곱에 기반한 그래프 인코딩 모듈을 설계하여 각 양상내의 명시적 및 암시적 관계를 효과적으로 러닝하고, 또한, 그래프 매칭 및 업데이트 모듈을 설계하여 2개의 서로 다른 양상 특징의 일치화 및 업데이트를 실행함으로써, 양상간의 시맨틱 갭을 축소시켜, 교차 양상 특징 융합을 보다 효과적으로 실행할 수 있다. 본 발명은, 그래프 인코딩 모듈과 그래프 매칭 및 업데이트 모듈을 직력연결하고, 여러번 반복함으로써, 질문에 대한 모델의 다단계 추리를 실현할 수 있다.

도4는 본 발명의 실시예에 따른 이미지 문답 장치의 블록도를 개략적으로 나타낸다.

도4에 도시된 바와 같이, 이미지 문답 장치(400)는, 취득 모듈(410), 제1 그래프 구축 모듈(420), 제2 그래프 구축 모듈(430), 업데이트 모듈(440), 질문 특징 추출 모듈(450), 융합 모듈(460) 및 예측 모듈(470) 을 포함할 수 있다.

취득 모듈(410)은, 입력 이미지 및 입력 질문을 취득한다.

제1 그래프 구축 모듈(420)은, 입력 이미지에 기초하여 제1 노드 특징 및 제1 에지 특징을 포함하는 시각 그래프를 구축한다.

제2 그래프 구축 모듈(430)은, 입력 질문에 기초하여 제2 노드 특징 및 제2 에지 특징을 포함하는 질문 그래프를 구축한다.

업데이트 모듈(440)은, 시각 그래프 및 질문 그래프에 대해 멀티 양상 융합을 실행함으로써, 업데이트 된 시각 그래프 및 업데이트 된 질문 그래프를 얻는다.

질문 특징 추출 모듈(450)은, 입력 질문에 기초하여 질문 특징을 확정한다.

융합 모듈(460)은, 업데이트 된 시각 그래프, 업데이트 된 질문 그래프 및 질문 특징에 기초하여, 융합 특징을 확정한다.

예측 모듈(470)은, 융합 특징에 기초하여 입력 이미지 및 입력 질문에 대한 예측 답안을 생성한다.

지적해두어야 할 것은, 장치에 관한 실시 예의 각 모듈/유닛/서브 유닛 등의 실시 형태, 해결하고자 하는 기술적 문제, 실현한 기능 및 기술적 효과는 방법에 관한 실시 예의 각 대응하는 단계의 실시 형태, 해결하고자 하는 기술적 문제, 실현한 기능, 및 기술적 효과와 동일하거나 유사하므로, 여기서는 설명을 생략한다.

본 발명의 실시예에 따른 모듈, 서브 모듈, 유닛, 서브 유닛중 임의의 하나 이상, 또는 이들중 임의의 하나 이상의 적어도 일부 기능은 하나의 모듈에서 구현될 수 있다. 본 발명의 실시예에 따른 모듈, 서브 모듈, 유닛, 서브 유닛중 임의의 하나 또는 하나 이상은 복수의 모듈로 분할되어 구현될 수 있다. 본 발명의 실시예에 따른 모듈, 서브 모듈, 유닛, 서브 유닛중 임의의 하나 또는 하나 이상은 적어도 부분적으로 예를 들어 FPGA(Field Programmable Gate Array), PLA(Programmable Logic Array), SOC(System On Chip), SOS(System On Substrate), SOP(System On Package), ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 회로를 통해 구현되거나, 또는 회로를 집적시키거나 패키징시키는 기타 합리적인 방식의 하드웨어 또는 펌웨어를 통해 구현되거나, 또는 소프트웨어, 하드에어 및 펌웨어의 3가지 구현방식중 임의의 하나 또는 하나 이상의 조합을 통해 구현될 수 있다. 또는, 본 발명의 실시예에 따른 모듈, 서브 모듈, 유닛, 서브 유닛중 하나 또는 하나 이상은 적어도 부분적으로 컴퓨터 프로그램 모듈을 통해 구현될 수 있고, 해당 컴퓨터 프로그램 모듈은 실행될 경우, 대응되는 기능을 실행할 수 있다.

예를 들어, 취득 모듈(410), 제1 그래프 구축 모듈(420), 제2 그래프 구축 모듈(430), 업데이트 모듈(440), 질문 특징 추출 모듈(450), 융합 모듈(460) 및 예측 모듈(470) 중 임의의 2개이상은 하나의 모듈에 병합하여 구현할 수 있고, 또는 이중 임의의 하나의 모듈은 복수의 모듈로 분할될 수 있다. 또는, 이들 모듈 중 하나 또는 복수의 모듈의 적어도 일부 기능은 다른 모듈의 적어도 일부 기능과 결합되어, 하나의 모듈로 구현할 수 있다. 본 발명의 실시예에 따른 취득 모듈(410), 제1 그래프 구축 모듈(420), 제2 그래프 구축 모듈(430), 업데이트 모듈(440), 질문 특징 추출 모듈(450), 융합 모듈(460) 및 예측 모듈(470) 중 적어도 하나는, 적어도 부분적으로 예를 들어 FPGA(Field Programmable Gate Array), PLA(Programmable Logic Array), SOC(System On Chip), SOS(System On Substrate), SOP(System On Package), ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 회로를 통해 구현되거나, 또는 회로를 집적시키거나 패키징시키는 기타 합리적인 방식 등 하드웨어 또는 펌웨어를 통해 구현되거나, 또는 소프트웨어, 하드에어 및 펌웨어의 3가지 구현방식중 임의의 하나 또는 하나 이상의 조합을 통해 구현될 수 있다. 또는, 취득 모듈(410), 제1 그래프 구축 모듈(420), 제2 그래프 구축 모듈(430), 업데이트 모듈(440), 질문 특징 추출 모듈(450), 융합 모듈(460) 및 예측 모듈(470) 중 적어도 하나는 적어도 부분적으로 컴퓨터 프로그램 모듈을 통해 구현될 수 있고, 해당 컴퓨터 프로그램 모듈은 실행될 경우, 대응되는 기능을 실행할 수 있다.

도5는 본 발명의 일 실시 예에 따른 상기 방법을 구현하기에 적합한 컴퓨터 장비의 블록도를 개략적으로 나타낸다. 도5에 도시된 컴퓨터 장비는 단지 하나의 실예일 뿐, 본 발명의 실시 예의 기능 및 사용 범위는 결코 이에 한정되지 않는다.

도 5에 도시된 바와 같이, 본 발명의 실시예에 따른 컴퓨터 장비(500)는 프로세서 (501)를 포함하고, 프로세서 (501)는 ROM(Read Only Memory)(502)에 저장된 프로그램 또는 저장부(508)로부터 RAM(Random Access Memory)(503)에 로드된 프로그램에 따라 각종 적당한 동작 및 처리를 실행할 수 있다. 프로세서 (501)는 예를 들어 범용 마이크로 프로세서 (예를 들어, CPU), 명령 집합 프로세서 및/또는 관련 칩셋 및/또는 전용 마이크로 프로세서 (예를 들어, ASIC(Application Specific Integrated Circuit)) 등을 포함할 수 있다. 프로세서 (501)는 버퍼링 용도로 쓰이는 보드 탑재 메모리를 포함할 수도 있다. 프로세서 (501)는 본 발명의 실시예에 따른 방법의 흐름의 서로 다른 동작을 실행하기 위한 단일 처리 유닛 또는 복수의 처리 유닛을 포함할 수 있다.

RAM(503)에는, 장비(500) 조작에 필요한 각종 프로그램 및데이터가 저장되어 있다. 프로세서 (501), ROM(502) 및RAM(503)은 버스(504)를 통해 서로 연결된다. 프로세서 (501)는 ROM(502) 및/또는 RAM(503)에 저장된 프로그램을 실행함으로써, 본 발명의 실시예에 따른 방법의 흐름의 각 동작을 실행한다. 지적해두어야 할 것은, 상기 프로그램은 ROM(502) 및 RAM(503)을 제외한 하나 또는 복수의 메모리에 저장될 수도 있다. 프로세서 (501)는 상기 하나 또는 복수의 메모리에 저장되어 있는 프로그램을 실행함으로써, 본 발명의 실시예에 따른 방법의 흐름의 각 동작을 실행할 수도 있다.

본 발명의 실시예에 따르면, 장비(500)는 입력/출력(I/O) 인터페이스(505)를 더 포함할 수 있고, 입력/출력(I/O) 인터페이스(505)도 버스(504)에 연결된다. 장비(500)는, I/O 인터페이스(505)에 연결되는 키보드, 마우스 등을 포함하는 입력부(506), 음극선관(CRT), 액정 디스플레이(LCD) 등 및 스피커 등을 포함하는 출력부(507), 하드 디스크 등을 포함하는 저장부(508), 및 LAN 카드, 모뎀 등과 같은 네트워크 인터페이스 카드를 포함하는 통신부(509)중의 하나 또는 복수개를 포함할 수 있다. 통신부(509)는 인터넷과 같은 네트워크를 통해 통신 처리를 실행한다. 수요에 따라, 드라이버(510)도 I/O 인터페이스(505)에 연결된다. 수요에 따라, 디스크, 광 디스크, 자기 광 디스크, 반도체 메모리 등과 같은 탈착가능 매체(511)를 드라이버(510)에 장착함으로써, 이들로부터 판독된 컴퓨터 프로그램을 수요에 따라 저장부(508)에 설치할 수 있도록 한다.

본 발명의 실시예에 따르면, 본 발명의 실시예에 따른 방법의 흐름은 컴퓨터 소프트웨어 프로그램으로 실현될 수 있다. 예를 들어, 본 발명의 실시예는 컴퓨터 프로그램 제품을 포함하고, 상기 제품은 컴퓨터 판독가능 저장 매체에 탑재된 컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램은 흐름도에 도시된 방법을 실행하기 위한 프로그램 코드를 포함할 수 있다. 이러한 실시예에 있어서, 상기 컴퓨터 프로그램은 통신부(509)를 통해 네트워크로부터 다운도르하여 설치하거나, 또는 탈착가능 매체(511)로부터 설치할 수 있다. 상기 컴퓨터 프로그램이 프로세서 (501)에 의해 실행될 경우, 본 발명의 실시예의 시스템에서 한정된 상기 기능을 실행한다. 본 발명의 실시예에 따르면, 앞에서 설명한 시스템, 장비, 장치, 모듈, 유닛 등은 컴퓨터 프로그램 모듈을 통해 실현될 수 있다.

본 발명은 비 일시적 컴퓨터 판독가능 저장 매체도 제공한다. 상기 비 일시적 컴퓨터 판독가능 저장 매체는 상기 실시예에서 설명한 장비/장치/시스템에 포함될 수도 있고, 상기 장비/장치/시스템에 조립되지 않고 단독적으로 존재할 수 도 있다. 상기 비 일시적 컴퓨터 판독가능 저장 매체에는 하나 또는 복수의 프로그램이 탑재되고, 상기 하나 또는 복수의 프로그램이 실행될 경우, 본 발명의 실시예에 따른 방법을 실현한다.

본 발명의 실시예에 따르면, 비 일시적 컴퓨터 판독가능 저장 매체는 컴퓨터 판독가능 비휘발성 저장 매체일 수 있다. 예를 들어, 휴대용 컴퓨터 디스크, 하드 디스크, RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programming ROM), 또는 플래시 메모리, 휴대용 CD-ROM(Compact Disc Read Only Memory), 광학적 저장 디바이스, 자기적 저장 디바이스, 또는 이들의 임의의 적합한 조합을 포함할 수 있는데, 이에 한정되지는 않는다. 본 발명에 있어서, 비 일시적 컴퓨터 판독가능 저장 매체는 프로그램을 포함 또는 저장하는 임의의 유형의 매체일 수 있는데, 상기 프로그램은 명령 실행 시스템, 장치 또는 디바이스에 의해 사용되거나 이들과 결합하여 사용할 수 있다. 예를 들어, 본 발명의 실시예에 따르면, 비 일시적 컴퓨터 판독가능 저장 매체는 앞에서 설명한 ROM(502) 및/또는 RAM(503) 및/또는 ROM(502)과 RAM(503)을 제외한 하나 또는 복수의 메모리를 포함할 수 있다.

첨부 도면의 흐름도 및 블록도는, 본 발명의 각종 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 실현가능한 체계구조, 기능 및 동작을 도시하고 있다. 이 점에서, 흐름도 또는 블록도의 각 블록은 하나의 모듈, 프로그램 세그먼트, 또는 코드의 일부를 의미할 수 있고, 상기 모듈, 프로그램 세그먼트 또는 코드의 일부는 하나 또는 복수의 소정의 논리적 기능을 실현하기 위한 실행가능 명령을 포함한다. 지적해두어야 할 것은, 다른 일부 실시예에 있어서, 블록에 표기된 기능은 첨부 도면에 표기된 순서와 다른 순서로 실행될 수도 있다. 예를 들어, 순차적으로 표시된 2개의 블록은 병행적으로 실행될 수 도 있고, 반대되는 순서로 실행될 수도 있는데, 이는 관련되는 기능에 의해 결정된다. 또한, 지적해두어야 할 것은, 블록도 또는 흐름도중의 각 블록 및 블록도 또는 흐름도중의 블록의 조합은, 소정의 기능 또는 동작을 실행하는 전용적인 하드웨어에 기반한 시스템을 통해 구현하거나, 또는 전용 하드웨어와 컴퓨터 명령의 조합을 통해 구현할 수 있다.

당업자라면, 본 발명에 명확히 개시되어 있지 않더라도, 본 발명의 각 실시예 및/또는 청구항에 기재된 특징을 다양하게 조합 및/또는 결합할 수 있음을 이해할수 있을 것이다. 특히, 본 발명의 취지 및 시사를 벗어나지 않고 본 발명의 각 실시예 및/또는 청구항에 기재된 특징을 다양하게 조합 및/또는 결합할 수 있다. 이러한 전부의 조합 및/또는 결합은 모두 본 발명의 범위에 속한다.

이상에서는 본 발명의 실시예에 대해 설명하였다. 하지만, 이러한 실시예는 단지 설명을 위한 것일 뿐, 결코 본 발명의 범위를 제한하기 위한 것이 아니다. 비록 이상에서는 각 실시예를 별도로 설명하였으나, 이는 결코 각 실시예중의 조치가 결합하여 사용할수 없음을 의미하지 않는다. 본 발명의 범위는 첨부된 청구의 범위 및 그 등가물에 의해 한정된다. 당업자라면, 본 발명의 범위를 벗어나지 않고, 다양하게 치환 및 변경할 수 있는데, 이러한 치환 및 변경 또한 본 발명의 범위에 포함되어야 한다.

시스템 : 100 단말 장비 : 110
네트워크 : 120 서버 : 130
네트워크 모델 : 300 그래프 구축 모듈 : 301
그래프 인코딩 모듈 : 302 그래프 매칭 및 업데이트 모듈 : 303
그래프 융합모듈 : 304 문답 모듈 : 305
이미지 문답 장치 : 400 취득 모듈 : 410
제 1 그래프 구축 모듈 : 420 제 2 그래프 구축 모듈 : 430
업데이트 모듈 : 440 질문 특징 추출 모듈 : 450
융합 모듈 : 460 예측 모듈 : 470
컴퓨터 장비 :500 프로세서 : 501
ROM : 502 RAM : 503
I/O 인터페이스 : 505 입력부 : 506
출력부 : 507 저장부 : 508
통신부 : 509 버스 : 504

Claims

입력 이미지 및 입력 질문을 취득하는 것,
상기 입력 이미지에 기초하여, 제1 노드 특징 및 제1 에지 특징을 포함하는 시각 그래프를 구축하는 것,
상기 입력 질문에 기초하여, 제2 노드 특징 및 제2 에지 특징을 포함하는 질문 그래프를 구축하는 것,
상기 시각 그래프 및 상기 질문 그래프에 대해 멀티 양상 융합을 실행함으로써, 업데이트 된 시각 그래프 및 업데이트 된 질문 그래프를 얻는 것,
상기 입력 질문에 기초하여 질문 특징을 확정하는 것,
상기 업데이트 된 시각 그래프, 상기 업데이트 된 질문 그래프 및 상기 질문 특징에 기초하여, 융합 특징을 확정하는 것, 및
상기 융합 특징에 기초하여, 상기 입력 이미지 및 상기 입력 질문에 대한 예측 답안을 생성하는 것을 포함하는
이미지 문답 방법.
제1항에 있어서,
상기 입력 이미지에 기초하여 시각 그래프를 구축하는 것은,
목표 검출 네트워크를 이용하여 상기 입력 이미지를 처리함으로써, 상기 목표 검출 네트워크의 중간층으로부터 상기 입력 이미지중의 복수의 목표 대상에 대한 표상 특징 및 공간 특징을 추출하는 것,
상기 표상 특징 및 상기 공간 특징에 기초하여 상기 제1 노드 특징을 확정하는 것,
상기 목표 검출 네트워크의 출력층이 출력한 처리 결과에 기초하여, 상기 복수의 목표 대상 각각의 위치 정보를 확정하는 것,
상기 복수의 목표 대상 각각의 위치 정보에 기초하여, 상기 복수의 목표 대상 중 임의의 2개의 목표 대상사이의 위치 관계를 확정하는 것,
상기 임의의 2개의 목표 대상사이의 위치 관계에 기초하여, 상기 제1 에지 특징을 확정하는 것, 및
상기 제1 노드 특징 및 상기 제1 에지 특징에 의해 상기 시각 그래프를 구성하는 것을 포함하는
이미지 문답 방법.
제2항에 있어서,
상기 복수의 목표 대상 각각의 위치 정보에 기초하여, 상기 복수의 목표 대상 중 임의의 2개의 목표 대상사이의 위치 관계를 확정하는 것은,
상기 임의의 2개의 목표 대상 각각의 위치 정보에 근거하여, 상기 임의의 2개의 목표 대상의 위치 영역사이의 교집합 및 합집합을 계산하는 것,
상기 교집합 및 합집합의 비례 값을 계산하는 것,
상기 비례 값이 소정의 임계치보다 클 경우, 상기 임의의 2개의 목표 대상사이의 위치 관계를 1로 표시하는 것, 및
상기 비례 값이 소정의 임계치이하일 경우, 상기 임의의 2개의 목표 대상사이의 위치 관계를 0으로 표시하는 것을 포함하는
이미지 문답 방법.
제1항에 있어서,
상기 입력 질문에 기초하여, 질문 그래프를 구축하는 것은,
워드 인코딩 알고리즘 및 특징 인코딩 알고리즘을 이용하여 상기 입력 질문을 순차적으로 처리함으로써, 상기 입력 질문으로부터 상기 입력 질문중의 복수의 워드 각자의 특징 정보를 나타내기 위한 복수의 워드 노드 특징을 추출하는 것,
의존 분석 알고리즘을 이용하여 상기 복수의 워드 중 임의의 2개의 워드사이의 의존 관계를 확정하는 것,
상기 임의의 2개의 워드사이의 의존 관계에 기초하여, 상기 제2 에지 특징을 확정하는 것, 및
상기 복수의 워드 노드 특징에 의해 상기 제2 노드 특징을 구성하고, 상기 제2 노드 특징 및 상기 제2 에지 특징에 의해 상기 질문 그래프를 구축하는 것 을 포함하는
이미지 문답 방법.
제1항에 있어서,
상기 시각 그래프 및 상기 질문 그래프에 대해 멀티 양상 융합을 실행하는 것은, 적어도 1회의 멀티 양상 융합 동작을 실행하는 것을 포함하고,
상기 적어도 1회의 멀티 양상 융합 동작 중 매회의 멀티 양상 융합 동작은,
상기 제1 노드 특징 및 상기 제1 에지 특징에 기초하여, 제1 소정의 네트워크를 이용하여 상기 제1 노드 특징을 인코딩함으로써, 인코딩 된 시각 그래프를 얻는 것,
상기 제2 노드 특징 및 상기 제2 에지 특징에 기초하여, 제2 소정의 네트워크를 이용하여 상기 제2 노드 특징을 인코딩함으로써, 인코딩 된 질문 그래프를 얻는 것, 및
그래프 매칭 알고리즘을 이용하여, 상기 인코딩 된 시각 그래프 및 상기 인코딩 된 질문 그래프에 대해 멀티 양상 융합을 실행함으로써, 상기 업데이트 된 시각 그래프 및 상기 업데이트 된 질문 그래프를 얻는 것을 포함하는
이미지 문답 방법.
제5항에 있어서,
상기 제1 소정의 네트워크는, 제1 완전 연결층, 제1 그래프 합성곱층 및 제2 그래프 합성곱층을 포함하고,
상기 제1 노드 특징을 인코딩하는 것은,
제1 완전 연결층을 이용하여 상기 제1 노드 특징을 공간 차원수가 소정 수인 제1 특징으로 매핑하는 것,
제1 그래프 합성곱층을 이용하여 상기 제1 특징을 처리함으로써, 제2 특징을 얻는 것,
제2 그래프 합성곱층을 이용하여 상기 제2 특징을 처리함으로써, 인코딩 된 제1 노드 특징을 얻는 것, 및
상기 인코딩 된 제1 노드 특징 및 상기 제1 에지 특징에 의해 상기 인코딩 된 시각 그래프를 구성하는 것을 포함하는
이미지 문답 방법.
제6항에 있어서,
상기 제1 노드 특징을 인코딩하는 것은,
상기 제1 에지 특징에 기초하여 제1 라플라시안 매트릭스를 구축하는 것을 더 포함하고,
상기 제1 그래프 합성곱층을 이용하여 상기 제1 특징을 처리하는 것은,
상기 제1 그래프 합성곱층을 이용하여 상기 제1 라플라시안 매트릭스에 기초하여 상기 제1 특징을 처리함으로써, 복수의 제1 서브 특징을 포함하는 상기 제2 특징을 얻는 것을 포함하는
이미지 문답 방법.
제7항에 있어서,
상기 제1 소정의 네트워크는 제1 연관층을 더 포함하고,
상기 제1 노드 특징을 인코딩하는 것은, 제1 연관층을 이용하여 상기 복수의 제1 서브 특징 중 임의의 2개의 제1 서브 특징사이의 연관관계를 계산하고, 상기 임의의 2개의 제1 서브 특징사이의 연관관계에 기초하여 제1 관계 매트릭스를 확정하는 것을 더 포함하고,
상기 제2 그래프 합성곱층을 이용하여 상기 제2 특징을 처리하는 것은,
상기 제2 그래프 합성곱층을 이용하여 상기 제1 관계 매트릭스에 기초하여 상기 제2 특징을 처리함으로써, 상기 인코딩 된 제1 노드 특징을 얻는 것을 포함하는
이미지 문답 방법.
제5항에 있어서,
상기 제2 소정의 네트워크는, 제2 완전 연결층, 제3 그래프 합성곱층 및 제4 그래프 합성곱층을 포함하고,
상기 제2 노드 특징을 인코딩하는 것은,
제2 완전 연결층을 이용하여 상기 제2 노드 특징을 공간 차원수가 소정 수인 제3 특징으로 매핑하는 것,
제3 그래프 합성곱층을 이용하여 상기 제3 특징을 처리함으로써, 제4 특징을 얻는 것,
제4 그래프 합성곱층을 이용하여 상기 제4 특징을 처리함으로써, 인코딩 된 제2 노드 특징을 얻는 것, 및
상기 인코딩 된 제2 노드 특징 및 상기 제2 에지 특징에 의해 상기 인코딩 된 질문 그래프를 구성하는 것을 포함하는
이미지 문답 방법.
제9항에 있어서,
상기 제2 노드 특징을 인코딩하는 것은,
상기 제2 에지 특징에 기초하여 제2 라플라시안 매트릭스을 구축하는 것을 더 포함하고,
상기 제3 그래프 합성곱층을 이용하여 상기 제3 특징을 처리하는 것은,
상기 제3 그래프 합성곱층을 이용하여 상기 제2 라플라시안 매트릭스에 기초하여 상기 제3 특징을 처리함으로써, 복수의 제2 서브 특징을 포함하는 상기 제4 특징을 얻는 것을 포함하는
이미지 문답 방법.
제10항에 있어서,
상기 제2 소정의 네트워크는 제2 연관층을 더 포함하고,
상기 제2 노드 특징을 인코딩하는 것은, 제2 연관층을 이용하여 상기 복수의 제2 서브 특징 중 임의의 2개의 제2 서브 특징사이의 연관관계를 계산하고, 상기 임의의 2개의 제2 서브 특징사이의 연관관계에 기초하여 제2 관계 매트릭스를 확정하는 것을 더 포함하고,
상기 제4 그래프 합성곱층을 이용하여 상기 제4 특징을 처리하는 것은,
상기 제4 그래프 합성곱층을 이용하여 상기 제2 관계 매트릭스에 기초하여 상기 제4 특징을 처리함으로써, 상기 인코딩 된 제2 노드 특징을 얻는 것을 포함하는
이미지 문답 방법.
제5항에 있어서,
상기 인코딩 된 시각 그래프중의 인코딩 된 제1 노드 특징은 복수의 제3 서브 특징을 포함하고, 상기 인코딩 된 질문 그래프중의 인코딩 된 제2 노드 특징은 복수의 제4 서브 특징을 포함하고,
상기 그래프 매칭 알고리즘을 이용하여, 상기 인코딩 된 시각 그래프 및 상기 인코딩 된 질문 그래프에 대해 멀티 양상 융합을 실행하는 것은,
그래프 매칭 알고리즘을 이용하여 상기 인코딩 된 제1 노드 특징 및 상기 인코딩 된 제2 노드 특징에 대해 매칭 처리를 실행함으로써, 상기 복수의 제3 서브 특징 중 임의의 제3 서브 특징과 상기 복수의 제4 서브 특징 중 임의의 제4 서브 특징사이의 매칭 관계를 확정하는 것,
상기 임의의 제3 서브 특징과 상기 임의의 제4 서브 특징사이의 매칭 관계에 기초하여, 매칭 매트릭스를 확정하는 것,
주의력 메카니즘 및 상기 매칭 매트릭스에 기초하여, 제1 주의력 가중치 집합 및 제2 주의력 가중치 집합을 각각 확정하는 것,
상기 제1 주의력 가중치 집합, 상기 인코딩 된 제1 노드 특징 및 상기 인코딩 된 제2 노드 특징에 기초하여, 업데이트 된 제2 노드 특징을 확정하는 것,
상기 제2 주의력 가중치 집합, 상기 인코딩 된 제1 노드 특징 및 상기 인코딩 된 제2 노드 특징에 기초하여, 업데이트 된 제1 노드 특징을 확정하는 것, 및
상기 업데이트 된 제1 노드 특징 및 상기 제1 에지 특징에 의해 상기 업데이트 된 시각 그래프를 구성하고, 상기 업데이트 된 제2 노드 특징 및 상기 제2 에지 특징에 의해 상기 업데이트 된 질문 그래프를 구성하는 것을 포함하는
이미지 문답 방법.
제12항에 있어서,
상기 입력 질문에 기초하여 질문 특징을 확정하는 것은,
소정의 워드 인코딩 알고리즘 및 소정의 특징 인코딩 알고리즘을 이용하여 상기 입력 질문을 순차적으로 인코딩 처리함으로써, 상기 질문 특징을 얻는 것을 포함하는
이미지 문답 방법.
제12항에 있어서,
상기 업데이트 된 시각 그래프, 상기 업데이트 된 질문 그래프 및 상기 질문 특징에 기초하여, 융합 특징을 확정하는 것은,
상기 업데이트 된 제1 노드 특징 및 상기 업데이트 된 제2 노드 특징에 대해 연결 병합을 실행함으로써, 병합 특징을 얻는 것,
상기 병합 특징에 대해 소정의 풀링 동작을 실행함으로써, 추리 특징을 얻는 것, 및
상기 추리 특징 및 상기 질문 특징에 대해 융합 처리를 실행함으로써, 상기 융합 특징을 얻는 것을 포함하는
이미지 문답 방법.
제14항에 있어서,
상기 추리 특징 및 상기 질문 특징에 대해 융합 처리를 실행하는 것은,
상기 추리 특징 및 상기 질문 특징에 대해 원소별 내적 처리를 실행함으로써, 상기 융합 특징을 얻는 것을 포함하는
이미지 문답 방법.
제1항에 있어서,
상기 융합 특징에 기초하여, 상기 입력 이미지 및 상기 입력 질문에 대한 예측 답안을 생성하는 것은,
멀티 레이어 퍼셉트론을 이용하여 상기 융합 특징을 처리함으로써, 상기 융합 특징에 대한 예측 답안을 얻는 것을 포함하는
이미지 문답 방법.
입력 이미지 및 입력 질문을 취득하기 위한 취득 모듈,
상기 입력 이미지에 기초하여, 제1 노드 특징 및 제1 에지 특징을 포함하는 시각 그래프를 구축하기 위한 제1 그래프 구축 모듈,
상기 입력 질문에 기초하여, 제2 노드 특징 및 제2 에지 특징을 포함하는 질문 그래프를 구축하기 위한 제2 그래프 구축 모듈,
상기 시각 그래프 및 상기 질문 그래프에 대해 멀티 양상 융합을 실행함으로써, 업데이트 된 시각 그래프 및 업데이트 된 질문 그래프를 얻기 위한 업데이트 모듈,
상기 입력 질문에 기초하여 질문 특징을 확정하기 위한 질문 특징 추출 모듈,
상기 업데이트 된 시각 그래프, 상기 업데이트 된 질문 그래프 및 상기 질문 특징에 기초하여, 융합 특징을 확정하기 위한 융합 모듈, 및
상기 융합 특징에 기초하여, 상기 입력 이미지 및 상기 입력 질문에 대한 예측 답안을 생성하기 위한 예측 모듈을 포함하는
이미지 문답 장치.
컴퓨터 프로그램이 저장되어 있는 메모리, 및
적어도 하나의 프로세서를 포함하는 컴퓨터 장비에 있어서,
상기 컴퓨터 프로그램이 상기 프로세서에 의해 실행될 경우, 제1항 내지 제16항 중 어느 한 항의 방법을 구현하는
컴퓨터 장비.
컴퓨터 프로그램이 저장되어 있는 비 일시적 컴퓨터 판독가능 저장 매체에 있어서,
컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 제1 항 내지 제16항 중 어느 한 항의 방법을 구현하는
비 일시적 컴퓨터 판독가능 저장 매체.
컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램의 명령이 프로세서에 의해 실행될 경우, 제1항 내지 제16항중 어느 한 항의 방법을 구현하는
컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램.