KR20220002067A - 이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램 - Google Patents

이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20220002067A
KR20220002067A KR1020210026684A KR20210026684A KR20220002067A KR 20220002067 A KR20220002067 A KR 20220002067A KR 1020210026684 A KR1020210026684 A KR 1020210026684A KR 20210026684 A KR20210026684 A KR 20210026684A KR 20220002067 A KR20220002067 A KR 20220002067A
Authority
KR
South Korea
Prior art keywords
feature
graph
question
node
encoded
Prior art date
Application number
KR1020210026684A
Other languages
English (en)
Other versions
KR102588894B1 (ko
Inventor
리 위린
친 시아멍
후앙 쥐
시에 췬인
한 쥔위
Original Assignee
베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Publication of KR20220002067A publication Critical patent/KR20220002067A/ko
Application granted granted Critical
Publication of KR102588894B1 publication Critical patent/KR102588894B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • G06K9/00624
    • G06K9/46
    • G06K9/6215
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • G06V10/426Graphical representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Library & Information Science (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은, 입력 이미지 및 입력 질문을 취득하는 것, 입력 이미지에 기초하여 제1 노드 특징 및 제1 에지 특징을 포함하는 시각 그래프를 구축하는 것, 입력 질문에 기초하여, 제2 노드 특징 및 제2 에지 특징을 포함하는 질문 그래프를 구축하는 것, 시각 그래프 및 질문 그래프에 대해 멀티 양상 융합을 실행함으로써, 업데이트 된 시각 그래프 및 업데이트 된 질문 그래프를 얻는 것, 입력 질문에 기초하여 질문 특징을 확정하는 것, 업데이트 된 시각 그래프, 업데이트 된 질문 그래프 및 질문 특징에 기초하여, 융합 특징을 확정하는 것, 및 융합 특징에 기초하여 입력 이미지 및 입력 질문에 대한 예측 답안을 생성하는 것을 포함하는 이미지 문답 방법을 제공한다. 본 발명은 이미지 문답 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램도 제공한다.

Description

이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램{method, apparatus, computer equipment, computer readable storage medium and computer program for visual qustion answering}
본 발명은 컴퓨터 시각, 자연 언어 처리 분야에 관한 것으로서, 보다 구체적으로는, 이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램에 관한 것이다.
이미지 문답 (Visual Question Answering, VQA) 은 아주 도전성있는 임무로서 , 그 목적은 컴퓨터 시각과 자연 언어 처리를 연결시키는 것이다. 이미지 문답 임무에 있어서 , 예를 들어 , 하나의 이미지와 하나의 연관되는 질문이 주어지고, 기계로 하여금 이미지 내용에 따라 일부 상식에 의해 질문의 답안을 추리하여 얻어낼 것을 요구한다. 상기 이미지 문답 임무를 완성하기 위해, 기계는 반드시 교차 양상(CrossModal)의 이해능력을 구비하여, 시각과 언어 이 2 가지 부동한 양상( Modality)의 데이터에 대한 종합적인 이해를 실현하여야 한다.
따라서, 이미지 문답 임무는 다른 단일 양상의 임무(예를 들어, 이미지 식별, 문서 분류 등)에 비해 요구가 더 높다.
이를 감안하여, 본 발명은 이미지 문답 방법 및 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램을 제공한다.
본 발명의 한 측면에 의하면, 입력 이미지 및 입력 질문을 취득하는 것, 입력 이미지에 기초하여, 제1 노드 특징 및 제1 에지 특징을 포함하는 시각 그래프를 구축하는 것, 입력 질문에 기초하여, 제2 노드 특징 및 제2 에지 특징을 포함하는 질문 그래프를 구축하는 것, 시각 그래프 및 질문 그래프에 대해 멀티 양상 융합을 실행함으로써, 업데이트 된 시각 그래프 및 업데이트 된 질문 그래프를 얻는 것, 입력 질문에 기초하여 질문 특징을 확정하는 것, 업데이트 된 시각 그래프, 업데이트 된 질문 그래프 및 질문 특징에 기초하여, 융합 특징을 확정하는 것, 및 융합 특징에 기초하여, 입력 이미지 및 입력 질문에 대한 예측 답안을 생성하는 것을 포함하는 이미지 문답 방법을 제공한다.
본 발명의 실시예에 의하면, 상기 입력 이미지에 기초하여 시각 그래프를 구축하는 것은, 목표 검출 네트워크를 이용하여 입력 이미지를 처리함으로써, 목표 검출 네트워크의 중간층으로부터 입력 이미지중의 복수의 목표 대상에 대한 표상 특징 및 공간 특징을 추출하는 것, 상기 표상 특징 및 공간 특징에 기초하여 제1 노드 특징을 확정하는 것, 목표 검출 네트워크의 출력층이 출력한 처리 결과에 기초하여, 복수의 목표 대상 각각의 위치 정보를 확정하는 것, 복수의 목표 대상 각각의 위치 정보에 기초하여, 복수의 목표 대상 중 임의의 2개의 목표 대상사이의 위치 관계를 확정하는 것, 임의의 2개의 목표 대상사이의 위치 관계에 기초하여, 제1 에지 특징을 확정하는 것, 및 상기 제1 노드 특징 및 제1 에지 특징에 의해 시각 그래프를 구성하는 것을 포함한다.
본 발명의 실시예에 의하면, 상기 복수의 목표 대상 각각의 위치 정보에 기초하여, 복수의 목표 대상 중 임의의 2개의 목표 대상사이의 위치 관계를 확정하는 것은, 상기 임의의 2개의 목표 대상 각각의 위치 정보에 근거하여, 상기 임의의 2개의 목표 대상의 위치 영역사이의 교집합 및 합집합을 계산하는 것, 교집합 및 합집합의 비례 값을 계산하는 것, 상기 비례 값이 소정의 임계치보다 클 경우, 상기 임의의 2개의 목표 대상사이의 위치 관계를 1로 표시하는 것, 및 상기 비례 값이 소정의 임계치이하일 경우, 상기 임의의 2개의 목표 대상사이의 위치 관계를 0으로 표시하는 것을 포함한다.
본 발명의 실시예에 의하면, 상기 입력 질문에 기초하여, 질문 그래프를 구축하는 것은, 워드 인코딩 알고리즘 및 특징 인코딩 알고리즘을 이용하여 입력 질문을 순차적으로 처리함으로써, 입력 질문으로부터 입력 질문중의 복수의 워드 각자의 특징 정보를 나타내기 위한 복수의 워드 노드 특징을 추출하는 것, 의존 분석 알고리즘을 이용하여 복수의 워드 중 임의의 2개의 워드사이의 의존 관계를 확정하는 것, 임의의 2개의 워드사이의 의존 관계에 기초하여, 제2 에지 특징을 확정하는 것, 및 복수의 워드 노드 특징에 의해 제2 노드 특징을 구성하고, 제2 노드 특징 및 제2 에지 특징에 의해 질문 그래프를 구축하는 것 을 포함한다.
본 발명의 실시예에 의하면, 상기 시각 그래프 및 질문 그래프에 대해 멀티 양상 융합을 실행하는 것은, 적어도 1회의 멀티 양상 융합 동작을 실행하는 것을 포함한다. 상기 적어도 1회의 멀티 양상 융합 동작 중 매회의 멀티 양상 융합 동작은, 제1 노드 특징 및 제1 에지 특징에 기초하여, 제1 소정의 네트워크를 이용하여 제1 노드 특징을 인코딩함으로써, 인코딩 된 시각 그래프를 얻는 것, 제2 노드 특징 및 제2 에지 특징에 기초하여, 제2 소정의 네트워크를 이용하여 제2 노드 특징을 인코딩함으로써, 인코딩 된 질문 그래프를 얻는 것, 및 그래프 매칭 알고리즘을 이용하여, 인코딩 된 시각 그래프 및 인코딩 된 질문 그래프에 대해 멀티 양상 융합을 실행함으로써, 업데이트 된 시각 그래프 및 업데이트 된 질문 그래프를 얻는 것을 포함한다.
본 발명의 실시예에 의하면, 제1 소정의 네트워크는, 제1 완전 연결층, 제1 그래프 합성곱층 및 제2 그래프 합성곱층을 포함한다. 상기 제1 노드 특징을 인코딩하는 것은, 제1 완전 연결층을 이용하여 제1 노드 특징을 공간 차원수가 소정 수인 제1 특징으로 매핑하는 것, 제1 그래프 합성곱층을 이용하여 제1 특징을 처리함으로써, 제2 특징을 얻는 것, 제2 그래프 합성곱층을 이용하여 제2 특징을 처리함으로써, 인코딩 된 제1 노드 특징을 얻는 것, 및 인코딩 된 제1 노드 특징 및 제1 에지 특징에 의해 인코딩 된 시각 그래프를 구성하는 것을 포함한다.
본 발명의 실시예에 의하면, 상기 제1 노드 특징을 인코딩하는 것은, 제1 에지 특징에 기초하여 제1 라플라시안 매트릭스를 구축하는 것을 더 포함한다. 상기 제1 그래프 합성곱층을 이용하여 제1 특징을 처리하는 것은, 제1 그래프 합성곱층을 이용하여 제1 라플라시안 매트릭스에 기초하여 제1 특징을 처리함으로써, 복수의 제1 서브 특징을 포함하는 제2 특징을 얻는 것을 포함한다.
본 발명의 실시예에 의하면, 제1 소정의 네트워크는 제1 연관층을 더 포함한다. 상기 제1 노드 특징을 인코딩하는 것은, 제1 연관층을 이용하여 복수의 제1 서브 특징 중 임의의 2개의 제1 서브 특징사이의 연관관계를 계산하고, 임의의 2개의 제1 서브 특징사이의 연관관계에 기초하여 제1 관계 매트릭스를 확정하는 것을 더 포함한다. 상기 제2 그래프 합성곱층을 이용하여 제2 특징을 처리하는 것은, 제2 그래프 합성곱층을 이용하여 제1 관계 매트릭스에 기초하여 제2 특징을 처리함으로써, 인코딩 된 제1 노드 특징을 얻는 것을 포함한다.
본 발명의 실시예에 의하면, 제2 소정의 네트워크는, 제2 완전 연결층, 제3 그래프 합성곱층 및 제4 그래프 합성곱층을 포함한다. 상기 제2 노드 특징을 인코딩하는 것은, 제2 완전 연결층을 이용하여 제2 노드 특징을 공간 차원수가 소정 수인 제3 특징으로 매핑하는 것, 제3 그래프 합성곱층을 이용하여 제3 특징을 처리함으로써, 제4 특징을 얻는 것, 제4 그래프 합성곱층을 이용하여 제4 특징을 처리함으로써, 인코딩 된 제2 노드 특징을 얻는 것, 및 인코딩 된 제2 노드 특징 및 제2 에지 특징에 의해 인코딩 된 질문 그래프를 구성하는 것을 포함한다.
본 발명의 실시예에 의하면, 상기 제2 노드 특징을 인코딩하는 것은, 제2 에지 특징에 기초하여 제2 라플라시안 매트릭스을 구축하는 것을 더 포함한다. 상기 제3 그래프 합성곱층을 이용하여 제3 특징을 처리하는 것은, 제3 그래프 합성곱층을 이용하여 제2 라플라시안 매트릭스에 기초하여 제3 특징을 처리함으로써, 복수의 제2 서브 특징을 포함하는 제4 특징을 얻는 것을 포함한다.
본 발명의 실시예에 의하면, 제2 소정의 네트워크는 제2 연관층을 더 포함한다. 상기 제2 노드 특징을 인코딩하는 것은, 제2 연관층을 이용하여 복수의 제2 서브 특징 중 임의의 2개의 제2 서브 특징사이의 연관관계를 계산하고, 임의의 2개의 제2 서브 특징사이의 연관관계에 기초하여 제2 관계 매트릭스를 확정하는 것을 더 포함한다. 상기 제4 그래프 합성곱층을 이용하여 제4 특징을 처리하는 것은, 제4 그래프 합성곱층을 이용하여 제2 관계 매트릭스에 기초하여 제4 특징을 처리함으로써, 인코딩 된 제2 노드 특징을 얻는 것을 포함한다.
본 발명의 실시예에 의하면, 인코딩 된 시각 그래프중의 인코딩 된 제1 노드 특징은 복수의 제3 서브 특징을 포함하고, 인코딩 된 질문 그래프중의 인코딩 된 제2 노드 특징은 복수의 제4 서브 특징을 포함한다. 상기 그래프 매칭 알고리즘을 이용하여, 인코딩 된 시각 그래프 및 인코딩 된 질문 그래프에 대해 멀티 양상 융합을 실행하는 것은, 그래프 매칭 알고리즘을 이용하여 인코딩 된 제1 노드 특징 및 인코딩 된 제2 노드 특징에 대해 매칭 처리를 실행함으로써, 복수의 제3 서브 특징 중 임의의 제3 서브 특징과 복수의 제4 서브 특징 중 임의의 제4 서브 특징사이의 매칭 관계를 확정하는 것, 임의의 제3 서브 특징과 임의의 제4 서브 특징사이의 매칭 관계에 기초하여, 매칭 매트릭스를 확정하는 것, 주의력 메카니즘 및 매칭 매트릭스에 기초하여, 제1 주의력 가중치 집합 및 제2 주의력 가중치 집합을 각각 확정하는 것, 제1 주의력 가중치 집합, 인코딩 된 제1 노드 특징 및 인코딩 된 제2 노드 특징에 기초하여, 업데이트 된 제2 노드 특징을 확정하는 것, 제2 주의력 가중치 집합, 인코딩 된 제1 노드 특징 및 인코딩 된 제2 노드 특징에 기초하여, 업데이트 된 제1 노드 특징을 확정하는 것, 및 업데이트 된 제1 노드 특징 및 제1 에지 특징에 의해 업데이트 된 시각 그래프를 구성하고, 업데이트 된 제2 노드 특징 및 제2 에지 특징에 의해 업데이트 된 질문 그래프를 구성하는 것을 포함한다.
본 발명의 실시예에 의하면, 상기 입력 질문에 기초하여 질문 특징을 확정하는 것은, 소정의 워드 인코딩 알고리즘 및 소정의 특징 인코딩 알고리즘을 이용하여 입력 질문을 순차적으로 인코딩 처리함으로써, 질문 특징을 얻는 것을 포함한다.
본 발명의 실시예에 의하면, 상기 업데이트 된 시각 그래프, 업데이트 된 질문 그래프 및 질문 특징에 기초하여, 융합 특징을 확정하는 것은, 업데이트 된 제1 노드 특징 및 업데이트 된 제2 노드 특징에 대해 연결 병합을 실행함으로써, 병합 특징을 얻는 것, 병합 특징에 대해 소정의 풀링 동작을 실행함으로써, 추리 특징을 얻는 것, 및 추리 특징 및 질문 특징에 대해 융합 처리를 실행함으로써, 융합 특징을 얻는 것을 포함한다.
본 발명의 실시예에 의하면, 상기 추리 특징 및 질문 특징에 대해 융합 처리를 실행하는 것은, 추리 특징 및 질문 특징에 대해 원소별 내적 처리를 실행함으로써, 융합 특징을 얻는 것을 포함한다.
본 발명의 실시예에 의하면, 상기 융합 특징에 기초하여, 입력 이미지 및 입력 질문에 대한 예측 답안을 생성하는 것은, 멀티 레이어 퍼셉트론을 이용하여 융합 특징을 처리함으로써, 융합 특징에 대한 예측 답안을 얻는 것을 포함한다.
본 발명의 다른 측면에 의하면, 취득 모듈, 제1 그래프 구축 모듈, 제2 그래프 구축 모듈, 업데이트 모듈, 질문 특징 추출 모듈, 융합 모듈 및예측 모듈을 포함하는 이미지 문답 장치를 제공한다. 취득 모듈은, 입력 이미지 및 입력 질문을 취득하기 위한 것이다. 제1 그래프 구축 모듈은, 입력 이미지에 기초하여, 제1 노드 특징 및 제1 에지 특징을 포함하는 시각 그래프를 구축하기 위한 것이다. 제2 그래프 구축 모듈은, 입력 질문에 기초하여, 제2 노드 특징 및 제2 에지 특징을 포함하는 질문 그래프를 구축하기 위한 것이다. 업데이트 모듈은, 시각 그래프 및 질문 그래프에 대해 멀티 양상 융합을 실행함으로써, 업데이트 된 시각 그래프 및 업데이트 된 질문 그래프를 얻기 위한 것이다. 질문 특징 추출 모듈은, 입력 질문에 기초하여 질문 특징을 확정하기 위한 것이다. 융합 모듈은, 업데이트 된 시각 그래프, 업데이트 된 질문 그래프 및 질문 특징에 기초하여, 융합 특징을 확정하기 위한 것이다. 예측 모듈은, 융합 특징에 기초하여, 입력 이미지 및 입력 질문에 대한 예측 답안을 생성하기 위한 것이다.
본 발명의 실시예에 의하면, 제1 그래프 구축 모듈은, 목표 검출 네트워크를 이용하여 입력 이미지를 처리함으로써, 목표 검출 네트워크의 중간층으로부터 입력 이미지중의 복수의 목표 대상에 대한 표상 특징 및 공간 특징을 추출하기 위한 검출 서브 모듈, 상기 표상 특징 및 공간 특징에 기초하여 제1 노드 특징을 확정하기 위한 제1 노드 특징 확정 서브 모듈, 목표 검출 네트워크의 출력층이 출력한 처리 결과에 기초하여, 복수의 목표 대상 각각의 위치 정보를 확정하고, 복수의 목표 대상 각각의 위치 정보에 기초하여, 복수의 목표 대상 중 임의의 2개의 목표 대상사이의 위치 관계를 확정하고, 임의의 2개의 목표 대상사이의 위치 관계에 기초하여, 제1 에지 특징을 확정하기 위한 제1 에지 특징 확정 서브 모듈, 및 상기 제1 노드 특징 및 제1 에지 특징에 의해 시각 그래프를 구성하기 위한 제1 그래프 구축 서브 모듈을 포함한다.
본 발명의 실시예에 의하면, 제1 에지 특징 확정 서브 모듈이 복수의 목표 대상 각각의 위치 정보에 기초하여, 복수의 목표 대상 중 임의의 2개의 목표 대상사이의 위치 관계를 확정하는 것은, 제1 에지 특징 확정 서브 모듈이 상기 임의의 2개의 목표 대상 각각의 위치 정보에 근거하여, 상기 임의의 2개의 목표 대상의 위치 영역사이의 교집합 및 합집합을 계산하는 것, 교집합 및 합집합의 비례 값을 계산하는 것, 상기 비례 값이 소정의 임계치보다 클 경우, 상기 임의의 2개의 목표 대상사이의 위치 관계를 1로 표시하는 것, 및 상기 비례 값이 소정의 임계치이하일 경우, 상기 임의의 2개의 목표 대상사이의 위치 관계를 0으로 표시하는 것을 포함한다.
본 발명의 실시예에 의하면, 제2 그래프 구축 모듈은, 워드 인코딩 알고리즘 및 특징 인코딩 알고리즘을 이용하여 입력 질문을 순차적으로 처리함으로써, 입력 질문으로부터 입력 질문중의 복수의 워드 각자의 특징 정보를 나타내기 위한 복수의 워드 노드 특징을 추출하기 위한 제2 노드 특징 확정 서브 모듈, 의존 분석 알고리즘을 이용하여 복수의 워드 중 임의의 2개의 워드사이의 의존 관계를 확정하고, 임의의 2개의 워드사이의 의존 관계에 기초하여, 제2 에지 특징을 확정하기 위한 제2 에지 특징 확정 서브 모듈, 및 복수의 워드 노드 특징에 의해 제2 노드 특징을 구성하고, 제2 노드 특징 및 제2 에지 특징에 의해 질문 그래프를 구축하기 위한 제2 그래프 구축 서브 모듈을 포함한다.
본 발명의 실시예에 의하면, 업데이트 모듈은, 시각 그래프 및 질문 그래프에 대해 적어도 1회의 멀티 양상 융합 동작을 실행한다. 여기서, 업데이트 모듈은, 제1 노드 특징 및 제1 에지 특징에 기초하여, 제1 소정의 네트워크를 이용하여 제1 노드 특징을 인코딩함으로써, 인코딩 된 시각 그래프를 얻기 위한 제1 그래프 인코딩 서브 모듈, 제2 노드 특징 및 제2 에지 특징에 기초하여, 제2 소정의 네트워크를 이용하여 제2 노드 특징을 인코딩함으로써, 인코딩 된 질문 그래프를 얻기 위한 제2 그래프 인코딩 서브 모듈, 및 그래프 매칭 알고리즘을 이용하여, 인코딩 된 시각 그래프 및 인코딩 된 질문 그래프에 대해 멀티 양상 융합을 실행함으로써, 업데이트 된 시각 그래프 및 업데이트 된 질문 그래프를 얻기 위한 그래프 매칭 서브 모듈을 포함한다.
본 발명의 실시예에 의하면, 제1 소정의 네트워크는, 제1 완전 연결층, 제1 그래프 합성곱층 및 제2 그래프 합성곱층을 포함한다. 제1 그래프 인코딩 서브 모듈은, 제1 완전 연결층을 이용하여 제1 노드 특징을 공간 차원수가 소정 수인 제1 특징으로 매핑하기 위한 제1 매핑 유닛, 제1 그래프 합성곱층을 이용하여 제1 특징을 처리함으로써, 제2 특징을 얻기 위한 제1 그래프 합성곱 유닛, 제2 그래프 합성곱층을 이용하여 제2 특징을 처리함으로써, 인코딩 된 제1 노드 특징을 얻기 위한 제2 그래프 합성곱 유닛, 및 인코딩 된 제1 노드 특징 및 제1 에지 특징에 의해 인코딩 된 시각 그래프를 구성하기 위한 제1 인코딩 유닛을 포함한다.
본 발명의 실시예에 의하면, 제1 그래프 인코딩 서브 모듈은, 제1 에지 특징에 기초하여 제1 라플라시안 매트릭스를 구축하기 위한 제1 구축 유닛을 더 포함한다. 제1 그래프 합성곱 유닛은, 제1 그래프 합성곱층을 이용하여 제1 라플라시안 매트릭스에 기초하여 제1 특징을 처리함으로써, 복수의 제1 서브 특징을 포함하는 제2 특징을 얻는다.
본 발명의 실시예에 의하면, 제1 소정의 네트워크는 제1 연관층을 더 포함한다. 제1그래프 인코딩 서브 모듈은, 제1 노드 특징을 인코딩하는 것은, 제1 연관층을 이용하여 복수의 제1 서브 특징 중 임의의 2개의 제1 서브 특징사이의 연관관계를 계산하고, 임의의 2개의 제1 서브 특징사이의 연관관계에 기초하여 제1 관계 매트릭스를 확정하기 위한 제2 구축 유닛을 더 포함한다. 제2 그래프 합성곱 유닛은, 제2 그래프 합성곱층을 이용하여 제1 관계 매트릭스에 기초하여 제2 특징을 처리함으로써, 인코딩 된 제1 노드 특징을 얻는다.
본 발명의 실시예에 의하면, 제2 소정의 네트워크는, 제2 완전 연결층, 제3 그래프 합성곱층 및 제4 그래프 합성곱층을 포함한다. 제2 그래프 인코딩 서브 모듈은, 제2 완전 연결층을 이용하여 제2 노드 특징을 공간 차원수가 소정 수인 제3 특징으로 매핑하기 위한 제2 매핑 유닛, 제3 그래프 합성곱층을 이용하여 제3 특징을 처리함으로써, 제4 특징을 얻기 위한 제3 그래프 합성곱 유닛, 제4 그래프 합성곱층을 이용하여 제4 특징을 처리함으로써, 인코딩 된 제2 노드 특징을 얻기 위한 제4 그래프 합성곱 유닛, 및 인코딩 된 제2 노드 특징 및 제2 에지 특징에 의해 인코딩 된 질문 그래프를 구성하기 위한 제2 인코딩 유닛을 포함한다.
본 발명의 실시예에 의하면, 제2 그래프 인코딩 서브 모듈은, 제2 에지 특징에 기초하여 제2 라플라시안 매트릭스을 구축하기 위한 제3 구축 유닛을 더 포함한다. 제3 그래프 합성곱 유닛은, 제3 그래프 합성곱층을 이용하여 제2 라플라시안 매트릭스에 기초하여 제3 특징을 처리함으로써, 복수의 제2 서브 특징을 포함하는 제4 특징을 얻는다.
본 발명의 실시예에 의하면, 제2 소정의 네트워크는 제2 연관층을 더 포함한다. 제2 그래프 인코딩 서브 모듈은, 제2 연관층을 이용하여 복수의 제2 서브 특징 중 임의의 2개의 제2 서브 특징사이의 연관관계를 계산하고, 임의의 2개의 제2 서브 특징사이의 연관관계에 기초하여 제2 관계 매트릭스를 확정하기 위한 제4 구축 유닛을 더 포함한다. 제4 그래프 합성곱 유닛은, 제4 그래프 합성곱층을 이용하여 제2 관계 매트릭스에 기초하여 제4 특징을 처리함으로써, 인코딩 된 제2 노드 특징을 얻는다.
본 발명의 실시예에 의하면, 인코딩 된 시각 그래프중의 인코딩 된 제1 노드 특징은 복수의 제3 서브 특징을 포함하고, 인코딩 된 질문 그래프중의 인코딩 된 제2 노드 특징은 복수의 제4 서브 특징을 포함한다. 그래프 매칭 서브 모듈은, 매칭 유닛 및 업데이트 유닛을 포함한다. 매칭 유닛은, 그래프 매칭 알고리즘을 이용하여 인코딩 된 제1 노드 특징 및 인코딩 된 제2 노드 특징에 대해 매칭 처리를 실행함으로써, 복수의 제3 서브 특징 중 임의의 제3 서브 특징과 복수의 제4 서브 특징 중 임의의 제4 서브 특징사이의 매칭 관계를 확정하고, 임의의 제3 서브 특징과 임의의 제4 서브 특징사이의 매칭 관계에 기초하여, 매칭 매트릭스를 확정한다. 업데이트 유닛은, 주의력 메카니즘 및 매칭 매트릭스에 기초하여, 제1 주의력 가중치 집합 및 제2 주의력 가중치 집합을 각각 확정하고, 제1 주의력 가중치 집합, 인코딩 된 제1 노드 특징 및 인코딩 된 제2 노드 특징에 기초하여, 업데이트 된 제2 노드 특징을 확정하고, 제2 주의력 가중치 집합, 인코딩 된 제1 노드 특징 및 인코딩 된 제2 노드 특징에 기초하여, 업데이트 된 제1 노드 특징을 확정하고, 업데이트 된 제1 노드 특징 및 제1 에지 특징에 의해 업데이트 된 시각 그래프를 구성하고, 업데이트 된 제2 노드 특징 및 제2 에지 특징에 의해 업데이트 된 질문 그래프를 구성한다.
본 발명의 실시예에 의하면, 질문 특징 추출 모듈은, 소정의 워드 인코딩 알고리즘 및 소정의 특징 인코딩 알고리즘을 이용하여 상기 입력 질문을 순차적으로 인코딩 처리함으로써, 상기 질문 특징을 얻는다.
본 발명의 실시예에 의하면, 융합 모듈은, 업데이트 된 제1 노드 특징 및 업데이트 된 제2 노드 특징에 대해 연결 병합을 실행함으로써, 병합 특징을 얻기 위한 병합 서브 모듈, 병합 특징에 대해 소정의 풀링 동작을 실행함으로써, 추리 특징을 얻기 위한 처리 서브 모듈, 및 추리 특징 및 질문 특징에 대해 융합 처리를 실행함으로써, 융합 특징을 얻기 위한 융합 서브 모듈을 포함한다.
본 발명의 실시예에 의하면, 융합 서브 모듈은, 구체적으로, 추리 특징 및 질문 특징에 대해 원소별 내적 처리를 실행함으로써, 융합 특징을 얻는다.
본 발명의 실시예에 의하면, 예축 모듈은, 구체적으로, 멀티 레이어 퍼셉트론을 이용하여 융합 특징을 처리함으로써, 융합 특징에 대한 예측 답안을 얻는다.
본 발명의 다른 측면에 의하면, 컴퓨터 프로그램이 저장되어 있는 메모리, 및 적어도 하나의 프로세서를 포함하는 컴퓨터 장비에 있어서, 상기 컴퓨터 프로그램이 상기 프로세서에 의해 실행될 경우, 상기와 같은 방법을 구현하는 컴퓨터 장비를 제공한다.
본 발명의 다른 측면에 의하면, 컴퓨터 프로그램이 저장되어 있는 비 일시적 컴퓨터 판독가능 저장 매체에 있어서, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 상기와 같은 방법을 구현하는 비 일시적 컴퓨터 판독가능 저장 매체를 제공한다.
본 발명의 다른 측면에 의하면, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서, 상기 컴퓨터 프로그램의 명령이 프로세서에 의해 실행될 경우, 상기와 같은 방법을 구현하는 컴퓨터 프로그램을 제공한다.
본 발명의 실시예에 따른 이미지 문답 방법은, 입력 이미지 및 입력 질문을 취득한 후, 입력 이미지의 토폴로지 구조(시각 그래프)를 구축하여, 이미지 중 목표 대상의 특징 정보 및 목표 대상사이의 잠재적 관계를 나타내고, 입력 질문의 토폴로지 구조(질문 그래프)를 구축하여, 질문중의 워드의 특징 정보 및 워드사이의 잠재적 관계를 나타냄으로써, 복수의 목표 이미지 및 복잡한 질문으로 인한 노이즈의 영향을 감소시킨다. 시각 그래프 및 질문 그래프에 대한 멀티 양상 융합을 통해, 시각 그래프 및 질문 그래프중의 노드 특징의 일치화 및 업데이트를 실현함으로써, 양상 사이의 시맨틱 갭을 축소시킨다. 이에 기초하여, 업데이트 된 시각 그래프, 업데이트 된 질문 그래프 및 질문 특징에 기초하여 융합 특징을 얻고, 융합 특징에 기초하여 최종 답안을 예측한다. 초기 단계에서의 입력 이미지 및 입력 질문의 특징 표시에 대한 최적화, 및 중간 단계에서의 시각 그래프 및 질문 그래프에 대한 멀티 양상 융합을 통해, 이미지 문답 과정에서 복잡한 입력에 대한 추리 능력을 효과적으로 강화함으로써, 본 발명의 실시예에 따른 이미지 문답 과정이 보다 해석가능하도록 한다.
이하에서 첨부 도면을 참조하여 설명한 본 발명의 실시예를 통해, 본 발명의 상기 및 다른 목적, 특징 및 장점들은 보다 명확해질 것이다.
도1은 본 발명의 실시예에 따른 이미지 문답 방법 및 장치를 응용하는 예시적인 시스템 구성을 개략적으로 나타낸다.
도2는 본 발명의 실시예에 따른 이미지 문답 방법의 흐름도를 개략적으로 나타낸다.
도3a는 본 발명의 실시예에 따른 이미지 문답 과정의 예시도를 개략적으로 나타낸다.
도3b는 본 발명의 다른 실시예에 따른 이미지 문답 과정의 예시도를 개략적으로 나타낸다.
도3c는 본 발명의 실시예에 따른 그래프 합성곱 인코딩 모듈의 구성 예시도를 개략적으로 나타낸다.
도3d는 본 발명의 실시예에 따른 그래프 매칭 및 업데이트 모듈의 처리과정의 예시도를 개략적으로 나타낸다.
도4는 본 발명의 실시예에 따른 이미지 문답 장치의 블록도를 개략적으로 나타낸다.
도5는 본 발명의 실시예에 따른 컴퓨터 장비의 블록도를 개략적으로 나타낸다.
이하, 첨부 도면을 참조하여 본 발명의 실시예를 설명한다. 이러한 설명은 단지 예시적인 것일 뿐, 본 발명의 범위를 한정하기 위한 것이 아님을 이해하여야 한다. 이하의 상세한 설명에 있어서, 해석의 편리를 위하여, 다수의 구체적인 세부요소들을 설명함으로써 본 발명의 실시예에 대해 전면적으로 이해할 수 있도록 한다. 하지만, 하나 또는 복수의 실시예는 이러한 세부요소 없이도 실시가능함을 지적해둔다. 또한, 이하의 설명에서는, 본 발명의 개념에 혼선을 주지 않기 위해 공지적인 구조나 기술에 대한 설명은 생략한다.
본 명세서에서 사용하는 용어는 단지 구체적인 실시예를 설명하기 위한 것으로서, 본 발명을 한정하기 위한 취지로 해석되어서는 아니된다. 본 명세서에서 사용하는 "포함", "구비" 등 용어는 언급된 특징, 단계, 동작 및/또는 부품의 존재를 의미하는데, 하나 또는 복수의 다른 특징, 단계, 동작 또는 부품의 존재 또는 추가를 배제하지는 않는다.
본 명세서에서 사용하는 모든 용어(기술적 및 과학적 용어 포함)는 별도로 정의되지 않는 한, 당업자가 통상적으로 이해하는 의미를 갖는다. 본 명세서에서 사용하는 용어는 본 명세서의 문맥과 일치하는 의미를 갖는 것으로 해석되어야 하며, 이상적이거나 과도하게 사전상의 의미로 해석되어서는 아니되는 점에 유의해야 한다.
"A, B 및 C중 적어도 하나"와 같은 표현을 사용할 경우, 당업자가 통상적으로 이해하는 해당 표현의 의미에 따라 해석되어야 한다(예를 들어, "A, B 및 C중 적어도 하나를 구비한 시스템"에는, A만 구비한 시스템, B만 구비한 시스템, C만 구비한 시스템, A 및 B를 구비한 시스템, A 및 C를 구비한 시스템, B 및 C를 구비한 시스템, 및/또는 A, B, C를 구비한 시스템이 포함되는데, 이에 한정되지는 않는다). "A, B 또는 C중 적어도 하나"와 같은 표현을 사용할 경우, 당업자가 통상적으로 이해하는 해당 표현의 의미에 따라 해석되어야 한다(예를 들어, "A, B 또는 C중 적어도 하나를 구비한 시스템"에는, A만 구비한 시스템, B만 구비한 시스템, C만 구비한 시스템, A 및 B를 구비한 시스템, A 및 C를 구비한 시스템, B 및 C를 구비한 시스템, 및/또는 A, B, C를 구비한 시스템이 포함되는데, 이에 한정되지는 않는다).
본 발명의 실시예에 의하면, 이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램을 제공한다. 이미지 문답 방법은 취득 과정, 제1 그래프 구축 과정, 제2 그래프 구축과정, 업데이트 과정, 질문 특징 추출 과정, 융합 과정 및 예측 과정을 포함할 수 있다. 취득 과정에서는, 입력 이미지 및 입력 질문을 취득한다. 입력 이미지에 대해 제1 그래프 구축 과정을 실행함으로써, 제1 노드 특징 및 제1 에지 특징을 포함하는 시각 그래프를 구축한다. 입력 질문에 대해 제2 그래프 구축 과정을 실행함으로써, 제2 노드 특징 및 제2 에지 특징을 포함하는 질문 그래프를 구축한다. 업데이트 과정에서는, 시각 그래프 및 질문 그래프에 대해 멀티 양상 융합을 실행함으로써, 업데이트 된 시각 그래프 및 업데이트 된 질문 그래프를 얻는다. 입력 질문에 대해 질문 특징 추출 과정을 실행하여, 질문 특징을 확정한다. 이어서, 융합 과정을 실행하여, 업데이트 된 시각 그래프, 업데이트 된 질문 그래프 및 질문 특징에 기초하여, 융합 특징을 확정한다. 융합 특징에 기초하여 예측 과정을 실행함으로써, 입력 이미지 및 입력 질문에 대한 예측 답안을 생성할 수 있다.
현재, 인터넷 기술의 비속적인 발전에 따라, 생성되는 데이터 유형도 점점 풍부해지고 있다. '교차 양상' 데이터는 점차 주도적인 데이터 형태로 자리잡고 있다. 교차 양상 특징 일치화는, 멀티 미디어 분야 및 딥 러닝 분야의 중요한 연구방향으로서, 서로 다른 미디어(에를 들어, 이미지, 비디오 및 텍스트)사이의 시맨틱 갭을 메워, 통일된 시맨틱 표시를 구축하는 것을 목적으로 한다. 시각 문답 기술에 있어서, 교차 양상 특징의 일치화 및 융합은 해당 연구에 있어서의 난점이기도 하다. 시각 문답은, 시각 이미지에 대한 자연 언어 문답이고, 시각 이해에 관한 하나의 연구방향으로서, 시각과 언어를 연관시키고 있으며, 모델은 이미지를 이해한 후, 구체적인 질문에 대해 답변하여야 한다. 오늘날, 이미지 문답 시스템은 학술계 및 산업계에서 광범위하게 연구되고 있으며, 이러한 이미지 문답 시스템의 목표는 합리적인 모델을 설계하여, 이미지 문답 시스템으로 하여금, 임의의 자연 언어가 표현하는 질문 및 주어진 이미지에 대해, 충분한 이해와 추리를 거친 후, 자연 언어를 사용하여 정확하게 해답할 수 있도록 하는 것이다. 하지만, 현재의 이미지 문답 시스템은, 예를 들어, 교차 양상 데이터의 융합 및 효과적인 관계 추리와 같은 여전히 해결되지 못한 난제들이 존재한다.
도1은 본 발명의 실시 예에 따른 이미지 문답 방법 및 장치를 응용할 수 있는 예시적인 시스템 구성(100)을 개략적으로 나타낸다. 지적해두어야 할 것은, 도 1에 도시된 것 은 본 발명의 실시예를 응용할 수 있는 시스템 구조의 예시에 지나지 않으며, 당업자가 본 발명의 기술 내용을 보다 쉽게 이해하도록 돕기 위한 것으로, 본 발명의 실시예가 다른 장비, 시스템, 환경 또는 응용장면에 응용할 수 없음을 의미하는 것은 아니다.
도1에 도시된 바와 같이, 본 실시 예에 따른 시스템 구성(100)은 복수의 단말 장비(110), 네트웨크(120) 및 서버(130)를 포함할 수 있다. 여기서, 단말 장비(110)는 예를 들어 데스크탑, 휴대용 컴퓨터, 스마트 폰, 테블릿 등과 같은 다양한 단말 장비일 수 있고, 본 명세서에서는 이에 대해 한정하지 않는다. 서버(130)는 예를 들어 서버 또는 서버 클러스터와 같은 일정한 컴퓨팅 기능을 가진 다양한 전자 장비일 수 있고, 본 명세서에서는 이에 대해 한정하지 않는다. 단말 장비(110)에는 각종 기능의 소프트웨어 클라이언트가 설치되어, 소프트웨어 클라이언트를 통해 서버(130)와 인터액션하도록 할 수 있다.
일 실시예에 있어서, 본 발명의 실시예에 따른 이미지 문답 방법은 단말 장비(110)에 의해 실시될 수 있고, 이에 대응하여, 이미지 문답 장치는 단말 장비(110)에 설치될 수 있다. 다른 실시예에 있어서, 본 발명의 실시예에 따른 이미지 문답 방법은 서버(130)에 의해 실시될 수 있고, 이에 대응하여, 이미지 문답 장치는 서버(130)에 설치될 수 있다. 또 다른 실시예에 있어서, 본 발명의 실시예에 따른 이미지 문답 방법은 단말 장비(110) 및/또는 서버(130)와 서로 통신가능한 다른 장비에 의해 실시될 수 있고, 이에 대응하여, 이미지 문답 장치는 상기 다른 장비에 설치될 수 있다.
최근 몇년에, 이미지 문답은 신속한 발전을 이루고 있으며, 컴퓨터 시각 및 자연 언어 처리 분야의 광범한 주목을 받고 있다. 각 분야에서는 이미지 문답 임무를 해결하기 위한 수많은 방안을 제출하였다. 대다수 방안은 단대단(end-to-end) 프로세스를 사용하고 있는데, 예를 들어, 하나의 사전에 트레이닝된 합성곱 신경망을 이용하여 이미지 특징을 추출하고, 하나의 재귀 신경망을 이용하여 질문을 나타낸 다음, 이미지 특징 및 질문 특징을 연결시켜 답안을 예측한다. 현재, 이미지 문답 방안은 보편적으로 3가지 모델을 사용하는데, 이들은 각각 (1)굵은 입도(粒度) 교차 양상 표시 이미지 문답 모델, (2)주의력 메카니즘에 기반한 가는 입도 교차 양상 표시 모델, 및 (3) 외부 지식 또는 지식 네트워크에 기반한 이미지 문답 모델이다.
모델(1)은 가장 직접적인 이미지 문답 모델이다. 여기서, 교차 양상 특징 융합은 이와 같은 유형의 모델의 핵심인데, 처리내용이 상대적으로 복잡하고 많은 주체의 이미지가 존재할 경우, 불가피하게 많은 노이지를 도입하게 되는데, 이러한 노이즈는 답안 예측의 정확도에 영향을 미치게 된다. 질문 텍스트에 대한 처리도 동일한 문제점이 존재한다. 질문의 문구가 비교적 길고, 이미지와 연관되는 복수의 단어가 존재할 경우, 모델(1)은 질문자가 희망하는 키워드를 캡쳐하기 어려우므로, 최종적으로 답안 예측 정확도가 떨어지게 된다. 모델(2)은 상기 굵은 입도 교차 양상 표시 모델에 기초하여, 주의력 메카니즘을 도입하여 얻은 모델로서, 가는 입도 교차 양상 특징의 표현 능력이 대폭 향상되었다. 하지만, 현재 이미지 문답 모델에 사용되는 주의력 모델은 대부분 질문의 특징에 기초하여 이미지의 관심영역을 러닝하는데, 질문 자체의 관심 포인트에 대한 러닝은 소홀히 하고 있는 것이 실정이다. 즉, 질문중의 키워드 또는 구절에 대한 주의력 러닝을 소홀히 하고 있으므로, 답안 예측 정확도가 낮아지게 된다. 모델(3)일 경우, 기존 모델이 외부 지식을 이미지 문답 데이터 집합중의 모든 질문과 매핑하기 어렵고, 일부 유형의 질문만 해결가능하므로, 범용성이 부족하는 것이 난점이다.
상기의 분석으로부터 알수 있다 싶이, 현재의 이미지 문답 방안에는 하기의 문제점이 존재한다. 첫째, 교차 양상 융합 대응책이 이상적이지 않고, 복잡한 융합 모델을 도입하여야 할뿐만 아니라, 모델의 계산 효율도 대대적으로 저하된다. 따라서, 효과적인 특징 융합을 보장함과 동시에 계산 지출을 감소하는 알고리즘에 대한 연구가 이미지 문답에 있어서 하나의 관건적인 발전방향으로 자리잡고 있다. 둘째, 관계 추리 능력이 부족하다. 많은 실제적인 이미지 문답 과정에서, 모델은 복수의 단계의 관계 추리를 거쳐 최종적인 답안을 얻어내야 하지만, 현재의 모델은 단지 멀티 양상 특징 융합을 통해서만 질문을 해답하므로, 복잡한 질문에 대한 이해와 추리 효과가 이상적이지 않다.
본 발명의 실시 예에 따르면, 이미지 문답 방법을 제공한다. 이하, 도면을 참조하여 상기 방법을 예시적으로 설명한다. 지적해두어야 할 것은, 하기의 방법에 있어서, 각 동작의 번호는 단지 설명의 편의를 위한 해당 동작의 표시로서, 결코 각 동작의 실행 순서를 의미하는 것은 아니다. 별도로 언급하지 않는 한, 상기 방법은 굳이 설명한 순서에 따라 실행할 필요는 없다.
도2는 본 발명의 실시예에 따른 이미지 문답 방법의 흐름도를 개략적으로 나타낸다.
도2에 도시된 바와 같이, 상기 방법은 동작(S201)~동작(S207)을 포함할 수 있다.
동작(S201)에서는, 입력 이미지 및 입력 질문을 취득한다.
동작(S202)에서는, 입력 이미지에 기초하여 시각 그래프(Visual Graph)를 구축한다.
본 발명의 실시예에 따르면, 시각 그래프는 입력 이미지의 토폴로지 구조 표시이고, 보다 전면적이고 정확하게 입력 이미지의 특징 정보를 나타낸다. 예시적으로, 시각 그래프는 제1 노드(Node) 특징 및 제1 에지(Edge) 특징을 포함할 수 있다. 제1 노드 특징은 입력 이미지중의 하나 또는 복수의 목표 대상의 특징 정보를 나타내고, 제1 에지 특징은 입력 이미지중의 목표 대상사이의 잠재적 관계를 나타낸다.
동작(S203)에서는, 입력 질문에 기초하여, 질문 그래프(Question Graph)를 구축한다.
본 발명의 실시예에 따르면, 질문 그래프는 입력 질문의 토폴로지 구조 표시이고, 보다 전면적이고 정확하게 입력 질문의 특징 정보를 나타낸다. 예시적으로, 질문 그래프는 제2 노드 특징 및 제2 에지 특징을 포함할 수 있다. 제2 노드 특징은 입력 질문중의 하나 또는 복수의 워드의 특징 정보를 나타내고, 제2 에지 특징은 입력 질문중의 워드사이의 잠재적 관계를 나타낸다.
동작(S204)에서는, 시각 그래프 및 질문 그래프에 대해 멀티 양상 융합(Multimodal Fusion)을 실행함으로써, 업데이트 된 시각 그래프 및 업데이트 된 질문 그래프를 얻는다.
예시적으로, 동작(S204)의 멀티 양상 융합을 통해, 이미지 데이터와 텍스트 데이터사이의 시맨틱 갭(Semantic Gap)을 축소함으로써, 얻어진 업데이트 된 시각 그래프 및 업데이트 된 질문 그래프로 하여금 2개의 서로 다른 양상 특징의 일치화 및 업데이트를 실현하도록 한다.
동작(S205)에서는, 입력 질문에 기초하여 질문 특징을 확정한다.
동작(S206)에서는, 업데이트 된 시각 그래프, 업데이트 된 질문 그래프 및 질문 특징에 기초하여, 융합 특징을 확정한다.
동작(S207)에서는, 융합 특징에 기초하여 입력 이미지 및 입력 질문에 대한 예측 답안을 생성한다.
당업자라면, 하기의 내용을 이해할 수 있을 것이다. 본 발명의 실시예에 따른 이미지 문답 방법은, 입력 이미지 및 입력 질문을 취득한 후, 입력 이미지의 토폴로지 구조(시각 그래프)를 구축하여, 이미지 중 목표 대상의 특징 정보 및 목표 대상사이의 잠재적 관계를 나타내고, 입력 질문의 토폴로지 구조(질문 그래프)를 구축하여, 질문중의 워드의 특징 정보 및 워드사이의 잠재적 관계를 나타냄으로써, 복수의 목표 이미지 및 복잡한 질문으로 인한 노이즈의 영향을 감소시킨다. 시각 그래프 및 질문 그래프에 대한 멀티 양상 융합을 통해, 시각 그래프 및 질문 그래프중의 노드 특징의 일치화 및 업데이트를 실현함으로써, 양상 사이의 시맨틱 갭을 축소시킨다. 이에 기초하여, 업데이트 된 시각 그래프, 업데이트 된 질문 그래프 및 질문 특징에 기초하여 융합 특징을 얻고, 융합 특징에 기초하여 최종 답안을 예측한다. 초기 단계에서의 입력 이미지 및 입력 질문의 특징 표시에 대한 최적화, 및 중간 단계에서의 시각 그래프 및 질문 그래프에 대한 멀티 양상 융합을 통해, 이미지 문답 과정에서 복잡한 입력에 대한 추리 능력을 효과적으로 강화함으로써, 본 발명의 실시예에 따른 이미지 문답 과정이 보다 해석가능하도록 한다.
이하, 도3a~도3d를 참조하여, 구체적인 실시예를 들어 본 발명의 실시예에 따른 이미지 문답 방법을 예시적으로 설명한다.
도3a는 본 발명의 실시예에 따른 이미지 문답 과정의 예시도를 개략적으로 나타낸다. 도3b는 본 발명의 다른 실시예에 따른 이미지 문답 과정의 예시도를 개략적으로 나타낸다.
도3a에 도시된 예에 있어서, 우선 사전에 네트워크 모델(300)을 구축할 수 있는데, 상기 네트워크 모델(300)은 순차적으로 연결된 그래프 구축 모듈(301), 그래프 인코딩 모듈(302), 그래프 매칭 및 업데이트 모듈(303), 그래프 융합(Graph Fusion)모듈(304) 및 문답 모듈(305)을 포함할 수 있다. 여기서, 그래프 인코딩 모듈(302)은 예를 들어 그래프 합성곱 인코딩 모듈(GCN Encoder)(302)일 수 있고, 그래프 합성곱 인코딩 모듈(302)은 그래프 매칭 및 업데이트 모듈(303)과 직렬연결되어 일체화 업데이트 모듈을 구성할 수 있고, 네트워크 모델(300)은 하나 또는 복수의 해당 일체화 업데이트 모듈을 포함할 수 있다. 본 발명의 실시예에 따르면, 상기 네트워크 모델(300)을 트레이닝함으로써, 상기 네트워크 모델(300)로 하여금 도2에 도시된 바와 같은 이미지 문답 임무를 실행할 능력을 가지도록 하여야 한다. 트레이닝 과정에, 샘플 이미지 및 샘플 질문을 상기 네트워크 모델(300)에 입력하고, 네트워크 모델(300)의 출력과 샘플 라벨사이의 차이에 근거하여 네트워크 모델(300)의 목표 함수가 수렴할 때까지 네트워크 모델(300)의 파라미터를 최적화한다. 여기서, 샘플 라벨은 샘플 이미지 및 샘플 질문에 대한 실제 답안이다. 이때, 네트워크 모델(300)에 대한 트레이닝을 완료하고, 본 발명의 실시예에 따른 이미지 문답 방법은 상기 트레이닝 완료된 네트워크 모델(300)을 이용하여 실시할 수 있다. 이하, 실시 과정에 대해 예시적으로 설명한다.
본 발명의 실시예에 따르면, 도3a에 도시된 바와 같이, 네트워크 모델(300)중의 그래프 구축 모듈(301)은 입력 이미지I(306) 및 입력 질문Q(307)을 취득한다. 그래프 구축 모듈(301)은 상기 동작(S202)의 입력 이미지에 기초하여 시각 그래프를 구축하는 과정을 실행할 수 있다. 예시적으로, 그래프 구축 모듈(301)은 목표 검출(Object Detection) 네트워크를 이용하여 입력 이미지I(306)를 처리함으로써, 목표 검출 네트워크의 중간층으로부터 입력 이미지 중 복수의 목표 대상에 대한 표상 특징 및 공간 특징을 추출하고, 상기 표상 특징 및 공간 특징에 기초하여, 제1 노드 특징을 확정할 수 있다. 그 다음, 목표 검출 네트워크의 출력층이 출력한 처리 결과에 기초하여, 복수의 목표 대상 각각의 위치 정보를 확정한다. 복수의 목표 대상 각각의 위치 정보에 기초하여, 복수의 목표 대상 중 임의의 2개의 목표 대상사이의 위치 관계를 확정한다. 이어서, 임의의 2개의 목표 대상사이의 위치 관계에 기초하여, 제1 에지 특징을 확정한다. 이로써, 상기 제1 노드 특징 및 제1 에지 특징에 의해 시각 그래프를 구축한다.
도3b에 도시된 예에 있어서, 그래프 구축 모듈(301)은 Faster RCNN(Faster Region Convolutional Neural Network)(3011)을 이용하여 입력 이미지I(306)에 존재하는 K1개의 목표 대상을 검출하고, 이들의 전체 특징 맵(Feature Map)에서 관심 영역 풀링 동작(ROI Pooling)을 거친 표상 특징
Figure pat00001
및 공간 특징
Figure pat00002
을 추출한다. 여기서, 표상 특징F는K1개의 목표 대상에 대한 K1개의 서브 특징을 포함할 수 있고, 각 서브 특징은 공간 차원수가 2048인 벡터로 표시될 수 있다. 공간 차원수는 설정할 수 있으며, 여기서는 단지 예시에 불과하다. 공간 특징S는 K1개의 목표 대상에 대한 K1개의 서브 특징을 포함할 수 있고, 각 서브 특징은 공간 차원수가 4인 벡터로 표시될 수 있다. 예를 들어, 목표 대상에 대한 바운딩 박스(Bounding Box)의 높이 값, 너비 값 및 중심점의 좌표를 포함할 수 있다. 이어서, 표상 특징F와 공간 특징S를 병합하여 시각 그래프G1(308)의 제1 노드 특징
Figure pat00003
으로 한다. 병합방식은 예를 들어 연결 병합 일수 있다.
시각 그래프G1(308)의 제1 에지 특징은 예를 들어 이진법 표시
Figure pat00004
일 수 있다. 제1 에지 특징은 입력 이미지I(306) 중 임의의 2개의 목표 대상사이의 위치 관계로부터 확정할 수 있다. 본 발명의 실시예에 따르면, 상기 임의의 2개의 목표 대상은 서로 다른 목표 대상을 포함할 수도 있고, 동일한 목표 대상을 포함할 수도 있다. 상기 목표 검출 네트워크의 처리를 통해, 입력 이미지I(306) 중 각 목표 대상의 위치 좌표를 취득할 수 있다. 즉, 각 목표 대상이 차지하는 위치 영역을 확정할 수 있다.
예시적으로, 임의의 2개의 목표 대상의 위치 영역사이의 IoU (Intersection-over-Union, 교집합과 합집합의 비례)가 소정의 임계치보다 큰지 않는지에 따라 제1 에지 특징
Figure pat00005
중 각 원소의 값을 판단할 수 있다. 예를 들어, 소정의 임계치를 0.3으로 설정하고, 입력 이미지 중 i번째 목표 대상 및 j번째 목표 대상에 대해, i번째 목표 대상의 위치 영역과 j번째 목표 대상의 위치 영역사이의 IoU 값을 계산하고, 상기 IoU 값이 소정의 임계치보다 클 경우, 제1 에지 특징
Figure pat00006
중의 원소eij를 1로 표시하고, 상기 IoU 값이 소정의 임계치이하일 경우, 제1 에지 특징
Figure pat00007
중의 원소eij를 0으로 표시한다. 본 예에 있어서, i 및 j는 모두 1이상, K1이하의 양(陽) 정수이고, i와 j는 같을 수도 있고, 서로 다를수도 있다.
상기 예시적인 실시형태에 의하면, 시각 그래프
Figure pat00008
를 구축할 수 있다.
본 발명의 실시예에 의하면, 도3a에 도시된 바와 같이, 네트워크 모델(300)중의 그래프 구축 모듈(301)은 입력 질문Q(307)도 취득한다. 그래프 구축 모듈(301)은, 상기 동작(S203)의 입력 질문에 기초하여 질문 그래프를 구축하는 과정을 실행할 수도 있다. 예시적으로, 그래프 구축 모듈(301)은, 입력 질문Q중의 각 워드를 워드 노드로 하여, 워드 인코딩(Word Embedding) 알고리즘 및 특징 인코딩 알고리즘을 이용하여 입력 질문을 순차적으로 처리함으로써, 입력 질문Q로부터 복수의 워드 노드 특징(예를 들어, K2개의 워드 노드 특징이 있다)을 추출할 수 있고, 복수의 워드 노드 특징은 입력 질문Q중의 복수의 워드 각각의 특징 정보를 나타낸다. 그 다음, 의존 분석(Dependency Parsing) 알고리즘(3012)을 이용하여, 복수의 워드 중 임의의 2개의 워드사이의 의존 관계를 확정하고, 임의의 2개의 워드사이의 의존 관계에 기초하여, 제2 에지 특징
Figure pat00009
을 확정한다. 상기 복수의 워드 노드 특징에 의해 제2 노드 특징
Figure pat00010
을 구성하고, 제2 노드 특징
Figure pat00011
및 제2 에지 특징
Figure pat00012
에 의해 질문 그래프G2(309)를 구성한다.
상기 예시적인 실시형태에 의하면, 시각 그래프
Figure pat00013
를 구축할 수 있다.
본 발명의 실시예에 의하면, 상기 동작(S204)에서 시각 그래프 및 질문 그래프에 대해 멀티 양상 융합을 실행하는 과정은, 적어도 1회의 멀티 양상 융합 동작을 실행하는 것을 포함한다. 여기서, 상기 적어도 1회의 멀티 양상 융합 동작 중 매회의 멀티 양상 융합 동작은, 그래프 합성곱 인코딩 모듈(302)이 제1 노드 특징 및 제1 에지 특징에 기초하여, 제1 소정의 네트워크를 이용하여 제1 노드 특징을 인코딩함으로써, 인코딩 된 시각 그래프를 얻는 것, 그래프 합성곱 인코딩 모듈(302)이 제2 노드 특징 및 제2 에지 특징에 기초하여, 제2 소정의 네트워크를 이용하여 제2 노드 특징을 인코딩함으로써, 인코딩 된 질문 그래프를 얻는 것, 및 그래프 매칭 및 업데이트 모델(303)이 그래프 매칭 알고리즘을 이용하여, 인코딩 된 시각 그래프 및 인코딩 된 질문 그래프에 대해 멀티 양상 융합을 실행함으로써, 업데이트 된 시각 그래프 및 업데이트 된 질문 그래프를 얻는 것을 포함할 수 있다.
도3b에 도시된 바와 같이, 시각 그래프G1(308)는 제1 소정의 네트워크에 입력되고, 질문 그래프G2(309)는 제2 소정의 네트워크에 입력된다. 본 예에 있어서, 제1 소정의 네트워크 및 제2 소정의 네트워크는 모두 그래프 합성곱 인코딩 모듈(302)일 수 있다. 그래프 합성곱 인코딩 모듈(302)은, 그래프 합성곱(Graph Convolution Network, GCN) 방법에 기초하여 서로 다른 그래프(시각 그래프 및 질문 그래프) 각각의 노드 특징 업데이트 및 각 그래프 내부관계의 러닝을 실행할 수 있다. 그래프 합성곱 인코딩 모듈(302)이 시각 그래프에 대한 인코딩 과정 및 질문 그래프에 대한 인코딩 과정의 원리가 동일하므로, 이하에서는, 그래프 합성곱 인코딩 모듈(302)이 시각 그래프G1(308)에 대한 인코딩 과정을 예로 들어, 예시적으로 설명한다.
도3c는 본 발명의 실시예에 따른 그래프 합성곱 인코딩 모듈의 구성 예시도를 개략적으로 나타낸다. 도3c에 도시된 바와 같이, 제1 소정의 네트워크로서의 그래프 합성곱 인코딩 모듈(302)은 제1 완전 연결층(Fully Connected Layer, FC)(3021), 제1 그래프 합성곱층(Graph Convolutional Layer, Gconv1)(3022) 및 제2 그래프 합성곱층(Gconv2)(3023)을 포함할 수 있다. 예시적으로, 상기 시각 그래프G1(308)에 대한 인코딩 동작은, 제1 완전 연결층(3021)을 이용하여 시각 그래프G1(308)의 제1 노드 특징
Figure pat00014
(3081)를 공간 차원수가 소정 수d인 제1 특징X(30811)로 매핑하는 것, 제1 그래프 합성곱층(3022)을 이용하여 제1 특징X(30811)을 처리함으로써, 제2 특징X’(30812)을 얻는 것, 제2 그래프 합성곱층(3023)을 이용하여 제2 특징X’(30812)을 처리함으로써, 인코딩 된 제1 노드 특징X''을 얻는 것, 및 인코딩 된 제1 노드 특징X'' 및 제1 에지 특징
Figure pat00015
(3082)에 의해 인코딩 된 시각 그래프G1'(308')를 구성하는 것을 포함한다.
예를 들어, 상기 제1 완전 연결층(3021)을 이용하여 시각 그래프G1(308)의 제1 노드 특징
Figure pat00016
(3081)을 공간 차원수가 d인 제1 특징X(30811)으로 매핑하는 과정은 수식 (1)과 같이 표시할 수 있다.
Figure pat00017
수식 (1)
여기서, σ는 비선형 함수이고, W1은 제1 완전 연결층의 가중치 파라미터이다.
본 발명의 실시예에 따르면, 시각 그래프G1(308)의 제1 에지 특징
Figure pat00018
(3082)에 근거하여, 제1 그래프 합성곱층(3022)를 사용하여 노드 특징의 업데이트 및 명시적 관계의 러닝을 실행할 수 있다.
도3c에 도시된 바와 같이, 상기 제1 노드 특징을 인코딩하는 것은, 제1 에지 특징
Figure pat00019
(3082)에 기초하여 제1 라플라시안 매트릭스(Graph Laplacians)L(30821)를 구축하는 것을 더 포함할 수 있다. 상기 제 1 그래프 합성곱층(3022)을 이용하여 제1 특징X(30811)을 처리하는 과정은, 제1 그래프 합성곱층(3022)을 이용하여 제1 라플라시안 매트릭스L(30821)에 기초하여 제1 특징X(30811)을 처리함으로써, 제2 특징X’(30812)을 얻는 것을 포함할 수 있다. 제2 특징X’(30812)은 복수의 제1 서브 특징xi'을 포함하고, 여기서, i는 1이상, K1이하의 정수이고, xi'는 d개의 공간차원을 가진 벡터로 표시할 수 있다. 상기 제2 특징X'을 계산하는 과정 및 제1 라플라시안 매트릭스를 구축하는 과정은 각각 수식 (2) 및 (3)과 같이 표시할 수 있다.
Figure pat00020
수식 (2)
Figure pat00021
수식 (3)
여기서,
Figure pat00022
은 대각행렬이고,
Figure pat00023
,
Figure pat00024
이다. σ는 비선형 함수이고, W2 및 W3은 제1 그래프 합성곱층의 가중치 파라미터이다.
또한, 입력 이미지중의 암시적 관계를 러닝하기 위해, 본 발명의 실시예에 따르면, 도3c에 도시된 바와 같이, 제1 소정의 네트워크로서의 그래프 합성곱 인코딩 모듈(302)은 제1 연관층(Adj)(3024)을 더 포함할 수 있다. 제1 그래프 합성곱층(3022)의 처리가 끝난 후, 제1 연관층(3024)을 이용하여 복수의 제1 서브 특징 중 임의의 2개의 제1 서브 특징xi'와 xj'사이의 연관관계를 계산하고, 임의의 2개의 제1 서브 특징사이의 연관관계에 기초하여 제1 관계 매트릭스A'(30812')를 확정할 수 있다.
여기서,
Figure pat00025
이다. 구체적으로는, 수식 (4)와 같이 표시할 수 있다. .
Figure pat00026
수식 (4)
수식 (4)로부터 알수 있다 싶이, 본 예에서는, xi'와 xj'사이의 L-2거리(유클리드 거리)로부터 xi'와 xj'사이의 연관관계를 확정한다. 다른 예에 있어서는, 임의의 유사도 계산 방식을 통해 xi'와 xj'사이의 연관관계를 계산할수 있다. 예를 들어, 유사도는 코사인 유사도 등 일 수 있는데, 본 명세서에서는 이에 대해 한정하지 않는다. 본 실시예에 의하면, 연관층을 통해 그래프 노드사이의 암시적 관계 매트릭스를 러닝한다.
이에 기초하여, 제2 그래프 합성곱층(3023)을 이용하여 제2 특징X’(30812)을 처리할 수 있다. 예시적으로, 러닝한 제1 관계 매트릭스에 따라 제2 그래프 합성곱층(3023)을 이용하여
Figure pat00027
깊은 차원의 노드 특징의 업데이트 및 러닝을 실행하여, 인코딩 된 제1 노드 특징X''을 얻을 수 있다. 제2 그래프 합성곱층(3023)의 업데이트 대응책은 수식 (5)와 같이 정의할 수 있다.
Figure pat00028
수식 (5)
여기서, W4는 제2 그래프 합성곱층의 가중치 파라미터이다.
본 발명의 실시예에 의하면, 제2 소정의 네트워크로서의 그래프 합성곱 인코딩 모듈(302)은 제2 완전 연결층, 제3 그래프 합성곱층 및 제4 그래프 합성곱층을 포함할 수 있다. 상기 질문 그래프G2(309)중의 제2 노드 특징
Figure pat00029
을 인코딩하는 과정은, 제2 완전 연결층을 이용하여 제2 노드 특징
Figure pat00030
을 공간 차원수가 소정 수d인 제3 특징Y로 매핑하는 것, 제3 그래프 합성곱층을 이용하여 제3 특징Y를 처리함으로써, 제4 특징Y'를 얻는 것, 제4 그래프 합성곱층을 이용하여 제4 특징Y'를 처리함으로써, 인코딩 된 제2 노드 특징Y''를 얻는 것, 및 인코딩 된 제2 노드 특징 및 제2 에지 특징에 의해 인코딩 된 질문 그래프G2'(309')을 구성하는 것을 포함한다. 이 과정은 앞에서 그래프 합성곱 인코딩 모듈(302)을 이용하여 시각 그래프를 인코딩하는 과정과 원리가 동일하므로, 여기서는 설명을 생략한다.
예시적으로, 질문 그래프중의 명시적 관계를 러닝하기 위해, 상기 제2 노드 특징
Figure pat00031
을 인코딩하는 것은, 제2 에지 특징
Figure pat00032
에 기초하여 제2 라플라시안 매트릭스를 구축하는 것을 더 포함할 수 있다. 상기 제3 그래프 합성곱층을 이용하여 제3 특징을 처리하는 것은, 제3 그래프 합성곱층을 이용하여 제2 라플라시안 매트릭스에 기초하여 제3 특징Y을 처리함으로써, 제4 특징Y'를 얻는 것을 포함한다. 제4 특징Y'는, 복수의 제2 서브 특징yj'을 포함하고, 여기서, j는 1이상, K2이하의 정수이다. 이 과정은 앞에서 제1 그래프 합성곱층을 이용하여 시각 그래프를 처리하는 과정과 원리가 동일하므로, 여기서는 설명을 생략한다.
또한, 질문 그래프중의 암시적 관계를 러닝하기 위해, 예시적으로, 제2 소정의 네트워크로서의 그래프 합성곱 인코딩 모듈(302)은 제2 연관층을 더 포함할 수 있다. 상기 제2 노드 특징을 인코딩하는 것은, 제2 연관층을 이용하여 복수의 제2 서브 특징 중 임의의 2개의 제2 서브 특징사이의 연관관계를 계산하고, 임의의 2개의 제2 서브 특징사이의 연관관계에 기초하여 제2 관계 매트릭스를 확정하는 것을 더 포함할 수 있다. 상기 제4 그래프 합성곱층을 이용하여 제4 특징을 처리하는 것은, 제4 그래프 합성곱층을 이용하여 제2 관계 매트릭스에 기초하여 제4 특징을 처리함으로써, 인코딩 된 제2 노드 특징을 얻는 것을 더 포함할 수 있다. 이 과정은 앞에서 제2 그래프 합성곱층을 이용하여 시각 그래프를 처리하는 과정과 원리가 동일하므로, 여기서는 설명을 생략한다.
본 발명의 실시예에 의하면, 2개의 병행되는 그래프 합성곱 인코딩 모듈(302)을 사용하여 각각 시각 그래프 및 질문 그래프에 대해 인코딩 처리를 실행하고, 2층의 그래프 합성곱 네트워크를 거친 후, 제1 소정의 네트워크로서의 그래프 합성곱 인코딩 모듈(302)의 출력은 하나의 인코딩 된 시각 그래프
Figure pat00033
이다. 제2 소정의 네트워크로서의 그래프 합성곱 인코딩 모듈(302)의 출력은 하나의 인코딩 된 질문 그래프
Figure pat00034
이다. 여기서, 인코딩 된 제1 노드 특징X"는 복수의 제3 서브 특징xi''을 포함한다. i는 1이상, K1이하의 정수이다. 인코딩 된 제2 노드 특징Y"는 복수의 제4 서브 특징yj''을 포함한다. j는 1이상, K2이하의 정수이다.
도3b 및 3c에 도시된 바와 같이, 본 발명의 실시예의 이미지 문답 방법은, 2개의 병행되는 그래프 합성곱 인코딩 모듈을 사용하여 각각 시각 그래프 및 질문 그래프를 인코딩한다. 이 2개의 병행되는 인코딩 모둘 중, 시각 그래프를 처리하는 제1 그래프 합성곱층 및 질문 그래프를 처리하는 제3 그래프 합성곱층은 가중치를 공유하고, 시각 그래프를 처리하는 제2 그래프 합성곱층 및 질문 그래프를 처리하는 제4 그래프 합성곱층은 가중치를 공유한다. 가중치를 공유한다는 것은, 트레이닝 과정에 동일한 그래프 합성곱층을 사용하여 2개의 그래프를 업데이트 하는 것을 의미하고, 이들 그래프 합성곱층의 가중치 파라미터 및 업데이트는 일치하다.
계속하여 도3a 및 도3b을 참조하여, 그래프 합성곱 인코딩 모듈(302)에 대한 설명을 마친 후, 그래프 매칭 및 업데이트 모듈(303)의 실시형태에 대해 예시적으로 설명한다. 그래프 합성곱 인코딩 모듈을 거친 후, 인코딩 된 시각 그래프상의 각 노드 특징은 러닝한 관계에 따라 관련 노드의 특징을 융합하였고, 인코딩 된 질문 그래프상의 각 노드 특징은 러닝한 관계에 따라 관련 노드의 특징을 융합하였으므로, 일정한 정도에서 깊은 차원의 시맨틱 특징을 포함하게 된다. 이어서, 그래프 매칭 및 업데이트 모듈(303)을 이용하여 2개의 서로 다른 그래프의 노드사이의 매칭을 실행함으로써, 2개의 서로 다른 양상에서의 특징을 일치화하여 양상간의 시맨틱 갭을 축소하고, 효과적으로 교차 양상 특징의 융합을 실현하여야 한다.
도3d는 본 발명의 실시예에 따른 그래프 매칭 및 업데이트 모듈의 처리과정의 예시도를 개략적으로 나타낸다.
도3d에 도시된 바와 같이, 본 발명의 실시예에 의하면, 상기 그래프 매칭 및 업데이트 모델(303)이 그래프 매칭 알고리즘을 이용하여, 인코딩 된 시각 그래프 및 인코딩 된 질문 그래프에 대해 멀티 양상 융합을 실행하는 과정은, 우선, 그래프 매칭(Graph Match) 알고리즘을 이용하여 인코딩 된 제1 노드 특징 및 인코딩 된 제2 노드 특징에 대해 매칭 처리를 실행함으로써, 복수의 제3 서브 특징 중 임의의 제3 서브 특징xi"과 복수의 제4 서브 특징 중 임의의 제4 서브 특징yj"사이의 매칭 관계를 확정하고, 임의의 제3 서브 특징xi"과 임의의 제4 서브 특징yj"사이의 매칭 관계에 기초하여, 매칭 매트릭스S(3031),
Figure pat00035
를 확정한다. 이는 수식 (6)과 같이 표시할 수 있다.
Figure pat00036
수식 (6)
여기서,
Figure pat00037
,
Figure pat00038
이고, k1 및 K2는 각각 매칭을 실행하는 2개의그래프(인코딩 된 시각 그래프 및 인코딩 된 질문 그래프)의 노드 수이다.
Figure pat00039
는 하나의 이중 선형 매핑을 설정할 수 있고, 예를 들어, 수식 (7)과 같이 표시할 수 있다.
Figure pat00040
수식 (7)
여기서,
Figure pat00041
는 러닝가능한 매트릭스 파리미터이고, τ는 수치 문제의 하이퍼 파라미터이다.
상기 매칭 과정을 거친 후, 2개의 그래프 노드사이의 매칭 매트릭스
Figure pat00042
를 얻을 수 있다. 그 다음, 주의력 메카니즘 및 매칭 매트릭스S에 기초하여, 제1 주의력 가중치 집합S1(3032) 및 제2 주의력 가중치 집합S2(3033)를 각각 확정한다.
예시적으로, 도3d에 도시된 바와 같이, S1 및 S2는 각각 서로 다른 차원에서 매칭 매트릭스S에 대해 softmax동작을 실행하여 얻은 시각 그래프 특징 차원에서의 주의력 매핑(attention map) 및 질문 그래프 특징 차원에서의 주의력 매핑이다. 예를 들어, 매칭 매트릭스S의 1-K1 차원에 대해 softmax동작을 실행하여, S1을 얻고, 매칭 매트릭스S의 1-K2차원에 대해 softmax동작을 실행하여, S2를 얻는다.
그 다음, 제 1 주의력 가중치 집합S1, 인코딩 된 제 1 노드 특징X" 및 인코딩 된 제 2 노드 특징Y" 에 기초하여, 업데이트 된 제 2 노드 특징
Figure pat00043
을 확정하고, 제 2 주의력 가중치 집합S2, 인코딩 된 제 1 노드 특징X" 및 인코딩 된 제 2 노드 특징Y" 에 기초하여, 업데이트 된 제 1 노드 특징
Figure pat00044
를 확정한다. 이로써, 업데이트 된 제 1 노드 특징
Figure pat00045
및 제 1 에지 특징
Figure pat00046
에 의해 업데이트 된 시각 그래프
Figure pat00047
(308"),
Figure pat00048
를 구성하고, 업데이트 된 제 2 노드 특징
Figure pat00049
및 제 2 에지 특징
Figure pat00050
에 의해 업데이트 된 질문 그래프
Figure pat00051
(309''),
Figure pat00052
를 구성한다.
도3d에 도시된 예에서는, S1 및 S2를 사용하여 2개의 그래프 노드 특징을 각각 업데이트한다. 구체적인 업데이트 대응책은 수식 (8)과 같이 표시할 수 있다.
Figure pat00053
수식 (8)
여기서,
Figure pat00054
Figure pat00055
는 업데이트 된 후의 2개의 그래프의 노드 특징이고, 그래프 매칭 및 업데이트 모듈이 출력한 2개의 새로운 그래프 표시
Figure pat00056
Figure pat00057
를 얻을 수 있다. 본 예에서, 그래프 매칭 및 업데이트 모델(303)은 제3 완전 연결층(3034) 및 제4 완전 연결층(3035)을 더 포함하고, 수식 (8)에서, W5는 제3 완전 연결층(3034) 및 제4 완전 연결층(3035)의 가중치 파라미터이다.
보다 양호한 업데이트 효과를 달성하기 위해, 본 발명의 실시예에 의하면, 그래프 합성곱 인코딩 모듈(302) 및 그래프 매칭 및 업데이트 모듈(303)을 직렬연결하여 하나의 일체형 업데이트 모듈을 구성하고, 사전에 구축한 네트워크 모델에 여러개의 일체형 업데이트 모듈을 직렬연결하여 그래프의 노드 특징에 대한 복수회의 업데이트를 실현함으로써, 보다 깊은 차원의 시맨틱 관계를 러닝하도록 할 수 있다. 예를 들어, p개의 일체형 업데이트 모듈을 통해 p회의 업데이트를 실현함으로써, 업데이트 된 시각 그래프
Figure pat00058
(308") 및 업데이트 된 질문 그래프
Figure pat00059
(309")를 얻을 수 있고, 여기서, p는 양(陽) 정수이다.
본 발명의 실시예에 의하면, 상기 동작(S206)에서 업데이트 된 시각 그래프, 업데이트 된 질문 그래프 및 질문 특징에 기초하여, 융합 특징을 확정하는 과정은, 그래프 융합 모듈(304)이 업데이트 된 제1 노드 특징 및 업데이트 된 제2 노드 특징에 대해 연결 병합을 실행함으로써, 병합 특징을 얻고, 병합 특징에 대해 소정의 풀링 동작을 실행함으로써, 추리 특징을 얻는 것, 그 다음, 문답 모듈(305)이 추리 특징 및 질문 특징에 대해 융합 처리를 실행함으로써, 융합 특징을 얻는 것을 포함할 수 있다. 문답 모듈(305)이 융합 처리를 실행하기 전에, 문답 모듈(305)은 입력 질문Q(307)을 취득하고, 입력 질문에 기초하여 질문 특징을 확정하는 상기 동작(S205)을 실행할 수 있다.
예시적으로, 본 발명의 실시예에서는, 그래프 매칭 및 업데이트 모델(303)의 후단에, 새로운 그래프 융합 모듈(304)을 설계하여 2개의 그래프의 융합을 실행함으로써, 최종적으로 질문 추리에 사용될 추리 특징(Reasoning Feature)을 얻을 수 있다. 예를 들어, 우선, 단지 2개의 그래프의 노드 특징을 연결(Concatenate) 병합한 다음, 예를 들어 최대 풀링(Maxpool)동작을 통해 추리 특징r(310),
Figure pat00060
을 취득한다. 구체적인 융합 방식은 수식 (9)와 같이 표시할 수 있다.
Figure pat00061
수식 (9)
이어서, 도3b에 도시된 바와 같이, 문답 모듈(305)을 이용하여 질문에 대한 최종 추리 및 답압의 예측을 실행할 수 있다. 예를 들어, 우선, 입력 질문Q(307)의 각 워드로부터 Glove 워드 인코딩(3051) 및 Bi-GRU 특징 인코딩(3052)을 통해 전반적인 입력 질문의 질문 특징q(307')을 얻는다. 본 예에서는,
Figure pat00062
이다. 그 다음, 그래프 융합 모듈(304)이 출력한 추리 특징r(310)을 취득한다. 본 예에서는,
Figure pat00063
이다. 추리 특징r과 질문 특징q에 대해 원소별(Element-wise) 내적 처리를 실행함으로써, 추리 특징r과 질문 특징q를 융합한다. 그 다음, 융합 결과를 MLP(3053)에 보내어, 최종적인 답안
Figure pat00064
(311)을 예측한다. 본 예에서는, 2층의 MLP를 사용하고, 처리 과정은 수식 (10)과 같이 표시할 수 있다.
Figure pat00065
수식 (10)
알수 있다 싶이, 트레이닝 완료된 네트워크 모델(300)을 사용할 경우, 예측할 입력 이미지 및 입력 질문을 상기 네트워크 모델(300)에 입력하여, 네트워크 모델(300)이 대응하는 답안 카테고리 및 신뢰도를 출력하고, 신뢰도가 가장 높은 답안 카테고리를 예측할 입력 이미지 및 입력 질문에 대해 얻은 예측 답안으로 한다. 상기 입력 이미지 및 입력 질문에 대한 처리 과정은 트레이닝 단계에서 샘플 이미지 및 샘플 질문에 대한 처리 과정과 동일하므로, 여기서는 설명을 생략한다.
상기 각 실시예로부터 알수 있다 싶이, 본 발명의 실시예에 따른 이미지 문답 방법은, 시각 그래프 및 질문 그래프를 구축하여 서로 다른 양상의 관심 포인트를 러닝함으로써, 멀티 목표 이미지 및 복잡한 질문으로 인한 노이즈를 감소시킬 수 있다. 이와 더불어, 그래프 합성곱에 기반한 그래프 인코딩 모듈을 설계하여 각 양상내의 명시적 및 암시적 관계를 효과적으로 러닝하고, 또한, 그래프 매칭 및 업데이트 모듈을 설계하여 2개의 서로 다른 양상 특징의 일치화 및 업데이트를 실행함으로써, 양상간의 시맨틱 갭을 축소시켜, 교차 양상 특징 융합을 보다 효과적으로 실행할 수 있다. 본 발명은, 그래프 인코딩 모듈과 그래프 매칭 및 업데이트 모듈을 직력연결하고, 여러번 반복함으로써, 질문에 대한 모델의 다단계 추리를 실현할 수 있다.
도4는 본 발명의 실시예에 따른 이미지 문답 장치의 블록도를 개략적으로 나타낸다.
도4에 도시된 바와 같이, 이미지 문답 장치(400)는, 취득 모듈(410), 제1 그래프 구축 모듈(420), 제2 그래프 구축 모듈(430), 업데이트 모듈(440), 질문 특징 추출 모듈(450), 융합 모듈(460) 및 예측 모듈(470) 을 포함할 수 있다.
취득 모듈(410)은, 입력 이미지 및 입력 질문을 취득한다.
제1 그래프 구축 모듈(420)은, 입력 이미지에 기초하여 제1 노드 특징 및 제1 에지 특징을 포함하는 시각 그래프를 구축한다.
제2 그래프 구축 모듈(430)은, 입력 질문에 기초하여 제2 노드 특징 및 제2 에지 특징을 포함하는 질문 그래프를 구축한다.
업데이트 모듈(440)은, 시각 그래프 및 질문 그래프에 대해 멀티 양상 융합을 실행함으로써, 업데이트 된 시각 그래프 및 업데이트 된 질문 그래프를 얻는다.
질문 특징 추출 모듈(450)은, 입력 질문에 기초하여 질문 특징을 확정한다.
융합 모듈(460)은, 업데이트 된 시각 그래프, 업데이트 된 질문 그래프 및 질문 특징에 기초하여, 융합 특징을 확정한다.
예측 모듈(470)은, 융합 특징에 기초하여 입력 이미지 및 입력 질문에 대한 예측 답안을 생성한다.
지적해두어야 할 것은, 장치에 관한 실시 예의 각 모듈/유닛/서브 유닛 등의 실시 형태, 해결하고자 하는 기술적 문제, 실현한 기능 및 기술적 효과는 방법에 관한 실시 예의 각 대응하는 단계의 실시 형태, 해결하고자 하는 기술적 문제, 실현한 기능, 및 기술적 효과와 동일하거나 유사하므로, 여기서는 설명을 생략한다.
본 발명의 실시예에 따른 모듈, 서브 모듈, 유닛, 서브 유닛중 임의의 하나 이상, 또는 이들중 임의의 하나 이상의 적어도 일부 기능은 하나의 모듈에서 구현될 수 있다. 본 발명의 실시예에 따른 모듈, 서브 모듈, 유닛, 서브 유닛중 임의의 하나 또는 하나 이상은 복수의 모듈로 분할되어 구현될 수 있다. 본 발명의 실시예에 따른 모듈, 서브 모듈, 유닛, 서브 유닛중 임의의 하나 또는 하나 이상은 적어도 부분적으로 예를 들어 FPGA(Field Programmable Gate Array), PLA(Programmable Logic Array), SOC(System On Chip), SOS(System On Substrate), SOP(System On Package), ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 회로를 통해 구현되거나, 또는 회로를 집적시키거나 패키징시키는 기타 합리적인 방식의 하드웨어 또는 펌웨어를 통해 구현되거나, 또는 소프트웨어, 하드에어 및 펌웨어의 3가지 구현방식중 임의의 하나 또는 하나 이상의 조합을 통해 구현될 수 있다. 또는, 본 발명의 실시예에 따른 모듈, 서브 모듈, 유닛, 서브 유닛중 하나 또는 하나 이상은 적어도 부분적으로 컴퓨터 프로그램 모듈을 통해 구현될 수 있고, 해당 컴퓨터 프로그램 모듈은 실행될 경우, 대응되는 기능을 실행할 수 있다.
예를 들어, 취득 모듈(410), 제1 그래프 구축 모듈(420), 제2 그래프 구축 모듈(430), 업데이트 모듈(440), 질문 특징 추출 모듈(450), 융합 모듈(460) 및 예측 모듈(470) 중 임의의 2개이상은 하나의 모듈에 병합하여 구현할 수 있고, 또는 이중 임의의 하나의 모듈은 복수의 모듈로 분할될 수 있다. 또는, 이들 모듈 중 하나 또는 복수의 모듈의 적어도 일부 기능은 다른 모듈의 적어도 일부 기능과 결합되어, 하나의 모듈로 구현할 수 있다. 본 발명의 실시예에 따른 취득 모듈(410), 제1 그래프 구축 모듈(420), 제2 그래프 구축 모듈(430), 업데이트 모듈(440), 질문 특징 추출 모듈(450), 융합 모듈(460) 및 예측 모듈(470) 중 적어도 하나는, 적어도 부분적으로 예를 들어 FPGA(Field Programmable Gate Array), PLA(Programmable Logic Array), SOC(System On Chip), SOS(System On Substrate), SOP(System On Package), ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 회로를 통해 구현되거나, 또는 회로를 집적시키거나 패키징시키는 기타 합리적인 방식 등 하드웨어 또는 펌웨어를 통해 구현되거나, 또는 소프트웨어, 하드에어 및 펌웨어의 3가지 구현방식중 임의의 하나 또는 하나 이상의 조합을 통해 구현될 수 있다. 또는, 취득 모듈(410), 제1 그래프 구축 모듈(420), 제2 그래프 구축 모듈(430), 업데이트 모듈(440), 질문 특징 추출 모듈(450), 융합 모듈(460) 및 예측 모듈(470) 중 적어도 하나는 적어도 부분적으로 컴퓨터 프로그램 모듈을 통해 구현될 수 있고, 해당 컴퓨터 프로그램 모듈은 실행될 경우, 대응되는 기능을 실행할 수 있다.
도5는 본 발명의 일 실시 예에 따른 상기 방법을 구현하기에 적합한 컴퓨터 장비의 블록도를 개략적으로 나타낸다. 도5에 도시된 컴퓨터 장비는 단지 하나의 실예일 뿐, 본 발명의 실시 예의 기능 및 사용 범위는 결코 이에 한정되지 않는다.
도 5에 도시된 바와 같이, 본 발명의 실시예에 따른 컴퓨터 장비(500)는 프로세서 (501)를 포함하고, 프로세서 (501)는 ROM(Read Only Memory)(502)에 저장된 프로그램 또는 저장부(508)로부터 RAM(Random Access Memory)(503)에 로드된 프로그램에 따라 각종 적당한 동작 및 처리를 실행할 수 있다. 프로세서 (501)는 예를 들어 범용 마이크로 프로세서 (예를 들어, CPU), 명령 집합 프로세서 및/또는 관련 칩셋 및/또는 전용 마이크로 프로세서 (예를 들어, ASIC(Application Specific Integrated Circuit)) 등을 포함할 수 있다. 프로세서 (501)는 버퍼링 용도로 쓰이는 보드 탑재 메모리를 포함할 수도 있다. 프로세서 (501)는 본 발명의 실시예에 따른 방법의 흐름의 서로 다른 동작을 실행하기 위한 단일 처리 유닛 또는 복수의 처리 유닛을 포함할 수 있다.
RAM(503)에는, 장비(500) 조작에 필요한 각종 프로그램 및데이터가 저장되어 있다. 프로세서 (501), ROM(502) 및RAM(503)은 버스(504)를 통해 서로 연결된다. 프로세서 (501)는 ROM(502) 및/또는 RAM(503)에 저장된 프로그램을 실행함으로써, 본 발명의 실시예에 따른 방법의 흐름의 각 동작을 실행한다. 지적해두어야 할 것은, 상기 프로그램은 ROM(502) 및 RAM(503)을 제외한 하나 또는 복수의 메모리에 저장될 수도 있다. 프로세서 (501)는 상기 하나 또는 복수의 메모리에 저장되어 있는 프로그램을 실행함으로써, 본 발명의 실시예에 따른 방법의 흐름의 각 동작을 실행할 수도 있다.
본 발명의 실시예에 따르면, 장비(500)는 입력/출력(I/O) 인터페이스(505)를 더 포함할 수 있고, 입력/출력(I/O) 인터페이스(505)도 버스(504)에 연결된다. 장비(500)는, I/O 인터페이스(505)에 연결되는 키보드, 마우스 등을 포함하는 입력부(506), 음극선관(CRT), 액정 디스플레이(LCD) 등 및 스피커 등을 포함하는 출력부(507), 하드 디스크 등을 포함하는 저장부(508), 및 LAN 카드, 모뎀 등과 같은 네트워크 인터페이스 카드를 포함하는 통신부(509)중의 하나 또는 복수개를 포함할 수 있다. 통신부(509)는 인터넷과 같은 네트워크를 통해 통신 처리를 실행한다. 수요에 따라, 드라이버(510)도 I/O 인터페이스(505)에 연결된다. 수요에 따라, 디스크, 광 디스크, 자기 광 디스크, 반도체 메모리 등과 같은 탈착가능 매체(511)를 드라이버(510)에 장착함으로써, 이들로부터 판독된 컴퓨터 프로그램을 수요에 따라 저장부(508)에 설치할 수 있도록 한다.
본 발명의 실시예에 따르면, 본 발명의 실시예에 따른 방법의 흐름은 컴퓨터 소프트웨어 프로그램으로 실현될 수 있다. 예를 들어, 본 발명의 실시예는 컴퓨터 프로그램 제품을 포함하고, 상기 제품은 컴퓨터 판독가능 저장 매체에 탑재된 컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램은 흐름도에 도시된 방법을 실행하기 위한 프로그램 코드를 포함할 수 있다. 이러한 실시예에 있어서, 상기 컴퓨터 프로그램은 통신부(509)를 통해 네트워크로부터 다운도르하여 설치하거나, 또는 탈착가능 매체(511)로부터 설치할 수 있다. 상기 컴퓨터 프로그램이 프로세서 (501)에 의해 실행될 경우, 본 발명의 실시예의 시스템에서 한정된 상기 기능을 실행한다. 본 발명의 실시예에 따르면, 앞에서 설명한 시스템, 장비, 장치, 모듈, 유닛 등은 컴퓨터 프로그램 모듈을 통해 실현될 수 있다.
본 발명은 비 일시적 컴퓨터 판독가능 저장 매체도 제공한다. 상기 비 일시적 컴퓨터 판독가능 저장 매체는 상기 실시예에서 설명한 장비/장치/시스템에 포함될 수도 있고, 상기 장비/장치/시스템에 조립되지 않고 단독적으로 존재할 수 도 있다. 상기 비 일시적 컴퓨터 판독가능 저장 매체에는 하나 또는 복수의 프로그램이 탑재되고, 상기 하나 또는 복수의 프로그램이 실행될 경우, 본 발명의 실시예에 따른 방법을 실현한다.
본 발명의 실시예에 따르면, 비 일시적 컴퓨터 판독가능 저장 매체는 컴퓨터 판독가능 비휘발성 저장 매체일 수 있다. 예를 들어, 휴대용 컴퓨터 디스크, 하드 디스크, RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programming ROM), 또는 플래시 메모리, 휴대용 CD-ROM(Compact Disc Read Only Memory), 광학적 저장 디바이스, 자기적 저장 디바이스, 또는 이들의 임의의 적합한 조합을 포함할 수 있는데, 이에 한정되지는 않는다. 본 발명에 있어서, 비 일시적 컴퓨터 판독가능 저장 매체는 프로그램을 포함 또는 저장하는 임의의 유형의 매체일 수 있는데, 상기 프로그램은 명령 실행 시스템, 장치 또는 디바이스에 의해 사용되거나 이들과 결합하여 사용할 수 있다. 예를 들어, 본 발명의 실시예에 따르면, 비 일시적 컴퓨터 판독가능 저장 매체는 앞에서 설명한 ROM(502) 및/또는 RAM(503) 및/또는 ROM(502)과 RAM(503)을 제외한 하나 또는 복수의 메모리를 포함할 수 있다.
첨부 도면의 흐름도 및 블록도는, 본 발명의 각종 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 실현가능한 체계구조, 기능 및 동작을 도시하고 있다. 이 점에서, 흐름도 또는 블록도의 각 블록은 하나의 모듈, 프로그램 세그먼트, 또는 코드의 일부를 의미할 수 있고, 상기 모듈, 프로그램 세그먼트 또는 코드의 일부는 하나 또는 복수의 소정의 논리적 기능을 실현하기 위한 실행가능 명령을 포함한다. 지적해두어야 할 것은, 다른 일부 실시예에 있어서, 블록에 표기된 기능은 첨부 도면에 표기된 순서와 다른 순서로 실행될 수도 있다. 예를 들어, 순차적으로 표시된 2개의 블록은 병행적으로 실행될 수 도 있고, 반대되는 순서로 실행될 수도 있는데, 이는 관련되는 기능에 의해 결정된다. 또한, 지적해두어야 할 것은, 블록도 또는 흐름도중의 각 블록 및 블록도 또는 흐름도중의 블록의 조합은, 소정의 기능 또는 동작을 실행하는 전용적인 하드웨어에 기반한 시스템을 통해 구현하거나, 또는 전용 하드웨어와 컴퓨터 명령의 조합을 통해 구현할 수 있다.
당업자라면, 본 발명에 명확히 개시되어 있지 않더라도, 본 발명의 각 실시예 및/또는 청구항에 기재된 특징을 다양하게 조합 및/또는 결합할 수 있음을 이해할수 있을 것이다. 특히, 본 발명의 취지 및 시사를 벗어나지 않고 본 발명의 각 실시예 및/또는 청구항에 기재된 특징을 다양하게 조합 및/또는 결합할 수 있다. 이러한 전부의 조합 및/또는 결합은 모두 본 발명의 범위에 속한다.
이상에서는 본 발명의 실시예에 대해 설명하였다. 하지만, 이러한 실시예는 단지 설명을 위한 것일 뿐, 결코 본 발명의 범위를 제한하기 위한 것이 아니다. 비록 이상에서는 각 실시예를 별도로 설명하였으나, 이는 결코 각 실시예중의 조치가 결합하여 사용할수 없음을 의미하지 않는다. 본 발명의 범위는 첨부된 청구의 범위 및 그 등가물에 의해 한정된다. 당업자라면, 본 발명의 범위를 벗어나지 않고, 다양하게 치환 및 변경할 수 있는데, 이러한 치환 및 변경 또한 본 발명의 범위에 포함되어야 한다.
시스템 : 100 단말 장비 : 110
네트워크 : 120 서버 : 130
네트워크 모델 : 300 그래프 구축 모듈 : 301
그래프 인코딩 모듈 : 302 그래프 매칭 및 업데이트 모듈 : 303
그래프 융합모듈 : 304 문답 모듈 : 305
이미지 문답 장치 : 400 취득 모듈 : 410
제 1 그래프 구축 모듈 : 420 제 2 그래프 구축 모듈 : 430
업데이트 모듈 : 440 질문 특징 추출 모듈 : 450
융합 모듈 : 460 예측 모듈 : 470
컴퓨터 장비 :500 프로세서 : 501
ROM : 502 RAM : 503
I/O 인터페이스 : 505 입력부 : 506
출력부 : 507 저장부 : 508
통신부 : 509 버스 : 504

Claims (20)

  1. 입력 이미지 및 입력 질문을 취득하는 것,
    상기 입력 이미지에 기초하여, 제1 노드 특징 및 제1 에지 특징을 포함하는 시각 그래프를 구축하는 것,
    상기 입력 질문에 기초하여, 제2 노드 특징 및 제2 에지 특징을 포함하는 질문 그래프를 구축하는 것,
    상기 시각 그래프 및 상기 질문 그래프에 대해 멀티 양상 융합을 실행함으로써, 업데이트 된 시각 그래프 및 업데이트 된 질문 그래프를 얻는 것,
    상기 입력 질문에 기초하여 질문 특징을 확정하는 것,
    상기 업데이트 된 시각 그래프, 상기 업데이트 된 질문 그래프 및 상기 질문 특징에 기초하여, 융합 특징을 확정하는 것, 및
    상기 융합 특징에 기초하여, 상기 입력 이미지 및 상기 입력 질문에 대한 예측 답안을 생성하는 것을 포함하는
    이미지 문답 방법.
  2. 제1항에 있어서,
    상기 입력 이미지에 기초하여 시각 그래프를 구축하는 것은,
    목표 검출 네트워크를 이용하여 상기 입력 이미지를 처리함으로써, 상기 목표 검출 네트워크의 중간층으로부터 상기 입력 이미지중의 복수의 목표 대상에 대한 표상 특징 및 공간 특징을 추출하는 것,
    상기 표상 특징 및 상기 공간 특징에 기초하여 상기 제1 노드 특징을 확정하는 것,
    상기 목표 검출 네트워크의 출력층이 출력한 처리 결과에 기초하여, 상기 복수의 목표 대상 각각의 위치 정보를 확정하는 것,
    상기 복수의 목표 대상 각각의 위치 정보에 기초하여, 상기 복수의 목표 대상 중 임의의 2개의 목표 대상사이의 위치 관계를 확정하는 것,
    상기 임의의 2개의 목표 대상사이의 위치 관계에 기초하여, 상기 제1 에지 특징을 확정하는 것, 및
    상기 제1 노드 특징 및 상기 제1 에지 특징에 의해 상기 시각 그래프를 구성하는 것을 포함하는
    이미지 문답 방법.
  3. 제2항에 있어서,
    상기 복수의 목표 대상 각각의 위치 정보에 기초하여, 상기 복수의 목표 대상 중 임의의 2개의 목표 대상사이의 위치 관계를 확정하는 것은,
    상기 임의의 2개의 목표 대상 각각의 위치 정보에 근거하여, 상기 임의의 2개의 목표 대상의 위치 영역사이의 교집합 및 합집합을 계산하는 것,
    상기 교집합 및 합집합의 비례 값을 계산하는 것,
    상기 비례 값이 소정의 임계치보다 클 경우, 상기 임의의 2개의 목표 대상사이의 위치 관계를 1로 표시하는 것, 및
    상기 비례 값이 소정의 임계치이하일 경우, 상기 임의의 2개의 목표 대상사이의 위치 관계를 0으로 표시하는 것을 포함하는
    이미지 문답 방법.
  4. 제1항에 있어서,
    상기 입력 질문에 기초하여, 질문 그래프를 구축하는 것은,
    워드 인코딩 알고리즘 및 특징 인코딩 알고리즘을 이용하여 상기 입력 질문을 순차적으로 처리함으로써, 상기 입력 질문으로부터 상기 입력 질문중의 복수의 워드 각자의 특징 정보를 나타내기 위한 복수의 워드 노드 특징을 추출하는 것,
    의존 분석 알고리즘을 이용하여 상기 복수의 워드 중 임의의 2개의 워드사이의 의존 관계를 확정하는 것,
    상기 임의의 2개의 워드사이의 의존 관계에 기초하여, 상기 제2 에지 특징을 확정하는 것, 및
    상기 복수의 워드 노드 특징에 의해 상기 제2 노드 특징을 구성하고, 상기 제2 노드 특징 및 상기 제2 에지 특징에 의해 상기 질문 그래프를 구축하는 것 을 포함하는
    이미지 문답 방법.
  5. 제1항에 있어서,
    상기 시각 그래프 및 상기 질문 그래프에 대해 멀티 양상 융합을 실행하는 것은, 적어도 1회의 멀티 양상 융합 동작을 실행하는 것을 포함하고,
    상기 적어도 1회의 멀티 양상 융합 동작 중 매회의 멀티 양상 융합 동작은,
    상기 제1 노드 특징 및 상기 제1 에지 특징에 기초하여, 제1 소정의 네트워크를 이용하여 상기 제1 노드 특징을 인코딩함으로써, 인코딩 된 시각 그래프를 얻는 것,
    상기 제2 노드 특징 및 상기 제2 에지 특징에 기초하여, 제2 소정의 네트워크를 이용하여 상기 제2 노드 특징을 인코딩함으로써, 인코딩 된 질문 그래프를 얻는 것, 및
    그래프 매칭 알고리즘을 이용하여, 상기 인코딩 된 시각 그래프 및 상기 인코딩 된 질문 그래프에 대해 멀티 양상 융합을 실행함으로써, 상기 업데이트 된 시각 그래프 및 상기 업데이트 된 질문 그래프를 얻는 것을 포함하는
    이미지 문답 방법.
  6. 제5항에 있어서,
    상기 제1 소정의 네트워크는, 제1 완전 연결층, 제1 그래프 합성곱층 및 제2 그래프 합성곱층을 포함하고,
    상기 제1 노드 특징을 인코딩하는 것은,
    제1 완전 연결층을 이용하여 상기 제1 노드 특징을 공간 차원수가 소정 수인 제1 특징으로 매핑하는 것,
    제1 그래프 합성곱층을 이용하여 상기 제1 특징을 처리함으로써, 제2 특징을 얻는 것,
    제2 그래프 합성곱층을 이용하여 상기 제2 특징을 처리함으로써, 인코딩 된 제1 노드 특징을 얻는 것, 및
    상기 인코딩 된 제1 노드 특징 및 상기 제1 에지 특징에 의해 상기 인코딩 된 시각 그래프를 구성하는 것을 포함하는
    이미지 문답 방법.
  7. 제6항에 있어서,
    상기 제1 노드 특징을 인코딩하는 것은,
    상기 제1 에지 특징에 기초하여 제1 라플라시안 매트릭스를 구축하는 것을 더 포함하고,
    상기 제1 그래프 합성곱층을 이용하여 상기 제1 특징을 처리하는 것은,
    상기 제1 그래프 합성곱층을 이용하여 상기 제1 라플라시안 매트릭스에 기초하여 상기 제1 특징을 처리함으로써, 복수의 제1 서브 특징을 포함하는 상기 제2 특징을 얻는 것을 포함하는
    이미지 문답 방법.
  8. 제7항에 있어서,
    상기 제1 소정의 네트워크는 제1 연관층을 더 포함하고,
    상기 제1 노드 특징을 인코딩하는 것은, 제1 연관층을 이용하여 상기 복수의 제1 서브 특징 중 임의의 2개의 제1 서브 특징사이의 연관관계를 계산하고, 상기 임의의 2개의 제1 서브 특징사이의 연관관계에 기초하여 제1 관계 매트릭스를 확정하는 것을 더 포함하고,
    상기 제2 그래프 합성곱층을 이용하여 상기 제2 특징을 처리하는 것은,
    상기 제2 그래프 합성곱층을 이용하여 상기 제1 관계 매트릭스에 기초하여 상기 제2 특징을 처리함으로써, 상기 인코딩 된 제1 노드 특징을 얻는 것을 포함하는
    이미지 문답 방법.
  9. 제5항에 있어서,
    상기 제2 소정의 네트워크는, 제2 완전 연결층, 제3 그래프 합성곱층 및 제4 그래프 합성곱층을 포함하고,
    상기 제2 노드 특징을 인코딩하는 것은,
    제2 완전 연결층을 이용하여 상기 제2 노드 특징을 공간 차원수가 소정 수인 제3 특징으로 매핑하는 것,
    제3 그래프 합성곱층을 이용하여 상기 제3 특징을 처리함으로써, 제4 특징을 얻는 것,
    제4 그래프 합성곱층을 이용하여 상기 제4 특징을 처리함으로써, 인코딩 된 제2 노드 특징을 얻는 것, 및
    상기 인코딩 된 제2 노드 특징 및 상기 제2 에지 특징에 의해 상기 인코딩 된 질문 그래프를 구성하는 것을 포함하는
    이미지 문답 방법.
  10. 제9항에 있어서,
    상기 제2 노드 특징을 인코딩하는 것은,
    상기 제2 에지 특징에 기초하여 제2 라플라시안 매트릭스을 구축하는 것을 더 포함하고,
    상기 제3 그래프 합성곱층을 이용하여 상기 제3 특징을 처리하는 것은,
    상기 제3 그래프 합성곱층을 이용하여 상기 제2 라플라시안 매트릭스에 기초하여 상기 제3 특징을 처리함으로써, 복수의 제2 서브 특징을 포함하는 상기 제4 특징을 얻는 것을 포함하는
    이미지 문답 방법.
  11. 제10항에 있어서,
    상기 제2 소정의 네트워크는 제2 연관층을 더 포함하고,
    상기 제2 노드 특징을 인코딩하는 것은, 제2 연관층을 이용하여 상기 복수의 제2 서브 특징 중 임의의 2개의 제2 서브 특징사이의 연관관계를 계산하고, 상기 임의의 2개의 제2 서브 특징사이의 연관관계에 기초하여 제2 관계 매트릭스를 확정하는 것을 더 포함하고,
    상기 제4 그래프 합성곱층을 이용하여 상기 제4 특징을 처리하는 것은,
    상기 제4 그래프 합성곱층을 이용하여 상기 제2 관계 매트릭스에 기초하여 상기 제4 특징을 처리함으로써, 상기 인코딩 된 제2 노드 특징을 얻는 것을 포함하는
    이미지 문답 방법.
  12. 제5항에 있어서,
    상기 인코딩 된 시각 그래프중의 인코딩 된 제1 노드 특징은 복수의 제3 서브 특징을 포함하고, 상기 인코딩 된 질문 그래프중의 인코딩 된 제2 노드 특징은 복수의 제4 서브 특징을 포함하고,
    상기 그래프 매칭 알고리즘을 이용하여, 상기 인코딩 된 시각 그래프 및 상기 인코딩 된 질문 그래프에 대해 멀티 양상 융합을 실행하는 것은,
    그래프 매칭 알고리즘을 이용하여 상기 인코딩 된 제1 노드 특징 및 상기 인코딩 된 제2 노드 특징에 대해 매칭 처리를 실행함으로써, 상기 복수의 제3 서브 특징 중 임의의 제3 서브 특징과 상기 복수의 제4 서브 특징 중 임의의 제4 서브 특징사이의 매칭 관계를 확정하는 것,
    상기 임의의 제3 서브 특징과 상기 임의의 제4 서브 특징사이의 매칭 관계에 기초하여, 매칭 매트릭스를 확정하는 것,
    주의력 메카니즘 및 상기 매칭 매트릭스에 기초하여, 제1 주의력 가중치 집합 및 제2 주의력 가중치 집합을 각각 확정하는 것,
    상기 제1 주의력 가중치 집합, 상기 인코딩 된 제1 노드 특징 및 상기 인코딩 된 제2 노드 특징에 기초하여, 업데이트 된 제2 노드 특징을 확정하는 것,
    상기 제2 주의력 가중치 집합, 상기 인코딩 된 제1 노드 특징 및 상기 인코딩 된 제2 노드 특징에 기초하여, 업데이트 된 제1 노드 특징을 확정하는 것, 및
    상기 업데이트 된 제1 노드 특징 및 상기 제1 에지 특징에 의해 상기 업데이트 된 시각 그래프를 구성하고, 상기 업데이트 된 제2 노드 특징 및 상기 제2 에지 특징에 의해 상기 업데이트 된 질문 그래프를 구성하는 것을 포함하는
    이미지 문답 방법.
  13. 제12항에 있어서,
    상기 입력 질문에 기초하여 질문 특징을 확정하는 것은,
    소정의 워드 인코딩 알고리즘 및 소정의 특징 인코딩 알고리즘을 이용하여 상기 입력 질문을 순차적으로 인코딩 처리함으로써, 상기 질문 특징을 얻는 것을 포함하는
    이미지 문답 방법.
  14. 제12항에 있어서,
    상기 업데이트 된 시각 그래프, 상기 업데이트 된 질문 그래프 및 상기 질문 특징에 기초하여, 융합 특징을 확정하는 것은,
    상기 업데이트 된 제1 노드 특징 및 상기 업데이트 된 제2 노드 특징에 대해 연결 병합을 실행함으로써, 병합 특징을 얻는 것,
    상기 병합 특징에 대해 소정의 풀링 동작을 실행함으로써, 추리 특징을 얻는 것, 및
    상기 추리 특징 및 상기 질문 특징에 대해 융합 처리를 실행함으로써, 상기 융합 특징을 얻는 것을 포함하는
    이미지 문답 방법.
  15. 제14항에 있어서,
    상기 추리 특징 및 상기 질문 특징에 대해 융합 처리를 실행하는 것은,
    상기 추리 특징 및 상기 질문 특징에 대해 원소별 내적 처리를 실행함으로써, 상기 융합 특징을 얻는 것을 포함하는
    이미지 문답 방법.
  16. 제1항에 있어서,
    상기 융합 특징에 기초하여, 상기 입력 이미지 및 상기 입력 질문에 대한 예측 답안을 생성하는 것은,
    멀티 레이어 퍼셉트론을 이용하여 상기 융합 특징을 처리함으로써, 상기 융합 특징에 대한 예측 답안을 얻는 것을 포함하는
    이미지 문답 방법.
  17. 입력 이미지 및 입력 질문을 취득하기 위한 취득 모듈,
    상기 입력 이미지에 기초하여, 제1 노드 특징 및 제1 에지 특징을 포함하는 시각 그래프를 구축하기 위한 제1 그래프 구축 모듈,
    상기 입력 질문에 기초하여, 제2 노드 특징 및 제2 에지 특징을 포함하는 질문 그래프를 구축하기 위한 제2 그래프 구축 모듈,
    상기 시각 그래프 및 상기 질문 그래프에 대해 멀티 양상 융합을 실행함으로써, 업데이트 된 시각 그래프 및 업데이트 된 질문 그래프를 얻기 위한 업데이트 모듈,
    상기 입력 질문에 기초하여 질문 특징을 확정하기 위한 질문 특징 추출 모듈,
    상기 업데이트 된 시각 그래프, 상기 업데이트 된 질문 그래프 및 상기 질문 특징에 기초하여, 융합 특징을 확정하기 위한 융합 모듈, 및
    상기 융합 특징에 기초하여, 상기 입력 이미지 및 상기 입력 질문에 대한 예측 답안을 생성하기 위한 예측 모듈을 포함하는
    이미지 문답 장치.
  18. 컴퓨터 프로그램이 저장되어 있는 메모리, 및
    적어도 하나의 프로세서를 포함하는 컴퓨터 장비에 있어서,
    상기 컴퓨터 프로그램이 상기 프로세서에 의해 실행될 경우, 제1항 내지 제16항 중 어느 한 항의 방법을 구현하는
    컴퓨터 장비.
  19. 컴퓨터 프로그램이 저장되어 있는 비 일시적 컴퓨터 판독가능 저장 매체에 있어서,
    컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 제1 항 내지 제16항 중 어느 한 항의 방법을 구현하는
    비 일시적 컴퓨터 판독가능 저장 매체.
  20. 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램의 명령이 프로세서에 의해 실행될 경우, 제1항 내지 제16항중 어느 한 항의 방법을 구현하는
    컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램.

KR1020210026684A 2020-06-30 2021-02-26 이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램 KR102588894B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010616310.1 2020-06-30
CN202010616310.1A CN111782838B (zh) 2020-06-30 2020-06-30 图像问答方法、装置、计算机设备和介质

Publications (2)

Publication Number Publication Date
KR20220002067A true KR20220002067A (ko) 2022-01-06
KR102588894B1 KR102588894B1 (ko) 2023-10-12

Family

ID=72760431

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210026684A KR102588894B1 (ko) 2020-06-30 2021-02-26 이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램

Country Status (5)

Country Link
US (1) US11775574B2 (ko)
EP (1) EP3819790A3 (ko)
JP (1) JP7167216B2 (ko)
KR (1) KR102588894B1 (ko)
CN (1) CN111782838B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116204726A (zh) * 2023-04-28 2023-06-02 杭州海康威视数字技术股份有限公司 一种基于多模态模型的数据处理方法、装置及设备

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11769018B2 (en) * 2020-11-24 2023-09-26 Openstream Inc. System and method for temporal attention behavioral analysis of multi-modal conversations in a question and answer system
US20220189060A1 (en) * 2020-12-10 2022-06-16 Niantic, Inc. Visual Camera Re-Localization using Graph Neural Networks and Relative Pose Supervision
CN112784829B (zh) * 2021-01-21 2024-05-21 北京百度网讯科技有限公司 一种票据信息的提取方法、装置、电子设备及存储介质
CN113392731B (zh) * 2021-05-31 2023-06-23 浙江工业大学 一种基于图神经网络的调制信号分类方法和系统
CN113255367B (zh) * 2021-06-07 2021-11-05 华南师范大学 情感分析方法、装置、设备以及存储介质
CN113516182B (zh) * 2021-07-02 2024-04-23 文思海辉元辉科技(大连)有限公司 视觉问答模型训练、视觉问答方法和装置
CN113609355B (zh) * 2021-07-15 2022-06-03 哈尔滨理工大学 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质
US20230089148A1 (en) * 2021-09-17 2023-03-23 Robert Bosch Gmbh Systems and methods for interactive image scene graph pattern search and analysis
CN113627447B (zh) * 2021-10-13 2022-02-08 腾讯科技(深圳)有限公司 标签识别方法、装置、计算机设备、存储介质及程序产品
CN114780768A (zh) * 2022-04-29 2022-07-22 山东海量信息技术研究院 一种视觉问答任务处理方法、系统、电子设备及存储介质
CN115618061B (zh) * 2022-11-29 2023-03-10 广东工业大学 一种语义对齐的视频问答方法
CN116862000B (zh) * 2023-09-01 2024-01-23 浪潮电子信息产业股份有限公司 一种生成式人工智能的因果思维链生成方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180038937A (ko) * 2015-11-03 2018-04-17 바이두 유에스에이 엘엘씨 시각 문답을 위한 시스템 및 방법
CN109858555A (zh) * 2019-02-12 2019-06-07 北京百度网讯科技有限公司 基于图像的数据处理方法、装置、设备及可读存储介质
US20190370587A1 (en) * 2018-05-29 2019-12-05 Sri International Attention-based explanations for artificial intelligence behavior

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10600194B2 (en) * 2017-08-24 2020-03-24 General Electric Company Image and video capture architecture for three-dimensional reconstruction
CN111169468B (zh) * 2018-11-12 2023-10-27 北京魔门塔科技有限公司 一种自动泊车的系统及方法
CN110222770B (zh) * 2019-06-10 2023-06-02 成都澳海川科技有限公司 一种基于组合关系注意力网络的视觉问答方法
US11210523B2 (en) * 2020-02-06 2021-12-28 Mitsubishi Electric Research Laboratories, Inc. Scene-aware video dialog

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180038937A (ko) * 2015-11-03 2018-04-17 바이두 유에스에이 엘엘씨 시각 문답을 위한 시스템 및 방법
US20190370587A1 (en) * 2018-05-29 2019-12-05 Sri International Attention-based explanations for artificial intelligence behavior
CN109858555A (zh) * 2019-02-12 2019-06-07 北京百度网讯科技有限公司 基于图像的数据处理方法、装置、设备及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUO Dalu, et al, "Bilinear Graph Networks for Visual Question Answering", arXiv:1907.09815v2 [cs.CV] (2020.02.03.) 1부.* *
TENEY Damien, et al, "Graph-Structured Representations for Visual Question Answering", 2017 IEEE Conference on Computer Vision and Pattern Recognition, pp 3233-3241 (2017.) 1부.* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116204726A (zh) * 2023-04-28 2023-06-02 杭州海康威视数字技术股份有限公司 一种基于多模态模型的数据处理方法、装置及设备

Also Published As

Publication number Publication date
CN111782838B (zh) 2024-04-05
CN111782838A (zh) 2020-10-16
JP2022013645A (ja) 2022-01-18
EP3819790A3 (en) 2021-08-11
US20210406592A1 (en) 2021-12-30
US11775574B2 (en) 2023-10-03
JP7167216B2 (ja) 2022-11-08
EP3819790A2 (en) 2021-05-12
KR102588894B1 (ko) 2023-10-12

Similar Documents

Publication Publication Date Title
KR102588894B1 (ko) 이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램
CN111767379B (zh) 图像问答方法、装置、设备以及存储介质
AU2019200270B2 (en) Concept mask: large-scale segmentation from semantic concepts
KR20220002065A (ko) 이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램
US20190095806A1 (en) SGCNN: Structural Graph Convolutional Neural Network
CN112164391A (zh) 语句处理方法、装置、电子设备及存储介质
US20230095606A1 (en) Method for training classifier, and data processing method, system, and device
CN113806552B (zh) 信息提取方法、装置、电子设备和存储介质
CN111368656A (zh) 一种视频内容描述方法和视频内容描述装置
WO2023231753A1 (zh) 一种神经网络的训练方法、数据的处理方法以及设备
CN113779225A (zh) 实体链接模型的训练方法、实体链接方法及装置
CN115223020A (zh) 图像处理方法、装置、电子设备以及可读存储介质
CN113065634A (zh) 一种图像处理方法、神经网络的训练方法以及相关设备
CN114973333B (zh) 人物交互检测方法、装置、设备以及存储介质
CN115827878A (zh) 语句情感分析方法、装置以及设备
CN115905524A (zh) 融合句法和语义信息的情感分析方法、装置以及设备
CN114707070A (zh) 一种用户行为预测方法及其相关设备
Guo et al. Object goal visual navigation using Semantic Spatial Relationships
CN116226478B (zh) 信息处理方法、模型训练方法、装置、设备及存储介质
WO2023236900A1 (zh) 一种项目推荐方法及其相关设备
CN114255427B (zh) 视频理解方法、装置、设备以及存储介质
CN116092090A (zh) 阅读顺序预测方法、阅读顺序预测模型的训练方法及装置
CN118070192A (zh) 场景图生成方法、设备及介质
CN116958994A (zh) 一种文本颜色识别方法、装置、设备及介质
CN117972087A (zh) 情感识别方法、装置、计算机设备以及存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant