KR20220002065A - 이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램 - Google Patents

이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20220002065A
KR20220002065A KR1020210026421A KR20210026421A KR20220002065A KR 20220002065 A KR20220002065 A KR 20220002065A KR 1020210026421 A KR1020210026421 A KR 1020210026421A KR 20210026421 A KR20210026421 A KR 20210026421A KR 20220002065 A KR20220002065 A KR 20220002065A
Authority
KR
South Korea
Prior art keywords
feature
features
question
image
graph
Prior art date
Application number
KR1020210026421A
Other languages
English (en)
Inventor
친 시아멍
리 위린
시에 췬인
후앙 쥐
한 쥔위
Original Assignee
베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Publication of KR20220002065A publication Critical patent/KR20220002065A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06K9/00624
    • G06K9/46
    • G06K9/6215
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은, 입력 이미지 및 입력 질문을 취득하는 것, 입력 이미지에 기초하여 노드 특징 및 에지 특징을 포함하는 시각 그래프를 구축하는 것, 상기 노드 특징 및 에지 특징에 기초하여 노드 특징을 업데이터함으로써, 업데이트 된 시각 그래프를 얻는 것, 입력 질문에 기초하여 질문 특징을 확정하는 것, 업데이트 된 시각 그래프 및 질문 특징에 대해 융합 처리를 실행함으로써 융합 특징을 얻는 것, 및 융합 특징에 기초하여 입력 이미지 및 입력 질문에 대한 예측 답안을 생성하는 것을 포함하는 이미지 문답 방법을 제공한다. 본 발명은 이미지 문답 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램도 제공한다.

Description

이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램{method, apparatus, computer equipment, computer readable storage medium and computer program for visual qustion answering}
본 발명은 컴퓨터 시각, 자연 언어 처리 분야에 관한 것으로서, 보다 구체적으로는, 이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램에 관한 것이다.
이미지 문답 (Visual Question Answering, VQA) 은 아주 도전성있는 임무로서 , 그 목적은 컴퓨터 시각과 자연 언어 처리를 연결시키는 것이다. 이미지 문답 임무에 있어서 , 예를 들어 , 하나의 이미지와 하나의 연관되는 질문이 주어지고, 기계로 하여금 이미지 내용에 따라 일부 상식에 의해 질문의 답안을 추리하여 얻어낼 것을 요구한다. 상기 이미지 문답 임무를 완성하기 위해, 기계는 반드시 교차 양상(CrossModal)의 이해능력을 구비하여, 시각과 언어 이 2 가지 부동한 양상( Modality)의 데이터에 대한 종합적인 이해를 실현하여야 한다.
따라서, 이미지 문답 임무는 다른 단일 양상의 임무(예를 들어, 이미지 식별, 문서 분류 등)에 비해 요구가 더 높다.
이를 감안하여, 본 발명은 이미지 문답 방법 및 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램을 제공한다.
본 발명의 한 측면에 의하면, 입력 이미지 및 입력 질문을 취득하는 것, 입력 이미지에 기초하여, 노드 특징 및 에지 특징을 포함하는 시각 그래프를 구축하는 것, 노드 특징 및 에지 특징에 기초하여, 노드 특징을 업데이트함으로써, 업데이트 된 시각 그래프를 얻는 것, 입력 질문에 기초하여 질문 특징을 확정하는 것, 업데이트 된 시각 그래프 및 질문 특징에 대해 융합 처리를 실행함으로써 융합 특징을 얻는 것, 및 융합 특징에 기초하여, 입력 이미지 및 입력 질문에 대한 예측 답안을 생성하는 것을 포함하는 이미지 문답 방법을 제공한다.
본 발명의 실시예에 따르면, 상기 입력 이미지에 기초하여 시각 그래프를 구축하는 것은, 목표 검출 네트워크를 이용하여 입력 이미지를 처리함으로써, 목표 검출 네트워크의 중간층으로부터 입력 이미지중의 복수의 목표 대상에 대한 표상 특징 및 공간 특징을 추출하는 것, 상기 표상 특징 및 공간 특징에 기초하여 노드 특징을 확정하는 것, 목표 검출 네트워크의 출력층이 출력한 처리 결과에 기초하여, 복수의 목표 대상 각각의 위치 정보를 확정하는 것, 복수의 목표 대상 각각의 위치 정보에 기초하여, 복수의 목표 대상 중 임의의 2개의 목표 대상사이의 위치 관계를 확정하는 것, 임의의 2개의 목표 대상사이의 위치 관계에 기초하여, 에지 특징을 확정하는 것, 및 노드 특징 및 에지 특징에 의해 시각 그래프를 구성하는 것을 포함한다.
본 발명의 실시예에 따르면, 상기 복수의 목표 대상 각각의 위치 정보에 기초하여, 복수의 목표 대상 중 임의의 2개의 목표 대상사이의 위치 관계를 확정하는 것은, 임의의 2개의 목표 대상 각각의 위치 정보에 근거하여, 상기 임의의 2개의 목표 대상의 위치 영역사이의 교집합 및 합집합을 계산하는 것, 교집합 및 합집합의 비례 값을 계산하는 것, 상기 비례 값이 소정의 임계치보다 클 경우, 상기 임의의 2개의 목표 대상사이의 위치 관계를 1로 표시하는 것, 및 상기 비례 값이 소정의 임계치이하일 경우, 상기 임의의 2개의 목표 대상사이의 위치 관계를 0으로 표시하는 것을 포함한다.
본 발명의 실시예에 따르면, 상기 노드 특징 및 에지 특징에 기초하여 노드 특징을 업데이트하는 것은, 완전 연결층, 제1 그래프 합성곱층 및 제2 그래프 합성곱층을 포함하는 소정의 신경망을 이용하여, 시각 그래프의 노드 특징에 대해 적어도 1회의 업데이트 동작을 실행하는 것을 포함한다. 여기서, 상기 적어도 1회의 업데이트 동작 중 매회의 업데이트 동작은, 완전 연결층을 이용하여 시각 그래프의 노드 특징을 공간 차원수가 소정 수인 제1 특징으로 매핑하는 것, 제1 그래프 합성곱층을 이용하여 제1 특징을 처리함으로써, 제2 특징을 얻는 것, 제2 그래프 합성곱층을 이용하여 제2 특징을 처리함으로써, 업데이트 된 노드 특징을 얻는 것, 및 업데이트 된 노드 특징 및 에지 특징에 의해 업데이트 된 시각 그래프를 구성하는 것을 포함한다.
본 발명의 실시예에 따르면, 상기 적어도 1회의 업데이트 동작 중 매회의 업데이트 동작은, 에지 특징에 기초하여 라플라시안 매트릭스를 구축하는 것을 더 포함한다. 상기 제1 그래프 합성곱층을 이용하여 제1 특징을 처리하는 것은, 제1 그래프 합성곱층을 이용하여 라플라시안 매트릭스에 기초하여 제1 특징을 처리함으로써, 복수의 제1 서브 특징을 포함하는 제2 특징을 얻는 것을 포함한다.
본 발명의 실시예에 따르면, 소정의 신경망은 연관층을 더 포함한다. 상기 적어도 1회의 업데이트 동작 중 매회의 업데이트 동작은, 연관층을 이용하여 복수의 제1 서브 특징 중 임의의 2개의 제1 서브 특징사이의 연관관계를 계산하고, 임의의 2개의 제1 서브 특징사이의 연관관계에 기초하여 관계 메트릭스를 확정하는 것을 더 포함한다. 상기 제2 그래프 합성곱층을 이용하여 제2 특징을 처리하는 것은, 제2 그래프 합성곱층을 이용하여 관계 메트릭스에 기초하여 제2 특징을 처리함으로써, 업데이트 된 노드 특징을 얻는 것을 포함한다.
본 발명의 실시예에 따르면, 상기 임의의 2개의 제1 서브 특징사이의 연관관계는, 상기 임의의 2개의 제1 서브 특징사이의 유클리드 거리, 또는 상기 임의의 2개의 제1 서브 특징사이의 코사인 유사도를 포함한다.
본 발명의 실시예에 따르면, 상기 입력 질문에 기초하여 질문 특징을 확정하는 것은, 워드 인코딩 알고리즘 및 특징 인코딩 알고리즘을 이용하여 입력 질문을 순차적으로 인코딩 처리하여, 질문 특징을 얻는 것을 포함한다.
본 발명의 실시예에 따르면, 상기 업데이트 된 시각 그래프는 업데이트 된 노드 특징을 포함하고, 업데이트 된 노드 특징은 복수의 제2 서브 특징을 포함한다. 상기 업데이트 된 시각 그래프 및 질문 특징에 대해 융합 처리를 실행하는 것은, 주의력 메카니즘에 기초하여, 복수의 제2 서브 특징 각각과 질문 특징사이의 주의력 가중치를 확정하는 것, 복수의 제2 서브 특징 각각과 질문 특징사이의 주의력 가중치를 이용하여, 복수의 제2 서브 특징에 대해 가중 합산을 실행함으로써, 자기 적응 특징을 얻는 것, 및 자기 적응 특징 및 질문 특징에 대해 융합 처리를 실행함으로써, 융합 특징을 얻는 것을 포함한다.
본 발명의 실시예에 따르면, 상기 자기 적응 특징 및 질문 특징에 대해 융합 처리를 실행하는 것은, 자기 적응 특징 및 질문 특징에 대해 원소별 내적 처리를 실행함으로써, 융합 특징을 얻는 것을 포함한다.
본 발명의 실시예에 따르면, 상기 융합 특징에 기초하여, 입력 이미지 및 입력 질문에 대한 예측 답안을 생성하는 것은, 멀티 레이어 퍼셉트론을 이용하여 융합 특징을 처리함으로써, 융합 특징에 대한 예측 답안을 얻는 것을 포함한다.
본 발명의 다른 한 측면에 의하면, 취득 모듈, 그래프 구축 모듈, 업데이트 모듈, 질문 특징 추출 모듈, 융합 모듈 및 예측 모듈을 포함하는 이미지 문답 장치를 제공한다. 취득 모듈은 입력 이미지 및 입력 질문을 취득한다. 그래프 구축 모듈은 입력 이미지에 기초하여, 노드 특징 및 에지 특징을 포함하는 시각 그래프를 구축한다. 업데이트 모듈은 노드 특징 및 에지 특징에 기초하여, 노드 특징을 업데이트함으로써, 업데이트 된 시각 그래프를 얻는다. 질문 특징 추출 모듈은 입력 질문에 기초하여 질문 특징을 확정한다. 융합 모듈은 업데이트 된 시각 그래프 및 질문 특징에 대해 융합 처리를 실행함으로써 융합 특징을 얻는다. 예측 모듈은 융합 특징에 기초하여, 입력 이미지 및 입력 질문에 대한 예측 답안을 생성한다.
본 발명의 실시예에 따르면, 그래프 구축 모듈은, 목표 검출 네트워크를 이용하여 입력 이미지를 처리함으로써, 목표 검출 네트워크의 중간층으로부터 입력 이미지중의 복수의 목표 대상에 대한 표상 특징 및 공간 특징을 추출하기 위한 검출 서브 모듈, 상기 표상 특징 및 공간 특징에 기초하여 노드 특징을 확정하기 위한 노드 특징 확정 서브 모듈, 목표 검출 네트워크의 출력층이 출력한 처리 결과에 기초하여, 복수의 목표 대상 각각의 위치 정보를 확정하고, 복수의 목표 대상 각각의 위치 정보에 기초하여, 복수의 목표 대상 중 임의의 2개의 목표 대상사이의 위치 관계를 확정하고, 임의의 2개의 목표 대상사이의 위치 관계에 기초하여, 에지 특징을 확정하기 위한 에지 특징 확정 서브 모듈, 및 노드 특징 및 에지 특징에 의해 시각 그래프를 구성하기 위한 그래프 구축 서브 모듈을 포함한다.
본 발명의 실시예에 따르면, 에지 특징 확정 서브 모듈이 복수의 목표 대상 각각의 위치 정보에 기초하여, 복수의 목표 대상 중 임의의 2개의 목표 대상사이의 위치 관계를 확정하는 것은, 에지 특징 확정 서브 모듈이 임의의 2개의 목표 대상 각각의 위치 정보에 근거하여, 상기 임의의 2개의 목표 대상의 위치 영역사이의 교집합 및 합집합을 계산하는 것, 교집합 및 합집합의 비례 값을 계산하는 것, 상기 비례 값이 소정의 임계치보다 클 경우, 상기 임의의 2개의 목표 대상사이의 위치 관계를 1로 표시하는 것, 및 상기 비례 값이 소정의 임계치이하일 경우, 상기 임의의 2개의 목표 대상사이의 위치 관계를 0으로 표시하는 것을 포함한다.
본 발명의 실시예에 따르면, 업데이트 모듈은 완전 연결층, 제1 그래프 합성곱층 및 제2 그래프 합성곱층을 포함하는 소정의 신경망을 이용하여, 시각 그래프의 노드 특징에 대해 적어도 1회의 업데이트 동작을 실행한다. 업데이트 모듈은, 완전 연결층을 이용하여 시각 그래프의 노드 특징을 공간 차원수가 소정 수인 제1 특징으로 매핑하기 위한 매핑 서브 모듈, 제1 그래프 합성곱층을 이용하여 제1 특징을 처리함으로써, 제2 특징을 얻기 위한 제1 그래프 합성곱 서브 모듈, 제2 그래프 합성곱층을 이용하여 제2 특징을 처리함으로써, 업데이트 된 노드 특징을 얻기 위한 제2 그래프 합성곱 서브 모듈, 및 업데이트 된 노드 특징 및 에지 특징에 의해 업데이트 된 시각 그래프를 구성하기 위한 업데이트 서브 모듈을 포함한다.
본 발명의 실시예에 따르면, 업데이트 모듈은, 에지 특징에 기초하여 라플라시안 매트릭스를 구축하기 위한 제1 구축 서브 모듈을 더 포함한다. 제1 그래프 합성곱 모듈은, 제1 그래프 합성곱층을 이용하여 라플라시안 매트릭스에 기초하여 제1 특징을 처리함으로써, 복수의 제1 서브 특징을 포함하는 제2 특징을 얻는다.
본 발명의 실시예에 따르면, 소정의 신경망은 연관층을 더 포함한다. 업데이트 모듈은, 연관층을 이용하여 복수의 제1 서브 특징 중 임의의 2개의 제1 서브 특징사이의 연관관계를 계산하고, 임의의 2개의 제1 서브 특징사이의 연관관계에 기초하여 관계 메트릭스를 확정하기 위한 제2 구축 서브 모듈을 더 포함한다. 제2 그래프 합성곱 서브 모듈은, 제2 그래프 합성곱층을 이용하여 관계 메트릭스에 기초하여 제2 특징을 처리함으로써, 업데이트 된 노드 특징을 얻는다.
본 발명의 실시예에 따르면, 상기 임의의 2개의 제1 서브 특징사이의 연관관계는, 상기 임의의 2개의 제1 서브 특징사이의 유클리드 거리, 또는 상기 임의의 2개의 제1 서브 특징사이의 코사인 유사도를 포함한다.
본 발명의 실시예에 따르면, 질문 특징 추출 모듈은, 워드 인코딩 알고리즘 및 특징 인코딩 알고리즘을 이용하여 상기 입력 질문을 순차적으로 인코딩 처리하여, 상기 질문 특징을 얻는다.
본 발명의 실시예에 따르면, 상기 업데이트 된 시각 그래프는 업데이트 된 노드 특징을 포함하고, 업데이트 된 노드 특징은 복수의 제2 서브 특징을 포함한다. 융합 모듈은, 주의력 메카니즘에 기초하여, 복수의 제2 서브 특징 각각과 질문 특징사이의 주의력 가중치를 확정하기 위한 주의력 서브 모듈, 복수의 제2 서브 특징 각각과 질문 특징사이의 주의력 가중치를 이용하여, 복수의 제2 서브 특징에 대해 가중 합산을 실행함으로써, 자기 적응 특징을 얻기 위한 자기 적응 서브 모듈, 및 자기 적응 특징 및 질문 특징에 대해 융합 처리를 실행함으로써, 융합 특징을 얻기 위한 융합 서브 모듈을 포함한다.
본 발명의 실시예에 따르면, 융합 서브 모듈은, 구체적으로 자기 적응 특징 및 질문 특징에 대해 원소별 내적 처리를 실행함으로써, 융합 특징을 얻는다.
본 발명의 실시예에 따르면, 예측 모듈은, 구체적으로 멀티 레이어 퍼셉트론을 이용하여 융합 특징을 처리함으로써, 융합 특징에 대한 예측 답안을 얻는다.
본 발명의 다른 측면에 의하면, 컴퓨터 프로그램이 저장되어 있는 메모리, 및 적어도 하나의 프로세서를 포함하는 컴퓨터 장비에 있어서, 상기 컴퓨터 프로그램이 상기 프로세서에 의해 실행될 경우, 상기와 같은 방법을 구현하는 컴퓨터 장비를 제공한다.
본 발명의 다른 측면에 의하면, 컴퓨터 프로그램이 저장되어 있는 비 일시적 컴퓨터 판독가능 저장 매체에 있어서, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 상기와 같은 방법을 구현하는 비 일시적 컴퓨터 판독가능 저장 매체를 제공한다.
본 발명의 다른 측면에 의하면, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서, 상기 컴퓨터 프로그램의 명령이 프로세서에 의해 실행될 경우, 상기와 같은 방법을 구현하는 컴퓨터 프로그램을 제공한다.
본 발명의 실시예에 따른 이미지 문답 방법은, 입력 이미지 및 입력 질문을 취득한 후, 입력 이미지의 토폴로지 구조(시각 그래프)를 구축하여, 이미지 중 목표 대상의 특징 정보 및 목표 대상사이의 잠재적 관계를 나타냄으로써, 입력 이미지가 복잡할 경우의 노이즈의 영향을 감소시킨다. 시각 그래프중의 노드 특징을 업데이트함으로써, 보다 전면적이고 정확하게 입력 이미지의 깊은 차원 및 깊은 차원의 시맨틱 특징을 나타내는 업데이트 된 시각 그래프를 얻는다. 이에 기초하여, 업데이트 된 시각 그래프 및 질문 특징에 대해 융합 처리를 실행하고, 융합 처리를 통해 얻은 융합 특징에 기초하여 최종 답안을 예측한다. 초기에 입력 이미지의 특징 표시에 대한 최적화를 통해, 이미지 문답 과정에서 복잡한 입력에 대한 추리 능력을 효과적으로 강화함으로써, 본 발명의 실시예에 따른 이미지 문답 과정이 보다 해석가능하도록 한다.
이하에서 첨부 도면을 참조하여 설명한 본 발명의 실시예를 통해, 본 발명의 상기 및 다른 목적, 특징 및 장점들은 보다 명확해질 것이다.
도1은 본 발명의 실시예에 따른 이미지 문답 방법 및 장치를 응용하는 예시적인 시스템 구성을 개략적으로 나타낸다.
도2는 본 발명의 실시예에 따른 이미지 문답 방법의 흐름도를 개략적으로 나타낸다.
도3a는 본 발명의 실시예에 따른 이미지 문답 과정의 예시도를 개략적으로 나타낸다.
도3b는 본 발명의 다른 실시예에 따른 이미지 문답 과정의 예시도를 개략적으로 나타낸다.
도3c는 본 발명의 실시예에 따른 그래프 합성곱 인코딩 모듈의 구성 예시도를 개략적으로 나타낸다.
도4는 본 발명의 실시예에 따른 이미지 문답 장치의 블록도를 개략적으로 나타낸다.
도5는 본 발명의 실시예에 따른 컴퓨터 장비의 블록도를 개략적으로 나타낸다.
이하, 첨부 도면을 참조하여 본 발명의 실시예를 설명한다. 이러한 설명은 단지 예시적인 것일 뿐, 본 발명의 범위를 한정하기 위한 것이 아님을 이해하여야 한다. 이하의 상세한 설명에 있어서, 해석의 편리를 위하여, 다수의 구체적인 세부요소들을 설명함으로써 본 발명의 실시예에 대해 전면적으로 이해할 수 있도록 한다. 하지만, 하나 또는 복수의 실시예는 이러한 세부요소 없이도 실시가능함을 지적해둔다. 또한, 이하의 설명에서는, 본 발명의 개념에 혼선을 주지 않기 위해 공지적인 구조나 기술에 대한 설명은 생략한다.
본 명세서에서 사용하는 용어는 단지 구체적인 실시예를 설명하기 위한 것으로서, 본 발명을 한정하기 위한 취지로 해석되어서는 아니된다. 본 명세서에서 사용하는 "포함", "구비" 등 용어는 언급된 특징, 단계, 동작 및/또는 부품의 존재를 의미하는데, 하나 또는 복수의 다른 특징, 단계, 동작 또는 부품의 존재 또는 추가를 배제하지는 않는다.
본 명세서에서 사용하는 모든 용어(기술적 및 과학적 용어 포함)는 별도로 정의되지 않는 한, 당업자가 통상적으로 이해하는 의미를 갖는다. 본 명세서에서 사용하는 용어는 본 명세서의 문맥과 일치하는 의미를 갖는 것으로 해석되어야 하며, 이상적이거나 과도하게 사전상의 의미로 해석되어서는 아니되는 점에 유의해야 한다.
"A, B 및 C중 적어도 하나"와 같은 표현을 사용할 경우, 당업자가 통상적으로 이해하는 해당 표현의 의미에 따라 해석되어야 한다(예를 들어, "A, B 및 C중 적어도 하나를 구비한 시스템"에는, A만 구비한 시스템, B만 구비한 시스템, C만 구비한 시스템, A 및 B를 구비한 시스템, A 및 C를 구비한 시스템, B 및 C를 구비한 시스템, 및/또는 A, B, C를 구비한 시스템이 포함되는데, 이에 한정되지는 않는다). "A, B 또는 C중 적어도 하나"와 같은 표현을 사용할 경우, 당업자가 통상적으로 이해하는 해당 표현의 의미에 따라 해석되어야 한다(예를 들어, "A, B 또는 C중 적어도 하나를 구비한 시스템"에는, A만 구비한 시스템, B만 구비한 시스템, C만 구비한 시스템, A 및 B를 구비한 시스템, A 및 C를 구비한 시스템, B 및 C를 구비한 시스템, 및/또는 A, B, C를 구비한 시스템이 포함되는데, 이에 한정되지는 않는다).
본 발명의 실시예에 의하면, 이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램을 제공한다. 이미지 문답 방법은 취득 과정, 그래프 구축 과정, 업데이트 과정, 질문 특징 추출 과정, 융합 과정 및 예측 과정을 포함할 수 있다. 취득 과정에서는, 입력 이미지 및 입력 질문을 취득한다. 입력 이미지에 대해 그래프 구축 과정 및 업데이트 과정을 실행하는데, 그래프 구축 과정에서는, 노드 특징 및 에지 특징을 포함하는 시각 그래프를 구축하고, 업데이트 과정에서는, 시각 그래프중의 노드 특징 및 에지 특징에 기초하여, 노드 특징을 업데이트함으로써, 업데이트 된 시각 그래프를 얻는다. 입력 질문에 대해 질문 특징 추출 과정을 실행하여, 질문 특징을 확정한다. 이어서, 융합 과정을 실행하여, 업데이트 된 시각 그래프 및 질문 특징에 대해 융합처리를 실행함으로써, 융합 특징을 얻는다. 융합 특징에 기초하여 예측 과정을 실행함으로써, 입력 이미지 및 입력 질문에 대한 예측 답안을 생성할 수 있다.
이미지 문답은 아주 도전성있는 임무로서, 그 목적은 컴퓨터 시각과 자연 언어 처리를 연결시키는 것이다. 이미지 문답 임무에 있어서, 예를 들어, 하나의 이미지와 하나의 연관되는 질문이 주어지고, 기계로 하여금 이미지 내용에 따라 일부 상식에 의해 질문의 답안을 추리하여 얻어낼 것을 요구한다. 상기 이미지 문답 임무를 완성하기 위해, 기계는 반드시 교차 양상의 이해능력을 구비하여, 시각과 언어 이 2가지 부동한 양상의 데이터에 대한 종합적인 이해를 실현하여야 한다. 따라서, 이미지 문답 임무는 다른 단일 양상의 임무(예를 들어, 이미지 식별, 문서 분류 등)에 비해 요구가 더 높다. 오늘날, 이미지 문답 시스템은 학술계 및 산업계에서 광범위하게 연구되고 있으며, 이러한 이미지 문답 시스템의 목표는 합리적인 모델을 설계하여, 이미지 문답 시스템으로 하여금, 임의의 자연 언어가 표현하는 질문 및 주어진 이미지에 대해, 충분한 이해와 추리를 거친 후, 자연 언어를 사용하여 정확하게 해답할 수 있도록 하는 것이다. 하지만, 현재의 이미지 문답 시스템은, 예를 들어, 교차 양상 데이터의 융합 및 효과적인 관계 추리와 같은 여전히 해결되지 못한 난제들이 존재한다.
도1은 본 발명의 실시 예에 따른 이미지 문답 방법 및 장치를 응용할 수 있는 예시적인 시스템 구성(100)을 개략적으로 나타낸다. 지적해두어야 할 것은, 도 1에 도시된 것 은 본 발명의 실시예를 응용할 수 있는 시스템 구조의 예시에 지나지 않으며, 당업자가 본 발명의 기술 내용을 보다 쉽게 이해하도록 돕기 위한 것으로, 본 발명의 실시예가 다른 장비, 시스템, 환경 또는 응용장면에 응용할 수 없음을 의미하는 것은 아니다.
도1에 도시된 바와 같이, 본 실시 예에 따른 시스템 구성(100)은 복수의 단말 장비(110), 네트워크(120) 및 서버(130)를 포함할 수 있다. 여기서, 단말 장비(110)는 예를 들어 데스크탑, 휴대용 컴퓨터, 스마트 폰, 테블릿 등과 같은 다양한 단말 장비일 수 있고, 본 명세서에서는 이에 대해 한정하지 않는다. 서버(130)는 예를 들어 서버 또는 서버 클러스터와 같은 일정한 컴퓨팅 기능을 가진 다양한 전자 장비일 수 있고, 본 명세서에서는 이에 대해 한정하지 않는다. 단말 장비(110)에는 각종 기능의 소프트웨어 클라이언트가 설치되어, 소프트웨어 클라이언트를 통해 서버(130)와 인터액션하도록 할 수 있다.
일 실시예에 있어서, 본 발명의 실시예에 따른 이미지 문답 방법은 단말 장비(110)에 의해 실시될 수 있고, 이에 대응하여, 이미지 문답 장치는 단말 장비(110)에 설치될 수 있다. 다른 실시예에 있어서, 본 발명의 실시예에 따른 이미지 문답 방법은 서버(130)에 의해 실시될 수 있고, 이에 대응하여, 이미지 문답 장치는 서버(130)에 설치될 수 있다. 또 다른 실시예에 있어서, 본 발명의 실시예에 따른 이미지 문답 방법은 단말 장비(110) 및/또는 서버(130)와 서로 통신가능한 다른 장비에 의해 실시될 수 있고, 이에 대응하여, 이미지 문답 장치는 상기 다른 장비에 설치될 수 있다.
최근 몇년에, 이미지 문답은 신속한 발전을 이루고 있으며, 컴퓨터 시각 및 자연 언어 처리 분야의 광범한 주목을 받고 있다. 각 분야에서는 이미지 문답 임무를 해결하기 위한 수많은 방안을 제출하였다. 대다수 방안은 단대단(end-to-end) 프로세스를 사용하고 있는데, 예를 들어, 하나의 사전에 트레이닝된 컨벌루션 신경망을 이용하여 이미지 특징을 추출하고, 하나의 재귀 신경망을 이용하여 질문을 나타낸 다음, 이미지 특징 및 질문 특징을 연결시켜 답안을 예측한다. 현재, 이미지 문답 방안은 보편적으로 3가지 모델을 사용하는데, 이들은 각각 (1)굵은 입도(粒度) 교차 양상 표시 이미지 문답 모델, (2)주의력 메카니즘에 기반한 가는 입도 교차 양상 표시 모델, 및 (3) 외부 지식 또는 지식 네트워크에 기반한 이미지 문답 모델이다.
모델(1)은 가장 직접적인 이미지 문답 모델이다. 여기서, 교차 양상 특징 융합은 이와 같은 유형의 모델의 핵심인데, 처리내용이 상대적으로 복잡하고 많은 주체의 이미지가 존재할 경우, 불가피하게 많은 노이지를 도입하게 되는데, 이러한 노이즈는 답안 예측의 정확도에 영향을 미치게 된다. 질문 텍스트에 대한 처리도 동일한 문제점이 존재한다. 질문의 문구가 비교적 길고, 이미지와 연관되는 복수의 단어가 존재할 경우, 모델(1)은 질문자가 희망하는 키워드를 캡쳐하기 어려우므로, 최종적으로 답안 예측 정확도가 떨어지게 된다. 모델(2)은 상기 굵은 입도 교차 양상 표시 모델에 기초하여, 주의력 메카니즘을 도입하여 얻은 모델로서, 가는 입도 교차 양상 특징의 표현 능력이 대폭 향상되었다. 하지만, 현재 이미지 문답 모델에 사용되는 주의력 모델은 대부분 질문의 특징에 기초하여 이미지의 관심영역을 러닝하는데, 질문 자체의 관심 포인트에 대한 러닝은 소홀히 하고 있는 것이 실정이다. 즉, 질문중의 키워드 또는 구절에 대한 주의력 러닝을 소홀히 하고 있으므로, 답안 예측 정확도가 낮아지게 된다. 모델(3)일 경우, 기존 모델이 외부 지식을 이미지 문답 데이트 집합중의 모든 질문과 매핑하기 어렵고, 일부 유형의 질문만 해결가능하므로, 범용성이 부족하는 것이 난점이다.
상기의 분석으로부터 알수 있다 싶이, 현재의 이미지 문답 방안에는 하기의 문제점이 존재한다. 첫째, 교차 양상 융합 대응책이 이상적이지 않고, 복잡한 융합 모델을 도입하여야 할뿐만 아니라, 모델의 계산 효율도 대대적으로 저하된다. 따라서, 효과적인 특징 융합을 보장함과 동시에 계산 지출을 감소하는 알고리즘에 대한 연구가 이미지 문답에 있어서 하나의 관건적인 발전방향으로 자리잡고 있다. 둘째, 관계 추리 능력이 부족하다. 많은 실제적인 이미지 문답 과정에서, 모델은 복수의 단계의 관계 추리를 거쳐 최종적인 답안을 얻어내야 하지만, 현재의 모델은 단지 멀티 양상 특징 융합을 통해서만 질문을 해답하므로, 복잡한 질문에 대한 이해와 추리 효과가 이상적이지 않다.
본 발명의 실시 예에 따르면, 이미지 문답 방법을 제공한다. 이하, 도면을 참조하여 상기 방법을 예시적으로 설명한다. 지적해두어야 할 것은, 하기의 방법에 있어서, 각 동작의 번호는 단지 설명의 편의를 위한 해당 동작의 표시로서, 결코 각 동작의 실행 순서를 의미하는 것은 아니다. 별도로 언급하지 않는 한, 상기 방법은 굳이 설명한 순서에 따라 실행할 필요는 없다.
도2는 본 발명의 실시예에 따른 이미지 문답 방법의 흐름도를 개략적으로 나타낸다.
도2에 도시된 바와 같이, 상기 방법은 동작(S201)~동작(S206)을 포함할 수 있다.
동작(S201)에서는, 입력 이미지 및 입력 질문을 취득한다.
동작(S202)에서는, 입력 이미지에 기초하여 시각 그래프(Visual Graph)를 구축한다.
본 발명의 실시예에 따르면, 시각 그래프는 입력 이미지의 토폴로지 구조 표시이고, 보다 전면적이고 정확하게 입력 이미지의 특징 정보를 나타낸다. 예시적으로, 시각 그래프는 노드(Node) 특징 및 에지(Edge) 특징을 포함할 수 있다. 노드 특징은 입력 이미지중 하나 또는 복수의 목표 대상의 특징 정보를 나타내고, 에지 특징은 입력 이미지중 목표 대상사이의 잠재적 관계를 나타낸다.
동작(S203)에서는, 상기 노드 특징 및 에지 특징에 기초하여 노드 특징을 업데이트함으로써, 업데이트 된 시각 그래프를 얻는다.
본 발명의 실시예에 따르면, 원래 구축된 노드 특징 및 에지 특징에 기초하여, 노드 특징중의 명시 및 암시적 관계를 러닝할 수 있다. 명시 및 암시적 관계를 이용하여 노드 특징을 업데이트함으로써, 업데이트 된 시각 그래프가 입력 이미지중의 보다 깊은 차원의 시맨틱 관계를 나타낼 수 있도록 한다.
동작(S204)에서는, 입력 질문에 기초하여 질문 특징을 확정한다.
동작(S205)에서는, 업데이트 된 시각 그래프 및 질문 특징에 대해 융합 처리를 실행함으로써, 융합 특징을 얻는다.
동작(S206)에서는, 융합 특징에 기초하여 입력 이미지 및 입력 질문에 대한 예측 답안을 생성한다.
당업자라면, 하기의 내용을 이해할 수 있을 것이다. 본 발명의 실시예에 따른 이미지 문답 방법은 입력 이미지 및 입력 질문을 취득한 후, 입력 이미지의 토폴로지 구조(시각 그래프)를 구축하여, 이미지 중 목표 대상의 특징 정보 및 목표 대상사이의 잠재적 관계를 나타냄으로써, 입력 이미지가 복잡할 경우의 노이즈의 영향을 감소시킨다. 시각 그래프중의 노드 특징을 업데이트함으로써, 보다 전면적이고 정확하게 입력 이미지의 깊은 차원 및 깊은 차원의 시맨틱 특징을 나타내는 업데이트 된 시각 그래프를 얻는다. 이에 기초하여, 업데이트 된 시각 그래프 및 질문 특징에 대해 융합 처리를 실행하고, 융합 처리를 통해 얻은 융합 특징에 기초하여 최종 답안을 예측한다. 초기에 입력 이미지의 특징 표시에 대한 최적화를 통해, 이미지 문답 과정에서 복잡한 입력에 대한 추리 능력을 효과적으로 강화함으로써, 본 발명의 실시예에 따른 이미지 문답 과정이 보다 해석가능하도록 한다.
이하, 도3a, 도3b 및 도3c를 참조하여, 구체적인 실시예를 들어 본 발명의 실시예에 따른 이미지 문답 방법을 예시적으로 설명한다.
도3a는 본 발명의 실시예에 따른 이미지 문답 과정의 예시도를 개략적으로 나타낸다. 도3b는 본 발명의 다른 실시예에 따른 이미지 문답 과정의 예시도를 개략적으로 나타낸다.
도3a에 도시된 예에 있어서, 우선 사전에 네트워크 모델(300)을 구축할 수 있는데, 상기 네트워크 모델(300)은 순차적으로 연결된 그래프 구축 모듈(301), 직렬연결된 하나 또는 복수의 그래프 합성곱 인코딩 모듈(GCN Encoder)(302), 및 시각 그래프에 기반한 문답 모듈(303)을 포함할 수 있다. 본 발명의 실시예에 따르면, 상기 네트워크 모델(300)을 트레이닝함으로써, 상기 네트워크 모델(300)로 하여금 도2에 도시된 바와 같은 이미지 문답 임무를 실행할 능력을 가지도록 하여야 한다. 트레이닝 과정에, 샘플 이미지 및 샘플 질문을 상기 네트워크 모델(300)에 입력하고, 네트워크 모델(300)의 출력과 샘플 라벨사이의 차이에 근거하여 네트워크 모델(300)의 목표 함수가 수렴할 때까지 네트워크 모델(300)의 파라미터를 최적화한다. 여기서, 샘플 라벨은 샘플 이미지 및 샘플 질문에 대한 실제 답안이다. 이때, 네트워크 모델(300)에 대한 트레이닝을 완료하고, 본 발명의 실시예에 따른 이미지 문답 방법은 상기 트레이닝 완료된 네트워크 모델(300)을 이용하여 실시할 수 있다. 이하, 실시 과정에 대해 예시적으로 설명한다.
본 발명의 실시예에 따르면, 도3a에 도시된 바와 같이, 네트워크 모델(300)중의 그래프 구축 모듈(301)은 입력 이미지I(304)를 취득하고, 그래프 구축 모듈(301)은 상기 동작(S202)의 입력 이미지에 기초하여 시각 그래프를 구축하는 과정을 실행할 수 있다. 예시적으로, 그래프 구축 모듈(301)은 목표 검출(Object Detection) 네트워크를 이용하여 입력 이미지I(304)를 처리함으로써, 목표 검출 네트워크의 중간층으로부터 입력 이미지 중 복수의 목표 대상에 대한 표상 특징 및 공간 특징을 추출하고, 상기 표상 특징 및 공간 특징에 기초하여, 노드 특징을 확정할 수 있다. 그 다음, 목표 검출 네트워크의 출력층이 출력한 처리 결과에 기초하여, 복수의 목표 대상 각각의 위치 정보를 확정한다. 복수의 목표 대상 각각의 위치 정보에 기초하여, 복수의 목표 대상 중 임의의 2개의 목표 대상사이의 위치 관계를 확정한다. 이어서, 임의의 2개의 목표 대상사이의 위치 관계에 기초하여, 에지 특징을 확정한다. 이로써, 상기 노드 특징 및 에지 특징에 의해 시각 그래프를 구축한다.
도3b에 도시된 예에 있어서, 그래프 구축 모듈(301)은 Faster RCNN(Faster Region Convolutional Neural Network)을 이용하여 입력 이미지I(304)에 존재하는 K1개의 목표 대상을 검출하고, 이들의 전체 특징 맵(Feature Map)에서 관심 영역 풀링 동작(ROI Pooling)을 거친 표상 특징
Figure pat00001
및 공간 특징
Figure pat00002
을 추출한다. 여기서, 표상 특징F는K1개의 목표 대상에 대한 K1개의 서브 특징을 포함할 수 있고, 각 서브 특징은 공간 차원수가 2048인 벡터로 표시될 수 있다. 공간 차원수는 설정할 수 있으며, 여기서는 단지 예시에 불과하다. 공간 특징S는 K1개의 목표 대상에 대한 K1개의 서브 특징을 포함할 수 있고, 각 서브 특징은 공간 차원수가 4인 벡터로 표시될 수 있다. 예를 들어, 목표 대상에 대한 바운딩 박스(Bounding Box)의 높이 값, 너비 값 및 중심점의 좌표를 포함할 수 있다. 이어서, 표상 특징F와 공간 특징S를 병합하여 시각 그래프G(305)의 노드 특징
Figure pat00003
으로 한다. 병합방식은 예를 들어 연결 병합 일수 있다.
시각 그래프G(305)의 에지 특징은 예를 들어 이진법 표시
Figure pat00004
일 수 있다. 에지 특징은 입력 이미지I(304) 중 임의의 2개의 목표 대상사이의 위치 관계로부터 확정할 수 있다. 본 발명의 실시예에 따르면, 상기 임의의 2개의 목표 대상은 서로 다른 목표 대상을 포함할 수 있고, 동일한 목표 대상을 포함할 수도 있다. 상기 목표 검출 네트워크의 처리를 통해, 입력 이미지I(304) 중 각 목표 대상의 위치좌표를 취득할 수 있다. 즉, 각 목표 대상이 차지하는 위치 영역을 확정할 수 있다.
예시적으로, 임의의 2개의 목표 대상의 위치 영역사이의 IoU (Intersection-over-Union, 교집합과 합집합의 비례)가 소정의 임계치보다 큰지 않는지에 따라 에지 특징E중 각 원소의 값을 판단할 수 있다. 예를 들어, 소정의 임계치를 0.3으로 설정하고, 입력 이미지 중 i번째 목표 대상 및 j번째 목표 대상에 대해, i번째 목표 대상의 위치영역과 j번째 목표 대상의 위치 영역사이의 IoU 값을 계산하고, 상기 IoU 값이 소정의 임계치보다 클 경우, 에지 특징E중의 원소eij를 1로 표시하고, 상기 IoU 값이 소정의 임계치이하일 경우, 에지 특징E중의 원소eij를 0으로 표시한다. 본 예에 있어서, i 및 j는 모두 1이상, K1이하의 양(陽) 정수이고, i와 j는 같을 수도 있고, 서로 다를수도 있다.
상기 예시적인 실시형태에 의하면, 시각 그래프
Figure pat00005
를 구축할 수 있다. 도3a 및 3b에 도시된 바와 같이, 시각 그래프G(305)는 그래프 합성곱 인코딩 모듈(302)에 입력되어 처리되고, 그래프 합성곱 인코딩 모듈(302)은 그래프 합성곱(Graph Convolution Network, GCN) 방법에 기초하여 시각 그래프 노드간 관계에 대한 러닝 및 특징의 업데이트를 실행한다. 이하, 그 실시과정에 대해 예시적으로 설명한다.
본 발명의 실시예에 따르면, 상기 동작(S203)에서 노드 특징 및 에지 특징에 기초하여 노드 특징을 업데이트하는 과정은 하기와 같이 실시될 수 있다. 즉, 소정의 신경망을 이용하여 시각 그래프의 노드 특징에 대해 적어도 1회의 업데이트 동작을 실행한다. 일 실시예에 있어서, 소정의 신경망은 하나 또는 복수의 그래프 합성곱 인코딩 모듈(302)을 포함할 수 있다.
도3c는 본 발명의 실시예에 따른 그래프 합성곱 인코딩 모듈의 구성 예시도를 개략적으로 나타낸다. 도3c에 도시된 바와 같이, 그래프 합성곱 인코딩 모듈(302)은, 완전 연결층(Fully Connected Layer, FC)(3021), 제1 그래프 합성곱층(Graph Convolutional Layer, Gconv1)(3022) 및 제2 그래프 합성곱층(Gconv2) (3023)을 포함할 수 있다. 예시적으로, 상기 적어도 1회의 업데이트 동작 중 매회의 업데이트 동작은, 완전 연결층(3021)을 이용하여 시각 그래프G(305)의 노드 특징V(3051)를 공간 차원수가 소정 수d인 제1 특징X(30511)으로 매핑하는 것, 제1 그래프 합성곱층(3022)을 이용하여 제1 특징X(30511)을 처리함으로써, 제2 특징X’(30512)을 얻는 것, 제2 그래프 합성곱층(3023)을 이용하여 제2 특징X’(30512)을 처리함으로써, 업데이트 된 노드 특징X''을 얻는 것, 및 업데이트 된 노드 특징X'' 및 에지 특징E(3052)에 의해 업데이트 된 시각 그래프G’(306)를 구성하는 것을 포함할 수 있다.
예를 들어, 상기 완전 연결층(3021)을 이용하여 시각 그래프G(305)의 노드 특징V(3051)을 공간 차원수가 d인 제1 특징X(30511)으로 매핑하는 과정은 수식 (1)과 같이 표시할 수 있다.
Figure pat00006
수식 (1)
여기서, σ는 비선형 함수이고, W1은 완전 연결층의 가중치 파라미터이다.
본 발명의 실시예에 따르면, 시각 그래프G(305)의 에지 특징E(3052)에 근거하여, 제1 그래프 합성곱층(3022)를 사용하여 노드 특징의 업데이트 및 명시적 관계의 러닝을 실행할 수 있다. 도3c에 도시된 바와 같이, 상기 적어도 1회의 업데이트 동작 중 매회의 업데이트 동작은, 에지 특징E(3052)에 기초하여 라플라시안 매트릭스(Graph Laplacians)L(30521)를 구축하는 것을 더 포함할 수 있다. 상기 제1 그래프 합성곱층(3022)을 이용하여 제1 특징X(30511)을 처리하는 과정은, 제1 그래프 합성곱층(3022)을 이용하여 라플라시안 매트릭스L(30521)에 기초하여 제1 특징X(30511)을 처리함으로써, 제2 특징X’(30512)을 얻는 것을 포함할 수 있다. 제2 특징X’(30512)은 복수의 제1 서브 특징xi'을 포함하고, 여기서, i는 1이상, K1이하의 정수이고, xi'는 d개의 공간차원을 가진 벡터로 표시할 수 있다. 상기 제2 특징X'을 계산하는 과정 및 라플라시안 매트릭스를 구축하는 과정은 각각 수식 (2) 및 (3)과 같이 표시할 수 있다.
Figure pat00007
수식 (2)
Figure pat00008
수식 (3)
여기서,
Figure pat00009
은 대각행렬이고,
Figure pat00010
,
Figure pat00011
이다. σ는 비선형 함수이고, W2 및 W3은 제1 그래프 합성곱층의 가중치 파라미터이다.
나아가서, 입력 이미지중의 암시적 관계를 러닝하기 위해, 본 발명의 실시예에 따르면, 도3c에 도시된 바와 같이, 그래프 합성곱 인코딩 모듈(302)은 연관층(Adj)(3024)을 더 포함할 수 있다. 제1 그래프 합성곱층(3022)의 처리가 끝난 후, 연관층(3024)을 이용하여 복수의 제1 서브 특징 중 임의의 2개의 제1 서브 특징xi'와 xj'사이의 연관관계를 계산하고, 임의의 2개의 제1 서브 특징사이의 연관관계에 기초하여 관계 메트릭스A'(30512')를 확정할 수 있다.
여기서,
Figure pat00012
이다. 구체적으로는, 수식 (4)와 같이 표시할 수 있다.
Figure pat00013
수식 (4)
수식(4)로부터 알수 있다 싶이, 본 예에서는, xi'와 xj'사이의 L-2거리(유클리드 거리)로부터 xi'와 xj'사이의 연관관계를 확정한다. 다른 예에 있어서는, 임의의 유사도 계산 방식을 통해 xi'와 xj'사이의 연관관계를 계산할수 있다. 예를 들어, 유사도는 코사인 유사도 등 일 수 있는데, 여기서는 한정하지 않는다. 본 실시예에 의하면, 연관층을 통해 그래프 노드사이의 암시적 관계 메트릭스를 러닝한다.
이에 기초하여, 제2 그래프 합성곱층(3023)을 이용하여 제2 특징X’(30512)을 처리할 수 있다. 예시적으로,러닝한 관계 메트릭스에 따라 제2 그래프 합성곱층(3023)을 이용하여
Figure pat00014
Figure pat00015
깊은 차원의 노드 특징의 업데이트 및 러닝을 실행할 수 있다. 제2 그래프 합성곱층(3023)의 업데이트 대응책은 수식 (5)와 같이 정의할 수 있다.
Figure pat00016
수식 (5)
여기서, W4는 제2 그래프 합성곱층의 가중치 파라미터이다.
2층의 그래프 합성곱 네트워크를 거친 후, 도3c에 도시된 바와 같이, 전체 그래프 합성곱 인코딩 모듈(302)의 출력은 업데이트 된 시각 그래프G'(306)이다. 여기서,
Figure pat00017
이다. X''는 업데이트 된 노드 특징이고, 업데이트 된 노드 특징은 복수의 제2 서브 특징xi''을 포함하고, i는 1이상, K1이하인 정수이다. 보다 양호한 업데이트 효과를 달성하기 위해, 본 발명의 실시예에 따른 네트워크 모델에는 여러개의 그래프 합성곱 인코딩 모듈을 직렬연결하여 시각 그래프의 노드 특징에 대한 복수회의 업데이트를 실현함으로써, 보다 깊은 차원의 시맨틱 관계를 러닝하도록 할 수 있다. 예를 들어, n개의 그래프 합성곱 인코딩 모듈을 통해 n회의 업데이트를 실현함으로써, 업데이트 된 시각 그래프Gn(306)를 얻을 수 있고, 여기서, n은 양(陽) 정수이다.
계속하여 도3a 및 도3b을 참조하여, 그래프 합성곱 인코딩 모듈(302)에 대한 설명을 마친 후, 시각 그래프에 기반한 문답 모듈(303)의 실시형태에 대해 예시적으로 설명한다. 여러개의 그래프 합성곱 인코딩 모듈을 거친 후, 시각 그래프상의 각 노드 특징은 러닝한 관계에 따라 관련 노드의 특징을 융합하였고, 일정한 정도에서 깊은 차원의 시맨틱 특징을 포함하게 된다. 이어서, 러닝한 특징을 최종적으로 질문을 해답하는데 사용하여야 한다.
본 발명의 실시예에 따르면, 시각 그래프에 기초한 문답 모듈(303)은 상기 동작(S204)~동작(S206)을 실행할 수 있다. 한편, 도3a 및 도3b에 도시된 바와 같이, 시각 그래프에 기반한 문답 모듈(303)은 입력 질문Q(307)을 취득하고, 워드 인코딩(Word Embedding) 알고리즘(3031) 및 특징 인코딩 알고리즘(3032)을 이용하여 순차적으로 입력 질문(307)에 대해 인코딩 처리를 실행하여, 질문 특징q(308)를 얻는다.
본 예에 있어서는, Glove워드 인코딩 알고리즘 및 Bi-GRU특징 인코딩 알고리즘을 사용하여 전체 질문의 특징 표시q를 얻는다. 다른 한편, 도3a에 도시된 바와 같이, 시각 그래프에 기반한 문답 모듈(303)은 그래프 합성곱 인코딩 모듈(302)이 출력한 업데이트 된 시각 그래프(306)를 취득하고, 업데이트 된 시각 그래프 및 질문 특징을 융합 처리하는 과정을 실행할 수 있다.
본 발명의 일 실시예에 있어서, 도3b에 도시된 바와 같이, 시각 그래프에 기반한 문답 모듈(303)은 주의력 메카니즘(3033)을 이용하여 업데이트 된 시각 그래프상의 각 제2 서브 특징
Figure pat00018
과 질문 특징q사이의 주의력 매핑(attention map) 가중치
Figure pat00019
를 러닝할 수 있다. 예를 들어, 구체적인 계산은 수식 (6)과 같이 표시할 수 있다.
Figure pat00020
수식 (6)
그 다음, 예를 들어 상기 주의력 매핑 가중치를 이용하여 업데이트 된 시각 그래프상의 노드 특징
Figure pat00021
중의 각 제2 서브 특징에 대해 가중 합산을 실행함으로써, 최종적으로 질문을 해답하기 위한 자기 적응 특징 표시
Figure pat00022
를 얻는다. 자기 적응 특징은 추리 특징(Reasoning Feature)r(309)이라고도 불린다. 계산방식은 수식 (7)과 같이 표시할 수 있다.
Figure pat00023
수식 (7)
본 발명의 실시예에 따르면, 시각 그래프에 기반한 문답 모듈(303)은 멀티 레이어 퍼셉트론(Multi-Layer Perceptron, MLP)(3034)을 더 포함할 수 있다. 도3b에 도시된 바와 같이, 상기 자기 적응 특징 및 질문 특징에 대해 융합 처리를 실행하는 과정은, 자기 적응 특징r 및 질문 특징q에 대해 원소별(Element-wise) 내적 처리를 실행함으로써, 융합 특징을 얻는 것을 포함할 수 있다. 이이서, 융합 특징을 MLP로 보내여 최종적인 답안
Figure pat00024
(310)을 예측한다. 본 예에서는, 2층의 MLP를 사용하고, 처리 과정은 수식 (8)과 같다.
Figure pat00025
수식 (8)
알수 있다 싶이, 트레이닝 완료된 네트워크 모델을 사용할 경우, 예측할 입력 이미지 및 입력 질문을 상기 네트워크 모델에 입력하여, 네트워크 모델이 대응하는 답안 카테고리 및 신뢰도를 출력하고, 신뢰도가 가장 높은 답안 카테고리를 예측할 입력 이미지 및 입력 질문에 대해 얻은 예측 답안으로 한다. 상기 입력 이미지 및 입력 질문에 대한 처리 과정은 트레이닝 단계에서 샘플 이미지 및 샘플 질문에 대한 처리 과정과 동일하므로, 여기서는 설명을 생략한다.
상기 각 실시예로부터 알수 있다 싶이, 본 발명의 실시예에 따른 이미지 문답 방법은, 그래프의 토폴로지 구조(시각 그래프)를 구축함으로써 이미지 중 목표의 특징 및 목표사이의 잠재적 관계를 나타내고, 또한, 그래프 합성곱 신경망을 이용하여 이미지 중 목표사이의 명시적 및 암시적 관계를 러닝하고 효과적인 특징 인코딩을 실행함으로써, 모델로 하여금 보다 추리 특성을 가진 자기 적응 특징 표시를 러닝하도록 하며, 마지막으로 러닝한 추리 특징 및 질문의 특징을 융합하여 최종적인 답안을 예측한다. 본 발명의 실시예에 따른 이미지 문답 방법은 복잡한 질문에 대한 모델의 추리 능력을 효과적으로 강화함으로써, 전반적인 문답과정이 보다 해석가능하도록 할 수 있다.
도4는 본 발명의 실시예에 따른 이미지 문답 장치의 블록도를 개략적으로 나타낸다.
도4에 도시된 바와 같이, 이미지 문답 장치(400)는 취득 모듈(410), 그래프 구축 모듈(420), 업데이트 모듈(430), 질문 특징 추출 모듈(440), 융합 모듈(450) 및 예측 모듈(460)을 포함할 수 있다.
취득 모듈(410)은, 입력 이미지 및 입력 질문을 취득한다.
그래프 구축 모듈(420)은, 입력 이미지에 기초하여 노드 특징 및 에지 특징을 포함하는 시각 그래프를 구축한다.
업데이트 모듈(430)은, 상기 노드 특징 및 에지 특징에 기초하여, 노드 특징을 업데이트함으로써, 업데이트 된 시각 그래프를 얻는다.
질문 특징 추출 모듈(440)은, 입력 질문에 기초하여 질문 특징을 확정한다.
융합 모듈(450)은, 업데이트 된 시각 그래프와 질문 특징에 대해 융합처리를 실행함으로써 융합 특징을 얻는다.
예측 모듈(460)은, 융합 특징에 기초하여 입력 이미지 및 입력 질문에 대한 예측 답안을 생성한다.
지적해두어야 할 것은, 장치에 관한 실시 예의 각 모듈/유닛/서브 유닛 등의 실시 형태, 해결하고자 하는 기술적 문제, 실현한 기능 및 기술적 효과는 방법에 관한 실시 예의 각 대응하는 단계의 실시 형태, 해결하고자 하는 기술적 문제, 실현한 기능, 및 기술적 효과와 동일하거나 유사하므로, 여기서는 설명을 생략한다.
본 발명의 실시예에 따른 모듈, 서브 모듈, 유닛, 서브 유닛중 임의의 하나 이상, 또는 이들중 임의의 하나 이상의 적어도 일부 기능은 하나의 모듈에서 구현될 수 있다. 본 발명의 실시예에 따른 모듈, 서브 모듈, 유닛, 서브 유닛중 임의의 하나 또는 하나 이상은 복수의 모듈로 분할되어 구현될 수 있다. 본 발명의 실시예에 따른 모듈, 서브 모듈, 유닛, 서브 유닛중 임의의 하나 또는 하나 이상은 적어도 부분적으로 예를 들어 FPGA(Field Programmable Gate Array), PLA(Programmable Logic Array), SOC(System On Chip), SOS(System On Substrate), SOP(System On Package), ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 회로를 통해 구현되거나, 또는 회로를 집적시키거나 패키징시키는 기타 합리적인 방식의 하드웨어 또는 펌웨어를 통해 구현되거나, 또는 소프트웨어, 하드에어 및 펌웨어의 3가지 구현방식중 임의의 하나 또는 하나 이상의 조합을 통해 구현될 수 있다. 또는, 본 발명의 실시예에 따른 모듈, 서브 모듈, 유닛, 서브 유닛중 하나 또는 하나 이상은 적어도 부분적으로 컴퓨터 프로그램 모듈을 통해 구현될 수 있고, 해당 컴퓨터 프로그램 모듈은 실행될 경우, 대응되는 기능을 실행할 수 있다.
예를 들어, 취득 모듈(410), 그래프 구축 모듈(420), 업데이트 모듈(430), 질문 특징 추출 모듈(440), 융합 모듈(450) 및 예측 모듈(460) 중 임의의 2개이상은 하나의 모듈에 병합하여 구현할 수 있고, 또는 이중 임의의 하나의 모듈은 복수의 모듈로 분할될 수 있다. 또는, 이들 모듈 중 하나 또는 복수의 모듈의 적어도 일부 기능은 다른 모듈의 적어도 일부 기능과 결합되어, 하나의 모듈로 구현할 수 있다. 본 발명의 실시예에 따른 취득 모듈(410), 그래프 구축 모듈(420), 업데이트 모듈(430), 질문 특징 추출 모듈(440), 융합 모듈(450) 및 예측 모듈(460) 중 적어도 하나는, 적어도 부분적으로 예를 들어 FPGA(Field Programmable Gate Array), PLA(Programmable Logic Array), SOC(System On Chip), SOS(System On Substrate), SOP(System On Package), ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 회로를 통해 구현되거나, 또는 회로를 집적시키거나 패키징시키는 기타 합리적인 방식 등 하드웨어 또는 펌웨어를 통해 구현되거나, 또는 소프트웨어, 하드에어 및 펌웨어의 3가지 구현방식중 임의의 하나 또는 하나 이상의 조합을 통해 구현될 수 있다. 또는, 취득 모듈(410), 그래프 구축 모듈(420), 업데이트 모듈(430), 질문 특징 추출 모듈(440), 융합 모듈(450) 및 예측 모듈(460) 중 적어도 하나는 적어도 부분적으로 컴퓨터 프로그램 모듈을 통해 구현될 수 있고, 해당 컴퓨터 프로그램 모듈은 실행될 경우, 대응되는 기능을 실행할 수 있다.
도5는 본 발명의 일 실시 예에 따른 상기 방법을 구현하기에 적합한 컴퓨터 장비의 블록도를 개략적으로 나타낸다. 도5에 도시된 컴퓨터 장비는 단지 하나의 실예일 뿐, 본 발명의 실시 예의 기능 및 사용 범위는 결코 이에 한정되지 않는다.
도 5에 도시된 바와 같이, 본 발명의 실시예에 따른 컴퓨터 장비(500)는 프로세서 (501)를 포함하고, 프로세서 (501)는 ROM(Read Only Memory)(502)에 저장된 프로그램 또는 저장부(508)로부터 RAM(Random Access Memory)(503)에 로드된 프로그램에 따라 각종 적당한 동작 및 처리를 실행할 수 있다. 프로세서 (501)는 예를 들어 범용 마이크로 프로세서 (예를 들어, CPU), 명령 집합 프로세서 및/또는 관련 칩셋 및/또는 전용 마이크로 프로세서 (예를 들어, ASIC(Application Specific Integrated Circuit)) 등을 포함할 수 있다. 프로세서 (501)는 버퍼링 용도로 쓰이는 보드 탑재 메모리를 포함할 수도 있다. 프로세서 (501)는 본 발명의 실시예에 따른 방법의 흐름의 서로 다른 동작을 실행하기 위한 단일 처리 유닛 또는 복수의 처리 유닛을 포함할 수 있다.
RAM(503)에는, 장비(500) 조작에 필요한 각종 프로그램 및데이터가 저장되어 있다. 프로세서 (501), ROM(502) 및RAM(503)은 버스(504)를 통해 서로 연결된다. 프로세서 (501)는 ROM(502) 및/또는 RAM(503)에 저장된 프로그램을 실행함으로써, 본 발명의 실시예에 따른 방법의 흐름의 각 동작을 실행한다. 지적해두어야 할 것은, 상기 프로그램은 ROM(502) 및 RAM(503)을 제외한 하나 또는 복수의 메모리에 저장될 수도 있다. 프로세서 (501)는 상기 하나 또는 복수의 메모리에 저장되어 있는 프로그램을 실행함으로써, 본 발명의 실시예에 따른 방법의 흐름의 각 동작을 실행할 수도 있다.
본 발명의 실시예에 따르면, 장비(500)는 입력/출력(I/O) 인터페이스(505)를 더 포함할 수 있고, 입력/출력(I/O) 인터페이스(505)도 버스(504)에 연결된다. 장비(500)는, I/O 인터페이스(505)에 연결되는 키보드, 마우스 등을 포함하는 입력부(506), 음극선관(CRT), 액정 디스플레이(LCD) 등 및 스피커 등을 포함하는 출력부(507), 하드 디스크 등을 포함하는 저장부(508), 및 LAN 카드, 모뎀 등과 같은 네트워크 인터페이스 카드를 포함하는 통신부(509)중의 하나 또는 복수개를 포함할 수 있다. 통신부(509)는 인터넷과 같은 네트워크를 통해 통신 처리를 실행한다. 수요에 따라, 드라이버(510)도 I/O 인터페이스(505)에 연결된다. 수요에 따라, 디스크, 광 디스크, 자기 광 디스크, 반도체 메모리 등과 같은 탈착가능 매체(511)를 드라이버(510)에 장착함으로써, 이들로부터 판독된 컴퓨터 프로그램을 수요에 따라 저장부(508)에 설치할 수 있도록 한다.
본 발명의 실시예에 따르면, 본 발명의 실시예에 따른 방법의 흐름은 컴퓨터 소프트웨어 프로그램으로 실현될 수 있다. 예를 들어, 본 발명의 실시예는 컴퓨터 프로그램 제품을 포함하고, 상기 제품은 컴퓨터 판독가능 저장 매체에 탑재된 컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램은 흐름도에 도시된 방법을 실행하기 위한 프로그램 코드를 포함할 수 있다. 이러한 실시예에 있어서, 상기 컴퓨터 프로그램은 통신부(509)를 통해 네트워크로부터 다운도르하여 설치하거나, 또는 탈착가능 매체(511)로부터 설치할 수 있다. 상기 컴퓨터 프로그램이 프로세서 (501)에 의해 실행될 경우, 본 발명의 실시예의 시스템에서 한정된 상기 기능을 실행한다. 본 발명의 실시예에 따르면, 앞에서 설명한 시스템, 장비, 장치, 모듈, 유닛 등은 컴퓨터 프로그램 모듈을 통해 실현될 수 있다.
본 발명은 비 일시적 컴퓨터 판독가능 저장 매체도 제공한다. 상기 비 일시적 컴퓨터 판독가능 저장 매체는 상기 실시예에서 설명한 장비/장치/시스템에 포함될 수도 있고, 상기 장비/장치/시스템에 조립되지 않고 단독적으로 존재할 수 도 있다. 상기 비 일시적 컴퓨터 판독가능 저장 매체에는 하나 또는 복수의 프로그램이 탑재되고, 상기 하나 또는 복수의 프로그램이 실행될 경우, 본 발명의 실시예에 따른 방법을 실현한다.
본 발명의 실시예에 따르면, 비 일시적 컴퓨터 판독가능 저장 매체는 컴퓨터 판독가능 비휘발성 저장 매체일 수 있다. 예를 들어, 휴대용 컴퓨터 디스크, 하드 디스크, RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programming ROM), 또는 플래시 메모리, 휴대용 CD-ROM(Compact Disc Read Only Memory), 광학적 저장 디바이스, 자기적 저장 디바이스, 또는 이들의 임의의 적합한 조합을 포함할 수 있는데, 이에 한정되지는 않는다. 본 발명에 있어서, 비 일시적 컴퓨터 판독가능 저장 매체는 프로그램을 포함 또는 저장하는 임의의 유형의 매체일 수 있는데, 상기 프로그램은 명령 실행 시스템, 장치 또는 디바이스에 의해 사용되거나 이들과 결합하여 사용할 수 있다. 예를 들어, 본 발명의 실시예에 따르면, 비 일시적 컴퓨터 판독가능 저장 매체는 앞에서 설명한 ROM(502) 및/또는 RAM(503) 및/또는 ROM(502)과 RAM(503)을 제외한 하나 또는 복수의 메모리를 포함할 수 있다.
첨부 도면의 흐름도 및 블록도는, 본 발명의 각종 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 실현가능한 체계구조, 기능 및 동작을 도시하고 있다. 이 점에서, 흐름도 또는 블록도의 각 블록은 하나의 모듈, 프로그램 세그먼트, 또는 코드의 일부를 의미할 수 있고, 상기 모듈, 프로그램 세그먼트 또는 코드의 일부는 하나 또는 복수의 소정의 논리적 기능을 실현하기 위한 실행가능 명령을 포함한다. 지적해두어야 할 것은, 다른 일부 실시예에 있어서, 블록에 표기된 기능은 첨부 도면에 표기된 순서와 다른 순서로 실행될 수도 있다. 예를 들어, 순차적으로 표시된 2개의 블록은 병행적으로 실행될 수 도 있고, 반대되는 순서로 실행될 수도 있는데, 이는 관련되는 기능에 의해 결정된다. 또한, 지적해두어야 할 것은, 블록도 또는 흐름도중의 각 블록 및 블록도 또는 흐름도중의 블록의 조합은, 소정의 기능 또는 동작을 실행하는 전용적인 하드웨어에 기반한 시스템을 통해 구현하거나, 또는 전용 하드웨어와 컴퓨터 명령의 조합을 통해 구현할 수 있다.
당업자라면, 본 발명에 명확히 개시되어 있지 않더라도, 본 발명의 각 실시예 및/또는 청구항에 기재된 특징을 다양하게 조합 및/또는 결합할 수 있음을 이해할수 있을 것이다. 특히, 본 발명의 취지 및 시사를 벗어나지 않고 본 발명의 각 실시예 및/또는 청구항에 기재된 특징을 다양하게 조합 및/또는 결합할 수 있다. 이러한 전부의 조합 및/또는 결합은 모두 본 발명의 범위에 속한다.
이상에서는 본 발명의 실시예에 대해 설명하였다. 하지만, 이러한 실시예는 단지 설명을 위한 것일 뿐, 결코 본 발명의 범위를 제한하기 위한 것이 아니다. 비록 이상에서는 각 실시예를 별도로 설명하였으나, 이는 결코 각 실시예중의 조치가 결합하여 사용할수 없음을 의미하지 않는다. 본 발명의 범위는 첨부된 청구의 범위 및 그 등가물에 의해 한정된다. 당업자라면, 본 발명의 범위를 벗어나지 않고, 다양하게 치환 및 변경할 수 있는데, 이러한 치환 및 변경 또한 본 발명의 범위에 포함되어야 한다.
네트워크 모델 : 300 그래프 구축 모듈 : 301
그래프 합성곱 인코딩 모듈 :302 문답 모듈 : 303
이미지 문답 장치 : 400 취득 모듈 : 410
그래프 구축 모듈 : 420 업데이트 모듈 : 430
질문 특징 추출 모듈 : 440 융합 모듈 : 450
예측 모듈 : 460 컴퓨터 장비 : 500
프로세서 : 501 ROM : 502
RAM : 503 I/O 인터페이스 : 505
입력부 : 506 출력부 : 507
저장부 : 508 통신부 : 509

Claims (15)

  1. 입력 이미지 및 입력 질문을 취득하는 것,
    상기 입력 이미지에 기초하여, 노드 특징 및 에지 특징을 포함하는 시각 그래프를 구축하는 것,
    상기 노드 특징 및 상기 에지 특징에 기초하여, 상기 노드 특징을 업데이트함으로써, 업데이트 된 시각 그래프를 얻는 것,
    상기 입력 질문에 기초하여 질문 특징을 확정하는 것,
    상기 업데이트 된 시각 그래프 및 상기 질문 특징에 대해 융합 처리를 실행함으로써 융합 특징을 얻는 것, 및
    상기 융합 특징에 기초하여, 상기 입력 이미지 및 상기 입력 질문에 대한 예측 답안을 생성하는 것을 포함하는
    이미지 문답 방법.
  2. 제1항에 있어서,
    상기 입력 이미지에 기초하여 시각 그래프를 구축하는 것은,
    목표 검출 네트워크를 이용하여 상기 입력 이미지를 처리함으로써, 상기 목표 검출 네트워크의 중간층으로부터 상기 입력 이미지중의 복수의 목표 대상에 대한 표상 특징 및 공간 특징을 추출하는 것,
    상기 표상 특징 및 상기 공간 특징에 기초하여 상기 노드 특징을 확정하는 것,
    상기 목표 검출 네트워크의 출력층이 출력한 처리 결과에 기초하여, 상기 복수의 목표 대상 각각의 위치 정보를 확정하는 것,
    상기 복수의 목표 대상 각각의 위치 정보에 기초하여, 상기 복수의 목표 대상 중 임의의 2개의 목표 대상사이의 위치 관계를 확정하는 것,
    상기 임의의 2개의 목표 대상사이의 위치 관계에 기초하여, 상기 에지 특징을 확정하는 것, 및
    상기 노드 특징 및 상기 에지 특징에 의해 상기 시각 그래프를 구성하는 것을 포함하는
    이미지 문답 방법.
  3. 제2항에 있어서,
    상기 복수의 목표 대상 각각의 위치 정보에 기초하여, 상기 복수의 목표 대상 중 임의의 2개의 목표 대상사이의 위치 관계를 확정하는 것은,
    상기 임의의 2개의 목표 대상 각각의 위치 정보에 근거하여, 상기 임의의 2개의 목표 대상의 위치 영역사이의 교집합 및 합집합을 계산하는 것,
    상기 교집합 및 합집합의 비례 값을 계산하는 것,
    상기 비례 값이 소정의 임계치보다 클 경우, 상기 임의의 2개의 목표 대상사이의 위치 관계를 1로 표시하는 것, 및
    상기 비례 값이 소정의 임계치이하일 경우, 상기 임의의 2개의 목표 대상사이의 위치 관계를 0으로 표시하는 것을 포함하는
    이미지 문답 방법.
  4. 제1항에 있어서,
    상기 노드 특징 및 상기 에지 특징에 기초하여 상기 노드 특징을 업데이트하는 것은,
    완전 연결층, 제1 그래프 합성곱층 및 제2 그래프 합성곱층을 포함하는 소정의 신경망을 이용하여, 상기 시각 그래프의 노드 특징에 대해 적어도 1회의 업데이트 동작을 실행하는 것을 포함하고,
    상기 적어도 1회의 업데이트 동작 중 매회의 업데이트 동작은,
    완전 연결층을 이용하여 상기 시각 그래프의 노드 특징을 공간 차원수가 소정 수인 제1 특징으로 매핑하는 것,
    제1 그래프 합성곱층을 이용하여 상기 제1 특징을 처리함으로써, 제2 특징을 얻는 것,
    제2 그래프 합성곱층을 이용하여 상기 제2 특징을 처리함으로써, 업데이트 된 노드 특징을 얻는 것, 및
    상기 업데이트 된 노드 특징 및 상기 에지 특징에 의해 상기 업데이트 된 시각 그래프를 구성하는 것을 포함하는
    이미지 문답 방법.
  5. 제4항에 있어서,
    상기 적어도 1회의 업데이트 동작 중 매회의 업데이트 동작은,
    상기 에지 특징에 기초하여 라플라시안 매트릭스를 구축하는 것을 더 포함하고,
    상기 제1 그래프 합성곱층을 이용하여 상기 제1 특징을 처리하는 것은,
    상기 제1 그래프 합성곱층을 이용하여 상기 라플라시안 매트릭스에 기초하여 상기 제1 특징을 처리함으로써, 복수의 제1 서브 특징을 포함하는 상기 제2 특징을 얻는 것을 포함하는
    이미지 문답 방법.
  6. 제5항에 있어서,
    상기 소정의 신경망은 연관층을 더 포함하고,
    상기 적어도 1회의 업데이트 동작 중 매회의 업데이트 동작은,
    연관층을 이용하여 상기 복수의 제1 서브 특징 중 임의의 2개의 제1 서브 특징사이의 연관관계를 계산하고, 상기 임의의 2개의 제1 서브 특징사이의 연관관계에 기초하여 관계 메트릭스를 확정하는 것을 더 포함하고,
    상기 제2 그래프 합성곱층을 이용하여 상기 제2 특징을 처리하는 것은,
    상기 제2 그래프 합성곱층을 이용하여 상기 관계 메트릭스에 기초하여 상기 제2 특징을 처리함으로써, 상기 업데이트 된 노드 특징을 얻는 것을 포함하는
    이미지 문답 방법.
  7. 제6항에 있어서,
    상기 임의의 2개의 제1 서브 특징사이의 연관관계는, 상기 임의의 2개의 제1 서브 특징사이의 유클리드 거리, 또는 상기 임의의 2개의 제1 서브 특징사이의 코사인 유사도를 포함하는
    이미지 문답 방법.
  8. 제1항에 있어서,
    상기 입력 질문에 기초하여 질문 특징을 확정하는 것은,
    워드 인코딩 알고리즘 및 특징 인코딩 알고리즘을 이용하여 상기 입력 질문을 순차적으로 인코딩 처리하여, 상기 질문 특징을 얻는 것을 포함하는
    이미지 문답 방법.
  9. 제1항에 있어서,
    상기 업데이트 된 시각 그래프는 업데이트 된 노드 특징을 포함하고, 상기 업데이트 된 노드 특징은 복수의 제2 서브 특징을 포함하고,
    상기 업데이트 된 시각 그래프 및 상기 질문 특징에 대해 융합 처리를 실행하는 것은,
    주의력 메카니즘에 기초하여, 상기 복수의 제2 서브 특징 각각과 상기 질문 특징사이의 주의력 가중치를 확정하는 것,
    상기 복수의 제2 서브 특징 각각과 상기 질문 특징사이의 주의력 가중치를 이용하여, 상기 복수의 제2 서브 특징에 대해 가중 합산을 실행함으로써, 자기 적응 특징을 얻는 것, 및
    상기 자기 적응 특징 및 상기 질문 특징에 대해 융합 처리를 실행함으로써, 상기 융합 특징을 얻는 것을 포함하는
    이미지 문답 방법.
  10. 제9항에 있어서,
    상기 자기 적응 특징 및 상기 질문 특징에 대해 융합 처리를 실행하는 것은,
    상기 자기 적응 특징 및 상기 질문 특징에 대해 원소별 내적 처리를 실행함으로써, 상기 융합 특징을 얻는 것을 포함하는
    이미지 문답 방법.
  11. 제10항에 있어서,
    상기 융합 특징에 기초하여, 상기 입력 이미지 및 상기 입력 질문에 대한 예측 답안을 생성하는 것은,
    멀티 레이어 퍼셉트론을 이용하여 상기 융합 특징을 처리함으로써, 상기 융합 특징에 대한 예측 답안을 얻는 것을 포함하는
    이미지 문답 방법.
  12. 입력 이미지 및 입력 질문을 취득하기 위한 취득 모듈,
    상기 입력 이미지에 기초하여, 노드 특징 및 에지 특징을 포함하는 시각 그래프를 구축하기 위한 그래프 구축 모듈,
    상기 노드 특징 및 상기 에지 특징에 기초하여, 상기 노드 특징을 업데이트함으로써, 업데이트 된 시각 그래프를 얻기 위한 업데이트 모듈,
    상기 입력 질문에 기초하여 질문 특징을 확정하기 위한 질문 특징 추출 모듈,
    상기 업데이트 된 시각 그래프 및 상기 질문 특징에 대해 융합 처리를 실행함으로써 융합 특징을 얻기 위한 융합 모듈, 및
    상기 융합 특징에 기초하여, 상기 입력 이미지 및 상기 입력 질문에 대한 예측 답안을 생성하기 위한 예측 모듈을 포함하는
    이미지 문답 장치.
  13. 컴퓨터 프로그램이 저장되어 있는 메모리, 및
    적어도 하나의 프로세서를 포함하는 컴퓨터 장비에 있어서,
    상기 컴퓨터 프로그램이 상기 프로세서에 의해 실행될 경우, 제1항 내지 제11항 중 어느 한 항의 방법을 구현하는
    컴퓨터 장비.
  14. 컴퓨터 프로그램이 저장되어 있는 비 일시적 컴퓨터 판독가능 저장 매체에 있어서,
    컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 제1 항 내지 제11항 중 어느 한 항의 방법을 구현하는
    비 일시적 컴퓨터 판독가능 저장 매체.
  15. 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램의 명령이 프로세서에 의해 실행될 경우, 제1항 내지 제11항중 어느 한 항의 방법을 구현하는
    컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램.


KR1020210026421A 2020-06-30 2021-02-26 이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램 KR20220002065A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010616632.6A CN111782840B (zh) 2020-06-30 2020-06-30 图像问答方法、装置、计算机设备和介质
CN202010616632.6 2020-06-30

Publications (1)

Publication Number Publication Date
KR20220002065A true KR20220002065A (ko) 2022-01-06

Family

ID=72761522

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210026421A KR20220002065A (ko) 2020-06-30 2021-02-26 이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램

Country Status (5)

Country Link
US (1) US11768876B2 (ko)
EP (1) EP3859560A3 (ko)
JP (1) JP7196218B2 (ko)
KR (1) KR20220002065A (ko)
CN (1) CN111782840B (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7481995B2 (ja) * 2020-10-28 2024-05-13 株式会社東芝 状態判定装置、方法およびプログラム
US20220189060A1 (en) * 2020-12-10 2022-06-16 Niantic, Inc. Visual Camera Re-Localization using Graph Neural Networks and Relative Pose Supervision
EP4099280A1 (en) * 2021-06-04 2022-12-07 Tata Consultancy Services Limited Method and system for confidence level detection from eye features
CN114842368B (zh) * 2022-05-07 2023-10-03 中国电信股份有限公司 基于场景的视觉辅助信息确定方法、系统、设备及存储介质
CN115017314A (zh) * 2022-06-02 2022-09-06 电子科技大学 一种基于注意力机制的文本分类方法
CN115496976B (zh) * 2022-08-29 2023-08-11 锋睿领创(珠海)科技有限公司 多源异构数据融合的视觉处理方法、装置、设备及介质
CN115310611B (zh) * 2022-10-12 2023-03-24 苏州浪潮智能科技有限公司 一种人物意图推理方法及相关装置
US20240202551A1 (en) * 2022-12-16 2024-06-20 Intuit Inc. Visual Question Answering for Discrete Document Field Extraction
CN116542995B (zh) * 2023-06-28 2023-09-22 吉林大学 一种基于区域表示和视觉表示的视觉问答方法及系统
CN116881427B (zh) * 2023-09-05 2023-12-01 腾讯科技(深圳)有限公司 问答处理方法、装置、电子设备及存储介质
CN117271818B (zh) * 2023-11-22 2024-03-01 鹏城实验室 视觉问答方法、系统、电子设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965705B2 (en) 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
KR102039397B1 (ko) * 2018-01-30 2019-11-01 연세대학교 산학협력단 추론 과정 설명이 가능한 시각 질의 응답 장치 및 방법
CN109255359B (zh) * 2018-09-27 2021-11-12 南京邮电大学 一种基于复杂网络分析方法的视觉问答问题解决方法
US11544535B2 (en) * 2019-03-08 2023-01-03 Adobe Inc. Graph convolutional networks with motif-based attention
CN110222770B (zh) * 2019-06-10 2023-06-02 成都澳海川科技有限公司 一种基于组合关系注意力网络的视觉问答方法
CN110348535B (zh) * 2019-07-17 2022-05-31 北京金山数字娱乐科技有限公司 一种视觉问答模型训练方法及装置
CN110717024B (zh) * 2019-10-08 2022-05-17 苏州派维斯信息科技有限公司 基于图像视觉到文本转换的视觉问答问题解决方法

Also Published As

Publication number Publication date
US20210406468A1 (en) 2021-12-30
EP3859560A3 (en) 2021-10-20
JP2022013644A (ja) 2022-01-18
JP7196218B2 (ja) 2022-12-26
EP3859560A2 (en) 2021-08-04
US11768876B2 (en) 2023-09-26
CN111782840A (zh) 2020-10-16
CN111782840B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
KR102588894B1 (ko) 이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램
KR20220002065A (ko) 이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램
AU2019200270B2 (en) Concept mask: large-scale segmentation from semantic concepts
CN111767379B (zh) 图像问答方法、装置、设备以及存储介质
JP7206309B2 (ja) 画像質問応答方法、装置、コンピュータ装置、媒体及びプログラム
US20230095606A1 (en) Method for training classifier, and data processing method, system, and device
CN112183577A (zh) 一种半监督学习模型的训练方法、图像处理方法及设备
US11651214B2 (en) Multimodal data learning method and device
US20180025249A1 (en) Object Detection System and Object Detection Method
CN111368656A (zh) 一种视频内容描述方法和视频内容描述装置
CN112364912B (zh) 信息分类方法、装置、设备及存储介质
CN110377733A (zh) 一种基于文本的情绪识别方法、终端设备及介质
CN113065634A (zh) 一种图像处理方法、神经网络的训练方法以及相关设备
Iegawa et al. Loop closure detection in visual slam based on convolutional neural network
CN110766439A (zh) 一种酒店网络口碑评价方法、系统及电子设备
CN116226478B (zh) 信息处理方法、模型训练方法、装置、设备及存储介质
Fuchs et al. Scrutinizing and de-biasing intuitive physics with neural stethoscopes
Salam et al. HESIP: A Hybrid System for Explaining Sub-symbolic Predictions
US20240013028A1 (en) Processing device, processing method, and non-transitory computer readable medium storing program
CN116092090A (zh) 阅读顺序预测方法、阅读顺序预测模型的训练方法及装置
Arthur Time Series Classification with Multistage Modeling Using Deep Learning
CN116958994A (zh) 一种文本颜色识别方法、装置、设备及介质
CN117972087A (zh) 情感识别方法、装置、计算机设备以及存储介质
CN117836817A (zh) 通过生成词元的序列来检测图像中的对象
CN118070192A (zh) 场景图生成方法、设备及介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right