KR102646667B1 - 이미지 영역을 찾기 위한 방법, 모델 훈련 방법 및 관련 장치 - Google Patents

이미지 영역을 찾기 위한 방법, 모델 훈련 방법 및 관련 장치 Download PDF

Info

Publication number
KR102646667B1
KR102646667B1 KR1020217014824A KR20217014824A KR102646667B1 KR 102646667 B1 KR102646667 B1 KR 102646667B1 KR 1020217014824 A KR1020217014824 A KR 1020217014824A KR 20217014824 A KR20217014824 A KR 20217014824A KR 102646667 B1 KR102646667 B1 KR 102646667B1
Authority
KR
South Korea
Prior art keywords
region
semantic information
image
text
trained
Prior art date
Application number
KR1020217014824A
Other languages
English (en)
Other versions
KR20210076110A (ko
Inventor
린 마
Original Assignee
텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 filed Critical 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Publication of KR20210076110A publication Critical patent/KR20210076110A/ko
Application granted granted Critical
Publication of KR102646667B1 publication Critical patent/KR102646667B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images

Abstract

본 개시는 이미지 영역을 찾기 위한 방법을 제공하며, 이 방법은, 찾아질 이미지의 이미지 후보 영역 세트에 따라 영역 시맨틱 정보 세트를 생성하는 단계(102); GCN을 사용하여 영역 시맨틱 정보 세트에 대응하는 향상된 시맨틱 정보 세트를 획득하는 단계(103) ― GCN은 다양한 영역 시맨틱 정보 사이의 연관 관계를 구축하도록 구성됨 ―; 이미지 영역 찾기 네트워크 모델을 사용하여 찾아질 텍스트에 대응하는 텍스트 특징 세트와 각각의 향상된 시맨틱 정보 사이의 매칭 정도를 획득하는 단계(105); 및 텍스트 특징 세트와 각각의 향상된 시맨틱 정보 사이의 매칭 정도에 따라 이미지 후보 영역 세트로부터 타깃 이미지 후보 영역을 결정하는 단계(106)를 포함한다. 본 개시는 모델 훈련 방법 및 관련 장치를 더 개시한다. 본 개시에서, 이미지 후보 영역 사이의 시맨틱 표현은 GCN을 사용하여 향상되며, 이는 이미지 후보 영역을 찾는 정확도를 향상시킴으로써, 이미지 이해 능력을 향상시킬 수 있다.

Description

이미지 영역을 찾기 위한 방법, 모델 훈련 방법 및 관련 장치
본 출원은, 2019년 3월 13일에 출원된 중국 특허 출원 제201910190207.2호('이미지 영역을 찾기 위한 방법, 모델 훈련 방법 및 관련 장치')의 우선권을 주장하며, 이것은 그 전체가 참조로서 본 명세서 포함된다.
본 개시의 실시예는 이미지 영역을 찾기 위한 방법, 모델 훈련 방법 및 관련 장치에 관한 것이다.
인공 지능의 발전이 진행됨에 따라, 이미지에서 자연 문장(natural sentence)에 대응하는 영역을 찾는 것이 기계 학습에서 중요한 태스크가 되고 있다. 이미지가 많은 경우, 일반적으로 자연 문장과 연관된 영역을 인위적으로 추출하는 데 시간이 많이 걸리며, 오류가 발생할 가능성이 높다. 따라서, 기계를 사용하여 이미지 영역을 찾는 것이 매우 필요하다.
현재, 이미지 영역을 찾는 방법에서, 이미지에서 복수의 후보 영역이 먼저 객체 제안 방식으로 추출되고, 그 다음 자연어에 가장 잘 맞는 로컬 영역을 타깃 이미지 영역으로 추가로 선택하기 위해 각각의 객체 제안과 자연 문장 사이의 매칭 관계를 결정하는 데 매칭 모델이 사용됨으로써, 대응하는 자연 문장 이미지 찾기 태스크를 완료할 수 있다.
본 개시의 제1 측면에 따르면, 이미지 영역을 찾기 위한 방법이 제공되며,
찾아질 이미지(to-be located image)의 이미지 후보 영역 세트에 따라 영역 시맨틱 정보 세트(regoin semantic information set)를 생성하는 단계 ― 상기 영역 시맨틱 정보 세트의 각각의 영역 시맨틱 정보는 상기 이미지 후보 영역 세트의 하나의 이미지 후보 영역에 대응함 ―;
그래프 컨볼루션 네트워크(Graph Convolutional Network, GCN)를 사용하여 상기 영역 시맨틱 정보 세트에 대응하는 향상된 시맨틱 정보 세트를 획득하는 단계 ― 상기 향상된 시맨틱 정보 세트의 각각의 향상된 시맨틱 정보는 상기 영역 시맨틱 정보 세트의 하나의 영역 시맨틱 정보에 대응하고, 상기 GCN은 다양한 영역 시맨틱 정보 사이의 연관 관계를 구축하도록 구성됨 ―;
이미지 영역 찾기 네트워크 모델을 사용하여 찾아질 텍스트에 대응하는 텍스트 특징 세트와 상기 각각의 향상된 시맨틱 정보 사이의 매칭 정도를 획득하는 단계 ― 상기 이미지 영역 찾기 네트워크 모델은 상기 이미지 후보 영역과 상기 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성되고, 상기 찾아질 텍스트의 각각의 단어는 상기 텍스트 특징 세트의 하나의 단어 특징에 대응함 ―; 및
상기 텍스트 특징 세트와 상기 각각의 향상된 시맨틱 정보 사이의 매칭 정도에 따라 상기 이미지 후보 영역 세트로부터 타깃 이미지 후보 영역을 결정하는 단계를 포함한다.
본 개시의 제2 측면에 따르면, 모델 훈련 방법이 제공되며,
훈련될 텍스트 세트 및 훈련될 이미지 후보 영역 세트를 획득하는 단계 ― 상기 훈련될 텍스트 세트는 제1 훈련될 텍스트 및 제2 훈련될 텍스트를 포함하고, 상기 훈련될 이미지 후보 영역 세트는 제1 훈련될 이미지 후보 영역 및 제2 훈련될 이미지 후보 영역을 포함하며, 상기 제1 훈련될 텍스트와 상기 제1 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있고, 상기 제1 훈련된 텍스트와 상기 제2 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있지 않으며, 상기 제2 훈련될 텍스트와 상기 제2 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있고, 상기 제2 훈련될 텍스트와 상기 제1 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있지 않음 ―;
상기 제1 훈련될 텍스트, 상기 제2 훈련될 텍스트, 상기 제1 훈련될 이미지 후보 영역 및 상기 제2 훈련될 이미지 후보 영역에 따라 타깃 손실 함수를 결정하는 단계; 및
이미지 영역 찾기 네트워크 모델을 획득하기 위해 상기 타깃 손실 함수를 사용하여 훈련될 이미지 영역 찾기 네트워크 모델을 훈련시키는 단계 ― 상기 이미지 영역 찾기 네트워크 모델은 텍스트 특징 세트 및 향상된 시맨틱 정보에 따라 이미지 후보 영역과 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성되고, 상기 향상된 시맨틱 정보와 상기 이미지 후보 영역은 대응관계를 가지며, 상기 텍스트 특징 세트와 상기 찾아질 텍스트는 대응관계를 가지고 있음 ―를 포함한다.
본 개시의 제3 측면에 따르면, 이미지 영역을 찾기 위한 장치가 제공되며,
찾아질 이미지의 이미지 후보 영역 세트에 따라 영역 시맨틱 정보 세트를 생성하도록 하는 생성 모듈 ― 상기 영역 시맨틱 정보 세트의 각각의 영역 시맨틱 정보는 상기 이미지 후보 영역 세트의 하나의 이미지 후보 영역에 대응함 ―;
GCN을 사용하여, 상기 생성 모듈에 의해 생성되는 상기 영역 시맨틱 정보 세트에 대응하는 향상된 시맨틱 정보 세트를 획득하도록 구성된 획득 모듈 ― 상기 향상된 시맨틱 정보 세트의 각각의 향상된 시맨틱 정보는 상기 영역 시맨틱 정보 세트의 하나의 영역 시맨틱 정보에 대응하고, 상기 GCN은 다양한 영역 시맨틱 정보 사이의 연관 관계를 구축하도록 구성되며,
상기 획득 모듈은, 이미지 영역 찾기 네트워크 모델을 사용하여 찾아질 텍스트에 대응하는 텍스트 특징 세트와 상기 각각의 향상된 시맨틱 정보 사이의 매칭 정도를 획득하도록 추가로 구성되고, 상기 이미지 영역 찾기 네트워크 모델은 상기 이미지 후보 영역과 상기 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성되며, 상기 찾아질 텍스트의 각각의 단어는 상기 텍스트 특징 세트의 하나의 단어 특징에 대응함 ―; 및
상기 텍스트 특징 세트와 상기 획득 모듈에 의해 획득되는 각각의 향상된 시맨틱 정보 사이의 매칭 정도에 따라 상기 이미지 후보 영역 세트로부터 타깃 이미지 후보 영역을 결정하도록 구성된 결정 모듈을 포함한다.
본 개시의 제4 측면에 따르면, 모델 훈련 장치가 제공되며,
훈련될 텍스트 세트 및 훈련될 이미지 후보 영역 세트를 획득하도록 구성된 획득 모듈 ― 상기 훈련될 텍스트 세트는 제1 훈련될 텍스트 및 제2 훈련될 텍스트를 포함하고, 상기 훈련될 이미지 후보 영역 세트는 제1 훈련될 이미지 후보 영역 및 제2 훈련될 이미지 후보 영역을 포함하며, 상기 제1 훈련될 텍스트와 상기 제1 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있고, 상기 제1 훈련된 텍스트와 상기 제2 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있지 않으며, 상기 제2 훈련될 텍스트와 상기 제2 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있고, 상기 제2 훈련될 텍스트와 상기 제1 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있지 않음 ―;
상기 획득 모듈에 의해 획득되는 상기 제1 훈련될 텍스트, 상기 제2 훈련될 텍스트, 상기 제1 훈련될 이미지 후보 영역 및 상기 제2 훈련될 이미지 후보 영역에 따라 타깃 손실 함수를 결정하도록 구성되는 결정 모듈; 및
이미지 영역 찾기 네트워크 모델을 획득하기 위해 상기 결정 모듈에 의해 결정되는 타깃 손실 함수를 사용하여 훈련될 이미지 영역 찾기 네트워크 모델을 훈련시키도록 구성된 훈련 모듈 ― 상기 이미지 영역 찾기 네트워크 모델은 텍스트 특징 세트 및 향상된 시맨틱 정보에 따라 이미지 후보 영역과 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성되고, 상기 향상된 시맨틱 정보와 상기 이미지 후보 영역은 대응관계를 가지며, 상기 텍스트 특징 세트와 상기 찾아질 텍스트는 대응관계를 가지고 있음 ―을 포함한다.
본 개시의 제5 측면에 따르면, 단말 장치가 제공되며,
메모리, 트랜시버, 프로세서 및 버스 시스템을 포함하며,
상기 메모리는 프로그램을 저장하도록 구성되고,
상기 프로세서는,
찾아질 이미지의 이미지 후보 영역 세트에 따라 영역 시맨틱 정보 세트를 생성하는 작동 ― 상기 영역 시맨틱 정보 세트의 각각의 영역 시맨틱 정보는 상기 이미지 후보 영역 세트의 하나의 이미지 후보 영역에 대응함 ―;
GCN을 사용하여 상기 영역 시맨틱 정보 세트에 대응하는 향상된 시맨틱 정보 세트를 획득하는 작동 ― 상기 향상된 시맨틱 정보 세트의 각각의 향상된 시맨틱 정보는 상기 영역 시맨틱 정보 세트의 하나의 영역 시맨틱 정보에 대응하고, 상기 GCN은 다양한 영역 시맨틱 정보 사이의 연관 관계를 구축하도록 구성됨 ―;
이미지 영역 찾기 네트워크 모델을 사용하여 찾아질 텍스트에 대응하는 텍스트 특징 세트와 상기 각각의 향상된 시맨틱 정보 사이의 매칭 정도를 획득하는 작동 ― 상기 이미지 영역 찾기 네트워크 모델은 상기 이미지 후보 영역과 상기 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성되고, 상기 찾아질 텍스트의 각각의 단어는 상기 텍스트 특징 세트의 하나의 단어 특징에 대응함 ―; 및
상기 텍스트 특징 세트와 상기 각각의 향상된 시맨틱 정보 사이의 매칭 정도에 따라 상기 이미지 후보 영역 세트로부터 타깃 이미지 후보 영역을 결정하는 작동을 수행하기 위해 상기 메모리의 프로그램을 실행하도록 구성되며,
상기 버스 시스템은 상기 메모리와 상기 프로세서가 통신을 수행할 수 있도록 상기 메모리와 상기 프로세서를 연결하도록 구성된다.
가능한 설계에서, 본 개시의 실시예의 제5 측면의 가능한 구현에서, 상기 프로세서는,
컨볼루션 신경망(CNN)을 사용하여 각각의 이미지 후보 영역에 대응하는 영역 시맨틱 정보를 획득하는 작동 ― 상기 이미지 후보 영역은 영역 정보를 포함하고, 상기 영역 정보는 상기 찾아질 이미지의 이미지 후보 영역의 위치 정보 및 상기 이미지 후보 영역의 크기 정보를 포함함 ―; 및
N개의 이미지 후보 영역에 대응하는 영역 시맨틱 정보가 획득되는 경우 N개의 영역 시맨틱 정보에 따라 상기 영역 시맨틱 정보 세트를 생성하는 작동 ― N은 1보다 크거나 같은 정수임 ―
을 수행하기 위해 상기 메모리의 프로그램을 실행하도록 추가로 구성된다.
가능한 설계에서, 본 개시의 실시예의 제5 측면의 가능한 구현에서, 상기 프로세서는,
상기 영역 시맨틱 정보 세트로부터 제1 영역 시맨틱 정보 및 제2 영역 시맨틱 정보를 획득하는 작동 ― 상기 제1 영역 시맨틱 정보는 상기 영역 시맨틱 정보 세트의 임의의 하나의 영역 시맨틱 정보이고, 상기 제2 영역 시맨틱 정보는 상기 영역 시맨틱 정보 세트의 임의의 하나의 영역 시맨틱 정보임 ―;
상기 제1 영역 시맨틱 정보와 상기 제2 영역 시맨틱 정보 사이의 연결 에지의 강도를 획득하는 작동;
정규화된 강도를 획득하기 위해 상기 제1 영역 시맨틱 정보와 상기 제2 영역 시맨틱 정보 사이의 연결 에지의 강도를 정규화하는 작동;
상기 영역 시맨틱 정보 세트의 다양한 영역 시맨틱 정보 사이의 정규화된 강도에 따라 타깃 연결 매트릭스를 결정하는 작동; 및
상기 GCN을 사용하여 상기 타깃 연결 매트릭스에 대응하는 향상된 시맨틱 정보 세트를 결정하는 작동
을 수행하기 위해 상기 메모리의 프로그램을 실행하도록 추가로 구성된다.
가능한 설계에서, 본 개시의 실시예의 제5 측면의 가능한 구현에서, 상기 프로세서는,
상기 영역 시맨틱 정보 세트의 다양한 영역 시맨틱 정보 사이의 정규화된 강도에 따라 연결 매트릭스를 생성하는 작동; 및
상기 연결 매트릭스 및 단위 매트릭스에 따라 상기 타깃 연결 매트릭스를 생성하는 작동
을 수행하기 위해 상기 메모리의 프로그램을 실행하도록 추가로 구성된다.
가능한 설계에서, 본 개시의 실시예의 제5 측면의 가능한 구현에서, 상기 프로세서는,
다음의 방식
으로 상기 향상된 시맨틱 정보를 계산하는 작동을 수행하기 위해 상기 메모리의 프로그램을 실행하도록 추가로 구성되며,
여기서 는 GCN의 k 번째 계층에 대응하는 i 번째 향상된 시맨틱 정보를 나타내고, 는 GCN의 k-1 번째 계층에 대응하는 j 번째 향상된 시맨틱 정보를 나타내며, 는 GCN의 k 번째 계층의 제1 네트워크 파라미터를 나타내고, 는 GCN의 k 번째 계층의 제2 네트워크 파라미터를 나타내며, 는 j 번째 노드가 i 번째 노드의 이웃 노드임을 나타내고, 는 상기 타깃 연결 매트릭스의 요소를 나타낸다.
가능한 설계에서, 본 개시의 실시예의 제5 측면의 가능한 구현에서, 상기 프로세서는,
상기 찾아질 텍스트를 획득하는 작동;
상기 찾아질 텍스트에 따라 텍스트 벡터 시퀀스를 획득하는 작동 ― 상기 텍스트 벡터 시퀀스는 T개의 단어 벡터를 포함하고, 각각의 단어 벡터는 하나의 단어에 대응하며, T는 1보다 크거나 같은 정수임 ―;
텍스트 특징을 획득하기 위해 상기 텍스트 벡터 시퀀스의 각각의 단어 벡터를 인코딩하는 작동; 및
상기 T개의 단어 벡터에 대응하는 텍스트 특징이 획득되는 경우 상기 T개의 텍스트 특징에 따라 상기 텍스트 특징 세트를 생성하는 작동
을 수행하기 위해 상기 메모리의 프로그램을 실행하도록 구성된다.
본 개시의 실시예의 제5 측면의 가능한 구현에서, 상기 프로세서는,
다음의 방식
으로 상기 텍스트 특징을 획득하는 작동을 수행하기 위해 상기 메모리의 프로그램을 실행하도록 구성되며,
여기서 는 상기 텍스트 특징 세트의 t 번째 텍스트 특징을 나타내고, 는 장단기 메모리(Long Short-Term Memory, LSTM) 네트워크를 사용하여 인코딩을 수행하는 것을 나타내며, 는 상기 텍스트 벡터 시퀀스의 t 번째 단어 벡터를 나타내고, 는 상기 텍스트 특징 세트의 (t-1) 번째 텍스트 특징을 나타낸다.
본 개시의 제6 측면에 따르면, 서버가 제공되며,
메모리, 트랜시버, 프로세서 및 버스 시스템을 포함하며,
상기 메모리는 프로그램을 저장하도록 구성되고,
상기 프로세서는,
찾아질 이미지의 이미지 후보 영역 세트에 따라 영역 시맨틱 정보 세트를 생성하는 작동 ― 상기 영역 시맨틱 정보 세트의 각각의 영역 시맨틱 정보는 상기 이미지 후보 영역 세트의 하나의 이미지 후보 영역에 대응함 ―;
GCN을 사용하여 상기 영역 시맨틱 정보 세트에 대응하는 향상된 시맨틱 정보 세트를 획득하는 작동 ― 상기 향상된 시맨틱 정보 세트의 각각의 향상된 시맨틱 정보는 상기 영역 시맨틱 정보 세트의 하나의 영역 시맨틱 정보에 대응하고, 상기 GCN은 다양한 영역 시맨틱 정보 사이의 연관 관계를 구축하도록 구성됨 ―;
이미지 영역 찾기 네트워크 모델을 사용하여 찾아질 텍스트에 대응하는 텍스트 특징 세트와 상기 각각의 향상된 시맨틱 정보 사이의 매칭 정도를 획득하는 작동 ― 상기 이미지 영역 찾기 네트워크 모델은 상기 이미지 후보 영역과 상기 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성되고, 상기 찾아질 텍스트의 각각의 단어는 상기 텍스트 특징 세트의 하나의 단어 특징에 대응함 ―; 및
상기 텍스트 특징 세트와 상기 각각의 향상된 시맨틱 정보 사이의 매칭 정도에 따라 상기 이미지 후보 영역 세트로부터 타깃 이미지 후보 영역을 결정하는 작동
을 수행하기 위해 상기 메모리의 프로그램을 실행하도록 구성되며,
상기 버스 시스템은 상기 메모리와 상기 프로세서가 통신을 수행할 수 있도록 상기 메모리와 상기 프로세서를 연결하도록 구성된다.
본 개시의 제7 측면에 따르면, 서버가 제공되며,
메모리, 트랜시버, 프로세서 및 버스 시스템을 포함하며,
상기 메모리는 프로그램을 저장하도록 구성되고,
상기 프로세서는,
훈련될 텍스트 세트 및 훈련될 이미지 후보 영역 세트를 획득하는 작동 ― 상기 훈련될 텍스트 세트는 제1 훈련될 텍스트 및 제2 훈련될 텍스트를 포함하고, 상기 훈련될 이미지 후보 영역 세트는 제1 훈련될 이미지 후보 영역 및 제2 훈련될 이미지 후보 영역을 포함하며, 상기 제1 훈련될 텍스트와 상기 제1 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있고, 상기 제1 훈련된 텍스트와 상기 제2 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있지 않으며, 상기 제2 훈련될 텍스트와 상기 제2 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있고, 상기 제2 훈련될 텍스트와 상기 제1 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있지 않음 ―;
상기 제1 훈련될 텍스트, 상기 제2 훈련될 텍스트, 상기 제1 훈련될 이미지 후보 영역 및 상기 제2 훈련될 이미지 후보 영역에 따라 타깃 손실 함수를 결정하는 작동; 및
이미지 영역 찾기 네트워크 모델을 획득하기 위해 상기 타깃 손실 함수를 사용하여 훈련될 이미지 영역 찾기 네트워크 모델을 훈련시키는 작동 ― 상기 이미지 영역 찾기 네트워크 모델은 텍스트 특징 세트 및 향상된 시맨틱 정보에 따라 이미지 후보 영역과 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성되고, 상기 향상된 시맨틱 정보와 상기 이미지 후보 영역은 대응관계를 가지며, 상기 텍스트 특징 세트와 상기 찾아질 텍스트는 대응관계를 가지고 있음 ―
을 수행하기 위해 상기 메모리의 프로그램을 실행하도록 구성되며,
상기 버스 시스템은 상기 메모리와 상기 프로세서가 통신을 수행할 수 있도록 상기 메모리와 상기 프로세서를 연결하도록 구성된다.
가능한 설계에서, 본 개시의 실시예의 제7 측면의 제1 구현에서, 상기 프로세서는,
다음의 방식
으로 상기 타깃 손실 함수를 결정하는 작동을 수행하기 위해 상기 메모리의 프로그램을 실행하도록 구성되며,
여기서 은 상기 타깃 손실 함수를 나타내고, 는 상기 제1 훈련될 이미지 후보 영역을 나타내며, 는 상기 제1 훈련될 텍스트를 나타내고, 는 상기 제2 훈련될 이미지 후보 영역을 나타내며, 는 상기 제2 훈련될 텍스트를 나타내고, 는 훈련될 데이터 쌍을 나타내며, max()는 최대값을 취함을 나타내고, 은 제1 파라미터 제어 가중치를 나타내며, 는 제2 파라미터 제어 가중치를 나타내고, 은 제1 미리 설정된 임계값을 나타내며, 는 제2 미리 설정된 임계값을 나타낸다.
본 개시의 제8 측면에 따르면, 컴퓨터 판독 가능 저장 매체가 제공되고, 상기 컴퓨터 판독 가능 저장 매체는 명령을 저장하고, 상기 명령은, 컴퓨터에서 실행될 때, 상기 컴퓨터로 하여금 전술한 측면 중 어느 하나에 따른 방법을 수행하게 한다.
본 개시의 제9 측면에 따르면, 이미지 영역을 찾는 방법이 제공되며,
이미지 찾기 명령을 수신하는 단계;
상기 이미지 찾기 명령에 응답하여 상기 이미지 찾기 명령에 따라 찾아질 이미지의 이미지 후보 영역 세트를 획득하는 단계 ― 상기 이미지 후보 영역 세트는 N개의 이미지 후보 영역을 포함하고, N은 1보다 크거나 같은 정수임 ―;
상기 이미지 후보 영역 세트에 따라 영역 시맨틱 정보 세트를 생성하는 단계 ― 상기 영역 시맨틱 정보 세트는 N개의 영역 시맨틱 정보를 포함하고, 각각의 영역 시맨틱 정보는 하나의 이미지 후보 영역에 대응함 ―;
GCN을 사용하여 상기 영역 시맨틱 정보 세트에 대응하는 향상된 시맨틱 정보 세트를 획득하는 단계 ― 상기 향상된 시맨틱 정보 세트는 N개의 향상된 시맨틱 정보를 포함하고, 각각의 향상된 시맨틱 정보는 하나의 영역 시맨틱 정보에 대응하며, 상기 GCN은 다양한 영역 시맨틱 정보 사이의 연관 관계를 구축하도록 구성됨 ―;
찾아질 텍스트에 대응하는 텍스트 특징 세트를 획득하는 단계 ― 상기 찾아질 텍스트는 T개의 단어를 포함하고, 상기 텍스트 특징 세트는 T개의 단어 특징을 포함하며, 각각의 단어는 하나의 단어 특징에 대응하고, T는 1보다 크거나 같은 정수임 ―;
이미지 영역 찾기 네트워크 모델을 사용하여 상기 텍스트 특징 세트와 상기 각각의 향상된 시맨틱 정보 사이의 매칭 정도를 획득하는 단계 ― 상기 이미지 영역 찾기 네트워크 모델은 상기 이미지 후보 영역과 상기 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성됨 ―;
상기 텍스트 특징 세트와 상기 각각의 향상된 시맨틱 정보 사이의 매칭 정도에 따라 상기 이미지 후보 영역 세트로부터 타깃 이미지 후보 영역을 결정하는 단계; 및
클라이언트가 이미지 생성 명령에 따라 상기 타깃 이미지 후보 영역을 디스플레이할 수 있도록 상기 클라이언트에게 상기 이미지 생성 명령을 전송하는 단계
를 포함한다.
도 1은 본 개시의 실시예에 따른 이미지 영역을 찾기 위한 시스템의 개략적인 아키텍처 도면이다.
도 2는 본 개시의 실시예에 따른 이미지 영역을 찾기 위한 전체 프레임워크의 개략도이다.
도 3은 본 개시의 실시예에 따른 이미지 영역을 찾기 위한 방법의 실시예의 개략도이다.
도 4는 본 개시의 실시예에 따른 모델 훈련 방법의 실시예의 개략도이다.
도 5는 본 개시의 실시예에 따른 이미지 영역을 찾기 위한 장치의 실시예의 개략도이다.
도 6은 본 개시의 실시예에 따른 모델 훈련 장치의 실시예의 개략도이다.
도 7은 본 개시의 실시예에 따른 단말 장치의 개략적인 구조도이다.
도 8은 본 개시의 실시예에 따른 서버의 개략적인 구조도이다.
관련 기술에서, 자연 문장에 가장 잘 매칭되는 이미지 영역이 이미지에서 찾아질 수 있지만, 로컬 영역들 사이의 공간적 관계가 고려되지 않고, 로컬 영역들 사이의 시맨틱(semantic) 정보가 무시된다. 그 결과, 타깃 이미지 영역이 정확하게 찾아질 수 없고, 이로 인해 이미지 이해 능력이 저하된다.
본 개시의 실시예는 이미지 영역을 찾기 위한 방법, 모델 훈련 방법 및 관련 장치를 제공한다. 이미지 후보 영역 사이의 시맨틱 표현은 GCN을 사용하여 효과적으로 강화될 수 있으며, 영상 후보 영역 사이의 공간적 관계가 고려되며, 이는 이미지 영역을 찾는 정확도를 향상시킬 수 있으므로, 이미지 이해 능력을 향상시킬 수 있다.
본 발명의 명세서 및 청구 범위와 전술한 첨부 도면에서 "제1", "제2", "제3", "제4" 등의 용어(있는 경우)는 유사한 객체를 구별하기 위해 사용되며, 특정 시퀀스나 순서를 설명하는 데 반드시 사용되는 것은 아니다. 이러한 방식으로 사용되는 데이터는 여기에서 설명되는 본 개시의 실시예가 여기에서 도시되거나 설명된 순서를 제외한 순서로 구현될 수 있도록 적절한 상황에서 상호 교환될 수 있다. 또한, 용어 "포함한다", "에 대응하는" 및 임의의 다른 변형은 비 배타적 포함을 커버하기 위한 것이다. 예를 들어, 일련의 단계 또는 유닛을 포함하는 프로세스, 방법, 시스템, 제품 또는 장치는 명시적으로 나열된 단계 또는 유닛에 반드시 제한되지는 않지만, 명시적으로 나열되지 않거나 그러한 프로세스, 방법, 제품 또는 장치에 고유하지 않은 다른 단계 또는 유닛을 포함할 수 있다.
본 개시에서 제공되는 이미지 영역을 찾기 위한 방법은 이미지에서 관심 타깃을 찾기 위해 이미지 처리 및 모드 인식과 같은 분야에 적용 가능하여, 특정 유형의 타깃이 결정될 수 있고 타깃의 경계 박스가 제공될 수 있다. 이미지 영역을 찾기 위한 방법은 얼굴 인식, 의료 영상, 지능 비디오 모니터링, 로봇 내비게이션, 컨텐츠 기반 이미지 검색, 이미지 기반 드로잉 기술, 이미지 편집 및 증강 현실과 같은 분야에 널리 적용된다. 예를 들어, 컨텐츠 기반 이미지 검색의 시나리오에서, 이미지 A가 있다고 가정한다. 이미지 A에서 복수의 후보 영역이 추출된다. 사용자가 "소년이 사과를 들고 있다"라는 문장을 입력한 것으로 가정된다. 이 경우, 문장은 각각의 후보 영역과 매칭된다. 매칭 결과에 따라 복수의 후보 영역 중에서 타깃 후보 영역이 선택된다. 본 개시는 주로 GCN을 사용하여 자연 문장 이미지 찾기를 완성하기 위한 것이다. 자연 문장은 단어, 구 또는 문장일 수 있으며, 자연 문장에 대응하는 이미지의 타깃 후보 영역이 발견된다. 타깃 후보 영역은 직사각형 박스로 정의될 수 있다.
실제 적용 동안, 이미지 영역 찾기는 세 개의 레벨을 포함할 수 있다. 제1 레벨은 이미지 레벨이다. 즉, 이미지에서 관련된 타깃 객체가 있는지 여부가 결정된다. 이미지 분류 또는 이미지 주석 기술에서, 예를 들어 "사과"라는 단어에 대해, "사과" 객체가 이미지에서 원으로 표시될 수 있다.
제2 계층은 영역 레벨이다. 즉, 이미지의 영역이 타깃 유형을 포함하는지 여부가 결정된다. 예를 들어, 이미지에서 타깃 유형의 검출에서, 예를 들어 "소년이 사과를 들고 있다"에 대해, 영역이 이미지로부터 프레임화될 수 있다. 이 영역은 소년과 사과를 포함한다.
제3 계층은 영역 레벨이다. 즉, 이미지의 각각의 픽셀이 속한 타깃 객체의 유형이 결정된다. 픽셀 레벨 분할은 또한 유형 레벨 타깃 분할 및 시맨틱 분할을 포함한다. 유형 레벨 타깃 분할과 시맨틱 분할 사이의 주요 차이점은 시맨틱 분할에서, 이미지의 배경을 포함하는 모든 타깃이 분할되어야 하고, 타깃의 유형이 결정되어야 하는 반면, 관심 타깃을 분할하고 타깃을 분류하기만 하면 된다.
설명의 편의를 위해, 본 개시는 이미지 영역을 찾기 위한 방법을 제안한다. 이 방법은 도 1에 도시된 이미지 영역을 찾기 위한 시스템에 적용 가능하다. 도 1은 본 개시의 실시예에 따른 이미지 영역을 찾기 위한 시스템의 개략적인 아키텍처 도면이다. 도면에 도시된 바와 같이, 본 개시에서 제공되는 이미지 영역을 찾기 위한 방법은 서버에 적용할 수 있거나 또는 클라이언트에 적용할 수 있다. 이 방법이 서버에 적용되는 경우, 찾기 결과를 결정한 후, 서버는 클라이언트에게 찾기 결과를 전송하고, 클라이언트를 사용하여 대응하는 타깃 이미지 후보 영역을 디스플레이할 수 있다. 이 방법이 클라이언트에 적용되는 경우, 찾기 결과를 결정한 후, 클라이언트는 대응하는 타깃 이미지 후보 영역을 직접 디스플레이할 수 있다. 구체적으로, 하나의 이미지에 대해, 먼저 이미지 검출 방법이 복수의 이미지 후보 영역(즉, 이미지의 로컬 영역)을 획득하는 데 사용된다. 복수의 영상 후보 영역에 대해, 이미지 후보 영역 사이의 공간적 관계는 그래프를 구축하는 데 사용된다. 그 후, 이미지 후보 영역의 경우, CNN은 대응하는 시맨틱 특징을 추출하는 데 사용될 수 있다. 획득된 시맨틱 특징과 구축된 그래프에 기초하여, GCN은 이미지 후보 영역의 표현을 추가로 학습하는 데 사용된다. GCN을 사용하여 획득되는 이미지 후보 영역의 표현에 기초하여, 가장 상관 관계가 있는 이미지 후보 영역을 자연 문장 이미지 찾기의 최종 결과로서 추가로 결정하기 위해 이러한 이미지 후보 영역과 주어진 자연 문장 사이의 시맨틱 관련성을 측정하는 데 시맨틱 매칭 방식이 사용된다.
클라이언트는 단말 장치에 배치된다. 단말 장치는 태블릿 컴퓨터, 노트북 컴퓨터, 팜탑 컴퓨터, 휴대폰, 음성 상호작용 장치 및 개인용 컴퓨터(personal computer, PC)를 포함하지만 이에 제한되지 않으며, 여기에서 제한되지 않는다. 음성 상호작용 장치는 스마트 사운드 및 스마트 가전을 포함하지만 이에 제한되지 않는다.
본 개시에서 제안되는 이미지 영역을 찾기 위한 방법은 자연 문장 이미지 찾기 서비스를 제공할 수 있다. 이 서비스는 서버 측에 배치될 수 있거나 또는 단말 장치 측에 배치될 수 있다. 서버 측에 이미지 영역을 찾기 위한 방법의 적용은 이미지에 대한 보다 상세히 세분화된 주석을 추가로 수행하기 위해 이미지에 대한 더 깊은 이해를 완성할 수 있으므로, 사용자가 빠르고 정밀한 검색 및 매칭을 할 수 있도록 도울 수 있고, 또한 화상 및 텍스트 정보의 개인 추천에 대한 적용을 할 수 있다는 것이 이해될 수 있다. 이미지 영역을 찾기 위한 방법은 단말 장치, 예를 들어, 휴대폰 단말 또는 로봇에 배치될 수 있다. 로봇의 카메라는 대응하는 이미지 신호를 획득하고, 사용자는 자연어를 사용하여 대응하는 로봇과 상호 작용한다. 예를 들어, 사용자는 음성 또는 키보드 입력을 통해 대응하는 자연어 텍스트를 획득한 후, 이미지 영역 찾기 네트워크 모델을 사용하여 대응하는 자연어 텍스트에 대한 이미지의 로컬 영역을 찾을 수 있다. 이러한 방식으로, 단말 장치는 사용자와 더 잘 상호 작용할 수 있다.
예시적인 시나리오에서, 사용자는 편리하게 정확한 검색을 수행할 수 있다. 사용자는 음성 또는 키보드를 사용하여 단말 장치에 자연어 텍스트를 입력할 수 있다. 단말 장치는 본 개시의 실시예에서 이미지 영역을 찾기 위한기 방법을 사용하여, 찾기 대상의 이미지에서 자연어 텍스트와 가장 잘 매칭되는 정도를 갖는 영역을 결정한다. 이것은 범죄 수사 분야와 교육 분야에서 실질적인 의미가 있다. 예를 들어, 범죄 수사 분야에서, 감시 영상 이미지에서 특징이 있는 용의자를 정확하게 찾을 수 있다. 다르게는, 교육 분야에서, 모든 학생이 클래스 비디오 이미지에서 정확하게 찾아질 수 있다. 복잡한 수동 스크리닝이 필요하지 않으며, 사용자는 자연어 텍스트만 입력하면 된다.
예시적인 시나리오에서, 서비스 단말은 사용자에 대응하는 단말 장치에 대한 개인화된 추천을 편리하게 수행할 수 있다. 서비스 단말은 사용자가 입력하여 완전히 권한이 부여된 자연어 텍스트를 수집하고, 서비스 단말은 보다 정확한 개인화된 추천이 달성될 수 있도록 유사한 이미지 자원, 비디오 자원, 웹 페이지 자원 등을 선택된 영역으로 푸시하기 위해 본 개시의 실시예에서 이미지 영역을 찾기 위한 방법을 사용하여 찾기 대상의 이미지에서 자연어와 가장 잘 매칭되는 정도를 갖는 영역을 결정함으로써, 자원 추천 프로세스의 정확도를 향상시킬 수 있다.
이해의 편의를 위해, 도 2를 참조하면, 도 2는 본 개시의 실시예에 따른 이미지 영역을 찾기 위한 전체 프레임워크의 개략도이다. 도면에 도시된 바와 같이, 자연 이미지의 경우, 객체 제안 방법은 대응하는 이미지 후보 영역을 획득하는 데 사용된다. 대응하는 이미지 후보 영역이 추출된 후, 대응하는 CNN이 대응하는 이미지 후보 영역의 시맨틱 표현을 추출하는 데 사용되고, 각각의 후보 영역은 하나의 특징 벡터로 표현된다. 대응하는 후보 영역에 대응하는 시맨틱 표현 이 추가로 획득되며, 여기서 n은 이미지로부터 추출된 이미지 후보 영역의 총 개수를 나타낸다. 그 후, GCN은 이미지 후보 영역의 향상된 시맨틱 표현 을 획득하기 위해 이미지 후보 영역의 추출된 시맨틱 표현을 향상시키는 데 사용된다. GCN을 구축하는 과정에서, 대응하는 그래프를 구축하고 대응하는 연결 에지 정보를 추가로 정의하기 위해 이미지 후보 영역 사이의 시맨틱 유사성이 고려된다. 연결 에지 정보는 대응하는 이미지 후보 영역의 시맨틱 표현을 향상시키는 데 사용된다.
입력된 자연 문장(예를 들어, "좌측에서 야구를 하고 있는 백인")에 대해, RNN은 자연 문장에 대응하는 시맨틱 표현을 획득하기 위해 자연 문장을 인코딩하는 데 사용된다. 자연 문장의 시맨틱 표현과 이미지 후보 영역의 대응하는 향상된 시맨틱 표현에 대해, 자연 문장과 대응하는 이미지 후보 영역 사이의 시맨틱 관계를 학습하기 위해 매칭 학습 방법이 사용된다. 마지막으로, 자연 문장과 이미지 후보 영역 사이의 시맨틱 유사성은 가장 시맨틱적으로 관련된 이미지 후보 영역을 타깃 이미지 후보 영역으로 선택하는 데 사용된다.
전술한 설명을 참조하면, 본 개시에서 이미지 영역을 찾기 위한 방법이 아래에서 설명된다. 도 3을 참조하면, 본 방법이 이미지 영역을 찾기 위한 장치에 적용되는 예가 설명을 위해 사용된다. 이미지 영역을 찾기 위한 장치는 서버에 배치될 수 있거나 또는 단말 장치에 배치될 수 있다. 본 개시의 실시예에서 이미지 영역을 찾기 위한 방법의 실시예는 다음 단계를 포함한다.
단계 101. 이미지 영역을 찾기 위한 장치는 찾아질 이미지의 이미지 후보 영역 세트를 획득하며, 이미지 후보 영역 세트는 N개의 이미지 후보 영역을 포함하고, N은 1보다 크거나 같은 정수이다.
본 실시예에서, 이미지 영역을 찾기 위한 장치는 먼저 찾아질 이미지를 획득한다. 찾아질 이미지는 백엔드 서버에 저장된 이미지일 수 있거나 또는 클라이언트에 의해 업로드된 이미지일 수 있거나 또는 클라이언트의 로컬 이미지일 수 있다. 이미지 영역을 찾기 위한 장치는 서버에 배치될 수 있거나 또는 단말 장치에 배치될 수 있음이 이해될 수 있다. 이것은 여기에서 제한되지 않는다.
이미지 영역을 찾기 위한 장치가 찾아질 이미지를 획득한 후, 객체 제안 방법이 찾아질 이미지에서 이미지 후보 영역 세트를 추출하는 데 사용될 수 있다. 이미지 후보 영역 세트는 N개의 이미지 후보 영역을 포함하고, N은 1보다 크거나 1과 같은 정수이다. N이 1과 같은 경우, 찾아질 이미지에 하나의 이미지 후보 영역만 있음을 나타내고, 이미지 후보 영역은 타깃 이미지 후보 영역으로 직접 사용된다.
객체 제안 방법에 기초하여, 이미지 내의 이미지 후보 영역이 추출될 수 있다. 구체적으로, 타깃이 이미지에서 나타날 수 있는 위치인 이미지 후보 영역이 미리 찾아진다. 이미지의 텍스처(texture), 에지 및 색상과 같은 정보를 사용하면, 상대적으로 적은 수의 윈도우가 선택되면서 상대적으로 높은 재현율(Intersection-over-Union, IoU)이 유지될 수 있음이 보장된다. 객체 제안 방법은 영역 기반 CNN(R-CNN), 고속 R-CNN 및 더 빠른 R-CNN 등을 포함하지만, 이에 제한되지 않는다. 이것은 여기에서 제한되지 않는다.
단계 102. 이미지 영역을 찾기 위한 장치는 이미지 후보 영역 세트에 따라 영역 시맨틱 정보 세트를 생성하며, 영역 시맨틱 정보 세트는 N개의 영역 시맨틱 정보를 포함하고, 각각의 영역 시맨틱 정보는 하나의 이미지 후보 영역에 대응한다.
본 실시예에서, 이미지 후보 영역 세트를 획득한 후, 이미지 영역을 찾기 위한 장치는 영역 시맨틱 정보 세트를 획득하기 위해 신경망을 사용하여 이미지 후보 영역의 대응하는 시맨틱 표현을 생성한다. 영역 시맨틱 정보 세트는 N개의 영역 시맨틱 정보를 포함한다. 각각의 영역 시맨틱 정보는 하나의 이미지 후보 영역에 대응한다.
신경망은 구체적으로 CNN일 수 있다. 실제 적용 중에, 신경망은 다른 유형의 신경망일 수 있다. 이것은 여기서는 개략적일 뿐이며, 본 개시에 대한 제한으로 이해되어서는 안된다.
전술한 과정에서, 즉, 이미지 영역을 찾기 위한 장치는 찾아질 이미지의 이미지 후보 영역 세트에 따라 영역 시맨틱 정보 세트를 생성하며, 영역 시맨틱 정보 세트의 각각의 영역 시맨틱 정보는 이미지 후보 영역 세트의 하나의 이미지 후보 영역에 대응한다.
단계 103. 이미지 영역을 찾기 위한 장치는 GCN을 사용하여 영역 시맨틱 정보 세트에 대응하는 향상된 시맨틱 정보 세트를 획득하며, 향상된 시맨틱 정보 세트는 N개의 향상된 시맨틱 정보를 포함하고, 각각의 향상된 시맨틱 정보는 하나의 영역 시맨틱 정보에 대응하며, GCN은 다양한 영역 시맨틱 정보 사이의 연관 관계를 구축하도록 구성된다.
즉, 향상된 시맨틱 정보 세트의 각각의 향상된 시맨틱 정보는 영역 시맨틱 정보 세트의 하나의 영역 시맨틱 정보에 대응한다.
본 실시예에서, 이미지 영역을 찾기 위한 장치는 GCN을 사용하여 영역 시맨틱 정보 세트에 대응하는 향상된 시맨틱 정보 세트를 획득한다. 즉, GCN을 사용하여 이미지 후보 영역의 시맨틱 표현이 향상될 수 있다. 향상된 시맨틱 정보 세트는 N개의 향상된 시맨틱 정보를 포함한다. 즉, 각각의 이미지 후보 영역은 하나의 영역 시맨틱 정보에 대응하고, 각각의 이미지 후보 영역은 하나의 영역 시맨틱 향상 정보에 대응한다. GCN은 노드 사이의 연관 관계를 구축하는 데 사용될 수 있다. 본 개시에서, 다양한 영역 시맨틱 정보 사이에 연관 관계가 구축될 수 있다.
GCN은 컨볼루션 네트워크 모델이다. GCN에 대응하여, GCN의 목표는 그래프 G = (V, E)에서 신호 또는 특징의 매핑을 학습하는 것이다. 그래프를 구축하는 과정은 이미지 후보 영역이 획득된 후에 수행된다. 그래프는 이미지 후보 영역 사이의 공간적 정보에 따라 구축된다. 데이터에 포함된 정보와 데이터 사이의 관계는 향상된 시맨틱 정보가 획득될 수 있도록 이미지 후보 영역의 시맨틱 표현을 향상시키는 데 사용될 수 있다.
단계 104. 이미지 영역을 찾기 위한 장치는 찾아질 텍스트에 대응하는 텍스트 특징 세트를 획득하며, 찾아질 텍스트는 T개의 단어를 포함하고, 텍스트 특징 세트는 T개의 단어 특징을 포함하며, 각각의 단어는 하나의 단어 특징에 대응하고, T는 1보다 크거나 같은 정수이다.
본 실시예에서, 이미지 영역을 찾기 위한 장치는 찾아질 텍스트를 획득한다. 단계 104는 단계 101 이전에 수행될 수 있거나, 또는 단계 103 이후에 수행될 수 있거나, 또는 단계 101과 동시에 수행될 수 있음이 이해될 수 있다. 단계 104의 실행 순서는 여기에서 제한되지 않는다. 찾아질 텍스트는 구체적으로 사용자에 의해 입력된 텍스트일 수 있거나 또는 사용자에 의해 입력된 음성을 인식하여 획득된 텍스트일 수 있다. 찾아질 텍스트는 단어, 구, 문장, 단락 등의 형태로 표현된다. 찾아질 텍스트는 중국어, 영어, 일본어, 프랑스어, 독일어, 러시아어 등일 수 있다. 이것은 여기에서 제한되지 않는다.
찾아질 텍스트가 획득된 후, 최종적으로 텍스트 특성 세트를 획득하기 위해 특징 추출 및 인코딩이 찾아질 텍스트의 각각의 단어에 대해 수행된다. 예를 들어, 찾아질 텍스트 "소년이 한 개의 사과를 들고 있다"는 4개의 단어, 즉 "소년", "들고 있다", "하나" 및 "사과"의 네 단어를 포함한다. 네 단어의 특징이 추출된 다음 텍스트 특징 세트를 추가로 획득하기 위해 인코딩된다. 찾아질 텍스트는 T개의 단어를 포함한다. 텍스트 특징 세트는 T개의 단어 특징을 포함한다. 각각의 단어는 하나의 단어 특징에 대응한다. T는 1보다 크거나 같은 정수이다.
찾아질 텍스트 "소년이 한 개의 사과를 들고 있다"는 구체적인 표현임이 이해될 수 있을 것이다. 따라서, "소년"과 "사과"를 모두 포함하는 이미지 후보 영역은 찾아질 이미지로부터 획득될 수 있다.
단계 105. 이미지 영역을 찾기 위한 장치는 이미지 영역 찾기 네트워크 모델을 사용하여 텍스트 특징 세트와 각각의 향상된 시맨틱 정보 사이의 매칭 정도를 획득하며, 이미지 영역 찾기 네트워크 모델은 이미지 후보 영역과 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성된다.
본 실시예에서, 이미지 영역을 찾기 위한 장치는 각각의 향상된 시맨틱 정보와 텍스트 특징 세트 각각을 이미지 영역 찾기 네트워크 모델에 개별적으로 입력할 수 있고, 이미지 영역 찾기 네트워크 모델은 대응하는 매칭 정도를 출력한다. 이미지 영역 찾기 네트워크 모델은 이미지 후보 영역과 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성된다. 즉, 매칭 정도가 높은 경우, 매칭 관계가 강함을 나타낸다.
매칭 정도는 매칭 스코어 또는 매칭 식별자로 표현될 수 있거나, 또는 다른 유형의 매칭 관계로 표현될 수 있음이 이해될 수 있다.
전술한 과정에서, 즉, 이미지 영역을 찾기 위한 장치는 이미지 영역 찾기 네트워크 모델을 사용하여 찾아질 텍스트에 대응하는 텍스트 특징 세트와 각각의 향상된 시맨틱 정보 사이의 매칭 정도를 획득한다. 찾아질 텍스트의 각각의 단어는 텍스트 특징 세트의 하나의 단어 특징에 대응한다.
단계 106. 이미지 영역을 찾기 위한 장치는 텍스트 특징 세트와 각각의 향상된 시맨틱 정보 사이의 매칭 정도에 따라 이미지 후보 영역 세트로부터 타깃 이미지 후보 영역을 결정한다.
본 실시예에서, 이미지 영역을 찾기 위한 장치는 텍스트 특징 세트와 각각의 향상된 시맨틱 정보 사이의 매칭 정도에 따라 이미지 후보 영역 중에서 매칭 정도가 가장 높은 이미지 후보 영역을 타깃 이미지 후보 영역으로 선택할 수 있다. 설명의 편의를 위해, [표 1]은 텍스트 특징 세트와 향상된 시맨틱 정보 사이의 개략적인 매칭 정도이다.
[표 1]에서 알 수 있는 바와 같이, "텍스트 특징 세트 + 향상된 시맨틱 정보 D"에 대응하는 매칭 정도가 최대이다. 따라서, 이미지 영역을 찾기 위한 장치는 이미지 후보 영역 D를 타깃 이미지 후보 영역으로 사용한다.
본 개시의 실시예에서, 이미지 영역을 찾기 위한 방법이 제공된다. 이 방법은, 먼저 찾아질 이미지에서 이미지 후보 영역 세트를 획득하는 단계 ― 이미지 후보 영역 세트는 N개의 이미지 후보 영역을 포함함 ―, 다음 이미지 후보 영역 세트에 따라 영역 시맨틱 정보 세트를 생성하는 단계 ― 각각의 영역 시맨틱 정보는 ?汰? 이미지 후보 영역에 대응함 ―, 다음 GCN을 사용하여 영역 시맨틱 정보 세트에 대응하는 향상된 시맨틱 정보 세트를 획득하는 단계 ― 각각의 향상된 시맨틱 정보는 하나의 영역 시맨틱 정보에 대응하고, GCN은 다양한 영역 시맨틱 정보 사이의 연관 관계를 구축하도록 구성됨 ―, 또한, 찾아질 텍스트에 대응하는 텍스트 특징 세트를 획득하는 단계, 다음으로, 이미지 영역 찾기 네트워크 모델을 사용하여 텍스트 특징 세트와 각각의 향상된 시맨틱 정보 사이의 매칭 정도를 획득하는 단계, 마지막으로 텍스트 특징 세트와 각각의 향상된 시맨틱 정보 사이의 매칭 정도에 따라 이미지 후보 영역 세트에서 타깃 이미지 후보 영역을 결정하는 단계를 포함한다. 전술한 방식에서, 이미지 후보 영역 사이의 시맨틱 표현이 GCN을 사용하여 효과적으로 향상될 수 있으며, 이미지 후보 영역 사이의 공간적 관계가 고려되어, 이미지 영역을 찾는 정확도를 높일 수 있으므로, 이미지 이해 능력을 개선시킬 수 있다.
선택적으로, 도 3에 대응하는 전술한 실시예에 기초하여, 본 개시의 실시예에서 제공되는 이미지 영역을 찾기 위한 방법의 제1 선택적 실시예에서, 이미지 영역을 찾기 위한 장치에 의해, 이미지 후보 영역 세트에 따라 영역 시맨틱 정보 세트를 생성하는 단계는,
이미지 영역을 찾기 위한 장치에 의해, CNN을 사용하여 각각의 이미지 후보 영역에 대응하는 영역 시맨틱 정보를 획득하는 단계 ― 이미지 후보 영역은 영역 정보를 포함하고, 영역 정보는 찾아질 이미지에서 이미지 후보 영역의 위치 정보와 이미지 후보 영역의 크기 정보를 포함함 ―; 및
이미지 영역을 찾기 위한 장치에 의해, N개의 이미지 후보 영역에 대응하는 영역 시맨틱 정보가 획득되는 경우, N개의 영역 시맨틱 정보에 따라 영역 시맨틱 정보 세트를 생성하는 단계
를 포함할 수 있다.
본 실시예에서, 이미지 후보 영역 세트를 획득한 후, 이미지 영역을 찾기 위한 장치는 CNN을 사용하여 각각의 이미지 후보 영역의 영역 시맨틱 정보를 생성할 수 있으며, 영역 시맨틱 정보는 이미지 후보 영역의 시맨틱 표현이다. 구체적으로, 이미지 후보 영역 세트는 로서 정의된다고 가정한다. 각각의 이미지 후보 영역은 영역 정보 를 포함한다. 이미지 후보 영역 는 이미지 후보 영역 세트의 하나의 이미지 후보 영역을 나타낸다. 은 찾아질 이미지에서 이미지 후보 영역의 위치 정보를 나타낸다. 구체적으로, 는 찾아질 이미지에서 이미지 후보 영역의 가장 높은 지점의 수평 좌표 위치 정보를 나타내고, 은 찾아질 이미지에서 이미지 후보 영역의 가장 높은 지점의 수직 좌표 위치 정보를 나타내며, 은 이미지 후보 영역의 크기 정보를 나타내고, 크기 정보는 찾아질 이미지에 대한 이미지 후보 영역의 비례 크기이며, 은 찾아질 이미지에서 이미지 후보 영역의 폭 정보를 나타내고, 은 찾아질 이미지에서 이미지 후보 영역의 높이 정보를 나타낸다.
이미지 후보 영역 은 다음의 표현
을 획득하기 위해 CNN에 입력된다.
이와 같이, 대응하는 영역 시맨틱 정보 가 획득된다. 전술한 방식에서, 이미지 후보 영역 세트 에 대응하는 영역 시맨틱 정보 세트 가 획득되며, 여기서 n은 1보다 크거나 같고 N보다 작거나 같은 정수이다.
이해의 편의를 위해, CNN은 일반적으로 여러 계층, 즉 컨볼루션 계층, ReLU(rectified linear unit) 계층, 풀링 계층 및 완전 연결 계층을 포함한다.
컨볼루션 계층의 경우, CNN에서 각각의 컨볼루션 계층은 복수의 컨볼루션 유닛에 의해 형성된다. 각가의 컨볼루션 유닛의 파라미터는 역전파 알고리즘을 사용하여 최적화를 통해 획득된다. 컨볼루션 작동의 목적은 입력된 상이한 특징을 추출하는 것이다. 제1 컨벌루션 계층은 하위 레벨 특징만, 예를 들어 에지, 선, 각도 등과 같은 레벨을 추출할 수 있고, 더 많은 계층이 있는 네트워크는 하위 레벨 특징으로부터 더 복잡한 특징을 반복적으로 추출할 수 있다.
ReLU 계층의 경우, 신경망 계층에서 활성화 기능을 위해 선형 정류(Linear Rectification)(ReLU)가 사용된다.
풀링 계층(pooling layer)의 경우, 일반적으로 컨볼루션 계층 이후에 매우 큰 차원의 특징이 획득되고, 그 특징이 복수의 영역으로 분할되며, 그 최대값 또는 평균값이 비교적 작은 차원의 새로운 특징을 획득하기 위해 취해진다.
완전 연결 계층(fully-connected layer)의 경우, 모든 로컬 특징이 결합되어 전역 특징을 형성하고 각각의 유형의 최종 스코어를 계산하는 데 사용된다.
다음으로, 본 개시의 실시예에서, 영역 시맨틱 정보 세트를 생성하는 방식이 제공된다. 먼저 이미지 후보 영역에 대응하는 영역 시맨틱 정보가 CNN을 사용하여 획득한다. 이미지 후보 영역은 영역 정보를 포함한다. 영역 정보는 찾아질 이미지에서 이미지 후보 영역의 위치 정보와 이미지 후보 영역의 크기 정보를 포함한다. 영역 시맨틱 정보 세트는 N개의 이미지 후보 영역에 대응하는 영역 시맨틱 정보가 획득되는 경우 N개의 영역 시맨틱 정보에 따라 생성된다. 전술한 방식에서, CNN을 사용하여 각각의 이미지 후보 영역의 영역 시맨틱 정보가 추출될 수 있다. CNN은 피드 포워드(feed-forward) 신경망이다. CNN의 인공 뉴런은 부분 커버리지 영역에서 주변 유닛에 반응할 수 있으므로, 대규모 이미지 처리에 뛰어난 성능이 있다. 이와 같이, 정보 추출의 정확성이 향상된다.
선택적으로, 도 3에 대응하는 전술한 실시예에 기초하여, 본 개시의 실시예에서 제공되는 이미지 영역을 찾기 위한 방법의 제2 선택적 실시예에서, 이미지 영역을 찾기 위한 장치에 의해, GCN을 사용하여 영역 시맨틱 정보에 대응하는 향상된 시맨틱 정보 세트를 획득하는 단계는,
이미지 영역을 찾기 위한 장치에 의해, 영역 시맨틱 정보 세트로부터 제1 영역 시맨틱 정보 및 제2 영역 시맨틱 정보를 획득하는 단계 ― 제1 영역 시맨틱 정보는 영역 시맨틱 정보 세트에서 임의의 하나의 영역 시맨틱 정보이고, 제2 영역 시맨틱 정보는 영역 시맨틱 정보 세트에서 임의의 하나의 영역 시맨틱 정보임 ―;
이미지 영역을 찾기 위한 장치에 의해, 제1 영역 시맨틱 정보와 제2 영역 시맨틱 정보 사이의 연결 에지의 강도를 획득하는 단계;
이미지 영역 치에 의해, 정규화된 강도를 획득하기 위해 제1 영역 시맨틱 정보와 제2 영역 시맨틱 정보 사이의 연결 에지의 강도를 정규화하는 단계;
이미지 영역을 찾기 위한 장치에 의해, 영역 시맨틱 정보 세트의 다양한 영역 시맨틱 정보 사이의 정규화된 강도에 따라 타깃 연결 매트릭스를 결정하는 단계; 및
이미지 영역을 찾기 위한 장치에 의해, GCN을 사용하여 타깃 연결 매트릭스에 대응하는 향상된 시맨틱 정보 세트를 결정하는 단계
를 포함할 수 있다.
본 실시예에서, 이미지 영역을 찾기 위한 장치는 이미지 후보 영역의 시맨틱 표현의 향상을 완성하기 위해 하나의 GCN을 사용한다. 먼저, 하나의 그래프가 구축될 필요가 있다. 이러한 그래프에서 각각의 노드는 이미지 후보 영역의 영역 시맨틱 정보에 대응한다. 모든 노드 사이에는 대응하는 연결 에지가 있다. 연결 에지의 연결 정보의 강도는 예측을 위해 하나의 심층망(deep network)에서 비롯된다.
여기서, 는 제1 영역 시맨틱 정보를 나타내고, 는 제2 영역 시맨틱 정보를 나타내며, 는 심층망을 나타내고, 구체적으로 다층 퍼셉트론(multi-layer perceptron), 벡터 내적 또는 코사인 유사성을 사용하여 구현될 수 있다. 는 제1 영역 시맨틱 정보와 제2 영역 시맨틱 정보 사이의 연결 에지의 강도를 나타낸다. 다음으로, 는 정규화된 강도를 획득하기 위해 정규화된다. 그 다음, 영역 시맨틱 정보 세트 내의 다양한 영역 시맨틱 정보 사이의 정규화된 강도에 따라 타깃 연결 매트릭스가 결정된다. 마지막으로, GCN을 사용하여 타깃 연결 매트릭스에 대응하는 향상된 시맨틱 정보 세트가 생성된다.
그래프는 데이터 포맷이다. 그래프는 소셜 네트워크, 통신 네트워크, 단백질 분자 네트워크 등을 나타내는 데 사용될 수 있다. 그래프의 노드는 네트워크의 개인을 나타낸다. 연결 에지는 개인 간의 연결 관계를 나타낸다. 많은 기계 학습 태스크는 그래프 구조 데이터를 사용해야 한다. 따라서, GCN의 등장은 이러한 문제를 해결하기 위한 새로운 개념을 제공한다. 컨볼루션 슬라이스는 세 단계를 사용하여 구축될 수 있다. 단계 1, 그래프에서 고정 길이의 노드 시퀀스 선택하는 단계; 단계 2, 시퀀스의 각각의 노드에 대해 고정된 크기의 이웃 도메인 세트를 수집하는 단계; 및 단계 3, 컨벌루션 구조의 입력으로 사용하기 위해 현재 노드 및 노드에 대응하는 이웃 도메인에 의해 형성된 서브 그래프를 표준화하는 단계. 전술한 세 단계를 사용하여 모든 컨볼루션 슬라이스가 구축된 후, 컨볼루션 구조는 각각의 슬라이스에 대한 작동을 개별적으로 수행하는 데 사용된다.
다음으로, 본 개시의 실시예에서, GCN을 사용하여 향상된 시맨틱 정보 세트을 획득하는 방식이 제공된다. 먼저, 제1 영역 시맨틱 정보 및 제2 영역 시맨틱 정보가 영역 시맨틱 정보 세트로부터 획득된다. 그 다음, 제1 영역 시맨틱 정보와 제2 영역 시맨틱 정보 사이의 연결 에지의 강도가 획득된다. 다음으로, 제1 영역 시맨틱 정보와 제2 영역 시맨틱 정보 사이의 연결 에지의 강도가 정규화되어 정규화된 강도를 획득한다. 그 다음, 영역 시맨틱 정보 세트 내의 다양한 영역 시맨틱 정보 사이의 정규화된 강도에 따라 타깃 연결 매트릭스가 결정된다. 마지막으로, GCN을 사용하여 타깃 연결 매트릭스에 대응하는 향상된 시맨틱 정보 세트가 결정된다. 전술한 방식에서, GCN을 사용하여 이미지 후보 영역 사이의 시맨틱 관계가 구축된다. 이러한 방식으로, 공간적 정보와 시맨틱 관계가 충분히 고려됨으로써, 이미지 기반 찾기 성능을 향상시킬 수 있다.
선택적으로, 도 3에 대응하는 전술한 제2 실시예에 기초하여, 본 개시의 실시예에서 제공되는 이미지 영역을 찾기 위한 방법의 제3 선택적 실시예에서, 이미지 영역을 찾기 위한 장치에 의해, 영역 시맨틱 정보 세트의 다양한 영역 시맨틱 정보 사이의 정규화된 강도에 따라 타깃 연결 매트릭스를 결정하는 단계는,
이미지 영역을 찾기 위한 장치에 의해, 영역 시맨틱 정보 세트 내의 다양한 영역 시맨틱 정보 사이의 정규화된 강도에 따라 연결 매트릭스를 생성하는 단계; 및
이미지 영역을 찾기 위한 장치에 의해, 연결 매트릭스 및 단위 매트릭스에 따라 타깃 연결 매트릭스를 생성하는 단계
를 포함할 수 있다.
본 실시예에서, 이미지 영역을 찾기 위한 장치는 정규화된 강도를 획득하기 위해 먼저 제1 영역 시맨틱 정보와 제2 영역 시맨틱 정보 사이의 연결 에지의 강도를 정규화할 수 있다. 전술한 실시예에 기초하여, 제1 영역 시맨틱 정보와 제2 영역 시맨틱미 정보 사이의 연결 에지의 강도는 구체적으로,
과 같이 표현되며,
여기서, 는 제1 영역 시맨틱 정보를 나타내고, 는 제2 영역 시맨틱 정보를 나타내며, , , , 는 모두 GCN의 모델 파라미터이고, 는 제1 영역 시맨틱 정보와 제2 영역 시맨틱 정보 사이의 연결 에지의 강도를 나타낸다.
정규화된 연산은 정규화된 강도를 획득하기 위해 대응하는 에지 정보에 대해 추가로 수행될 수 있으며,
여기서, 는 제1 영역 시맨틱 정보와 제2 영역 시맨틱 정보 사이의 정규화된 강도를 나타낸다. 대응하는 영역 시맨틱 정보의 연결 정보가 완전한 연결 매트릭스를 추가로 구축하기 위해 모든 영역 시맨틱 정보가 트래버스(traverse)된다.
정보를 추가로 향상시키기 위해, 단위 매트릭스는 타깃 연결 매트릭스를 획득하기 위해 대응하는 완전한 연결 매트릭스에 추가된다.
다음으로, 본 개시의 실시예에서, 영역 시맨틱 정보 세트 내의 다양한 영역 시맨틱 정보 사이의 정규화된 강도에 따라 타깃 연결 매트릭스를 결정하는 방식이 제공된다. 즉, 연결 매트릭스는 먼저 영역 시맨틱 정보 세트의 다양한 영역 시맨틱 정보 사이의 정규화된 강도에 따라 생성된다. 그런 다음, 타깃 연결 매트릭스는 연결 매트릭스와 단위 매트릭스에 따라 생성된다. 전술한 방식에서, 정규화의 처리 측정을 통해, 물리적 시스템에서 값의 절대값이 상대값 관계로 전환될 수 있으므로, 계산이 단순화되고 크기가 감소될 수 있다. 또한, 정보를 추가로 향상시키기 위해, 단위 매트릭스는 타깃 연결 매트릭스를 형성하기 위해 대응하는 연결 매트릭스에 추가된다.
선택적으로, 도 3에 대응하는 전술한 제2 또는 제3 실시예에 기초하여, 본 개시의 실시예에서 제공되는 이미지 영역을 찾기 위한 방법의 제4 선택적 실시예에서, 이미지 영역을 찾기 위한 장치에 의해, GCN을 사용하여 타깃 연결 매트릭스에 대응하는 향상된 시맨틱 정보 세트를 결정하는 단계는,
이미지 영역을 찾기 위한 장치에 의해, 다음과 같은 방식으로 향상된 시맨틱 정보 세트를 계산하는 단계를 포함할 수 있으며,
여기서, 는 GCN의 k 번째 계층에 대응하는 i 번째 향상된 시맨틱 정보를 나타내고, 는 GCN의 k-1 번째 계층에 대응하는 j 번째 향상된 시맨틱 정보를 나타내며, 는 GCN의 k 번째 계층의 제1 네트워크 파라미터를 나타내고, 는 GCN의 k 번째 계층의 제2 네트워크 파라미터를 나타내며, 는 j 번째 노드가 i 번째 노드의 이웃 노드임을 나타내고, 는 타깃 연결 매트릭스의 요소를 나타낸다.
본 실시예에서, 이미지 영역을 찾기 위한 장치에 의해, 타깃 연결 매트릭스에 기초하여 GCN을 사용하여 이미지 후보 영역의 시맨틱 표현을 향상시키는 단계는 다음의 수학식을 사용할 수 있으며,
여기서, 는 GCN의 k 번째 계층의 제1 네트워크 파라미터를 나타내고, 는 GCN의 k 번째 계층의 제2 네트워크 파라미터를 나타낸다. GCN의 네트워크 파라미터는 그래프의 컨볼루션 계층 사이에 공유되지 않음이 이해될 수 있다. 그러나, 고정된 컨볼루션 계층에서, GCN의 네트워크 파라미터는 공유될 수 있거나 또는 공유되지 않을 수 있다. 노드 i에 대응하는 이웃 노드는 노드 J로서 선택된다. 노드 사이의 유사성은 노드 사이의 시맨틱 유사성을 사용하여 측정될 수 있다. 따라서, 하나의 완전히 연결된 그래프 구조가 구축되고, 이에 상응하여 각각의 노드는 다른 노드에 연결된다. 마지막으로, 각각의 노드의 대응하는 시맨틱 표현은 구축된 타깃 연결 매트릭스에 기초하여 업데이트된다.
다층 그래프 컨볼루션 처리는 GCN에서 수행될 수 있고, 전술한 수학식에 대해 여러 번 수행될 수 있으며, 동일한 네트워크 파라미터의 세트는 공유될 수 있거나 또는 네트워크 파라미터는 공유되지 않을 수 있다.
또한, 본 개시의 실시예에서, GCN을 사용하여 결정되는 타깃 연결 매트릭스에 대응하는 향상된 시맨틱 정보 세트의 구체적인 방식이 제공된다. 전술한 방식에서, 구체적인 계산 방식이 GCN 기반 계산을 위해 제공되므로, 해결수단의 실행 가능성과 운용성을 향상시킬 수 있다.
선택적으로, 도 3에 대응하는 전술한 실시예에 기초하여, 본 개시의 실시예에서 제공되는 이미지 영역을 찾기 위한 방법의 제5 선택적 실시예에서, 이미지 영역을 찾기 위한 장치에 의해, 찾아질 텍스트에 대응하는 텍스트 특징 세트를 획득하는 단계는,
이미지 영역을 찾기 위한 장치에 의해, 찾아질 텍스트를 획득하는 단계;
이미지 영역을 찾기 위한 장치에 의해, 찾아질 텍스트에 따라 텍스트 벡터 시퀀스를 획득하는 단계 ― 텍스트 벡터 시퀀스는 T개의 단어 벡터를 포함하고, 각각의 단어 벡터는 하나의 단어에 대응함 ―;
이미지 영역을 찾기 위한 장치에 의해, 텍스트 특징을 획득하기 위해 텍스트 벡터 시퀀스 내의 각각의 단어 벡터를 인코딩하는 단계; 및
이미지 영역을 찾기 위한 장치에 의해, T개의 단어 벡터에 대응하는 텍스트 특징이 획득되는 경우, T개의 텍스트 특징에 따라 텍스트 특징 세트를 생성하는 단계
를 포함할 수 있다.
본 실시예에서, 이미지 영역을 찾기 위한 장치는 먼저 찾아질 텍스트를 획득한다. 찾아질 텍스트는 사용자가 입력된 텍스트일 수 있고, 사용자에 의해 입력된 음성으로부터 변환된 텍스트일 수 있거나, 또는 백엔드에서 추출된 텍스트일 수도있다. 찾아질 텍스트가 획득된 후, 찾아질 텍스트의 각각의 단어가 추출되고, 그 후 각각의 단어 벡터가 각각의 단어에 대해 구축된다. 찾아질 텍스트는 T개의 단어를 포함한다고 가정된다. 이 경우, T개의 단어 벡터가 획득될 수 있다. T개의 단어 벡터는 텍스트 벡터 시퀀스를 형성한다. 이미지 영역을 찾기 위한 장치는 LSTM 네트워크 구조를 사용하여 텍스트 벡터 시퀀스를 인코딩한다. 구체적으로, 각각의 단어 벡터는 LSTM 구조를 사용하여 인코딩되어 T개의 텍스트 특징을 획득함으로써, 텍스트 특징 세트를 생성할 수 있다.
자연어 처리 태스크에서, 컴퓨터에서 단어를 표현하는 방법이 먼저 고려된다. 일반적으로, 두 개의 표현 방식, 즉 이산적 표현(원 핫 표현(one-hot representation))과 분산 표현이 있다. 원 핫 표현에서, 각각의 단어는 하나의 긴 벡터로 표현된다. 이러한 벡터의 차원은 단어 테이블 크기이다. 벡터에서, 하나의 차원의 값만이 1이고, 나머지 차원은 0이다. 이러한 차원은 현재 단어를 나타낸다. 본 개시에서 단어 벡터 차원은 300개의 차원일 수 있다. 단어 임베딩(word embedding)에서, 단어는 분산 표현으로 변환되거나, 또는 단어 벡터로서 지칭된다. 단어 벡터를 생성하는 방법에는 여러 가지가 있다. 이러한 방법은 모든 단어의 의미가 단어 주변의 단어로 표현될 수 있다는 한 가지 아이디어를 따른다. 단어 벡터를 생성하는 방식은 통계 기반 방법 및 언어 모델 기반 방법을 포함할 수 있다.
다음으로, 본 개시의 실시예에서, 텍스트 특징 세트를 획득하기 위한 방법이 제공된다. 즉, 찾아질 텍스트가 먼저 획득된다. 그런 다음, 텍스트 벡터 시퀀스가 찾아질 텍스트에 따라 획득된다. 텍스트 벡터 시퀀스는 T개의 단어 벡터가 포함한다. 각각의 단어 벡터는 하나의 단어에 대응한다. 다음으로, 텍스트 벡터 시퀀스의 각각의 단어 벡터가 인코딩되어 텍스트 특징을 획득한다. 텍스트 측징 세트는 T개의 단어 벡터에 대응하는 텍스트 특징이 획득되는 경우 T개의 텍스트 특징에 따라 생성된다. 전술한 방식에서, 찾아질 텍스트는 후속 모델 예측을 더욱 용이하게 하기 위해 특징 형태로 표현될 수 있으므로, 해결수단의 실행 가능성 및 운용성을 향상시킬 수 있다.
선택적으로, 도 3에 대응하는 전술한 제5 실시예에 기초하여, 본 개시의 실시예에서 제공되는 이미지 영역을 찾기 위한 방법의 제6 선택적 실시예에서, 이미지 영역을 찾기 위한 장치에 의해, 텍스트 특징을 획득하기 위해 텍스트 벡터 시퀀스 내의 각각의 단어 벡터를 인코딩하는 단계는,
이미지 영역을 찾기 위한 장치에 의해, 다음과 같은 방식으로 텍스트 특징을 획득하는 단계를 포함할 수 있으며,
여기서, 는 텍스트 특징 세트에서 t 번째 텍스트 특징을 나타내고, 는 LSTM 네트워크를 사용하여 인코딩을 수행하는 것을 나타내며, 는 텍스트 벡터 시퀀스에서 t 번째 단어 벡터를 나타내고, 는 텍스트 특징 세트에서 (t-1) 번째 텍스트 특징을 나타낸다.
본 실시예에서, 이미지 영역을 찾기 위한 장치는 텍스트 특징을 획득하기 위해 LSTM 구조를 사용하여 각각의 단어 벡터를 인코딩할 수 있다. 입력된 찾아질 텍스트 에 대해, T는 찾아질 텍스트의 T개의 단어를 나타내고, 는 찾아질 텍스트에서 t 번째 단어를 나타낸다. 먼저, 찾아질 텍스트의 단어 벡터 표현은 각각의 단어의 단어 벡터 표현을 사용하여 획득될 수 있다. 즉, 텍스트 벡터 시퀀스 가 획득된다. 각각의 단어 벡터는 300개의 차원을 가질 수 있다. 찾아질 텍스트의 경우, LSTM 구조의 RNN이 찾아질 텍스트를 인코딩하는 데 사용된다. 즉,
LSTM에서 은닉 상태의 차원의 수량은 512로 설정될 수 있다. 찾아질 텍스트의 특징 표현은 처리 후에 획득된다. 즉, 텍스트 특징 세트 가 획득되며, 여기서 LSTM 처리의 구체적인 방식은 다음과 같으며,
,
, 및
이며
여기서, 는 텍스트 벡터 시퀀스에서 t 번째 단어 벡터를 나타내고, 는 텍스트 특징 세트에서 (t-1) 번째 텍스트 특징을 나타내며, 는 입력 게이트를 나타내고, 는 포겟 게이트(forget gate)를 나타내며, 는 출력 게이트를 나타내고, 는 은닉 상태를 나타내며, 는 시그모이드 함수(sigmoid function)이고, tanh()는 쌍곡선 함수를 나타내며, 는 메모리 정보를 나타내고, 는 LSTM 파라미터를 나타내며, 는 점 곱셈(dot multiplication)을 나타내고, 는 변환 또는 매핑 매트릭스를 나타낸다.
LSTM은 장기(long-term) 저장 입력이다. 메모리 셀이라고 하는 특정 유닛은 가산기 및 게이트 제어 뉴런과 유사하고, 다음 시간 단계에서 가중치 값을 가지며 자체 상태의 실제 값과 누적된 외부 신호를 복사하기 위해 자체적으로 연결된다. 그러나, 이러한 자체 연결은 다른 유닛의 학습을 수행하고 메모리 내용을 지울 시기를 결정하기 위해 곱셈 게이트에 의해 제어된다.
다음으로, 본 개시의 실시예에서, 텍스트 특징을 획득하는 방식이 제공된다. 즉, LSTM 구조의 RNN이 단어 벡터를 인코딩하는 데 사용된다. 전술한 방식에서, LSTM 구조의 네트워크를 사용하면, 역전파 과정의 점진적인 감소로 인한 기울기 소실(vanishing gradient) 문제가 해결될 수 있다. 구체적으로, 언어 처리 태스크에서, LSTM은 시간적 높이와 관련된 문제, 예를 들어, 기계 번역, 대화 생성, 및 인코딩과 디코딩을 처리하는 데 적합하다.
전술한 설명을 참조하여, 본 개시의 모델 훈련 방법이 아래에서 설명된다. 도 4를 참조하면, 본 방법이 모델 훈련 장치에 적용되는 예가 설명을 위한 예로서 사용된다. 모델 훈련 장치는 서버에 배치될 수 있다. 본 개시의 실시예에서 모델 훈련 방법의 실시예는 다음의 단계를 포함한다.
단계 201. 모델 훈련 장치는 훈련될 텍스트 세트 및 훈련될 이미지 후보 영역 세트를 획득하고, 훈련될 텍스트 세트는 제1 훈련될 텍스트와 제2 훈련될 텍스트를 포함하며, 훈련될 이미지 후보 영역 세트는 제1 훈련될 이미지 후보 영역 및 제2 훈련될 이미지 후보 영역을 포함하고, 제1 훈련될 텍스트와 제1 훈련될 이미지 후보 영역은 매칭 관계를 가지며, 제1 훈련된 텍스트와 제2 훈련될 이미지 후보 영역은 매칭 관계를 갖지 않고, 제2 훈련될 텍스트와 제2 훈련될 이미지 후보 영역은 매칭 관계를 가지며, 제2 훈련될 텍스트와 제1 훈련될 이미지 후보 영역은 매칭 관계를 갖지 않는다.
본 실시예에서, 모델 훈련 장치는 먼저 훈련될 텍스트 세트 및 훈련될 이미지 후보 영역 세트를 획득한다. 훈련될 텍스트 세트는 제1 훈련될 텍스트와 제2 훈련될 텍스트를 포함한다. 훈련될 이미지 후보 영역 세트는 제1 훈련될 이미지 후보 영역 및 제2 훈련될 이미지 후보 영역을 포함한다. 이 경우, 매칭 관계를 갖는 제1 훈련될 텍스트와 제1 훈련될 이미지 후보 영역은 양성 샘플로 사용되고, 매칭 관계를 갖는 제2 훈련될 텍스트와 제2 훈련될 이미지 후보 영역은 양성 샘플로 사용된다. 매칭 관계를 갖지 않는 제1 훈련될 텍스트와 제2 훈련될 이미지 후보 영역은 음성 샘플로 사용되고, 매칭 관계를 갖지 않는 제2 훈련될 텍스트와 제2 훈련될 이미지 후보 영역은 음성 샘플로 사용된다.
모델 훈련 장치가 서버에 배치되어 있음이 이해될 수 있다.
단계 202. 모델 훈련 장치는 제1 훈련될 텍스트, 제2 훈련될 텍스트, 제1 훈련될 이미지 후보 영역 및 제2 훈련될 이미지 후보 영역에 따라 타깃 손실 함수를 결정한다.
본 실시예에서, 모델 훈련 장치는 타깃 손실 함수를 구축하기 위해 양성 샘플과 음성 샘플에 따라 자연 문장과 이미지 후보 영역 사이의 매칭 관계를 학습한다. 타깃 손실 함수는 주로 후보 이미지 영역과 자연 문장 사이의 유사성을 측정하도록 구성된다.
단계 203. 모델 훈련 장치는 이미지 영역 찾기 네트워크 모델을 획득하기 위해 타깃 손실 함수를 사용하여 훈련될 이미지 영역 찾기 네트워크 모델을 훈련하고, 이미지 영역 찾기 네트워크 모델은 텍스트 특징 세트와 향상된 시맨틱 정보에 따라 이미지 후보 영역과 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성되며, 향상된 시맨틱 정보와 이미지 후보 영역은 대응관계를 갖고, 텍스트 특징 세트와 찾아질 텍스트는 대응관계를 갖는다.
본 실시예에서, 모델 훈련 장치는 이미지 영역 찾기 네트워크 모델을 추가로 획득하기 위해 훈련될 이미지 영역의 위치 찾기 네트워크 모델을 훈련시키기 위해 구축된 타깃 손실 함수를 사용한다. 이미지 후보 영역과 찾아질 텍스트 사이의 매칭 정도는 이미지 영역 찾기 네트워크 모델을 사용하여 예측될 수 있다. 매칭 정도가 높은 경우, 표현 연관 정도가 높다.
본 개시의 실시예에서, 모델 훈련 방법이 제공된다. 이 방법은, 먼저 훈련될 텍스트 세트 및 훈련될 이미지 후보 영역 세트를 획득하는 단계 ― 훈련될 텍스트 세트는 제1 훈련될 텍스트 및 제2 훈련될 텍스트를 포함하고, 훈련될 이미지 후보 영역 세트는 제1 훈련될 이미지 후보 영역 및 제2 훈련될 이미지 후보 영역을 포함함 ―, 그 후 제1 훈련될 텍스트, 제2 훈련될 텍스트, 제1 훈련될 이미지 후보 영역 및 제2 훈련될 이미지 후보 영역에 따라 타깃 손실 함수를 결정하는 단계, 및 마지막으로 이미지 영역 찾기 네트워크 모드를 획득하기 위해 타깃 손실 함수를 사용하여 훈련될 이미지 영역 찾기 네트워크 모델을 훈련시키는 단계를 포함한다. 전술한 방식에서, 이미지 후보 영역과 텍스트 사이의 매칭 관계를 결정하도록 구성된 이미지 영역 찾기 네트워크 모델은 훈련을 통해 획득될 수 있으며, 사용된 타깃 함수는 학습을 통해 텍스트와 이미지 후보 영역 사이의 매칭 관계를 획득하기 위해 이미지 후보 영역과 텍스트 사이의 유사도를 측정하는 데 사용될 수 있으므로, 해결수단의 실행 가능성과 운용성을 향상시킬 수 있다.
선택적으로, 도 4에 대응하는 전술한 실시예에 기초하여, 본 개시의 실시예에서 제공되는 모델 훈련 방법의 제1 선택적 실시예에서, 모델 훈련 장치에 의해, 제1 훈련될 텍스트, 제2 훈련될 텍스트, 제1 훈련될 이미지 후보 영역 및 제2 훈련될 이미지 후보 영역에 따라 타깃 손실 함수를 결정하는 단계는,
모델 훈련 장치에 의해, 다음과 같은 방식으로 타깃 손실 함수를 결정하는 단계를 포함할 수 있으며,
여기서, 는 타깃 손실 함수를 나타내고, 는 제1 훈련될 이미지 후보 영역을 나타내며, 는 제1 훈련될 텍스트를 나타내고, 는 제2 훈련될 이미지 후보 영역을 나타내며, 는 제2 훈련될 텍스트를 나타내고, 는 훈련될 데이터 쌍을 나타내며, max()는 최대값을 취함을 나타내고, 은 제1 파라미터 제어 가중치를 나타내며, 는 제2 파라미터 제어 가중치를 나타내고, 은 제1 미리 설정된 임계값을 나타내며, 는 제2 미리 설정된 임계값을 나타낸다.
본 실시예에서, 모델 훈련 장치를 사용하여 구축된 타깃 손실 함수가 설명되고, 양성 샘플 및 음성 샘플에 기초하여 구축된 타깃 손실 함수는 다음과 같이 표현되며,
여기서, 는 양성 샘플을 나타낸다. 즉, 시맨틱 관계를 갖는 이미지 후보 영역과 자연어의 쌍을 나타낸다. 는 음성 샘플을 나타낸다. 즉, 이미지 후보 영역과 관련되지 않은 자연어의 쌍을 나타낸다. 는 양성 샘플이다. 대응하는 음성 샘플 에 대해 취해진다. 이러한 매칭 기능을 학습하면, 양성 샘플 사이의 매칭 관계가 음성 샘플 사이의 매칭 관계보다 더 높다. 는 양성 샘플이다. 대응하는 음성 샘플 에 대해 취해진다. 이러한 매칭 기능을 학습하면, 양성 샘플 사이의 매칭 관계가 음성 샘플 사이의 매칭 관계보다 더 높다.
다음으로, 본 개시의 실시예에서, 제1 훈련될 텍스트, 제2 훈련될 텍스트, 제1 훈련될 이미지 후보 영역 및 제2 훈련될 이미지 후보 영역에 따라 타깃 손실 함수를 결정하는 방식이 제공된다. 전술한 방식에서, 정의된 타깃 손실 함수는 두 개의 상이한 방향에서 이미지와 자연어 사이의 매칭 관계를 설명한다. 한 방향은 이미지 후보 영역을 자연어와 연관시키는 것이고, 다른 방향은 자연어를 이미지 후보 영역과 연관시키는 것이다. 이러한 타깃 손실 함수를 설계하는 주된 목적은 시맨틱적으로 연관되지 않은 이미지 후보 영역과 자연어의 쌍의 유사성보다 시맨틱적으로 연관된 이미지 후보 영역과 자연어의 쌍의 유사성이 더 높도록 만듬으로써, 모델 훈련의 정확성을 향상시킬 수 있다.
본 개시에서 이미지 영역을 찾기 위한 장치가 아래에서 상세하게 설명된다. 도 5를 참조하면, 도 5는 본 개시의 실시예에 따른 이미지 영역을 찾기 위한 장치의 실시예의 개략도이다. 이미지 영역을 찾기 위한 장치(30)는,
찾아질 이미지에서 이미지 후보 영역 세트를 획득하도록 구성된 획득 모듈(301) ― 이미지 후보 영역 세트는 N개의 이미지 후보 영역을 포함하고, N은 1보다 크거나 같은 정수임 ―;
획득 모듈(301)에 의해 획득된 이미지 후보 영역 세트에 따라 영역 시맨틱 정보 세트(즉, 찾아질 이미지의 이미지 후보 영역 세트)를 생성하도록 구성된 생성 모듈(302) ― 영역 시맨틱 정보 세트는 N개의 영역 시맨틱 정보를 포함하고, 각각의 영역 시맨틱 정보는 하나의 이미지 후보 영역(즉, 이미지 후보 영역 세트의 하나의 이미지 후보 영역에 대응하는 영역 시맨틱 정보의 각각의 영역 시맨틱 정보)에 대응하고,
상기 획득 모듈(301)은 GCN을 사용하여 생성 모듈(302)에 의해 생성된 영역 시맨틱 정보 세트에 대응하는 향상된 시맨틱 정보 세트를 획득하도록 추가로 구성되고, 향상된 시맨틱 정보 세트는 N개의 향상된 시맨틱 정보를 포함하며, 각각의 향상된 시맨틱 정보는 하나의 영역 시맨틱 정보(즉, 영역 시맨틱 정보 세트의 하나의 영역 시맨틱 정보에 대응하는 향상된 시맨틱 정보 세트의 각각의 향상된 시맨틱 정보)에 대응하고, GCN은 다양한 영역 시맨틱 정보 사이의 연관 관계를 구축하도록 구성되며,
획득 모듈(301)은 찾아질 텍스트에 대응하는 텍스트 특징 세트를 획득하도록 추가로 구성되고, 찾아질 텍스트는 T개의 단어를 포함하며, 텍스트 특징 세트는 T개의 단어 특징을 포함하고, 각각의 단어는 하나의 단어 특징에 대응하며, T는 1보다 크거나 같고(즉, 텍스트 특징 세트의 한 단어 특징에 대응하는 찾아질 텍스트의 각각의 단어),
획득 모듈(301)은 이미지 영역 찾기 네트워크 모델을 사용하여 텍스트 특징 세트(즉, 찾아질 텍스트에 대응하는 텍스트 특징 세트)와 각각의 향상된 시맨틱 정보 사이의 매칭 정도를 획득하도록 추가로 구성되고, 이미지 영역 찾기 네트워크 모델은 이미지 후보 영역과 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성됨 ―; 및
텍스트 특징 세트와 획득 모듈(301)에 의해 획득된 각각의 향상된 시맨틱 정보 사이의 매칭 정도에 따라 이미지 후보 영역 세트로부터 타깃 이미지 후보 영역을 결정하도록 구성된 결정 모듈(303)
을 포함한다.
본 실시예에서, 획득 모듈(301)은 찾아질 이미지의 이미지 후보 영역 세트를 획득하고, 이미지 후보 영역 세트는 N개의 이미지 후보 영역을 포함하며, N은 1보다 크거나 같은 정수이며, 생성 모듈(302)은 획득 모듈(301)에 의해 획득된 이미지 후보 영역 세트에 따라 영역 시맨틱 정보 세트를 생성하고, 영역 시맨틱 정보 세트는 N개의 영역 시맨틱 정보를 포함하며, 각각의 영역 시맨틱 정보는 하나의 이미지 후보 영역에 대응하고, 획득 모듈(301)은 GCN을 사용하여 생성 모듈(302)에 의해 생성된 영역 시맨틱 정보 세트에 대응하는 향상된 시맨틱 정보 세트를 획득하고, 향상된 시맨틱 정보는 N개의 향상된 시맨틱 정보를 포함하며, 각각의 향상된 시맨틱 정보는 하나의 영역 시맨틱 정보에 대응하고, 다양한 영역 시맨틱 정보 사이의 연관 관계를 구축하도록 구성되며, 획득 모듈(301)은 찾아질 텍스트에 대응하는 텍스트 특징 세트를 획득하고, 찾아질 텍스트는 T개의 단어를 포함하며, 텍스트 특징 세트는 T개의 단어 특징을 포함하고, 각각의 단어는 하나의 단어 특징에 대응하며, T는 1보자 크거나 같은 정수이고, 획득 모듈(301)은 이미지 영역 찾기 네트워크 모델을 사용하여 텍스트 특징 세트와 각각의 향상된 시맨틱 정보 사이의 매칭 정도를 획득하고, 이미지 영역 찾기 네트워크 모델은 이미지 후보 영역과 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성되고, 결정 모듈(303)은 텍스트 특징 세트와 획득 모듈(301)에 의해 획득된 각각의 향상된 시맨틱 정보 사이의 매칭 정도에 따라 이미지 후보 영역으로부터 타깃 이미지 후보 영역을 결정한다.
본 개시의 실시예에서, 이미지 영역을 찾기 위한 장치가 제공된다. 이 장치는 먼저 찾아질 이미지에서 이미지 후보 영역 세트를 획득하고 ― 이미지 후보 영역 세트는 N개의 이미지 후보 영역을 포함함 ―, 다음 이미지 후보 영역 세트에 따라 영역 시맨틱 정보 세트를 생성하며 ― 각각의 영역 시맨틱 정보는 하나의 이미지 후보 영역에 대응함 ―, 다음 GCN을 사용하여 영역 시맨틱 정보 세트에 대응하는 향상된 시맨틱 정보 세트를 획득하고 ― 각각의 향상된 시맨틱 정보는 하나의 영역 시맨틱 정보에 대응하고, GCN은 다양한 영역 시맨틱 정보 사이의 연관 관계를 구축하도록 구성됨 ―, 또한, 찾아질 텍스트에 대응하는 텍스트 특징 세트를 획득하며, 다음으로, 이미지 영역 찾기 네트워크 모델을 사용하여 텍스트 특징 세트와 각각의 향상된 시맨틱 정보 사이의 매칭 정도를 획득하고, 마지막으로 텍스트 특징 세트와 각각의 향상된 시맨틱 정보 사이의 매칭 정도에 따라 이미지 후보 영역 세트에서 타깃 이미지 후보 영역을 결정한다. 전술한 방식에서, 이미지 후보 영역 사이의 시맨틱 표현이 GCN을 사용하여 효과적으로 향상될 수 있으며, 이미지 후보 영역 사이의 공간적 관계가 고려되어, 이미지 영역을 찾는 정확도를 높일 수 있으므로, 이미지 이해 능력을 개선시킬 수 있다.
선택적으로, 도 5에 대응하는 전술한 실시예에 기초하여, 본 개시의 본 실시예에서 제공되는 이미지 영역을 찾기 위한 장치(30)의 다른 실시예에서,
생성 모듈(302)은 구체적으로 CNN을 사용하여 각각의 이미지 후보 영역에 대응하는 영역 시맨틱 정보를 획득하고 ― 이미지 후보 영역은 영역 정보를 포함하고, 영역 정보는 찾아질 이미지에서 이미지 후보 영역의 위치 정보와 이미지 후보 영역의 크기 정보를 포함함 ―,
N개의 이미지 후보 영역에 대응하는 영역 시맨틱 정보가 획득되는 경우, N개의 영역 시맨틱 정보에 따라 영역 시맨틱 정보 세트를 생성하도록 구성된다.
다음, 본 개시의 실시예에서, 영역 시맨틱 정보 세트을 생성하는 방식이 제공된다. 이미지 후보 영역에 대응하는 영역 시맨틱 정보가 CNN을 사용하여 획득된다. 이미지 후보 영역은 영역 정보를 포함한다. 영역 정보는 찾아질 이미지에서 이미지 후보 영역의 위치 정보와 이미지 후보 영역의 크기 정보를 포함한다. 영역 시맨틱 정보 세트는 N개의 이미지 후보 영역에 대응하는 영역 시맨틱 정보가 획득되는 경우 N개의 영역 시맨틱 정보에 따라 생성된다. 전술한 방식에서, CNN을 사용하여 각각의 이미지 후보 영역의 영역 시맨틱 정보가 추출될 수 있다. CNN은 피드 포워드 신경망이다. CNN의 인공 뉴런은 부분 커버리지 영역에서 주변 유닛에 반응할 수 있으므로, 대규모 이미지 처리에 뛰어난 성능이 있다. 이와 같이, 정보 추출의 정확성이 향상된다.
선택적으로, 도 5에 대응하는 전술한 실시예에 기초하여, 본 개시의 본 실시예에서 제공되는 이미지 영역을 찾기 위한 장치(30)의 다른 실시예에서,
획득 모듈(301)은 구체적으로 영역 시맨틱 정보 세트로부터 제1 영역 시맨틱 정보 및 제2 영역 시맨틱 정보를 획득하고 ― 제1 영역 시맨틱 정보는 영역 시맨틱 정보 세트에서 임의의 하나의 영역 시맨틱 정보이고, 제2 영역 시맨틱 정보는 영역 시맨틱 정보 세트에서 임의의 하나의 영역 시맨틱 정보임 ―,
제1 영역 시맨틱 정보와 제2 영역 시맨틱 정보 사이의 연결 에지의 강도를 획득하며,
정규화된 강도를 획득하기 위해 제1 영역 시맨틱 정보와 제2 영역 시맨틱 정보 사이의 연결 에지의 강도를 정규화하고,
영역 시맨틱 정보 세트의 다양한 영역 시맨틱 정보 사이의 정규화된 강도에 따라 타깃 연결 매트릭스를 결정하며,
GCN을 사용하여 타깃 연결 매트릭스에 대응하는 향상된 시맨틱 정보 세트를 결정하도록 구성된다.
다음으로, 본 개시의 실시예에서, GCN을 사용하여 향상된 시맨틱 정보 세트를 획득하는 방식이 제공된다. 먼저, 제1 영역 시맨틱 정보 및 제2 영역 시맨틱 정보가 영역 시맨틱 정보 세트로부터 획득된다. 그 다음, 제1 영역 시맨틱 정보와 제2 영역 시맨틱 정보 사이의 연결 에지의 강도가 획득된다. 다음으로, 제1 영역 시맨틱 정보와 제2 영역 시맨틱 정보 사이의 연결 에지의 강도가 정규화되어 정규화된 강도를 획득한다. 그 다음, 영역 시맨틱 정보 세트 내의 다양한 영역 시맨틱 정보 사이의 정규화된 강도에 따라 타깃 연결 매트릭스가 결정된다. 마지막으로, GCN을 사용하여 타깃 연결 매트릭스에 대응하는 향상된 시맨틱 정보 세트가 결정된다. 전술한 방식에서, GCN을 사용하여 이미지 후보 영역 사이의 시맨틱 관계가 구축된다. 이러한 방식으로, 공간적 정보와 시맨틱 관계가 충분히 고려됨으로써, 이미지 기반 찾기 성능을 향상시킬 수 있다.
선택적으로, 도 5에 대응하는 전술한 실시예에 기초하여, 본 개시의 본 실시예에서 제공되는 이미지 영역을 찾기 위한 장치(30)의 다른 실시예에서,
획득 모듈(301)은 구체적으로 영역 시맨틱 정보 세트 내의 다양한 영역 시맨틱 정보 사이의 정규화된 강도에 따라 연결 매트릭스를 생성하고,
연결 매트릭스 및 단위 매트릭스에 따라 타깃 연결 매트릭스를 생성하도록 구성된다.
다음, 본 개시의 실시예에서, 영역 시맨틱 정보 세트 내의 다양한 영역 시맨틱 정보 사이의 정규화된 강도에 따라 타깃 연결 매트릭스를 결정하는 방식이 제공된다. 즉, 연결 매트릭스는 먼저 영역 시맨틱 정보 세트의 다양한 영역 시맨틱 정보 사이의 정규화된 강도에 따라 생성된다. 그런 다음, 타깃 연결 매트릭스는 연결 매트릭스와 단위 매트릭스에 따라 생성된다. 전술한 방식에서, 정규화의 처리 측정을 통해, 물리적 시스템에서 값의 절대값이 상대값 관계로 전환될 수 있으므로, 계산이 단순화되고 크기가 감소될 수 있다. 또한, 정보를 추가로 향상시키기 위해, 단위 매트릭스는 타깃 연결 매트릭스를 형성하기 위해 대응하는 연결 매트릭스에 추가된다.
선택적으로, 도 5에 대응하는 전술한 실시예에 기초하여, 본 개시의 본 실시예에서 제공되는 이미지 영역을 찾기 위한 장치(30)의 다른 실시예에서,
획득 모듈은 구체적으로 다음과 같은 방식으로 향상된 시맨틱 정보 세트를 계산하도록 구성되며,
여기서, 는 GCN의 k 번째 계층에 대응하는 i 번째 향상된 시맨틱 정보를 나타내고, 는 GCN의 k-1 번째 계층에 대응하는 j 번째 향상된 시맨틱 정보를 나타내며, 는 GCN의 k 번째 계층의 제1 네트워크 파라미터를 나타내고, 는 GCN의 k 번째 계층의 제2 네트워크 파라미터를 나타내며, 는 j 번째 노드가 i 번째 노드의 이웃 노드임을 나타내고, 는 타깃 연결 매트릭스의 요소를 나타낸다.
또한, 본 개시의 실시예에서, GCN을 사용하여 결정되는 타깃 연결 매트릭스에 대응하는 향상된 시맨틱 정보 세트의 구체적인 방식이 제공된다. 전술한 방식에서, 구체적인 계산 방식이 GCN 기반 계산을 위해 제공되므로, 해결수단의 실행 가능성과 운용성을 향상시킬 수 있다.
선택적으로, 도 5에 대응하는 전술한 실시예에 기초하여, 본 개시의 본 실시예에서 제공되는 이미지 영역을 찾기 위한 장치(30)의 다른 실시예에서,
획득 모듈(301)은 구체적으로 찾아질 텍스트를 획득하고,
찾아질 텍스트에 따라 텍스트 벡터 시퀀스를 획득하며 ― 텍스트 벡터 시퀀스는 T개의 단어 벡터를 포함하고, 각각의 단어 벡터는 하나의 단어에 대응함 ―,
텍스트 특징을 획득하기 위해 텍스트 벡터 시퀀스 내의 각각의 단어 벡터를 인코딩하고,
T개의 단어 벡터에 대응하는 텍스트 특징이 획득되는 경우, T개의 텍스트 특징에 따라 텍스트 특징 세트를 생성하도록 구성된다.
다음, 본 개시의 실시예에서, 텍스트 특징 세트를 획득하기 위한 방법이 제공된다. 즉, 찾아질 텍스트가 먼저 획득된다. 그런 다음, 텍스트 벡터 시퀀스가 찾아질 텍스트에 따라 획득된다. 텍스트 벡터 시퀀스는 T개의 단어 벡터를 포함한다. 각각의 단어 벡터는 하나의 단어에 대응한다. 다음으로, 텍스트 벡터 시퀀스의 각각의 단어 벡터가 인코딩되어 텍스트 특징을 획득한다. 텍스트 특징 세트는 T개의 단어 벡터에 대응하는 텍스트 특징이 획득되는 경우 T개의 텍스트 특징에 따라 생성된다. 전술한 방식에서, 찾아질 텍스트는 후속 모델 예측을 더욱 용이하게 하기 위해 특징 형태로 표현될 수 있으므로, 해결수단의 실행 가능성 및 운용성을 향상시킬 수 있다.
선택적으로, 도 5에 대응하는 전술한 실시예에 기초하여, 본 개시의 본 실시예에서 제공되는 이미지 영역을 찾기 위한 장치(30)의 다른 실시예에서,
획득 모듈(301)은 구체적으로 다음과 같은 방식으로 텍스트 특징을 획득하도록 구성되며,
여기서, 는 텍스트 특징 세트에서 t 번째 텍스트 특징을 나타내고, 는 LSTM 네트워크를 사용하여 인코딩을 수행하는 것을 나타내며, 는 텍스트 벡터 시퀀스에서 t 번째 단어 벡터를 나타내고, 는 텍스트 특징 세트에서 (t-1) 번째 텍스트 특징을 나타낸다.
다음으로, 본 개시의 실시예에서, 텍스트 특징을 획득하는 방식이 제공된다. 즉, LSTM 구조의 RNN이 단어 벡터를 인코딩하는 데 사용된다. 전술한 방식에서, LSTM 구조의 네트워크를 사용하면, 역전파 과정의 점진적인 감소로 인한 기울기 소실 문제가 해결될 수 있다. 구체적으로, 언어 처리 태스크에서, LSTM은 시간적 높이와 관련된 문제, 예를 들어, 기계 번역, 대화 생성, 및 인코딩과 디코딩을 처리하는 데 적합하다.
본 개시의 모델 훈련 장치가 아래에서 상세하게 설명된다. 도 6을 참조하면, 도 6은 본 개시의 실시예에 따른 모델 훈련 장치의 실시예의 개략도이다. 모델 훈련 장치(40)는,
훈련될 텍스트 세트 및 훈련될 이미지 후보 영역 세트를 획득하도록 구성된 획득 모듈(401) ― 훈련될 텍스트 세트는 제1 훈련될 텍스트와 제2 훈련될 텍스트를 포함하고, 훈련될 이미지 후보 영역 세트는 제1 훈련될 이미지 후보 영역 및 제2 훈련될 이미지 후보 영역을 포함하며, 제1 훈련될 텍스트와 제1 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있고, 제1 훈련된 텍스트와 제2 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있지 않으며, 제2 훈련될 텍스트와 제2 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있고, 제2 훈련될 텍스트와 제1 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있지 않음 -;
획득 모듈(401)에 의해 획득되는 제1 훈련될 텍스트, 제2 훈련될 텍스트, 제1 훈련될 이미지 후보 영역 및 제2 훈련될 이미지 후보 영역에 따라 타깃 손실 함수를 결정하도록 구성된 결정 모듈(402); 및
이미지 영역 찾기 네트워크 모델을 획득하기 위해 결정 모듈(402)에 의해 결정되는 타깃 손실 함수를 사용하여 훈련될 이미지 영역 찾기 네트워크 모델을 훈련시키도록 구성된 훈련 모델(403) ― 이미지 영역 찾기 네트워크 모델은 텍스트 특징 세트와 향상된 시맨틱 정보에 따라 이미지 후보 영역과 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성되고, 향상된 시맨틱 정보와 이미지 후보 영역은 대응관계를 가지며, 텍스트 특징 세트와 찾아질 텍스트는 대응관계를 가짐 ―
을 포함한다.
본 실시예에서, 획득 모듈(401)은 훈련될 텍스트 세트 및 훈련될 이미지 후보 영역 세트를 획득하고 ― 훈련될 텍스트 세트는 제1 훈련될 텍스트 및 제2 훈련될 텍스트를 포함하고, 훈련될 이미지 후보 영역 세트는 제1 훈련될 이미지 후보 영역 및 제2 훈련될 이미지 후보 영역을 포함하며, 제1 훈련될 텍스트와 제1 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있고, 제1 훈련될 텍스트와 제2 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있지 않으며, 제2 훈련될 텍스트와 제2 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있고, 제2 훈련될 텍스트와 제1 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있지 않음 ―, 결정 모듈(402)은 획득 모듈(401)에 의해 획득되는 제1 훈련될 텍스트, 제2 훈련될 텍스트, 제1 훈련될 이미지 후보 영역 및 제2 훈련될 이미지 후보 영역에 따라 타깃 손실 함수를 결정하며, 훈련 모듈(403)은 이미지 영역 찾기 네트워크 모델을 획득하기 위해 결정 모듈(402)에 의해 결정되는 타깃 손실 함수를 사용하여 훈련될 이미지 영역 찾기 네트워크 모델을 훈련시키며, 이미지 영역 찾기 네트워크 모델은 텍스트 특징 세트와 향상된 시맨틱 정보에 따라 이미지 후보 영역과 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성되고, 향상된 시맨틱 정보와 이미지 후보 영역은 대응관계를 가지며, 텍스트 특징 세트와 찾아질 텍스트는 대응관계를 갖는다.
본 개시의 실시예에서, 모델 훈련 장치가 제공된다. 모델 훈련 장치는 먼저 훈련될 텍스트 세트 및 훈련될 이미지 후보 영역 세트를 획득하고 ― 훈련될 텍스트 세트는 제1 훈련될 텍스트 및 제2 훈련될 텍스트를 포함하고, 훈련될 이미지 후보 영역 세트는 제1 훈련될 이미지 후보 영역 및 제2 훈련될 이미지 후보 영역을 포함함 ―, 그 후 제1 훈련될 텍스트, 제2 훈련될 텍스트, 제1 훈련될 이미지 후보 영역 및 제2 훈련될 이미지 후보 영역에 따라 타깃 손실 함수를 결정하며, 마지막으로 이미지 영역 찾기 네트워크 모델을 획득하기 위해 타깃 손실 함수를 사용하여 훈련될 이미지 영역 찾기 네트워크 모델을 훈련시킨다. 전술한 방식에서, 이미지 후보 영역과 텍스트 사이의 매칭 관계를 결정하도록 구성된 이미지 영역 찾기 네트워크 모델은 훈련을 통해 획득될 수 있으며, 사용된 타깃 함수는 학습을 통해 텍스트와 이미지 후보 영역 사이의 매칭 관계를 획득하기 위해 이미지 후보 영역과 텍스트 사이의 유사도를 측정하는 데 사용될 수 있으므로, 해결수단의 실행 가능성과 운용성을 향상시킬 수 있다.
선택적으로, 도 6에 대응하는 전술한 실시예에 기초하여, 본 개시의 본 실시예에서 제공되는 모델 훈련 장치(40)의 다른 실시예에서,
결정 모듈(402)은 구체적으로 다음과 같은 방식으로 타깃 손실 함수를 결정하도록 구성되며,
여기서, 는 타깃 손실 함수를 나타내고, 는 제1 훈련될 이미지 후보 영역을 나타내며, 는 제1 훈련될 텍스트를 나타내고, 는 제2 훈련될 이미지 후보 영역을 나타내며, 는 제2 훈련될 텍스트를 나타내고, 는 훈련될 데이터 쌍을 나타내며, max()는 최대값을 취함을 나타내고, 은 제1 파라미터 제어 가중치를 나타내며, 는 제2 파라미터 제어 가중치를 나타내고, 은 제1 미리 설정된 임계값을 나타내며, 는 제2 미리 설정된 임계값을 나타낸다.
다음, 본 개시의 실시예에서, 제1 훈련될 텍스트, 제2 훈련될 텍스트, 제1 훈련될 이미지 후보 영역 및 제2 훈련될 이미지 후보 영역에 따라 타깃 손실 함수를 결정하는 방식이 제공된다. 전술한 방식에서, 정의된 타깃 손실 함수는 두 개의 상이한 방향에서 이미지와 자연어 사이의 매칭 관계를 설명한다. 한 방향은 이미지 후보 영역을 자연어와 연관시키는 것이고, 다른 방향은 자연어를 이미지 후보 영역과 연관시키는 것이다. 이러한 타깃 손실 함수를 설계하는 주된 목적은 시맨틱적으로 연관되지 않은 이미지 후보 영역과 자연어의 쌍의 유사성보다 시맨틱적으로 연관된 이미지 후보 영역과 자연어의 쌍의 유사성이 더 높도록 만듬으로써, 모델 훈련의 정확성을 향상시킬 수 있다.
본 개시의 실시예는 도 7에 도시된 바와 같이, 이미지 영역을 찾기 위한 다른 장치를 더 제공하며, 설명의 편의를 위해, 본 개시의 실시예와 관련된 부분만이 도시된다. 개시되지 않은 구체적인 기술적 사항에 대해서는, 본 개시의 실시예의 방법 부분을 참조한다. 장치는 휴대폰, 태블릿 컴퓨터, PDA(Personal Digital Assistant), POS(Point of Sales) 및 온보드 컴퓨터를 포함하는 임의의 단말 장치일 수 있으며, 휴대폰인 단말 장치가 예로서 사용된다.
도 7은 본 개시의 실시예에 따른 단말 장치와 관련된 휴대폰의 일부 구조의 블록도이다. 도 7을 참조하면, 휴대폰은 무선 주파수(radio frequency, RF) 회로(510), 메모리(520), 입력 유닛(530), 디스플레이 유닛(540), 센서(550), 오디오 회로(560), 와이파이(Wireless Fidelity, Wi-Fi) 모듈, 프로세서(580) 및 파워 서플라이(590)와 같은 컴포넌트를 포함한다. 당업자라면 도 7에 도시된 휴대폰의 구조가 휴대폰에 대한 제한을 구성하지 않으며, 휴대폰은 도면에 도시된 것보다 더 많은 컴포넌트를 포함하거나 또는 더 적은 컴포넌트를 포함할 수 있거나, 또는 일부 컴포넌트가 결합될 수 있거나, 또는 다른 컴포넌트 배치가 사용될 수 있을 이해할 수 있다.
이하 도 7을 참조하여 휴대폰의 컴포넌트에 대해 구체적으로 설명한다.
RF 회로(510)는 정보 수신 및 전송 프로세스 또는 호 프로세스 동안 신호를 수신하고 전송하도록 구성될 수 있다. 구체적으로, RF 회로는 기지국으로부터 다운링크 정보를 수신한 다음, 처리를 위해 다운링크 정보를 프로세서(580)에게 전달하고, 설계된 업링크 데이터를 기지국으로 전송한다. 일반적으로, RF 회로(510)는 안테나, 적어도 하나의 증폭기, 트랜시버, 커플러, 저잡음 증폭기(low noise amplifier, LNA) 및 듀플렉서를 포함하지만 이에 제한되지 않는다. 또한, RF 회로(510)는 무선 통신을 통해 네트워크 및 다른 장치와 통신할 수도 있다. 무선 통신은 GSM(Global System for Mobile Communications), GPRS(General Packet Radio Service), CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access), LTE(Long Term Evolution), 이메일, SMS(Short Messaging Service) 등을 포함하지만 이에 제한되지 않는 임의의 통신 표준 또는 프로토콜을 사용할 수 있다. .
메모리(520)는 소프트웨어 프로그램 및 모듈을 저장하도록 구성될 수 있다. 프로세서(580)는 휴대폰의 다양한 기능 애플리케이션 및 데이터 처리를 구현하기 위해 메모리(520)에 저장된 소프트웨어 프로그램 및 모듈을 실행한다. 메모리(520)는 주로 프로그램 저장 영역과 데이터 저장 영역을 포함할 수 있다. 프로그램 저장 영역은 운영체제, 적어도 하나의 기능(음향 재생 기능, 이미지 디스플레이 기능 등)에 필요한 애플리케이션 프로그램 등을 저장할 수 있다. 데이터 저장 영역은 휴대폰 사용에 따라 생성된 데이터(오디오 데이터, 주소록 등)를 저장할 수 있다. 또한, 메모리(520)는 고속 RAM(Random Access Memory)을 포함할 수 있으며, 또한 적어도 하나의 자기 디스크 저장 장치, 플래시 메모리 또는 다른 휘발성 고체 저장 장치와 같은 비 휘발성 메모리를 포함할 수 있다.
입력 유닛(530)은 입력된 숫자 또는 문자 정보를 수신하고, 휴대폰의 사용자 설정 및 기능 제어와 관련된 키보드 신호 입력을 생성하도록 구성될 수 있다. 구체적으로, 입력 유닛(530)은 터치 패널(531) 및 다른 입력 장치(532)를 포함할 수 있다. 터치 스크린으로서도 지칭될 수 있는 터치 패널(531)은 터치 패널 상의 또는 터치 패널 근처의 사용자의 터치 조작(예를 들어, 손가락이나 스타일러스와 같은 임의의 적절한 객체나 액세서리를 사용한 터치 패널(531) 상의 또는 터치 패널(531) 근처의 사용자의 조작)을 수집하고, 미리 설정된 프로그램에 따라 대응하는 연결 장치를 구동할 수 있다. 선택적으로, 터치 패널(531)은 두 부분, 즉 터치 검출 장치와 터치 제어기를 포함할 수 있다. 터치 검출 장치는 사용자의 터치 위치를 검출하고, 터치 조작에 의해 생성되는 신호를 검출하며, 그 신호를 터치 제어기에게 전달한다. 터치 제어기는 터치 검출 장치로부터 터치 정보를 수신하고, 터치 정보를 터치 포인트 좌표로 변환하며, 터치 포인트 좌표를 프로세서(580)에게 전송한다. 또한, 터치 제어기는 프로세서(580)로부터 전송된 명령을 수신하여 실행할 수 있다. 또한, 터치 패널(531)은 저항 유형, 커패시티브 유형, 적외선 유형, 표면 탄성파 유형과 같은 다양한 유형을 사용하여 구현될 수 있다. 터치 패널(531)에 추가하여, 입력 유닛(530)은 다른 입력 장치(532)를 더 포함할 수 있다. 구체적으로, 다른 입력 장치(532)는 물리적 키보드, 기능 키(예를 들어, 볼륨 제어 키 또는 스위치 키), 트랙볼, 마우스 및 조이스틱 중 하나 이상을 포함할 수 있지만 이에 제한되는 것은 아니다.
디스플레이 유닛(540)은 사용자에 의해 입력된 정보 또는 사용자에게 제공되는 정보 및 휴대폰의 각종 메뉴를 디스플레이하도록 구성될 수 있다. 디스플레이 유닛(540)은 디스플레이 패널(541)을 포함할 수 있다. 선택적으로, 디스플레이 패널(541)은 액정 디스플레이(liquid crystal display, LCD), 유기 발광 다이오드(organic light-emitting diode, OLED) 등을 사용하여 구성될 수 있다. 또한, 터치 패널(531)은 디스플레이 패널(541)을 덮을 수 있다. 터치 패널(531) 상의 또는 터치 패널(531) 근처의 터치 조작을 검출한 후, 터치 패널은 터치 이벤트의 유형을 결정하기 위해 터치 조작을 프로세서(580)로 전달한다. 그 후, 프로세서(580)는 터치 이벤트의 유형에 따라 디스플레이 패널(541)에 대응하는 시각적 출력을 제공한다. 비록 도 7에서 터치 패널(531) 및 디스플레이 패널(541)이 휴대폰의 입출력 기능을 구현하기 위해 두 개의 분리된 부분으로 사용되었지만, 일부 실시예에서, 터치 패널(531) 및 디스플레이 패널(541)은 휴대폰의 입출력 기능을 구현하기 위해 통합될 수 있다.
휴대폰은 광학 센서, 모션 센서 및 기타 센서와 같은 적어도 하나의 센서(550)를 더 포함할 수 있다. 구체적으로, 광학 센서는 주변 광 센서 및 근접 센서를 포함할 수 있다. 주변 광 센서는 주변 광의 밝기에 따라 디스플레이 패널(541)의 휘도를 조절할 수 있다. 근접 센서는 휴대폰이 귀로 이동되는 경우 디스플레이 패널(541) 및/또는 백라이트를 끌 수 있다. 모션 센서의 한 유형으로, 가속도 센서는 다양한 방향(일반적으로 3축)의 가속도 크기를 검출할 수 있고, 정지 상태일 때 중력의 크기와 방향을 검출할 수 있으며, 휴대 전화의 자세(예를 들어, 가로 방향과 세로 방향 사이의 전환, 관련 게임 및 자력계 자세 보정), 진동 인식 관련 기능(예를 들어, 만보계 및 노크) 등을 인식하는 애플리케이션에 적용될 수 있다. 휴대폰에 구성될 수 있는 자이로스코프, 기압계, 습도계, 온도계 및 적외선 센서와 같은 다른 센서는 여기에서 더 설명되지 않는다.
오디오 회로(560), 라우드 스피커(561) 및 마이크로폰(562)은 사용자와 휴대폰 사이의 오디오 인터페이스를 제공할 수 있다. 오디오 회로(560)는 수신된 오디오 데이터를 전기 신호로 변환하고 그 전기 신호를 스피커(561)로 전송할 수 있다. 스피커(561)는 전기 신호를 출력을 위한 사운드 신호로 변환한다. 한편, 마이크로폰(562)은 수집된 사운드 신호를 전기 신호로 변환한다. 오디오 회로(560)는 전기 신호를 수신하고, 전기 신호를 오디오 데이터로 변환하며, 처리를 위해 오디오 데이터를 프로세서(580)로 출력한다. 그 후, 프로세서는 RF 회로(510)를 사용하여 오디오 데이터를 예를 들어, 다른 휴대폰으로 전송하거나, 또는 추가 처리를 위해 오디오 데이터를 메모리(520)로 출력한다.
Wi-Fi는 근거리 무선 전송 기술이다. 휴대폰은 Wi-Fi 모듈(570)을 사용하여 사용자가 이메일을 수신하고 전송하며, 웹 페이지를 탐색하고, 스트림 매체에 액세스하는 등의 작업을 도울 수 있다. 이것은 사용자에게 무선 광대역 인터넷 액세스를 제공한다. 비록 도 7이 Wi-Fi 모듈(570)을 도시하고 있지만, Wi-Fi 모듈은 휴대폰의 필수 컴포넌트가 아님을 이해할 수 있으며, Wi-Fi 모듈은 본 개시의 본질의 범위가 변경되지 않는 한 필요에 따라 생략될 수 있음을 알 수 있다.
프로세서(580)는 휴대폰의 제어 센터이고, 다양한 인터페이스 및 회선을 사용하여 전체 휴대폰의 다양한 부분과 연결된다. 메모리(520)에 저장된 소프트웨어 프로그램 및/또는 모듈을 운용하거나 또는 실행하고, 메모리(520)에 저장된 데이터를 호출함으로써, 프로세서는 휴대폰의 다양한 기능을 실행하고 데이터 처리를 수행함으로써, 전체 휴대폰을 모니터링할 수 있다. 선택적으로, 프로세서(580)는 하나 이상의 처리 유닛을 포함할 수 있다. 선택적으로, 프로세서(580)는 애플리케이션 프로세서 및 모뎀 프로세서를 통합할 수 있다. 애플리케이션 프로세서는 주로 운영 체제, 사용자 인터페이스, 애플리케이션 프로그램 등을 처리한다. 모뎀 프로세서는 주로 무선 통신을 처리한다. 전술한 모뎀은 프로세서(580)에 통합되지 않을 수도 있음을 이해할 수 있다.
휴대폰은 컴포넌트에 전력을 공급하기 위한 파워 서플라이(590)(예를 들어, 배터리)을 더 포함한다. 선택적으로, 파워 서플라이는 전력 관리 시스템을 사용하여 프로세서(580)에 논리적으로 연결될 수 있으므로, 전력 관리 시스템을 사용하여 충전, 방전 및 전력 소비 관리와 같은 기능을 구현할 수 있다.
도면에는 도시되지 않았지만, 휴대폰은 카메라, 블루투스 모듈 등을 더 포함 할 수 있으며, 이들에 대해 여기서 더 이상 설명되지 않는다.
본 개시의 본 실시예에서, 단말 장치에 포함되는 프로세서(580)는,
찾아질 이미지에서 이미지 후보 영역 세트를 획득하는 기능 ― 이미지 후보 영역 세트는 N개의 이미지 후보 영역을 포함하고, N은 1보다 크거나 같은 정수임 ―;
이미지 후보 영역 세트에 따라 영역 시맨틱 정보 세트(즉, 찾아질 이미지의 이미지 후보 영역 세트)를 생성하는 기능 ― 영역 시맨틱 정보 세트는 N개의 영역 시맨틱 정보를 포함하고, 각각의 영역 시맨틱 정보는 하나의 이미지 후보 영역(즉, 이미지 후보 영역 세트의 하나의 이미지 후보 영역에 대응하는 영역 시맨틱 정보의 각각의 영역 시맨틱 정보)에 대응하며,
GCN을 사용하여 영역 시맨틱 정보 세트에 대응하는 향상된 시맨틱 정보 세트를 획득하고, 향상된 시맨틱 정보 세트는 N개의 향상된 시맨틱 정보를 포함하며, 각각의 향상된 시맨틱 정보는 하나의 영역 시맨틱 정보(즉, 영역 시맨틱 정보 세트의 하나의 영역 시맨틱 정보에 대응하는 향상된 시맨틱 정보 세트의 각각의 향상된 시맨틱 정보)에 대응하고, GCN은 다양한 영역 시맨틱 정보 사이의 연관 관계를 구축하도록 구성되며,
찾아질 텍스트에 대응하는 텍스트 특징 세트를 획득하고, 찾아질 텍스트는 T개의 단어를 포함하며, 텍스트 특징 세트는 T개의 단어 특징을 포함하고, 각각의 단어는 하나의 단어 특징에 대응하며, T는 1보다 크거나 같고(즉, 텍스트 특징 세트의 한 단어 특징에 대응하는 찾아질 텍스트의 각각의 단어),
이미지 영역 찾기 네트워크 모델을 사용하여 텍스트 특징 세트(즉, 찾아질 텍스트에 대응하는 텍스트 특징 세트)와 각각의 향상된 시맨틱 정보 사이의 매칭 정도를 획득하고, 이미지 영역 찾기 네트워크 모델은 이미지 후보 영역과 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성됨 ―; 및
텍스트 특징 세트와 각각의 향상된 시맨틱 정보 사이의 매칭 정도에 따라 이미지 후보 영역 세트로부터 타깃 이미지 후보 영역을 결정하는 기능
을 추가로 갖는다.
선택적으로, 프로세서(580)는 구체적으로,
CNN을 사용하여 각각의 이미지 후보 영역에 대응하는 영역 시맨틱 정보를 획득하는 단계 ― 이미지 후보 영역은 영역 정보를 포함하고, 영역 정보는 찾아질 이미지에서 이미지 후보 영역의 위치 정보와 이미지 후보 영역의 크기 정보를 포함함 ―; 및
N개의 이미지 후보 영역에 대응하는 영역 시맨틱 정보가 획득되는 경우, N개의 영역 시맨틱 정보에 따라 영역 시맨틱 정보 세트를 생성하는 단계
를 수행하도록 구성된다.
선택적으로, 프로세서(580)는 구체적으로,
영역 시맨틱 정보 세트로부터 제1 영역 시맨틱 정보 및 제2 영역 시맨틱 정보를 획득하는 단계 ― 제1 영역 시맨틱 정보는 영역 시맨틱 정보 세트에서 임의의 하나의 영역 시맨틱 정보이고, 제2 영역 시맨틱 정보는 영역 시맨틱 정보 세트에서 임의의 하나의 영역 시맨틱 정보임 ―;
제1 영역 시맨틱 정보와 제2 영역 시맨틱 정보 사이의 연결 에지의 강도를 획득하는 단계;
정규화된 강도를 획득하기 위해 제1 영역 시맨틱 정보와 제2 영역 시맨틱 정보 사이의 연결 에지의 강도를 정규화하는 단계;
영역 시맨틱 정보 세트의 다양한 영역 시맨틱 정보 사이의 정규화된 강도에 따라 타깃 연결 매트릭스를 결정하는 단계; 및
GCN을 사용하여 타깃 연결 매트릭스에 대응하는 향상된 시맨틱 정보 세트를 결정하는 단계
를 수행하도록 구성된다.
선택적으로, 프로세서(580)는 구체적으로,
영역 시맨틱 정보 세트 내의 다양한 영역 시맨틱 정보 사이의 정규화된 강도에 따라 연결 매트릭스를 생성하는 단계; 및
연결 매트릭스 및 단위 매트릭스에 따라 타깃 연결 매트릭스를 생성하는 단계
를 수행하도록 구성된다.
선택적으로, 프로세서(580)는 구체적으로,
다음과 같은 방식으로 향상된 시맨틱 정보 세트를 계산하는 단계를 수행하도록 구성되며,
여기서, 는 GCN의 k 번째 계층에 대응하는 i 번째 향상된 시맨틱 정보를 나타내고, 는 GCN의 k-1 번째 계층에 대응하는 j 번째 향상된 시맨틱 정보를 나타내며, 는 GCN의 k 번째 계층의 제1 네트워크 파라미터를 나타내고, 는 GCN의 k 번째 계층의 제2 네트워크 파라미터를 나타내며, 는 j 번째 노드가 i 번째 노드의 이웃 노드임을 나타내고, 는 타깃 연결 매트릭스의 요소를 나타낸다.
선택적으로, 프로세서(580)는 구체적으로,
찾아질 텍스트를 획득하는 단계;
찾아질 텍스트에 따라 텍스트 벡터 시퀀스를 획득하는 단계 ― 텍스트 벡터 시퀀스는 T개의 단어 벡터를 포함하고, 각각의 단어 벡터는 하나의 단어에 대응함 ―;
텍스트 특징을 획득하기 위해 텍스트 벡터 시퀀스 내의 각각의 단어 벡터를 인코딩하는 단계; 및
T개의 단어 벡터에 대응하는 텍스트 특징이 획득되는 경우, T개의 텍스트 특징에 따라 텍스트 특징 세트를 생성하는 단계
를 수행하도록 구성된다.
선택적으로, 프로세서(580)는 구체적으로,
다음과 같은 방식으로 텍스트 특징을 획득하는 단계를 수행하도록 구성되며,
여기서, 는 텍스트 특징 세트에서 t 번째 텍스트 특징을 나타내고, 는 LSTM 네트워크를 사용하여 인코딩을 수행하는 것을 나타내며, 는 텍스트 벡터 시퀀스에서 t 번째 단어 벡터를 나타내고, 는 텍스트 특징 세트에서 (t-1) 번째 텍스트 특징을 나타낸다.
도 8은 본 개시의 실시예에 따른 서버의 개략적인 구조도이다. 서버(600)는 상이한 구성 또는 성능으로 인해 크게 변할 수 있고, 하나 이상의 중앙 처리 장치(central processing unit, CPU)(622)(예를 들어, 하나 이상의 프로세서) 및 메모리(632) 및 애플리케이션 프로그램(642) 및 데이터(644)를 저장하는 하나 이상의 저장 매체(630)(예를 들어 하나 이상의 대용량 저장 장치)를 포함할 수 있다. 메모리(632) 및 저장 매체(630)는 일시적이거나 영구적인 저장 장치일 수 있다. 저장 매체(630)에 저장된 프로그램은 하나 이상의 모듈(도면에 표시되지 않음)을 포함할 수 있으며, 각각의 모듈은 서버에 대한 일련의 명령 작동을 포함할 수 있다. 또한, CPU(622)는 저장 매체(630)와 통신하도록 설정될 수 있고, 서버(600)에서 저장 매체(630)의 일련의 명령 작동을 수행할 수 있다.
서버(600)는 하나 이상의 파워 서플라이(626), 하나 이상의 유선 또는 무선 네트워크 인터페이스(650), 하나 이상의 입력/출력 인터페이스(658), 및/또는 Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM 또는 FreeBSDTM과 같은 하나 이상의 운영 체제(641)를 더 포함할 수 있다.
전술한 실시예에서 서버에 의해 수행되는 단계는 도 8에 도시된 서버 구조에 기초할 수 있다.
본 발명의 본 실시예에서, 서버에 포함된 CPU(622)는,
찾아질 이미지에서 이미지 후보 영역 세트를 획득하는 기능 ― 이미지 후보 영역 세트는 N개의 이미지 후보 영역을 포함하고, N은 1보다 크거나 같은 정수임 ―;
이미지 후보 영역 세트에 따라 영역 시맨틱 정보 세트(즉, 찾아질 이미지의 이미지 후보 영역 세트)를 생성하는 기능 ― 영역 시맨틱 정보 세트는 N개의 영역 시맨틱 정보를 포함하고, 각각의 영역 시맨틱 정보는 하나의 이미지 후보 영역(즉, 이미지 후보 영역 세트의 하나의 이미지 후보 영역에 대응하는 영역 시맨틱 정보의 각각의 영역 시맨틱 정보)에 대응하며,
GCN을 사용하여 영역 시맨틱 정보 세트에 대응하는 향상된 시맨틱 정보 세트를 획득하고, 향상된 시맨틱 정보 세트는 N개의 향상된 시맨틱 정보를 포함하며, 각각의 향상된 시맨틱 정보는 하나의 영역 시맨틱 정보(즉, 영역 시맨틱 정보 세트의 하나의 영역 시맨틱 정보에 대응하는 향상된 시맨틱 정보 세트의 각각의 향상된 시맨틱 정보)에 대응하고, GCN은 다양한 영역 시맨틱 정보 사이의 연관 관계를 구축하도록 구성되며,
찾아질 텍스트에 대응하는 텍스트 특징 세트를 획득하고, 찾아질 텍스트는 T개의 단어를 포함하며, 텍스트 특징 세트는 T개의 단어 특징을 포함하고, 각각의 단어는 하나의 단어 특징에 대응하며, T는 1보다 크거나 같고(즉, 텍스트 특징 세트의 한 단어 특징에 대응하는 찾아질 텍스트의 각각의 단어),
이미지 영역 찾기 네트워크 모델을 사용하여 텍스트 특징 세트(즉, 찾아질 텍스트에 대응하는 텍스트 특징 세트)와 각각의 향상된 시맨틱 정보 사이의 매칭 정도를 획득하고, 이미지 영역 찾기 네트워크 모델은 이미지 후보 영역과 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성됨 ―; 및
텍스트 특징 세트와 각각의 향상된 시맨틱 정보 사이의 매칭 정도에 따라 이미지 후보 영역 세트로부터 타깃 이미지 후보 영역을 결정하는 기능
을 추가로 갖는다.
선택적으로, CPU(622)는 구체적으로,
CNN을 사용하여 각각의 이미지 후보 영역에 대응하는 영역 시맨틱 정보를 획득하는 단계 ― 이미지 후보 영역은 영역 정보를 포함하고, 영역 정보는 찾아질 이미지에서 이미지 후보 영역의 위치 정보와 이미지 후보 영역의 크기 정보를 포함함 ―; 및
N개의 이미지 후보 영역에 대응하는 영역 시맨틱 정보가 획득되는 경우, N개의 영역 시맨틱 정보에 따라 영역 시맨틱 정보 세트를 생성하는 단계
를 수행하도록 구성된다.
선택적으로, CPU(622)는 구체적으로,
영역 시맨틱 정보 세트로부터 제1 영역 시맨틱 정보 및 제2 영역 시맨틱 정보를 획득하는 단계 ― 제1 영역 시맨틱 정보는 영역 시맨틱 정보 세트에서 임의의 하나의 영역 시맨틱 정보이고, 제2 영역 시맨틱 정보는 영역 시맨틱 정보 세트에서 임의의 하나의 영역 시맨틱 정보임 ―;
제1 영역 시맨틱 정보와 제2 영역 시맨틱 정보 사이의 연결 에지의 강도를 획득하는 단계;
정규화된 강도를 획득하기 위해 제1 영역 시맨틱 정보와 제2 영역 시맨틱 정보 사이의 연결 에지의 강도를 정규화하는 단계;
영역 시맨틱 정보 세트의 다양한 영역 시맨틱 정보 사이의 정규화된 강도에 따라 타깃 연결 매트릭스를 결정하는 단계; 및
GCN을 사용하여 타깃 연결 매트릭스에 대응하는 향상된 시맨틱 정보 세트를 결정하는 단계
를 수행하도록 구성된다.
선택적으로, CPU(622)는 구체적으로,
영역 시맨틱 정보 세트 내의 다양한 영역 시맨틱 정보 사이의 정규화된 강도에 따라 연결 매트릭스를 생성하는 단계; 및
연결 매트릭스 및 단위 매트릭스에 따라 타깃 연결 매트릭스를 생성하는 단계
를 수행하도록 구성된다.
선택적으로, CPU(622)는 구체적으로,
다음과 같은 방식으로 향상된 시맨틱 정보 세트를 계산하는 단계를 수행하도록 구성되며,
여기서, 는 GCN의 k 번째 계층에 대응하는 i 번째 향상된 시맨틱 정보를 나타내고, 는 GCN의 k-1 번째 계층에 대응하는 j 번째 향상된 시맨틱 정보를 나타내며, 는 GCN의 k 번째 계층의 제1 네트워크 파라미터를 나타내고, 는 GCN의 k 번째 계층의 제2 네트워크 파라미터를 나타내며, 는 j 번째 노드가 i 번째 노드의 이웃 노드임을 나타내고, 는 타깃 연결 매트릭스의 요소를 나타낸다.
선택적으로, CPU(622)는 구체적으로,
찾아질 텍스트를 획득하는 단계;
찾아질 텍스트에 따라 텍스트 벡터 시퀀스를 획득하는 단계 ― 텍스트 벡터 시퀀스는 T개의 단어 벡터를 포함하고, 각각의 단어 벡터는 하나의 단어에 대응함 ―;
텍스트 특징을 획득하기 위해 텍스트 벡터 시퀀스 내의 각각의 단어 벡터를 인코딩하는 단계; 및
T개의 단어 벡터에 대응하는 텍스트 특징이 획득되는 경우, T개의 텍스트 특징에 따라 텍스트 특징 세트를 생성하는 단계
를 수행하도록 구성된다.
선택적으로, CPU(622)는 구체적으로,
다음과 같은 방식으로 텍스트 특징을 획득하는 단계를 수행하도록 구성되며,
여기서, 는 텍스트 특징 세트에서 t 번째 텍스트 특징을 나타내고, 는 LSTM 네트워크를 사용하여 인코딩을 수행하는 것을 나타내며, 는 텍스트 벡터 시퀀스에서 t 번째 단어 벡터를 나타내고, 는 텍스트 특징 세트에서 (t-1) 번째 텍스트 특징을 나타낸다.
본 개시의 본 실시예에서, 서버에 포함된 CPU(622)는,
훈련될 텍스트 세트 및 훈련될 이미지 후보 영역 세트를 획득하는 기능 ― 훈련될 텍스트 세트는 제1 훈련될 텍스트와 제2 훈련될 텍스트를 포함하고, 훈련될 이미지 후보 영역 세트는 제1 훈련될 이미지 후보 영역 및 제2 훈련될 이미지 후보 영역을 포함하며, 제1 훈련될 텍스트와 제1 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있고, 제1 훈련된 텍스트와 제2 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있지 않으며, 제2 훈련될 텍스트와 제2 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있고, 제2 훈련될 텍스트와 제1 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있지 않음 -;
제1 훈련될 텍스트, 제2 훈련될 텍스트, 제1 훈련될 이미지 후보 영역 및 제2 훈련될 이미지 후보 영역에 따라 타깃 손실 함수를 결정하는 기능; 및
이미지 영역 찾기 네트워크 모델을 획득하기 위해 타깃 손실 함수를 사용하여 훈련될 이미지 영역 찾기 네트워크 모델을 훈련시키는 기능 ― 이미지 영역 찾기 네트워크 모델은 텍스트 특징 세트와 향상된 시맨틱 정보에 따라 이미지 후보 영역과 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성되고, 향상된 시맨틱 정보와 이미지 후보 영역은 대응관계를 가지며, 텍스트 특징 세트와 찾아질 텍스트는 대응관계를 가짐 ―
을 추가로 가진다.
선택적으로, CPU(622)는 구체적으로,
다음과 같은 방식으로 타깃 손실 함수를 결정하는 단계를 수행하도록 구성되며,
여기서, 는 타깃 손실 함수를 나타내고, 는 제1 훈련될 이미지 후보 영역을 나타내며, 는 제1 훈련될 텍스트를 나타내고, 는 제2 훈련될 이미지 후보 영역을 나타내며, 는 제2 훈련될 텍스트를 나타내고, 는 훈련될 데이터 쌍을 나타내며, max()는 최대값을 취함을 나타내고, 은 제1 파라미터 제어 가중치를 나타내며, 는 제2 파라미터 제어 가중치를 나타내고, 은 제1 미리 설정된 임계값을 나타내며, 는 제2 미리 설정된 임계값을 나타낸다.
당업자는 설명의 편의성 및 간결성을 위해, 전술한 시스템, 장치 및 유닛의 특정 작업 프로세스에 대해 전술한 방법 실시예에서 대응하는 프로세스가 참조될 수 있으며, 세부 사항은 여기에서 다시 설명되지 않는 다는 것을 명확하게 이해할 수 있다.
본 개시에서 제공되는 실시예에서, 개시된 시스템, 장치, 및 방법은 다른 방식으로 구현될 수 있다는 점이 이해되어야 한다. 예를 들어, 설명된 장치 실시예는 단지 예시적인 것이다. 예를 들어, 유닛 분할은 논리적 기능 분할일 뿐이며, 실제 구현에서는 다른 분할일 수 있다. 예를 들어, 복수의 유닛 또는 컴포넌트는 다른 시스템에 결합되거나 또는 통합될 수 있거나, 또는 일부 특징이 무시되거나 수행되지 않을 수 있다. 또한, 디스플레이되거나 논의된 상호 결합 또는 직접 결합 또는 통신 연결은 일부 인터페이스를 사용하여 구현될 수 있다. 장치 또는 유닛 사이의 간접 결합 또는 통신 연결은 전기적, 기계적, 또는 다른 형태의 연결로 구현될 수다.
별도의 컴포넌트로 설명된 유닛은 물리적으로 분리되어 있거나 분리되어 있지 않을 수 있으며, 유닛으로 디스플레이되는 컴포넌트는 물리적 유닛일 수도 있고 아닐 수도 있으며, 한 위치에 있을 수도 있고 복수의 네트워크 유닛에 분산될 수도 있다. 이러한 유닛의 일부 또는 전부는 실시예의 해결수단의 목적을 달성하기 위해 실제 요구에 따라 선택될 수 있다.
또한, 본 개시의 실시예에서의 기능 유닛은 하나의 처리 유닛으로 통합될 수 있거나, 또는 각각의 유닛이 물리적으로 단독으로 존재할 수 있거나, 또는 둘 이상의 유닛이 하나의 유닛으로 통합될 수 있다. 통합 유닛은 하드웨어의 형태로 구현될 수 있거나, 또는 소프트웨어 기능 유닛의 형태로 구현될 수 있다.
통합 유닛이 소프트웨어 기능 유닛의 형태로 구현되고, 독립 제품으로서 판매되거나 사용될 때, 통합 유닛은 컴퓨터 판독 가능 저장 매체에 저장될 수 있다. 이러한 이해에 기초하여, 본 개시의 기술적 해결수단은 본질적으로, 또는 종래 기술에 기여하는 부분, 또는 기술적 해결수단의 전부 또는 일부는 소프트웨어 제품의 형태로 구현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체에 저장되고, (PC, 서버, 네트워크 장치일 수 있는) 컴퓨터 장치에, 본 개시의 실시예에서 설명된 방법 단계의 전부 또는 일부를 수행할 것을 명령하기 위한 여러 개의 명령을 포함한다. 전술한 저장 매체는, USB 플래시 드라이브, 착탈식 하드 디스크, 리드 온리 메모리(read-only memory, ROM), RAM, 자기 디스크, 또는 광 디스크와 같은, 프로그램 코드를 저장할 수 있는 임의의 매체를 포함한다.
본 개시의 실시예는 컴퓨터 판독 가능 저장 매체를 더 제공하고, 컴퓨터 판독 가능 저장 매체는 명령을 저장하며, 명령은 컴퓨터 상에서 실행될 때 컴퓨터로 하여금 전술한 실시예에서 제공되는 이미지 영역을 찾기 위한 방법의 임의의 가능한 구현을 수행하게 한다.
선택적으로, 컴퓨터 판독 가능 저장 매체에 저장된 명령은,
찾아질 이미지의 이미지 후보 영역 세트에 따라 영역 시맨틱 정보를 생성하는 단계 ― 영역 시맨틱 정보 세트의 각각의 영역 시맨틱 정보는 이미지 후보 영역 세트의 하나의 이미지 후보 영역에 대응함 ―;
GCN을 사용하여 영역 시맨틱 정보 세트에 대응하는 향상된 시맨틱 정보 세트를 획득하는 단계 ― 향상된 시맨틱 정보 세트의 각각의 향상된 시맨틱 정보는 영역 시맨틱 정보 세트의 하나의 영역 시맨틱 정보에 대응하고, GCN은 다양한 영역 시맨틱 정보 사이의 연관 관계를 구축하도록 구성됨 ―;
이미지 영역 찾기 네트워크 모델을 사용하여 찾아질 텍스트에 대응하는 텍스트 특징 세트와 각각의 향상된 시맨틱 정보 사이의 매칭 정도를 획득하는 단계 ― 이미지 영역 찾기 네트워크 모델은 이미지 후보 영역과 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성되고, 찾아질 텍스트의 각각의 단어는 텍스트 특징 세트의 한 단어에 대응함 ―; 및
텍스트 특징 세트와 각각의 향상된 시맨틱 정보 사이의 매칭 정도에 따라 이미지 후보 영역 세트로부터 타깃 이미지 후보 영역을 결정하는 단계
를 수행하도록 구성된다.
선택적으로, 컴퓨터 판독 가능 저장 매체에 저장된 명령은,
CNN을 사용하여 각각의 이미지 후보 영역에 대응하는 영역 시맨틱 정보를 획득하는 단계 ― 이미지 후보 영역은 영역 정보를 포함하고, 영역 정보는 찾아질 이미지에서 이미지 후보 영역의 위치 정보와 이미지 후보 영역의 크기 정보를 포함함 ―; 및
N개의 이미지 후보 영역에 대응하는 영역 시맨틱 정보가 획득되는 경우, N개의 영역 시맨틱 정보에 따라 영역 시맨틱 정보 세트를 생성하는 단계
를 수행하도록 구성된다.
선택적으로, 컴퓨터 판독 가능 저장 매체에 저장된 명령은,
영역 시맨틱 정보 세트로부터 제1 영역 시맨틱 정보 및 제2 영역 시맨틱 정보를 획득하는 단계 ― 제1 영역 시맨틱 정보는 영역 시맨틱 정보 세트에서 임의의 하나의 영역 시맨틱 정보이고, 제2 영역 시맨틱 정보는 영역 시맨틱 정보 세트에서 임의의 하나의 영역 시맨틱 정보임 ―;
제1 영역 시맨틱 정보와 제2 영역 시맨틱 정보 사이의 연결 에지의 강도를 획득하는 단계;
정규화된 강도를 획득하기 위해 제1 영역 시맨틱 정보와 제2 영역 시맨틱 정보 사이의 연결 에지의 강도를 정규화하는 단계;
영역 시맨틱 정보 세트의 다양한 영역 시맨틱 정보 사이의 정규화된 강도에 따라 타깃 연결 매트릭스를 결정하는 단계; 및
GCN을 사용하여 타깃 연결 매트릭스에 대응하는 향상된 시맨틱 정보 세트를 결정하는 단계
를 수행하도록 구성된다.
선택적으로, 컴퓨터 판독 가능 저장 매체에 저장된 명령은,
영역 시맨틱 정보 세트 내의 다양한 영역 시맨틱 정보 사이의 정규화된 강도에 따라 연결 매트릭스를 생성하는 단계; 및
연결 매트릭스 및 단위 매트릭스에 따라 타깃 연결 매트릭스를 생성하는 단계
를 수행하도록 구성된다.
선택적으로, 컴퓨터 판독 가능 저장 매체에 저장된 명령은,
다음과 같은 방식으로 향상된 시맨틱 정보 세트를 계산하는 단계를 수행하도록 구성되며,
여기서, 는 GCN의 k 번째 계층에 대응하는 i 번째 향상된 시맨틱 정보를 나타내고, 는 GCN의 k-1 번째 계층에 대응하는 j 번째 향상된 시맨틱 정보를 나타내며, 는 GCN의 k 번째 계층의 제1 네트워크 파라미터를 나타내고, 는 GCN의 k 번째 계층의 제2 네트워크 파라미터를 나타내며, 는 j 번째 노드가 i 번째 노드의 이웃 노드임을 나타내고, 는 타깃 연결 매트릭스의 요소를 나타낸다.
선택적으로, 컴퓨터 판독 가능 저장 매체에 저장된 명령은,
찾아질 텍스트를 획득하는 단계;
찾아질 텍스트에 따라 텍스트 벡터 시퀀스를 획득하는 단계 ― 텍스트 벡터 시퀀스는 T개의 단어 벡터를 포함하고, 각각의 단어 벡터는 하나의 단어에 대응하며, T는 1보다 크거나 같음 ―;
텍스트 특징을 획득하기 위해 텍스트 벡터 시퀀스 내의 각각의 단어 벡터를 인코딩하는 단계; 및
T개의 단어 벡터에 대응하는 텍스트 특징이 획득되는 경우, T개의 텍스트 특징에 따라 텍스트 특징 세트를 생성하는 단계
를 수행하도록 구성된다.
선택적으로, 컴퓨터 판독 가능 저장 매체에 저장된 명령은,
다음과 같은 방식으로 텍스트 특징을 획득하는 단계를 수행하도록 구성되며,
여기서, 는 텍스트 특징 세트에서 t 번째 텍스트 특징을 나타내고, 는 LSTM 네트워크를 사용하여 인코딩을 수행하는 것을 나타내며, 는 텍스트 벡터 시퀀스에서 t 번째 단어 벡터를 나타내고, 는 텍스트 특징 세트에서 (t-1) 번째 텍스트 특징을 나타낸다.
본 개시의 실시예는 컴퓨터 판독 가능 저장 매체를 더 제공하고, 컴퓨터 판독 가능 저장 매체는 명령을 저장하며, 명령은 컴퓨터 상에서 실행될 때 컴퓨터로 하여금 전술한 실시예에서 제공되는 모델 훈련 방법의 임의의 가능한 구현을 수행하게 한다.
선택적으로, 컴퓨터 판독 가능 저장 매체에 저장된 명령은,
훈련될 텍스트 세트 및 훈련될 이미지 후보 영역 세트를 획득하는 단계 ― 훈련될 텍스트 세트는 제1 훈련될 텍스트와 제2 훈련될 텍스트를 포함하고, 훈련될 이미지 후보 영역 세트는 제1 훈련될 이미지 후보 영역 및 제2 훈련될 이미지 후보 영역을 포함하며, 제1 훈련될 텍스트와 제1 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있고, 제1 훈련된 텍스트와 제2 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있지 않으며, 제2 훈련될 텍스트와 제2 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있고, 제2 훈련될 텍스트와 제1 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있지 않음 -;
제1 훈련될 텍스트, 제2 훈련될 텍스트, 제1 훈련될 이미지 후보 영역 및 제2 훈련될 이미지 후보 영역에 따라 타깃 손실 함수를 결정하는 단계; 및
이미지 영역 찾기 네트워크 모델을 획득하기 위해 타깃 손실 함수를 사용하여 훈련될 이미지 영역 찾기 네트워크 모델을 훈련시키는 단계 ― 이미지 영역 찾기 네트워크 모델은 텍스트 특징 세트와 향상된 시맨틱 정보에 따라 이미지 후보 영역과 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성되고, 향상된 시맨틱 정보와 이미지 후보 영역은 대응관계를 가지며, 텍스트 특징 세트와 찾아질 텍스트는 대응관계를 가짐 ―
를 수행하도록 구성된다.
선택적으로, 컴퓨터 판독 가능 저장 매체에 저장된 명령은,
다음과 같은 방식으로 타깃 손실 함수를 결정하는 단계를 수행하도록 구성되며,
여기서, 는 타깃 손실 함수를 나타내고, 는 제1 훈련될 이미지 후보 영역을 나타내며, 는 제1 훈련될 텍스트를 나타내고, 는 제2 훈련될 이미지 후보 영역을 나타내며, 는 제2 훈련될 텍스트를 나타내고, 는 훈련될 데이터 쌍을 나타내며, max()는 최대값을 취함을 나타내고, 은 제1 파라미터 제어 가중치를 나타내며, 는 제2 파라미터 제어 가중치를 나타내고, 은 제1 미리 설정된 임계값을 나타내며, 는 제2 미리 설정된 임계값을 나타낸다.
본 개시의 실시예는 명령을 포함하는 컴퓨터 판독 가능 저장 매체를 더 제공하고, 명령은 컴퓨터 상에서 실행될 때 컴퓨터로 하여금 전술한 실시예에서 제공되는 이미지 영역을 찾기 위한 방법의 임의의 가능한 구현을 수행하게 하거나 또는 전술한 실시예에서 제공되는 모델 훈련 방법의 임의의 가능한 구현을 수행하게 한다.
전술한 실시예는 본 개시의 기술적 해결수단을 설명하기 위한 것일뿐, 본 개시를 제한하기 위한 것이 아니다. 본 개시가 전술한 실시예를 참조하여 상세하게 설명되었지만, 당업자라면 본 개시의 실시예의 기술적 해결수단의 정신 및 범위를 벗어나지 않고 전술한 실시예에서 설명된 기술적 해결수단에 여전히 수정을 가하거나 일부 기술적 특징을 동등하게 대체할 수 있음을 이해해야 한다.

Claims (20)

  1. 이미지 영역을 찾기 위한 방법으로서,
    찾아질 이미지(to-be located image)의 이미지 후보 영역 세트에 따라 영역 시맨틱 정보 세트(regoin semantic information set)를 생성하는 단계 ― 상기 영역 시맨틱 정보 세트의 각각의 영역 시맨틱 정보는 상기 이미지 후보 영역 세트의 하나의 이미지 후보 영역에 대응함 ―;
    그래프 컨볼루션 네트워크(Graph Convolutional Network, GCN)를 사용하여 상기 영역 시맨틱 정보 세트에 대응하는 향상된 시맨틱 정보 세트를 획득하는 단계 ― 상기 향상된 시맨틱 정보 세트의 각각의 향상된 시맨틱 정보는 상기 영역 시맨틱 정보 세트의 하나의 영역 시맨틱 정보에 대응하고, 상기 GCN은 다양한 영역 시맨틱 정보들 사이의 연관 관계를 구축하도록 구성됨 ―;
    이미지 영역 찾기 네트워크 모델을 사용하여 찾아질 텍스트에 대응하는 텍스트 특징 세트와 상기 각각의 향상된 시맨틱 정보 사이의 매칭 정도를 획득하는 단계 ― 상기 이미지 영역 찾기 네트워크 모델은 상기 이미지 후보 영역과 상기 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성되고, 상기 찾아질 텍스트의 각각의 단어는 상기 텍스트 특징 세트의 하나의 단어 특징에 대응함 ―; 및
    상기 텍스트 특징 세트와 상기 각각의 향상된 시맨틱 정보 사이의 매칭 정도에 따라 상기 이미지 후보 영역 세트로부터 타깃 이미지 후보 영역을 결정하는 단계
    를 포함하는 이미지 영역을 찾기 위한 방법.
  2. 제1항에 있어서,
    상기 찾아질 이미지의 이미지 후보 영역 세트에 따라 영역 시맨틱 정보 세트를 생성하는 단계는,
    컨볼루션 신경망(Convolutional Neural Network, CNN)을 사용하여 각각의 이미지 후보 영역에 대응하는 영역 시맨틱 정보를 획득하는 단계 ― 상기 이미지 후보 영역은 영역 정보를 포함하고, 상기 영역 정보는 상기 찾아질 이미지의 이미지 후보 영역의 위치 정보 및 상기 이미지 후보 영역의 크기 정보를 포함함 ―; 및
    N개의 이미지 후보 영역에 대응하는 영역 시맨틱 정보가 획득되는 경우 N개의 영역 시맨틱 정보에 따라 상기 영역 시맨틱 정보 세트를 생성하는 단계 ― N은 1보다 크거나 같은 정수임 ―
    를 포함하는, 이미지 영역을 찾기 위한 방법.
  3. 제1항에 있어서,
    상기 GCN을 사용하여 상기 영역 시맨틱 정보 세트에 대응하는 향상된 시맨틱 정보 세트를 획득하는 단계는,
    상기 영역 시맨틱 정보 세트로부터 제1 영역 시맨틱 정보 및 제2 영역 시맨틱 정보를 획득하는 단계 ― 상기 제1 영역 시맨틱 정보는 상기 영역 시맨틱 정보 세트의 임의의 하나의 영역 시맨틱 정보이고, 상기 제2 영역 시맨틱 정보는 상기 영역 시맨틱 정보 세트의 임의의 하나의 영역 시맨틱 정보임 ―;
    상기 제1 영역 시맨틱 정보와 상기 제2 영역 시맨틱 정보 사이의 연결 에지의 강도를 획득하는 단계;
    정규화된 강도를 획득하기 위해 상기 제1 영역 시맨틱 정보와 상기 제2 영역 시맨틱 정보 사이의 연결 에지의 강도를 정규화하는 단계;
    상기 영역 시맨틱 정보 세트의 다양한 영역 시맨틱 정보들 사이의 정규화된 강도에 따라 타깃 연결 매트릭스를 결정하는 단계; 및
    상기 GCN을 사용하여 상기 타깃 연결 매트릭스에 대응하는 향상된 시맨틱 정보 세트를 결정하는 단계
    를 포함하는, 이미지 영역을 찾기 위한 방법.
  4. 제3항에 있어서,
    상기 영역 시맨틱 정보 세트의 다양한 영역 시맨틱 정보들 사이의 정규화된 강도에 따라 타깃 연결 매트릭스를 결정하는 단계는,
    상기 영역 시맨틱 정보 세트의 다양한 영역 시맨틱 정보들 사이의 정규화된 강도에 따라 연결 매트릭스를 생성하는 단계; 및
    상기 연결 매트릭스 및 단위 매트릭스에 따라 상기 타깃 연결 매트릭스를 생성하는 단계
    를 포함하는, 이미지 영역을 찾기 위한 방법.
  5. 제3항에 있어서,
    상기 GCN을 사용하여 상기 타깃 연결 매트릭스에 대응하는 향상된 시맨틱 정보 세트를 결정하는 단계는,
    다음의 방식

    으로 상기 향상된 시맨틱 정보를 계산하는 단계를 포함하며,
    여기서 는 GCN의 k 번째 계층에 대응하는 i 번째 향상된 시맨틱 정보를 나타내고, 는 GCN의 k-1 번째 계층에 대응하는 j 번째 향상된 시맨틱 정보를 나타내며, 는 GCN의 k 번째 계층의 제1 네트워크 파라미터를 나타내고, 는 GCN의 k 번째 계층의 제2 네트워크 파라미터를 나타내며, 는 j 번째 노드가 i 번째 노드의 이웃 노드임을 나타내고, 는 상기 타깃 연결 매트릭스의 요소를 나타내는,
    이미지 영역을 찾기 위한 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 이미지 영역 찾기 네트워크 모델을 사용하여 찾아질 텍스트에 대응하는 텍스트 특징 세트와 상기 각각의 향상된 시맨틱 정보 사이의 매칭 정도를 획득하는 단계 전에, 상기 이미지 영역을 찾기 위한 방법은,
    상기 찾아질 텍스트를 획득하는 단계;
    상기 찾아질 텍스트에 따라 텍스트 벡터 시퀀스를 획득하는 단계 ― 상기 텍스트 벡터 시퀀스는 T개의 단어 벡터를 포함하고, 각각의 단어 벡터는 하나의 단어에 대응하며, T는 1보다 크거나 같은 정수임 ―;
    텍스트 특징을 획득하기 위해 상기 텍스트 벡터 시퀀스의 각각의 단어 벡터를 인코딩하는 단계; 및
    상기 T개의 단어 벡터에 대응하는 텍스트 특징이 획득되는 경우 상기 T개의 텍스트 특징에 따라 상기 텍스트 특징 세트를 생성하는 단계
    를 더 포함하는 이미지 영역을 찾기 위한 방법.
  7. 제6항에 있어서,
    상기 텍스트 특징을 획득하기 위해 상기 텍스트 벡터 시퀀스의 각각의 단어 벡터를 인코딩하는 단계는,
    다음의 방식

    으로 상기 텍스트 특징을 획득하는 단계를 포함하며,
    여기서 는 상기 텍스트 특징 세트의 t 번째 텍스트 특징을 나타내고, 는 장단기 메모리(Long Short-Term Memory, LSTM) 네트워크를 사용하여 인코딩을 수행하는 것을 나타내며, 는 상기 텍스트 벡터 시퀀스의 t 번째 단어 벡터를 나타내고, 는 상기 텍스트 특징 세트의 (t-1) 번째 텍스트 특징을 나타내는,
    이미지 영역을 찾기 위한 방법.
  8. 모델 훈련 방법으로서,
    훈련될 텍스트 세트 및 훈련될 이미지 후보 영역 세트를 획득하는 단계 ― 상기 훈련될 텍스트 세트는 제1 훈련될 텍스트 및 제2 훈련될 텍스트를 포함하고, 상기 훈련될 이미지 후보 영역 세트는 제1 훈련될 이미지 후보 영역 및 제2 훈련될 이미지 후보 영역을 포함하며, 상기 제1 훈련될 텍스트와 상기 제1 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있고, 상기 제1 훈련된 텍스트와 상기 제2 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있지 않으며, 상기 제2 훈련될 텍스트와 상기 제2 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있고, 상기 제2 훈련될 텍스트와 상기 제1 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있지 않음 ―;
    상기 제1 훈련될 텍스트, 상기 제2 훈련될 텍스트, 상기 제1 훈련될 이미지 후보 영역 및 상기 제2 훈련될 이미지 후보 영역에 따라 타깃 손실 함수를 결정하는 단계; 및
    이미지 영역 찾기 네트워크 모델을 획득하기 위해 상기 타깃 손실 함수를 사용하여 훈련될 이미지 영역 찾기 네트워크 모델을 훈련시키는 단계 ― 상기 이미지 영역 찾기 네트워크 모델은 텍스트 특징 세트 및 향상된 시맨틱 정보에 따라 이미지 후보 영역과 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성되고, 상기 향상된 시맨틱 정보와 상기 이미지 후보 영역은 대응관계를 가지며, 상기 텍스트 특징 세트와 상기 찾아질 텍스트는 대응관계를 갖고 있음 ―
    을 포함하는 모델 훈련 방법.
  9. 제8항에 있어서,
    상기 제1 훈련될 텍스트, 상기 제2 훈련될 텍스트, 상기 제1 훈련될 이미지 후보 영역 및 상기 제2 훈련될 이미지 후보 영역에 따라 타깃 손실 함수를 결정하는 단계는,
    다음의 방식

    으로 상기 타깃 손실 함수를 결정하는 단계를 포함하며,
    여기서 은 상기 타깃 손실 함수를 나타내고, 는 상기 제1 훈련될 이미지 후보 영역을 나타내며, 는 상기 제1 훈련될 텍스트를 나타내고, 는 상기 제2 훈련될 이미지 후보 영역을 나타내며, 는 상기 제2 훈련될 텍스트를 나타내고, 는 훈련될 데이터 쌍을 나타내며, max()는 최대값을 취함을 나타내고, 은 제1 파라미터 제어 가중치를 나타내며, 는 제2 파라미터 제어 가중치를 나타내고, 은 제1 미리 설정된 임계값을 나타내며, 는 제2 미리 설정된 임계값을 나타내는,
    모델 훈련 방법.
  10. 이미지 영역을 찾기 위한 장치로서,
    찾아질 이미지의 이미지 후보 영역 세트에 따라 영역 시맨틱 정보 세트를 생성하도록 하는 생성 모듈 ― 상기 영역 시맨틱 정보 세트의 각각의 영역 시맨틱 정보는 상기 이미지 후보 영역 세트의 하나의 이미지 후보 영역에 대응함 ―;
    그래프 컨볼루션 네트워크(GCN)를 사용하여, 상기 생성 모듈에 의해 생성되는 상기 영역 시맨틱 정보 세트에 대응하는 향상된 시맨틱 정보 세트를 획득하도록 구성된 획득 모듈 ― 상기 향상된 시맨틱 정보 세트의 각각의 향상된 시맨틱 정보는 상기 영역 시맨틱 정보 세트의 하나의 영역 시맨틱 정보에 대응하고, 상기 GCN은 다양한 영역 시맨틱 정보들 사이의 연관 관계를 구축하도록 구성되며,
    상기 획득 모듈은, 이미지 영역 찾기 네트워크 모델을 사용하여 찾아질 텍스트에 대응하는 텍스트 특징 세트와 상기 각각의 향상된 시맨틱 정보 사이의 매칭 정도를 획득하도록 추가로 구성되고, 상기 이미지 영역 찾기 네트워크 모델은 상기 이미지 후보 영역과 상기 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성되며, 상기 찾아질 텍스트의 각각의 단어는 상기 텍스트 특징 세트의 하나의 단어 특징에 대응함 ―; 및
    상기 텍스트 특징 세트와 상기 획득 모듈에 의해 획득되는 각각의 향상된 시맨틱 정보 사이의 매칭 정도에 따라 상기 이미지 후보 영역 세트로부터 타깃 이미지 후보 영역을 결정하도록 구성된 결정 모듈
    을 포함하는 이미지 영역을 찾기 위한 장치.
  11. 모델 훈련 장치로서,
    훈련될 텍스트 세트 및 훈련될 이미지 후보 영역 세트를 획득하도록 구성된 획득 모듈 ― 상기 훈련될 텍스트 세트는 제1 훈련될 텍스트 및 제2 훈련될 텍스트를 포함하고, 상기 훈련될 이미지 후보 영역 세트는 제1 훈련될 이미지 후보 영역 및 제2 훈련될 이미지 후보 영역을 포함하며, 상기 제1 훈련될 텍스트와 상기 제1 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있고, 상기 제1 훈련된 텍스트와 상기 제2 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있지 않으며, 상기 제2 훈련될 텍스트와 상기 제2 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있고, 상기 제2 훈련될 텍스트와 상기 제1 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있지 않음 ―;
    상기 획득 모듈에 의해 획득되는 상기 제1 훈련될 텍스트, 상기 제2 훈련될 텍스트, 상기 제1 훈련될 이미지 후보 영역 및 상기 제2 훈련될 이미지 후보 영역에 따라 타깃 손실 함수를 결정하도록 구성되는 결정 모듈; 및
    이미지 영역 찾기 네트워크 모델을 획득하기 위해 상기 결정 모듈에 의해 결정되는 타깃 손실 함수를 사용하여 훈련될 이미지 영역 찾기 네트워크 모델을 훈련시키도록 구성된 훈련 모듈 ― 상기 이미지 영역 찾기 네트워크 모델은 텍스트 특징 세트 및 향상된 시맨틱 정보에 따라 이미지 후보 영역과 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성되고, 상기 향상된 시맨틱 정보와 상기 이미지 후보 영역은 대응관계를 가지며, 상기 텍스트 특징 세트와 상기 찾아질 텍스트는 대응관계를 갖고 있음 ―
    을 포함하는 모델 훈련 장치.
  12. 단말 장치로서,
    메모리, 트랜시버, 프로세서 및 버스 시스템
    을 포함하며,
    상기 메모리는 프로그램을 저장하도록 구성되고,
    상기 프로세서는,
    찾아질 이미지의 이미지 후보 영역 세트에 따라 영역 시맨틱 정보 세트를 생성하는 작동 ― 상기 영역 시맨틱 정보 세트의 각각의 영역 시맨틱 정보는 상기 이미지 후보 영역 세트의 하나의 이미지 후보 영역에 대응함 ―;
    그래프 컨볼루션 네트워크(GCN)를 사용하여 상기 영역 시맨틱 정보 세트에 대응하는 향상된 시맨틱 정보 세트를 획득하는 작동 ― 상기 향상된 시맨틱 정보 세트의 각각의 향상된 시맨틱 정보는 상기 영역 시맨틱 정보 세트의 하나의 영역 시맨틱 정보에 대응하고, 상기 GCN은 다양한 영역 시맨틱 정보들 사이의 연관 관계를 구축하도록 구성됨 ―;
    이미지 영역 찾기 네트워크 모델을 사용하여 찾아질 텍스트에 대응하는 텍스트 특징 세트와 상기 각각의 향상된 시맨틱 정보 사이의 매칭 정도를 획득하는 작동 ― 상기 이미지 영역 찾기 네트워크 모델은 상기 이미지 후보 영역과 상기 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성되고, 상기 찾아질 텍스트의 각각의 단어는 상기 텍스트 특징 세트의 하나의 단어 특징에 대응함 ―; 및
    상기 텍스트 특징 세트와 상기 각각의 향상된 시맨틱 정보 사이의 매칭 정도에 따라 상기 이미지 후보 영역 세트로부터 타깃 이미지 후보 영역을 결정하는 작동
    을 수행하기 위해 상기 메모리의 프로그램을 실행하도록 구성되며,
    상기 버스 시스템은 상기 메모리와 상기 프로세서가 통신을 수행할 수 있도록 상기 메모리와 상기 프로세서를 연결하도록 구성되는,
    단말 장치.
  13. 제12항에 있어서,
    상기 프로세서는,
    컨볼루션 신경망(CNN)을 사용하여 각각의 이미지 후보 영역에 대응하는 영역 시맨틱 정보를 획득하는 작동 ― 상기 이미지 후보 영역은 영역 정보를 포함하고, 상기 영역 정보는 상기 찾아질 이미지의 이미지 후보 영역의 위치 정보 및 상기 이미지 후보 영역의 크기 정보를 포함함 ―; 및
    N개의 이미지 후보 영역에 대응하는 영역 시맨틱 정보가 획득되는 경우 N개의 영역 시맨틱 정보에 따라 상기 영역 시맨틱 정보 세트를 생성하는 작동 ― N은 1보다 크거나 같은 정수임 ―
    을 수행하기 위해 상기 메모리의 프로그램을 실행하도록 추가로 구성되는,
    단말 장치.
  14. 제12항에 있어서,
    상기 프로세서는,
    상기 영역 시맨틱 정보 세트로부터 제1 영역 시맨틱 정보 및 제2 영역 시맨틱 정보를 획득하는 작동 ― 상기 제1 영역 시맨틱 정보는 상기 영역 시맨틱 정보 세트의 임의의 하나의 영역 시맨틱 정보이고, 상기 제2 영역 시맨틱 정보는 상기 영역 시맨틱 정보 세트의 임의의 하나의 영역 시맨틱 정보임 ―;
    상기 제1 영역 시맨틱 정보와 상기 제2 영역 시맨틱 정보 사이의 연결 에지의 강도를 획득하는 작동;
    정규화된 강도를 획득하기 위해 상기 제1 영역 시맨틱 정보와 상기 제2 영역 시맨틱 정보 사이의 연결 에지의 강도를 정규화하는 작동;
    상기 영역 시맨틱 정보 세트의 다양한 영역 시맨틱 정보들 사이의 정규화된 강도에 따라 타깃 연결 매트릭스를 결정하는 작동; 및
    상기 GCN을 사용하여 상기 타깃 연결 매트릭스에 대응하는 향상된 시맨틱 정보 세트를 결정하는 작동
    을 수행하기 위해 상기 메모리의 프로그램을 실행하도록 추가로 구성되는,
    단말 장치.
  15. 제14항에 있어서,
    상기 프로세서는,
    상기 영역 시맨틱 정보 세트의 다양한 영역 시맨틱 정보들 사이의 정규화된 강도에 따라 연결 매트릭스를 생성하는 작동; 및
    상기 연결 매트릭스 및 단위 매트릭스에 따라 상기 타깃 연결 매트릭스를 생성하는 작동
    을 수행하기 위해 상기 메모리의 프로그램을 실행하도록 추가로 구성되는,
    단말 장치.
  16. 제14항 또는 제15항에 있어서,
    상기 프로세서는,
    다음의 방식

    으로 상기 향상된 시맨틱 정보를 계산하는 작동을 수행하기 위해 상기 메모리의 프로그램을 실행하도록 추가로 구성되며,
    여기서 는 GCN의 k 번째 계층에 대응하는 i 번째 향상된 시맨틱 정보를 나타내고, 는 GCN의 k-1 번째 계층에 대응하는 j 번째 향상된 시맨틱 정보를 나타내며, 는 GCN의 k 번째 계층의 제1 네트워크 파라미터를 나타내고, 는 GCN의 k 번째 계층의 제2 네트워크 파라미터를 나타내며, 는 j 번째 노드가 i 번째 노드의 이웃 노드임을 나타내고, 는 상기 타깃 연결 매트릭스의 요소를 나타내는,
    단말 장치.
  17. 서버로서,
    메모리, 트랜시버, 프로세서 및 버스 시스템을 포함하며,
    상기 메모리는 프로그램을 저장하도록 구성되고,
    상기 프로세서는,
    찾아질 이미지의 이미지 후보 영역 세트에 따라 영역 시맨틱 정보 세트를 생성하는 작동 ― 상기 영역 시맨틱 정보 세트의 각각의 영역 시맨틱 정보는 상기 이미지 후보 영역 세트의 하나의 이미지 후보 영역에 대응함 ―;
    그래프 컨볼루션 네트워크(GCN)를 사용하여 상기 영역 시맨틱 정보 세트에 대응하는 향상된 시맨틱 정보 세트를 획득하는 작동 ― 상기 향상된 시맨틱 정보 세트의 각각의 향상된 시맨틱 정보는 상기 영역 시맨틱 정보 세트의 하나의 영역 시맨틱 정보에 대응하고, 상기 GCN은 다양한 영역 시맨틱 정보 사이의 연관 관계를 구축하도록 구성됨 ―;
    이미지 영역 찾기 네트워크 모델을 사용하여 찾아질 텍스트에 대응하는 텍스트 특징 세트와 상기 각각의 향상된 시맨틱 정보 사이의 매칭 정도를 획득하는 작동 ― 상기 이미지 영역 찾기 네트워크 모델은 상기 이미지 후보 영역과 상기 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성되고, 상기 찾아질 텍스트의 각각의 단어는 상기 텍스트 특징 세트의 하나의 단어 특징에 대응함 ―; 및
    상기 텍스트 특징 세트와 상기 각각의 향상된 시맨틱 정보 사이의 매칭 정도에 따라 상기 이미지 후보 영역 세트로부터 타깃 이미지 후보 영역을 결정하는 작동
    을 수행하기 위해 상기 메모리의 프로그램을 실행하도록 구성되며,
    상기 버스 시스템은 상기 메모리와 상기 프로세서가 통신을 수행할 수 있도록 상기 메모리와 상기 프로세서를 연결하도록 구성되는,
    서버.
  18. 서버로서,
    메모리, 트랜시버, 프로세서 및 버스 시스템을 포함하며,
    상기 메모리는 프로그램을 저장하도록 구성되고,
    상기 프로세서는,
    훈련될 텍스트 세트 및 훈련될 이미지 후보 영역 세트를 획득하는 작동 ― 상기 훈련될 텍스트 세트는 제1 훈련될 텍스트 및 제2 훈련될 텍스트를 포함하고, 상기 훈련될 이미지 후보 영역 세트는 제1 훈련될 이미지 후보 영역 및 제2 훈련될 이미지 후보 영역을 포함하며, 상기 제1 훈련될 텍스트와 상기 제1 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있고, 상기 제1 훈련된 텍스트와 상기 제2 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있지 않으며, 상기 제2 훈련될 텍스트와 상기 제2 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있고, 상기 제2 훈련될 텍스트와 상기 제1 훈련될 이미지 후보 영역은 매칭 관계를 갖고 있지 않음 ―;
    상기 제1 훈련될 텍스트, 상기 제2 훈련될 텍스트, 상기 제1 훈련될 이미지 후보 영역 및 상기 제2 훈련될 이미지 후보 영역에 따라 타깃 손실 함수를 결정하는 작동; 및
    이미지 영역 찾기 네트워크 모델을 획득하기 위해 상기 타깃 손실 함수를 사용하여 훈련될 이미지 영역 찾기 네트워크 모델을 훈련시키는 작동 ― 상기 이미지 영역 찾기 네트워크 모델은 텍스트 특징 세트 및 향상된 시맨틱 정보에 따라 이미지 후보 영역과 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성되고, 상기 향상된 시맨틱 정보와 상기 이미지 후보 영역은 대응관계를 가지며, 상기 텍스트 특징 세트와 상기 찾아질 텍스트는 대응관계를 갖고 있음 ―
    을 수행하기 위해 상기 메모리의 프로그램을 실행하도록 구성되며,
    상기 버스 시스템은 상기 메모리와 상기 프로세서가 통신을 수행할 수 있도록 상기 메모리와 상기 프로세서를 연결하도록 구성되는,
    서버.
  19. 이미지 영역을 찾기 위한 방법으로서,
    이미지 찾기 명령을 수신하는 단계;
    상기 이미지 찾기 명령에 응답하여 상기 이미지 찾기 명령에 따라 찾아질 이미지의 이미지 후보 영역 세트를 획득하는 단계 ― 상기 이미지 후보 영역 세트는 N개의 이미지 후보 영역을 포함하고, N은 1보다 크거나 같은 정수임 ―;
    상기 이미지 후보 영역 세트에 따라 영역 시맨틱 정보 세트를 생성하는 단계 ― 상기 영역 시맨틱 정보 세트는 N개의 영역 시맨틱 정보를 포함하고, 각각의 영역 시맨틱 정보는 하나의 이미지 후보 영역에 대응함 ―;
    그래프 컨볼루션 네트워크(GCN)를 사용하여 상기 영역 시맨틱 정보 세트에 대응하는 향상된 시맨틱 정보 세트를 획득하는 단계 ― 상기 향상된 시맨틱 정보 세트는 N개의 향상된 시맨틱 정보를 포함하고, 각각의 향상된 시맨틱 정보는 하나의 영역 시맨틱 정보에 대응하며, 상기 GCN은 다양한 영역 시맨틱 정보들 사이의 연관 관계를 구축하도록 구성됨 ―;
    찾아질 텍스트에 대응하는 텍스트 특징 세트를 획득하는 단계 ― 상기 찾아질 텍스트는 T개의 단어를 포함하고, 상기 텍스트 특징 세트는 T개의 단어 특징을 포함하며, 각각의 단어는 하나의 단어 특징에 대응하고, T는 1보다 크거나 같은 정수임 ―;
    이미지 영역 찾기 네트워크 모델을 사용하여 상기 텍스트 특징 세트와 상기 각각의 향상된 시맨틱 정보 사이의 매칭 정도를 획득하는 단계 ― 상기 이미지 영역 찾기 네트워크 모델은 상기 이미지 후보 영역과 상기 찾아질 텍스트 사이의 매칭 관계를 결정하도록 구성됨 ―;
    상기 텍스트 특징 세트와 상기 각각의 향상된 시맨틱 정보 사이의 매칭 정도에 따라 상기 이미지 후보 영역 세트로부터 타깃 이미지 후보 영역을 결정하는 단계; 및
    클라이언트가 이미지 생성 명령에 따라 상기 타깃 이미지 후보 영역을 디스플레이할 수 있도록 상기 클라이언트에게 상기 이미지 생성 명령을 전송하는 단계
    를 포함하는 이미지 영역을 찾기 위한 방법.
  20. 컴퓨터 판독 가능 저장 매체로서,
    명령을 저장하고,
    상기 명령이, 컴퓨터에서 실행될 때, 상기 컴퓨터로 하여금 제1항 내지 제5항 중 어느 한 항에 따른 이미지 영역을 찾기 위한 방법을 수행하게 하거나 또는 제8항 또는 제9항에 따른 모델 훈련 방법을 수행하게 하는,
    컴퓨터 판독 가능 저장 매체.
KR1020217014824A 2019-03-13 2020-03-10 이미지 영역을 찾기 위한 방법, 모델 훈련 방법 및 관련 장치 KR102646667B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910190207.2 2019-03-13
CN201910190207.2A CN109903314A (zh) 2019-03-13 2019-03-13 一种图像区域定位的方法、模型训练的方法及相关装置
PCT/CN2020/078532 WO2020182112A1 (zh) 2019-03-13 2020-03-10 一种图像区域定位的方法、模型训练的方法及相关装置

Publications (2)

Publication Number Publication Date
KR20210076110A KR20210076110A (ko) 2021-06-23
KR102646667B1 true KR102646667B1 (ko) 2024-03-11

Family

ID=66952124

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217014824A KR102646667B1 (ko) 2019-03-13 2020-03-10 이미지 영역을 찾기 위한 방법, 모델 훈련 방법 및 관련 장치

Country Status (6)

Country Link
US (1) US20210264227A1 (ko)
EP (1) EP3940638B1 (ko)
JP (1) JP7096444B2 (ko)
KR (1) KR102646667B1 (ko)
CN (1) CN109903314A (ko)
WO (1) WO2020182112A1 (ko)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109903314A (zh) * 2019-03-13 2019-06-18 腾讯科技(深圳)有限公司 一种图像区域定位的方法、模型训练的方法及相关装置
CN110288026B (zh) * 2019-06-27 2021-08-10 山东浪潮科学研究院有限公司 一种基于度量关系图学习的图像分割方法及装置
CN110660103B (zh) * 2019-09-17 2020-12-25 北京三快在线科技有限公司 一种无人车定位方法及装置
CN110705407B (zh) * 2019-09-20 2022-11-15 五邑大学 基于多任务迁移的人脸美丽预测方法及装置
CN113128509A (zh) * 2019-12-31 2021-07-16 广东爱因智能数字营销有限公司 一种图像语义要素提取方法
CN111275041B (zh) * 2020-01-20 2022-12-13 腾讯科技(深圳)有限公司 内窥镜图像展示方法、装置、计算机设备及存储介质
CN111291813B (zh) * 2020-02-13 2023-10-31 腾讯科技(深圳)有限公司 图像标注方法、装置、计算机设备和存储介质
US11442986B2 (en) 2020-02-15 2022-09-13 International Business Machines Corporation Graph convolutional networks for video grounding
CN111598155A (zh) * 2020-05-13 2020-08-28 北京工业大学 一种基于深度学习的细粒度图像弱监督目标定位方法
CN111598900B (zh) * 2020-05-18 2022-08-09 腾讯医疗健康(深圳)有限公司 一种图像区域分割模型训练方法、分割方法和装置
CN111783457B (zh) * 2020-07-28 2021-05-11 北京深睿博联科技有限责任公司 一种基于多模态图卷积网络的语义视觉定位方法及装置
CN112269316B (zh) * 2020-10-28 2022-06-07 中国科学院信息工程研究所 一种基于图神经网络的高鲁棒性威胁狩猎系统与方法
CN112613483A (zh) * 2021-01-05 2021-04-06 中国科学技术大学 一种基于语义分割和识别的户外火灾预警方法
CN112860928A (zh) * 2021-02-08 2021-05-28 天津大学 一种基于类别感知图神经网络的服饰检索方法
CN113111184B (zh) * 2021-04-27 2022-03-08 清华大学深圳国际研究生院 基于显式事件结构知识增强的事件检测方法及终端设备
CN114154117B (zh) * 2021-06-15 2022-08-23 元橡科技(苏州)有限公司 一种slam方法
CN113393558A (zh) * 2021-06-29 2021-09-14 维沃软件技术有限公司 漫画生成方法、装置、电子设备和存储介质
CN113449640B (zh) * 2021-06-29 2022-02-11 中国地质大学(武汉) 基于多任务cnn+gcn的遥感影像建筑物语义分割边缘优化方法
CN113434716B (zh) * 2021-07-02 2024-01-26 泰康保险集团股份有限公司 一种跨模态信息检索方法和装置
CN115295079A (zh) * 2022-01-20 2022-11-04 云南师范大学 基于元图学习的长链非编码rna亚细胞定位预测方法
CN115269912B (zh) * 2022-09-29 2023-01-06 浙江省公众信息产业有限公司无线运营分公司 图像检索方法及系统
CN116978011B (zh) * 2023-08-23 2024-03-15 广州新华学院 一种用于智能目标识别的图像语义通信方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180121768A1 (en) 2016-10-28 2018-05-03 Adobe Systems Incorporated Utilizing a digital canvas to conduct a spatial-semantic search for digital visual media
US20180173996A1 (en) 2016-12-21 2018-06-21 Samsung Electronics Co., Ltd. Method and electronic device for providing text-related image
CN108228757A (zh) 2017-12-21 2018-06-29 北京市商汤科技开发有限公司 图像搜索方法和装置、电子设备、存储介质、程序

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965705B2 (en) * 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
US9436760B1 (en) * 2016-02-05 2016-09-06 Quid, Inc. Measuring accuracy of semantic graphs with exogenous datasets
CN108229287B (zh) * 2017-05-31 2020-05-22 北京市商汤科技开发有限公司 图像识别方法和装置、电子设备和计算机存储介质
CN109002852B (zh) * 2018-07-11 2023-05-23 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
JP7132046B2 (ja) * 2018-09-13 2022-09-06 株式会社東芝 検索装置、検索方法及びプログラム
US11436825B2 (en) * 2018-12-14 2022-09-06 Samsung Electronics Co., Ltd. Method and apparatus for determining target object in image based on interactive input
CN109903314A (zh) * 2019-03-13 2019-06-18 腾讯科技(深圳)有限公司 一种图像区域定位的方法、模型训练的方法及相关装置
US11823378B2 (en) * 2019-12-20 2023-11-21 PAIGE.AI, Inc. Systems and methods for processing electronic images to detect contamination in specimen preparations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180121768A1 (en) 2016-10-28 2018-05-03 Adobe Systems Incorporated Utilizing a digital canvas to conduct a spatial-semantic search for digital visual media
US20180173996A1 (en) 2016-12-21 2018-06-21 Samsung Electronics Co., Ltd. Method and electronic device for providing text-related image
CN108228757A (zh) 2017-12-21 2018-06-29 北京市商汤科技开发有限公司 图像搜索方法和装置、电子设备、存储介质、程序

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Da Zhang 등, MAN: Moment Alignment Network for Natural Language Moment Retrieval via Iterative Graph Adjustment, arXiv:1812.00087v2(2018.11.30.)

Also Published As

Publication number Publication date
EP3940638A1 (en) 2022-01-19
EP3940638A4 (en) 2022-05-11
US20210264227A1 (en) 2021-08-26
KR20210076110A (ko) 2021-06-23
JP2022508790A (ja) 2022-01-19
WO2020182112A1 (zh) 2020-09-17
JP7096444B2 (ja) 2022-07-05
CN109903314A (zh) 2019-06-18
EP3940638B1 (en) 2024-01-17

Similar Documents

Publication Publication Date Title
KR102646667B1 (ko) 이미지 영역을 찾기 위한 방법, 모델 훈련 방법 및 관련 장치
US10956771B2 (en) Image recognition method, terminal, and storage medium
CN111428516B (zh) 一种信息处理的方法以及装置
WO2020147369A1 (zh) 自然语言处理方法、训练方法及数据处理设备
CN111914113A (zh) 一种图像检索的方法以及相关装置
CN112749252B (zh) 一种基于人工智能的文本匹配方法和相关装置
CN112214605A (zh) 一种文本分类方法和相关装置
CN113821589A (zh) 一种文本标签的确定方法及装置、计算机设备和存储介质
CN113392644A (zh) 模型训练、文本信息处理方法、系统、装置和存储介质
CN112749558A (zh) 一种目标内容获取方法、装置、计算机设备和存储介质
CN113269279B (zh) 一种多媒体内容分类方法和相关装置
CN114722937A (zh) 一种异常数据检测方法、装置、电子设备和存储介质
CN113822038A (zh) 一种摘要生成方法和相关装置
CN111597823B (zh) 中心词提取方法、装置、设备及存储介质
CN111428523B (zh) 翻译语料生成方法、装置、计算机设备及存储介质
CN113821609A (zh) 一种答案文本的获取方法及装置、计算机设备和存储介质
CN113569043A (zh) 一种文本类别确定方法和相关装置
CN112328783A (zh) 一种摘要确定方法和相关装置
CN117057345B (zh) 一种角色关系的获取方法及相关产品
CN112632222B (zh) 一种终端设备和确定数据所属领域的方法
CN111368556B (zh) 翻译模型的性能确定方法、置信度确定方法及装置
CN117725234A (zh) 一种媒体信息识别方法、装置、计算机设备及存储介质
CN113705214A (zh) 一种核心词确定方法和相关装置
CN117218506A (zh) 用于图像识别的模型训练方法、图像识别方法及相关装置
CN116758362A (zh) 图像处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant