KR20210040326A - 크로스 모달 처리 방법, 장치, 전자 장치 및 컴퓨터 판독 가능 저장 매체 - Google Patents

크로스 모달 처리 방법, 장치, 전자 장치 및 컴퓨터 판독 가능 저장 매체 Download PDF

Info

Publication number
KR20210040326A
KR20210040326A KR1020210038308A KR20210038308A KR20210040326A KR 20210040326 A KR20210040326 A KR 20210040326A KR 1020210038308 A KR1020210038308 A KR 1020210038308A KR 20210038308 A KR20210038308 A KR 20210038308A KR 20210040326 A KR20210040326 A KR 20210040326A
Authority
KR
South Korea
Prior art keywords
image
corpus
feature
training
text
Prior art date
Application number
KR1020210038308A
Other languages
English (en)
Inventor
구오쳉 뉴
보레이 헤
신얀 샤오
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210040326A publication Critical patent/KR20210040326A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • G06K9/2054
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06K9/3233
    • G06K9/342
    • G06K9/4671
    • G06K9/6201
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

본 발명은 크로스 모달 처리 방법, 장치, 전자 장치 및 컴퓨터 판독 가능 저장 매체를 제공하며, 자연어 처리 기술 분야에 관한 것이다. 구체적인 구현 방식은, 복수의 말뭉치 및 복수의 이미지를 포함하는 샘플 집합을 획득하고, 샘플 집합에 따라 복수의 훈련 샘플을 생성하며, 상기 훈련 샘플은 적어도 하나의 상기 말뭉치와 그 대응되는 적어도 하나의 상기 이미지의 조합이며, 의미론적 모델이 학습을 통해 말뭉치와 이미지 조합의 의미론적 벡터를 획득하도록, 복수의 훈련 샘플을 사용하여 의미론적 모델을 훈련하며, 훈련된 의미론적 모델을 사용하여 말뭉치와 이미지 간의 크로스 모달 처리를 수행하고, 말뭉치와 그 대응하는 이미지의 조합에 대해 훈련하여 의미론적 모델이 말뭉치와 그 대응하는 이미지 간의 의미론적 연관을 학습하게 함으로써, 의미론적 모델의 훈련 효과를 향상하며, 기존 기술에 존재하는 다중 모달 처리 시 각 모달에 대해 별도로 훈련함으로써 서로 다른 모달 간의 의미론적 연관을 분리시켜 훈련된 모델의 효과가 저하되는 문제를 해결한다.

Description

크로스 모달 처리 방법, 장치, 전자 장치 및 컴퓨터 판독 가능 저장 매체 {CROSS-MODALITY PROCESSING METHOD AND APPARATUS, AND COMPUTER STORAGE MEDIUM}
본 발명은 컴퓨터 기술 분야에 관한 것으로, 특히 자연어 처리 기술 분야, 특히 크로스 모달 처리 방법, 장치, 전자 장치 및 컴퓨터 판독 가능 저장 매체에 관한 것이다.
우리가 살고 있는 세계는 멀티 모달의 세계로서 텍스트와 시각 등과 같은 다양한 모달의 콘텐츠가 우리 삶을 채우고 있다. 인공 지능 기술이 빠르게 발전함에 따라, 시각-언어의 멀티 모달 처리와 같은 멀티 모달 처리를 기반으로 하는 수요 및 요구가 점점 높아지고 있다.
그러나, 현재의 멀티 모달 처리 방법은 모델을 훈련할 때 충분한 의미론적 정보를 포착할 수 없을 뿐만 아니라, 텍스트와 시각의 두 모달 간의 의미론적 연관성이 설정되지 않아 모델의 훈련 효과가 저하된다.
본 발명은 크로스 모달 처리 방법, 장치, 전자 장치 및 컴퓨터 판독 가능 저장 매체를 제공한다.
본 발명의 제1 측면은 훈련된 말뭉치와 그 대응하는 이미지의 조합에 대해 훈련을 수행하여 의미론적 모델이 말뭉치와 그 대응하는 이미지 간의 의미론적 연관을 학습하게 함으로써 크로스 모달 처리를 수행하기 위한 의미론적 모델의 훈련 효과를 향상할 수 있는 크로스 모달 처리 방법을 제공한다.
본 발명의 제2 측면은 크로스 모달 처리 장치를 제공한다.
본 발명의 제3 측면은 전자 장치를 제공한다.
본 발명의 제4 측면은 컴퓨터 명령어가 저장된 비 일시적 컴퓨터 판독 가능 저장 매체를 제공한다.
본 발명의 제1 측면의 실시예에 따른 크로스 모달 처리 방법은,
복수의 말뭉치 및 복수의 이미지를 포함하는 샘플 집합을 획득하는 단계;
상기 샘플 집합에 따라 복수의 훈련 샘플을 생성하는 단계 - 각 상기 훈련 샘플은 적어도 하나의 상기 말뭉치와 그 대응되는 적어도 하나의 상기 이미지의 조합임 - ;
상기 의미론적 모델이 학습을 통해 말뭉치와 이미지 조합의 의미론적 벡터를 획득하도록, 상기 복수의 훈련 샘플을 사용하여 의미론적 모델을 훈련하는 단계; 및
훈련된 의미론적 모델을 사용하여 말뭉치와 이미지 간의 크로스 모달 처리를 수행하는 단계; 를 포함한다.
본 발명의 제2 측면의 실시예에 따른 크로스 모달 처리 장치는,
복수의 말뭉치 및 복수의 이미지를 포함하는 샘플 집합을 획득하는 획득 모듈;
상기 샘플 집합에 따라 복수의 훈련 샘플을 생성하는 생성 모듈 - 각 상기 훈련 샘플은 적어도 하나의 상기 말뭉치와 그 대응되는 적어도 하나의 상기 이미지의 조합임 - ;
상기 의미론적 모델이 학습을 통해 말뭉치와 이미지 조합의 의미론적 벡터를 획득하도록, 상기 복수의 훈련 샘플을 사용하여 의미론적 모델을 훈련하는 훈련 모듈; 및
훈련된 의미론적 모델을 사용하여 말뭉치와 이미지 간의 크로스 모달 처리를 수행하는 처리 모듈; 을 포함한다.
본 발명의 제3 측면에 따른 전자 장치는,
하나 이상의 프로세서; 및
상기 하나 이상의 프로세서와 통신 연결되는 메모리; 를 포함하고,
상기 메모리에는 상기 하나 이상의 프로세서에 의해 실행 가능한 명령어가 저장되며, 상기 명렁어가 상기 하나 이상의 프로세서에 의해 실행될 경우, 제1항 내지 제10항 중 어느 한 항의 크로스 모달 처리 방법이 수행된다.
본 발명의 제4 측면의 실시예는 컴퓨터 프로그램이 저장되어 있는 비 일시적 컴퓨터 판독 가능 저장 매체를 제공하는바, 상기 컴퓨터 프로그램의 명령어가 실행될 경우, 본 발명의 제1 측면의 실시예의 크로스 모달 처리 방법이 수행된다.
본 발명의 제5 측면의 실시예는 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 제공하는바, 상기 컴퓨터 프로그램의 명령어가 실행될 경우, 본 발명의 제1 측면의 실시예의 크로스 모달 처리 방법이 수행된다.
본 발명의 실시예에 따른 기술 방안은 다음과 같은 유익한 효과를 갖는다.
복수의 말뭉치 및 복수의 이미지를 포함하는 샘플 집합을 획득하고, 상기 샘플 집합에 따라 복수의 훈련 샘플을 생성하며, 상기 훈련 샘플은 적어도 하나의 상기 말뭉치와 그 대응되는 적어도 하나의 상기 이미지의 조합이며, 의미론적 모델이 학습을 통해 말뭉치와 이미지 조합의 의미론적 벡터를 획득하도록, 상기 복수의 훈련 샘플을 사용하여 의미론적 모델을 훈련하며, 훈련된 의미론적 모델을 사용하여 말뭉치와 이미지 간의 크로스 모달 처리를 수행하고, 말뭉치와 그 대응하는 이미지의 조합에 대해 훈련하여 의미론적 모델이 말뭉치와 그 대응하는 이미지 간의 의미론적 연관을 학습하게 함으로써, 크로스 모달 처리를 수행하기 위한 의미론적 모델의 훈련 효과를 향상한다.
본 부분에서 설명된 내용은 본 발명의 실시예의 핵심적이거나 중요한 특징을 표시하기 위한 것이 아니며, 또한 본 발명의 범위를 제한하기 위한 것이 아님을 이해해야 한다. 본 발명의 다른 특징은 다음의 설명에 의해 쉽게 이해될 수 있을 것이다.
첨부도면은 기술적 해결책을 더 잘 이해하기 위해 사용되며, 본 발명에 대한 제한을 구성하지 않는다. 여기서,
도 1은 본 발명의 실시예에 따른 크로스 모달 처리 방법의 흐름도이다.
도 2는 본 발명의 실시예에 따른 다른 크로스 모달 처리 방법의 흐름도이다.
도 3은 본 발명의 실시예에 따른 크로스 모달 처리 아키텍처의 개략도이다.
도 4는 본 발명의 실시예에 따른 다른 크로스 모달 처리 방법의 흐름도이다.
도 5는 본 발명의 실시예에 따른 이미지와 텍스트가 대응된 것을 나타낸 개략도이다.
도 6은 본 발명의 실시예에 따른 또 다른 크로스 모달 처리 방법의 흐름도이다.
도 7은 본 발명의 실시예에 따른 크로스 모달 처리 장치의 구조도이다.
도 8은 본 발명의 실시예에 따른 크로스 모달 처리 방법을 구현하기 위한 전자 장치의 블록도이다.
이하, 첨부 도면을 결부하여 본 발명의 예시적인 실시예에 대해 설명하며, 이해를 돕기 위해, 본 설명에는 본 발명의 실시예의 다양한 세부 사항이 포함되며, 이를 단순히 예시적인 것으로 간주해야 한다. 따라서, 당업자는 본 발명의 범위 및 사상을 벗어나지 않고 여기에 설명된 실시예에 대해 다양한 변경 및 수정이 이루어질 수 있다는 것을 인식해야 한다. 마찬가지로, 이하의 설명에서 명확성과 간결성을 위해 잘 알려진 기능 및 구조에 대한 설명은 생략한다.
이하, 첨부도면을 결부하여, 본 발명의 실시예의 크로스 모달 처리 방법, 장치, 전자 장치 및 컴퓨터 판독 가능 저장 매체에 대해 설명한다.
도 1은 본 발명의 실시예에 따른 크로스 모달 처리 방법의 흐름도이다. 상기 모달은 상호 작용에 사용되는 용어이고, 크로스 모달은 텍스트, 이미지, 동영상 등의 수단과 심볼 캐리어를 종합적으로 사용하여 상호 작용하는 현상을 의미하며, 이에 따라, 크로스 모달은 이미지와 텍스트 정보를 동시에 포함하는 것과 같이 동시에 두개 이상의 모달의 정보를 포함한다.
도 1에 도시된 바와 같이, 상기 방법은 단계101 내지 단계104를 포함한다.
단계101, 복수의 말뭉치 및 복수의 이미지를 포함하는 샘플 집합을 획득한다.
상기 말뭉치는 적어도 하나의 텍스트 유닛을 포함한다.
하나의 가능한 구현 방식으로서, 멀티미디어 데이터 집합에서 서로 다른 모달의 데이터를 수집하여 샘플 집합을 생성할 수 있으며, 샘플 집합에는 복수의 이미지와 그 대응되는 복수의 말뭉치가 포함되고, 말뭉치는 대응하는 이미지 중의 콘텐츠에 대해 설명하기 위해 사용된다.
단계102, 상기 샘플 집합에 따라 복수의 훈련 샘플을 생성하며, 각 훈련 샘플은 적어도 하나의 말뭉치와 그 대응되는 적어도 하나의 이미지의 조합이다.
구체적으로, 샘플 집합에 포함된 복수의 말뭉치 및 복수의 이미지에 따라 말뭉치와 그 대응하는 이미지를 조합하여 복수의 훈련 샘플을 생성하며, 각 훈련 샘플은 적어도 하나의 말뭉치와 그 대응되는 적어도 하나의 이미지의 조합이다.
단계103, 의미론적 모델이 학습을 통해 말뭉치와 이미지 조합의 의미론적 벡터를 획득하도록, 복수의 훈련 샘플을 사용하여 의미론적 모델을 훈련한다.
본 실시예에서, 말뭉치와 이미지를 조합하여 훈련 샘플을 생성하여 훈련 샘플에 텍스트의 정보와 그 대응되는 이미지의 정보가 동시에 포함되고 의미론적 모델이 말뭉치와 이미지의 조합 정보를 기반으로 훈련을 수행하게 함으로써, 모델이 말뭉치와 이미지가 조합된 의미론적 벡터를 학습할 수 있으며, 말뭉치와 이미지 조합의 의미론적 벡터에는 두가지 모달 간의 의미론적 연관이 포함되어 의미론적 모델의 훈련 효과를 향상하며; 그러나, 기존 기술에서는 의미론적 모델을 훈련할 때 말뭉치와 이미지를 기반으로 별도로 식별 모델을 구성하여 훈련하고 각 모달에 대응하는 식별 모델의 결과에 가중치를 부여하여 해당 의미론적 정보를 얻기 때문에, 훈련을 통해 얻은 모델이 말뭉치와 이미지 간의 의미론적 연관을 식별할 수 없는데, 다시 말하면, 말뭉치와 그 대응되는 이미지 간의 의미론적 연관이 차단되어 모델의 훈련 효과가 바람직하지 못하며, 식별 효과가 저하된다.
또한, 본 실시예에서 훈련 샘플은 적어도 하나의 말뭉치와 임의의 적어도 하나의 이미지의 조합일 수 있으며, 말뭉치와 이미지의 조합 방식에 따라 대응하는 훈련 작업이 다르고, 서로 다른 훈련 작업에 대한 의미론적 모델의 훈련에 대해서는 후속 실시예에서 상세히 설명할 것이다.
단계104, 훈련된 의미론적 모델을 사용하여 말뭉치와 이미지 간의 크로스 모달 처리를 수행한다.
본 실시예에서 훈련된 의미론적 모델은 말뭉치와 이미지 조합의 의미론적 벡터를 학습하여 말뭉치와 이미지 조합 간의 의미론적 연관을 학습하며, 이미지를 기반으로 해당 이미지를 설명하기 위한 말뭉치를 생성하거나 또는 말뭉치를 기반으로 해당 이미지를 검색하는 등과 같이 훈련된 의미론적 모델을 구체적인 말뭉치와 이미지의 크로스 모달 처리에 적용한다.
대안적으로, 실제 적용 시나리오에서, 서로 다른 식별 작업에 따라 식별을 위한 이미지 및 말뭉치에 대해 식별할 수 있고, 모델의 식별 결과에 따라 모델의 매개 변수를 미세 조정하여 해당 시나리오의 식별 작업에서 모델의 식별 효과를 향상할 수 있다.
본 실시예의 크로스 모달 처리 방법에서, 복수의 말뭉치 및 복수의 이미지를 포함하는 샘플 집합을 획득하고, 상기 샘플 집합에 따라 복수의 훈련 샘플을 생성하며, 상기 훈련 샘플은 적어도 하나의 상기 말뭉치와 그 대응되는 적어도 하나의 상기 이미지의 조합이며, 의미론적 모델이 학습을 통해 말뭉치와 이미지 조합의 의미론적 벡터를 획득하도록, 상기 복수의 훈련 샘플을 사용하여 의미론적 모델을 훈련하며, 훈련된 말뭉치와 그 대응하는 이미지의 조합에 대해 훈련을 수행하여 의미론적 모델이 말뭉치와 그 대응하는 이미지 간의 의미론적 연관을 학습하게 함으로써, 크로스 모달 처리를 수행하기 위한 의미론적 모델의 훈련 효과를 향상한다.
전술한 실시예를 기반으로, 본 실시예는 다른 크로스 모달 처리 방법을 제공하며, 본 실시예는 제1 훈련 작업을 수행하여 의미론적 모델을 훈련하는 과정에 대해 설명한다.
도 2는 본 발명의 실시예에 따른 다른 크로스 모달 처리 방법의 흐름도이다.
도 2에 도시된 바와 같이, 상기 방법은 단계201 내지 단계206을 포함할 수 있다.
단계201, 복수의 말뭉치 및 복수의 이미지를 포함하는 샘플 집합을 획득한다.
단계202, 상기 샘플 집합에 따라 복수의 훈련 샘플을 생성하며, 각 훈련 샘플은 적어도 하나의 말뭉치와 그 대응되는 적어도 하나의 이미지의 조합이다.
구체적으로, 전술한 실시예 중의 단계101 내지 단계102를 참조할 수 있으며, 그 원리가 동일하므로 여기서는 상세한 설명을 생략한다.
단계203, 각 훈련 샘플에 대해 해당 훈련 샘플 중의 이미지에 표시된 각 객체에 대해 이미지 특징을 추출하며, 말뭉치 중의 각 텍스트 유닛에 대해 텍스트 특징을 추출한다.
본 실시예에서, 각 훈련 샘플에 대해 해당 훈련 샘플 중의 이미지에 표시된 각 객체에 대해 이미지 특징을 추출하며, 상기 객체는 사람, 건물, 나무 및 차량 등과 같은 이미지에 표시되는 객체를 가리킨다. 구체적으로, 이미지에 표시된 각 객체에 대해 시각적 특징 및 공간 좌표를 획득하며, 하나의 가능한 구현 방식으로서, 각 훈련 샘플에 대해 샘플에 포함된 이미지에 대해 빠른 대상 감지 모델 Faster R-CNN을 사용하여 이미지의 각 객체 영역과 해당 영역에 대응하는 특징, 즉 시각적 특징 및 공간 좌표를 식별하며, 시각적 특징은 Faster R-CNN 모델을 통해 해당 관심 영역의 이미지 콘텐츠 정보를 풀링하여 획득하며, 공간 좌표는 이미지에서 해당 객체의 표시 위치를 나타내기 위해 사용된다. 시각적 특징 및 공간 좌표를 결합하여 각 객체의 객체 특징을 생성하며, 각 객체의 객체 특징, 객체 순서 특징 및 설정된 제1 모달 식별자에 따라 각 객체의 이미지 특징을 생성하고, 상기 객체 순서 특징은 각 객체 간의 상호 순서 관계를 지시하기 위해 사용되며, 상기 제1 모달 식별자는 해당 객체가 해당 이미지에 속함을 지시하기 위해 사용된다.
도 3에 도시된 바와 같이, 훈련 샘플 중의 이미지는 도 3의 이미지와 동일하다. 도 3의 이미지에 대해 의미론적 분할 모델을 통해 식별하여 이미지 중에 표시된 객체에는 T1로 표시되는 건물(building), T2로 표시되는 문(door), T3으로 표시된 자전거(bicycle), T4로 표시되는 자전거 바구니(basket) 및 T5로 표시되는 여사(woman)가 포함되는 것을 식별하며, 각 객체에 대해 특징을 추출하여 이미지 중에 표시된 각 객체의 객체 특징을 얻어 V building , V door , V woman , V bicycle V basket 로 표시한다. 이미지의 각 객체는 순서를 구분하지 않기 때문에, 이미지에 있는 각 객체의 순서 특징은 고정 ID에 해당하는 벡터를 사용할 수 있으며, 예를 들어, 모두 1로 설정할 수 있다. 제1 모달 식별자는 예컨대 설정 식별자[IMG]이다. 상기 순서 특징 및 제1 모달 식별자는 다른 방식으로도 구현될 수 있으며, 본 실시예는 이를 한정하지 않는다. 따라서, 각 객체의 대응하는 객체 특징, 순서 특징 및 제1 모달 식별자를 결합하여 각 객체의 이미지 특징을 생성할 수 있다.
각 훈련 샘플에 대해 말뭉치 중의 각 텍스트 유닛에 대해 텍스트 특징을 추출하는 단계는, 구체적으로 말뭉치 중의 각 텍스트 유닛에 대해 문자 특징 및 위치 특징을 획득하며, 상기 문자 특징은 해당 텍스트 유닛에 포함된 문자를 지시하기 위해 사용되고, 위치 특징은 해당 텍스트 유닛의 어순을 지시하기 위해 사용되며, 각 텍스트 유닛의 문자 특징, 위치 특징 및 설정된 제2 모달 식별자에 따라 각 텍스트 유닛의 텍스트 특징을 생성한다. 제2 모달 식별자는 해당 텍스트 유닛이 해당 말뭉치에 속한다는 것을 지시하기 위해 사용된다.
예를 들어, 말뭉치가 A woman riding a bike with a dog in a basket 인 경우, 해당 말뭉치를 복수의 텍스트 유닛으로 분할하고, 각 텍스트 유닛은 미리 설정된 수량의 문자를 포함하며, 상기 미리 설정된 수량은 1개 이상일 수 있고, 각 텍스트 유닛의 문자 특징, 즉 각 텍스트 유닛에 포함된 미리 설정된 수량의 문자를 획득하며, 말뭉치에 포함된 모든 텍스트 유닛을 어순에 따라 2 부터 시작하여 순차적으로 하나씩 추가하여 인코딩하며, 만일 말뭉치에 12개 텍스트 유닛이 포함되면, 대응되는 위치 특징은 순서에 따라 2, 3, 4, 5……12 및 13으로 인코딩된다. 도 3에 도시된 바와 같이, 설정된 제2 모달 식별자는 예컨대 [Text]이다.
본 실시예에서, 각 훈련 샘플에 대해 이미지에 표시된 각 객체의 객체 특징을 생성하고, 또한 대응하는 텍스트 특징을 생성하며, 객체 특징을 생성한 후, 만일 객체 특징에 포함되는 벡터의 차원이 텍스트 특징의 차원보다 크면, 각 객체의 객체 특징을 대응하는 텍스트 특징의 차원과 동일하게 압축하여 차원의 통일을 구현하고, 데이터의 처리가 편리하게 한다.
단계204, 각 객체의 이미지 특징과 각 텍스트 유닛의 텍스트 특징을 결합하여 입력 특징을 획득한다.
구체적으로, 의미론적 모델이 이미지와 말뭉치의 조합 특징에 대해 훈련을 수행하여 이미지와 말뭉치 간의 의미론적 관계를 얻어 의미론적 모델의 식별 효과를 향상할 수 있도록, 각 객체의 이미지 특징 및 각 텍스트 유닛의 텍스트 특징을 결합하여 의미론적 모델의 입력 특징을 획득한다.
예를 들어, 도 3에 도시한 바와 같이, 말뭉치 중의 각 텍스트 유닛에 대해, A2 중의 대응하는 문자 특징, B2 중의 대응하는 제2 모달 식별자 및 C2 중의 대응하는 위치 특징을 결합하여 해당 텍스트 유닛의 텍스트 특징을 생성한다. 이미지 중의 각 객체에 대해, A1 중의 대응하는 객체 특징, B1 중의 대응하는 제1 모달 식별자 및 C1 중의 대응하는 위치 특징을 결합하여 해당 객체의 이미지 특징을 생성한다. 더 나아가, 각 객체의 이미지 특징과 각 텍스트 유닛의 텍스트 특징을 결합하여 입력 특징을 얻으며, 입력 특징은 벡터로 표시한다.
단계205, 입력 특징에 따라 제1 훈련 작업을 수행하여 의미론적 모델을 훈련한다.
본 실시예에서는 제1 훈련 작업 및 제2 훈련 작업이 포함되며, 본 실시예에서는 제1 훈련 작업을 기반으로 의미론적 모델을 훈련하며, 제2 훈련 작업을 기반으로 모델을 훈련하는 과정에 대해서는 후속 실시예에서 상세히 설명할 것이다.
상기 제1 훈련 작업은 각 훈련 샘플에 대해 적어도 하나의 텍스트 유닛을 선택하여 입력 특징 중의 해당 텍스트 유닛의 텍스트 특징을 설정된 텍스트 마스크로 대체하며 및/또는 적어도 하나의 객체를 선택하여 입력 특징 중의 해당 객체의 이미지 특징을 설정된 이미지 마스크로 대체하는 단계를 포함한다. 대체하여 얻은 입력 특징을 의미론적 모델에 입력하여 의미론적 모델에 의해 출력된 제1 의미론적 벡터를 획득하고, 제1 의미론적 벡터에 따라 선택된 텍스트 유닛 및/또는 선택된 객체를 예측하며, 예측 정확도에 따라 의미론적 모델의 매개 변수를 조정한다.
구체적으로, 첫번째 가능한 구현 방식으로서, 말뭉치의 텍스트 유닛의 마스크를 기반으로 모델을 훈련하며, 구체적으로, 각 훈련 샘플에 대해, 적어도 하나의 텍스트 유닛을 선택하여 입력 특징 중의 해당 텍스트 유닛의 텍스트 특징을 설정된 텍스트 마스크로 대체하고, 대체하여 얻은 입력 특징을 의미론적 모델에 입력하여 의미론적 모델에 의해 출력된 제1 의미론적 벡터를 얻으며, 제1 의미론적 벡터에 따라 선택된 텍스트 유닛을 예측하여 예측 정확도에 따라 의미론적 모델의 매개 변수를 조정한다.
두번째 가능한 구현 방식으로서, 이미지 중의 객체의 마스크를 기반으로 모델을 훈련하며, 구체적으로, 각 훈련 샘플의 이미지에서 적어도 하나의 객체를 선택하며, 공간에서 이미지 중의 객체의 표시 영역이 교차하여 중첩되어 표시되는 영역이 존재할 수도 있고, 교차하여 중첩되어 표시되는 영역이 존재하지 않을 수도 있기 때문에, 다음의 두가지 시나리오를 예를 들어 설명한다.
하나의 시나리오에서, 공간에서 이미지 중의 객체의 표시 영역이 교차하여 중첩되어 표시되는 영역이 존재하면 두 객체 간에 의미론적 연관이 존재하기 때문에, 마스크 영역의 입도를 증가하고 마스크 영역에 포함된 의미론적 정보를 증가하기 위해, 선택된 객체는 중첩되는 표시 영역을 갖는 적어도 두개의 객체를 포함할 수 있다.
다른 하나의 시나리오에서, 이미지 중의 객체에 서로 간에 중첩되어 표시되는 영역이 존재하지 않기 때문에, 이미지 중의 객체가 모두 서로 독립된 객체가 되도록, 선택된 객체는 그 어떤 객체와도 중첩되어 표시되는 영역을 갖지 않는 객체이며, 또는 선택된 객체, 즉, 선택된 적어도 하나의 객체가 그 어떤 객체와도 모두 중첩되는 표시 영역을 갖지 않는 객체이며, 마스크 영역의 입도를 증가하는 것을 통해 마스크 영역에 포함되는 의미론적 정보를 증가한다.
또한, 입력 특징 중의 해당 객체의 이미지 특징을 설정된 이미지 마스크로 대체한다. 대체하여 얻은 입력 특징을 의미론적 모델에 입력하여 의미론적 모델에 의해 출력된 제1 의미론적 벡터를 획득하고 선택된 객체를 예측하며, 예측 정확도에 따라 의미론적 모델의 매개 변수를 조정한다.
세번째 가능한 구현 방식으로서, 말뭉치 및 이미지를 기반으로 동시에 마스킹하고 모델을 훈련하며, 구체적으로, 각 훈련 샘플에 대해 적어도 하나의 텍스트 유닛을 선택하여 상기 입력 특징 중의 해당 텍스트 유닛의 텍스트 특징을 설정된 텍스트 마스크로 대체하며, 적어도 하나의 객체를 선택하여 상기 입력 특징 중의 해당 객체의 이미지 특징을 설정된 이미지 마스크로 대체한다. 대체하여 얻은 입력 특징을 의미론적 모델에 입력하여 의미론적 모델에 의해 출력된 제1 의미론적 벡터를 얻고, 제1 의미론적 벡터에 따라 마스킹된 텍스트 부분 및 마스킹된 이미지 부분에 대응하는 텍스트를 예측하며, 예측 정확도에 따라 의미론적 모델의 매개 변수를 조정하고, 적어도 하나의 텍스트 유닛 및 이미지 유닛에 대해 모두 마스킹하며, 마스크의 입도가 크기 때문에, 마스크 부분에 포함된 의미론적 정보를 증가하고, 모델이 말뭉치와 이미지 간의 의미론적 연관을 더욱 잘 학습하게 할 뿐만 아니라, 의미론적 모델의 매개 변수 조정 속도를 제고하고, 모델의 훈련 효과를 향상한다.
예를 들어, 도 3에서 말뭉치 및 이미지를 기반으로 동시에 마스킹하고 모델을 훈련하며, 도 3에 도시된 바와 같이, 말뭉치 중의 4개의 연속된 텍스트 유닛을 가리는데, 즉 각 텍스트 유닛에 대응하는 문자 woman, riding, a 및 bike를 설정된 이미지 마스크[mask]로 대체하여 4개 텍스트 유닛에 대한 마스킹을 완성한다. 동시에, 이미지 중의 3개 객체, 즉 T3에 대응하는 객체 자전거(bicycle), T4에 대응하는 객체 자전거 바구니(basket), T5에 대응하는 객체 여사(woman)에 대응하는 이미지 특징 중의 객체 특징 V building , V door , V woman , V bicycle V basket 를 설정된 이미지 마스크[mask]로 대체한다. 따라서, 본 실시예에서 마스크의 입도가 더욱 크며, 말뭉치에 대해서는 적어도 하나의 텍스트 유닛에 대해 마스킹하고, 이미지에 대해서는 이미지 중의 적어도 하나의 객체에 대해 마스킹하며, 더욱 풍부한 의미론적 정보를 포착할 수 있다. 기존 기술에서, 마스크 입도는 단일 단어 또는 단일 물체인 객체이므로 더욱 큰 의미론적 단위에 대해서는 효과가 바람직하지 못하며, 예를 들어, 하얼빈의 경우, 만일 "얼"을 단독으로 마스크로 대체하여 "하" 및 "빈"을 통해 "얼"을 예측하는 경우에는 비교적 용이하게 예측할 수 있지만 큰 가치가 없으며, 만일 "하얼빈" 전체를 마스크로 대체하여 앞뒤 단어를 통해 "하얼빈"을 예측하는 경우, "하얼빈"은 더 바람직한 의미를 배울 수 있다.
또한, 대체하여 얻은 입력 특징을 의미론적 모델에 입력하여 의미론적 모델에 의해 출력된 제1 의미론적 벡터를 획득하고, 제1 의미론적 벡터에 따라 선택된 텍스트 유닛 및 선택된 객체를 예측하는데, 예를 들어, 도 3을 참조하면, 마스킹된 텍스트 유닛에 대응하는 문자는 woman, riding, a 및 bike이고, 의미론적 모델에 의해 출력된 제1 의미론적 벡터에 따라 예측하여 얻은 문자는 woamn, riding, a 및 bike이며, 예측 결과가 모두 정확하다. 또한, 이미지 특징에서 마스킹된 객체 특징에 대응하는 객체는 basket의 이미지, bicycle의 이미지 및 woman의 이미지이고, 의미론적 모델에 예측되어 출력된 대응하는 설명 텍스트는 basket, bicycle 및 woman이며, 예측 결과가 모두 정확하다. 실제 적용에 있어서, 모델의 훈련 과정에서 초기에는 모델의 정확도가 낮으며, 예측 결과의 정확도에 따라 모델이 수렴될 때까지, 즉 의미론적 모델의 손실 함수가 가장 작고 식별 정확도가 가장 높을 때까지, 의미론적 모델의 매개 변수를 지속적으로 조정한다.
단계206, 훈련된 의미론적 모델을 사용하여 말뭉치와 이미지 간의 크로스 모달 처리를 수행한다.
본 실시예에서 훈련된 의미론적 모델은 말뭉치와 이미지 조합의 의미론적 벡터를 학습하여 말뭉치와 이미지 조합 간의 의미론적 연관을 학습하고, 훈련된 의미론적 모델을 구체적인 말뭉치와 이미지의 크로스 모달 처리에 적용하며, 본 실시예는 두가지 적용 시나리오를 제공한다.
하나의 시나리오에서, 훈련된 의미론적 모델을 사용하여 말뭉치를 기반으로 대응하는 이미지를 검색하며, 구체적으로, 일치한 지 여부를 판단하려는 이미지 및 말뭉치를 모델에 입력하고, 모델의 출력에 따라 양자가 일치한 지 결정하며, 즉 알려진 말뭉치에 대응하는 특징과 알려지지 않은 이미지의 초기화 특징을 의미론적 모델에 입력하여 의미론적 모델에 의해 출력된 알려진 말뭉치와 알려지지 않은 이미지 조합의 의미론적 벡터에서 이미지 부분에 대응하는 데이터에 따라 알려지지 않은 이미지에 표시된 객체를 예측하고, 예측된 객체에 따라 복수의 알려지지 않은 이미지에서 해당 알려지지 않은 이미지를 검색함으로써, 알려진 말뭉치에 대응하는 이미지를 결정한다.
다른 시나리오에서, 훈련된 의미론적 모델을 사용하여 이미지를 기반으로 해당 이미지를 설명하기 위한 말뭉치를 생성하며, 구체적으로, 알려진 이미지에 대응하는 특징과 알려지지 않은 말뭉치의 초기화 특징을 의미론적 모델에 입력하고, 모델에 의해 출력된 알려진 이미지와 알려지지 않은 말뭉치가 조합된 의미론적 벡터에서 말뭉치 부분에 대응하는 데이터에 따라 해당 알려진 이미지를 설명하기 위한 알려지지 않은 설명을 위한 말뭉치를 생성한다.
알려지지 않은 말뭉치는 어느 이미지를 설명하기 위해 사용되는지 결정되지 않은 말뭉치를 가리키며, 즉 말뭉치에 대응하는 이미지가 알려지지 않은 경우를 가리킨다.
대안적으로, 실제 적용 시나리오에서, 서로 다른 식별 작업에 따라 식별을 위한 이미지 및 말뭉치에 대해 식별할 수 있고, 모델의 식별 결과에 따라 모델의 매개 변수를 미세 조정하여 해당 시나리오의 식별 작업에서 모델의 식별 효과를 향상할 수 있다.
본 실시예에 따른 크로스 모달 처리 방법에서, 복수의 말뭉치 및 복수의 이미지를 포함하는 샘플 집합을 획득하고, 상기 샘플 집합에 따라 복수의 훈련 샘플을 생성하며, 상기 훈련 샘플은 적어도 하나의 상기 말뭉치와 그 대응되는 적어도 하나의 상기 이미지의 조합이며, 의미론적 모델이 학습을 통해 말뭉치와 이미지 조합의 의미론적 벡터를 획득하도록, 상기 복수의 훈련 샘플을 사용하여 의미론적 모델을 훈련하며, 훈련된 말뭉치와 그 대응하는 이미지의 조합에 대해 훈련을 수행하여 의미론적 모델이 말뭉치와 그 대응하는 이미지 간의 의미론적 연관을 학습하게 함으로써, 크로스 모달 처리를 수행하기 위한 의미론적 모델의 훈련 효과를 향상한다.
전술한 실시예를 기반으로, 본 실시예는 다른 크로스 모달 처리 방법을 제공하며, 본 실시예에서는 시드 라이브러리를 미리 구성하여 시드 라이브러리를 기반으로 이미지와 텍스트 정보를 정렬하고 정보의 융합을 수행하여 이미지 특징과 텍스트 특징 중에 포함된 정보량을 제고하고, 모델의 훈련 효과를 향상한다.
도 4는 본 발명의 실시예에 따른 또 다른 크로스 모달 처리 방법의 흐름도이다.
도 4에 도시된 바와 같이, 상기 방법은 단계301 내지 단계311을 포함한다.
단계301, 복수의 말뭉치 및 복수의 이미지를 포함하는 샘플 집합을 획득한다.
단계302, 상기 샘플 집합에 따라 복수의 훈련 샘플을 생성하며, 각 훈련 샘플은 적어도 하나의 말뭉치와 그 대응되는 적어도 하나의 이미지의 조합이다.
단계303, 각 훈련 샘플에 대해 이미지 중에 표시된 각 객체에 대해 시각적 특징 및 공간 좌표를 획득하고, 시각적 특징과 공간 좌표를 결합하여 객체 특징을 생성한다.
하나의 가능한 구현 방식으로서, 각 훈련 샘플에 대해 샘플에 포함된 이미지에 대해 빠른 대상 감지 모델 Faster R-CNN을 사용하여 이미지의 각 객체 영역과 해당 영역에 대응하는 특징, 즉 시각적 특징 및 공간 좌표를 식별하며, 시각적 특징은 Faster R-CNN 모델을 통해 해당 관심 영역의 이미지 콘텐츠 정보를 풀링하여 얻으며, 공간 좌표는 이미지에서 해당 객체의 표시 위치를 나타내기 위해 사용된다. 시각적 특징과 공간 좌표를 결합하여 해당 객체의 객체 특징을 생성한다.
본 실시예에서, 각 훈련 샘플에 대해 이미지에 표시된 각 객체의 객체 특징을 생성하고, 또한 대응하는 텍스트 특징을 생성하며, 객체 특징을 생성한 후, 만일 객체 특징에 포함되는 벡터의 차원이 텍스트 특징의 차원보다 크면, 각 객체의 객체 특징을 대응하는 텍스트 특징의 차원과 동일하게 압축하여 차원의 통일을 구현하고, 데이터의 처리가 편리하게 한다. 상기 텍스트 특징의 생성 방법에 대해서는 후속 단계에서 구체적으로 설명한다.
단계304, 각 객체에 대해, 구성된 시드 라이브러리에서 대응하는 표준 텍스트를 검색하고, 표준 텍스트의 문자 내용과 대응하는 객체 특징을 융합한다.
상기 표준 텍스트는 해당 객체를 설명하기 위해 사용된다.
본 실시예에서, 시드 라이브러리는 미리 구성되며, 하나의 가능한 구현 방식으로서, 대량의 이미지 샘플을 획득한 후, 빠른 대상 감지 모델(Faster R-CNN)을 사용하여 각 대량의 이미지에 대해 각각의 바운딩 박스(bounding box)를 추출하고 각 bounding box에 대응하는 하위 이미지와 그 대응하는 문자 설명의 관계 매핑 라이브러리를 구성하며, 도 5에 도시된 바와 같이, 표준 텍스트 야구 방망이(baseball bat)와 S1에 의해 지시된 바운딩 박스(bounding box)가 대응 관계를 가지고, 표준 텍스트 사람(person)과 S2에 의해 지시된 바운딩 박스가 대응 관계를 가지고, 표준 텍스트 스포츠 볼(sport ball)과 S3에 의해 지시된 바운딩 박스가 대응 관계를 가지며, 표준 텍스트 야구 글러브와 S4에 의해 지시된 바운딩 박스가 대응 관계를 가진다. 마찬가지로, 각 이미지의 각 바운딩 박스와 그 대응하는 표준 텍스트의 대응 관계를 획득할 수 있으며, 하나의 표준 텍스트가 복수의 물체와 대응될 수 있기 때문에, 예를 들어, 자전거 바구니는 다양한 외형 및 구조를 갖지만 서로 다른 이미지의 자전거 바구니에 대응하는 표준 텍스트는 모두 자전거 바구니이기 때문에, 일정한 규모의 일대다 맵핑을 구성하여 각 물체의 표준 텍스트가 모두 복수의 서로 다른 이미지에 대응되게 함으로써, 표준 텍스트와 이미지 간의 맵핑 관계를 포함하는 시드 라이브러리를 구성할 수 있다.
예를 들어, 각 객체에 대해, 구성된 시드 라이브러리에서 대응하는 표준 텍스트를 검색하며, 만일 표준 텍스트의 문자 내용이 300차원의 특징 벡터이고 해당 객체의 객체 특징이 128차원의 특징 벡터이면, 레이블링된 텍스트에 대응하는 300차원의 특징 벡터를 해당 128차원의 객체 특징에 융합한 후, 얻어지는 해당 객체의 객체 특징의 벡터는 여전히 128차원을 유지하며, 표준 텍스트의 문자 내용을 대응하는 객체 특징에 융합하되, 객체 특징의 차원이 변하지 않고 객체 특징에 포함되는 정보량이 증가됨으로써, 이미지 특징에 포함되는 정보를 증가한다.
단계305, 각 객체의 객체 특징, 객체 순서 특징 및 설정된 제1 모달 식별자에 따라 각 객체의 이미지 특징을 생성한다.
상기 객체 순서 특징은 각 객체 간의 상호 순서 관계를 지시하기 위해 사용되며, 제1 모달 식별자는 해당 객체가 해당 이미지에 속함을 지시하기 위해 사용되며, 제1 모달 식별자는 예컨대 설정된 특수 식별자 [IMG]일 수 있다.
하나의 가능한 구현 방식으로서, 각 객체의 객체 특징, 객체 순서 특징 및 설정된 제1 모달 식별자에 따라 결합 방식으로 각 객체의 이미지 특징을 생성하여 이미지 특징에 포함되는 정보를 증가할 수 있다.
구체적으로, 이미지 특징에 대한 예는 도 2의 대응하는 실시예 중의 단계203을 참조할 수 있으며, 그 원리가 동일하기 때문에 여기서는 중복하여 설명하지 않는다.
단계306, 말뭉치 중의 각 텍스트 유닛에 대해, 문자 특징 및 위치 특징을 획득한다.
상기 문자 특징은 해당 텍스트 유닛에 포함된 문자를 지시하기 위해 사용되고, 위치 특징은 해당 텍스트 유닛의 어순을 지시하기 위해 사용된다.
단계307, 각 텍스트 유닛에 대해, 구성된 시드 라이브러리에서 대응하는 표준 이미지를 검색하고, 표준 이미지의 이미지 콘텐츠와 해당 텍스트 유닛의 문자 특징을 융합한다.
상기 표준 이미지는 해당 텍스트 유닛에 의해 설명되는 객체를 표시하며, 레이블링된 이미지의 이미지 콘텐츠는 이미지 중에 표시된 객체의 크기, 색상, 형태 등을 포함한다.
예를 들어, 각 객체에 대해, 시드 라이브러리 중에 각 텍스트 유닛과 대응하는 레이블링된 이미지의 대응 관계가 미리 설정되었기 때문에, 설정된 시드 라이브러리에서 대응하는 표준 이미지를 검색하여 획득할 수 있으며, 예를 들어, 도 3에 도시된 바와 같이, 텍스트 유닛에 포함된 문자는 자전거 바구니(basket)이고, 시드 라이브러리에서 복수의 레이블링된 이미지를 검색하여 결정하며, 도 3에서는 단지 예시적으로 3가지만 나타냈고, 검색된 복수의 레이블링된 이미지의 이미지 콘텐츠를 해당 텍스트 유닛의 문자 특징과 융합하며, 구체적으로, 만일 표준 텍스트의 이미지 콘텐츠가 300차원의 특징 벡터에 대응되고 해당 텍스트 유닛의 문자 특징은 128차원의 특징 벡터이면, 이미지 콘텐츠에 대응하는 300차원의 특징 벡터를 해당 128차원의 문자 특징의 특징 벡터에 융합한 후, 얻은 문자 특징의 벡터가 여전히 128차원을 유지함으로써, 대응하는 이미지 콘텐츠를 문자 특징에 융합한 후 문자 특징의 차원이 변하지 않지만 문자 특징에 포함되는 정보가 증가되며, 문자 특징에 포함되는 정보를 증가하고 텍스트와 객체 간의 의미론적 연관성을 향상하며, 더 나아가, 후속 단계에서 텍스트 특징과 이미지 특징을 결합하여 얻어지는 입력 특징에 포함되는 의미론적 정보량이 증가됨으로써, 입력 특징을 기반으로 훈련된 의미론적 모델의 훈련 효과를 향상한다.
단계308, 각 텍스트 유닛의 문자 특징, 위치 특징 및 설정된 제2 모달 식별자에 따라 각 텍스트 유닛의 텍스트 특징을 생성한다.
상기 문자 특징은 해당 텍스트 유닛에 포함된 문자를 지시하기 위해 사용되고, 위치 특징은 해당 텍스트 유닛의 어순을 지시하기 위해 사용되며, 제2 모달 식별자는 예컨대 설정된 식별자[Text]와 같이 해당 텍스트 유닛이 해당 말뭉치에 속한다는 것을 지시하기 위해 사용된다.
본 실시예에서, 각 텍스트 유닛의 문자 특징, 위치 특징 및 설정된 제2 모달 식별자를 결합하여 각 텍스트 유닛의 텍스트 특징을 생성하며, 텍스트 특징에 포함되는 정보를 증가한다.
단계309, 각 객체의 이미지 특징과 각 텍스트 유닛의 텍스트 특징을 결합하여 입력 특징을 획득한다.
구체적으로, 의미론적 모델이 이미지와 말뭉치의 조합 특징에 대해 훈련을 수행하여 이미지와 말뭉치 간의 의미론적 관계를 얻어 의미론적 모델의 식별 효과를 향상할 수 있도록, 각 객체의 이미지 특징 및 각 텍스트 유닛의 텍스트 특징을 결합하여 의미론적 모델의 입력 특징을 획득한다.
예를 들어, 도 3에 도시한 바와 같이, 말뭉치 중의 각 텍스트 유닛에 대해, A2 중의 대응하는 문자 특징, B2 중의 대응하는 제2 모달 식별자 및 C2 중의 대응하는 위치 특징을 결합하여 해당 텍스트 유닛의 텍스트 특징을 생성한다. 이미지 중의 각 객체에 대해, A1 중의 대응하는 객체 특징, B1 중의 대응하는 제1 모달 식별자 및 C1 중의 대응하는 위치 특징을 결합하여 해당 객체의 이미지 특징을 생성한다. 더 나아가, 각 객체의 이미지 특징과 각 텍스트 유닛의 텍스트 특징을 결합하여 입력 특징을 얻고, 입력 특징은 벡터로 표시하며, 텍스트 정보와 이미지 정보의 조합을 구현함으로써, 모델이 텍스트와 이미지 간의 연관 정보를 학습하여 후속 모델의 훈련 효과를 향상할 수 있다.
단계310, 입력 특징에 따라 제1 훈련 작업을 수행하여 의미론적 모델을 훈련한다.
구체적으로, 첫번째 가능한 구현 방식으로서, 말뭉치의 텍스트 유닛의 마스크를 기반으로 모델을 훈련하며, 구체적으로, 각 훈련 샘플에 대해, 적어도 하나의 텍스트 유닛을 선택하여 입력 특징 중의 해당 텍스트 유닛의 텍스트 특징을 설정된 텍스트 마스크로 대체하고, 대체하여 얻은 입력 특징을 의미론적 모델에 입력하여 의미론적 모델에 의해 출력된 제1 의미론적 벡터를 얻으며, 제1 의미론적 벡터에 따라 선택된 텍스트 유닛을 예측하여 예측 정확도에 따라 의미론적 모델의 매개 변수를 조정한다.
두번째 가능한 구현 방식으로서, 이미지 중의 객체의 마스크를 기반으로 모델을 훈련하며, 구체적으로, 각 훈련 샘플의 이미지에서 적어도 하나의 객체를 선택하며, 공간에서 이미지 중의 객체의 표시 영역이 교차하여 중첩되어 표시되는 영역이 존재할 수도 있고, 교차하여 중첩되어 표시되는 영역이 존재하지 않을 수도 있기 때문에, 다음의 두가지 시나리오를 예를 들어 설명한다.
하나의 시나리오에서, 공간에서 이미지 중의 객체의 표시 영역이 교차하여 중첩되어 표시되는 영역이 존재하면 두 객체 간에 의미론적 연관이 존재하기 때문에, 마스크 영역의 입도를 증가하고 마스크 영역에 포함된 의미론적 정보를 증가하기 위해, 선택된 객체는 중첩되는 표시 영역을 갖는 적어도 두개의 객체를 포함할 수 있다.
다른 하나의 시나리오에서, 이미지 중의 객체에 서로 간에 중첩되어 표시되는 영역이 존재하지 않기 때문에, 이미지 중의 객체가 모두 서로 독립된 객체가 되도록, 선택된 객체는 그 어떤 객체와도 중첩되어 표시되는 영역을 갖지 않는 객체이며, 또는 선택된 객체, 즉, 선택된 적어도 하나의 객체가 그 어떤 객체와도 모두 중첩되는 표시 영역을 갖지 않는 객체이며, 마스크 영역의 입도를 증가하는 것을 통해 마스크 영역에 포함되는 의미론적 정보를 증가한다.
또한, 입력 특징 중의 해당 객체의 이미지 특징을 설정된 이미지 마스크로 대체한다. 대체하여 얻은 입력 특징을 의미론적 모델에 입력하여 의미론적 모델에 의해 출력된 제1 의미론적 벡터를 획득하고 선택된 객체를 예측하며, 예측 정확도에 따라 의미론적 모델의 매개 변수를 조정한다.
세번째 가능한 구현 방식으로서, 말뭉치 및 이미지를 기반으로 동시에 마스킹하고 모델을 훈련하며, 구체적으로, 각 훈련 샘플에 대해 적어도 하나의 텍스트 유닛을 선택하여 상기 입력 특징 중의 해당 텍스트 유닛의 텍스트 특징을 설정된 텍스트 마스크로 대체하며, 적어도 하나의 객체를 선택하여 상기 입력 특징 중의 해당 객체의 이미지 특징을 설정된 이미지 마스크로 대체한다. 대체하여 얻은 입력 특징을 의미론적 모델에 입력하여 의미론적 모델에 의해 출력된 제1 의미론적 벡터를 얻고, 제1 의미론적 벡터에 따라 선택된 텍스트 유닛 및 선택된 객체를 예측하며, 예측 정확도에 따라 의미론적 모델의 매개 변수를 조정하고, 텍스트 유닛과 이미지 유닛에 대해 모두 마스킹하여 정확도를 예측하는 것을 통해 모델이 말뭉치와 이미지 간의 의미론적 연관을 더 신속히 학습하고 의미론적 모델의 매개 변수 조정 속도를 향상하며 모델의 훈련 효과를 향상할 수 있다.
예를 들어, 도 3에서 말뭉치 및 이미지를 기반으로 동시에 마스킹하고 모델을 훈련하며, 도 3에 도시된 바와 같이, 말뭉치 중의 4개의 연속된 텍스트 유닛을 가리는데, 즉 각 텍스트 유닛에 대응하는 문자 woman, riding, a 및 bike를 설정된 이미지 마스크[mask]로 대체하여 4개 텍스트 유닛에 대한 마스킹을 완성한다. 동시에, 이미지 중의 3개 객체의 이미지 특징 중의 객체 특징을 설정된 이미지 마스크[Mask]로 대체한다. 따라서, 본 실시예에서 마스크의 입도가 더욱 크며, 말뭉치에 대해서는 적어도 하나의 텍스트 유닛에 대해 마스킹하고, 이미지에 대해서는 이미지 중의 적어도 하나의 객체에 대해 마스킹하며, 더욱 풍부한 의미론적 정보를 포착할 수 있다. 기존 기술에서, 마스크 입도는 단일 단어 또는 단일 물체인 객체이므로 더욱 큰 의미론적 단위에 대해서는 효과가 바람직하지 못하며, 예를 들어, 하얼빈의 경우, 만일 "얼"을 단독으로 마스크로 대체하여 "하" 및 "빈"을 통해 "얼"을 예측하는 경우에는 비교적 용이하게 예측할 수 있지만 큰 가치가 없으며, 만일 "하얼빈" 전체를 마스크로 대체하여 앞뒤 단어를 통해 "하얼빈"을 예측하는 경우, "하얼빈"은 더 바람직한 의미를 배울 수 있다.
또한, 대체하여 얻은 입력 특징을 의미론적 모델에 입력하여 의미론적 모델에 의해 출력된 제1 의미론적 벡터를 획득하고, 제1 의미론적 벡터에 따라 선택된 텍스트 유닛 및 선택된 객체를 예측하는데, 예를 들어, 도 3을 참조하면, 마스킹된 텍스트 유닛에 대응하는 문자는 woman, riding, a 및 bike이고, 의미론적 모델에 의해 출력된 제1 의미론적 벡터에 따라 예측하여 얻은 문자는 woamn, riding, a 및 bike이며, 예측 결과가 모두 정확하다. 이미지 특징 중의 마스킹된 객체 특징에 대응하는 객체는 basket, bicycle 및 woman이고, 의미론적 모델이 마스킹된 객체에 대해 대응하는 설명 정보를 예측하며, 예측하여 출력된 내용은 basket, bicycle 및 woman로서, 예측 결과가 모두 정확하다. 실제 적용에 있어서, 모델의 훈련 과정에서 초기에는 모델의 정확도가 낮으며, 예측 결과의 정확도에 따라 모델이 수렴될 때까지, 즉 의미론적 모델의 손실 함수가 가장 작고 식별 정확도가 가장 높을 때까지, 의미론적 모델의 매개 변수를 지속적으로 조정한다.
단계311, 훈련된 의미론적 모델을 사용하여 말뭉치와 이미지 간의 크로스 모달 처리를 수행한다.
구체적으로, 단계309 내지 단계311 중의 입력 특징을 기반으로 하는 제1 훈련 작업은 도 2의 대응하는 실시예 중의 단계204 내지 단계206을 참조할 수 있으며, 그 원리가 동일하기 때문에 여기서는 중복하여 설명하지 않는다.
본 실시예에서, 미리 설정된 시드 라이브러리를 통해, 대응하는 표준 텍스트의 문자 내용을 각 객체의 이미지 특징에 융합하여 포함되는 정보를 증가하며, 마찬가지로, 대응하는 표준 이미지의 이미지 콘텐츠를 각 텍스트 유닛의 텍스트 특징에 융합하여 포함되는 정보가 증가되게 함으로써, 정보량이 증가된 텍스트 특징과 이미지 특징을 결합하여 얻어지는 입력 특징에 포함되는 의미론적 정보량이 증가되게 하지만, 기존 기술에서는 텍스트와 이미지를 통해 공동으로 시각적으로 표현할 때, 두 모달의 특징 간에 대응 관계가 성립되지 않고 두가지 모달의 특징이 서로 분리되어 의미론적 모델이 크로스 모달 수행 시 모달 간의 의미론적 관계를 학습할 수 없고 모델의 훈련 효과가 저하된다. 하지만, 본 발명에서는 구축된 시드 라이브러리를 통해 텍스트와 이미지 특징을 정렬하고 융합하여 의미론적 모델이 크로스 모달 수행 시 모달 간의 의미론적 관계를 학습할 수 없게 함으로써, 의미론적 모델의 훈련 효과를 향상할 수 있다.
본 발명의 실시예의 크로스 모달 처리 방법에서, 복수의 말뭉치 및 복수의 이미지를 포함하는 샘플 집합을 획득하고, 상기 샘플 집합에 따라 복수의 훈련 샘플을 생성하며, 상기 훈련 샘플은 적어도 하나의 상기 말뭉치와 그 대응되는 적어도 하나의 상기 이미지의 조합이며, 의미론적 모델이 학습을 통해 말뭉치와 이미지 조합의 의미론적 벡터를 획득하도록, 상기 복수의 훈련 샘플을 사용하여 의미론적 모델을 훈련하며, 훈련된 말뭉치와 그 대응하는 이미지에 대해 조합 훈련을 수행하여 의미론적 모델이 말뭉치와 그 대응하는 이미지 간의 의미론적 연관을 학습하게 함으로써, 크로스 모달 처리를 수행하기 위한 의미론적 모델의 훈련 효과를 향상하며, 또한, 미리 설정된 시드 라이브러리를 기반으로 정보량이 증가된 텍스트 특징 및 이미지 특징을 생성하고, 텍스트 특징과 이미지 특징을 결합한 후, 얻어지는 입력 특징에 포함되는 의미론적 정보량도 증가됨으로써, 입력 특징을 기반으로 훈련된 의미론적 모델의 훈련 효과를 향상한다.
전술한 실시예를 기반으로, 본 실시예는 다른 크로스 모달 처리 방법을 제공하며, 본 실시예는 제2 훈련 작업을 수행하여 의미론적 모델을 훈련하는 과정에 대해 설명한다.
도 6은 본 발명의 실시예에 따른 또 다른 크로스 모달 처리 방법의 흐름도이다.
도 6에 도시된 바와 같이, 상기 방법은 다음 단계를 포함한다. 즉:
단계601, 복수의 말뭉치 및 복수의 이미지를 포함하는 샘플 집합을 획득한다.
상기 말뭉치는 적어도 하나의 텍스트 유닛을 포함한다.
하나의 가능한 구현 방식으로서, 멀티미디어 데이터 집합에서 서로 다른 모달의 데이터를 수집하여 샘플 집합을 생성할 수 있으며, 샘플 집합에는 복수의 이미지와 그 대응되는 복수의 말뭉치가 포함되고, 말뭉치는 대응하는 이미지 중의 콘텐츠에 대해 설명하기 위해 사용된다.
단계602, 샘플 집합에 따라 말뭉치와 이미지가 일치한 훈련 샘플 및 말뭉치와 이미지가 일치하지 않는 훈련 샘플을 생성한다.
본 실시예에서는 제2 훈련 작업을 사용하여 모델을 훈련하며, 사용되는 훈련 샘플은 양성 훈련 샘플 및 음성 훈련 샘플을 포함하고, 대량의 양성 훈련 샘플 및 음성 훈련 샘플을 통해 모델의 훈련 효과와 모델의 훈련 속도를 향상할 수 있다.
구체적으로, 샘플 집합에 따라 각 말뭉치와 해당 말뭉치에 의해 설명되는 이미지를 조합하여 말뭉치와 이미지가 일치하는 훈련 샘플을 얻는데, 즉 양성 훈련 샘플을 얻는다.
본 실시예에서, 말뭉치와 이미지가 일치하지 않는 훈련 샘플에 대해, 즉 음성 훈련 샘플에 대해 3가지 가능한 생성 방식이 있다. 첫번째 가능한 구현 방식으로서, 고정 설정된 말뭉치와 무작위로 결정된 이미지를 조합하여 말뭉치와 이미지가 일치하지 않는 훈련 샘플을 얻는다.
두번째 가능한 구현 방식으로서, 고정 설정된 이미지와 무작위로 결정된 말뭉치를 조합하여 말뭉치와 이미지가 일치하지 않는 훈련 샘플을 얻는다.
세번째 가능한 구현 방식으로서, 고정 설정된 말뭉치와 고정 설정된 이미지를 조합하여 말뭉치와 이미지가 일치하지 않는 훈련 샘플을 얻으며, 또한, 고정 설정된 이미지와 무작위로 결정된 말뭉치를 조합하여 말뭉치와 이미지가 일치하지 않는 훈련 샘플을 얻는다.
단계603, 각 훈련 샘플에 대해 이미지 중에 표시된 각 객체에 대해 시각적 특징 및 공간 좌표를 획득한다.
하나의 가능한 구현 방식으로서, 각 훈련 샘플에 대해 샘플에 포함된 이미지에 대해 빠른 대상 감지 모델 Faster R-CNN을 사용하여 이미지의 각 객체 영역과 해당 영역에 대응하는 특징, 즉 시각적 특징 및 공간 좌표를 식별하며, 시각적 특징은 Faster R-CNN 모델을 통해 해당 관심 영역의 이미지 콘텐츠 정보를 풀링하여 얻으며, 공간 좌표는 이미지에서 해당 객체의 표시 위치를 나타내기 위해 사용된다.
단계604, 각 객체에 대해, 구성된 시드 라이브러리에서 대응하는 표준 텍스트를 검색하고, 표준 텍스트의 문자 내용과 대응하는 객체 특징을 융합한다.
상기 표준 텍스트는 해당 객체를 설명하기 위해 사용된다.
본 실시예에서, 시드 라이브러리는 미리 구성되며, 하나의 가능한 구현 방식으로서, 대량의 이미지 샘플을 획득한 후, 빠른 대상 감지 모델(Faster R-CNN)을 사용하여 각 대량의 이미지에 대해 각각의 바운딩 박스(bounding box)를 추출하고 각 bounding box에 대응하는 하위 이미지와 그 대응하는 문자 설명의 관계 매핑 라이브러리를 구성하며, 도 5에 도시된 바와 같이, 표준 텍스트 야구 방망이(baseball bat)와 S1에 의해 지시된 바운딩 박스(bounding box)가 대응 관계를 가지고, 표준 텍스트 사람(person)과 S2에 의해 지시된 바운딩 박스가 대응 관계를 가지고, 표준 텍스트 스포츠 볼(sport ball)과 S3에 의해 지시된 바운딩 박스가 대응 관계를 가지며, 표준 텍스트 야구 글러브와 S4에 의해 지시된 바운딩 박스가 대응 관계를 가진다. 마찬가지로, 각 이미지의 각 바운딩 박스와 그 대응하는 표준 텍스트의 대응 관계를 획득할 수 있으며, 하나의 표준 텍스트가 복수의 물체와 대응될 수 있기 때문에, 예를 들어, 자전거 바구니는 다양한 외형 및 구조를 갖지만 서로 다른 이미지의 자전거 바구니에 대응하는 표준 텍스트는 모두 자전거 바구니이기 때문에, 일정한 규모의 일대다 맵핑을 구성하여 각 물체의 표준 텍스트가 모두 복수의 표준 이미지에 대응되게 함으로써, 표준 텍스트와 표준 이미지 간의 맵핑 관계를 포함하는 시드 라이브러리를 구성할 수 있다.
예를 들어, 각 객체에 대해, 구성된 시드 라이브러리에서 대응하는 표준 텍스트를 검색하며, 만일 표준 텍스트의 문자 내용이 300차원의 특징 벡터이고 해당 객체의 객체 특징이 128차원의 특징 벡터이면, 레이블링된 텍스트에 대응하는 300차원의 특징 벡터를 대응하는 해당 128차원의 객체 특징에 융합한 후, 얻어지는 해당 객체의 객체 특징의 벡터는 여전히 128차원을 유지하며, 표준 텍스트의 문자 내용을 대응하는 객체 특징에 융합하되, 객체 특징의 차원이 변하지 않고 객체 특징에 포함되는 정보량이 증가됨으로써, 이미지 특징에 포함되는 정보를 증가한다.
단계605, 각 객체의 객체 특징, 객체 순서 특징 및 설정된 제1 모달 식별자에 따라 각 객체의 이미지 특징을 생성한다.
상기 객체 순서 특징은 각 객체 간의 상호 순서 관계를 지시하기 위해 사용되며, 제1 모달 식별자는 해당 객체가 해당 이미지에 속함을 지시하기 위해 사용되며, 제1 모달 식별자는 예컨대 설정된 특수 식별자 [IMG]일 수 있다.
하나의 가능한 구현 방식으로서, 각 객체의 객체 특징, 객체 순서 특징 및 설정된 제1 모달 식별자에 따라 결합 방식으로 각 객체의 이미지 특징을 생성할 수 있다.
구체적으로, 이미지 특징에 대한 예는 도 2의 대응하는 실시예 중의 단계203을 참조할 수 있으며, 그 원리가 동일하기 때문에 여기서는 중복하여 설명하지 않는다.
단계606, 말뭉치 중의 각 텍스트 유닛에 대해, 문자 특징 및 위치 특징을 획득한다.
상기 문자 특징은 해당 텍스트 유닛에 포함된 문자를 지시하기 위해 사용되고, 위치 특징은 해당 텍스트 유닛의 어순을 지시하기 위해 사용된다.
단계607, 각 텍스트 유닛에 대해, 구성된 시드 라이브러리에서 대응하는 표준 이미지를 검색하고, 표준 이미지의 이미지 콘텐츠와 해당 텍스트 유닛의 문자 특징을 융합한다.
상기 표준 이미지는 해당 텍스트 유닛에 의해 설명되는 객체를 표시하며, 레이블링된 이미지의 이미지 콘텐츠는 이미지 중에 표시된 객체의 크기, 색상, 형태 등을 포함한다.
예를 들어, 각 객체에 대해, 시드 라이브러리 중에 각 텍스트 유닛과 대응하는 레이블링된 이미지의 대응 관계가 미리 설정되었기 때문에, 설정된 시드 라이브러리에서 대응하는 표준 이미지를 검색하여 획득할 수 있으며, 예를 들어, 도 3에 도시된 바와 같이, 텍스트 유닛에 포함된 문자는 자전거 바구니(basket)이고, 시드 라이브러리에서 복수의 레이블링된 이미지를 검색하여 결정하며, 도 3에서는 단지 예시적으로 3가지만 나타냈고, 검색된 복수의 레이블링된 이미지의 이미지 콘텐츠를 해당 텍스트 유닛의 문자 특징과 융합하며, 구체적으로, 만일 표준 텍스트의 이미지 콘텐츠가 300차원의 특징 벡터에 대응되고 해당 텍스트 유닛의 문자 특징은 128차원의 특징 벡터이면, 이미지 콘텐츠에 대응하는 300차원의 특징 벡터를 해당 128차원의 문자 특징의 특징 벡터에 융합한 후, 얻은 문자 특징의 벡터가 여전히 128차원을 유지함으로써, 대응하는 이미지 콘텐츠를 문자 특징에 융합한 후 문자 특징의 차원이 변하지 않지만 문자 특징에 포함되는 정보가 증가되며, 문자 특징에 포함되는 정보를 증가하고 텍스트와 객체 간의 의미론적 연관성을 향상하며, 더 나아가, 후속 단계에서 텍스트 특징과 이미지 특징을 결합하여 얻어지는 입력 특징에 포함되는 의미론적 정보량이 증가됨으로써, 입력 특징을 기반으로 훈련된 의미론적 모델의 훈련 효과를 향상한다.
단계608, 각 텍스트 유닛의 문자 특징, 위치 특징 및 설정된 제2 모달 식별자에 따라 각 텍스트 유닛의 텍스트 특징을 생성한다.
상기 문자 특징은 해당 텍스트 유닛에 포함된 문자를 지시하기 위해 사용되고, 위치 특징은 해당 텍스트 유닛의 어순을 지시하기 위해 사용되며, 제2 모달 식별자는 예컨대 설정된 식별자[Text]와 같이 해당 텍스트 유닛이 해당 말뭉치에 속한다는 것을 지시하기 위해 사용된다.
단계609, 각 객체의 이미지 특징과 각 텍스트 유닛의 텍스트 특징을 결합하여 입력 특징을 획득한다.
구체적으로, 의미론적 모델이 이미지와 말뭉치의 조합 특징에 대해 훈련을 수행하여 이미지와 말뭉치 간의 의미론적 관계를 얻어 의미론적 모델의 식별 효과를 향상할 수 있도록, 각 객체의 이미지 특징 및 각 텍스트 유닛의 텍스트 특징을 결합하여 의미론적 모델의 입력 특징을 획득한다.
예를 들어, 도 3에 도시한 바와 같이, 말뭉치 중의 각 텍스트 유닛에 대해, A2 중의 대응하는 문자 특징, B2 중의 대응하는 제2 모달 식별자 및 C2 중의 대응하는 위치 특징을 결합하여 해당 텍스트 유닛의 텍스트 특징을 생성한다. 이미지 중의 각 객체에 대해, A1 중의 대응하는 객체 특징, B1 중의 대응하는 제1 모달 식별자 및 C1 중의 대응하는 위치 특징을 결합하여 해당 객체의 이미지 특징을 생성한다. 더 나아가, 각 객체의 이미지 특징과 각 텍스트 유닛의 텍스트 특징을 결합하여 입력 특징을 얻으며, 입력 특징은 벡터로 표시한다.
단계610, 입력 특징에는 또한 매칭 식별자가 포함되며, 입력 특징에 따라 제2 훈련 작업을 수행하여 의미론적 모델을 훈련한다.
상기 입력 특징에는 매칭 식별자도 포함되며, 매칭 식별자는 미리 설정된 학습 가능한 벡터, 예를 들어 학습 카테고리(classification, CLS) 벡터이다.
상기 제2 훈련 작업은, 각 훈련 샘플에 대해 대응하는 입력 특징 중에 포함된 매칭 식별자를 설정값으로 설정한 후, 의미론적 모델에 입력하여 의미론적 모델에 의해 출력된 제2 의미론적 벡터를 획득하며; 제2 의미론적 벡터 중의 매칭 식별자의 값에 따라 해당 훈련 샘플 중의 말뭉치와 이미지의 매칭 정도를 예측하며; 예측된 매칭 정도와 해당 훈련 샘플의 실제 매칭 정도 사이의 차이에 따라 의미론적 모델의 매개 변수를 조정하며; 의미론적 모델의 매개 변수를 조정하고, 의미론적 모델이 수렴되도록, 제2 훈련 작업을 통해 모델의 매개 변수를 지속적으로 훈련 및 조정하며, 즉 예측한 매칭 결과와 실제 매칭 결과의 차이를 최소화하여 말뭉치와 그 대응하는 이미지의 매칭을 구현하여 이미지와 말뭉치의 해당 검색 분야에 사용하는 작업을 포함한다.
또한, 의미론적 모델은 입력 특징에 따라 매칭 식별자의 값을 조정하며, 조정된 매칭 식별자의 값은 훈련 샘플 중의 말뭉치와 이미지의 매칭 정도를 지시하기 위해 사용된다.
단계611, 훈련된 의미론적 모델을 사용하여 말뭉치와 이미지 간의 크로스 모달 처리를 수행한다.
본 실시예에서 훈련된 의미론적 모델은 말뭉치와 이미지 조합의 의미론적 벡터를 학습하여 말뭉치와 이미지 조합 간의 의미론적 연관을 학습하고, 훈련된 의미론적 모델을 구체적인 말뭉치와 이미지의 크로스 모달 처리에 적용하며, 본 실시예는 두가지 적용 시나리오를 제공한다.
하나의 시나리오에서, 훈련된 의미론적 모델을 사용하여 말뭉치를 기반으로 대응하는 이미지를 검색하며, 구체적으로, 일치한 지 여부를 판단하려는 이미지 및 말뭉치를 모델에 입력하고, 모델에 의해 출력된 CLS값에 따라 양자가 일치한 지 결정하며, 즉 알려진 말뭉치에 대응하는 특징과 알려지지 않은 이미지의 초기화 특징을 의미론적 모델에 입력하여 의미론적 모델에 의해 출력된 알려진 말뭉치와 알려지지 않은 이미지 조합의 의미론적 벡터에서 이미지 부분에 대응하는 데이터에 따라 알려지지 않은 이미지에 표시된 객체를 예측하고, 예측된 객체에 따라 복수의 알려지지 않은 이미지에서 해당 알려지지 않은 이미지를 검색함으로써, 알려진 말뭉치에 대응하는 이미지를 결정한다.
다른 시나리오에서, 훈련된 의미론적 모델을 사용하여 이미지를 기반으로 해당 이미지를 설명하기 위한 말뭉치를 생성하며, 구체적으로, 알려진 이미지에 대응하는 특징과 알려지지 않은 말뭉치의 초기화 특징을 의미론적 모델에 입력하고, 모델에 의해 출력된 알려진 이미지와 알려지지 않은 말뭉치가 조합된 의미론적 벡터에서 말뭉치 부분에 대응하는 데이터에 따라 해당 알려진 이미지를 설명하기 위한 알려지지 않은 설명을 위한 말뭉치를 생성한다.
알려지지 않은 말뭉치는 어느 이미지를 설명하기 위해 사용되는지 결정되지 않은 말뭉치를 가리키며, 즉 말뭉치에 대응하는 이미지가 알려지지 않은 경우를 가리킨다.
대안적으로, 실제 적용 시나리오에서, 서로 다른 식별 작업에 따라 식별을 위한 이미지 및 말뭉치에 대해 식별할 수 있고, 모델의 식별 결과에 따라 모델의 매개 변수를 미세 조정하여 해당 시나리오의 식별 작업에서 모델의 식별 효과를 향상할 수 있다.
또한, 훈련 효과를 향상하기 위해, 제1 훈련 작업 및 제2 훈련 작업을 모두 수행할 수 있고, 두 훈련 작업은 번갈아 수행되며, 제1 훈련 작업의 예측 결과 및 제2 훈련 작업의 매칭 정도 예측 결과에 따라 의미론적 모델의 손실값을 계산하며, 상기 모델의 손실값은 두 훈련 작업에 대응하는 손실 함수의 손실값으로 구하고, 두 작업의 손실 함수가 모두 수렴되도록, 계산된 모델의 손실값에 따라 의미론적 모델의 매개 변수를 조정하여 모델의 훈련 효과를 향상한다.
본 실시예에 따른 크로스 모달 처리 방법에서, 복수의 말뭉치 및 복수의 이미지를 포함하는 샘플 집합을 획득하고, 상기 샘플 집합에 따라 복수의 훈련 샘플을 생성하며, 상기 훈련 샘플은 적어도 하나의 상기 말뭉치와 그 대응되는 적어도 하나의 상기 이미지의 조합이며, 의미론적 모델이 학습을 통해 말뭉치와 이미지 조합의 의미론적 벡터를 획득하도록, 상기 복수의 훈련 샘플을 사용하여 의미론적 모델을 훈련하며, 훈련된 말뭉치와 그 대응하는 이미지의 조합에 대해 훈련을 수행하여 의미론적 모델이 말뭉치와 그 대응하는 이미지 간의 의미론적 연관을 학습하게 함으로써, 크로스 모달 처리를 수행하기 위한 의미론적 모델의 훈련 효과를 향상한다.
전술한 실시예를 구현하기 위해, 본 발명은 크로스 모달 처리 장치를 제공한다.
도 7은 본 발명의 실시예에 따른 크로스 모달 처리 장치의 구조도이다.
도 7에 도시된 바와 같이, 상기 장치는, 획득 모듈(71), 생성 모듈(72), 훈련 모듈(73) 및 처리 모듈(74)을 포함하여 구성된다.
획득 모듈(71)은 복수의 말뭉치 및 복수의 이미지를 포함하는 샘플 집합을 획득하기 위해 사용된다.
생성 모듈(72)은 상기 샘플 집합에 따라 복수의 훈련 샘플을 생성하기 위해 사용되며, 각 상기 훈련 샘플은 적어도 하나의 상기 말뭉치와 그 대응되는 적어도 하나의 상기 이미지의 조합이다.
훈련 모듈(73)은 상기 의미론적 모델이 학습을 통해 말뭉치와 이미지 조합의 의미론적 벡터를 획득하도록, 상기 복수의 훈련 샘플을 사용하여 의미론적 모델을 훈련하기 위해 사용된다.
처리 모듈(74)은 훈련된 의미론적 모델을 사용하여 말뭉치와 이미지 간의 크로스 모달 처리를 수행하기 위해 사용된다.
또한, 본 발명의 실시예의 가능한 구현 방식에서, 상기 훈련 모듈(73)은,
각 훈련 샘플에 대해 해당 훈련 샘플 중의 상기 이미지에 표시된 각 객체에 대해 이미지 특징을 추출하며, 말뭉치 중의 각 텍스트 유닛에 대해 텍스트 특징을 추출하는 추출 유닛;
각 객체의 이미지 특징과 각 텍스트 유닛의 텍스트 특징을 결합하여 입력 특징을 획득하는 결합 유닛; 및
입력 특징에 따라 제1 훈련 작업을 수행하여 의미론적 모델을 훈련하는 훈련 유닛; 을 포함하며,
상기 제1 훈련 작업은,
각 훈련 샘플에 대해 적어도 하나의 텍스트 유닛을 선택하여 입력 특징 중의 해당 텍스트 유닛의 텍스트 특징을 설정된 텍스트 마스크로 대체하며 및/또는 적어도 하나의 객체를 선택하여 입력 특징 중의 해당 객체의 이미지 특징을 설정된 이미지 마스크로 대체하며; 대체하여 얻은 입력 특징을 상기 의미론적 모델에 입력하여 의미론적 모델에 의해 출력된 제1 의미론적 벡터를 획득하며; 제1 의미론적 벡터에 따라 선택된 텍스트 유닛 및/또는 선택된 객체를 예측하며; 및 예측 정확도에 따라 의미론적 모델의 매개 변수를 조정하는 작업을 포함한다.
하나의 가능한 구현 방식으로서, 선택된 객체는 중첩되는 표시 영역을 갖는 적어도 두개의 객체를 포함하며; 또는, 선택된 객체는 임의의 하나의 객체와 모두 중첩되는 표시 영역을 갖지 않는 하나의 객체이다.
하나의 가능한 구현 방식으로서, 상기 생성 모듈(72)은 구체적으로,
각 말뭉치를 해당 말뭉치에 의해 설명된 이미지와 조합하여 말뭉치와 이미지에 일치하는 훈련 샘플을 얻으며; 고정 설정된 말뭉치를 무작위로 결정된 이미지와 조합하여 말뭉치와 이미지가 일치하지 않는 훈련 샘플을 얻거나 및/또는 고정 설정된 이미지와 무작위로 결정된 말뭉치를 조합하여 말뭉치와 이미지가 일치하지 않는 훈련 샘플을 얻는다.
다른 하나의 가능한 구현 방식으로서, 입력 특징은 또한 매칭 식별자를 포함하며, 상기 훈련 모듈(73)은 구체적으로,
상기 입력 특징에 따라 제2 훈련 작업을 수행하여 의미론적 모델을 훈련한다.
상기 제2 훈련 작업은,
각 훈련 샘플에 대해 대응하는 입력 특징 중의 매칭 식별자를 설정값으로 설정한 후, 의미론적 모델에 입력하여 의미론적 모델에 의해 출력된 제2 의미론적 벡터를 획득하며; 제2 의미론적 벡터 중의 매칭 식별자의 값에 따라 해당 훈련 샘플 중의 말뭉치와 이미지의 매칭 정도를 예측하며; 및 예측된 매칭 정도와 해당 훈련 샘플의 실제 매칭 정도 사이의 차이에 따라 의미론적 모델의 매개 변수를 조정하는 작업을 포함한다.
하나의 가능한 구현 방식으로서, 추출 유닛은,
이미지에 표시된 각 객체에 대해 시각적 특징 및 공간 좌표를 획득하는 획득 서브 유닛 - 상기 시각적 특징은 해당 관심 영역의 이미지 콘텐츠 정보를 풀링하여 얻으며, 상기 공간 좌표는 이미지에서 해당 객체의 표시 위치를 지시하기 위해 사용됨 - ;
시각적 특징 및 공간 좌표를 결합하여 객체 특징을 생성하는 결합 서브 유닛; 및
각 객체의 객체 특징, 객체 순서 특징 및 설정된 제1 모달 식별자에 따라 각 객체의 이미지 특징을 생성하는 생성 서브 유닛 - 상기 객체 순서 특징은 각 객체 간의 상호 순서 관계를 지시하기 위해 사용되고, 상기 제1 모달 식별자는 해당 객체가 해당 이미지에 속함을 지시하기 위해 사용됨 - ;을 더 포함한다.
다른 하나의 가능한 구현 방식으로서, 추출 유닛은,
각 객체에 대해, 설정된 시드 라이브러리에서 대응하는 표준 텍스트를 검색하는 검색 서브 유닛 - 상기 표준 텍스트는 해당 객체를 설명하기 위해 사용됨 - ; 및
상기 표준 텍스트의 문자 내용을 객체 특징과 융합하는 융합 서브 유닛; 을 더 포함한다.
다른 하나의 가능한 구현 방식으로서, 획득 서브 유닛은 또한 말뭉치 중의 각 텍스트 유닛에 대해, 문자 특징 및 위치 특징을 획득하며, 상기 문자 특징은 해당 텍스트 유닛에 포함된 문자를 지시하기 위해 사용되고, 상기 위치 특징은 해당 텍스트 유닛의 어순을 지시하기 위해 사용된다.
생성 서브 유닛은 또한 각 텍스트 유닛의 문자 특징, 위치 특징 및 설정된 제2 모달 식별자에 따라 각 텍스트 유닛의 텍스트 특징을 생성하기 위해 사용된다.
다른 하나의 가능한 구현 방식으로서, 검색 서브 유닛은 또한 각 텍스트 유닛에 대해, 설정된 시드 라이브러리에서 대응하는 표준 이미지를 검색하기 위해 사용되며, 상기 표준 이미지는 해당 텍스트 유닛에 의해 설명되는 객체를 표시한다.
융합 서브 유닛은 또한 표준 이미지의 이미지 콘텐츠와 문자 특징을 융합하기 위해 사용된다.
다른 하나의 가능한 구현 방식으로서, 상기 처리 모듈(74)은 구체적으로,
훈련된 의미론적 모델을 사용하여 말뭉치를 기반으로 대응하는 이미지를 검색하며; 또는, 훈련된 의미론적 모델을 사용하여 이미지를 기반으로 해당 이미지를 설명하기 위한 말뭉치를 생성한다.
전술한 크로스 모달 처리 방법 실시예의 설명은 해당 실시예의 크로스 모달 처리 장치에도 적용되며, 여기서는 상세한 설명을 생략한다.
본 발명의 실시예에 따른 크로스 모달 처리 방법에서, 복수의 말뭉치 및 복수의 이미지를 포함하는 샘플 집합을 획득하고, 상기 샘플 집합에 따라 복수의 훈련 샘플을 생성하며, 상기 훈련 샘플은 적어도 하나의 상기 말뭉치와 그 대응되는 적어도 하나의 상기 이미지의 조합이며, 의미론적 모델이 학습을 통해 말뭉치와 이미지 조합의 의미론적 벡터를 획득하도록, 상기 복수의 훈련 샘플을 사용하여 의미론적 모델을 훈련하며, 훈련된 말뭉치와 그 대응하는 이미지의 조합에 대해 훈련을 수행하여 의미론적 모델이 말뭉치와 그 대응하는 이미지 간의 의미론적 연관을 학습하게 함으로써, 크로스 모달 처리를 수행하기 위한 의미론적 모델의 훈련 효과를 향상한다.
상기 실시예를 구현하기 위해, 본 발명의 실시예에 따른 전자 장치는,
하나 이상의 프로세서; 및
상기 하나 이상의 프로세서와 통신 연결되는 메모리; 를 포함하고,
상기 메모리에는 상기 하나 이상의 프로세서에 의해 실행 가능한 명령어가 저장되며, 상기 명령어가 상기 하나 이상의 프로세서에 의해 실행될 경우, 상기 방법 실시예의 크로스 모달 처리 방법이 수행된다.
본 발명의 제4 측면의 실시예는 컴퓨터 프로그램이 저장되어 있는 비 일시적 컴퓨터 판독 가능 저장 매체를 제공하는바, 상기 컴퓨터 프로그램의 명령어가 실행될 경우, 본 발명의 상기 방법 실시예의 크로스 모달 처리 방법이 수행된다.
본 발명의 실시예에 따르면, 본 발명은 또한 전자 장치 및 판독 가능한 저장 매체를 제공한다.
도 8은 본 발명의 실시예의 크로스 모달 처리 방법을 구현하기 위한전자 장치의 블록도이다. 전자 장치는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인 디지털 비서, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 가리킨다. 전자 장치는 개인용 디지털 처리, 휴대폰, 스마트 폰, 웨어러블 장치 및 기타 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 가리킬 수도 있다. 본 명세서에 표시된 구성 요소, 이들의 연결 및 관계, 및 그 기능은 단지 예시일 뿐이며, 본 명세서에서 설명된 및/또는 요구되는 발명의 구현을 제한하려는 것이 아니다.
도 8에 도시된 바와 같이, 상기 전자 장치는 하나 이상의 프로세서(801), 메모리(802) 및 고속 인터페이스와 저속 인터페이스를 포함하는 각 구성 요소를 연결하기 위한 인터페이스를 포함한다. 각 구성 요소는 서로 다른 버스에 의해 서로 연결되고, 공통 마더 보드에 설치되거나 필요에 따라 다른 방식으로 설치될 수 있다. 프로세서는 메모리에 저장되어 외부 입력/출력 장치(예를 들어, 인터페이스에 연결된 디스플레이 장치)에 GUI의 그래픽 정보를 표시하기 위한 명령어를 포함하는 전자 장치에 의해 실행되는 명령어를 처리할 수 있다. 다른 실시예에서, 필요한 경우, 다중 프로세서 및/또는 다중 버스를 다중 메모리와 함께 사용할 수 있다. 마찬가지로, 여러 전자 장치를 연결할 수 있으며, 각 장치는 필요한 작업의 일부분(예를 들어, 서버 어레이, 블레이드 서버 그룹 또는 다중 프로세서 시스템)을 제공할 수 있다. 도 8은 프로세서(801)가 하나인 경우를 예를 들어 나타낸 것이다.
메모리(802)는 본 발명에 따라 제공되는 비 일시적 컴퓨터 판독 가능 저장 매체이다. 적어도 하나의 프로세서를 통해 본 발명의 크로스 모달 처리 방법을 수행할 수 있도록, 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장된다. 본 발명의 비 일시적 컴퓨터 판독 가능 저장 매체에는 컴퓨터가 본 발명의 크로스 모달 처리 방법을 수행하도록 컴퓨터 명령어가 저장된다.
비 일시적 컴퓨터 판독 가능 저장 매체로서, 메모리(802)는 본 발명의 실시예의 크로스 모달 처리 방법에 대응하는 프로그램 명령/모듈(예를 들어, 도 7에 도시된 바와 같은 획득 모듈(71), 생성 모듈(72), 훈련 모듈(73) 및 처리 모듈(74))과 같은 비 일시적 소프트웨어 프로그램, 비 일시적 컴퓨터 실행 가능 프로그램 및 모듈을 저장하기 위해 사용된다. 프로세서(801)는 메모리(802)에 저장된 비 일시적 소프트웨어 프로그램, 명령어 및 모듈을 실행함으로써, 서버의 다양한 기능 애플리케이션 및 데이터 처리를 실행한다. 즉, 상기 방법 실시예의 크로스 모달 처리 방법을 구현한다.
메모리(802)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있으며, 프로그램 저장 영역에는 운영 체제, 적어도 하나의 기능에 필요한 응용 프로그램이 저장될 수 있고, 데이터 저장 영역에는 크로스 모달 처리 방법을 구현하기 위한 전자 장치의 사용에 따라 생성된 데이터가 저장될 수 있다. 또한, 메모리(802)는 고속 랜덤 액세스 메모리를 포함할 수 있으며, 적어도 하나의 자기 디스크 저장 장치, 플래시 메모리 장치 또는 기타 비 일시적 고체 상태 저장 장치와 같은 비 일시적 메모리를 포함할 수도 있다. 일부 실시예에서, 메모리(802)는 프로세서(801)에 대해 원격으로 제공되는 메모리를 선택적으로 포함할 수 있으며, 이러한 원격 메모리는 네트워크를 통해 크로스 모달 처리 방법을 구현하기 위한 전자 장치에 연결될 수 있다. 상기 네트워크의 예는 인터넷, 기업 인트라넷, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하지만 이에 제한되지 않는다.
크로스 모달 처리 방법을 구현하기 위한 전자 장치는 입력 장치(803) 및 출력 장치(804)를 더 포함할 수 있다. 프로세서(801), 메모리(802), 입력 장치(803) 및 출력 장치(804)는 버스에 의해 연결되거나 또는 다른 방식으로 연결될 수 있으며, 도 8은 버스에 의한 연결을 예를 들어 나타낸 것이다.
입력 장치(803)는 입력된 숫자 또는 문자 정보를 수신하고, 크로스 모달 처리 방법을 구현하기 위한 전자 장치의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 생성할 수있으며, 예를 들어, 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 표시기 스틱, 하나 이상의 마우스 버튼, 트랙볼, 조이스틱 및 기타 입력 장치를 포함할 수 있다. 출력 장치(804)는 디스플레이 장치, 보조 조명 장치 (예를 들어, LED), 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 상기 디스플레이 장치는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 플라즈마 디스플레이를 포함할 수 있지만, 이에 제한되지 않는다. 일부 실시예에서, 디스플레이 장치는 터치 스크린일 수 있다.
출원의 실시예에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공한다. 당해 컴퓨터 프로그램의 명령어가 실행될 경우, 본 출원 실시예의 크로스 모달 처리 방법이 실행된다.
본 명세서에 설명된 시스템 및 기술의 다양한 구현은 디지털 전자 회로 시스템, 집적 회로 시스템, 주문형 ASIC(주문형 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합을 통해 구현될 수 있다. 이러한 다양한 구현 방식은 다음을 포함할 수 있다. 즉: 적어도 하나의 프로그래밍 가능 프로세서를 포함하는 프로그래밍 가능 시스템에서 실행 및/또는 해석될 수 있는 하나 이상의 컴퓨터 프로그램에서 구현되며, 상기 프로그래밍 가능 프로세서는 전용 또는 일반 프로그래밍 가능 프로세서일 수 있으며, 저장 시스템, 하나 이상의 입력 장치 및 하나 이상의 출력 장치에서 데이터 및 명령어를 수신할 수 있고, 데이터 및 명령을 상기 저장 시스템, 상기 적어도 하나의 입력 장치 및 상기 적어도 하나의 출력 장치로 전송할 수 있다.
이러한 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 응용 프로그램 또는 코드라고도 함)에는 프로그래밍 가능한 프로세서에 대한 기계 명령어가 포함되며, 고급 프로그래밍 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어를 사용하여 이러한 컴퓨터 프로그램을 구현할 수 있다. 본 명세서에서 사용되는 "기계 판독 가능 매체" 및 "컴퓨터 판독 가능 매체"라는 용어는 기계 명령어 및/또는 데이터를 프로그램 가능 프로세서에 제공하는 임의의 컴퓨터 프로그램 제품, 장비 및/또는 장치(예를 들어,자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치 (PLD))를 지칭하며, 기계가 판독할 수 있는 신호인 기계 명령어를 수신할 수 있는 기계 판독 가능 매체를 포함한다. 용어 "기계 판독 가능 신호"는 기계 명령어 및/또는 데이터를 프로그래밍 가능 프로세서에 제공하는 모든 신호를 지칭한다.
사용자와의 상호 작용을 위해, 여기에 설명된 시스템 및 기술을 컴퓨터에서 구현할 수 있으며, 상기 컴퓨터는 사용자에게 정보를 표시하는 디스플레이 장치(예를 들어, CRT모니터 또는 LCD모니터)와, 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙볼)를 구비하며, 사용자는 키보드 및 포인팅 장치를 통해 정보를 입력하여 컴퓨터에 제공할 수 있다. 다른 유형의 장치를 사용하여 사용자와의 상호 작용을 제공할 수도 있는데, 예를 들어, 사용자에게 제공되는 피드백은 모든 형태의 감각 피드백(예를 들어, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백) 일 수 있고, 임의의 방식(사운드 입력, 음성 입력 또는 촉각 입력 포함)을 통해 사용자에 의한 입력을 수신할 수 있다.
여기에 설명된 시스템 및 기술은 백엔드 구성 요소를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 구성 요소를 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프런트엔드 구성 요소를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저가 있는 사용자 컴퓨터를 포함할 수 있으며, 사용자는 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 여기에 설명된 시스템 및 기술 구현과 상호 작용할 수 있음), 또는 이러한 백엔드 구성 요소, 미들웨어 구성 요소 또는 프런트엔드 구성 요소의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 모든 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 구성 요소를 서로 연결할 수 있다. 통신 네트워크의 예로는 LAN (Local Area Network), WAN (Wide Area Network) 및 인터넷을 포함할 수 있다.
컴퓨터 시스템에는 클라이언트와 서버가 포함될 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버 간의 관계는 해당 컴퓨터에서 컴퓨터 프로그램을 실행하고 서로 클라이언트-서버 관계를 유지함으로써 생성된다.
본 발명의 실시예의 기술 방안에 따르면, 복수의 말뭉치 및 복수의 이미지를 포함하는 샘플 집합을 획득하고, 상기 샘플 집합에 따라 복수의 훈련 샘플을 생성하며, 상기 훈련 샘플은 적어도 하나의 상기 말뭉치와 그 대응되는 적어도 하나의 상기 이미지의 조합이며, 의미론적 모델이 학습을 통해 말뭉치와 이미지 조합의 의미론적 벡터를 획득하도록, 상기 복수의 훈련 샘플을 사용하여 의미론적 모델을 훈련하며, 훈련된 말뭉치와 그 대응하는 이미지의 조합에 대해 훈련을 수행하여 의미론적 모델이 말뭉치와 그 대응하는 이미지 간의 의미론적 연관을 학습하게 함으로써, 크로스 모달 처리를 수행하기 위한 의미론적 모델의 훈련 효과를 향상한다.
위에 표시된 다양한 형태의 프로세스를 사용하여 단계를 재정렬, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 발명에서 설명된 다양한 단계들은 본 발명에 개시된 기술적 해결책의 원하는 결과를 달성할 수 있는 한, 병렬로 수행되거나, 순차적으로 또는 서로 다른 순서로 수행될 수 있으며, 본 명세서에서는 이를 제한하지 않는다.
상기 구체적인 구현 방식은 본 발명의 보호 범위에 대한 제한을 구성하지 않는다. 당업자는 설계 요건 및 기타 요인에 따라 다양한 수정, 조합, 하위 조합 및 대체가 이루어질 수 있음을 이해해야 한다. 본 발명의 정신과 원칙 내에서 이루어진 모든 수정, 동등한 대체 및 개선은 모두 본 발명의 보호 범위에 속한다.

Claims (23)

  1. 크로스 모달 처리 방법에 있어서,
    복수의 말뭉치 및 복수의 이미지를 포함하는 샘플 집합을 획득하는 단계;
    상기 샘플 집합에 따라 복수의 훈련 샘플을 생성하는 단계 - 각 상기 훈련 샘플은 적어도 하나의 상기 말뭉치와 그 대응되는 적어도 하나의 상기 이미지의 조합임 - ;
    의미론적 모델이 학습을 통해 말뭉치와 이미지 조합의 의미론적 벡터를 획득하도록, 상기 복수의 훈련 샘플을 사용하여 상기 의미론적 모델을 훈련하는 단계; 및
    훈련된 의미론적 모델을 사용하여 말뭉치와 이미지 간의 크로스 모달 처리를 수행하는 단계; 를 포함하는,
    것을 특징으로 하는 크로스 모달 처리 방법.
  2. 제1항에 있어서,
    상기 의미론적 모델이 학습을 통해 말뭉치와 이미지 조합의 의미론적 벡터를 획득하도록, 상기 복수의 훈련 샘플을 사용하여 상기 의미론적 모델을 훈련하는 단계는,
    각 훈련 샘플에 대해, 해당 훈련 샘플 중의 상기 이미지에 표시된 각 객체에 대해 이미지 특징을 추출하며, 상기 말뭉치 중의 각 텍스트 유닛에 대해 텍스트 특징을 추출하는 단계;
    각 객체의 상기 이미지 특징과 각 텍스트 유닛의 상기 텍스트 특징을 결합하여 입력 특징을 획득하는 단계; 및
    상기 입력 특징에 따라 제1 훈련 작업을 수행하여 상기 의미론적 모델을 훈련하는 단계; 를 포함하며,
    상기 제1 훈련 작업은,
    각 훈련 샘플에 대해, 적어도 하나의 텍스트 유닛을 선택하여 상기 입력 특징 중의 해당 텍스트 유닛의 텍스트 특징을 설정된 텍스트 마스크로 대체하며 및/또는 적어도 하나의 객체를 선택하여 상기 입력 특징 중의 해당 객체의 이미지 특징을 설정된 이미지 마스크로 대체하는 것;
    대체하여 얻은 입력 특징을 상기 의미론적 모델에 입력하여 상기 의미론적 모델에 의해 출력된 제1 의미론적 벡터를 획득하는 단계;
    상기 제1 의미론적 벡터에 따라 선택된 텍스트 유닛 및/또는 선택된 객체를 예측하는 것; 및
    예측 정확도에 따라 상기 의미론적 모델의 매개 변수를 조정하는 것; 을 포함하는,
    것을 특징으로 하는 크로스 모달 처리 방법.
  3. 제2항에 있어서,
    상기 선택된 객체는 중첩되는 표시 영역을 갖는 적어도 두개의 객체를 포함하며; 또는, 상기 선택된 객체는 임의의 하나의 객체와 모두 중첩되는 표시 영역을 갖지 않는 하나의 객체인,
    것을 특징으로 하는 크로스 모달 처리 방법.
  4. 제2항에 있어서,
    상기 샘플 집합에 따라 복수의 훈련 샘플을 생성하는 단계는,
    각 상기 말뭉치를 해당 말뭉치에 의해 설명되는 상기 이미지와 조합하여 말뭉치와 이미지에 일치하는 훈련 샘플을 얻는 단계; 및
    고정 설정된 상기 말뭉치를 무작위로 결정된 상기 이미지와 조합하여 말뭉치와 이미지가 일치하지 않는 훈련 샘플을 얻거나 및/또는 고정 설정된 상기 이미지와 무작위로 결정된 상기 말뭉치를 조합하여 말뭉치와 이미지가 일치하지 않는 훈련 샘플을 얻는 단계; 를 포함하는,
    것을 특징으로 하는 크로스 모달 처리 방법.
  5. 제4항에 있어서,
    상기 입력 특징에는 매칭 식별자가 더 포함되며,
    상기 복수의 훈련 샘플을 사용하여 의미론적 모델을 훈련하는 단계는,
    상기 입력 특징에 따라 제2 훈련 작업을 수행하여 상기 의미론적 모델을 훈련하는 단계; 를 포함하며,
    상기 제2 훈련 작업은,
    각 훈련 샘플에 대해 대응하는 입력 특징 중의 상기 매칭 식별자를 설정값으로 설정한 후, 상기 의미론적 모델에 입력하여 상기 의미론적 모델에 의해 출력된 제2 의미론적 벡터를 획득하는 것;
    상기 제2 의미론적 벡터 중의 상기 매칭 식별자의 값에 따라 해당 훈련 샘플 중의 말뭉치와 이미지의 매칭 정도를 예측하는 것; 및
    예측된 매칭 정도와 해당 훈련 샘플의 실제 매칭 정도 사이의 차이에 따라 상기 의미론적 모델의 매개 변수를 조정하는 것; 을 포함하는,
    것을 특징으로 하는 크로스 모달 처리 방법.
  6. 제2항에 있어서,
    상기 해당 훈련 샘플 중의 상기 이미지에 표시된 각 객체에 대해 이미지 특징을 추출하는 단계는,
    상기 이미지에 표시된 각 객체에 대해 시각적 특징 및 공간 좌표를 획득하는 단계 - 상기 시각적 특징은 해당 관심 영역의 이미지 콘텐츠 정보를 풀링하여 얻으며, 상기 공간 좌표는 이미지에서 해당 객체의 표시 위치를 지시하기 위해 사용됨 - ;
    상기 시각적 특징 및 상기 공간 좌표를 결합하여 객체 특징을 생성하는 단계; 및
    각 객체의 상기 객체 특징, 객체 순서 특징 및 설정된 제1 모달 식별자에 따라 각 객체의 이미지 특징을 생성하는 단계 - 상기 객체 순서 특징은 각 객체 간의 상호 순서 관계를 지시하기 위해 사용되고, 상기 제1 모달 식별자는 해당 객체가 해당 이미지에 속함을 지시하기 위해 사용됨 - ; 를 포함하는,
    것을 특징으로 하는 크로스 모달 처리 방법.
  7. 제6항에 있어서,
    상기 각 객체의 상기 객체 특징, 객체 순서 특징 및 설정된 제1 모달 식별자에 따라 각 객체의 이미지 특징을 생성하는 단계 전에,
    각 객체에 대해, 설정된 시드 라이브러리에서 대응하는 표준 텍스트를 검색하는 단계 - 상기 표준 텍스트는 해당 객체를 설명하기 위해 사용됨 - ; 및
    상기 표준 텍스트의 문자 내용을 상기 객체 특징과 융합하는 단계; 를 더 포함하는,
    것을 특징으로 하는 크로스 모달 처리 방법.
  8. 제2항에 있어서,
    상기 말뭉치 중의 각 텍스트 유닛에 대해 텍스트 특징을 추출하는 단계는,
    상기 말뭉치 중의 각 텍스트 유닛에 대해, 문자 특징 및 위치 특징을 획득하는 단계 - 상기 문자 특징은 해당 텍스트 유닛에 포함된 문자를 지시하기 위해 사용되고, 상기 위치 특징은 해당 텍스트 유닛의 어순을 지시하기 위해 사용됨 - ; 및
    각 텍스트 유닛의 상기 문자 특징, 상기 위치 특징 및 설정된 제2 모달 식별자에 따라 각 텍스트 유닛의 텍스트 특징을 생성하는 단계; 를 포함하는,
    것을 특징으로 하는 크로스 모달 처리 방법.
  9. 제8항에 있어서,
    상기 각 텍스트 유닛의 상기 문자 특징, 상기 위치 특징 및 설정된 제2 모달 식별자에 따라 각 텍스트 유닛의 텍스트 특징을 생성하는 단계 전에,
    각 텍스트 유닛에 대해, 설정된 시드 라이브러리에서 대응하는 표준 이미지를 검색하는 단계 - 상기 표준 이미지는 해당 텍스트 유닛에 의해 설명되는 객체를 표시함 - ; 및
    상기 표준 이미지의 이미지 콘텐츠와 상기 문자 특징을 융합하는 단계; 를 더 포함하는,
    것을 특징으로 하는 크로스 모달 처리 방법.
  10. 제1항에 있어서,
    훈련된 의미론적 모델을 사용하여 말뭉치와 이미지 간의 크로스 모달 처리를 수행하는 단계는,
    훈련된 의미론적 모델을 사용하여 말뭉치를 기반으로 대응하는 이미지를 검색하는 단계; 또는
    훈련된 의미론적 모델을 사용하여 이미지를 기반으로 해당 이미지를 설명하기 위한 말뭉치를 생성하는 단계; 를 포함하는,
    것을 특징으로 하는 크로스 모달 처리 방법.
  11. 크로스 모달 처리 장치 있어서,
    복수의 말뭉치 및 복수의 이미지를 포함하는 샘플 집합을 획득하는 획득 모듈;
    상기 샘플 집합에 따라 복수의 훈련 샘플을 생성하는 생성 모듈 - 각 상기 훈련 샘플은 적어도 하나의 상기 말뭉치와 그 대응되는 적어도 하나의 상기 이미지의 조합임 - ;
    의미론적 모델이 학습을 통해 말뭉치와 이미지 조합의 의미론적 벡터를 획득하도록, 상기 복수의 훈련 샘플을 사용하여 상기 의미론적 모델을 훈련하는 훈련 모듈; 및
    훈련된 의미론적 모델을 사용하여 말뭉치와 이미지 간의 크로스 모달 처리를 수행하는 처리 모듈; 을 포함하는,
    것을 특징으로 하는 크로스 모달 처리 장치.
  12. 제11항에 있어서,
    상기 훈련 모듈은,
    각 훈련 샘플에 대해, 해당 훈련 샘플 중의 상기 이미지에 표시된 각 객체에 대해 이미지 특징을 추출하며, 상기 말뭉치 중의 각 텍스트 유닛에 대해 텍스트 특징을 추출하는 추출 유닛;
    각 객체의 상기 이미지 특징과 각 텍스트 유닛의 상기 텍스트 특징을 결합하여 입력 특징을 획득하는 결합 유닛; 및
    상기 입력 특징에 따라 제1 훈련 작업을 수행하여 상기 의미론적 모델을 훈련하는 훈련 유닛; 을 포함하며,
    상기 제1 훈련 작업은,
    각 훈련 샘플에 대해 적어도 하나의 텍스트 유닛을 선택하여 상기 입력 특징 중의 해당 텍스트 유닛의 텍스트 특징을 설정된 텍스트 마스크로 대체하며 및/또는 적어도 하나의 객체를 선택하여 상기 입력 특징 중의 해당 객체의 이미지 특징을 설정된 이미지 마스크로 대체하는 것; 대체하여 얻은 입력 특징을 상기 의미론적 모델에 입력하여 상기 의미론적 모델에 의해 출력된 제1 의미론적 벡터를 획득하는 것; 상기 제1 의미론적 벡터에 따라 선택된 텍스트 유닛 및/또는 선택된 객체를 예측하며; 및 예측 정확도에 따라 상기 의미론적 모델의 매개 변수를 조정하는 것; 을 포함하는,
    것을 특징으로 하는 크로스 모달 처리 장치.
  13. 제12항에 있어서,
    상기 선택된 객체는 중첩되는 표시 영역을 갖는 적어도 두개의 객체를 포함하며; 또는, 상기 선택된 객체는 임의의 하나의 객체와 모두 중첩되는 표시 영역을 갖지 않는 하나의 객체인,
    것을 특징으로 하는 크로스 모달 처리 장치.
  14. 제12항에 있어서,
    상기 생성 모듈은,
    각 상기 말뭉치를 해당 말뭉치에 의해 설명되는 상기 이미지와 조합하여 말뭉치와 이미지에 일치하는 훈련 샘플을 얻으며; 고정 설정된 상기 말뭉치를 무작위로 결정된 상기 이미지와 조합하여 말뭉치와 이미지가 일치하지 않는 훈련 샘플을 얻거나 및/또는 고정 설정된 상기 이미지와 무작위로 결정된 상기 말뭉치를 조합하여 말뭉치와 이미지가 일치하지 않는 훈련 샘플을 얻는,
    것을 특징으로 하는 크로스 모달 처리 장치.
  15. 제14항에 있어서,
    상기 입력 특징에는 매칭 식별자가 더 포함되며,
    상기 훈련 모듈은,
    상기 입력 특징에 따라 제2 훈련 작업을 수행하여 상기 의미론적 모델을 훈련하며,
    상기 제2 훈련 작업은,
    각 훈련 샘플에 대해 대응하는 입력 특징 중의 상기 매칭 식별자를 설정값으로 설정한 후, 상기 의미론적 모델에 입력하여 상기 의미론적 모델에 의해 출력된 제2 의미론적 벡터를 획득하는 것; 상기 제2 의미론적 벡터 중의 상기 매칭 식별자의 값에 따라 해당 훈련 샘플 중의 말뭉치와 이미지의 매칭 정도를 예측하는 것; 및 예측된 매칭 정도와 해당 훈련 샘플의 실제 매칭 정도 사이의 차이에 따라 상기 의미론적 모델의 매개 변수를 조정하는 것; 을 포함하는,
    것을 특징으로 하는 크로스 모달 처리 장치.
  16. 제12항에 있어서,
    상기 추출 유닛은,
    상기 이미지에 표시된 각 객체에 대해 시각적 특징 및 공간 좌표를 획득하는 획득 서브 유닛 - 상기 시각적 특징은 해당 관심 영역의 이미지 콘텐츠 정보를 풀링하여 얻으며, 상기 공간 좌표는 이미지에서 해당 객체의 표시 위치를 지시하기 위해 사용됨 - ;
    상기 시각적 특징 및 상기 공간 좌표를 결합하여 객체 특징을 생성하는 결합 서브 유닛; 및
    각 객체의 상기 객체 특징, 객체 순서 특징 및 설정된 제1 모달 식별자에 따라 각 객체의 이미지 특징을 생성하는 생성 서브 유닛 - 상기 객체 순서 특징은 각 객체 간의 상호 순서 관계를 지시하기 위해 사용되고, 상기 제1 모달 식별자는 해당 객체가 해당 이미지에 속함을 지시하기 위해 사용됨 - ; 을 포함하는,
    것을 특징으로 하는 크로스 모달 처리 장치.
  17. 제16항에 있어서,
    상기 추출 유닛은,
    각 객체에 대해, 설정된 시드 라이브러리에서 대응하는 표준 텍스트를 검색하는 검색 서브 유닛 - 상기 표준 텍스트는 해당 객체를 설명하기 위해 사용됨 - ; 및
    상기 표준 텍스트의 문자 내용을 상기 객체 특징과 융합하는 융합 서브 유닛; 을 더 포함하는,
    것을 특징으로 하는 크로스 모달 처리 장치.
  18. 제12항에 있어서,
    상기 획득 서브 유닛은 또한 상기 말뭉치 중의 각 텍스트 유닛에 대해, 문자 특징 및 위치 특징을 획득하며, 상기 문자 특징은 해당 텍스트 유닛에 포함된 문자를 지시하기 위해 사용되고, 상기 위치 특징은 해당 텍스트 유닛의 어순을 지시하기 위해 사용되며;
    상기 생성 서브 유닛은 또한 각 텍스트 유닛의 상기 문자 특징, 상기 위치 특징 및 설정된 제2 모달 식별자에 따라 각 텍스트 유닛의 텍스트 특징을 생성하기 위해 사용되는,
    것을 특징으로 하는 크로스 모달 처리 장치.
  19. 제18항에 있어서,
    상기 검색 서브 유닛은 또한 각 텍스트 유닛에 대해, 설정된 시드 라이브러리에서 대응하는 표준 이미지를 검색하며, 상기 표준 이미지는 해당 텍스트 유닛에 의해 설명되는 객체를 표시하며;
    상기 융합 서브 유닛은 또한 상기 표준 이미지의 이미지 콘텐츠와 상기 문자 특징을 융합하는,
    것을 특징으로 하는 크로스 모달 처리 장치.
  20. 제11항 내지 제19항 중 어느 한 항에 있어서,
    상기 처리 모듈은,
    훈련된 의미론적 모델을 사용하여 말뭉치를 기반으로 대응하는 이미지를 검색하며; 또는
    훈련된 의미론적 모델을 사용하여 이미지를 기반으로 해당 이미지를 설명하기 위한 말뭉치를 생성하는,
    것을 특징으로 하는 크로스 모달 처리 장치.
  21. 전자 장치에 있어서,
    하나 이상의 프로세서; 및
    상기 하나 이상의 프로세서와 통신 연결되는 메모리; 를 포함하고,
    상기 메모리에는 상기 하나 이상의 프로세서에 의해 실행 가능한 명령어가 저장되며, 상기 명령어가 상기 하나 이상의 프로세서에 의해 실행될 경우, 상기 하나 이상의 프로세서가 제1항 내지 제10항 중 어느 한 항의 크로스 모달 처리 방법을 수행하는,
    것을 특징으로 하는 전자 장치.
  22. 컴퓨터 프로그램이 저장되어 있는 비 일시적 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 컴퓨터 프로그램의 명령어가 실행될 경우, 제1항 내지 제10항 중 어느 한 항의 크로스 모달 처리 방법이 수행되는,
    것을 특징으로 하는 컴퓨터 프로그램이 저장되어 있는 비 일시적 컴퓨터 판독 가능 저장 매체.
  23. 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램의 명령어가 실행될 경우, 제1항 내지 제10항 중 어느 한 항의 크로스 모달 처리 방법이 수행되는,
    것을 특징으로 하는 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램.
KR1020210038308A 2020-03-30 2021-03-24 크로스 모달 처리 방법, 장치, 전자 장치 및 컴퓨터 판독 가능 저장 매체 KR20210040326A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010238730.0A CN111461203A (zh) 2020-03-30 2020-03-30 跨模态处理方法、装置、电子设备和计算机存储介质
CN202010238730.0 2020-03-30

Publications (1)

Publication Number Publication Date
KR20210040326A true KR20210040326A (ko) 2021-04-13

Family

ID=71681724

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210038308A KR20210040326A (ko) 2020-03-30 2021-03-24 크로스 모달 처리 방법, 장치, 전자 장치 및 컴퓨터 판독 가능 저장 매체

Country Status (5)

Country Link
US (1) US11341366B2 (ko)
EP (1) EP3889830A1 (ko)
JP (1) JP7397786B2 (ko)
KR (1) KR20210040326A (ko)
CN (1) CN111461203A (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360683A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 训练跨模态检索模型的方法以及跨模态检索方法和装置
CN114663915A (zh) * 2022-03-04 2022-06-24 西安交通大学 基于Transformer模型的图像人-物交互定位方法及系统
CN115033670A (zh) * 2022-06-02 2022-09-09 西安电子科技大学 多粒度特征融合的跨模态图文检索方法
CN116127123A (zh) * 2023-04-17 2023-05-16 中国海洋大学 基于语义实例关系渐进式海洋遥感图文检索方法
KR102594547B1 (ko) * 2022-11-28 2023-10-26 (주)위세아이텍 멀티모달 특성 기반의 이미지 검색 장치 및 방법

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475658B (zh) * 2020-06-12 2020-12-25 北京百度网讯科技有限公司 知识表示学习方法、装置、设备以及存储介质
EP3926531B1 (en) * 2020-06-17 2024-04-24 Tata Consultancy Services Limited Method and system for visio-linguistic understanding using contextual language model reasoners
CN113177147B (zh) * 2020-08-13 2022-05-17 阿里巴巴集团控股有限公司 对象、机器模型处理方法、装置、设备和存储介质
CN112287134B (zh) * 2020-09-18 2021-10-15 中国科学院深圳先进技术研究院 检索模型的训练和识别方法、电子设备及存储介质
CN112765992A (zh) * 2021-01-14 2021-05-07 深圳市人马互动科技有限公司 训练数据的构建方法、装置、计算机设备及存储介质
CN112528048B (zh) * 2021-02-18 2021-05-14 腾讯科技(深圳)有限公司 一种跨模态检索方法、装置、设备及介质
CN115017911A (zh) * 2021-03-05 2022-09-06 微软技术许可有限责任公司 针对视觉和语言的跨模态处理
CN112966127B (zh) * 2021-04-07 2022-05-20 北方民族大学 一种基于多层语义对齐的跨模态检索方法
CN113239153B (zh) * 2021-05-26 2022-11-29 清华大学深圳国际研究生院 一种基于实例遮掩的文本与图像互检索方法
CN113591902B (zh) * 2021-06-11 2022-09-27 中国科学院自动化研究所 基于多模态预训练模型的跨模态理解与生成方法和装置
CN113393833B (zh) * 2021-06-16 2024-04-02 中国科学技术大学 音视频唤醒方法、系统、设备及存储介质
CN113628294B (zh) * 2021-07-09 2023-06-20 南京邮电大学 一种面向跨模态通信系统的图像重建方法及装置
CN113947771B (zh) * 2021-10-15 2023-06-27 北京百度网讯科技有限公司 图像识别方法、装置、设备、存储介质以及程序产品
CN113947700A (zh) * 2021-10-18 2022-01-18 北京百度网讯科技有限公司 模型确定方法、装置、电子设备和存储器
CN113947147B (zh) * 2021-10-18 2023-04-18 北京百度网讯科技有限公司 目标地图模型的训练方法、定位方法及相关装置
CN114186564B (zh) * 2021-11-05 2023-11-24 北京百度网讯科技有限公司 语义表示模型的预训练方法、装置以及电子设备
CN114022735B (zh) * 2021-11-09 2023-06-23 北京有竹居网络技术有限公司 视觉语言预训练模型的训练方法、装置、设备及介质
CN114357204B (zh) * 2021-11-25 2024-03-26 腾讯科技(深圳)有限公司 媒体信息的处理方法及相关设备
CN114140603B (zh) * 2021-12-08 2022-11-11 北京百度网讯科技有限公司 虚拟形象生成模型的训练方法和虚拟形象生成方法
CN114299194B (zh) * 2021-12-23 2023-06-02 北京百度网讯科技有限公司 图像生成模型的训练方法、图像生成方法及装置
CN114417878B (zh) * 2021-12-29 2023-04-18 北京百度网讯科技有限公司 语义识别方法、装置、电子设备及存储介质
CN114429552A (zh) * 2022-01-21 2022-05-03 北京有竹居网络技术有限公司 对象属性识别方法、装置、可读存储介质及电子设备
CN114419351B (zh) * 2022-01-28 2024-08-23 深圳市腾讯计算机系统有限公司 图文预训练模型训练、图文预测模型训练方法和装置
CN114549935B (zh) * 2022-02-25 2024-05-07 北京百度网讯科技有限公司 信息生成方法和装置
CN114239760B (zh) * 2022-02-25 2022-05-20 苏州浪潮智能科技有限公司 多模态模型训练以及图像识别方法、装置、电子设备
CN114611498A (zh) * 2022-03-18 2022-06-10 腾讯科技(深圳)有限公司 标题生成方法、模型训练方法及装置
CN114372477B (zh) * 2022-03-21 2022-06-10 北京百度网讯科技有限公司 文本识别模型的训练方法、文本识别方法及装置
CN115035538B (zh) * 2022-03-22 2023-04-07 北京百度网讯科技有限公司 文本识别模型的训练方法、文本识别方法及装置
CN114692778B (zh) * 2022-04-13 2023-07-25 北京百度网讯科技有限公司 用于智能巡检的多模态样本集生成方法、训练方法及装置
CN114896438B (zh) * 2022-05-10 2024-06-28 西安电子科技大学 基于分层对齐和广义池化图注意力机制的图文检索方法
CN115294150A (zh) * 2022-06-22 2022-11-04 华为技术有限公司 一种图像处理方法和终端设备
CN115081627B (zh) * 2022-07-27 2022-11-25 中南大学 一种基于生成式网络的跨模态数据哈希检索攻击方法
CN115659987B (zh) * 2022-12-28 2023-03-21 华南师范大学 基于双通道的多模态命名实体识别方法、装置以及设备
CN116363262B (zh) * 2023-03-31 2024-02-02 北京百度网讯科技有限公司 图像生成方法、装置及电子设备
CN116630726B (zh) * 2023-07-26 2023-09-22 成都大熊猫繁育研究基地 基于多模态的鸟类分类方法及系统
CN117274619B (zh) * 2023-11-21 2024-02-09 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种基于风格融合对比学习的跨域目标识别方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060088806A1 (en) * 2004-10-26 2006-04-27 Clark Quinn Learning integrating system and methods
US8903167B2 (en) * 2011-05-12 2014-12-02 Microsoft Corporation Synthesizing training samples for object recognition
US9836671B2 (en) * 2015-08-28 2017-12-05 Microsoft Technology Licensing, Llc Discovery of semantic similarities between images and text
CA3014670A1 (en) * 2016-03-08 2017-09-14 Nant Holdings Ip, Llc Image feature combination for image-based object recognition
CN106095893B (zh) * 2016-06-06 2018-11-20 北京大学深圳研究生院 一种跨媒体检索方法
CA3012647A1 (en) * 2017-08-10 2019-02-10 Cloudsight, Inc. Content based image management and selection
US10719742B2 (en) * 2018-02-15 2020-07-21 Adobe Inc. Image composites using a generative adversarial neural network
US10628708B2 (en) * 2018-05-18 2020-04-21 Adobe Inc. Utilizing a deep neural network-based model to identify visually similar digital images based on user-selected visual attributes
CN109255047A (zh) * 2018-07-18 2019-01-22 西安电子科技大学 基于互补语义对齐和对称检索的图像-文本互检索方法
US11093560B2 (en) * 2018-09-21 2021-08-17 Microsoft Technology Licensing, Llc Stacked cross-modal matching
CN109447242B (zh) * 2018-10-10 2021-08-20 复旦大学 基于迭代学习的图像描述重生成系统及方法
CN109522970B (zh) * 2018-11-28 2021-05-04 南京旷云科技有限公司 图像分类方法、装置及系统
CN109378054A (zh) * 2018-12-13 2019-02-22 山西医科大学第医院 一种多模态图像辅助诊断系统及其搭建方法
CN109816039B (zh) * 2019-01-31 2021-04-20 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN110298395B (zh) * 2019-06-18 2023-04-18 天津大学 一种基于三模态对抗网络的图文匹配方法
US11734352B2 (en) * 2020-02-14 2023-08-22 Naver Corporation Cross-modal search systems and methods

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360683A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 训练跨模态检索模型的方法以及跨模态检索方法和装置
CN113360683B (zh) * 2021-06-30 2024-04-19 北京百度网讯科技有限公司 训练跨模态检索模型的方法以及跨模态检索方法和装置
CN114663915A (zh) * 2022-03-04 2022-06-24 西安交通大学 基于Transformer模型的图像人-物交互定位方法及系统
CN114663915B (zh) * 2022-03-04 2024-04-05 西安交通大学 基于Transformer模型的图像人-物交互定位方法及系统
CN115033670A (zh) * 2022-06-02 2022-09-09 西安电子科技大学 多粒度特征融合的跨模态图文检索方法
KR102594547B1 (ko) * 2022-11-28 2023-10-26 (주)위세아이텍 멀티모달 특성 기반의 이미지 검색 장치 및 방법
CN116127123A (zh) * 2023-04-17 2023-05-16 中国海洋大学 基于语义实例关系渐进式海洋遥感图文检索方法
CN116127123B (zh) * 2023-04-17 2023-07-07 中国海洋大学 基于语义实例关系渐进式海洋遥感图文检索方法

Also Published As

Publication number Publication date
JP2021163456A (ja) 2021-10-11
EP3889830A1 (en) 2021-10-06
US11341366B2 (en) 2022-05-24
US20210303921A1 (en) 2021-09-30
JP7397786B2 (ja) 2023-12-13
CN111461203A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
KR20210040326A (ko) 크로스 모달 처리 방법, 장치, 전자 장치 및 컴퓨터 판독 가능 저장 매체
KR102484617B1 (ko) 이종 그래프 노드를 표현하는 모델 생성 방법, 장치, 전자 기기, 저장 매체 및 프로그램
KR20210040319A (ko) 엔티티 링킹 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램
CN111931591B (zh) 用于构建关键点学习模型的方法、装置、电子设备及可读存储介质
CN111259751B (zh) 基于视频的人体行为识别方法、装置、设备及存储介质
CN111259671B (zh) 文本实体的语义描述处理方法、装置及设备
CN111767379A (zh) 图像问答方法、装置、设备以及存储介质
CN112001180A (zh) 多模态预训练模型获取方法、装置、电子设备及存储介质
US11915484B2 (en) Method and apparatus for generating target re-recognition model and re-recognizing target
CN112149741B (zh) 图像识别模型的训练方法、装置、电子设备及存储介质
US20210334659A1 (en) Method and apparatus for adversarial training of machine learning model, and medium
JP7177878B2 (ja) 画像処理方法、画像処理装置、電子機器及び記憶媒体
CN111881908B (zh) 目标检测模型的修正方法、检测方法、装置、设备及介质
JP7194215B2 (ja) キーポイントの特定方法及び装置、機器、記憶媒体
JP2021192286A (ja) モデル訓練、画像処理方法及びデバイス、記憶媒体、プログラム製品
CN111241838B (zh) 文本实体的语义关系处理方法、装置及设备
CN111078878A (zh) 文本处理方法、装置、设备及计算机可读存储介质
CN113361344A (zh) 视频事件识别方法、装置、设备及存储介质
CN111640103B (zh) 图像检测方法、装置、设备以及存储介质
KR20220014865A (ko) 비디오 이벤트 인식 방법, 장치, 전자 기기 및 기록 매체
CN112597288B (zh) 人机交互方法、装置、设备及存储介质
CN111275110B (zh) 图像描述的方法、装置、电子设备及存储介质
CN110738261B (zh) 图像分类和模型训练方法、装置、电子设备及存储介质
CN111832291A (zh) 实体识别模型的生成方法、装置、电子设备及存储介质
CN112668464B (zh) 一种融合场景匹配的中文手语翻译模型构建方法及装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application