KR20190129110A - 이미지-텍스트 매칭 모델을 위한 트레이닝 방법, 양방향 검색 방법 및 관련 장치 - Google Patents

이미지-텍스트 매칭 모델을 위한 트레이닝 방법, 양방향 검색 방법 및 관련 장치 Download PDF

Info

Publication number
KR20190129110A
KR20190129110A KR1020197030955A KR20197030955A KR20190129110A KR 20190129110 A KR20190129110 A KR 20190129110A KR 1020197030955 A KR1020197030955 A KR 1020197030955A KR 20197030955 A KR20197030955 A KR 20197030955A KR 20190129110 A KR20190129110 A KR 20190129110A
Authority
KR
South Korea
Prior art keywords
image
text
sample
global
similarity
Prior art date
Application number
KR1020197030955A
Other languages
English (en)
Other versions
KR102235051B1 (ko
Inventor
린 마
웬하오 장
웨이 류
Original Assignee
텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 filed Critical 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Publication of KR20190129110A publication Critical patent/KR20190129110A/ko
Application granted granted Critical
Publication of KR102235051B1 publication Critical patent/KR102235051B1/ko

Links

Images

Classifications

    • G06K9/6215
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • G06K9/6214
    • G06K9/6256
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/76Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries based on eigen-space representations, e.g. from pose or different illumination conditions; Shape manifolds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 출원은 인공 지능 기술 분야에 관한 것으로서, 특히 이미지-텍스트 매칭 모델을 위한 트레이닝 방법, 양방향 검색 방법 및 관련 장치에 관한 것이다. 트레이닝 방법은 이미지 샘플과 텍스트 샘플의 글로벌 표현 및 로컬 표현을 추출하는 단계; 및 매칭 모델을 트레이닝하여 매칭 모델의 모델 파라미터를 결정하는 단계를 포함하고, 매칭 모델은 이미지의 글로벌 표현 및 로컬 표현 그리고 텍스트의 글로벌 표현 및 로컬 표현에 따라 이미지와 텍스트 사이의 매칭 정도를 결정하는 데 사용된다. 본 출원에서의 매칭 정도는 이미지의 모든 상세한 특징 및 글로벌 특징에 기반하여 획득되며, 획득된 매칭 정도는 더욱 정확하고 포괄적이다.

Description

이미지-텍스트 매칭 모델을 위한 트레이닝 방법, 양방향 검색 방법 및 관련 장치
본 출원은 2017년 9월 12일 중국 특허청에 제출된 "이미지-텍스트 매칭 모델을 위한 트레이닝 방법, 양방향 검색 방법 및 관련 장치"라는 명칭의 중국 특허 출원 번호 제201710817344.5호에 대한 우선권을 주장하는 바이며, 상기 문헌의 내용은 그 전체로서 원용에 의해 본 명세서에 포함된다.
본 출원은 인공 지능 기술 분야에 관한 것으로서, 특히 이미지-텍스트 매칭 모델을 위한 트레이닝 방법, 양방향 검색 방법 및 관련 장치에 관한 것이다.
이미지와 텍스트에 대한 이해는 항상 인공 지능의 가장 중요한 연구 방향 중 하나였다. 하나의 중요한 연구는 이미지와 텍스트 사이의 연관 관계를 탐색하는 것이다. 예를 들어, 웹 페이지 뉴스의 뉴스 텍스트 콘텐츠 및 뉴스 이미지는 동일한 테마(theme)를 표현할 수 있다. 즉, 이미지와 텍스트 사이에는 절대적 독립성이 없으며 이미지와 텍스트 사이에는 매칭 관계가 있다. 따라서, 주어진 이미지와 매칭하는 텍스트를 찾거나 주어진 텍스트와 매칭하는 이미지를 찾는 방법은 업계에서 관심의 대상이 된다.
이미지와 텍스트 사이의 매칭 정도(matching degree)를 포괄적으로(comprehensively) 측정할 수 있고, 획득된 매칭 정도가 더욱 정확하고 포괄적이도록, 본 출원의 실시 예들은 이미지-텍스트 매칭 모델을 위한 트레이닝 방법 및 관련 장치를 제공한다.
이미지-텍스트 양방향 검색이 수행될 때 더욱 정확한 검색 결과를 획득할 수 있도록, 본 출원의 실시 예들은 양방향 검색 방법 및 관련 장치를 제공한다.
본 출원의 실시 예는 이미지-텍스트 매칭 모델을 위한 트레이닝 방법을 제공하며, 상기 트레이닝 방법은 컴퓨터에 의해 수행되고 다음:
이미지 샘플의 글로벌 특징(global feature) 및 로컬 특징(local feature)을 추출하는 단계;
텍스트 샘플의 글로벌 특징 및 로컬 특징을 추출하는 단계; 및
상기 이미지 샘플의 추출된 글로벌 특징 및 로컬 특징 그리고 상기 텍스트 샘플의 추출된 글로벌 특징 및 로컬 특징에 따라 매칭 모델을 트레이닝하여 상기 매칭 모델의 모델 파라미터를 결정하는 단계 - 상기 매칭 모델은 입력된 이미지의 글로벌 특징 및 로컬 특징 그리고 입력된 텍스트의 글로벌 특징 및 로컬 특징에 따라, 상기 이미지와 상기 텍스트 사이의 매칭 정도를 결정하는 데 사용됨 -를 포함한다.
본 출원의 실시 예는 이미지-텍스트 양방향 검색 방법을 제공하며, 상기 검색 방법은 컴퓨터에 의해 수행되고 다음:
참조 샘플을 수신하는 단계 - 상기 참조 샘플은 텍스트 또는 이미지임 -;
상기 참조 샘플의 글로벌 특징 및 로컬 특징을 추출하는 단계;
상기 참조 샘플의 글로벌 특징 및 로컬 특징을 매칭 모델에 입력하여, 상기 매칭 모델이 상기 참조 샘플과 대응하는 자료(material)를 계산할 수 있게 하는 단계 - 상기 참조 샘플이 텍스트인 경우에 상기 대응하는 자료는 이미지이고, 상기 참조 샘플이 이미지인 경우에 상기 대응하는 자료는 텍스트이며, 상기 매칭 모델은 상기 참조 샘플의 글로벌 특징 및 로컬 특징 그리고 상기 대응하는 자료의 글로벌 특징 및 로컬 특징에 기반하여, 상기 참조 샘플과 상기 대응하는 자료 사이의 매칭 정도를 결정할 수 있음 -; 및
매칭 정도가 지정된 매칭 정도보다 큰 대응하는 자료를 상기 참조 샘플과 매칭하는 자료로서 선택하는 단계를 포함한다.
본 출원의 실시 예는 이미지-텍스트 매칭 모델을 위한 트레이닝 장치를 제공하며, 상기 트레이닝 장치는,
이미지 샘플의 글로벌 특징 및 로컬 특징을 추출하도록 구성된 이미지 특징 추출 모듈;
텍스트 샘플의 글로벌 특징 및 로컬 특징을 추출하도록 구성된 텍스트 특징 추출 모듈; 및
상기 이미지 샘플의 추출된 글로벌 특징 및 로컬 특징 그리고 상기 텍스트 샘플의 추출된 글로벌 특징 및 로컬 특징에 따라 매칭 모델을 트레이닝하여 상기 매칭 모델의 모델 파라미터를 결정하도록 - 상기 매칭 모델은 이미지의 글로벌 특징 및 로컬 특징 그리고 텍스트의 글로벌 특징 및 로컬 특징에 따라, 상기 이미지와 상기 텍스트 사이의 매칭 정도를 결정하는 데 사용됨 - 구성된 트레이닝 모듈을 포함한다.
본 출원의 실시 예는 이미지-텍스트 양방향 검색 장치를 제공하며, 상기 검색 장치는,
참조 샘플을 수신하도록 - 상기 참조 샘플은 텍스트 또는 이미지임 - 구성된 참조 샘플 수신 모듈;
상기 참조 샘플의 글로벌 특징 및 로컬 특징을 추출하도록 구성된 참조 샘플 특징 추출 모듈;
상기 참조 샘플의 글로벌 특징 및 로컬 특징을 매칭 모델에 입력하여, 상기 매칭 모델이 상기 참조 샘플과 대응하는 자료를 계산할 수 있게 하도록 - 상기 참조 샘플이 텍스트인 경우에 상기 대응하는 자료는 이미지이고, 상기 참조 샘플이 이미지인 경우에 상기 대응하는 자료는 텍스트이며, 상기 매칭 모델은 상기 참조 샘플의 글로벌 특징 및 로컬 특징 그리고 상기 대응하는 자료의 글로벌 특징 및 로컬 특징에 기반하여, 상기 참조 샘플과 상기 대응하는 자료 사이의 매칭 정도를 결정할 수 있음 - 구성된 검색 모듈; 및
매칭 정도가 지정된 매칭 정도보다 큰 대응하는 자료를 상기 참조 샘플과 매칭하는 자료로서 선택하도록 구성된 선택 모듈을 포함한다.
본 출원의 실시 예는 메모리 및 프로세서를 포함하는 컴퓨팅 디바이스를 제공하며, 상기 메모리는 프로그램 명령을 저장하도록 구성되고, 상기 프로세서는 상기 메모리에 저장된 상기 프로그램 명령을 호출하여, 상기 프로그램 명령에 따라 본 출원의 실시 예들 중 어느 하나에 따른 이미지-텍스트 매칭 모델을 위한 트레이닝 방법을 수행하도록 구성된다.
본 출원의 실시 예는 컴퓨터 실행 가능 명령을 저장하는 컴퓨터 저장 매체를 제공하며, 상기 컴퓨터 실행 가능 명령은 상기 컴퓨터가 상기 컴퓨터 실행 가능 명령에 따라 본 출원의 실시 예들 중 어느 하나에 따른 이미지-텍스트 매칭 모델을 위한 트레이닝 방법을 수행할 수 있게 하는데 사용된다.
본 출원의 실시 예는 메모리 및 프로세서를 포함하는 컴퓨팅 디바이스를 제공하며, 상기 메모리는 프로그램 명령을 저장하도록 구성되고, 상기 프로세서는 상기 메모리에 저장된 상기 프로그램 명령을 호출하여, 상기 프로그램 명령에 따라 본 출원의 실시 예들에 따른 이미지-텍스트 양방향 검색 방법을 수행하도록 구성된다.
본 출원의 실시 예는 컴퓨터 실행 가능 명령을 저장하는 컴퓨터 저장 매체를 제공하며, 상기 컴퓨터 실행 가능 명령은 상기 컴퓨터가 상기 컴퓨터 실행 가능 명령에 따라 본 출원의 실시 예들에 따른 이미지-텍스트 양방향 검색 방법을 수행할 수 있게 하는데 사용된다.
도 1은 본 출원의 일부 실시 예에 따른 애플리케이션 시나리오의 개략도이다.
도 2a는 본 출원의 일부 실시 예에 따른 이미지-텍스트 매칭 모델을 위한 트레이닝 방법의 개략적인 흐름도이다.
도 2b는 본 출원의 일부 실시 예에 따른 이미지-텍스트 매칭 모델을 위한 트레이닝 방법의 개략적인 흐름도이다.
도 3은 본 출원의 일부 실시 예에 따른 매칭 모델의 블록도이다.
도 4는 본 출원의 일부 실시 예에 따른 이미지 특징의 유사성을 계산하기 위한 모델의 블록도이다.
도 5는 본 출원의 일부 실시 예에 따른 이미지 정보의 카테고리의 개략도이다.
도 6은 본 출원의 일부 실시 예에 따른 텍스트의 글로벌 표현(global representation)을 추출하는 블록도이다.
도 7은 본 출원의 일부 실시 예에 따른 이미지-텍스트 매칭 모델을 위한 트레이닝 방법의 개략적인 흐름도이다.
도 8은 본 출원의 일부 실시 예에 따른 이미지-텍스트 양방향 검색 방법의 개략적인 흐름도이다.
도 9는 본 출원의 일부 실시 예에 따른 이미지-텍스트 매칭 모델을 위한 트레이닝 장치의 개략적인 구조도이다.
도 10은 본 출원의 일부 실시 예에 따른 이미지-텍스트 양방향 검색 장치의 개략적인 구조도이다.
도 11은 본 출원의 일부 실시 예에 따른 컴퓨터 디바이스의 개략적인 구조도이다.
본 출원의 실시 예들에 의해 제공되는 기술적 솔루션의 이해를 용이하게 하기 위해, 본 출원의 실시 예들이 본 명세서의 첨부 도면들을 참조하여 아래에서 상세하게 설명된다.
일부 실시 예들에서, 이미지와 텍스트 사이의 매칭(matching)은 두 가지 방법을 통해 구현된다.
방법 1: 이미지와 텍스트의 각각의 글로벌 표현을 추출하고, 글로벌 표현들을 동일한 시맨틱 공간(semantic space)에 맵핑하며, 시맨틱 공간에서 이미지와 텍스트의 글로벌 표현들 사이의 매칭 관계를 구축하여, 이미지와 텍스트 사이의 매칭 관계를 구축한다. 글로벌 표현은 이미지의 글로벌 특성을 반영하고, 이미지의 전체 특징을 기술하는 데 사용되며, 글로벌 표현은 예를 들어 컬러 특징, 형상 특징, 텍스처 특징 등이다.
방법 2: 콘볼루션 뉴럴 네트워크(convolutional neural network)를 통해 이미지의 로컬 정보의 로컬 표현(local representation)을 획득하고, 이미지와 텍스트의 로컬 표현들 사이의 매칭 관계를 학습하기 위해 신택스 트리(syntax tree) 정보를 통해 텍스트의 로컬 표현을 획득한다. 로컬 표현은 이미지의 로컬 정보를 반영하며, 이미지의 로컬 세부 특징을 설명하는 데 사용된다. 글로벌 표현과 비교할 때, 로컬 표현은 이미지에서 많은 양, 특징 사이의 작은 관련성(relevance), 그리고 모호한 상황(obscured situation)에서 일부 특징의 소멸(disappearance)에 의해 영향을 받지 않는 다른 특징의 검출 및 매칭이 특징이다.
그러나, 전술한 두 가지 방법에서, 이미지와 텍스트 사이의 매칭은 단일 양상(single aspect)으로 정보를 사용하여, 즉, 글로벌 표현을 독립적으로 사용하거나 로컬 표현을 독립적으로 사용하는 것에 의해 수행된다. 로컬 표현 또는 글로벌 표현이 이미지와 텍스트 사이의 매칭을 수행하는 데 사용되는지의 여부, 이미지와 텍스트 사이의 매칭 정도는 한 레벨에만 반영될 수 있다. 콘텐츠가 풍부한 이미지의 경우 글로벌 표현을 사용하면, 단지 색상 특징, 모양 특징 및 텍스처 특징이 추출될 수 있지만, 로컬 표현의 세부적인 특징은 표현될 수 없다. 결과적으로 반영할 수 있는 특징이 제한된다. 로컬 표현을 사용하면, 이미지와 텍스트 사이의 매칭 관계가 로컬로만 간주될 수 있으며 글로벌 표현의 특징을 반영할 수 없다. 따라서, 전술한 방법들 중 어느 것도 이미지와 텍스트 사이의 매칭 정도를 포괄적으로 측정할 수 없다.
이미지와 텍스트를 포괄적으로 매칭시키고 더욱 정확한 매칭 정도를 획득하기 위해, 본 출원의 실시 예에서, 이미지-텍스트 매칭 모델은 다음의 방법에 따라 트레이닝 되며, 상기 방법은,
이미지 샘플의 글로벌 특징 및 로컬 특징을 추출하는 단계;
텍스트 샘플의 글로벌 특징 및 로컬 특징을 추출하는 단계; 및
이미지 샘플의 추출된 글로벌 특징 및 로컬 특징 그리고 텍스트 샘플의 추출된 글로벌 특징 및 로컬 특징에 따라 매칭 모델을 트레이닝하여 매칭 모델의 모델 파라미터를 결정하는 단계 - 매칭 모델은 이미지의 글로벌 특징 및 로컬 특징 그리고 텍스트의 글로벌 특징 및 로컬 특징에 따라, 이미지와 텍스트 사이의 매칭 정도를 결정하는 데 사용됨 - 를 포함한다.
이러한 방식으로, 매칭 정도는 이미지 및 텍스트의 각각의 글로벌 표현 및 로컬 표현에 기반하여 획득된다. 이미지의 세부적인 특징 및 글로벌 특징이 모두 고려되므로, 획득된 매칭 정도는 더욱 정확하고 포괄적이다. 따라서, 본 출원의 본 실시 예에 의해 제공되는 매칭 모델에 기반하여 이미지-텍스트 양방향 검색이 수행될 때, 검색 결과도 더 정확하다.
예를 들어, 도 1을 참조하면, 도 1은 본 출원의 실시 예에 따른 애플리케이션 시나리오의 개략도이다. 시나리오는 예를 들어, 단말 디바이스(11) 및 서버(12)를 포함할 수 있다. 소셜 통신을 위한 블로그 클라이언트, 위챗(WeChat) 클라이언트 및 현재 이벤트를 학습하기 위한 뉴스 클라이언트와 같은 다양한 클라이언트가 단말 디바이스(11)에 설치될 수 있다. 단말 디바이스(11)의 클라이언트와 서버(12)가 통신 연결을 구축한 후, 단말 디바이스(11)의 클라이언트는 이미지 및/또는 텍스트의 글로벌 특징 및 로컬 특징을 추출하여 서버(12)에 전송할 수 있다. 다르게는, 단말 디바이스(11)의 클라이언트는 이미지 및/또는 텍스트를 서버(12)에 전송하고, 서버(12)가 이미지 및/또는 텍스트의 글로벌 특징 및 로컬 특징을 추출한다. 그 다음에, 서버(12)는 이미지의 글로벌 특징 및 로컬 특징에 따라 그리고 매칭 모델에 기반하여 이미지와 매칭하는 텍스트를 검색하거나, 서버(12)는 텍스트의 글로벌 특징 및 로컬 특징에 따라 그리고 매칭 모델을 기반으로 텍스트와 매칭하는 이미지를 검색한다. 이어서, 서버(12)는 검색 결과를 단말 디바이스(11)로 리턴한다.
단말 디바이스(11)와 서버(12)는 통신 네트워크를 통해 통신 가능하게 연결될 수 있다. 통신 네트워크는 근거리 네트워크, 광역 네트워크 등일 수 있다. 단말 디바이스(11)는 휴대 전화, 태블릿 컴퓨터, 노트북 컴퓨터, 개인용 컴퓨터 등일 수 있다. 서버(12)는 이미지-텍스트 매칭 모델의 트레이닝 및 양방향 검색을 지원할 수 있는 임의의 서버 디바이스일 수 있다.
본 출원의 본 실시 예에 의해 제공되는 솔루션은 텍스트에 따라 이미지를 검색 및/또는 이미지에 따라 텍스트를 검색하기 위한 임의의 시나리오에 적용 가능하다. 예를 들어, 솔루션은 클라우드 앨범 관리, 위챗 모멘트(WeChat Moments), QQ 공간(QQ Space), QQ 매스 이노베이션 공간(QQ Mass Innovation Space) 그리고 위챗과 QQ의 채팅 환경에서 이미지 및/또는 텍스트를 검색하는 시나리오(예를 들어, 주어진 텍스트에 따라 매칭하는 이미지를 검색)에 적용 가능할 수 있다.
도 2a를 참조하면, 도 2a는 본 출원의 실시 예에 따른 이미지-텍스트 매칭 모델을 위한 트레이닝 방법의 개략적인 흐름도이다. 상기 방법은 컴퓨터에 의해 수행되며, 컴퓨터는 서버(12)일 수 있다. 상기 방법은 다음 단계들을 포함한다.
S21: 이미지 샘플의 글로벌 특징 및 로컬 특징을 추출한다.
S22: 텍스트 샘플의 글로벌 특징 및 로컬 특징을 추출한다.
S23: 이미지 샘플의 추출된 글로벌 특징 및 로컬 특징 그리고 텍스트 샘플의 추출된 글로벌 특징 및 로컬 특징에 따라 매칭 모델을 트레이닝하여, 매칭 모델의 모델 파라미터를 결정하며, 매칭 모델은 이미지의 글로벌 특징 및 로컬 특징 그리고 텍스트의 글로벌 특징 및 로컬 특징에 따라 이미지와 텍스트 사이의 매칭 정도를 결정하는 데 사용된다.
본 출원에서 제공하는 이 기술 솔루션을 사용하는 경우, 이미지 샘플과 텍스트 샘플의 글로벌 특징들 및 로컬 특징들에 따라 매칭 모델이 트레이닝된다. 이미지와 텍스트의 로컬 특징들 및 글로벌 특징들이 모두 고려되기 때문에, 트레이닝된 매칭 모델에 따라 결정된 매칭 정도가 더욱 정확하고 포괄적이다. 본 출원의 본 실시 예에 의해 제공된 매칭 모델에 기반하여 이미지-텍스트 양방향 검색이 수행될 때, 검색 결과가 더 정확하다.
도 2b를 참조하면, 도 2b는 본 출원의 실시 예에 따른 이미지-텍스트 매칭 모델을 위한 트레이닝 방법의 흐름도이다. 상기 방법은 도 1에 도시된 서버(12)에 의해 수행될 수 있으며, 다음의 단계들을 포함한다.
단계 201: 이미지 샘플의 글로벌 특징 및 로컬 특징을 추출한다.
일부 실시 예들에서, 글로벌 특징은 대응하는 이미지의 텍스트 정보를 나타내는 데 사용되는 벡터이다. 이미지 샘플의 로컬 특징은 또한 벡터이고, 벡터의 각 차원(dimension)의 정보는 이미지의 로컬 영역이 대응하는 워드(word) 카테고리의 정보, 예를 들어 이미지의 로컬 영역이 대응하는 워드 카레고리의 정보를 포함할 확률(probability)을 포함함을 나타낸다.
단계(202): 텍스트 샘플의 글로벌 특징 및 로컬 특징을 추출한다.
일부 실시 예들에서, 텍스트 샘플의 글로벌 특징은 텍스트 샘플의 전체 시맨틱 정보를 나타내는 데 사용된다. 텍스트 샘플의 로컬 특징은 텍스트의 로컬 시맨틱 정보의 신세시스(synthesis)를 나타내는 데 사용된다. 텍스트 샘플의 로컬 특징은 워드 또는 문구(phrase)와 같은 텍스트의 로컬 정보에 중점을 둔다.
단계(201) 및 단계(202)의 실행 순서는 상기 설명에 제한되지 않는다.
단계(203): 이미지 샘플의 추출된 글로벌 특징 및 로컬 특징 그리고 텍스트 샘플의 추출된 글로벌 특징 및 로컬 특징에 따라 매칭 모델을 트레이닝시켜 매칭 모델의 모델 파라미터를 결정하며, 매칭 모델은, 입력된 이미지의 글로벌 특징 및 로컬 특징 그리고 입력된 텍스트의 글로벌 특징 및 로컬 특징에 따라, 이미지와 텍스트 사이의 매칭 정도를 결정하는 데 사용된다.
상기 방법에서, 매칭 모델이 완전히 트레이닝된 후에, 이미지와 텍스트 사이의 매칭 정도가 다음 단계들을 포함하는 트레이닝된 매칭 모델에 따라 결정될 수 있다.
단계(204): 이미지 및 텍스트의 각각의 글로벌 특징을 매칭 모델을 통해 지정된 시맨틱 공간에 매핑하고, 이미지와 텍스트의 글로벌 특징들 사이의 유사성을 계산하며; 이미지 및 텍스트의 각각의 로컬 특징을 지정된 시맨틱 공간에 매핑하고, 이미지와 텍스트의 로컬 특징들 사이의 유사성을 계산하며; 그리고 글로벌 특징들 사이의 유사성의 미리 설정된 가중치와 로컬 특징들 사이의 유사성의 미리 설정된 가중치에 따라 가중 합산 방식(weighted summation manner)을 이용하여 이미지와 텍스트 사이의 매칭 정도를 결정한다.
도 3에 도시된 바와 같이, 도 3은 본 출원의 실시 예에 따른 이미지-텍스트 매칭 모델의 블록도이다. 도 3에서, 입력된 이미지(310)의 경우, 로컬 이미지 콘볼루션 뉴럴 네트워크(convolutional neural network, CNN)(311)가 이미지(310)의 로컬 표현(로컬 특징이라고도 지칭됨)(도 3에서 312로 도시됨)을 추출하는 데 사용되며, 글로벌 이미지 CNN(313)은 이미지(310)의 글로벌 표현(글로벌 특징이라고도 지칭됨)(도 3에서 314로 도시됨)을 추출하는 데 사용된다. 입력된 텍스트(320)의 경우, 로컬 텍스트 인코더(321)가 텍스트(320)의 로컬 표현(로컬 특징이라고도 지칭됨)(도 3에서 322로 도시됨)을 추출하는 데 사용되고, 글로벌 텍스트 인코더(323)가 텍스트(320)의 글로벌 표현(글로벌 특징이라고도 지칭됨) (도 3에서 324로 도시됨)을 추출하는 데 사용된다. 이미지(310) 및 텍스트(320)의 로컬 표현들과 글로벌 표현들이 추출된 후, 이미지(310) 및 텍스트(320)의 각각의 로컬 표현은 로컬 깊이 매칭을 통해 지정된 시맨틱 공간에 매핑되고, 이미지(310) 및 텍스트(320)에 의해 구성된 이종 샘플 쌍(heterogeneous sample pair)(이미지-텍스트 쌍으로도 지칭됨)의 로컬 특징들 사이의 유사성이 지정된 시맨틱 공간에서 결정된다. 유사하게, 이미지(310) 및 텍스트(320)의 각각의 글로벌 특징은 글로벌 깊이 매칭을 통해 지정된 시맨틱 공간에 매핑되고, 이미지(310)와 텍스트(320)에 의해 구성된 이종 샘플 쌍의 글로벌 특징들 사이의 유사성이 지정된 시맨틱 공간에서 결정된다. 이어서, 모델 통합(model integration)을 통해, 이종 샘플 쌍의 매칭 정도가 글로벌 특징들 사이의 유사성의 미리 설정된 가중치 및 로컬 특징들 사이의 유사성의 미리 설정된 가중치에 따라 가중 합산 방식을 사용하여 결정된다.
이해를 돕기 위해, 본 출원의 실시 예는 다음 콘텐츠를 사용하여 설명되는 이미지-텍스트 매칭 모델을 위한 트레이닝 방법을 제공한다.
1) 지정된 시맨틱 공간으로의 매핑과 관련하여.
일부 실시 예에서, 이미지와 텍스트의 글로벌 표현들 사이의 정확한 유사성 및 이미지와 텍스트의 로컬 표현들 사이의 정확한 유사성을 획득하기 위해, 본 출원의 본 실시 예에서, 이미지 샘플과 텍스트 샘플의 각각의 글로벌 표현이 지정된 시맨틱 공간에 맵핑되는 것은,
이미지 샘플 및 텍스트 샘플의 각각의 글로벌 특징을 적어도 2개의 완전히 연결된 레이어(fully connected layer)를 통해 지정된 시맨틱 공간에 각각 매핑하는 단계를 포함하고, 그리고,
이미지 샘플 및 텍스트 샘플의 각각의 로컬 표현을 지정된 시맨틱 공간에 맵핑하는 것은,
이미지 샘플 및 텍스트 샘플의 각각의 로컬 특징을 적어도 2개의 완전히 연결된 레이어를 통해 지정된 시맨틱 공간에 각각 매핑하는 단계를 포함한다.
완전히 연결된 레이어는 콘볼루션 뉴럴 네트워크의 기본 구조에 있는 레이어다. 완전히 연결된 레이어의 각각의 노드는 이전 레이어의 모든 노드에 연결되어 추출된 특징을 통합한다. 완전히 연결된 레이어는 이미지와 텍스트의 글로벌 특징들과 로컬 특징들을 지정된 시맨틱 공간에 매핑하도록 구성된다. 완전 연결 작동(full connection operation)은 완전히 연결된 레이어를 통해 지정된 시맨틱 공간에 매핑하는 작동을 지칭한다. 완전히 연결된 레이어의 파라미터는 미리 설정된 타깃 함수에 따른 트레이닝을 통해 획득된다. 미리 설정된 타깃 함수(target function)는 시맨틱적으로 연관된 이종 샘플 쌍(이미지-텍스트 쌍)의 유사성이 비시맨틱적으로(non-semantically) 연관된 이종 샘플 쌍의 유사성보다 더 높은 것을 구현하는 데 사용된다. 다르게는, 미리 설정된 타깃 함수는 시맨틱적으로 연관된 이종 샘플 쌍의 유사성이 비시맨틱적으로 연관된 이종 샘플 쌍의 유사성보다 높고, 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성이 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성보다 더 높은 것을 구현하는 데 사용된다.
본 출원의 이러한 실시 예에서, 텍스트와 이미지의 글로벌 표현들 및 로컬 표현들을 동일한 시맨틱 공간에 매핑하기 위해, 텍스트 및 이미지의 각각의 글로벌 표현 및 로컬 표현은 복수의 완전히 연결된 레이어를 통해 정확하게 분석된다. 또한, 완전히 연결된 레이어의 파라미터는 미리 설정된 타깃 함수에 따라 결정된다. 이종 샘플 쌍의 유사성은 실제 상황에 따라 미리 설정된 타깃 함수를 통해 정확하게 결정될 수 있으며, 여기서 유사성은 글로벌 표현의 유사성 또는 로컬 표현의 유사성이다.
또한, 이미지와 텍스트 사이의 직접적인 매칭 관계를 탐색하기 위해, 복수의 완전히 연결된 레이어들을 통한 텍스트 및 이미지의 설명에 대해 멀티-레이어 비선형 변환(multi-layer nonlinear transformation )이 수행될 수 있다.
미리 설정된 타깃 함수가 시맨틱적으로 연관된 이종 샘플 쌍의 유사성이 비시맨틱적으로 연관된 이종 샘플 쌍의 유사성보다 높다는 것을 인식하는 데 사용되면, 미리 설정된 타깃 함수는 수식(1):
Figure pct00001
에서 보여질 수 있으며,
여기서,
Figure pct00002
는 미리 설정된 타깃 함수를 나타내며;
Figure pct00003
Figure pct00004
는 텍스트 샘플을 나타내고;
Figure pct00005
Figure pct00006
는 이미지 샘플을 나타내며; 글로벌 표현들 사이의 유사성이 결정되는 경우, d()는 텍스트 샘플과 이미지 샘플의 글로벌 표현들 사이의 유사성을 나타내고; 로컬 표현들 사이의 유사성이 결정되는 경우, d()는 텍스트 샘플과 이미지 샘플의 로컬 표현들 사이의 유사성을 나타내며; λ1 및 λ2는 모두 미리 설정된 계수를 나타내고;
Figure pct00007
는 시맨틱적으로 연관된 이종 샘플 쌍의 유사성을 나타내며;
Figure pct00008
Figure pct00009
는 모두 비시맨틱적 연관된 이종 샘플 쌍의 유사성을 나타내고; μ1 및μ2는 모두 미리 설정된 임계 값을 나타낸다.
하나의 이미지는 일반적으로 복수의 샘플과 시맨틱적으로 연관되어 있는 것으로 간주된다. 예를 들어, 새가 하늘에서 날고 물고기가 물에서 수영하는 풍경 이미지에서, 대응하는 시맨틱적 정보는 새가 하늘에서 날고 물고기가 물에서 수영한다는 것을 포함할 수 있다. 따라서, 매칭 모델의 정확성을 향상시키기 위해, 동일한 이미지와 시맨틱적으로 연관된 텍스트들 사이의 유사성이 다른 상이한 이미지들과 시맨틱적으로 연관된 텍스트들 사이의 유사성보다 더 높게 하는 것이 필요하다. 수식(1)에 기술된 조건을 만족시키는 것에 기반하여, 미리 설정된 타깃 함수는 또한 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성이 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성보다 더 높다는 것을 만족시킬 필요가 있다. 목적에 도달하기 위해, 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성을 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성보다 높게 만드는 수식은 수식(2):
Figure pct00010
에 보여진 바와 같으며,
여기서,
Figure pct00011
는 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성이 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성보다 더 높게 되는 것을 요구하는 미리 설정된 타깃 함수를 나타내고;
Figure pct00012
는 동일한 이미지 샘플과 시맨틱적으로 연관된 텍스트 샘플들을 나타내며;
Figure pct00013
는 상이한 이미지 샘플들과 연관된 텍스트 샘플들을 나타내고; 글로벌 표현들 사이의 유사성이 결정되는 경우, d()는 텍스트 샘플들의 글로벌 표현들 사이의 유사성을 나타내며; 로컬 표현들 사이의 유사성이 결정되는 경우, d()는 텍스트 샘플들의 로컬 표현들 사이의 유사성을 나타내고; u3는 미리 설정된 임계 값을 나타낸다.
일부 실시 예에서, 수식(1) 및 수식(2)는 통합되어 수식(3) 또는 수식(4):
Figure pct00014
에서 기재된 바와 같이 미리 설정된 타깃 함수를 획득할 수 있고, 획득된 미리 설정된 타깃 함수는 수식(1) 및 수식(2)에 기재된 바와 같은 요건(reqiurement)을 만족시킬 수 있다.
일 실시 예에서, 미리 설정된 타깃 함수의 요건에 따라 지정된 수학적 표현 방식이 설계될 수 있다. 이것은 본 출원의 본 실시 예에서 제한되지 않는다.
미리 설정된 타깃 함수의 효과에 따라, 도 4에 도시된 깊이 매칭 모델이 트레이닝될 수 있다. 깊이 매칭 모델은 이미지와 텍스트 사이의 매칭 정도를 결정하는 데 사용된다. 도 4에서, 이미지의 특징 벡터(이미지 임베딩(image embedding))(특징 벡터는 글로벌 특징 또는 로컬 특징의 특징 벡터임)가 왼쪽에 입력되고, 텍스트의 특징 벡터(문장(sentence) 임베딩)(특징 벡터는 글로벌 특징의 특징 벡터 또는 로컬 특징의 특징 벡터임)가 오른쪽에 입력된다. 이미지와 텍스트의 특징 벡터들이 동일한 지정된 시맨틱 공간에 매핑된 후에, 특징 벡터 사이의 사이의 거리가 계산된다. 예를 들어, 도 4에서,
Figure pct00015
Figure pct00016
는 텍스트의 특징 벡터를 나타내고,
Figure pct00017
Figure pct00018
은 이미지의 특징 벡터를 나타낸다. 지정된 시맨틱 공간에서 이미지와 텍스트 사이의 거리가 계산된다. 사용된 특징 벡터가 글로벌 특징을 나타내는 특징 벡터이면, 계산 결과는 글로벌 특징들 사이의 유사성이다. 사용된 특징 벡터가 로컬 특징을 나타내는 특징 벡터이면, 계산 결과는 로컬 특징들 사이의 유사성이다.
2) 이미지 샘플의 글로벌 표현(글로벌 특징) 및 로컬 표현(로컬 특징)의 추출과 관련하여.
본원의 본 실시 예에서 이미지의 글로벌 특징의 추출은 제한되지 않는다. 예를 들어, 이미지의 글로벌 표현은 이미지의 콘볼루션 뉴럴 네트워크, 예를 들어, 전술한 CNN의 완전히 연결된 레이어의 특징을 사용하여 표현된다. 여기서 CNN은 VGG(Visual Geometry Group)의 대규모 이미지 인식을 위한 매우 깊은 콘볼루션 네트워크(Very Deep Convolutional Networks for Large-Scale Image Recognition), 잔류 네트워크(Residual Network, ResNet), 인셉션(Inception), 인셉션 V3 및 인셉션 V4로부터 선택될 수 있지만, 이에 제한되지는 않는다. 물론, 시맨틱 세그먼테이션을 위한 FCN(Full Convolutional Networks)과 같은 네트워크 모델이 다르게는, 이미지의 글로벌 표현을 추출하는 데 사용될 수도 있다.
여기에서, 본 출원의 본 실시 예에서 제공되는 이미지 샘플의 로컬 표현의 추출이 설명되고, 다음:
이미지 샘플을 지정된 수량의 이미지 블록들로 분할하고, 각각의 이미지 블록에 대해, 이미지 블록이 지정된 카테고리의 이미지 정보를 포함할 확률을 계산하는 단계; 및
지정된 수량의 이미지 블록에서 각각의 지정된 카테고리의 이미지 정보의 최대 확률을 선택하는 단계 - 각각의 지정된 카테고리의 이미지 정보의 최대 확률은 이미지 샘플의 로컬 특징을 구성함 -
에 의해 실행될 수 있다.
예를 들어, 도 5에 도시된 바와 같이, 도 5의 이미지 CNN은 이미지 CNN을 이용하여 이미지 블록의 특징을 추출하는 것을 나타낸다. 본 출원은 주어진 이미지에 대해, 이미지가 이미지 블록들로 분할된 후, 각각의 이미지 블록의 특징이 추출되는 것에 중점을 둔다. 사람(people), 잔디, 하늘, 개, 고양이 등 총 5개의 카테고리의 이미지 정보가 있다고 가정한다. 추출을 위한 4개의 이미지 블록이 있고, 각각의 이미지 블록에 대해, 이미지 블록이 전술한 5개의 카테고리의 이미지 정보를 포함할 확률이 있다고 가정한다. 그리고, 각각의 카테고리에 대해, 4개의 이미지 블록의 카테고리의 확률로부터 최대 확률이 선택된다. 각각의 카테고리의 최대 확률은 이미지 샘플의 로컬 특징을 구성한다.
실시 예에서, 다르게는, 각각의 카테고리에 대해, 카테고리의 최대 확률이 대응하는 확률 임계 값과 비교되어 샘플 이미지의 적어도 하나의 이미지 블록이 카테고리의 이미지 정보를 포함하는지를 결정한다. 예를 들어, 사람의 카테고리에 대해, 4개의 이미지 블록에서 최대 확률은 0.99이고, 대응하는 확률 임계 값은 0.8이며, 이는 4개의 이미지 블록 중 적어도 하나가 사람을 포함한다는 것을 지시한다.
3) 텍스트 샘플의 글로벌 표현(글로벌 특징) 및 로컬 표현(로컬 특징)의 추출과 관련하여.
본 출원의 실시 예에서, 텍스트 샘플에서 글로벌 표현을 더 잘 추출하기 위해, 다음:
텍스트 샘플에 대해 워드 세그먼테이션을 수행하는 작동;
각각의 워드 세그먼트에 대해, 워드 세그먼트의 벡터를 결정하는 작동 - 상이한 워드 세그먼트는 동일한 벡터 길이를 가짐 -: 및
동일한 텍스트 샘플의 워드 세그먼트의 벡터를 콘볼루션 뉴럴 네트워크에 입력하여 텍스트 샘플의 글로벌 특징을 추출하는 작동 - 뉴럴 네트워크는 복수의 콘볼루션 레이어 및 상기 복수의 콘볼루션 레이어에 연결된 풀링(polling) 레이어를 포함하는 텍스트 샘플의 글로벌 특징을 추출하는 데 사용되며, 이전 콘볼루션 레이어의 지정된 크기의 시야(field of view)가 현재 콘볼루션 레이어의 입력으로 사용괴고, 지정된 크기의 시야는 이전 콘볼루션 레이어에 의해 추출된 적어도 2개의 워드 세그먼트의 벡터의 특징을 포함함 -이 포함된다.
예를 들어, 특정 구현 동안, 콘볼루션 레이어의 콘볼루션 연산(convolutional operation)은 다음 수식(5):
Figure pct00019
를 사용하여 표현될 수 있으며, 여기서,
Figure pct00020
이다.
수식(5)에서,
Figure pct00021
은 지정된 크기의 시야를 나타내고;
Figure pct00022
Figure pct00023
번째 콘볼루션 레이어(즉, 이전 콘볼루션 레이어)를 나타내며;
Figure pct00024
Figure pct00025
번째 콘볼루션 레이어(즉, 현재 콘볼루션 레이어)을 나타내고;
Figure pct00026
은 곱 행렬(product matrix)을 나타내며;
Figure pct00027
Figure pct00028
번째 특징을 나타내고;
Figure pct00029
Figure pct00030
번째 위치 정보를 나타내며;
Figure pct00031
Figure pct00032
번째 위치의
Figure pct00033
번째 특징에 대응하는
Figure pct00034
번째 콘볼루션 레이어로부터 추출된 특징을 나타낸다.
풀링 레이어의 연산은 다음 수식(6):
Figure pct00035
으로 나타낼 수 있으며,
여기서,
Figure pct00036
는 풀링 레이어의 출력을 나타내고;
Figure pct00037
은 풀링 레이어를 나타내며;
Figure pct00038
Figure pct00039
번째 레이어로부터 추출된 (M×1)번째 특징을 나타타내고; M은 풀링 연산의 크기를 제어하는 데 사용되는 상수(constant)이다.
예를 들어, 도 6에 도시된 바와 같이, 입력된 텍스트가 "큰 잔디밭을 통과하는 어린 아이"이고, 텍스트의 글로벌 표현은 텍스트 콘볼루션 뉴럴 네트워크(즉, 도 6의 문장 CNN)를 통해 추출된다. 구체적으로, 문장 CNN은 텍스트의 특징을 추출하기 위한 복수의 콘볼루션 레이어를 포함한다. 그런 다음 최대 풀링 레이어(max-pooling layer)를 사용하여 콘볼루션 레이어에 의해 추출된 특징에 대해 통합 및 차원 축소(dimension reduction)를 수행하여 텍스트의 글로벌 표현을 획득한다.
따라서, 본 출원의 본 실시 예에서, 텍스트 샘플의 특징은 복수의 콘볼루션 레이어를 통해 추출될 수 있고, 쓸모없는 특징 정보는 풀링 레이어를 통해 필터링된다. 또한, 복수의 콘볼루션 레이어를 사용하여 콘볼루션 연산을 수행하는 경우, 지정된 크기의 시야가 사용된다. 시야는 복수의 워드 세그먼트의 특징을 포함하기 때문에, 텍스트 샘플의 글로벌 표현에서 인접한 워드 세그먼트들 사이의 학습 조직(learning organization) 및 상호 작용 정보와 동일하므로, 최종적으로 추출된 글로벌 표현이 더 적절하고 정확하다.
일 실시 예에서, 워드2vec(word2vec) 툴은 각각의 워드 세그먼트를 고정 길이의 벡터로 나타내는 데 사용될 수 있다.
또한, 텍스트의 글로벌 표현을 추출하는 데 사용되는 뉴럴 네트워크는 콘볼루션 뉴럴 네트워크 또는 반복 뉴럴 네트워크(recurrent neural network, RNN)일 수 있다.
텍스트 샘플의 로컬 표현은 다양한 방법을 사용하여 추출될 수 있고, 각 워드 세그먼트에 더욱 집중될 수 있다. 예를 들어, 종래의 용어 빈도-역 문서 빈도(term frequency-inverse document frequency, TF-IDF)가 사용될 수 있거나, 피셔(Fisher) 벡터가 각각의 워드 세그먼트의 벡터 또는 워드 세그먼트의 벡터의 평균값에 작용한다. 이러한 표현은 워드 세그먼트들 사이의 관련성을 전체적으로 고려하기보다는 워드 세그먼트 자체에 더 집중되므로, 텍스트의 로컬 표현으로서 간주될 수 있다.
본 출원의 실시 예들에서의 전술한 매칭 모델에 기반한 이미지-텍스트 양방향 검색 방법이 아래에 설명된다.
도 7에 도시된 바와 같이, 도 7은 본 출원의 실시 예에 따른 이미지-텍스트 매칭 모델을 위한 트레이닝 방법의 개략적인 흐름도이며, 상기 방법은 다음 단계들을 포함한다.
단계 701: 글로벌 이미지 표현 CNN에 기반하여 이미지 샘플의 글로벌 표현을 추출한다.
단계 702: 이미지 샘플을 지정된 수량의 이미지 블록들로 분할하고, 각각의 이미지 블록에 대해, 로컬 이미지 CNN에 기반하여, 이미지 블록이 지정된 카테고리의 이미지 정보를 포함할 확률을 계산하고, 지정된 수량의 이미지 블록에서 각각의 지정된 카테고리의 이미지 정보의 최대 확률을 선택하며, 지정된 카테고리의 이미지 정보의 최대 확률은 이미지 샘플의 로컬 표현을 구성한다.
단계 703: 텍스트 샘플에 대해 워드 세그먼테이션을 수행하고, 각각의 워드 세그먼트에 대해 워드 세그먼트의 벡터를 결정하고, 상이한 워드 세그먼트는 동일한 벡터 길이를 가지며, 그리고 동일한 텍스트 샘플의 워드 세그먼트의 벡터를 미리 구성된 콘볼루션으로 입력하여 텍스트 샘플의 글로벌 표현을 추출하며, 뉴럴 네트워크는 복수의 콘볼루션 레이어 및 복수의 콘볼루션 레이어에 연결된 풀링 레이어를 포함하는 텍스트 샘플의 글로벌 표현을 추출하는 데 사용되며, 이전 콘볼루션 레이어의 지정된 크기의 시야는 현재 콘볼루션 레이어의 입력으로서 사용되고, 지정된 크기의 시야는 이전 콘볼루션 레이어에 의해 추출된 적어도 2개의 워드 세그먼트의 벡터의 특징을 포함한다.
단계 704: 텍스트 샘플의 로컬 표현을 추출한다.
단계들(701 내지 704)의 실행 순서는 상기 실시 예들에서 설명된 것으로 제한되지 않는다.
단계 705: 이미지 샘플 및 텍스트 샘플의 각각의 글로벌 표현을 적어도 2개의 완전히 연결된 레이어를 통해 지정된 시맨틱 공간에 각각 매핑하고, 이미지 샘플과 텍스트 샘플에 의해 구성된 이종 샘플 쌍(이미지-텍스트 쌍)의 글로벌 표현들 사이의 유사성을 계산하며, 완전히 연결된 레이어의 파라미터는 미리 설정된 타깃 함수에 따라 결정된다.
단계 706: 이미지 샘플 및 텍스트 샘플의 각각의 로컬 표현을 적어도 2개의 완전히 연결된 레이어를 통해 지정된 시맨틱 공간에 각각 매핑하고, 이종 샘플 쌍(이미지-텍스트 쌍)의 로컬 표현들 사이의 유사성을 계산하며, 완전히 연결된 레이어의 파라미터는 미리 설정된 타깃 함수에 따라 결정된다.
단계들(705 및 706)의 실행 순서는 상기 실시 예들에서 설명된 것으로 제한되지 않는다.
또한, 미리 설정된 타깃 함수는 전술한 실시 예들에서 설명되었고, 여기서 다시 상세히 설명되지 않는다.
단계 707: 글로벌 표현들 사이의 유사성의 미리 설정된 가중치 및 로컬 표현들 사이의 유사성의 미리 설정된 가중치에 따라 가중 합산 방식을 이용하여 이종 샘플 쌍의 매칭 정도를 결정한다.
본 출원의 본 실시 예에서, 이미지의 로컬 표현은 이미지 블록을 통해 추출되고, 텍스트의 글로벌 표현은 복수의 콘볼루션 레이어 및 풀링 레이어를 사용하여 추출되므로, 텍스트의 워드 세그먼트들 사이의 관계가 획득될 수 있으며 추출된 특징이 더 정확하고 포괄적이다. 그 다음에, 미리 설정된 타깃 함수는 시맨틱적으로 연관된 이종 샘플 쌍의 유사성이 비시맨틱적으로 연관된 이종 샘플 쌍의 유사성보다 더 높고, 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성이 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성보다 더 높게 하는 데 사용되므로, 이미지와 텍스트 사이의 매칭 정확도를 향상시키기 위해 최종 유사성의 계산이 실제 요건을 잘 만족시킨다.
도 8에 도시된 바와 같이, 도 8은 본 출원의 실시 예들에서 설명된 매칭 모델에 기반한 이미지-텍스트 양방향 검색 방법의 개략적인 흐름도이다. 상기 방법은 컴퓨터에 의해 수행되고, 컴퓨터는 서버(12)일 수 있고, 방법은 다음 단계를 포함한다.
단계 801: 참조 샘플(reference sample)을 수신하고, 참조 샘플은 텍스트 또는 이미지이다.
단계 802: 참조 샘플의 글로벌 특징 및 로컬 특징을 추출한다.
단계 803: 참조 샘플의 글로벌 특징 및 로컬 특징을 매칭 모델에 입력하여, 매칭 모델이 참조 샘플과 대응하는 자료 사이의 매칭 정도를 계산할 수 있게 하며; 참조 샘플이 텍스트인 경우에 대응하는 자료(material)는 이미지이고, 참조 샘플이 이미지인 경우에 대응하는 자료는 텍스트이며; 그리고 매칭 모델은 참조 샘플의 글로벌 특징 및 로컬 특징 그리고 대응하는 자료의 글로벌 특징 및 로컬 특징에 기반하여, 참조 샘플과 대응하는 자료 사이의 매칭 정도를 결정할 수 있다.
자료 라이브러리에서 참조 샘플과 각각의 대응하는 자료 사이의 매칭도를 계산하기 위해 자료 라이브러리가 구축될 수 있다. 매칭 정도를 계산하는 방법은 전술한 실시 예들에서 설명되었고, 여기서는 다시 상세히 설명되지 않는다.
단계 804: 매칭 정도가 지정된 매칭 정도보다 큰 대응하는 자료를 참조 샘플과 매칭하는 자료로서 선택한다.
본 출원의 본 실시 예에서, 글로벌 표현 및 로컬 표현의 매칭 모델에 기반하여 참조 샘플의 대응하는 자료가 검색될 수 있으므로, 최종적으로 획득된 매칭 결과가 더욱 정확하다. 예를 들어, 텍스트와 매칭하는 이미지가 검색되거나 이미지와 매칭하는 질문이 검색된다.
전술한 실시 예에서와 동일한 발명 개념에 기반하여, 본 출원의 실시 예는 이미지-텍스트 매칭 모델을 위한 트레이닝 장치를 추가로 제공한다. 장치의 원리 및 유익한 효과는 전술한 방법 실시 예의 효과와 유사하며, 여기서는 다시 상세히 설명하지 않는다.
도 9는 장치의 구조의 개략도이다. 상기 장치는,
이미지 샘플의 글로벌 특징 및 로컬 특징을 추출하도록 구성된 이미지 특징 추출 모듈(901);
텍스트 샘플의 글로벌 특징 및 로컬 특징을 추출하도록 구성된 텍스트 특징 추출 모듈(902); 및
이미지 샘플의 추출된 글로벌 특징 및 로컬 특징 그리고 텍스트 샘플의 추출된 글로벌 특징 및 로컬 특징에 따라 매칭 모델을 트레이닝하여, 매칭 모델의 모델 파라미터를 결정하도록 - 매칭 모델은 입력된 이미지의 글로벌 특징 및 로컬 특징 그리고 입력된 텍스트의 글로벌 특징 및 로컬 특징에 따라 이미지와 텍스트 사이의 매칭 정도를 결정하는 데 사용됨 - 구성된 트레이닝 모듈(903)을 포함한다.
일부 실시 예에서, 이미지와 텍스트의 각각의 글로벌 특징은 매칭 모델을 통해 지정된 시맨틱 공간에 매핑되고, 이미지와 텍스트의 글로벌 특징들 사이의 유사성이 계산되며; 이미지와 텍스트의 각각의 로컬 특징이 지정된 시맨틱 공간에 매핑되고, 이미지와 텍스트의 로컬 특징들 사이의 유사성이 계산되며; 이미지와 텍스트 사이의 매칭 정도가 글로벌 특징들 사이의 유사성의 미리 설정된 가중치와 로컬 특징들 사이의 유사성의 미리 설정된 가중치에 따라 가중 합산 방식을 이용하여 결정된다.
일부 실시 예에서, 매칭 모델은 적어도 2개의 완전히 연결된 레이어를 포함하고, 매칭 모델의 모델 파라미터는적어도 2개의 완전히 연결된 레이어의 파라미터를 포함한다.
트레이닝 모듈(903)은,
이미지 샘플 및 텍스트 샘플의 각각의 글로벌 특징을 적어도 2개의 완전히 연결된 레이어를 통해 지정된 시맨틱 공간에 매핑하도록 구성된 글로벌 트레이닝 유닛(9401); 및
이미지 샘플 및 텍스트 샘플의 각각의 로컬 특징을 적어도 2개의 완전히 연결된 레이어를 통해 지정된 시맨틱 공간에 매핑하도록 구성된 로컬 트레이닝 유닛(9032)을 포함한다.
적어도 2개의 완전히 연결된 레이어의 파라미터는 맵핑 결과 및 미리 설정된 타깃 함수에 따라 결정되며, 미리 설정된 타깃 함수는 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성이 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성보다 높은 것을 구현하는 데 사용되거나: 또는
미리 설정된 타깃 함수는 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성이 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성보다 높고, 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성이 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성보다 더 높은 것을 구현하는 데 사용된다.
일부 실시 예들에서, 미리 설정된 타깃 함수는 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성이 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성보다 높은 것을 구현하는 데 사용된다.
맵핑 결과는, 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 이미지 샘플의 글로벌 특징 및 로컬 특징, 그리고 완전히 연결된 레이어의 적어도 2개의 파라미터에 의해 표현되는 텍스트 샘플의 글로벌 특징 및 로컬 특징을 포함한다.
트레이닝 모듈(903)은:
적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 이미지 샘플의 글로벌 특징 및 로컬 특징 그리고 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 텍스트 샘플의 글로벌 특징 및 로컬 특징에 따라, 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성 및 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성을 결정하고; 그리고
적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성 및 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성을 미리 설정된 타깃 함수에 입력하여, 적어도 2개의 완전히 연결된 레이어의 파라미터를 결정하도록 구성된다.
미리 설정된 타깃 함수가 시맨틱적으로 연관된 이종 샘플 쌍의 유사성이 비시맨틱적으로 연관된 이종 샘플 쌍의 유사성보다 높다는 것을 인식하는 데 사용되면, 미리 설정된 타깃 함수는
Figure pct00040
일 수 있으며,
Figure pct00041
는 미리 설정된 타깃 함수를 나타내며;
Figure pct00042
Figure pct00043
는 텍스트 샘플을 나타내고;
Figure pct00044
Figure pct00045
는 이미지 샘플을 나타내며; 글로벌 표현들 사이의 유사성이 결정되는 경우, d()는 텍스트 샘플과 이미지 샘플의 글로벌 표현들 사이의 유사성을 나타내고; 로컬 표현들 사이의 유사성이 결정되는 경우, d()는 텍스트 샘플과 이미지 샘플의 로컬 표현들 사이의 유사성을 나타내며; λ1 및 λ2는 모두 미리 설정된 계수를 나타내고;
Figure pct00046
는 시맨틱적으로 연관된 이종 샘플 쌍의 유사성을 나타내며;
Figure pct00047
Figure pct00048
는 모두 비시맨틱적 연관된 이종 샘플 쌍의 유사성을 나타내고; μ1 및μ2는 모두 미리 설정된 임계 값을 나타낸다.
일부 실시 예들에서, 미리 설정된 타깃 함수는 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성이 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성보다 높고, 동일한 이미지와 연관된 텍스트 샘플들 사이의 유사성이 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성보다 높은 것을 구현하는 데 사용된다.
맵핑 결과는, 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 이미지 샘플의 글로벌 특징 및 로컬 특징, 그리고 완전히 연결된 레이어의 적어도 2개의 파라미터에 의해 표현되는 텍스트 샘플의 글로벌 특징 및 로컬 특징을 포함한다.
트레이닝 모듈(903)은,
적어도 2개의 완전히 연결된 레이어의 파라미터로 표현되는 이미지 샘플의 글로벌 특징 및 로컬적 특징 그리고 적어도 2개의 완전히 연결된 레이어의 파라미터로 표현되는 텍스트 샘플의 글로벌 특징 및 로컬 특징에 따라, 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성, 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성, 적어도 2개의 완전히 연결된 레이어의 파라미터로 표현되는 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성, 및 적어도 2개의 완전히 연결된 레이어의 파라미터로 표현되는 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성을 결정하고; 그리고
적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성, 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성, 적어도 2개의 완전히 연결된 레이어의 파라미터로 표현되는 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성, 및 적어도 2개의 완전히 연결된 레이어의 파라미터로 표현되는 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성을 미리 설정된 타깃 함수에 입력하여, 적어도 2개의 완전히 연결된 레이어의 파라미터를 결정하도록 구성된다.
일부 실시 예들에서, 미리 설정된 타깃 함수는 다음:
Figure pct00049
중 하나를 통해 결정되고,
Figure pct00050
이다.
LY는 미리 설정된 타깃 함수이고,
Figure pct00051
는 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성과 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성 사이의 관계를 나타내며,
Figure pct00052
는 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성과 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성 사이의 관계를 나타내고,
Figure pct00053
Figure pct00054
는 텍스트 샘플을 나타내고;
Figure pct00055
Figure pct00056
는 이미지 샘플을 나타내며; 글로벌 표현들 사이의 유사성이 결정되는 경우, d()는 텍스트 샘플과 이미지 샘플의 글로벌 표현들 사이의 유사성을 나타내고; 로컬 표현들 사이의 유사성이 결정되는 경우, d()는 텍스트 샘플과 이미지 샘플의 로컬 표현들 사이의 유사성을 나타내며; λ1 및 λ2는 모두 미리 설정된 계수를 나타내고;
Figure pct00057
는 시맨틱적으로 연관된 이종 샘플 쌍(이미지-텍스트 쌍)의 유사성을 나타내며;
Figure pct00058
Figure pct00059
는 모두 비시맨틱적 연관된 이종 샘플 쌍(이미지-텍스트 쌍)의 유사성을 나타내고; μ1 및μ2는 모두 미리 설정된 임계 값을 나타내며, 여기서,
Figure pct00060
이며,
여기서,
Figure pct00061
는 동일한 이미지 샘플과 시맨틱적으로 연관된 텍스트 샘플들을 나타내며;
Figure pct00062
는 상이한 이미지 샘플들과 연관된 텍스트 샘플들을 나타내고; 글로벌 표현들 사이의 유사성이 결정되는 경우, d()는 텍스트 샘플들의 글로벌 표현들 사이의 유사성을 나타내며; 로컬 표현들 사이의 유사성이 결정되는 경우, d()는 텍스트 샘플들의 로컬 표현들 사이의 유사성을 나타내고; u3는 미리 설정된 임계 값을 나타낸다.
일부 실시 예들에서, 이미지 특징 추출 모듈은 이미지 샘플을 지정된 수량의 이미지 블록들로 분할하고, 각각의 이미지 블록에 대해, 이미지 블록이 지정된 카테고리의 이미지 정보를 포함할 확률을 계산하며; 그리고
지정된 수량의 이미지 블록들에서 각각의 특정된 이미지 정보 카테고리의 최대 확률을 선택하도록 - 각각의 특정된 이미지 정보 카테고리의 최대 확률은 이미지 샘플의 로컬 특징을 구성함 - 구성된다.
일부 실시 예에서, 이미지 특징 추출 모듈은, 텍스트 샘플에 대해 워드 세그먼테이션을 수행하고;
각각의 워드 세그먼트에 대해, 워드 세그먼트의 벡터를 결정하며 - 상이한 워드 세그먼트는 동일한 벡터 길이를 가짐 -, 그리고
동일한 텍스트 샘플의 워드 세그먼트의 입력 벡터를 콘볼루션 뉴럴 네트워크로 입력하여 텍스트 샘플의 글로벌 특징을 추출하도록 - 뉴럴 네트워크는 복수의 콘볼루션 레이어 및 복수의 콘볼루션 레이어에 연결된 풀링 레이어를 포함하는 텍스트 샘플의 글로벌 특징을 추출하는 데 사용되며, 이전 콘볼루션 레이어의 지정된 크기의 시야는 현재 콘볼루션 레이어의 입력으로서 사용되고, 지정된 크기의 시야는 이전 콘볼루션 레이어에 의해 추출된 적어도 2개의 워드 세그먼트의 벡터의 특징을 포함함 - 구성된다.
전술한 실시 예에서와 동일한 발명 개념에 기반하여, 본 출원의 실시 예는 이미지-텍스트 양방향 검색 장치를 추가로 제공한다. 장치의 원리 및 유익한 효과는 전술한 방법 실시 예의 효과와 유사하며, 여기서는 다시 상세히 설명하지 않는다.
도 10은 장치의 구조의 개략도이다. 상기 장치는,
참조 샘플을 수신하도록 - 참조 샘플은 텍스트 또는 이미지임 - 구성된 참조 샘플 수신 모듈(1001);
참조 샘플의 글로벌 특징 및 로컬 특징을 추출하도록 구성된 참조 샘플 특징 추출 모듈(1002);
참조 샘플의 글로벌 특징 및 로컬 특징을 매칭 모델에 입력하여 매칭 모델이 참조 샘플과 대응하는 자료 사이의 매칭 정도를 계산할 수 있게 하도록 - 참조 샘플이 텍스트인 경우에 대응하는 자료는 이미지이고, 참조 샘플이 이미지인 경우에 대응하는 자료는 텍스트이며, 매칭 모델은 참조 샘플의 글로벌 특징 및 로컬 특징 그리고 대응하는 자료의 글로벌 특징 및 로컬 특징에 기반하여, 참조 샘플과 대응하는 자료 사이의 매칭 정도를 결정할 수 있음 - 구성된 검색 모듈(1003); 및
매칭 정도가 지정된 매칭 정도보다 큰 대응하는 자료를 참조 샘플과 매칭하는 자료로서 선택하도록 구성된 선택 모듈(1004)을 포함한다.
본 출원의 실시 예는 또한 컴퓨팅 디바이스를 제공한다. 컴퓨팅 디바이스는 데스크탑 컴퓨터, 휴대용 컴퓨터, 스마트 폰, 태블릿 컴퓨터, 개인 휴대 정보 단말기(personal digital assistant, PDA) 등일 수 있다. 도 11에 도시된 바와 같이, 컴퓨팅 디바이스는 중앙 처리 장치(CPU)(1101), 메모리(1102), 입력 디바이스(1103), 출력 디바이스(1104) 등을 포함할 수 있다. 입력 디바이스는 키보드, 마우스, 터치 스크린 등을 포함할 수 있다. 출력 디바이스는 액정 디스플레이(liquid crystal display, LCD) 또는 음극선 관(cathode ray tube, CRT)과 같은 디스플레이 디바이스를 포함할 수 있다.
메모리는 ROM(read-only memory) 및 RAM(random access memory)을 포함할 수 있고, 메모리에 저장된 프로그램 명령 및 데이터를 프로세서에 제공한다. 본 출원의 본 실시 예에서, 메모리는 이미지-텍스트 매칭 모델을 위한 트레이닝 방법 및/또는 이미지-텍스트 양방향 검색 방법의 프로그램 명령을 저장하도록 구성될 수 있다. 프로세서는 메모리에 저장된 프로그램 명령을 호출하여, 프로그램 명령에 따라, 이미지 샘플의 글로벌 특징 및 로컬 특징을 추출하는 작동; 텍스트 샘플의 글로벌 특징 및 로컬 특징을 추출하는 작동; 및 이미지 샘플의 추출된 글로벌 특징 및 로컬 특징 그리고 텍스트 샘플의 추출된 글로벌 특징 및 로컬 특징에 따라 매칭 모델을 트레이닝하여, 매칭 모델의 모델 파라미터를 결정하는 작동 - 매칭 모델은 입력된 이미지의 글로벌 특징 및 로컬 특징 그리고 입력된 텍스트의 글로벌 특징 및 로컬 특징에 따라 이미지와 텍스트 사이의 매칭 정도를 결정하는데 사용됨 - 을 수행한다.
다르게는, 프로세서는 메모리에 저장된 프로그램 명령을 호출하여, 프로그램 명령에 따라, 참조 샘플을 수신하는 작동 - 참조 샘플은 텍스트 또는 이미지임 - ; 참조 샘플의 글로벌 특징 및 로컬 특징을 추출하는 작동; 참조 샘플의 글로벌 특징 및 로컬 특징을 매칭 모델에 입력하여 매칭 모델이 참조 샘플과 대응하는 자료 사이의 매칭 정도를 계산할 수 있게 하는 작동 - 참조 샘플이 텍스트인 경우에 대응하는 자료는 이미지이고, 참조 샘플이 이미지인 경우에 대응하는 자료는 텍스트이며, 매칭 모델은 참조 샘플의 글로벌 특징 및 로컬 특징 그리고 대응하는 자료의 글로벌 특징 및 로컬 특징에 기반하여, 참조 샘플과 대응하는 자료 사이의 매칭 정도를 결정할 수 있음 -; 및 매칭 정도가 지정된 매칭 정도보다 큰 대응 자료를 참조 샘플과 매칭하는 자료로서 선택하는 작동을 수행한다.
본 출원은 전술한 컴퓨팅 디바이스에 의해 사용되는 컴퓨터 프로그램 명령을 저장하고, 전술한 이미지-텍스트 매칭 모델을 위한 트레이닝 방법 및/또는 전술한 이미지-텍스트 양방향 검색 방법을 수행하기 위한 프로그램을 포함하는, 컴퓨터 저장 매체를 제공한다.
컴퓨터 저장 매체는, 컴퓨터에 의해 액세스될 수 있으면서 또한 자기 메모리(예를 들어, 플로피 디스크, 하드 디스크, 자기 테이프, 및 광 자기 디스크(magneto-optical disk, MO)), 광 메모리(예를 들어, CD, DVD, BD 및 HVD), 반도체 메모리(예를 들어, ROM, EPROM, EEPROM, 비 휘발성 메모리(NAND FLASH) 및 솔리드 스테이트 드라이브(SSD)) 등을 포함하는, 임의의 이용 가능한 매체 또는 데이터 저장 디바이스일 수 있다.
마지막으로, 상기 실시 예는 본 출원의 기술적 솔루션을 설명하기 위해 제공된 것일뿐 본 출원을 제한하려는 것은 아니다. 본 출원은 전술한 실시 예들을 참조하여 상세하게 설명되었지만, 이러한 수정 또는 교체로 인해 해당 기술 솔루션의 본질이 본 출원의 취지 및 범위를 벗어나지 않는 한, 전술한 실시 예들에서 설명된 기술적 솔루션들에 대한 수정들이 이루어질 수 있거나, 기술 솔루션의 일부 기술적 특징에 대해 동등한 대체들이 이루어질 수 있다는 것이 당업자에 의해 이해되어야 한다.

Claims (16)

  1. 컴퓨터에 의해 수행되는, 이미지-텍스트 매칭 모델을 위한 트레이닝 방법으로서,
    이미지 샘플의 글로벌 특징(global feature) 및 로컬 특징(local feature)을 추출하는 단계;
    텍스트 샘플의 글로벌 특징 및 로컬 특징을 추출하는 단계; 및
    상기 이미지 샘플의 추출된 글로벌 특징 및 로컬 특징 그리고 상기 텍스트 샘플의 추출된 글로벌 특징 및 로컬 특징에 따라 매칭 모델을 트레이닝하여 상기 매칭 모델의 모델 파라미터를 결정하는 단계 - 상기 매칭 모델은 입력된 이미지의 글로벌 특징 및 로컬 특징 그리고 입력된 텍스트의 글로벌 특징 및 로컬 특징에 따라, 상기 이미지와 상기 텍스트 사이의 매칭 정도를 결정하는 데 사용됨 -
    를 포함하는 트레이닝 방법.
  2. 제1항에 있어서,
    상기 매칭 모델을 통해 상기 이미지 및 상기 텍스트의 각각의 글로벌 특징을 지정된(specified) 시맨틱 공간(semantic space)에 매핑하고, 상기 이미지와 상기 텍스트의 글로벌 특징들 사이의 유사성을 계산하며, 상기 이미지 및 상기 텍스트의 각각의 로컬 특징을 지정된 시맨틱 공간에 매핑하고, 상기 이미지와 상기 텍스트의 로컬 특징들 사이의 유사성을 계산하는 단계; 및
    상기 글로벌 특징들 사이의 유사성의 미리 설정된 가중치 및 상기 로컬 특징들 사이의 유사성의 미리 설정된 가중치에 따라 가중 합산 방식을 이용하여 상기 이미지와 상기 텍스트 사이의 매칭 정도를 결정하는 단계
    를 더 포함하는 트레이닝 방법.
  3. 제1항에 있어서,
    상기 매칭 모델은 적어도 2개의 완전히 연결된 레이어(fully connected layer)를 포함하고, 상기 매칭 모델의 모델 파라미터는 상기 적어도 2개의 완전히 연결된 레이어의 파라미터를 포함하며; 그리고
    상기 이미지 샘플의 추출된 글로벌 특징 및 로컬 특징 그리고 상기 텍스트 샘플의 추출된 글로벌 특징 및 로컬 특징에 따라 매칭 모델을 트레이닝하여 상기 매칭 모델의 모델 파라미터를 결정하는 단계는,
    상기 이미지 샘플 및 상기 텍스트 샘플의 각각의 글로벌 특징을 상기 적어도 2개의 완전히 연결된 레이어들을 통해 상기 지정된 시맨틱 공간으로 매핑하는 단계;
    상기 이미지 및 상기 텍스트 샘플의 각각의 로컬 특징을 상기 적어도 2개의 완전히 연결된 레이어를 통해 상기 지정된 시맨틱 공간에 매핑하는 단계; 및
    맵핑 결과 및 미리 설정된 타깃 함수(target function)에 따라 상기 적어도 2개의 완전히 연결된 레이어의 파라미터를 결정하는 단계 - 상기 미리 설정된 타깃 함수는 시맨틱적으로(semantically) 연관된 이미지-텍스트 쌍의 유사성이 비시맨틱적으로(non-semantically) 연관된 이미지-텍스트 쌍의 유사성보다 높은 것을 구현하는 데 사용되거나, 상기 미리 설정된 타깃 함수가 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성이 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성보다 높고, 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성이 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성보다 높은 것을 구현하는 데 사용됨 -
    를 포함하는, 트레이닝 방법.
  4. 제3항에 있어서,
    상기 미리 설정된 타깃 함수가 상기 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성이 상기 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성보다 높은 것을 구현하는 데 사용되는 경우,
    상기 맵핑 결과는 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 상기 이미지 샘플의 글로벌 특징 및 로컬 특징, 그리고 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 상기 텍스트 샘플의 글로벌 특징 및 로컬 특징을 포함하며,
    상기 맵핑 결과 및 미리 설정된 타깃 함수에 따라 상기 적어도 2개의 완전히 연결된 레이어의 파라미터를 결정하는 단계는,
    상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 상기 이미지 샘플의 글로벌 특징 및 로컬 특징 그리고 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 상기 텍스트 샘플의 글로벌 특징 및 로컬 특징에 따라, 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성 및 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성을 결정하는 단계; 및
    상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 상기 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성 및 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 상기 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성을 상기 미리 설정된 타깃 함수에 입력하여, 상기 적어도 2개의 완전히 연결된 레이어의 파라미터를 결정하는 단계
    를 포함하는, 트레이닝 방법.
  5. 제4항에 있어서,
    상기 미리 설정된 타깃 함수는
    Figure pct00063

    이며,
    Figure pct00064
    는 상기 미리 설정된 타깃 함수를 나타내고;
    Figure pct00065
    Figure pct00066
    는 상기 텍스트 샘플을 나타내며;
    Figure pct00067
    Figure pct00068
    는 상기 이미지 샘플을 나타내고; 글로벌 표현들 사이의 유사성이 결정되는 경우, d()는 상기 텍스트 샘플과 상기 이미지 샘플의 글로벌 표현들 사이의 유사성을 나타내며; 로컬 표현들 사이의 유사성이 결정되는 경우, d()는 상기 텍스트 샘플과 상기 이미지 샘플의 로컬 표현들 사이의 유사성을 나타내고; λ1 및 λ2는 모두 미리 설정된 계수를 나타내며;
    Figure pct00069
    는 상기 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성을 나타내고;
    Figure pct00070
    Figure pct00071
    는 모두 상기 비시맨틱적 연관된 이미지-텍스트 쌍의 유사성을 나타내며고; μ1 및μ2는 모두 미리 설정된 임계 값을 나타내는, 트레이닝 방법.
  6. 제3항에 있어서,
    상기 미리 설정된 타깃 함수가 상기 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성이 상기 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성보다 높고, 상기 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성이 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성보다 높은 것을 구현하는데 사용되는 경우,
    상기 맵핑 결과는 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 상기 이미지 샘플의 글로벌 특징 및 로컬 특징, 그리고 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 상기 텍스트 샘플의 글로벌 특징 및 로컬 특징을 포함하며, 그리고
    상기 맵핑 결과 및 미리 설정된 타깃 함수에 따라 상기 적어도 2개의 완전히 연결된 레이어의 파라미터를 결정하는 단계는,
    상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 상기 이미지 샘플의 글로벌 특징 및 로컬 특징 그리고 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 상기 텍스트 샘플의 글로벌 특징 및 로컬 특징에 따라, 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성, 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성, 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성, 및 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성을 결정하는 단계; 및
    상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성, 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성, 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성, 및 상기 적어도 2개의 완전히 연결된 레이어의 파라미터에 의해 표현되는 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성을 상기 미리 설정된 타깃 함수에 입력하여, 상기 적어도 2개의 완전히 연결된 레이어의 파라미터를 결정하는 단계
    를 포함하는, 트레이닝 방법.
  7. 제6항에 있어서,
    상기 미리 설정된 타깃 함수는 다음:
    Figure pct00072

    중 하나를 통해 결정되고, 여기서,
    Figure pct00073
    이며,
    여기서, LY는 상기 미리 설정된 타깃 함수이고,
    Figure pct00074
    는 상기 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성과 상기 비시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성 사이의 관계를 나타내며,
    Figure pct00075
    는 상기 동일한 이미지 샘플과 연관된 텍스트 샘플들 사이의 유사성과 상기 상이한 이미지 샘플들과 연관된 텍스트 샘플들 사이의 유사성 사이의 관계를 나타내고;
    Figure pct00076
    Figure pct00077
    는 상기 텍스트 샘플을 나타내고;
    Figure pct00078
    Figure pct00079
    는 상기 이미지 샘플을 나타내며; 글로벌 표현들 사이의 유사성이 결정되는 경우, d()는 상기 텍스트 샘플과 상기 이미지 샘플의 글로벌 표현들 사이의 유사성을 나타내고; 로컬 표현들 사이의 유사성이 결정되는 경우, d()는 상기 텍스트 샘플과 상기 이미지 샘플의 로컬 표현들 사이의 유사성을 나타내며; λ1 및 λ2는 모두 미리 설정된 계수를 나타내고;
    Figure pct00080
    는 상기 시맨틱적으로 연관된 이미지-텍스트 쌍의 유사성을 나타내며;
    Figure pct00081
    Figure pct00082
    는 모두 상기 비시맨틱적 연관된 이미지-텍스트 쌍의 유사성을 나타내고; μ1 및μ2는 모두 미리 설정된 임계 값을 나타내며; 그리고,
    Figure pct00083

    이며,
    Figure pct00084
    는 상기 동일한 이미지 샘플과 시맨틱적으로 연관된 텍스트 샘플들을 나타내고;
    Figure pct00085
    는 상기 상이한 이미지 샘플들과 연관된 텍스트 샘플들을 나타내며; 글로벌 표현들 사이의 유사성이 결정되는 경우, d()는 상기 텍스트 샘플들의 글로벌 표현들 사이의 유사성을 나타내고; 로컬 표현들 사이의 유사성이 결정되는 경우, d()는 상기 텍스트 샘플들의 로컬 표현들 사이의 유사성을 나타내며; u3는 미리 설정된 임계 값을 나타내는, 트레이닝 방법.
  8. 제1항에 있어서,
    상기 이미지 샘플의 로컬 특징을 추출하는 단계는,
    상기 이미지 샘플을 지정된 수량의 이미지 블록들로 분할하고, 각각의 이미지 블록에 대해, 상기 이미지 블록이 지정된 카테고리의 이미지 정보를 포함하는 확률을 계산하는 단계; 및
    상기 지정된 수량의 이미지 블록들에서 각각의 지정된 카테고리의 이미지 정보의 최대 확률을 선택하는 단계 - 상기 각각의 지정된 카테고리의 이미지 정보의 최대 확률은 상기 이미지 샘플의 로컬 특징을 구성함 -
    를 포함하는, 트레이닝 방법.
  9. 제1항에 있어서,
    상기 텍스트 샘플의 글로벌 특징을 추출하는 단계는,
    상기 텍스트 샘플에 대해 워드 세그먼테이션(word segmentation)을 수행하는 단계;
    각각의 워드 세그먼트에 대해, 상기 워드 세그먼트의 벡터를 결정하는 단계 - 상이한 워드 세그먼트는 동일한 벡터 길이를 가짐 -; 및
    동일한 텍스트 샘플의 워드 세그먼트의 벡터를 콘볼루션 뉴럴 네트워크(convolutional neural network)에 입력하여 상기 텍스트 샘플의 글로벌 특징을 추출하는 단계 - 상기 뉴럴 네트워크는 복수의 콘볼루션 레이어(convolutional layer) 및 상기 복수의 콘볼루션 레이어에 연결된 풀링(polling) 레이어를 포함하는 상기 텍스트 샘플의 글로벌 특징을 추출하는 데 사용되고, 이전 콘볼루션 레이어의 지정된 크기의 시야는 현재 콘볼루션 레이어의 입력으로서 사용되며, 상기 지정된 크기의 시야는 상기 이전 콘볼루션 레이어에 의해 추출된 적어도 2개의 워드 세그먼트의 벡터의 특징을 포함함 -
    를 포함하는, 트레이닝 방법.
  10. 컴퓨터에 의해 수행되는, 이미지-텍스트 양방향 검색 방법으로서,
    참조 샘플을 수신하는 단계 - 상기 참조 샘플은 텍스트 또는 이미지임 -;
    상기 참조 샘플의 글로벌 특징 및 로컬 특징을 추출하는 단계;
    상기 참조 샘플의 글로벌 특징 및 로컬 특징을 매칭 모델에 입력하여, 상기 매칭 모델이 상기 참조 샘플과 대응하는 자료(material)를 계산할 수 있게 하는 단계 - 상기 참조 샘플이 텍스트인 경우에 상기 대응하는 자료는 이미지이고, 상기 참조 샘플이 이미지인 경우에 상기 대응하는 자료는 텍스트이며, 상기 매칭 모델은 상기 참조 샘플의 글로벌 특징 및 로컬 특징 그리고 상기 대응하는 자료의 글로벌 특징 및 로컬 특징에 기반하여, 상기 참조 샘플과 상기 대응하는 자료 사이의 매칭 정도를 결정할 수 있음 -; 및
    매칭 정도가 지정된 매칭 정도보다 큰 대응하는 자료를 상기 참조 샘플과 매칭하는 자료로서 선택하는 단계
    를 포함하는 검색 방법.
  11. 이미지-텍스트 매칭 모델을 위한 트레이닝 장치로서,
    이미지 샘플의 글로벌 특징 및 로컬 특징을 추출하도록 구성된 이미지 특징 추출 모듈;
    텍스트 샘플의 글로벌 특징 및 로컬 특징을 추출하도록 구성된 텍스트 특징 추출 모듈; 및
    상기 이미지 샘플의 추출된 글로벌 특징 및 로컬 특징 그리고 상기 텍스트 샘플의 추출된 글로벌 특징 및 로컬 특징에 따라 매칭 모델을 트레이닝하여 상기 매칭 모델의 모델 파라미터를 결정하도록 - 상기 매칭 모델은 이미지의 글로벌 특징 및 로컬 특징 그리고 텍스트의 글로벌 특징 및 로컬 특징에 따라, 상기 이미지와 상기 텍스트 사이의 매칭 정도를 결정하는 데 사용됨 - 구성된 트레이닝 모듈
    을 포함하는 트레이닝 장치.
  12. 이미지-텍스트 양방향 검색 장치로서,
    참조 샘플을 수신하도록 - 상기 참조 샘플은 텍스트 또는 이미지임 - 구성된 참조 샘플 수신 모듈;
    상기 참조 샘플의 글로벌 특징 및 로컬 특징을 추출하도록 구성된 참조 샘플 특징 추출 모듈;
    상기 참조 샘플의 글로벌 특징 및 로컬 특징을 매칭 모델에 입력하여, 상기 매칭 모델이 상기 참조 샘플과 대응하는 자료를 계산할 수 있게 하도록 - 상기 참조 샘플이 텍스트인 경우에 상기 대응하는 자료는 이미지이고, 상기 참조 샘플이 이미지인 경우에 상기 대응하는 자료는 텍스트이며, 상기 매칭 모델은 상기 참조 샘플의 글로벌 특징 및 로컬 특징 그리고 상기 대응하는 자료의 글로벌 특징 및 로컬 특징에 기반하여, 상기 참조 샘플과 상기 대응하는 자료 사이의 매칭 정도를 결정할 수 있음 - 구성된 검색 모듈; 및
    매칭 정도가 지정된 매칭 정도보다 큰 대응하는 자료를 상기 참조 샘플과 매칭하는 자료로서 선택하도록 구성된 선택 모듈
    을 포함하는 검색 장치.
  13. 메모리 및 프로세서를 포함하는 컴퓨팅 디바이스로서,
    상기 메모리는 프로그램 명령을 저장하도록 구성되고, 상기 프로세서는 상기 메모리에 저장된 상기 프로그램 명령을 호출하여, 상기 프로그램 명령에 따라 제1항 내지 제9항 중 어느 한 항에 따른 이미지-텍스트 매칭 모델을 위한 트레이닝 방법을 수행하도록 구성되는, 컴퓨팅 디바이스.
  14. 컴퓨터 실행 가능 명령을 저장하는 컴퓨터 저장 매체로서,
    상기 컴퓨터 실행 가능 명령은 상기 컴퓨터가 상기 컴퓨터 실행 가능 명령에 따라 제1항 내지 제9항 중 어느 한 항에 따른 이미지-텍스트 매칭 모델을 위한 트레이닝 방법을 수행할 수 있게 하는데 사용되는, 컴퓨터 저장 매체.
  15. 메모리 및 프로세서를 포함하는 컴퓨팅 디바이스로서,
    상기 메모리는 프로그램 명령을 저장하도록 구성되고, 상기 프로세서는 상기 메모리에 저장된 상기 프로그램 명령을 호출하여, 상기 프로그램 명령에 따라 제10항에 따른 이미지-텍스트 양방향 검색 방법을 수행하도록 구성되는, 컴퓨팅 디바이스.
  16. 컴퓨터 실행 가능 명령을 저장하는 컴퓨터 저장 매체로서,
    상기 컴퓨터 실행 가능 명령은 상기 컴퓨터가 상기 컴퓨터 실행 가능 명령에 따라 제10항에 따른 이미지-텍스트 양방향 검색 방법을 수행할 수 있게 하는데 사용되는, 컴퓨터 저장 매체.
KR1020197030955A 2017-09-12 2018-09-07 이미지-텍스트 매칭 모델을 위한 트레이닝 방법, 양방향 검색 방법 및 관련 장치 KR102235051B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710817344.5 2017-09-12
CN201710817344.5A CN108288067B (zh) 2017-09-12 2017-09-12 图像文本匹配模型的训练方法、双向搜索方法及相关装置
PCT/CN2018/104565 WO2019052403A1 (zh) 2017-09-12 2018-09-07 图像文本匹配模型的训练方法、双向搜索方法及相关装置

Publications (2)

Publication Number Publication Date
KR20190129110A true KR20190129110A (ko) 2019-11-19
KR102235051B1 KR102235051B1 (ko) 2021-03-31

Family

ID=62831544

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197030955A KR102235051B1 (ko) 2017-09-12 2018-09-07 이미지-텍스트 매칭 모델을 위한 트레이닝 방법, 양방향 검색 방법 및 관련 장치

Country Status (6)

Country Link
US (2) US11087166B2 (ko)
EP (1) EP3683724A4 (ko)
JP (1) JP6887026B2 (ko)
KR (1) KR102235051B1 (ko)
CN (2) CN110532571B (ko)
WO (1) WO2019052403A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102311644B1 (ko) * 2021-01-29 2021-10-12 한국과학기술정보연구원 데이터분석장치 및 그 동작 방법
KR102594547B1 (ko) * 2022-11-28 2023-10-26 (주)위세아이텍 멀티모달 특성 기반의 이미지 검색 장치 및 방법
WO2024111870A1 (ko) * 2022-11-23 2024-05-30 한국전자기술연구원 영상-언어 정렬 모델에서 객체의 속성값을 이용한 이미지/텍스트 표현 벡터의 세분화된 표현 강화 방법

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6333871B2 (ja) * 2016-02-25 2018-05-30 ファナック株式会社 入力画像から検出した対象物を表示する画像処理装置
CN110532571B (zh) 2017-09-12 2022-11-18 腾讯科技(深圳)有限公司 文本处理方法及相关装置
CN110147806B (zh) * 2018-10-08 2023-04-07 腾讯科技(深圳)有限公司 图像描述模型的训练方法、装置及存储介质
US11216512B2 (en) * 2018-10-08 2022-01-04 Fujitsu Limited Accessible machine learning backends
CN109858555B (zh) * 2019-02-12 2022-05-17 北京百度网讯科技有限公司 基于图像的数据处理方法、装置、设备及可读存储介质
CN109933802B (zh) * 2019-03-25 2023-05-26 腾讯科技(深圳)有限公司 图文匹配方法、装置及存储介质
CN110111885B (zh) * 2019-05-09 2023-09-19 腾讯科技(深圳)有限公司 属性预测方法、装置、计算机设备及计算机可读存储介质
CN110209859B (zh) * 2019-05-10 2022-12-27 腾讯科技(深圳)有限公司 地点识别及其模型训练的方法和装置以及电子设备
CN110134965B (zh) * 2019-05-21 2023-08-18 北京百度网讯科技有限公司 用于信息处理的方法、装置、设备和计算机可读存储介质
CN110516085B (zh) 2019-07-11 2022-05-17 西安电子科技大学 基于双向注意力的图像文本互检索方法
CN110598739B (zh) * 2019-08-07 2023-06-23 广州视源电子科技股份有限公司 图文转换方法、设备、智能交互方法、设备及系统、客户端、服务器、机器、介质
CN110532414B (zh) * 2019-08-29 2022-06-21 深圳市商汤科技有限公司 一种图片检索方法及装置
CN112528624B (zh) * 2019-09-03 2024-05-14 阿里巴巴集团控股有限公司 文本处理方法、装置、搜索方法以及处理器
CN112529986B (zh) * 2019-09-19 2023-09-22 百度在线网络技术(北京)有限公司 图文相关性的计算模型建立方法、计算方法及装置
CN112580658B (zh) * 2019-09-29 2024-03-12 中国移动通信集团辽宁有限公司 图像语义描述方法、装置、计算设备及计算机存储介质
CN110825901B (zh) * 2019-11-11 2024-08-06 腾讯科技(北京)有限公司 基于人工智能的图文匹配方法、装置、设备及存储介质
WO2021098585A1 (en) * 2019-11-22 2021-05-27 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Image search based on combined local and global information
CN111091010A (zh) * 2019-11-22 2020-05-01 京东方科技集团股份有限公司 相似度确定、网络训练、查找方法及装置和存储介质
CN110991533B (zh) * 2019-12-03 2023-08-04 Oppo广东移动通信有限公司 图像识别方法、识别装置、终端设备及可读存储介质
CN113094550B (zh) * 2020-01-08 2023-10-24 百度在线网络技术(北京)有限公司 视频检索方法、装置、设备和介质
CN111309950A (zh) * 2020-01-18 2020-06-19 青柠知享科技(深圳)有限公司 电商交易信息交互方法、电商平台和可读存储介质
CN111309951A (zh) * 2020-01-23 2020-06-19 北京达佳互联信息技术有限公司 广告语获取方法及其装置、存储介质
CN111626058B (zh) * 2020-04-15 2023-05-30 井冈山大学 基于cr2神经网络的图像-文本双编码实现方法及系统
CN113535829B (zh) * 2020-04-17 2022-04-29 阿里巴巴集团控股有限公司 排序模型的训练方法、装置、电子设备及存储介质
CN111666969B (zh) * 2020-04-22 2021-11-23 北京百度网讯科技有限公司 计算图文相似度的方法、装置、电子设备和可读存储介质
CN111522986B (zh) * 2020-04-23 2023-10-10 北京百度网讯科技有限公司 图像检索方法、装置、设备和介质
CN111581418B (zh) * 2020-04-29 2023-04-28 山东科技大学 一种基于图像关联人物信息的目标人员搜索方法
CN111666753B (zh) * 2020-05-11 2023-04-18 清华大学深圳国际研究生院 基于全局和局部匹配的短文本匹配方法及系统
CN111639484A (zh) * 2020-05-15 2020-09-08 北京青牛技术股份有限公司 坐席通话内容的分析方法
CN111782808A (zh) * 2020-06-29 2020-10-16 北京市商汤科技开发有限公司 文档处理方法、装置、设备及计算机可读存储介质
CN112000803B (zh) * 2020-07-28 2024-05-14 北京小米松果电子有限公司 文本分类方法及装置、电子设备及计算机可读存储介质
CN112052352B (zh) * 2020-09-07 2024-04-30 北京达佳互联信息技术有限公司 视频排序方法、装置、服务器及存储介质
CN112347791B (zh) * 2020-11-06 2023-10-13 北京奇艺世纪科技有限公司 文本匹配模型的构建方法、系统、计算机设备及存储介质
CN112650867B (zh) * 2020-12-25 2024-09-24 北京中科闻歌科技股份有限公司 图片匹配方法、装置、电子设备以及存储介质
CN113392254A (zh) * 2021-03-29 2021-09-14 西安理工大学 一种基于上下文感知注意的图像文本检索方法
CN113221680B (zh) * 2021-04-26 2024-05-28 西北工业大学 基于文本动态引导视觉特征提炼的文本行人检索方法
CN113283497A (zh) * 2021-05-21 2021-08-20 广东博智林机器人有限公司 文本的匹配方法、装置、存储介质和处理器
CN113255667B (zh) * 2021-06-16 2021-10-08 北京世纪好未来教育科技有限公司 文本图像相似度评估方法、装置、电子设备及存储介质
CN113343664B (zh) * 2021-06-29 2023-08-08 京东科技信息技术有限公司 图像文本之间的匹配度的确定方法及装置
CN113283551B (zh) * 2021-07-22 2021-10-29 智者四海(北京)技术有限公司 多模态预训练模型的训练方法、训练装置及电子设备
CN113987115B (zh) * 2021-09-26 2024-10-15 华润数字科技(西安)有限公司 一种文本相似度计算方法、装置、设备及存储介质
CN115909374B (zh) * 2021-09-30 2024-06-18 腾讯科技(深圳)有限公司 一种信息识别方法、装置、设备及存储介质、程序产品
CN113947700A (zh) * 2021-10-18 2022-01-18 北京百度网讯科技有限公司 模型确定方法、装置、电子设备和存储器
CN113742556B (zh) * 2021-11-03 2022-02-08 南京理工大学 一种基于全局和局部对齐的多模态特征对齐方法
CN114154512A (zh) * 2021-12-09 2022-03-08 京东科技信息技术有限公司 小样本学习处理方法、装置、设备及存储介质
US12080050B2 (en) 2021-12-20 2024-09-03 KLA Corp. Machine learning using a global texture characteristic for semiconductor-based applications
CN114549874B (zh) * 2022-03-02 2024-03-08 北京百度网讯科技有限公司 多目标图文匹配模型的训练方法、图文检索方法及装置
CN114723969A (zh) * 2022-03-31 2022-07-08 福建农林大学 基于多尺度稀疏语义动态图的高质量特征匹配选择方法
CN114863135A (zh) * 2022-04-15 2022-08-05 同济大学 一种基于双流分层相似性推理的图像文本匹配方法
CN114782722B (zh) * 2022-04-29 2023-02-03 北京百度网讯科技有限公司 图文相似度的确定方法、装置及电子设备
CN114998607B (zh) * 2022-05-11 2023-01-31 北京医准智能科技有限公司 超声图像的特征提取方法、装置、电子设备及存储介质
CN114972910B (zh) * 2022-05-20 2023-05-23 北京百度网讯科技有限公司 图文识别模型的训练方法、装置、电子设备及存储介质
CN115017356A (zh) * 2022-06-01 2022-09-06 复旦大学 图像文本对的判断方法和装置
CN114896429B (zh) * 2022-07-12 2022-12-27 苏州浪潮智能科技有限公司 一种图文互检方法、系统、设备及计算机可读存储介质
US20240028949A1 (en) 2022-07-20 2024-01-25 Hitachi, Ltd. Reward feedback for learning control policies using natural language and vision data
JP7366204B1 (ja) 2022-07-21 2023-10-20 株式会社エクサウィザーズ 情報処理方法、コンピュータプログラム及び情報処理装置
CN115392389B (zh) * 2022-09-01 2023-08-29 北京百度网讯科技有限公司 跨模态信息匹配、处理方法、装置、电子设备及存储介质
CN115496140B (zh) * 2022-09-19 2023-07-25 北京邮电大学 一种多模态虚假新闻检测方法及系统
CN116308221B (zh) * 2023-05-25 2023-07-21 成都信通信息技术有限公司 一种基于人工智能的低碳奖章自动生成系统
CN117591901B (zh) * 2024-01-17 2024-05-03 合肥中科类脑智能技术有限公司 绝缘子破损检测方法、装置、存储介质和电子设备
CN118013069B (zh) * 2024-04-09 2024-07-23 杭州海康威视数字技术股份有限公司 一种图像检索方法、装置、存储介质和电子设备
CN118279925B (zh) * 2024-06-04 2024-07-30 鲁东大学 一种融合局部和全局语义的图像文本匹配算法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011221794A (ja) * 2010-04-09 2011-11-04 Kddi Corp 画像選定装置
KR20140059834A (ko) * 2011-08-29 2014-05-16 퀄컴 인코포레이티드 콘텍스트 정보를 이용한 모바일 디바이스 상에서의 광학적 문자 인식

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4955060A (en) * 1987-07-02 1990-09-04 Nippon Sheet Glass Co., Ltd. Image recognition apparatus
US5491758A (en) * 1993-01-27 1996-02-13 International Business Machines Corporation Automatic handwriting recognition using both static and dynamic parameters
CN102012939B (zh) * 2010-12-13 2012-11-14 中国人民解放军国防科学技术大学 综合颜色和局部不变特征匹配的动画场景自动标注方法
US8798362B2 (en) * 2011-08-15 2014-08-05 Hewlett-Packard Development Company, L.P. Clothing search in images
CN102629275B (zh) * 2012-03-21 2014-04-02 复旦大学 面向跨媒体新闻检索的人脸-人名对齐方法及系统
CN103353875B (zh) * 2013-06-09 2016-12-28 华中科技大学 基于可视搜索的媒体交互方法及系统
CN104036277A (zh) * 2014-06-03 2014-09-10 中国科学院电子学研究所 一种提取道路特征的方法和设备
WO2016004330A1 (en) * 2014-07-03 2016-01-07 Oim Squared Inc. Interactive content generation
CN104199826B (zh) * 2014-07-24 2017-06-30 北京大学 一种基于关联分析的异构媒体相似性计算方法和检索方法
CN104376105B (zh) * 2014-11-26 2017-08-25 北京航空航天大学 一种社会媒体中图像低层视觉特征与文本描述信息的特征融合系统及方法
CN104778242B (zh) * 2015-04-09 2018-07-13 复旦大学 基于图像动态分割的手绘草图图像检索方法及系统
CN104834747B (zh) * 2015-05-25 2018-04-27 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
US9501724B1 (en) * 2015-06-09 2016-11-22 Adobe Systems Incorporated Font recognition and font similarity learning using a deep neural network
US9836671B2 (en) * 2015-08-28 2017-12-05 Microsoft Technology Licensing, Llc Discovery of semantic similarities between images and text
CN106547744B (zh) * 2015-09-16 2020-11-06 杭州海康威视数字技术股份有限公司 一种图像检索方法及系统
JP6370281B2 (ja) * 2015-09-18 2018-08-08 ヤフー株式会社 情報提供装置、情報提供方法および情報提供プログラム
CN107683469A (zh) * 2015-12-30 2018-02-09 中国科学院深圳先进技术研究院 一种基于深度学习的产品分类方法及装置
CN106095829B (zh) * 2016-06-01 2019-08-06 华侨大学 基于深度学习与一致性表达空间学习的跨媒体检索方法
US11934450B2 (en) * 2016-06-24 2024-03-19 Skusub LLC System and method for object matching using 3D imaging
CN106295631A (zh) * 2016-07-27 2017-01-04 新疆大学 一种图像维吾尔文单词识别方法及装置
CN106503055B (zh) * 2016-09-27 2019-06-04 天津大学 一种从结构化文本到图像描述的生成方法
CN107330100B (zh) * 2017-07-06 2020-04-03 北京大学深圳研究生院 基于多视图联合嵌入空间的图像-文本双向检索方法
KR102466676B1 (ko) * 2017-08-16 2022-11-14 삼성전자주식회사 생체 센서의 성능 평가 방법, 생체 영상을 이용한 인증 방법 및 인증 방법을 적용한 전자 기기
CN110532571B (zh) * 2017-09-12 2022-11-18 腾讯科技(深圳)有限公司 文本处理方法及相关装置
US10740386B2 (en) * 2017-12-29 2020-08-11 MorphoTrak, LLC Multi-stage image matching techniques
KR102455468B1 (ko) * 2018-06-22 2022-10-19 한국전자통신연구원 객체의 3차원 모델을 복원하는 방법 및 장치
US20200293874A1 (en) * 2019-03-12 2020-09-17 Microsoft Technology Licensing, Llc Matching based intent understanding with transfer learning
US10949702B2 (en) * 2019-04-16 2021-03-16 Cognizant Technology Solutions India Pvt. Ltd. System and a method for semantic level image retrieval
CN110490946B (zh) * 2019-07-15 2023-07-04 同济大学 基于跨模态相似度和生成对抗网络的文本生成图像方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011221794A (ja) * 2010-04-09 2011-11-04 Kddi Corp 画像選定装置
KR20140059834A (ko) * 2011-08-29 2014-05-16 퀄컴 인코포레이티드 콘텍스트 정보를 이용한 모바일 디바이스 상에서의 광학적 문자 인식

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102311644B1 (ko) * 2021-01-29 2021-10-12 한국과학기술정보연구원 데이터분석장치 및 그 동작 방법
WO2024111870A1 (ko) * 2022-11-23 2024-05-30 한국전자기술연구원 영상-언어 정렬 모델에서 객체의 속성값을 이용한 이미지/텍스트 표현 벡터의 세분화된 표현 강화 방법
KR102594547B1 (ko) * 2022-11-28 2023-10-26 (주)위세아이텍 멀티모달 특성 기반의 이미지 검색 장치 및 방법

Also Published As

Publication number Publication date
EP3683724A4 (en) 2021-02-17
KR102235051B1 (ko) 2021-03-31
WO2019052403A1 (zh) 2019-03-21
US20200019807A1 (en) 2020-01-16
CN110532571B (zh) 2022-11-18
JP2020522791A (ja) 2020-07-30
US20210312211A1 (en) 2021-10-07
CN108288067A (zh) 2018-07-17
CN108288067B (zh) 2020-07-24
CN110532571A (zh) 2019-12-03
JP6887026B2 (ja) 2021-06-16
US11087166B2 (en) 2021-08-10
US11699298B2 (en) 2023-07-11
EP3683724A1 (en) 2020-07-22

Similar Documents

Publication Publication Date Title
KR102235051B1 (ko) 이미지-텍스트 매칭 모델을 위한 트레이닝 방법, 양방향 검색 방법 및 관련 장치
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
US11062095B1 (en) Language translation of text input using an embedded set for images and for multilanguage text strings
US12086198B2 (en) Embedding based retrieval for image search
KR102354716B1 (ko) 딥 러닝 모델을 이용한 상황 의존 검색 기법
CN110019732B (zh) 一种智能问答方法以及相关装置
KR101754473B1 (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN111753167B (zh) 搜索处理方法、装置、计算机设备和介质
CN111985228B (zh) 文本关键词提取方法、装置、计算机设备和存储介质
US20230306205A1 (en) System and method for personalized conversational agents travelling through space and time
AU2018226420B2 (en) Voice assisted intelligent searching in mobile documents
US12032605B2 (en) Searchable data structure for electronic documents
US20200159765A1 (en) Performing image search using content labels
WO2021007159A1 (en) Identifying entity attribute relations
US20230094828A1 (en) Audio file annotation
US11379527B2 (en) Sibling search queries
CN117494815A (zh) 面向档案的可信大语言模型训练、推理方法和装置
CN112307738B (zh) 用于处理文本的方法和装置
Fernandes et al. Automated disaster news collection classification and geoparsing
CN117788842A (zh) 图像检索方法及相关装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant