KR102266529B1 - 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체 - Google Patents

이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체 Download PDF

Info

Publication number
KR102266529B1
KR102266529B1 KR1020190157613A KR20190157613A KR102266529B1 KR 102266529 B1 KR102266529 B1 KR 102266529B1 KR 1020190157613 A KR1020190157613 A KR 1020190157613A KR 20190157613 A KR20190157613 A KR 20190157613A KR 102266529 B1 KR102266529 B1 KR 102266529B1
Authority
KR
South Korea
Prior art keywords
text
features
matching
image
degree
Prior art date
Application number
KR1020190157613A
Other languages
English (en)
Other versions
KR20200098379A (ko
Inventor
지안후이 후앙
핑핑 후앙
민 치아오
잉 리
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20200098379A publication Critical patent/KR20200098379A/ko
Application granted granted Critical
Publication of KR102266529B1 publication Critical patent/KR102266529B1/ko

Links

Images

Classifications

    • G06K9/62
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06K9/46
    • G06K9/6201
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Abstract

본 발명의 실시예는 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체를 제공한다. 여기서, 이미지 기반의 데이터 처리 방법은, 이미지 및 피처리 텍스트를 획득하는 단계; 이미지 중 복수의 객체의 특징을 추출하고 상기 텍스트의 특징을 추출하는 단계; 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키는 단계; 및 상기 이미지의 융합 특징 및 텍스트의 특징에 따라 상기 텍스트를 처리하는 단계를 포함한다. 본 발명의 실시예는 텍스트와 이미지 중 각 객체의 연관 관계를 정확하게 학습함으로써 처리 정확도를 향상시킬 수 있다.

Description

이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체{METHOD, APPARATUS, DEVICE AND READABLE STORAGE MEDIUM FOR IMAGE-BASED DATA PROCESSING}
관련 출원에 대한 상호 참조
본 출원은 중국 특허 출원 제201910111412.5호(출원일: 2019년 2월 12일, 발명의 명칭: "Method, Apparatus, Device and Readable Storage Medium for Image-Based Data Processing")에 대한 우선권을 주장하며, 이 기초출원은 이의 전문이 참고로 본 명세서에 원용된다.
기술 분야
본 발명의 실시예는 컴퓨터 시각 기술에 관한 것으로, 특히 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체에 관한 것이다.
컴퓨터 시각 기술이 발전함에 따라, 시각 문답 등 이미지 기반의 데이터 처리 방법이 나타났다. 시각 문답(Visual Question Answer: VQA)은 멀티모드 데이터 마이닝의 첨단 응용 중 하나로서, 시각 이미지에 대한 자연 언어 문답을 시각 이해(Visual Understanding)로 하는 하나의 연구 방향이며, 시각과 언어를 연결시키는 VQA는 이미지를 이해한 기초상에서 구체적인 텍스트 문제에 따라 처리해야 한다.
현재의 이미지 기반의 데이터 처리 방법에서, 우선 두 세트의 상이한 하위 계층으로 시스템을 나타내고, 각각 이미지 및 텍스트의 하위 계층 특징을 추출하며, 이미지 및 텍스트의 상위 계층 특징을 학습한 후, 학습 모듈과 연관시켜 이미지 및 텍스트의 상위 계층 특징을 연관시킴으로써 텍스트를 처리한다.
현재의 이미지 기반의 데이터 처리 방법은 이미지 특징 및 텍스트 특징에서 텍스트와 이미지 중 각 객체의 연관 관계를 학습하므로 상기 연관 관계의 정확성이 높지 않아 텍스트 처리에 착오가 발생하게 된다.
본 발명의 실시예는 이미지 기반의 데이터 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능 저장 매체에 관한 것으로, 텍스트와 이미지 중 각 객체의 연관 관계를 정확하게 학습함으로써 처리 정확도를 향상시킬 수 있다.
본 발명의 제1 양태에 따르면, 이미지 기반의 데이터 처리 방법을 제공한다. 상기 방법은, 이미지 및 피처리 텍스트를 획득하는 단계; 이미지 중 복수의 객체의 특징을 추출하고 상기 텍스트의 특징을 추출하는 단계; 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키는 단계; 및 상기 이미지의 융합 특징 및 텍스트의 특징에 따라 상기 텍스트를 처리하는 단계를 포함한다.
본 발명의 제2 양태에 따르면, 이미지 기반의 데이터 처리 장치를 제공하되, 상기 장치는, 이미지 및 피처리 텍스트를 획득하는 획득 모듈; 이미지 중 복수의 객체의 특징을 추출하고 텍스트의 특징을 추출하는 추출 모듈; 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키는 융합 모듈; 및 이미지의 융합 특징 및 텍스트의 특징에 따라 상기 텍스트를 처리하는 처리 모듈을 포함한다.
본 발명의 제3 양태에 따르면, 전자 기기를 제공하되, 상기 전자 기기는, 하나 또는 복수의 프로세서; 및 하나 또는 복수의 프로그램이 저장된 메모리를 포함하되, 상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 본 발명의 양태에 따른 이미지 기반의 데이터 처리 방법을 구현한다.
본 발명의 제4 양태에 따르면, 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체를 제공하되, 상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우 본 발명의 양태에 따른 이미지 기반의 데이터 처리 방법을 구현한다.
본 발명의 실시예에서, 이미지 및 피처리 텍스트를 획득하고, 이미지 중 복수의 객체의 특징을 추출하고 텍스트의 특징을 추출하며, 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시킴으로써, 텍스트와 객체 특징이 연관성을 갖고 있음을 표현하는 이러한 선험적 지식을 충분히 이용하고 매칭도에 기반하여 이미지의 특징을 조정하여, 융합 특징이 텍스트와 강한 연관성을 갖는 부분에 더 많은 주의를 기울일 수 있도록 함으로써, 주의력 분포 분산을 방지하고, 텍스트와 강한 연관성을 갖는 텍스트의 특징을 통해 텍스트에 대한 처리 정확도를 향상시킬 수 있다.
도 1a는 본 발명의 실시예 1에 의해 제공되는 이미지 기반의 데이터 처리 방법의 흐름도이다.
도 1b는 본 발명의 실시예 1에 의해 제공되는 각각의 객체가 위치하는 바운딩 박스의 개략도이다.
도 1c는 본 발명의 실시예 1에 의해 제공되는 융합 특징에 대응되는 이미지의 개략도이다.
도 2a는 본 발명의 실시예 2에 의해 제공되는 이미지 기반의 데이터 처리 방법의 흐름도이다.
도 2b는 본 발명의 실시예 2에 의해 제공되는 매칭 모델을 통해 매칭 동작을 진행하는 개략적 흐름도이다.
도 2c는 본 발명의 실시예 2에 의해 제공되는 매칭 모델 트레이닝의 흐름도이다.
도 2d는 본 발명의 실시예 2에 의해 제공되는 매칭 모델을 사용한 이미지 기반의 데이터 처리 방법의 흐름도이다.
도 3은 본 발명의 실시예 3에 의해 제공되는 이미지 기반의 데이터 처리 방법의 흐름도이다.
도 4는 본 발명의 실시예 4에 의해 제공되는 이미지 기반의 데이터 처리 장치구조 개략도이다.
도 5는 본 발명의 실시예 5에 의해 제공되는 전자 기기의 구조 개략도이다.
이하 첨부 도면 및 실시예를 참조하여 본 발명을 더욱 자세히 설명한다. 여기서 설명되는 구체적인 실시예는 관련 발명을 해석하기 위한 것일 뿐 본 발명은 이에 한정되지 않음을 이해할 수 있을 것이다. 이 밖에, 설명의 편의를 위해 도면에는 해당 발명과 관련된 부분만이 도시되었음을 유의해야 한다.
실시예 1
도 1a는 본 발명의 실시예 1에 의해 제공되는 이미지 기반의 데이터 처리 방법의 흐름도이고, 본 실시예는 이미지를 인식하여 텍스트를 처리하는 상황에 적용될 수 있다. 상기 방법은 이미지 기반의 데이터 처리 장치에 의해 수행될 수 있으며, 상기 장치는 하드웨어 및/또는 소프트웨어로 구성될 수 있고, 일반적으로 전자 기기에 집적되며, 구체적으로 하기와 같은 단계를 포함한다.
단계 S110에서, 이미지 및 피처리 텍스트를 획득한다.
본 실시예에서, 이미지는 사진, 프린트스크린, 비디오 프레임 등일 수 있다. 피처리 텍스트는 상기 이미지에 관한 형태가 자유스럽고 개방식인 자연 언어 텍스트이다. 피처리 텍스트는 텍스트에 대한 이해, 예를 들어, 진위 판단, 텍스트 콘텐츠 이해 등을 포함하고; 또한 자연 언어 문제를 더 포함한다. 텍스트에서 제기되는 문제의 카테고리는 세밀화 인식(예를 들어, 이 여성분은 백인종입니까?), 물체 인식(예를 들어, 도면에 바나나가 몇 개 있습니까?), 행위 인식(예를 들어, 이 여성분은 울고 있습니까?), 및 문제에 포함되는 텍스트에 대한 이해를 더 포함할 수 있으나 이에 한정되지 않는다.
단계 S120에서, 이미지 중 복수의 객체의 특징을 추출하고 텍스트의 특징을 추출한다.
선택 가능하게, 이미지를 타겟 검출 모델 또는 분류 모델에 입력하여 이미지 중 복수의 객체의 특징을 추출하고, 나아가, 각각의 객체가 위치하는 바운딩 박스 좌표를 더 추출한다. 여기서, 타겟 검출 모델 또는 분류 모델은 심층 학습에 기반한 타겟 검출 모델 또는 분류 모델일 수 있는바, 예를 들어, R-CNN, Fast R-CNN 등일 수 있다.
선택 가능하게, 예를 들어 36개, 52개 등 추출해야 하는 객체 개수를 미리 설정하고, 타겟 검출 모델에 의해 기설정된 개수의 객체의 특징을 추출하며, 각각의 객체가 위치하는 바운딩 박스 좌표를 추출한다. 도 1b는 본 발명의 실시예 1에 의해 제공되는 각각의 객체가 위치하는 바운딩 박스의 개략도이다. 도 1b는 곰 몸체와 곰 발바닥인 2개의 객체를 도시하였고, 곰 몸체가 위치하는 바운딩 박스는 굵은 실선으로 표시하며, 곰 발바닥이 위치하는 바운딩 박스는 가는 실선으로 표시한다.
선택 가능하게, 백 오브 단어 모델(bag of words model) 또는 순환 신경망(Recurrent Neural Network: RNN)을 통해 텍스트의 특징을 추출한다.
단계 S130에서, 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시킨다.
주의력 메커니즘(Attention Mechanism)에 따르면, 사람들이 이미지를 관찰할 경우, 실제로 한 번에 전체 이미지의 각각의 위치 픽셀을 모두 확인하는 것이 아니라, 대부분 수요에 따라 주의력을 인물의 얼굴과 같은 이미지의 특정 부분에 집중시킨다. 또한, 사람들은 사전에 관찰했던 이미지에 따라 미래에 이미지를 관찰 시 주의력을 집중시켜야 할 위치를 학습한다. 유사하게, 텍스트에 있어서, 텍스트가 이미지 중 각각의 객체에 대한 주의력도 상이하며, 예를 들어, "당신은 곰 발바닥을 볼 수 있습니까?"에 대한 주의력은 도 1b의 곰 발바닥에 집중시켜야 하고, 또한 예를 들어, "곰은 어떤 표정을 짓고 있습니까?"에 대한 주의력은 도 1b의 곰 머리에 집중시켜야 한다.
상기 분석에 따르면, 텍스트에 집중시키는 주의력이 비교적 많은 객체의 특징에 따라 텍스트를 보다 정확하게 처리할 수 있다. 본 실시예에서, 텍스트와 각각의 객체 사이의 특징의 매칭도를 이용하여 텍스트와 각각의 객체의 주의력을 나타낸다. 이에 따라, 텍스트와 각각의 객체 사이의 특징의 매칭도에 따라 각각의 객체의 특징을 조정한다. 예를 들어, 매칭도가 큰 객체의 특징을 강화시키고, 매칭도가 작은 객체의 특징을 약화시키며, 그 다음, 조정 후의 각각의 객체의 특징을 이미지의 새로운 특징으로 융합시킨다. 설명과 구분의 편의를 위하여, 융합 후 이미지의 새로운 특징을 이미지의 융합 특징이라고 지칭한다. 도 1c는 본 발명의 실시예 1에 의해 제공되는 융합 특징에 대응되는 이미지의 개략도이다. 예를 들어, 피처리 텍스트가 "당신은 곰 발바닥을 볼 수 있습니까?"일 경우, 텍스트와 곰 발바닥 객체의 특징의 매칭도는 90%이고, 곰 다리의 특징의 매칭도는 50%이며, 기타 객체(예를 들어, 나무 줄기 객체, 풀숲 객체)의 특징 매칭도는 10%이다. 다음, 매칭도를 이용하여 객체에 대응되는 특징을 조정하고 융합시킴으로써 이미지의 융합 특징을 획득한다. 선택 가능하게, 매칭도가 매칭도 임계값보다 크거가 같은 객체의 특징을 보류 또는 강화시키거나, 매칭도가 매칭도 임계값보다 작은 객체의 특징을 약화시키며, 보류된 특징을 융합시킴으로써 이미지의 융합 특징을 획득한다. 도 1c로부터 알 수 있듯이, 곰 발바닥의 특징이 강화되고 곰 다리의 특징이 변화가 없으며 다른 객체의 특징이 약화된다.
텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키는 단계 이전에, 텍스트와 각각의 객체 사이의 특징의 매칭도를 산출하는 동작을 더 포함한다. 선택 가능하게, 이미지 중 복수의 객체의 특징을 추출하고 각각의 객체의 카테고리(예를 들어, 곰 발바다가, 곰 다리, 나무 줄기, 풀숲 등)를 획득한다. 텍스트에서 각각의 객체의 카테고리를 검색하고, 검색 결과에 따라 텍스트와 각각의 객체 사이의 특징의 매칭도를 결정한다. 예를 들어, "당신은 곰 발바닥을 볼 수 있습니까?"로부터 "곰 발바닥"과 "곰 다리" 중의 "곰"을 검색해내고, "나무 줄기"와 "풀숲"은 검색해내지 못한다. 따라서, 텍스트와 곰 발바닥 객체 사이의 특징의 매칭도가 크고 텍스트와 곰 다리 객체 사이의 특징의 매칭도가 중간 정도이며 텍스트와 나무 줄기 및 풀숲 객체의 매칭도가 작음을 결정할 수 있다.
단계 S140에서, 이미지의 융합 특징 및 텍스트의 특징에 따라 텍스트를 처리한다.
선택 가능하게, 텍스트에 대한 처리 동작은 텍스트에 대한 이해, 예를 들어, 진위 판단, 텍스트 콘텐츠 이해 등, 및 텍스트에 대한 응답을 포함할 수 있으나 이에 한정되지 않는다.
선택 가능하게, 이미지의 융합 특징 및 텍스트의 특징을 시각 문답(Visual Question Answer: VQA) 시스템에 입력하여 VQA 시스템으로부터 출력된 응답을 획득한다. 본 실시예에 의해 제공되는 VQA 시스템은 Deeper LSTM Q + norm I 모델, VIS+LSTM 모델, 2-VIS+BLSTM, IMG+BOW 등 다양한 모델 조합을 포함한다.
본 발명의 실시예에서, 이미지 및 피처리 텍스트를 획득하고, 이미지 중 복수의 객체의 특징을 추출하고 텍스트의 특징을 추출하며, 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시킴으로써, 텍스트와 객체 특징이 연관성을 갖고 있음을 표현하는 이러한 선험적 지식을 충분히 이용하고 매칭도에 기반하여 이미지의 특징을 조정하여, 융합 특징이 텍스트와 강한 연관성을 갖는 부분에 더 많은 주의를 기울일 수 있도록 함으로써, 주의력 분포 분산을 방지하고, 텍스트와 강한 연관성을 갖는 텍스트의 특징을 통해 텍스트에 대한 처리 정확도를 향상시킬 수 있다.
실시예 2
본 실시예는 상기 실시예의 각 선택 가능한 실시형태에 기반하여 진일보 최적화한 것이다. 선택 가능하게, "텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키는 단계" 이전에, "각각의 객체에 대응되는 바운딩 박스 내의 이미지 및 텍스트를 매칭 모델에 순차적으로 입력하여 매칭 모델에서 출력된 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도를 획득하는 단계; 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도에 따라 텍스트와 각각의 객체의 특징의 매칭도를 획득하는 단계"를 더 수행한다. 도 2a는 본 발명의 실시예 2에 의해 제공되는 이미지 기반의 데이터 처리 방법의 흐름도이고, 본 실시예에 의해 제공되는 방법은 하기와 같은 단계를 포함한다.
단계 S210에서, 이미지 및 피처리 텍스트를 획득한다.
단계 S220에서, 이미지 중 복수의 객체의 특징을 추출하고 텍스트의 특징을 추출한다.
단계 S230에서, 각각의 객체에 대응되는 바운딩 박스 내의 이미지 및 텍스트를 매칭 모델에 순차적으로 입력하여 매칭 모델에서 출력된 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도를 획득한다.
상기 실시예의 관련 설명에 따르면, 각각의 이미지를 타겟 검출 모델 또는 분류 모델에 순차적으로 입력하여 이미지 중 복수의 객체의 특징, 및 각각의 객체가 위치하는 바운딩 박스 좌표를 추출한다. 본 실시예에서, 각각의 객체가 위치하는 바운딩 박스 좌표에 따라 이미지로부터 각각의 객체에 대응되는 바운딩 박스 내의 이미지를 발취한다. 다음, 각각의 객체에 대응되는 바운딩 박스 내의 이미지를 매칭 모델에 순차적으로 입력한다. 첫 번째 이미지를 입력할 경우, 텍스트도 입력해야 하는데, 텍스트는 한 번만 입력하면 되고, 후속으로 이미지를 입력할 경우 텍스트를 다시 입력하지 않아도 된다. 물론, 매번 이미지를 입력할 때마다 텍스트를 입력할 수도 있다.
도 2b는 본 발명의 실시예 2에 의해 제공되는 매칭 모델을 통해 매칭 동작을 진행하는 프로세스의 개략도이다. 도 2b를 참조하면, 매칭 모델은 이미지 특징 추출 단계, 텍스트 특징 추출 단계, 이미지 특징 차원 변환 단계, 텍스트 특징 차원 변환 단계 및 매칭 단계를 포함한다.
여기서, 이미지 특징 추출 단계는 각각의 객체에 대응되는 바운딩 박스 내의 이미지로부터 각각의 객체의 특징을 추출하고; 이미지 특징 차원 변환 단계는 각각의 객체의 특징 차원을 기설정 차원으로 변환시키며; 텍스트 특징 추출 단계는 텍스트 중 각각의 단어의 특징을 추출하고; 텍스트 특징 차원 변환 단계는 텍스트 중 각각의 단어의 특징 차원을 기설정 차원으로 변환시키며; 매칭 단계는 차원 변환 후, 각각의 객체의 특징 각각과 각각의 단어의 특징 사이의 매칭도를 산출한다.
일반적으로, 이미지는 텍스트보다 포함하는 정보가 상대적으로 더 많으므로, 특징 추출을 거친 후, 각각의 객체의 특징 차원과 텍스트 중 각각의 단어의 특징 차원은 상이하다. 일 예시에서, 각각의 객체의 특징 차원은 1024이고, 각각의 단어의 특징 차원은 300이며, 각각의 객체의 특징과 각각의 단어의 특징의 매칭도를 산출하려면, 양자의 특징 차원을 기설정 차원으로 변환시켜야 하되, 구체적으로, 추출해 낸 특징을 매트릭스 변환시켜 공동 차원의 특징을 획득하는데, 예를 들어 600 차원의 특징을 획득한다.
이어서, 매칭 단계에서, 차원 변환 후, 각각의 객체의 특징과 각각의 단어의 특징 사이의 매칭도를 산출한다. 선택 가능하게, 매칭 단계는 구체적으로, 차원 변환 후, 각각의 객체의 특징 각각과 텍스트 중 각각의 단어의 특징 사이의 거리, 코사인 유사도, 또는 거리와 코사인 유사도 양자를 산출하여, 각각의 객체의 특징과 텍스트 중 각각의 단어의 특징의 매칭도를 획득한다. 선택 가능하게, 거리는 유클리드 거리, 마하라노비스 거리 등을 포함한다. 거리와 코사인 유사도를 산출하여 매칭도를 획득할 경우, 각각의 객체의 특징 각각과 텍스트 중 각각의 단어의 특징의 거리와 코사인 유사도 중의 비교적 큰 값, 비교적 작은 값 또는 평균값을 선택하여 각각의 객체의 특징과 텍스트 중 각각의 단어의 특징의 매칭도를 획득할 수 있다.
하나의 선택 가능한 실시형태에서, 각각의 객체에 대응되는 바운딩 박스 내의 이미지 및 텍스트를 매칭 모델에 순차적으로 입력하는 단계 이전에, 매칭 모델을 트레이닝하는 동작을 더 포함한다 도 2c는 본 발명의 실시예 2에 의해 제공되는 매칭 모델 트레이닝의 흐름도이며, 트레이닝 과정은 대체적으로 하기와 같은 3개의 단계를 포함한다.
첫 번째 단계에서, 매칭 모델의 트레이닝을 위한 포지티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지, 네거티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지 및 포지티브 샘플 객체의 라벨을 획득한다. 여기서, 포지티브 샘플 객체의 라벨(Label)은 포지티브 샘플 객체의 카테고리이다.
VG 데이터 세트 중 각각의 이미지의 표기 정보는 이미지 중 각각의 객체, 관계 및 속성, 및 이미지에서의 객체와 속성의 바운딩 박스 좌표를 포함하고, 여기서, 객체와, 대응되는 바운딩 박스 내의 이미지에는 강한 연관성이 존재한다.
본 실시예에서, 기존의 VG(Visual Genome) 데이터 세트를 이용하여 상기 이미지와 라벨을 획득한다. 구체적으로, 기설정된 포지티브 샘플 객체는 S이고, 대응되는 라벨도 S이며, 네거티브 샘플 객체는 비(non-) S이다. VG 데이터 세트에서, 포지티브 샘플 객체인 S가 이미지 내에서의 바운딩 박스 좌표에 따라 포지티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지를 발취하고, 네거티브 샘플 객체인 비 S가 이미지 내에서의 바운딩 박스 좌표에 따라 네거티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지를 발취한다. 도 2c에서, 포지티브 샘플 객체는 곰 발바닥이고, 네거티브 샘플 객체는 곰 몸체이며, 대응되는 바운딩 박스 내의 이미지는 실선 블록으로 나타내고, 포지티브 샘플 객체의 라벨은 곰 발바닥이다.
두 번째 단계에서, 포지티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지, 네거티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지 및 라벨을 매칭 모델에 입력하여 포지티브 샘플 객체의 특징과 라벨 특징의 제1 매칭도, 및 네거티브 샘플 객체의 특징과 라벨 특징의 제2 매칭도를 획득한다.
매칭 모델에 있어서, 이미지 특징 추출 단계로서, 포지티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지로부터 포지티브 샘플 객체의 특징을 추출하고, 네거티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지로부터 네거티브 샘플 객체의 특징을 추출하며; 텍스트 특징 추출 단계로서, 라벨의 특징을 추출한다. 다음, 이미지 특징 차원 변환 단계로서, 포지티브 샘플 객체의 특징 차원 및 네거티브 샘플 객체의 특징 차원을 모두 기설정 차원으로 변환시키고, 텍스트 특징 차원 변환 단계로서, 라벨의 특징 차원을 기설정 차원으로 변환시킨다. 매칭 단계로서, 차원 변환 후, 포지티브 샘플 객체의 특징과 라벨의 특징의 제1 매칭도, 및 네거티브 샘플 객체의 특징과 라벨의 특징의 제2 매칭도를 계산한다. 제1 매칭도는 포지티브 샘플 객체의 특징과 라벨의 특징의 거리 및/또는 코사인 유사도이고, 제2 매칭도는 네거티브 샘플 객체의 특징과 라벨의 특징의 거리 및/또는 코사인 유사도이다.
세 번째 단계에서, 제1 매칭도를 최대화하고 제2 매칭도를 최소화하는 것을 목적으로 하거나, 제1 매칭도와 제2 매칭도의 차이값을 기설정된 임계값보다 크게 하는 것을 목적으로 하여, 매칭 모델을 트레이닝한다.
제1 매칭도를 최대화하고 제2 매칭도를 최소화하여 타겟 함수를 생성하거나, 제1 매칭도와 제2 매칭도의 차이값을 기설정된 임계값보다 크게 하여 타겟 함수를 생성하고, 타겟 함수에 따라 매칭 모델 중의 파라미터를 반복(iterate)한다. 선택 가능하게, 매칭 모델 중의 전부 또는 부분 단계의 파라미터를 반복할 수 있는데, 예를 들어, 이미지 특징 추출 단계, 텍스트 특징 추출 단계, 이미지 특징 차원 변환 단계 및 텍스트 특징 차원 변환 단계 중의 파라미터는 경험치를 사용하여 반복하지 않으며, 매칭 단계 중의 파라미터만 반복한다.
단계 S240에서, 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도에 따라 텍스트와 각각의 객체의 특징의 매칭도를 획득한다.
선택 가능하게, 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도로부터, 각각의 객체의 특징과 대응되는 최대 매칭도 또는 평균 매칭도를 산출하여 텍스트와 각각의 객체의 특징의 매칭도로 한다. 예를 들어, 곰 발바닥의 특징과 텍스트 "당신은 곰 발바닥을 볼 수 있습니까?" 중 "당신", "수", "볼", "곰 발바닥", "있습니까"의 특징의 매칭도가 각각 10%, 10%, 10%, 90%, 10%일 경우, 텍스트와 곰 발바닥의 특징의 매칭도는, 최대 매칭도 90%, 또는 평균 매칭도 26%이다. 또한 예를 들어, 풀숲의 특징과 텍스트 "당신은 곰 발바닥을 볼 수 있습니까?" 중 "당신", "수", "볼", "곰 발바닥", "있습니까"의 특징의 매칭도가 각각 15%, 10%, 10%, 10%, 10%일 경우, 텍스트와 풀숲의 특징의 매칭도는, 최대 매칭도 15%, 또는 평균 매칭도 11%이다.
단계 S250에서, 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시킨다.
단계 S260에서, 이미지의 융합 특징 및 텍스트의 특징에 따라 텍스트를 처리한다.
도 2d는 본 발명의 실시예 2에 의해 제공되는 매칭 모델을 사용한 이미지 기반의 데이터 처리 방법의 흐름도이고, 이미지 기반의 데이터 처리 장치의 입력은 텍스트 "당신은 곰 발바닥을 볼 수 있습니까?" 및 도 1b에 도시된 이미지이다. 이미지 기반의 데이터 처리 장치는 한편으로 텍스트의 특징을 추출하면서 다른 한편으로 매칭 모델을 통해 매칭도를 획득함으로써, 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키고, 다음, 텍스트의 특징 및 융합 특징을 융합시킨 후 다시 분류하여, 텍스트를 처리한다.
본 실시예에서, 각각의 객체에 대응되는 바운딩 박스 내의 이미지 및 텍스트를 매칭 모델에 순차적으로 입력하여 매칭 모델에서 출력된 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도를 획득함으로써, 미리 트레이닝된 매칭 모델에 기반하여 객체의 특징 각각과 각각의 단어의 특징의 매칭도를 직접 획득함으로써, 이미지에 있어서, 국부 특징이 텍스트 중 어느 단어와 대응되는 지를 표현하고; 텍스트에 있어서, 단어가 이미지 중 어느 국부 정보에 대응되는 지를 확인할 수 있다. 객체와 텍스트의 매칭도를 객체와 각각의 단어의 매칭도로 세분화시켜, 이미지의 국부 특징과 단어 사이의 세밀화, 정확한 연관을 미리 학습한다.
또한, 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도에 따라 텍스트와 각각의 객체의 특징의 매칭도를 획득함으로써, 각각의 단어의 매칭도에 대해, 종합적으로 텍스트와 객체의 매칭도를 획득하므로, 매칭도의 정확성을 향상시키고, 따라서 텍스트 처리의 정확성을 향상시킨다.
또한, 본 실시예는 포지티브/네거티브 샘플을 이용하여 매칭 모델을 트레이닝시킴으로써, 매칭되는 포지티브 샘플 객체와 라벨의 거리를 감소시키는 동시에, 매칭되지 않는 네거티브 샘플 객체와 라벨의 거리를 증가시킴으로써, 모델 트레이닝의 정확성을 효과적으로 향상시킬 수 있다. 또한, 매칭 모델의 트레이닝을 위한 샘플은 바운딩 박스 내의 이미지와 라벨만 포함하고, 이미지, 의문문 및 응답을 포함한 VQA 데이터에 비해, 샘플을 획득하는 경로가 다양하므로, 응용 상황이 광범위하고, 텍스트 확장에 용이하다. 본 실시예에 의해 제공되는 매칭 모델을 사용한 이미지 기반의 데이터 처리 방법은 보편성을 지니고, 응용 상황이 광범위하며, 응용 비용이 낮고, 텍스트 확장에 용이한 멀티모드 학습 방법으로서, 원래의 태스크의 컴퓨팅 시스템 프로세스 변화가 크지 않을 경우, 매칭 모델을 거의 모든 멀티모드 태스크에 응용할 수 있다.
또한, 본 실시예는 객체의 라벨과 객체, 라벨과 텍스트 사이의 강한 연관성을 충분히 이용하여 이미지 기반의 데이터 처리 장치가 이미지와 텍스트 사이의 연관성에 대한 학습을 강화시킬 수 있다.
실시예 3
도 3은 본 발명의 실시예 3에 의해 제공되는 이미지 기반의 데이터 처리 방법의 흐름도이다. 본 발명의 실시예는 상기 각 실시예의 기술적 해결수단에 기반하여 동작을 세분화한 것이다. 선택 가능하게, "텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키는" 동작을 "텍스트와 각각의 객체의 특징의 매칭도에 따라 각각의 객체의 특징을 가중 합산하여 이미지의 융합 특징을 획득하는" 동작으로 세분화한다. 도 3에 도시된 이미지 기반의 데이터 처리 방법은 하기와 같은 단계를 포함한다.
단계 S310에서, 이미지 및 피처리 텍스트를 획득한다.
단계 S320에서, 이미지 중 복수의 객체의 특징을 추출하고 텍스트의 특징을 추출한다.
단계 S330에서, 텍스트와 각각의 객체의 특징의 매칭도에 따라 각각의 객체의 특징을 가중 합산하여 이미지의 융합 특징을 획득한다.
선택 가능하게, 텍스트와 각각의 객체의 특징의 매칭도는 하기와 같은 2가지 선택 가능한 실시형태에 의해 획득할 수 있다.
첫 번째 선택 가능한 실시형태에서, 각각의 객체에 대응되는 바운딩 박스 내의 이미지 및 텍스트를 매칭 모델에 순차적으로 입력하여 매칭 모델에서 출력된 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도를 획득하고; 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도에 따라 텍스트와 각각의 객체 사이의 특징의 매칭도를 획득한다.
두 번째 선택 가능한 실시형태에서, 각각의 객체의 카테고리를 획득하고; 텍스트에서 각각의 객체의 카테고리를 검색하여, 검색 결과에 따라 텍스트와 각각의 객체의 특징의 매칭도를 결정한다.
상기 2가지 선택 가능한 실시형태의 구체적인 설명은 상기한 실시예들을 참조할 수 있으므로, 여기서 더 이상 설명하지 않는다.
본 동작에서, 텍스트와 각각의 객체 사이의 특징의 매칭도를 각각의 객체의 특징의 가중치로 하고, 가중치를 이용하여 객체의 특징을 가중 합산하여 이미지의 융합 특징을 획득한다. 예를 들어, 텍스트 "당신은 곰 발바닥을 볼 수 있습니까?"와 곰 발바닥의 특징과의 매칭도가 90%이고, 풀숲의 특징과의 매칭도가 10%이며, 나무 줄기의 특징과의 매칭도가 10%이며, 곰 다리의 특징과의 매칭도가 50%일 경우, 이미지의 융합 특징은 90% × 곰 발바닥의 특징 + 10% × 풀숲의 특징 + 10% × 나무 줄기의 특징 + 50% × 곰 다리의 특징이다.
객체의 특징이 정확하고 전면적이도록 확보하기 위하여, 복수의 객체의 특징을 융합시킬 경우, 복수의 객체의 특징으로서 차원 변환 전의 특징을 사용하는데, 즉, 각각의 객체에 대응되는 바운딩 박스 내의 이미지로부터 추출해 낸 각각의 객체의 특징을 사용함을 유의해야 한다.
단계 S340에서, 이미지의 융합 특징 및 텍스트의 특징에 따라 텍스트를 처리한다.
선행기술에 비해, 본 실시예는 이미지의 융합 특징으로 이미지의 상위 계층 특징을 대체하므로, 융합 특징이 이미지의 국부 특징과 텍스트 사이의 매칭도에 대한 선험적 지식을 갖기에, 텍스트 처리의 정확성을 향상시킨다. 예를 들어, 텍스트 중의 "곰 발바닥"은 곰 발바닥 객체의 특징과 상대적으로 높은 매칭도를 갖기에, 이미지 기반의 데이터 처리 장치는 도면에서 "곰 발바닥"과 대응되는 영역을 정확하게 찾을 수 있음으로써, 분석을 거쳐 정확한 답안이 "예"임을 확인한다.
실시예 4
도 4는 본 발명의 실시예 4에 의해 제공되는 이미지 기반의 데이터 처리 장치의 구조 개략도이고, 본 발명의 실시예는 이미지를 인식하여 텍스트를 처리하는 상황에 적용되며, 도 4를 참조하면, 이미지 기반의 데이터 처리 장치는 획득 모듈(410), 추출 모듈(420), 융합 모듈(430) 및 처리 모듈(440)을 포함한다.
획득 모듈(410)은 이미지 및 피처리 텍스트를 획득한다.
추출 모듈(420)은 이미지 중 복수의 객체의 특징을 추출하고 텍스트의 특징을 추출한다.
융합 모듈(430)은 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시킨다.
처리 모듈(440)은 융합 모듈(430)에 의해 획득된 이미지의 융합 특징 및 추출 모듈(420)에 의해 추출된 텍스트의 특징에 따라 텍스트를 처리한다.
본 발명의 실시예에서, 이미지 및 피처리 텍스트를 획득하고, 이미지 중 복수의 객체의 특징을 추출하고 텍스트의 특징을 추출하며, 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시킴으로써, 텍스트와 객체 특징이 연관성을 갖고 있음을 표현하는 이러한 선험적 지식을 충분히 이용하고 매칭도에 기반하여 이미지의 특징을 조정하여, 융합 특징이 텍스트와 강한 연관성을 갖는 부분에 더 많은 주의를 기울일 수 있도록 함으로써, 주의력 분포 분산을 방지하고, 텍스트와 강한 연관성을 갖는 텍스트의 특징을 통해 텍스트에 대한 처리 정확도를 향상시킬 수 있다.
선택 가능하게, 상기 이미지 기반의 데이터 처리 장치는, 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키기 전에, 각각의 객체에 대응되는 바운딩 박스 내의 이미지 및 텍스트를 매칭 모델에 순차적으로 입력하여 매칭 모델에서 출력된 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도를 획득하고; 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도에 따라 텍스트와 각각의 객체 사이의 특징의 매칭도를 획득하는 제1 매칭도 획득 모듈을 더 포함한다.
선택 가능하게, 매칭 모델은, 각각의 객체에 대응되는 바운딩 박스 내의 이미지로부터 각각의 객체의 특징을 추출하는 이미지 특징 추출 단계; 각각의 객체의 특징 차원을 기설정 차원으로 변환시키는 이미지 특징 차원 변환 단계; 텍스트 중 각각의 단어의 특징을 추출하는 텍스트 특징 추출 단계; 텍스트 중 각각의 단어의 특징 차원을 기설정 차원으로 변환시키는 텍스트 특징 차원 변환 단계; 및 차원 변환 후, 각각의 객체의 특징 각각과 각각의 단어의 특징의 매칭도를 산출하는 매칭 단계를 포함한다.
선택 가능하게, 매칭 단계는 구체적으로, 차원 변환 후, 각각의 객체의 특징 각각과 텍스트 중 각각의 단어의 특징의 거리 및/또는 코사인 유사도를 산출하여 각각의 객체의 특징과 텍스트 중 각각의 단어의 특징의 매칭도를 획득한다.
선택 가능하게, 상기 이미지 기반의 데이터 처리 장치는, 각각의 객체에 대응되는 바운딩 박스 내의 이미지 및 텍스트를 매칭 모델에 순차적으로 입력하기 전에, 매칭 모델의 트레이닝을 위한 포지티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지, 네거티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지 및 포지티브 샘플 객체의 라벨을 획득하고; 포지티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지, 네거티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지 및 라벨을 매칭 모델에 입력하여 포지티브 샘플 객체의 특징과 라벨 특징의 제1 매칭도, 및 네거티브 샘플 객체의 특징과 라벨 특징의 제2 매칭도를 획득하며; 제1 매칭도를 최대화하고 제2 매칭도를 최소화하는 것을 목적으로 하거나, 제1 매칭도와 제2 매칭도의 차이값을 기설정된 임계값보다 크게 하는 것을 목적으로 하여, 매칭 모델을 트레이닝하는 모델 트레이닝 모듈을 더 포함한다.
선택 가능하게, 제1 매칭도 획득 모듈이 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도에 따라 텍스트와 각각의 객체의 특징의 매칭도를 획득할 경우, 구체적으로, 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도로부터, 각각의 객체의 특징과 대응되는 최대 매칭도 또는 평균 매칭도를 산출하여 텍스트와 각각의 객체 사이의 특징의 매칭도로 한다.
선택 가능하게, 상기 이미지 기반의 데이터 처리 장치는, 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키기 전에, 각각의 객체의 카테고리를 획득하고; 텍스트에서 각각의 객체의 카테고리를 검색하고, 검색 결과에 따라 텍스트와 각각의 객체 사이의 특징의 매칭도를 결정하는 제2 매칭도 획득 모듈을 더 포함한다.
선택 가능하게, 융합 모듈(430)이 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시킬 경우, 구체적으로, 텍스트와 각각의 객체의 특징의 매칭도에 따라 각각의 객체의 특징을 가중 합산하여 이미지의 융합 특징을 획득한다.
본 발명의 실시예에 의해 제공되는 이미지 기반의 데이터 처리 장치는 본 발명의 임의의 실시예에 의해 제공되는 이미지 기반의 데이터 처리 방법을 수행할 수 있고, 상기 방법을 수행하기 위한 상응한 기능 모듈과 유리한 효과를 갖는다.
실시예 5
도 5는 본 발명의 실시예 5에 의해 제공되는 전자 기기의 구조 개략도이다. 도 5는 본 발명의 실시형태의 예시적 전자 기기(12)를 구현하기 위한 블록도이다. 도 5에 도시된 전자 기기(12)는 단지 하나의 예시일 뿐, 본 발명의 실시예의 기능과 사용 범위에 대해 어떠한 제한도 해서는 안 된다.
도 5에 도시된 바와 같이, 전자 기기(12)는 범용 컴퓨팅 기기의 형태로 표시된다. 전자 기기(12)의 각 부재들은 하나 또는 복수의 프로세서 또는 처리 유닛(16), 시스템 메모리(28), 상이한 시스템 부재(시스템 메모리(28)와 처리 유닛(16)을 포함)들을 연결하는 버스(18)를 포함할 수 있으나 이에 한정되지 않는다.
버스(18)는 다양한 유형의 버스 구조 중의 한 가지 또는 여러 가지일 수 있으며, 메모리 버스 또는 메모리 제어기, 주변 버스, 가속 그래픽 포트, 프로세서, 또는 다양한 버스 구조 중의 임의의 버스 구조를 사용한 로컬 버스를 포함한다. 예를 들면, 이러한 시스템 구조는 업계 표준 구조(ISA) 버스, 마이크로 채널 구조(MAC) 버스, 증강형 ISA 버스, 비디오 일렉트로닉스 스탠더드 어소시에이션(VESA) 로컬 버스 및 주변 부재 상호 접속(PCI) 버스를 포함할 수 있으나 이에 한정되지 않는다.
전자 기기(12)는 대표적으로 다양한 컴퓨터 시스템 판독 가능한 매체를 포함한다. 이러한 매체는 전자 기기에 의해 액세스될 수 있는 임의의 사용 가능한 매체일 수 있고, 휘발성 및 비휘발성 매체, 착탈 가능한 및 착탈 불가능한 매체를 포함한다.
시스템 메모리(28)는 휘발성 메모리 형태의 컴퓨터 시스템 판독 가능한 매체를 포함할 수 있으며, 예를 들어, 랜덤 액세스 메모리(RAM)(30) 및/또는 캐시 메모리(32)를 포함할 수 있다. 전자 기기(12)는 기타 착탈 가능한/착탈 불가능한, 휘발성/비휘발성 컴퓨터 시스템 저장 매체를 더 포함할 수 있다. 단지 예시로서, 저장 시스템(34)은 착탈 불가능한, 비휘발성 자기 매체(도 5에 도시되지 않음, 일반적으로 "하드 드라이버"라고 함)의 판독 및 기록에 사용될 수 있다. 비록 도 5에 도시되지 않았으나, 착탈 가능한 비휘발성 자기 디스크(예를 들어, "플로피 디스켓")를 판독 및 기록할 수 있는 자기 디스크 드라이브, 및 착탈 가능한 비휘발성 광 디스크(예를 들어, CD-ROM, DVD-ROM 또는 다른 광 매체)를 판독 및 기록할 수 있는 광 디스크 드라이브를 제공할 수 있다. 이러한 경우, 각각의 드라이버는 하나 또는 복수의 데이터 매체 인터페이스를 통해 버스(18)와 연결될 수 있다. 메모리(28)는 적어도 하나의 프로그램 제품을 포함할 수 있고, 상기 프로그램 제품은 한 그룹(예를 들어, 적어도 하나)의 프로그램 모듈을 구비하며, 이러한 프로그램 모듈은 본 발명의 각 실시예의 기능을 수행하도록 구성된다.
일 그룹(적어도 하나)의 프로그램 모듈(42)을 구비하는 프로그램/유틸리티 툴(40)은 예를 들어 메모리(28)에 저장될 수 있고, 이러한 프로그램 모듈(42)은 운영 시스템, 하나 또는 복수의 응용 프로그램, 다른 프로그램 모듈 및 프로그램 데이터를 포함할 수 있으나 이에 한정되지 않으며, 이러한 예시에서의 각각 또는 어느 한 가지의 조합은 네트워크 환경의 구현을 포함할 수 있다. 프로그램 모듈(42)은 일반적으로 본 발명에 설명된 실시예에서의 기능 및/또는 방법을 수행한다.
전자 기기(12)는 하나 또는 복수의 외부 기기(14)(예를 들어, 키보드, 지향적 기기, 디스플레이(24), 카메라 등)와 통신할 수도 있고, 사용자가 상기 전자 기기(12)와 인터랙팅할 수 있도록 하는 하나 또는 복수의 기기와 통신할 수도 있으며, 그리고/또는 상기 전자 기기(12)가 하나 또는 복수의 기타 컴퓨팅 기기와 통신할 수 있도록 하는 임의의 기기(예를 들어, 랜카드, 모뎀 등)와 통신할 수 있다. 이러한 통신은 입력/출력(I/O) 인터페이스(22)를 통해 진행할 수 있다. 또한, 전자 기기(12)는 네트워크 어댑터(20)를 통해 하나 또는 복수의 네트워크(예를 들어, 구내 정보 통신망(LAN), 광역 통신망(WAN) 및/또는 공중망, 예를 들어, 인터넷)와 통신할 수도 있다. 도면에 도시된 바와 같이, 네트워크 어댑터(20)는 버스(18)를 통해 전자 기기(12)의 기타 모듈과 통신한다. 비록 도면에 도시되지 않았으나, 전자 기기(12)를 참조하여 마이크로코드, 기기 드라이버, 중복 처리 유닛, 외부 자기 디스크 구동 어레이, RAID 시스템, 자기 테이프 드라이버 및 데이터 백업 저장 시스템 등을 포함할 수 있으나 이에 한정되지 않는 기타 하드웨어 및/또는 소프트웨어 모듈을 사용할 수 있음을 이해해야 한다.
처리 유닛(16)은 시스템 메모리(28)에 저장된 프로그램을 실행하여 다양한 기능 응용 및 데이터 처리를 수행하며, 예를 들어, 본 발명의 실시예에 의해 제공되는 이미지 기반의 데이터 처리 방법을 수행한다.
실시예 6
본 발명의 실시예 6은 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체를 더 제공하고, 상기 프로그램은 프로세서에 의해 실행될 경우 어느 하나의 실시예에 따른 이미지 기반의 데이터 처리 방법을 수행한다.
본 발명의 실시예의 컴퓨터 판독 가능한 매체는 하나 또는 복수의 컴퓨터 판독 가능한 매체의 임의의 조합을 사용할 수 있다. 컴퓨터 판독 가능한 매체는 컴퓨터 판독 가능 신호 매체 또는 컴퓨터 판독 가능 저장 매체일 수 있다. 컴퓨터 판독 가능 저장 매체는, 예를 들어, 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 소자, 또는 이들의 임의의 조합일 수 있으나, 이에 한정되지는 않는다. 컴퓨터 판독 가능 저장 매체의 보다 구체적인 예(철저하지 않은 나열)는 하나 또는 복수의 와이어를 갖는 전기적 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그램 가능 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 이들의 임의의 적절한 조합을 포함한다. 본 발명에서, 컴퓨터 판독 가능 저장 매체는 명령 실행 시스템, 장치 또는 소자 또는 이들과 결합되어 사용될 수 있는 프로그램을 포함하거나 저장할 수 있는 임의의 유형 매체(tangible medium)일 수 있다.
컴퓨터 판독 가능 신호 매체는 컴퓨터 판독 가능 프로그램 코드가 적재된 베이스 밴드 또는 캐리어의 일부에 의해 전파되는 데이터 신호를 포함할 수 있다. 상기와 같이 전파된 데이터 신호는 전자기 신호, 광학 신호, 또는 상기 임의의 적절한 조합을 포함할 수 있으나 이에 한정되지 않는 다양한 형태일 수도 있다. 컴퓨터 판독 가능 신호 매체는 또한 명령 실행 시스템, 장치 또는 소자에 사용되거나 이와 결합하여 사용하기 위한 프로그램을 송신, 전파 또는 전송할 수 있는 컴퓨터 판독 저장 가능한 매체 이외의 임의의 컴퓨터 판독 가능한 매체일 수 있다.
컴퓨터 판독 가능한 매체에 포함된 프로그램 코드는 무선, 유선, 광 케이블, RF 등, 또는 상기의 임의의 적절한 조합을 포함할 수 있으나 이에 한정되지 않는 임의의 적절한 매체에 의해 전송될 수 있다.
본 발명의 동작을 수행하기 위한 컴퓨터 프로그램 코드는 하나 또는 복수의 프로그래밍 언어, 또는 그들의 조합으로 작성될 수 있고, 프로그래밍 언어는 Java, Smalltalk, C++를 비롯한 객체 지향 프로그래밍 언어와 "C" 언어 또는 유사한 프로그래밍 언어를 비롯한 기존 절차적 프로그래밍 언어를 포함한다. 프로그램 코드는 완전히 사용자의 컴퓨터에서 실행되거나, 부분적으로 사용자의 컴퓨터에서 실행되거나, 하나의 독립형 소프트웨어 패키지로서 실행되거나, 일부는 사용자의 컴퓨터에서 실행되고 일부는 원격 컴퓨터에서 실행되거나, 또는 완전히 원격 컴퓨터 또는 서버에서 실행될 수 있다. 원격 컴퓨터의 경우, 원격 컴퓨터는 구내 정보 통신망(LAN) 또는 광역 통신망(WAN)을 포함하는 임의의 종류의 네트워크를 통해 사용자의 컴퓨터에 연결되거나 외부 컴퓨터에 연결될 수 있다(예를 들어, 인터넷 서비스 제공 업체를 이용하여 인터넷을 통해 연결될 수 있다).
상기 설명은 본 발명의 바람직한 실시예 및 적용된 기술의 원리에 대한 설명일 뿐이다. 본 발명은 여기서 설명된 특정 실시예에 한정되지 않고, 본 발명이 속하는 기술분야의 통상의 기술자들은 본 발명의 보호범위를 벗어나지 않는 전제 하에 여러 가지 명확한 변경, 재조정 및 대체를 진행할 수 있음을 이해할 수 있다. 따라서, 비록 상기 실시예들을 통해 본 발명을 비교적 상세하게 설명하였지만, 본 발명은 상기 실시예들에 한정되지 않고, 본 발명의 사상을 벗어나지 않는 전제 하에 보다 많은 다른 등가 실시예를 더 포함할 수 있으며, 본 발명의 범위는 첨부된 청구범위에 의해 결정된다.

Claims (11)

  1. 이미지 기반의 데이터 처리 방법으로서,
    이미지 및 피처리 텍스트를 획득하는 단계;
    이미지 중 복수의 객체의 특징을 추출하고 상기 텍스트의 특징을 추출하는 단계;
    텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키는 단계; 및
    상기 이미지의 융합 특징 및 텍스트의 특징에 따라 상기 텍스트를 처리하는 단계를 포함하고,
    상기 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키는 단계 이전에,
    각각의 객체에 대응되는 바운딩 박스 내의 이미지 및 텍스트를 매칭 모델에 순차적으로 입력하여 매칭 모델에서 출력된 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도를 획득하는 단계; 및
    각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도에 따라 상기 텍스트와 각각의 객체의 특징의 매칭도를 획득하는 단계를 더 포함하는, 이미지 기반의 데이터 처리 방법.
  2. 제1항에 있어서,
    상기 매칭 모델은,
    각각의 객체에 대응되는 바운딩 박스 내의 이미지로부터 각각의 객체의 특징을 추출하는 이미지 특징 추출 단계;
    각각의 객체의 특징 차원을 기설정 차원으로 변환시키는 이미지 특징 차원 변환 단계;
    텍스트 중 각각의 단어의 특징을 추출하는 텍스트 특징 추출 단계;
    텍스트 중 각각의 단어의 특징 차원을 상기 기설정 차원으로 변환시키는 텍스트 특징 차원 변환 단계; 및
    차원 변환 후, 각각의 객체의 특징 각각과 각각의 단어의 특징의 매칭도를 산출하는 매칭 단계를 포함하는, 이미지 기반의 데이터 처리 방법.
  3. 제2항에 있어서,
    상기 매칭 단계는 구체적으로,
    차원 변환 후, 각각의 객체의 특징 각각과 텍스트 중 각각의 단어의 특징의 거리 및 코사인 유사도를 산출하여 각각의 객체의 특징과 텍스트 중 각각의 단어의 특징의 매칭도를 획득하는, 이미지 기반의 데이터 처리 방법.
  4. 제2항에 있어서,
    상기 매칭 단계는 구체적으로,
    차원 변환 후, 각각의 객체의 특징 각각과 텍스트 중 각각의 단어의 특징의 거리 또는 코사인 유사도를 산출하여 각각의 객체의 특징과 텍스트 중 각각의 단어의 특징의 매칭도를 획득하는, 이미지 기반의 데이터 처리 방법.
  5. 제1항에 있어서,
    상기 각각의 객체에 대응되는 바운딩 박스 내의 이미지 및 텍스트를 매칭 모델에 순차적으로 입력하는 단계 이전에,
    상기 매칭 모델의 트레이닝을 위한 포지티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지, 네거티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지 및 포지티브 샘플 객체의 라벨을 획득하는 단계;
    상기 포지티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지, 상기 네거티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지 및 상기 라벨을 매칭 모델에 순차적으로 입력하여 포지티브 샘플 객체의 특징과 라벨 특징의 제1 매칭도, 및 네거티브 샘플 객체의 특징과 라벨 특징의 제2 매칭도를 획득하는 단계; 및
    제1 매칭도를 최대화하고 제2 매칭도를 최소화하는 것을 목적으로 하거나, 제1 매칭도와 제2 매칭도의 차이값을 기설정된 임계값보다 크게 하는 것을 목적으로 하여, 상기 매칭 모델을 트레이닝하는 단계를 더 포함하는, 이미지 기반의 데이터 처리 방법.
  6. 제1항에 있어서,
    상기 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도에 따라 상기 텍스트와 각각의 객체의 특징의 매칭도를 획득하는 단계는,
    각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도에서, 각각의 객체의 특징과 대응되는 최대 매칭도 또는 평균 매칭도를 산출하여 상기 텍스트와 각각의 객체의 특징의 매칭도로 하는 단계를 포함하는, 이미지 기반의 데이터 처리 방법.
  7. 제1항에 있어서,
    상기 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키는 단계 이전에,
    각각의 객체의 카테고리를 획득하는 단계; 및
    텍스트에서 각각의 객체의 카테고리를 검색하고, 검색 결과에 따라 텍스트와 각각의 객체의 특징의 매칭도를 결정하는 단계를 더 포함하는, 이미지 기반의 데이터 처리 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키는 단계는,
    텍스트와 각각의 객체의 특징의 매칭도에 따라 각각의 객체의 특징을 가중 합산하여 이미지의 융합 특징을 획득하는 단계를 포함하는, 이미지 기반의 데이터 처리 방법.
  9. 이미지 기반의 데이터 처리 장치로서,
    이미지 및 피처리 텍스트를 획득하는 획득 모듈;
    이미지 중 복수의 객체의 특징을 추출하고 텍스트의 특징을 추출하는 추출 모듈;
    텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키는 융합 모듈; 및
    이미지의 융합 특징 및 텍스트의 특징에 따라 상기 텍스트를 처리하는 처리 모듈을 포함하고,
    상기 융합 모듈은,
    각각의 객체에 대응되는 바운딩 박스 내의 이미지 및 텍스트를 매칭 모델에 순차적으로 입력하여 매칭 모델에서 출력된 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도를 획득하고; 및
    각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도에 따라 상기 텍스트와 각각의 객체의 특징의 매칭도를 획득하는, 이미지 기반의 데이터 처리 장치.
  10. 전자 기기로서,
    하나 또는 복수의 프로세서; 및
    하나 또는 복수의 프로그램이 저장된 메모리를 포함하되,
    상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 제1항 내지 제7항 중 어느 한 항에 따른 이미지 기반의 데이터 처리 방법을 구현하도록 하는, 전자 기기.
  11. 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체로서,
    상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우 제1항 내지 제7항 중 어느 한 항에 따른 이미지 기반의 데이터 처리 방법을 구현하는, 컴퓨터 판독 가능 저장 매체.
KR1020190157613A 2019-02-12 2019-11-29 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체 KR102266529B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910111412.5A CN109858555B (zh) 2019-02-12 2019-02-12 基于图像的数据处理方法、装置、设备及可读存储介质
CN201910111412.5 2019-02-12

Publications (2)

Publication Number Publication Date
KR20200098379A KR20200098379A (ko) 2020-08-20
KR102266529B1 true KR102266529B1 (ko) 2021-06-17

Family

ID=66897798

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190157613A KR102266529B1 (ko) 2019-02-12 2019-11-29 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체

Country Status (5)

Country Link
US (1) US11151406B2 (ko)
EP (1) EP3696729A1 (ko)
JP (1) JP6893233B2 (ko)
KR (1) KR102266529B1 (ko)
CN (1) CN109858555B (ko)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334749B (zh) * 2019-06-20 2021-08-03 浙江工业大学 基于注意力机制的对抗攻击防御模型、构建方法及应用
CN111125422B (zh) * 2019-12-13 2024-04-02 北京达佳互联信息技术有限公司 一种图像分类方法、装置、电子设备及存储介质
US11645505B2 (en) * 2020-01-17 2023-05-09 Servicenow Canada Inc. Method and system for generating a vector representation of an image
CN111611420B (zh) * 2020-05-26 2024-01-23 北京字节跳动网络技术有限公司 用于生成图像描述信息的方法和装置
CN111782838B (zh) * 2020-06-30 2024-04-05 北京百度网讯科技有限公司 图像问答方法、装置、计算机设备和介质
CN112163465B (zh) * 2020-09-11 2022-04-22 华南理工大学 细粒度图像分类方法、系统、计算机设备及存储介质
CN114969417B (zh) * 2020-09-23 2023-04-11 华为技术有限公司 图像重排序方法、相关设备及计算机可读存储介质
CN112100358A (zh) * 2020-09-27 2020-12-18 四川长虹电器股份有限公司 一种基于匹配算法的视觉问答方法及系统
CN112417132B (zh) * 2020-12-17 2023-11-17 南京大学 一种利用谓宾信息筛选负样本的新意图识别方法
CN112541475B (zh) * 2020-12-24 2024-01-19 北京百度网讯科技有限公司 感知数据检测方法及装置
CN112580620A (zh) * 2020-12-25 2021-03-30 北京百度网讯科技有限公司 标志图片处理方法、装置、设备和介质
CN112613293A (zh) * 2020-12-29 2021-04-06 北京中科闻歌科技股份有限公司 摘要生成方法、装置、电子设备及存储介质
KR102533775B1 (ko) * 2020-12-31 2023-05-19 중앙대학교 산학협력단 데이터 통합 분석 학습을 이용한 데이터 분류 장치 및 방법
CN112926586A (zh) * 2021-02-19 2021-06-08 北京大米未来科技有限公司 一种文本识别的方法、装置、可读存储介质和电子设备
CN113033307B (zh) * 2021-02-22 2024-04-02 浙江大华技术股份有限公司 对象的匹配方法、装置、存储介质及电子装置
KR102279797B1 (ko) * 2021-03-05 2021-07-21 전남대학교산학협력단 멀티모달 데이터 융합 시스템 및 방법
CN113222026B (zh) * 2021-05-18 2022-11-11 合肥工业大学 一种机务段场景视觉问答方法、系统及服务器
CN113342995B (zh) * 2021-07-05 2022-12-02 成都信息工程大学 一种基于路径语义和特征提取的负样本提取方法
CN113609279B (zh) * 2021-08-05 2023-12-08 湖南特能博世科技有限公司 一种物料型号提取方法、装置及计算机设备
CN113709548B (zh) * 2021-08-09 2023-08-25 北京达佳互联信息技术有限公司 基于图像的多媒体数据合成方法、装置、设备及存储介质
CN113792617B (zh) * 2021-08-26 2023-04-18 电子科技大学 一种结合图像信息和文本信息的图像解译方法
WO2023157265A1 (ja) * 2022-02-18 2023-08-24 日本電信電話株式会社 応答生成装置、応答生成方法および応答生成プログラム
CN114880517A (zh) * 2022-05-27 2022-08-09 支付宝(杭州)信息技术有限公司 用于视频检索的方法及装置
CN115690149B (zh) * 2022-09-27 2023-10-20 江苏盛利智能科技有限公司 显示器的图像融合处理系统及方法
CN115456176B (zh) * 2022-10-10 2023-07-21 延边大学 一种基于知识增强的文本匹配方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288067A (zh) * 2017-09-12 2018-07-17 腾讯科技(深圳)有限公司 图像文本匹配模型的训练方法、双向搜索方法及相关装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9384408B2 (en) * 2011-01-12 2016-07-05 Yahoo! Inc. Image analysis system and method using image recognition and text search
US9965705B2 (en) * 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
US10489448B2 (en) 2016-06-02 2019-11-26 Baidu Usa Llc Method and system for dynamically ranking images to be matched with content in response to a search query
US20170364492A1 (en) * 2016-06-20 2017-12-21 Machine Learning Works, LLC Web content enrichment based on matching images to text
US10198671B1 (en) * 2016-11-10 2019-02-05 Snap Inc. Dense captioning with joint interference and visual context
CN108228703B (zh) 2017-10-31 2020-05-08 北京市商汤科技开发有限公司 图像问答方法、装置、系统和存储介质
CN108446404B (zh) * 2018-03-30 2021-01-05 中国科学院自动化研究所 面向无约束视觉问答指向问题的检索方法及系统
CN108920587B (zh) * 2018-06-26 2021-09-24 清华大学 融合外部知识的开放域视觉问答方法及装置
CN108898185A (zh) * 2018-07-03 2018-11-27 北京字节跳动网络技术有限公司 用于生成图像识别模型的方法和装置
CN109241267B (zh) * 2018-09-27 2022-07-01 北京百度网讯科技有限公司 生成vqa系统的训练数据的方法、装置、设备和介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288067A (zh) * 2017-09-12 2018-07-17 腾讯科技(深圳)有限公司 图像文本匹配模型的训练方法、双向搜索方法及相关装置

Also Published As

Publication number Publication date
CN109858555A (zh) 2019-06-07
JP2020135852A (ja) 2020-08-31
JP6893233B2 (ja) 2021-06-23
US20200257922A1 (en) 2020-08-13
EP3696729A1 (en) 2020-08-19
US11151406B2 (en) 2021-10-19
CN109858555B (zh) 2022-05-17
KR20200098379A (ko) 2020-08-20

Similar Documents

Publication Publication Date Title
KR102266529B1 (ko) 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체
CN111046133B (zh) 基于图谱化知识库的问答方法、设备、存储介质及装置
CN110795543B (zh) 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN111709409A (zh) 人脸活体检测方法、装置、设备及介质
KR102124466B1 (ko) 웹툰 제작을 위한 콘티를 생성하는 장치 및 방법
CN110851641B (zh) 跨模态检索方法、装置和可读存储介质
US11461638B2 (en) Figure captioning system and related methods
CN116543404A (zh) 基于单元格坐标优化的表格语义信息抽取方法、系统、设备及介质
JP2022185143A (ja) テキスト検出方法、テキスト認識方法及び装置
CN115130613A (zh) 虚假新闻识别模型构建方法、虚假新闻识别方法与装置
CN111125550B (zh) 兴趣点分类方法、装置、设备及存储介质
CN109408175B (zh) 通用高性能深度学习计算引擎中的实时交互方法及系统
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
JP4570995B2 (ja) マッチング方法およびマッチング装置ならびにプログラム
WO2021104274A1 (zh) 图文联合表征的搜索方法、系统、服务器和存储介质
CN117093687A (zh) 问题应答方法和装置、电子设备、存储介质
CN113052156A (zh) 光学字符识别方法、装置、电子设备和存储介质
CN112801078A (zh) 兴趣点poi的匹配方法、装置、电子设备及存储介质
AU2021101278A4 (en) System and Method for Automatic Language Detection for Handwritten Text
CN114359911B (zh) 文字关键信息的提取方法及装置
CN114005169B (zh) 人脸关键点检测方法、装置、电子设备及存储介质
Padmanand et al. Malaysian Sign Language Recognition Using 3D Hand Pose Estimation
US20240020335A1 (en) Method and apparatus of image/video feature descriptor extracting for searching image/video
CN114648754A (zh) 基于图像的文字识别方法、装置、设备、介质及产品
Shaikh et al. Sign Language Based Video Calling App

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant