KR102266529B1

KR102266529B1 - 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체

Info

Publication number: KR102266529B1
Application number: KR1020190157613A
Authority: KR
Inventors: 지안후이 후앙; 핑핑 후앙; 민 치아오; 잉 리
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2019-02-12
Filing date: 2019-11-29
Publication date: 2021-06-17
Also published as: CN109858555A; JP2020135852A; JP6893233B2; US20200257922A1; EP3696729A1; US11151406B2; CN109858555B; KR20200098379A

Abstract

본 발명의 실시예는 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체를 제공한다. 여기서, 이미지 기반의 데이터 처리 방법은, 이미지 및 피처리 텍스트를 획득하는 단계; 이미지 중 복수의 객체의 특징을 추출하고 상기 텍스트의 특징을 추출하는 단계; 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키는 단계; 및 상기 이미지의 융합 특징 및 텍스트의 특징에 따라 상기 텍스트를 처리하는 단계를 포함한다. 본 발명의 실시예는 텍스트와 이미지 중 각 객체의 연관 관계를 정확하게 학습함으로써 처리 정확도를 향상시킬 수 있다.

Description

이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체{METHOD, APPARATUS, DEVICE AND READABLE STORAGE MEDIUM FOR IMAGE-BASED DATA PROCESSING}

관련 출원에 대한 상호 참조

본 출원은 중국 특허 출원 제201910111412.5호(출원일: 2019년 2월 12일, 발명의 명칭: "Method, Apparatus, Device and Readable Storage Medium for Image-Based Data Processing")에 대한 우선권을 주장하며, 이 기초출원은 이의 전문이 참고로 본 명세서에 원용된다.

기술 분야

본 발명의 실시예는 컴퓨터 시각 기술에 관한 것으로, 특히 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체에 관한 것이다.

컴퓨터 시각 기술이 발전함에 따라, 시각 문답 등 이미지 기반의 데이터 처리 방법이 나타났다. 시각 문답(Visual Question Answer: VQA)은 멀티모드 데이터 마이닝의 첨단 응용 중 하나로서, 시각 이미지에 대한 자연 언어 문답을 시각 이해(Visual Understanding)로 하는 하나의 연구 방향이며, 시각과 언어를 연결시키는 VQA는 이미지를 이해한 기초상에서 구체적인 텍스트 문제에 따라 처리해야 한다.

현재의 이미지 기반의 데이터 처리 방법에서, 우선 두 세트의 상이한 하위 계층으로 시스템을 나타내고, 각각 이미지 및 텍스트의 하위 계층 특징을 추출하며, 이미지 및 텍스트의 상위 계층 특징을 학습한 후, 학습 모듈과 연관시켜 이미지 및 텍스트의 상위 계층 특징을 연관시킴으로써 텍스트를 처리한다.

현재의 이미지 기반의 데이터 처리 방법은 이미지 특징 및 텍스트 특징에서 텍스트와 이미지 중 각 객체의 연관 관계를 학습하므로 상기 연관 관계의 정확성이 높지 않아 텍스트 처리에 착오가 발생하게 된다.

본 발명의 실시예는 이미지 기반의 데이터 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능 저장 매체에 관한 것으로, 텍스트와 이미지 중 각 객체의 연관 관계를 정확하게 학습함으로써 처리 정확도를 향상시킬 수 있다.

본 발명의 제1 양태에 따르면, 이미지 기반의 데이터 처리 방법을 제공한다. 상기 방법은, 이미지 및 피처리 텍스트를 획득하는 단계; 이미지 중 복수의 객체의 특징을 추출하고 상기 텍스트의 특징을 추출하는 단계; 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키는 단계; 및 상기 이미지의 융합 특징 및 텍스트의 특징에 따라 상기 텍스트를 처리하는 단계를 포함한다.

본 발명의 제2 양태에 따르면, 이미지 기반의 데이터 처리 장치를 제공하되, 상기 장치는, 이미지 및 피처리 텍스트를 획득하는 획득 모듈; 이미지 중 복수의 객체의 특징을 추출하고 텍스트의 특징을 추출하는 추출 모듈; 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키는 융합 모듈; 및 이미지의 융합 특징 및 텍스트의 특징에 따라 상기 텍스트를 처리하는 처리 모듈을 포함한다.

본 발명의 제3 양태에 따르면, 전자 기기를 제공하되, 상기 전자 기기는, 하나 또는 복수의 프로세서; 및 하나 또는 복수의 프로그램이 저장된 메모리를 포함하되, 상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 본 발명의 양태에 따른 이미지 기반의 데이터 처리 방법을 구현한다.

본 발명의 제4 양태에 따르면, 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체를 제공하되, 상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우 본 발명의 양태에 따른 이미지 기반의 데이터 처리 방법을 구현한다.

본 발명의 실시예에서, 이미지 및 피처리 텍스트를 획득하고, 이미지 중 복수의 객체의 특징을 추출하고 텍스트의 특징을 추출하며, 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시킴으로써, 텍스트와 객체 특징이 연관성을 갖고 있음을 표현하는 이러한 선험적 지식을 충분히 이용하고 매칭도에 기반하여 이미지의 특징을 조정하여, 융합 특징이 텍스트와 강한 연관성을 갖는 부분에 더 많은 주의를 기울일 수 있도록 함으로써, 주의력 분포 분산을 방지하고, 텍스트와 강한 연관성을 갖는 텍스트의 특징을 통해 텍스트에 대한 처리 정확도를 향상시킬 수 있다.

도 1a는 본 발명의 실시예 1에 의해 제공되는 이미지 기반의 데이터 처리 방법의 흐름도이다.
도 1b는 본 발명의 실시예 1에 의해 제공되는 각각의 객체가 위치하는 바운딩 박스의 개략도이다.
도 1c는 본 발명의 실시예 1에 의해 제공되는 융합 특징에 대응되는 이미지의 개략도이다.
도 2a는 본 발명의 실시예 2에 의해 제공되는 이미지 기반의 데이터 처리 방법의 흐름도이다.
도 2b는 본 발명의 실시예 2에 의해 제공되는 매칭 모델을 통해 매칭 동작을 진행하는 개략적 흐름도이다.
도 2c는 본 발명의 실시예 2에 의해 제공되는 매칭 모델 트레이닝의 흐름도이다.
도 2d는 본 발명의 실시예 2에 의해 제공되는 매칭 모델을 사용한 이미지 기반의 데이터 처리 방법의 흐름도이다.
도 3은 본 발명의 실시예 3에 의해 제공되는 이미지 기반의 데이터 처리 방법의 흐름도이다.
도 4는 본 발명의 실시예 4에 의해 제공되는 이미지 기반의 데이터 처리 장치구조 개략도이다.
도 5는 본 발명의 실시예 5에 의해 제공되는 전자 기기의 구조 개략도이다.

이하 첨부 도면 및 실시예를 참조하여 본 발명을 더욱 자세히 설명한다. 여기서 설명되는 구체적인 실시예는 관련 발명을 해석하기 위한 것일 뿐 본 발명은 이에 한정되지 않음을 이해할 수 있을 것이다. 이 밖에, 설명의 편의를 위해 도면에는 해당 발명과 관련된 부분만이 도시되었음을 유의해야 한다.

실시예 1

도 1a는 본 발명의 실시예 1에 의해 제공되는 이미지 기반의 데이터 처리 방법의 흐름도이고, 본 실시예는 이미지를 인식하여 텍스트를 처리하는 상황에 적용될 수 있다. 상기 방법은 이미지 기반의 데이터 처리 장치에 의해 수행될 수 있으며, 상기 장치는 하드웨어 및/또는 소프트웨어로 구성될 수 있고, 일반적으로 전자 기기에 집적되며, 구체적으로 하기와 같은 단계를 포함한다.

단계 S110에서, 이미지 및 피처리 텍스트를 획득한다.

본 실시예에서, 이미지는 사진, 프린트스크린, 비디오 프레임 등일 수 있다. 피처리 텍스트는 상기 이미지에 관한 형태가 자유스럽고 개방식인 자연 언어 텍스트이다. 피처리 텍스트는 텍스트에 대한 이해, 예를 들어, 진위 판단, 텍스트 콘텐츠 이해 등을 포함하고; 또한 자연 언어 문제를 더 포함한다. 텍스트에서 제기되는 문제의 카테고리는 세밀화 인식(예를 들어, 이 여성분은 백인종입니까?), 물체 인식(예를 들어, 도면에 바나나가 몇 개 있습니까?), 행위 인식(예를 들어, 이 여성분은 울고 있습니까?), 및 문제에 포함되는 텍스트에 대한 이해를 더 포함할 수 있으나 이에 한정되지 않는다.

단계 S120에서, 이미지 중 복수의 객체의 특징을 추출하고 텍스트의 특징을 추출한다.

선택 가능하게, 이미지를 타겟 검출 모델 또는 분류 모델에 입력하여 이미지 중 복수의 객체의 특징을 추출하고, 나아가, 각각의 객체가 위치하는 바운딩 박스 좌표를 더 추출한다. 여기서, 타겟 검출 모델 또는 분류 모델은 심층 학습에 기반한 타겟 검출 모델 또는 분류 모델일 수 있는바, 예를 들어, R-CNN, Fast R-CNN 등일 수 있다.

선택 가능하게, 예를 들어 36개, 52개 등 추출해야 하는 객체 개수를 미리 설정하고, 타겟 검출 모델에 의해 기설정된 개수의 객체의 특징을 추출하며, 각각의 객체가 위치하는 바운딩 박스 좌표를 추출한다. 도 1b는 본 발명의 실시예 1에 의해 제공되는 각각의 객체가 위치하는 바운딩 박스의 개략도이다. 도 1b는 곰 몸체와 곰 발바닥인 2개의 객체를 도시하였고, 곰 몸체가 위치하는 바운딩 박스는 굵은 실선으로 표시하며, 곰 발바닥이 위치하는 바운딩 박스는 가는 실선으로 표시한다.

선택 가능하게, 백 오브 단어 모델(bag of words model) 또는 순환 신경망(Recurrent Neural Network: RNN)을 통해 텍스트의 특징을 추출한다.

단계 S130에서, 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시킨다.

주의력 메커니즘(Attention Mechanism)에 따르면, 사람들이 이미지를 관찰할 경우, 실제로 한 번에 전체 이미지의 각각의 위치 픽셀을 모두 확인하는 것이 아니라, 대부분 수요에 따라 주의력을 인물의 얼굴과 같은 이미지의 특정 부분에 집중시킨다. 또한, 사람들은 사전에 관찰했던 이미지에 따라 미래에 이미지를 관찰 시 주의력을 집중시켜야 할 위치를 학습한다. 유사하게, 텍스트에 있어서, 텍스트가 이미지 중 각각의 객체에 대한 주의력도 상이하며, 예를 들어, "당신은 곰 발바닥을 볼 수 있습니까?"에 대한 주의력은 도 1b의 곰 발바닥에 집중시켜야 하고, 또한 예를 들어, "곰은 어떤 표정을 짓고 있습니까?"에 대한 주의력은 도 1b의 곰 머리에 집중시켜야 한다.

상기 분석에 따르면, 텍스트에 집중시키는 주의력이 비교적 많은 객체의 특징에 따라 텍스트를 보다 정확하게 처리할 수 있다. 본 실시예에서, 텍스트와 각각의 객체 사이의 특징의 매칭도를 이용하여 텍스트와 각각의 객체의 주의력을 나타낸다. 이에 따라, 텍스트와 각각의 객체 사이의 특징의 매칭도에 따라 각각의 객체의 특징을 조정한다. 예를 들어, 매칭도가 큰 객체의 특징을 강화시키고, 매칭도가 작은 객체의 특징을 약화시키며, 그 다음, 조정 후의 각각의 객체의 특징을 이미지의 새로운 특징으로 융합시킨다. 설명과 구분의 편의를 위하여, 융합 후 이미지의 새로운 특징을 이미지의 융합 특징이라고 지칭한다. 도 1c는 본 발명의 실시예 1에 의해 제공되는 융합 특징에 대응되는 이미지의 개략도이다. 예를 들어, 피처리 텍스트가 "당신은 곰 발바닥을 볼 수 있습니까?"일 경우, 텍스트와 곰 발바닥 객체의 특징의 매칭도는 90%이고, 곰 다리의 특징의 매칭도는 50%이며, 기타 객체(예를 들어, 나무 줄기 객체, 풀숲 객체)의 특징 매칭도는 10%이다. 다음, 매칭도를 이용하여 객체에 대응되는 특징을 조정하고 융합시킴으로써 이미지의 융합 특징을 획득한다. 선택 가능하게, 매칭도가 매칭도 임계값보다 크거가 같은 객체의 특징을 보류 또는 강화시키거나, 매칭도가 매칭도 임계값보다 작은 객체의 특징을 약화시키며, 보류된 특징을 융합시킴으로써 이미지의 융합 특징을 획득한다. 도 1c로부터 알 수 있듯이, 곰 발바닥의 특징이 강화되고 곰 다리의 특징이 변화가 없으며 다른 객체의 특징이 약화된다.

텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키는 단계 이전에, 텍스트와 각각의 객체 사이의 특징의 매칭도를 산출하는 동작을 더 포함한다. 선택 가능하게, 이미지 중 복수의 객체의 특징을 추출하고 각각의 객체의 카테고리(예를 들어, 곰 발바다가, 곰 다리, 나무 줄기, 풀숲 등)를 획득한다. 텍스트에서 각각의 객체의 카테고리를 검색하고, 검색 결과에 따라 텍스트와 각각의 객체 사이의 특징의 매칭도를 결정한다. 예를 들어, "당신은 곰 발바닥을 볼 수 있습니까?"로부터 "곰 발바닥"과 "곰 다리" 중의 "곰"을 검색해내고, "나무 줄기"와 "풀숲"은 검색해내지 못한다. 따라서, 텍스트와 곰 발바닥 객체 사이의 특징의 매칭도가 크고 텍스트와 곰 다리 객체 사이의 특징의 매칭도가 중간 정도이며 텍스트와 나무 줄기 및 풀숲 객체의 매칭도가 작음을 결정할 수 있다.

단계 S140에서, 이미지의 융합 특징 및 텍스트의 특징에 따라 텍스트를 처리한다.

선택 가능하게, 텍스트에 대한 처리 동작은 텍스트에 대한 이해, 예를 들어, 진위 판단, 텍스트 콘텐츠 이해 등, 및 텍스트에 대한 응답을 포함할 수 있으나 이에 한정되지 않는다.

선택 가능하게, 이미지의 융합 특징 및 텍스트의 특징을 시각 문답(Visual Question Answer: VQA) 시스템에 입력하여 VQA 시스템으로부터 출력된 응답을 획득한다. 본 실시예에 의해 제공되는 VQA 시스템은 Deeper LSTM Q + norm I 모델, VIS+LSTM 모델, 2-VIS+BLSTM, IMG+BOW 등 다양한 모델 조합을 포함한다.

실시예 2

본 실시예는 상기 실시예의 각 선택 가능한 실시형태에 기반하여 진일보 최적화한 것이다. 선택 가능하게, "텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키는 단계" 이전에, "각각의 객체에 대응되는 바운딩 박스 내의 이미지 및 텍스트를 매칭 모델에 순차적으로 입력하여 매칭 모델에서 출력된 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도를 획득하는 단계; 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도에 따라 텍스트와 각각의 객체의 특징의 매칭도를 획득하는 단계"를 더 수행한다. 도 2a는 본 발명의 실시예 2에 의해 제공되는 이미지 기반의 데이터 처리 방법의 흐름도이고, 본 실시예에 의해 제공되는 방법은 하기와 같은 단계를 포함한다.

단계 S210에서, 이미지 및 피처리 텍스트를 획득한다.

단계 S220에서, 이미지 중 복수의 객체의 특징을 추출하고 텍스트의 특징을 추출한다.

단계 S230에서, 각각의 객체에 대응되는 바운딩 박스 내의 이미지 및 텍스트를 매칭 모델에 순차적으로 입력하여 매칭 모델에서 출력된 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도를 획득한다.

상기 실시예의 관련 설명에 따르면, 각각의 이미지를 타겟 검출 모델 또는 분류 모델에 순차적으로 입력하여 이미지 중 복수의 객체의 특징, 및 각각의 객체가 위치하는 바운딩 박스 좌표를 추출한다. 본 실시예에서, 각각의 객체가 위치하는 바운딩 박스 좌표에 따라 이미지로부터 각각의 객체에 대응되는 바운딩 박스 내의 이미지를 발취한다. 다음, 각각의 객체에 대응되는 바운딩 박스 내의 이미지를 매칭 모델에 순차적으로 입력한다. 첫 번째 이미지를 입력할 경우, 텍스트도 입력해야 하는데, 텍스트는 한 번만 입력하면 되고, 후속으로 이미지를 입력할 경우 텍스트를 다시 입력하지 않아도 된다. 물론, 매번 이미지를 입력할 때마다 텍스트를 입력할 수도 있다.

도 2b는 본 발명의 실시예 2에 의해 제공되는 매칭 모델을 통해 매칭 동작을 진행하는 프로세스의 개략도이다. 도 2b를 참조하면, 매칭 모델은 이미지 특징 추출 단계, 텍스트 특징 추출 단계, 이미지 특징 차원 변환 단계, 텍스트 특징 차원 변환 단계 및 매칭 단계를 포함한다.

여기서, 이미지 특징 추출 단계는 각각의 객체에 대응되는 바운딩 박스 내의 이미지로부터 각각의 객체의 특징을 추출하고; 이미지 특징 차원 변환 단계는 각각의 객체의 특징 차원을 기설정 차원으로 변환시키며; 텍스트 특징 추출 단계는 텍스트 중 각각의 단어의 특징을 추출하고; 텍스트 특징 차원 변환 단계는 텍스트 중 각각의 단어의 특징 차원을 기설정 차원으로 변환시키며; 매칭 단계는 차원 변환 후, 각각의 객체의 특징 각각과 각각의 단어의 특징 사이의 매칭도를 산출한다.

일반적으로, 이미지는 텍스트보다 포함하는 정보가 상대적으로 더 많으므로, 특징 추출을 거친 후, 각각의 객체의 특징 차원과 텍스트 중 각각의 단어의 특징 차원은 상이하다. 일 예시에서, 각각의 객체의 특징 차원은 1024이고, 각각의 단어의 특징 차원은 300이며, 각각의 객체의 특징과 각각의 단어의 특징의 매칭도를 산출하려면, 양자의 특징 차원을 기설정 차원으로 변환시켜야 하되, 구체적으로, 추출해 낸 특징을 매트릭스 변환시켜 공동 차원의 특징을 획득하는데, 예를 들어 600 차원의 특징을 획득한다.

이어서, 매칭 단계에서, 차원 변환 후, 각각의 객체의 특징과 각각의 단어의 특징 사이의 매칭도를 산출한다. 선택 가능하게, 매칭 단계는 구체적으로, 차원 변환 후, 각각의 객체의 특징 각각과 텍스트 중 각각의 단어의 특징 사이의 거리, 코사인 유사도, 또는 거리와 코사인 유사도 양자를 산출하여, 각각의 객체의 특징과 텍스트 중 각각의 단어의 특징의 매칭도를 획득한다. 선택 가능하게, 거리는 유클리드 거리, 마하라노비스 거리 등을 포함한다. 거리와 코사인 유사도를 산출하여 매칭도를 획득할 경우, 각각의 객체의 특징 각각과 텍스트 중 각각의 단어의 특징의 거리와 코사인 유사도 중의 비교적 큰 값, 비교적 작은 값 또는 평균값을 선택하여 각각의 객체의 특징과 텍스트 중 각각의 단어의 특징의 매칭도를 획득할 수 있다.

하나의 선택 가능한 실시형태에서, 각각의 객체에 대응되는 바운딩 박스 내의 이미지 및 텍스트를 매칭 모델에 순차적으로 입력하는 단계 이전에, 매칭 모델을 트레이닝하는 동작을 더 포함한다 도 2c는 본 발명의 실시예 2에 의해 제공되는 매칭 모델 트레이닝의 흐름도이며, 트레이닝 과정은 대체적으로 하기와 같은 3개의 단계를 포함한다.

첫 번째 단계에서, 매칭 모델의 트레이닝을 위한 포지티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지, 네거티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지 및 포지티브 샘플 객체의 라벨을 획득한다. 여기서, 포지티브 샘플 객체의 라벨(Label)은 포지티브 샘플 객체의 카테고리이다.

VG 데이터 세트 중 각각의 이미지의 표기 정보는 이미지 중 각각의 객체, 관계 및 속성, 및 이미지에서의 객체와 속성의 바운딩 박스 좌표를 포함하고, 여기서, 객체와, 대응되는 바운딩 박스 내의 이미지에는 강한 연관성이 존재한다.

본 실시예에서, 기존의 VG(Visual Genome) 데이터 세트를 이용하여 상기 이미지와 라벨을 획득한다. 구체적으로, 기설정된 포지티브 샘플 객체는 S이고, 대응되는 라벨도 S이며, 네거티브 샘플 객체는 비(non-) S이다. VG 데이터 세트에서, 포지티브 샘플 객체인 S가 이미지 내에서의 바운딩 박스 좌표에 따라 포지티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지를 발취하고, 네거티브 샘플 객체인 비 S가 이미지 내에서의 바운딩 박스 좌표에 따라 네거티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지를 발취한다. 도 2c에서, 포지티브 샘플 객체는 곰 발바닥이고, 네거티브 샘플 객체는 곰 몸체이며, 대응되는 바운딩 박스 내의 이미지는 실선 블록으로 나타내고, 포지티브 샘플 객체의 라벨은 곰 발바닥이다.

두 번째 단계에서, 포지티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지, 네거티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지 및 라벨을 매칭 모델에 입력하여 포지티브 샘플 객체의 특징과 라벨 특징의 제1 매칭도, 및 네거티브 샘플 객체의 특징과 라벨 특징의 제2 매칭도를 획득한다.

매칭 모델에 있어서, 이미지 특징 추출 단계로서, 포지티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지로부터 포지티브 샘플 객체의 특징을 추출하고, 네거티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지로부터 네거티브 샘플 객체의 특징을 추출하며; 텍스트 특징 추출 단계로서, 라벨의 특징을 추출한다. 다음, 이미지 특징 차원 변환 단계로서, 포지티브 샘플 객체의 특징 차원 및 네거티브 샘플 객체의 특징 차원을 모두 기설정 차원으로 변환시키고, 텍스트 특징 차원 변환 단계로서, 라벨의 특징 차원을 기설정 차원으로 변환시킨다. 매칭 단계로서, 차원 변환 후, 포지티브 샘플 객체의 특징과 라벨의 특징의 제1 매칭도, 및 네거티브 샘플 객체의 특징과 라벨의 특징의 제2 매칭도를 계산한다. 제1 매칭도는 포지티브 샘플 객체의 특징과 라벨의 특징의 거리 및/또는 코사인 유사도이고, 제2 매칭도는 네거티브 샘플 객체의 특징과 라벨의 특징의 거리 및/또는 코사인 유사도이다.

세 번째 단계에서, 제1 매칭도를 최대화하고 제2 매칭도를 최소화하는 것을 목적으로 하거나, 제1 매칭도와 제2 매칭도의 차이값을 기설정된 임계값보다 크게 하는 것을 목적으로 하여, 매칭 모델을 트레이닝한다.

제1 매칭도를 최대화하고 제2 매칭도를 최소화하여 타겟 함수를 생성하거나, 제1 매칭도와 제2 매칭도의 차이값을 기설정된 임계값보다 크게 하여 타겟 함수를 생성하고, 타겟 함수에 따라 매칭 모델 중의 파라미터를 반복(iterate)한다. 선택 가능하게, 매칭 모델 중의 전부 또는 부분 단계의 파라미터를 반복할 수 있는데, 예를 들어, 이미지 특징 추출 단계, 텍스트 특징 추출 단계, 이미지 특징 차원 변환 단계 및 텍스트 특징 차원 변환 단계 중의 파라미터는 경험치를 사용하여 반복하지 않으며, 매칭 단계 중의 파라미터만 반복한다.

단계 S240에서, 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도에 따라 텍스트와 각각의 객체의 특징의 매칭도를 획득한다.

선택 가능하게, 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도로부터, 각각의 객체의 특징과 대응되는 최대 매칭도 또는 평균 매칭도를 산출하여 텍스트와 각각의 객체의 특징의 매칭도로 한다. 예를 들어, 곰 발바닥의 특징과 텍스트 "당신은 곰 발바닥을 볼 수 있습니까?" 중 "당신", "수", "볼", "곰 발바닥", "있습니까"의 특징의 매칭도가 각각 10%, 10%, 10%, 90%, 10%일 경우, 텍스트와 곰 발바닥의 특징의 매칭도는, 최대 매칭도 90%, 또는 평균 매칭도 26%이다. 또한 예를 들어, 풀숲의 특징과 텍스트 "당신은 곰 발바닥을 볼 수 있습니까?" 중 "당신", "수", "볼", "곰 발바닥", "있습니까"의 특징의 매칭도가 각각 15%, 10%, 10%, 10%, 10%일 경우, 텍스트와 풀숲의 특징의 매칭도는, 최대 매칭도 15%, 또는 평균 매칭도 11%이다.

단계 S250에서, 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시킨다.

단계 S260에서, 이미지의 융합 특징 및 텍스트의 특징에 따라 텍스트를 처리한다.

도 2d는 본 발명의 실시예 2에 의해 제공되는 매칭 모델을 사용한 이미지 기반의 데이터 처리 방법의 흐름도이고, 이미지 기반의 데이터 처리 장치의 입력은 텍스트 "당신은 곰 발바닥을 볼 수 있습니까?" 및 도 1b에 도시된 이미지이다. 이미지 기반의 데이터 처리 장치는 한편으로 텍스트의 특징을 추출하면서 다른 한편으로 매칭 모델을 통해 매칭도를 획득함으로써, 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키고, 다음, 텍스트의 특징 및 융합 특징을 융합시킨 후 다시 분류하여, 텍스트를 처리한다.

본 실시예에서, 각각의 객체에 대응되는 바운딩 박스 내의 이미지 및 텍스트를 매칭 모델에 순차적으로 입력하여 매칭 모델에서 출력된 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도를 획득함으로써, 미리 트레이닝된 매칭 모델에 기반하여 객체의 특징 각각과 각각의 단어의 특징의 매칭도를 직접 획득함으로써, 이미지에 있어서, 국부 특징이 텍스트 중 어느 단어와 대응되는 지를 표현하고; 텍스트에 있어서, 단어가 이미지 중 어느 국부 정보에 대응되는 지를 확인할 수 있다. 객체와 텍스트의 매칭도를 객체와 각각의 단어의 매칭도로 세분화시켜, 이미지의 국부 특징과 단어 사이의 세밀화, 정확한 연관을 미리 학습한다.

또한, 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도에 따라 텍스트와 각각의 객체의 특징의 매칭도를 획득함으로써, 각각의 단어의 매칭도에 대해, 종합적으로 텍스트와 객체의 매칭도를 획득하므로, 매칭도의 정확성을 향상시키고, 따라서 텍스트 처리의 정확성을 향상시킨다.

또한, 본 실시예는 포지티브/네거티브 샘플을 이용하여 매칭 모델을 트레이닝시킴으로써, 매칭되는 포지티브 샘플 객체와 라벨의 거리를 감소시키는 동시에, 매칭되지 않는 네거티브 샘플 객체와 라벨의 거리를 증가시킴으로써, 모델 트레이닝의 정확성을 효과적으로 향상시킬 수 있다. 또한, 매칭 모델의 트레이닝을 위한 샘플은 바운딩 박스 내의 이미지와 라벨만 포함하고, 이미지, 의문문 및 응답을 포함한 VQA 데이터에 비해, 샘플을 획득하는 경로가 다양하므로, 응용 상황이 광범위하고, 텍스트 확장에 용이하다. 본 실시예에 의해 제공되는 매칭 모델을 사용한 이미지 기반의 데이터 처리 방법은 보편성을 지니고, 응용 상황이 광범위하며, 응용 비용이 낮고, 텍스트 확장에 용이한 멀티모드 학습 방법으로서, 원래의 태스크의 컴퓨팅 시스템 프로세스 변화가 크지 않을 경우, 매칭 모델을 거의 모든 멀티모드 태스크에 응용할 수 있다.

또한, 본 실시예는 객체의 라벨과 객체, 라벨과 텍스트 사이의 강한 연관성을 충분히 이용하여 이미지 기반의 데이터 처리 장치가 이미지와 텍스트 사이의 연관성에 대한 학습을 강화시킬 수 있다.

실시예 3

도 3은 본 발명의 실시예 3에 의해 제공되는 이미지 기반의 데이터 처리 방법의 흐름도이다. 본 발명의 실시예는 상기 각 실시예의 기술적 해결수단에 기반하여 동작을 세분화한 것이다. 선택 가능하게, "텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키는" 동작을 "텍스트와 각각의 객체의 특징의 매칭도에 따라 각각의 객체의 특징을 가중 합산하여 이미지의 융합 특징을 획득하는" 동작으로 세분화한다. 도 3에 도시된 이미지 기반의 데이터 처리 방법은 하기와 같은 단계를 포함한다.

단계 S310에서, 이미지 및 피처리 텍스트를 획득한다.

단계 S320에서, 이미지 중 복수의 객체의 특징을 추출하고 텍스트의 특징을 추출한다.

단계 S330에서, 텍스트와 각각의 객체의 특징의 매칭도에 따라 각각의 객체의 특징을 가중 합산하여 이미지의 융합 특징을 획득한다.

선택 가능하게, 텍스트와 각각의 객체의 특징의 매칭도는 하기와 같은 2가지 선택 가능한 실시형태에 의해 획득할 수 있다.

첫 번째 선택 가능한 실시형태에서, 각각의 객체에 대응되는 바운딩 박스 내의 이미지 및 텍스트를 매칭 모델에 순차적으로 입력하여 매칭 모델에서 출력된 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도를 획득하고; 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도에 따라 텍스트와 각각의 객체 사이의 특징의 매칭도를 획득한다.

두 번째 선택 가능한 실시형태에서, 각각의 객체의 카테고리를 획득하고; 텍스트에서 각각의 객체의 카테고리를 검색하여, 검색 결과에 따라 텍스트와 각각의 객체의 특징의 매칭도를 결정한다.

상기 2가지 선택 가능한 실시형태의 구체적인 설명은 상기한 실시예들을 참조할 수 있으므로, 여기서 더 이상 설명하지 않는다.

본 동작에서, 텍스트와 각각의 객체 사이의 특징의 매칭도를 각각의 객체의 특징의 가중치로 하고, 가중치를 이용하여 객체의 특징을 가중 합산하여 이미지의 융합 특징을 획득한다. 예를 들어, 텍스트 "당신은 곰 발바닥을 볼 수 있습니까?"와 곰 발바닥의 특징과의 매칭도가 90%이고, 풀숲의 특징과의 매칭도가 10%이며, 나무 줄기의 특징과의 매칭도가 10%이며, 곰 다리의 특징과의 매칭도가 50%일 경우, 이미지의 융합 특징은 90% × 곰 발바닥의 특징 + 10% × 풀숲의 특징 + 10% × 나무 줄기의 특징 + 50% × 곰 다리의 특징이다.

객체의 특징이 정확하고 전면적이도록 확보하기 위하여, 복수의 객체의 특징을 융합시킬 경우, 복수의 객체의 특징으로서 차원 변환 전의 특징을 사용하는데, 즉, 각각의 객체에 대응되는 바운딩 박스 내의 이미지로부터 추출해 낸 각각의 객체의 특징을 사용함을 유의해야 한다.

단계 S340에서, 이미지의 융합 특징 및 텍스트의 특징에 따라 텍스트를 처리한다.

선행기술에 비해, 본 실시예는 이미지의 융합 특징으로 이미지의 상위 계층 특징을 대체하므로, 융합 특징이 이미지의 국부 특징과 텍스트 사이의 매칭도에 대한 선험적 지식을 갖기에, 텍스트 처리의 정확성을 향상시킨다. 예를 들어, 텍스트 중의 "곰 발바닥"은 곰 발바닥 객체의 특징과 상대적으로 높은 매칭도를 갖기에, 이미지 기반의 데이터 처리 장치는 도면에서 "곰 발바닥"과 대응되는 영역을 정확하게 찾을 수 있음으로써, 분석을 거쳐 정확한 답안이 "예"임을 확인한다.

실시예 4

도 4는 본 발명의 실시예 4에 의해 제공되는 이미지 기반의 데이터 처리 장치의 구조 개략도이고, 본 발명의 실시예는 이미지를 인식하여 텍스트를 처리하는 상황에 적용되며, 도 4를 참조하면, 이미지 기반의 데이터 처리 장치는 획득 모듈(410), 추출 모듈(420), 융합 모듈(430) 및 처리 모듈(440)을 포함한다.

획득 모듈(410)은 이미지 및 피처리 텍스트를 획득한다.

추출 모듈(420)은 이미지 중 복수의 객체의 특징을 추출하고 텍스트의 특징을 추출한다.

융합 모듈(430)은 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시킨다.

처리 모듈(440)은 융합 모듈(430)에 의해 획득된 이미지의 융합 특징 및 추출 모듈(420)에 의해 추출된 텍스트의 특징에 따라 텍스트를 처리한다.

선택 가능하게, 상기 이미지 기반의 데이터 처리 장치는, 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키기 전에, 각각의 객체에 대응되는 바운딩 박스 내의 이미지 및 텍스트를 매칭 모델에 순차적으로 입력하여 매칭 모델에서 출력된 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도를 획득하고; 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도에 따라 텍스트와 각각의 객체 사이의 특징의 매칭도를 획득하는 제1 매칭도 획득 모듈을 더 포함한다.

선택 가능하게, 매칭 모델은, 각각의 객체에 대응되는 바운딩 박스 내의 이미지로부터 각각의 객체의 특징을 추출하는 이미지 특징 추출 단계; 각각의 객체의 특징 차원을 기설정 차원으로 변환시키는 이미지 특징 차원 변환 단계; 텍스트 중 각각의 단어의 특징을 추출하는 텍스트 특징 추출 단계; 텍스트 중 각각의 단어의 특징 차원을 기설정 차원으로 변환시키는 텍스트 특징 차원 변환 단계; 및 차원 변환 후, 각각의 객체의 특징 각각과 각각의 단어의 특징의 매칭도를 산출하는 매칭 단계를 포함한다.

선택 가능하게, 매칭 단계는 구체적으로, 차원 변환 후, 각각의 객체의 특징 각각과 텍스트 중 각각의 단어의 특징의 거리 및/또는 코사인 유사도를 산출하여 각각의 객체의 특징과 텍스트 중 각각의 단어의 특징의 매칭도를 획득한다.

선택 가능하게, 상기 이미지 기반의 데이터 처리 장치는, 각각의 객체에 대응되는 바운딩 박스 내의 이미지 및 텍스트를 매칭 모델에 순차적으로 입력하기 전에, 매칭 모델의 트레이닝을 위한 포지티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지, 네거티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지 및 포지티브 샘플 객체의 라벨을 획득하고; 포지티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지, 네거티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지 및 라벨을 매칭 모델에 입력하여 포지티브 샘플 객체의 특징과 라벨 특징의 제1 매칭도, 및 네거티브 샘플 객체의 특징과 라벨 특징의 제2 매칭도를 획득하며; 제1 매칭도를 최대화하고 제2 매칭도를 최소화하는 것을 목적으로 하거나, 제1 매칭도와 제2 매칭도의 차이값을 기설정된 임계값보다 크게 하는 것을 목적으로 하여, 매칭 모델을 트레이닝하는 모델 트레이닝 모듈을 더 포함한다.

선택 가능하게, 제1 매칭도 획득 모듈이 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도에 따라 텍스트와 각각의 객체의 특징의 매칭도를 획득할 경우, 구체적으로, 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도로부터, 각각의 객체의 특징과 대응되는 최대 매칭도 또는 평균 매칭도를 산출하여 텍스트와 각각의 객체 사이의 특징의 매칭도로 한다.

선택 가능하게, 상기 이미지 기반의 데이터 처리 장치는, 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키기 전에, 각각의 객체의 카테고리를 획득하고; 텍스트에서 각각의 객체의 카테고리를 검색하고, 검색 결과에 따라 텍스트와 각각의 객체 사이의 특징의 매칭도를 결정하는 제2 매칭도 획득 모듈을 더 포함한다.

선택 가능하게, 융합 모듈(430)이 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시킬 경우, 구체적으로, 텍스트와 각각의 객체의 특징의 매칭도에 따라 각각의 객체의 특징을 가중 합산하여 이미지의 융합 특징을 획득한다.

본 발명의 실시예에 의해 제공되는 이미지 기반의 데이터 처리 장치는 본 발명의 임의의 실시예에 의해 제공되는 이미지 기반의 데이터 처리 방법을 수행할 수 있고, 상기 방법을 수행하기 위한 상응한 기능 모듈과 유리한 효과를 갖는다.

실시예 5

도 5는 본 발명의 실시예 5에 의해 제공되는 전자 기기의 구조 개략도이다. 도 5는 본 발명의 실시형태의 예시적 전자 기기(12)를 구현하기 위한 블록도이다. 도 5에 도시된 전자 기기(12)는 단지 하나의 예시일 뿐, 본 발명의 실시예의 기능과 사용 범위에 대해 어떠한 제한도 해서는 안 된다.

도 5에 도시된 바와 같이, 전자 기기(12)는 범용 컴퓨팅 기기의 형태로 표시된다. 전자 기기(12)의 각 부재들은 하나 또는 복수의 프로세서 또는 처리 유닛(16), 시스템 메모리(28), 상이한 시스템 부재(시스템 메모리(28)와 처리 유닛(16)을 포함)들을 연결하는 버스(18)를 포함할 수 있으나 이에 한정되지 않는다.

버스(18)는 다양한 유형의 버스 구조 중의 한 가지 또는 여러 가지일 수 있으며, 메모리 버스 또는 메모리 제어기, 주변 버스, 가속 그래픽 포트, 프로세서, 또는 다양한 버스 구조 중의 임의의 버스 구조를 사용한 로컬 버스를 포함한다. 예를 들면, 이러한 시스템 구조는 업계 표준 구조(ISA) 버스, 마이크로 채널 구조(MAC) 버스, 증강형 ISA 버스, 비디오 일렉트로닉스 스탠더드 어소시에이션(VESA) 로컬 버스 및 주변 부재 상호 접속(PCI) 버스를 포함할 수 있으나 이에 한정되지 않는다.

전자 기기(12)는 대표적으로 다양한 컴퓨터 시스템 판독 가능한 매체를 포함한다. 이러한 매체는 전자 기기에 의해 액세스될 수 있는 임의의 사용 가능한 매체일 수 있고, 휘발성 및 비휘발성 매체, 착탈 가능한 및 착탈 불가능한 매체를 포함한다.

시스템 메모리(28)는 휘발성 메모리 형태의 컴퓨터 시스템 판독 가능한 매체를 포함할 수 있으며, 예를 들어, 랜덤 액세스 메모리(RAM)(30) 및/또는 캐시 메모리(32)를 포함할 수 있다. 전자 기기(12)는 기타 착탈 가능한/착탈 불가능한, 휘발성/비휘발성 컴퓨터 시스템 저장 매체를 더 포함할 수 있다. 단지 예시로서, 저장 시스템(34)은 착탈 불가능한, 비휘발성 자기 매체(도 5에 도시되지 않음, 일반적으로 "하드 드라이버"라고 함)의 판독 및 기록에 사용될 수 있다. 비록 도 5에 도시되지 않았으나, 착탈 가능한 비휘발성 자기 디스크(예를 들어, "플로피 디스켓")를 판독 및 기록할 수 있는 자기 디스크 드라이브, 및 착탈 가능한 비휘발성 광 디스크(예를 들어, CD-ROM, DVD-ROM 또는 다른 광 매체)를 판독 및 기록할 수 있는 광 디스크 드라이브를 제공할 수 있다. 이러한 경우, 각각의 드라이버는 하나 또는 복수의 데이터 매체 인터페이스를 통해 버스(18)와 연결될 수 있다. 메모리(28)는 적어도 하나의 프로그램 제품을 포함할 수 있고, 상기 프로그램 제품은 한 그룹(예를 들어, 적어도 하나)의 프로그램 모듈을 구비하며, 이러한 프로그램 모듈은 본 발명의 각 실시예의 기능을 수행하도록 구성된다.

일 그룹(적어도 하나)의 프로그램 모듈(42)을 구비하는 프로그램/유틸리티 툴(40)은 예를 들어 메모리(28)에 저장될 수 있고, 이러한 프로그램 모듈(42)은 운영 시스템, 하나 또는 복수의 응용 프로그램, 다른 프로그램 모듈 및 프로그램 데이터를 포함할 수 있으나 이에 한정되지 않으며, 이러한 예시에서의 각각 또는 어느 한 가지의 조합은 네트워크 환경의 구현을 포함할 수 있다. 프로그램 모듈(42)은 일반적으로 본 발명에 설명된 실시예에서의 기능 및/또는 방법을 수행한다.

전자 기기(12)는 하나 또는 복수의 외부 기기(14)(예를 들어, 키보드, 지향적 기기, 디스플레이(24), 카메라 등)와 통신할 수도 있고, 사용자가 상기 전자 기기(12)와 인터랙팅할 수 있도록 하는 하나 또는 복수의 기기와 통신할 수도 있으며, 그리고/또는 상기 전자 기기(12)가 하나 또는 복수의 기타 컴퓨팅 기기와 통신할 수 있도록 하는 임의의 기기(예를 들어, 랜카드, 모뎀 등)와 통신할 수 있다. 이러한 통신은 입력/출력(I/O) 인터페이스(22)를 통해 진행할 수 있다. 또한, 전자 기기(12)는 네트워크 어댑터(20)를 통해 하나 또는 복수의 네트워크(예를 들어, 구내 정보 통신망(LAN), 광역 통신망(WAN) 및/또는 공중망, 예를 들어, 인터넷)와 통신할 수도 있다. 도면에 도시된 바와 같이, 네트워크 어댑터(20)는 버스(18)를 통해 전자 기기(12)의 기타 모듈과 통신한다. 비록 도면에 도시되지 않았으나, 전자 기기(12)를 참조하여 마이크로코드, 기기 드라이버, 중복 처리 유닛, 외부 자기 디스크 구동 어레이, RAID 시스템, 자기 테이프 드라이버 및 데이터 백업 저장 시스템 등을 포함할 수 있으나 이에 한정되지 않는 기타 하드웨어 및/또는 소프트웨어 모듈을 사용할 수 있음을 이해해야 한다.

처리 유닛(16)은 시스템 메모리(28)에 저장된 프로그램을 실행하여 다양한 기능 응용 및 데이터 처리를 수행하며, 예를 들어, 본 발명의 실시예에 의해 제공되는 이미지 기반의 데이터 처리 방법을 수행한다.

실시예 6

본 발명의 실시예 6은 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체를 더 제공하고, 상기 프로그램은 프로세서에 의해 실행될 경우 어느 하나의 실시예에 따른 이미지 기반의 데이터 처리 방법을 수행한다.

본 발명의 실시예의 컴퓨터 판독 가능한 매체는 하나 또는 복수의 컴퓨터 판독 가능한 매체의 임의의 조합을 사용할 수 있다. 컴퓨터 판독 가능한 매체는 컴퓨터 판독 가능 신호 매체 또는 컴퓨터 판독 가능 저장 매체일 수 있다. 컴퓨터 판독 가능 저장 매체는, 예를 들어, 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 소자, 또는 이들의 임의의 조합일 수 있으나, 이에 한정되지는 않는다. 컴퓨터 판독 가능 저장 매체의 보다 구체적인 예(철저하지 않은 나열)는 하나 또는 복수의 와이어를 갖는 전기적 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그램 가능 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 이들의 임의의 적절한 조합을 포함한다. 본 발명에서, 컴퓨터 판독 가능 저장 매체는 명령 실행 시스템, 장치 또는 소자 또는 이들과 결합되어 사용될 수 있는 프로그램을 포함하거나 저장할 수 있는 임의의 유형 매체(tangible medium)일 수 있다.

컴퓨터 판독 가능 신호 매체는 컴퓨터 판독 가능 프로그램 코드가 적재된 베이스 밴드 또는 캐리어의 일부에 의해 전파되는 데이터 신호를 포함할 수 있다. 상기와 같이 전파된 데이터 신호는 전자기 신호, 광학 신호, 또는 상기 임의의 적절한 조합을 포함할 수 있으나 이에 한정되지 않는 다양한 형태일 수도 있다. 컴퓨터 판독 가능 신호 매체는 또한 명령 실행 시스템, 장치 또는 소자에 사용되거나 이와 결합하여 사용하기 위한 프로그램을 송신, 전파 또는 전송할 수 있는 컴퓨터 판독 저장 가능한 매체 이외의 임의의 컴퓨터 판독 가능한 매체일 수 있다.

컴퓨터 판독 가능한 매체에 포함된 프로그램 코드는 무선, 유선, 광 케이블, RF 등, 또는 상기의 임의의 적절한 조합을 포함할 수 있으나 이에 한정되지 않는 임의의 적절한 매체에 의해 전송될 수 있다.

본 발명의 동작을 수행하기 위한 컴퓨터 프로그램 코드는 하나 또는 복수의 프로그래밍 언어, 또는 그들의 조합으로 작성될 수 있고, 프로그래밍 언어는 Java, Smalltalk, C++를 비롯한 객체 지향 프로그래밍 언어와 "C" 언어 또는 유사한 프로그래밍 언어를 비롯한 기존 절차적 프로그래밍 언어를 포함한다. 프로그램 코드는 완전히 사용자의 컴퓨터에서 실행되거나, 부분적으로 사용자의 컴퓨터에서 실행되거나, 하나의 독립형 소프트웨어 패키지로서 실행되거나, 일부는 사용자의 컴퓨터에서 실행되고 일부는 원격 컴퓨터에서 실행되거나, 또는 완전히 원격 컴퓨터 또는 서버에서 실행될 수 있다. 원격 컴퓨터의 경우, 원격 컴퓨터는 구내 정보 통신망(LAN) 또는 광역 통신망(WAN)을 포함하는 임의의 종류의 네트워크를 통해 사용자의 컴퓨터에 연결되거나 외부 컴퓨터에 연결될 수 있다(예를 들어, 인터넷 서비스 제공 업체를 이용하여 인터넷을 통해 연결될 수 있다).

상기 설명은 본 발명의 바람직한 실시예 및 적용된 기술의 원리에 대한 설명일 뿐이다. 본 발명은 여기서 설명된 특정 실시예에 한정되지 않고, 본 발명이 속하는 기술분야의 통상의 기술자들은 본 발명의 보호범위를 벗어나지 않는 전제 하에 여러 가지 명확한 변경, 재조정 및 대체를 진행할 수 있음을 이해할 수 있다. 따라서, 비록 상기 실시예들을 통해 본 발명을 비교적 상세하게 설명하였지만, 본 발명은 상기 실시예들에 한정되지 않고, 본 발명의 사상을 벗어나지 않는 전제 하에 보다 많은 다른 등가 실시예를 더 포함할 수 있으며, 본 발명의 범위는 첨부된 청구범위에 의해 결정된다.

Claims

이미지 기반의 데이터 처리 방법으로서,
이미지 및 피처리 텍스트를 획득하는 단계;
이미지 중 복수의 객체의 특징을 추출하고 상기 텍스트의 특징을 추출하는 단계;
텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키는 단계; 및
상기 이미지의 융합 특징 및 텍스트의 특징에 따라 상기 텍스트를 처리하는 단계를 포함하고,
상기 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키는 단계 이전에,
각각의 객체에 대응되는 바운딩 박스 내의 이미지 및 텍스트를 매칭 모델에 순차적으로 입력하여 매칭 모델에서 출력된 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도를 획득하는 단계; 및
각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도에 따라 상기 텍스트와 각각의 객체의 특징의 매칭도를 획득하는 단계를 더 포함하는, 이미지 기반의 데이터 처리 방법.
제1항에 있어서,
상기 매칭 모델은,
각각의 객체에 대응되는 바운딩 박스 내의 이미지로부터 각각의 객체의 특징을 추출하는 이미지 특징 추출 단계;
각각의 객체의 특징 차원을 기설정 차원으로 변환시키는 이미지 특징 차원 변환 단계;
텍스트 중 각각의 단어의 특징을 추출하는 텍스트 특징 추출 단계;
텍스트 중 각각의 단어의 특징 차원을 상기 기설정 차원으로 변환시키는 텍스트 특징 차원 변환 단계; 및
차원 변환 후, 각각의 객체의 특징 각각과 각각의 단어의 특징의 매칭도를 산출하는 매칭 단계를 포함하는, 이미지 기반의 데이터 처리 방법.
제2항에 있어서,
상기 매칭 단계는 구체적으로,
차원 변환 후, 각각의 객체의 특징 각각과 텍스트 중 각각의 단어의 특징의 거리 및 코사인 유사도를 산출하여 각각의 객체의 특징과 텍스트 중 각각의 단어의 특징의 매칭도를 획득하는, 이미지 기반의 데이터 처리 방법.
제2항에 있어서,
상기 매칭 단계는 구체적으로,
차원 변환 후, 각각의 객체의 특징 각각과 텍스트 중 각각의 단어의 특징의 거리 또는 코사인 유사도를 산출하여 각각의 객체의 특징과 텍스트 중 각각의 단어의 특징의 매칭도를 획득하는, 이미지 기반의 데이터 처리 방법.
제1항에 있어서,
상기 각각의 객체에 대응되는 바운딩 박스 내의 이미지 및 텍스트를 매칭 모델에 순차적으로 입력하는 단계 이전에,
상기 매칭 모델의 트레이닝을 위한 포지티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지, 네거티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지 및 포지티브 샘플 객체의 라벨을 획득하는 단계;
상기 포지티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지, 상기 네거티브 샘플 객체에 대응되는 바운딩 박스 내의 이미지 및 상기 라벨을 매칭 모델에 순차적으로 입력하여 포지티브 샘플 객체의 특징과 라벨 특징의 제1 매칭도, 및 네거티브 샘플 객체의 특징과 라벨 특징의 제2 매칭도를 획득하는 단계; 및
제1 매칭도를 최대화하고 제2 매칭도를 최소화하는 것을 목적으로 하거나, 제1 매칭도와 제2 매칭도의 차이값을 기설정된 임계값보다 크게 하는 것을 목적으로 하여, 상기 매칭 모델을 트레이닝하는 단계를 더 포함하는, 이미지 기반의 데이터 처리 방법.
제1항에 있어서,
상기 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도에 따라 상기 텍스트와 각각의 객체의 특징의 매칭도를 획득하는 단계는,
각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도에서, 각각의 객체의 특징과 대응되는 최대 매칭도 또는 평균 매칭도를 산출하여 상기 텍스트와 각각의 객체의 특징의 매칭도로 하는 단계를 포함하는, 이미지 기반의 데이터 처리 방법.
제1항에 있어서,
상기 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키는 단계 이전에,
각각의 객체의 카테고리를 획득하는 단계; 및
텍스트에서 각각의 객체의 카테고리를 검색하고, 검색 결과에 따라 텍스트와 각각의 객체의 특징의 매칭도를 결정하는 단계를 더 포함하는, 이미지 기반의 데이터 처리 방법.
제1항 내지 제7항 중 어느 한 항에 있어서,
상기 텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키는 단계는,
텍스트와 각각의 객체의 특징의 매칭도에 따라 각각의 객체의 특징을 가중 합산하여 이미지의 융합 특징을 획득하는 단계를 포함하는, 이미지 기반의 데이터 처리 방법.
이미지 기반의 데이터 처리 장치로서,
이미지 및 피처리 텍스트를 획득하는 획득 모듈;
이미지 중 복수의 객체의 특징을 추출하고 텍스트의 특징을 추출하는 추출 모듈;
텍스트와 복수의 객체 중 각각의 객체 사이의 특징의 매칭도에 따라 복수의 객체의 특징을 이미지의 융합 특징으로 융합시키는 융합 모듈; 및
이미지의 융합 특징 및 텍스트의 특징에 따라 상기 텍스트를 처리하는 처리 모듈을 포함하고,
상기 융합 모듈은,
각각의 객체에 대응되는 바운딩 박스 내의 이미지 및 텍스트를 매칭 모델에 순차적으로 입력하여 매칭 모델에서 출력된 각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도를 획득하고; 및
각각의 객체의 특징과 텍스트 중 각 단어의 특징 사이의 매칭도에 따라 상기 텍스트와 각각의 객체의 특징의 매칭도를 획득하는, 이미지 기반의 데이터 처리 장치.
전자 기기로서,
하나 또는 복수의 프로세서; 및
하나 또는 복수의 프로그램이 저장된 메모리를 포함하되,
상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 제1항 내지 제7항 중 어느 한 항에 따른 이미지 기반의 데이터 처리 방법을 구현하도록 하는, 전자 기기.
컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체로서,
상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우 제1항 내지 제7항 중 어느 한 항에 따른 이미지 기반의 데이터 처리 방법을 구현하는, 컴퓨터 판독 가능 저장 매체.