KR20200094624A - 이미지 기반의 데이터 처리 방법, 장치, 전자 기기 및 저장 매체 - Google Patents

이미지 기반의 데이터 처리 방법, 장치, 전자 기기 및 저장 매체 Download PDF

Info

Publication number
KR20200094624A
KR20200094624A KR1020190150445A KR20190150445A KR20200094624A KR 20200094624 A KR20200094624 A KR 20200094624A KR 1020190150445 A KR1020190150445 A KR 1020190150445A KR 20190150445 A KR20190150445 A KR 20190150445A KR 20200094624 A KR20200094624 A KR 20200094624A
Authority
KR
South Korea
Prior art keywords
image
association
attribute
response
data processing
Prior art date
Application number
KR1020190150445A
Other languages
English (en)
Other versions
KR102279126B1 (ko
Inventor
핑핑 황
민 차오
잉 리
지안휘 황
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20200094624A publication Critical patent/KR20200094624A/ko
Application granted granted Critical
Publication of KR102279126B1 publication Critical patent/KR102279126B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 실시예는 이미지 기반의 데이터 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능 저장 매체를 제공한다. 상기 방법에 있어서, 이미지에 관하여 입력한 조회에 응답하여, 객체와 속성 사이의 기설정 매핑에 기반하여 이미지 중에 나타나는 객체와 관련되는 속성을 결정한다. 또한, 객체 및 속성에 기반하여 객체와 조회 사이의 연관성을 결정한다. 나아가, 객체와 조회 사이의 연관성에 기반하여 조회에 대한 응답을 제공한다. 본 발명의 실시예는 이미지 기반의 데이터 처리 시스템의 성능을 향상시킬 수 있다.

Description

이미지 기반의 데이터 처리 방법, 장치, 전자 기기 및 저장 매체{IMAGE-BASED DATA PROCESSING METHOD, DEVICE, ELECTRONIC DEVICE AND STORAGE MEDIUM}
본 발명의 실시예는 일반적으로 정보 처리 기술 분야에 관한 것으로, 특히, 이미지 기반의 데이터 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능 저장 매체에 관한 것이다.
시각적 질의 응답(VQA)은 컴퓨터 시각 및 자연 언어 처리에 관한 정보 처리 기술이다. 시각적 질의 응답 시스템은 일반적으로 특정된 이미지 및 상기 이미지에 관한 형태로 자유적, 개방적인 자연 언어 문제를 입력으로 하여, 상기 문제에 대한 자연 언어 답변을 생성하여 출력으로 한다. 이러한 문제는 사용자가 입력한 이미지에 관한 조회로 이해할 수 있으며, 시각적 질의 응답 시스템에 의해 제공된 답변은 상기 조회에 대한 응답으로 이해할 수 있다. 따라서, 사용자는 시각적 질의 응답 시스템에 이미지를 입력한 다음, 시각적 질의 응답 시스템에 상기 이미지에 관한 조회를 입력할 수 있다. 시각적 질의 응답 시스템이 응답을 제공한 후, 사용자는 상기 응답이 정확한지 여부를 판단하여, 이미지에 대한 시각적 질의 응답 시스템의 이해 능력을 관찰할 수 있다. 보다 통괄적으로, 시각적 질의 응답 시스템을 이미지 기반의 데이터 처리 시스템으로 이해할 수 있다.
그러나, 기존의 이미지 기반의 데이터 처리 시스템에 의해 제공된 응답은 여전히 정확도가 비교적 낮으며, 대부분의 경우 사용자의 요구를 충족시키지 못하여 사용자 체험에 부정적 효과를 초래한다.
본 발명의 실시예는 이미지 기반의 데이터 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능 저장 매체에 관한 것이다.
본 발명의 제1 양태에 따르면, 이미지 기반의 데이터 처리 방법을 제공한다. 상기 방법은 이미지에 관하여 입력한 조회에 응답하여, 객체와 속성 사이의 기설정 매핑에 기반하여, 이미지 중에 나타나는 객체와 관련되는 속성을 결정하는 단계를 포함한다. 상기 방법은, 객체 및 속성에 기반하여 객체와 조회 사이의 연관성을 결정하는 단계를 더 포함한다. 상기 방법은 나아가, 연관성에 기반하여 조회에 대한 응답을 제공하는 단계를 포함한다.
본 발명의 제2 양태에 따르면, 이미지 기반의 데이터 처리 장치를 제공한다. 상기 장치는, 이미지에 관하여 입력한 조회에 응답하여, 객체와 속성 사이의 기설정 매핑에 기반하여, 이미지 중에 나타나는 객체와 관련되는 속성을 결정하도록 구성된 속성 결정 모듈을 포함한다. 상기 장치는, 객체 및 속성에 기반하여 객체와 조회 사이의 연관성을 결정하도록 구성된 연관성 결정 모듈을 더 포함한다. 상기 장치는 나아가 연관성에 기반하여 조회에 대한 응답을 제공하도록 구성된 응답 제공 모듈을 포함한다.
본 발명의 제3 양태에 따르면, 전자 기기를 제공한다. 상기 전자 기기는 하나 또는 복수 개의 프로세서; 및 하나 또는 복수 개의 프로그램을 저장하기 위한 저장 장치를 포함한다. 하나 또는 복수 개의 프로그램이 하나 또는 복수 개의 프로세서에 의해 실행될 경우, 하나 또는 복수 개의 프로세서가 제1 양태에 따른 이미지 기반의 데이터 처리 방법을 구현하도록 한다.
본 발명의 제4 양태에 따르면, 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체를 제공하며, 상기 프로그램은 프로세서에 의해 실행될 경우 제1 양태에 따른 이미지 기반의 데이터 처리 방법을 구현한다.
발명의 상세한 내용 부분에서 설명되는 내용은 본 발명의 실시예의 핵심 또는 중요한 특징을 한정하려는 것이 아니며, 본 발명의 범위를 한정하려는 것이 아님을 이해해야 한다. 본 발명의 다른 특징은 아래 설명을 통해 쉽게 이해될 것이다.
첨부된 도면을 참조한 이하 상세한 설명을 통하여, 본 발명의 실시예의 상술한 설명과 기타 다른 목적, 특징 및 이점들을 쉽게 이해할 수 있을 것이다. 도면에서, 본 발명의 다양한 실시예를 예시적이고 비제한적인 방식으로 도시하였다.
도 1a 내지 도 1c는 이미지 기반의 데이터 처리 시스템에 의해 처리된 3개의 예시적 이미지를 도시한다.
도 2a 내지 도 2c는 주의력 메커니즘을 이용한 기존의 해결수단의 이미지 기반의 데이터 처리 시스템의 관심 영역의 개략도를 도시한다.
도 3은 본 발명의 일부 실시예가 구현될 수 있는 예시적 환경의 개략도를 도시한다.
도 4는 본 발명의 실시예에 따른 이미지 기반의 데이터 처리 방법의 예시적 흐름도를 도시한다.
도 5a 내지 도 5c는 본 발명의 실시예에 따른 이미지 기반의 데이터 처리 시스템의 관심 영역의 개략도를 도시한다.
도 6은 본 발명의 실시예에 따른 예시적 이미지 기반의 데이터 처리 시스템의 구조 블록도를 도시한다.
도 7은 본 발명의 실시예에 따른 이미지 기반의 데이터 처리 장치의 예시적 블록도를 도시한다.
도 8은 본 발명의 실시예를 구현할 수 있는 기기의 개략적 블록도를 도시한다.
도면 전체에 걸쳐, 동일하거나 유사한 참조 부호는 동일하거나 유사한 구성 요소를 표시하기 위해 사용된다.
아래에 도면에 도시된 다양한 예시적 실시예를 참조하여 본 발명의 원리와 사상을 설명하고자 한다. 이러한 구체적인 실시예는 단지 본 기술분야의 통상의 기술자가 본 발명을 보다 더 잘 이해하고 구현할 수 있도록 하기 위해 설명된 것일 뿐, 그 어떠한 방식으로도 본 발명의 범위를 한정하려는 것이 아님을 이해해야 한다.
상술한 설명에서 언급된 바와 같이, 기존의 이미지 기반의 데이터 처리 시스템에 의해 제공된 응답의 정확도는 여전히 비교적 낮으며, 대부분 경우 사용자의 요구를 충족시키지 못하여 사용자의 체험에 부정적 효과를 초래한다. 발명자의 연구에 의하면, 기존의 이미지 기반의 데이터 처리 시스템의 응답 정확도가 낮은 주요 원인은, 기존의 이미지 기반의 데이터 처리 시스템이 사용자의 조회에 답하는 과정에서 이미지 중 마땅히 관심대상이 되어야 할 객체를 정확하게 결정할 수 없으며, 따라서 이미지 기반의 데이터 처리 시스템이 착오적인 응답을 출력하도록 하는 것에 있다. 아래에 예시적 방식으로 이에 대해 상세하게 설명한다.
도 1a 내지 도 1c는 이미지 기반의 데이터 처리 시스템에 의해 처리된 3개의 예시적 이미지를 도시한다. 도 1a에 도시된 바와 같이, 이미지(110)에 한 인물의 형상이 도시되었으며, 상기 인물은 넥타이(112) 및 바지(114)를 입고 있다. 예를 들면, 사용자가 이미지(110)에 관하여 입력한 조회는 가능하게 "그의 넥타이와 바지는 어울립니까?"일 수 있다. 도 1b에 도시된 바와 같이, 이미지(120)에는 다수의 상이한 과일이 도시되어 있으며, 바나나(122)와 파인애플(124) 등이 포함된다. 예를 들면, 사용자가 이미지(120)에 관하여 입력한 조회는 가능하게 "노란색의 과일은 무엇입니까?"일 수 있다. 여기서 도시된 이미지(120)는 무색이지만 실제 경우, 이미지(120)에 도시된 과일은 다양한 색상을 가질 수 있음을 이해할 것이다. 도 1c에 도시된 바와 같이, 이미지(130)에 하나의 침대 및 관련 물품이 도시되었으며, 침대 머리판(132) 및 베개(134) 등이 포함된다. 예를 들면, 사용자가 이미지(130)에 관하여 입력한 조회는 가능하게 "침대 머리판은 부드러운 것입니까?"일 수 있다.
여기서 제공된 이미지(110-130) 및 이에 특정된 구체적인 조회는 단지 예시적인 것이며, 그 어떠한 방식으로도 본 발명의 범위를 한정하려는 것이 아님을 이해해야 한다. 다른 실시예에서, 이미지 기반의 데이터 처리 시스템에 의해 처리된 이미지는 임의의 객체를 도시하는 임의의 이미지일 수 있으며, 사용자가 이미지에 대하여 입력한 조회는 이미지 중에 도시된 객체에 관한 임의의 조회일 수 있다. 다시 말해서, 본 발명의 실시예는 이미지 기반의 데이터 처리 시스템에 의해 처리된 임의의 이미지와 조회에 적용될 수 있다.
도 1a 내지 도 1c 중의 이미지(110), 이미지(120), 이미지(130) 및 이에 대해 제출한 상기 조회에 대하여, 일부 기존의 이미지 기반의 데이터 처리 시스템의 처리 프로세스는 우선 이미지와 조회에 대해 각각 특징을 추출한 다음 양자의 특징에 대해 다중 모드 융합을 진행하고, 마지막으로 분류기에 의해 조회에 대한 응답을 출력한다. 그러나, 이미지에는 종종 여러가지의 복잡하고 필요하지 않은 물체와 장면이 포함되어 있어, 이는 이미지 기반의 데이터 처리 시스템이 이미지를 이해하는데 큰 어려움을 초래한다. 따라서, 상기 기존의 방식에 의해 이미지에 대한 전체적인 특징을 추출한 다음 다시 조회 특징과 다중 모드 융합을 진행하는 효과는 그다지 이상적이지 못하다.
다른 일부 기존의 이미지 기반의 데이터 처리 시스템에서, 이미지 정보에 대한 검색 범위를 축소하여, 상대적으로 더 많은 컴퓨팅 리소스를 핵심적 객체에 분배하도록, 이미지 기반의 데이터 처리 시스템은 주의력 메커니즘을 사용할 수 있다. 구체적으로, 객체 검출 알고리즘을 이용하여, 이미지 기반의 데이터 처리 시스템은 이미지 중 현저한 여러 개의 물체(예를 들어, 객체 검출 알고리즘 신뢰도 점수가 가장 높은 앞의 36개의 물체)를 선별할 수 있고, 또한 이러한 객체의 특징을 추출하여 전체 이미지 특징으로 대체하여 조회 특징과 다중 모드 융합을 진행한다.
주의력 메커니즘을 이용한 기존의 이미지 기반의 데이터 처리 시스템에 대하여, 발명자는 일반 가시화 방법을 통해 이의 관심 영역에 대해 가시화 분석 및 연구를 진행하였다. 연구 결과, 발명자는 이러한 기존의 이미지 기반의 데이터 처리 시스템의 관심 초점이 일부 경우 조회의 원래 의도에서 벗어남으로써, 결과적으로 이미지 기반의 데이터 처리 시스템으로부터 착오적인 응답이 제공됨을 발견하였다. 아래에 도 2a 내지 도 2c를 참조하여 이에 대해 상세하게 설명한다.
도 2a 내지 도 2c는 주의력 메커니즘을 이용한 기존의 해결수단의 이미지 기반의 데이터 처리 시스템의 관심 영역의 개략도를 도시한다. 도 2a에 도시된 바와 같이, 이미지(110)에 대하여, 기존의 해결수단의 이미지 기반의 데이터 처리 시스템은 영역(210) 및 영역(220)에 보다 많은 관심을 기울였으나 이러한 영역에는 사용자의 조회에서 언급된 넥타이(112)가 포함되지 않는다. 도 2b에 도시된 바와 같이, 이미지(120)에 대하여, 기존의 해결수단의 이미지 기반의 데이터 처리 시스템은 영역(230) 및 영역(240)에 보다 많은 관심을 기울였으나 이러한 영역에는 사용자의 조회에서 언급된 바나나(122)가 포함되지 않는다. 도 2c에 도시된 바와 같이, 이미지(130)에 대하여, 기존의 해결수단의 이미지 기반의 데이터 처리 시스템은 영역(250) 및 영역(260)에 보다 많은 관심을 기울였으나 이러한 영역에는 사용자의 조회에서 언급된 침대 머리판(132)이 포함되지 않는다. 여기서 영역(210-260)의 특정 수량, 크기 및 형상은 단지 예시적인 것으로, 독자가 이미지 기반의 데이터 처리 시스템의 관심 영역을 이해하도록 돕기 위한 것이며, 그 어떠한 방식으로도 본 발명의 범위를 한정하려는 것이 아님을 이해할 것이다. 다른 실시예에서, 이미지 기반의 데이터 처리 시스템은 이미지 중의 임의의 수량, 임의의 크기 및 임의의 형상의 영역에 관심을 기울일 수 있다.
도 2a 내지 도 2c로부터 볼 수 있다시피, 기존의 이미지 기반의 데이터 처리 시스템의 관심 영역과 조회 사이에 연관성이 부족하며, 따라서 이미지 기반의 데이터 처리 시스템이 착오적인 응답을 출력하는 문제를 초래한다. 이러한 경우가 발생되는 근본적 원인은, 기존의 주의력 메커니즘이 객체 검출 알고리즘에 의해 제공된 현저한 객체 정보와 사용자의 조회를 효과적인 융합 및 연결시키지 않으므로 인해, 이미지 기반의 데이터 처리 시스템이 여전히 어떤 객체에 초점을 맞출지를 결정하지 않았기 때문이다. 따라서, 기존의 방법은 주의력 메커니즘을 이용하고, 객체 검출 알고리즘에 의해 이미지 중 가장 현저한 객체 정보를 도입하였지만, 대부분 경우, 이러한 이미지 기반의 데이터 처리 시스템은 여전히 정확한 응답을 제공하지 못하고 있다.
기존의 해결수단에 존재하는 상술한 문제 및 다른 잠재적인 문제를 고려하여, 본 발명의 실시예는 이미지 기반의 데이터 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능 저장 매체를 제공하여, 이미지 기반의 데이터 처리 시스템의 주의력 메커니즘과 관심 초점을 개선함으로써 이미지 기반의 데이터 처리 시스템에 의해 제공된 응답의 정확도를 향상시킨다.
일부 실시예에서, 제출된 이미지 기반의 데이터 처리 시스템은 객체 검출 알고리즘을 이용하여 객체의 특징 정보를 제공할 뿐만 아니라, 객체와 조회의 연관성을 결정할 수도 있다. 예를 들어, 이미지 기반의 데이터 처리 시스템은 이러한 객체 및 그 속성의 조합(카테고리 태그로도 지칭됨)을 도입할 수 있으며, 또한 이러한 카테고리 태그를 조회 특징과 동일한 차원의 특징 표현으로 전환시킨다. 다음, 이미지 기반의 데이터 처리 시스템은 각각의 객체의 카테고리 태그 특징과 조회 특징에 대해 유사도 산출을 진행하여 각각의 객체와 조회의 연관성을 얻는다.
또한, 이미지 기반의 데이터 처리 시스템은 객체와 조회의 연관성에 따라 객체의 관심 가중을 설정한다. 예를 들어, 객체의 관심 가중이 클수록, 이미지 기반의 데이터 처리 시스템이 조회에 대한 응답을 결정할 시, 상기 객체에 대한 관심 정도가 더 높다는 것을 의미하며, 이로써 이미지 기반의 데이터 처리 시스템의 관심 초점의 정확성을 개선한다. 아래에 도면을 참조하여 본 발명의 다양한 실시예들을 설명하고자 한다.
도 3은 본 발명의 일부 실시예가 구현될 수 있는 예시적 환경(300)의 개략도를 도시한다. 도 3에 도시된 바와 같이, 예시적 환경(300)에서, 사용자(미도시)는 이미지(305) 및 이미지(305)에 관한 조회(310)를 컴퓨팅 기기(330)에 입력할 수 있다. 컴퓨팅 기기(330)는 이미지(305)로부터 객체(315)를 식별할 수 있다. 본 출원에 사용된 바와 같이, 이미지(305) 중의 객체(315)는 이미지(305)에 나타나는 임의의 물체를 가리킬 수 있으며, 예를 들어, 건축물, 인체, 동물 등과 같은 일정한 형상과 크기를 갖는 물체이다. 다른 경우, 객체(315)는 예를 들어, 하늘, 초원, 구름 등과 같이 고정적인 형상과 크기가 없는 사물일 수도 있다. 보다 일반적으로, 객체(315)는 현재의 또는 미래 개발될 임의의 객체 식별 기술에 의해 이미지(305)로부터 식별할 수 있는 임의의 객체일 수 있다.
객체(315)를 식별한 이후, 컴퓨팅 기기(330)는 객체(315)의 속성(320)을 결정할 수 있다. 본 출원에 사용된 바와 같이, 속성(320)은 객체(315)가 통상적으로 갖는 특정된 성질을 가리키며, 예를 들어, 객체(315)의 색상 또는 상태 등이다. 객체(315)가 인물일 경우, 객체(315)의 상태는 해당 인물이 서있거나 다른 상태인 것을 가리킬 수 있다. 보다 일반적으로, 속성(320)은 이미지(305)에서 객체(315)가 나타낼 수 있는 임의의 성질을 가리킬 수 있다. 상기 성질은 이미지(305)에 의해 나타나므로, 객체(315)에 대한 사용자의 조회(310)는 객체(315)의 상기 성질에 관한 것일 수 있다.
계속하여 도 3을 참조하면, 객체(315)의 속성(320)을 결정한 이후, 컴퓨팅 기기(330)는 객체(315) 및 속성(320)을 이용하여 객체(315)와 조회(310) 사이의 연관성을 결정할 수 있다. 다시 말해서, 컴퓨팅 기기(330)는 조회(310)가 객체(315)와 관련되는지 여부 및 연관되는 정도를 결정한다. 예를 들어, 조회(310)에서 직접적으로 객체(315) 또는 속성(320)이 언급될 경우, 이는 통상적으로 조회(310)와 객체(315)가 매우 높은 연관성을 갖고 있음을 의미한다. 또한 예를 들어, 조회(310)에서 객체(315) 또는 속성(320)과 근접하거나 유사한 객체 또는 속성이 언급될 경우, 이는 조회(310)와 객체(315)가 비교적 높은 연관성을 갖고 있음을 의미할 수도 있다.
객체(315)와 조회(310)의 연관성을 결정한 이후, 컴퓨팅 기기(330)는 상기 연관성에 기반하여 조회(310)에 대한 응답(340)을 제공할 수 있다. 예를 들어, 컴퓨팅 기기(330)는 이미지(305) 중에 나타나는 복수 개의 객체에 대해 각각의 객체들과 조회(310)의 연관성을 결정할 수 있고, 그후 응답(340)을 제공하는 과정에서 비교적 높은 연관성을 갖는 객체에 보다 많은 관심을 기울이며, 비교적 낮은 연관성을 갖는 객체에 대해 보다 적은 관심을 기울인다. 조회(310)에 대한 명확한 답변 외에도, 여기서 응답(340)은 기타 다양한 형태의 조회(310)에 대한 응답을 더 포함할 수 있음을 이해할 것이다. 예를 들어, 응답(340)은 사용자에게 컴퓨팅 기기(330)가 조회(310)에 대한 명확한 답변 또는 임의의 다른 응답 정보를 제공할 수 없음을 지시하는 것일 수 있다.
컴퓨팅 기기(330)는 휴대 전화, 스테이션, 유닛, 기기, 멀티미디어 컴퓨터, 멀티미디어 태블릿, 인터넷 노드, 커뮤니케이터, 데스크톱 컴퓨터, 랩톱 컴퓨터, 노트북 컴퓨터, 넷북 컴퓨터, 태블릿 컴퓨터, 개인 휴대 통신 시스템(PCS) 기기, 개인 네비게이션 기기, 개인 휴대 정보 단말기(PDA), 오디오/비디오 플레이어, 디지털 카메라/캠코더, 위치 결정 기기, 텔레비전 수신기, 라디오 방송 수신기, 전자책 기기, 게임 기기 또는 이들의 임의의 조합을 포함하고, 이러한 기기의 부품과 주변 장치 또는 이들의 임의의 조합을 포함하는 임의의 유형의 이동 단말, 고정 단말 또는 휴대용 단말일 수 있다. 컴퓨팅 기기(330)는 사용자를 위한 임의의 유형의 인터페이스(예를 들어, "웨어러블" 회로 등)를 지원할 수 있는 것으로 또한 예상된다. 아래 도 4를 참조하여 본 발명의 실시예에 따른 이미지 기반의 데이터 처리의 예시적 작동을 설명한다.
도 4는 본 발명의 실시예에 따른 이미지 기반의 데이터 처리 방법(400)의 예시적 흐름도를 도시한다. 일부 실시예에서, 방법(400)은 도 3의 컴퓨팅 기기(330)에 의해 구현될 수 있으며, 예를 들어, 컴퓨팅 기기(330)의 프로세서 또는 처리 유닛에 의해 구현될 수 있다. 다른 실시예에서, 방법(400)의 전부 또는 일부는 컴퓨팅 기기(330) 시스템과 별도로 제공된 컴퓨팅 기기에 의해 구현될 수도 있거나 예시적 환경(300) 중의 기타 다른 유닛에 의해 구현될 수도 있다. 설명의 편의를 위해, 도 3을 참조하여 방법(400)을 설명한다.
단계 410에서, 이미지(305)에 관하여 입력한 조회(310)에 응답하여, 컴퓨팅 기기(330)는 객체와 속성 사이의 기설정 매핑에 기반하여, 이미지(305) 중에 나타나는 객체(315)와 관련되는 속성(320)을 결정한다. 일부 실시예에서, 컴퓨팅 기기(330)는 기존의 또는 미래 개발될 임의의 객체 검출 알고리즘에 의해 이미지(305) 중의 객체(315)를 검출할 수 있다. 객체(315)를 검출한 이후, 컴퓨팅 기기(330)는 객체(315)와 조회(310) 사이에 연관성이 존재하는지 여부를 결정하여, 응답(340)을 제공할 경우 객체(315)를 반드시 고려해야 할지 여부 및 객체(315)에 대해 어느 정도를 고려해야 할지를 결정할 수 있다. 이러한 연관성을 결정할 경우, 객체(315) 자체 외에도, 컴퓨팅 기기(330)는 객체(315)의 속성(320)을 이용하는데 그 원인에 대한 해석은 하기와 같다.
일부 경우, 조회(310)에서 객체(315)를 직접적으로 언급할 수 있는데 이는 조회(310)가 객체(315)와 관계된다는 것을 의미한다. 다른 한 경우, 조회(310)에 객체(315)가 직접적으로 관련되지 않고 객체(315)의 특정된 속성이 관련될 수 있다. 예를 들어, 상술한 설명의 이미지(120)에 관한 조회 "노란색 물체는 무엇입니까?"에서, 상기 조회에 이미지 중의 객체(예를 들어, 바나나(122))가 직접 언급되지 않았으나, 이는 바나나(122)의 속성(색상이 노란색)과 관련된다. 다시 말해서, 조회(310)에 객체(315)의 속성(320)이 관련된 경우, 컴퓨팅 기기(330)는 조회(310)가 객체(315)와 관계되는 것으로 인식할 수도 있다. 따라서, 사용자가 이미지(305)에 관하여 조회(310)를 입력한 이후, 컴퓨팅 기기(330)는 우선 이미지(305)에서 객체(315) 및 그 속성(320)을 검출한다. 구체적으로, 컴퓨팅 기기(330)는 객체와 속성 사이의 기설정 매핑에 의해 속성(320)을 결정할 수 있다. 예를 들어, 이러한 기설정 매핑은, 바나나는 일반적으로 노란색, 사과는 일반적으로 빨간색 등과 같이 미리 검증된 지식에 기반할 수 있다.
일부 실시예에서, 객체(315)의 속성(320)을 결정하기 위해, 컴퓨팅 기기(330)는 객체(315)에 기반하여 미리 정의된 데이터 세트로부터 속성(320)을 획득할 수 있다. 예를 들어, 상기 데이터 세트는 복수 개의 이미지로부터 미리 주석한 객체 및 속성을 포함할 수 있다. 예를 들어, 시각 게놈(Visual Genome) 데이터 세트일 수 있으며, 이는 예를 들어 10만 개의 이미지로부터 미리 주석한 1600 개의 엔티티 명칭 태그와 400 개의 속성 태그를 포함한다. 이러한 방식에 의해, 컴퓨팅 기기(330)는 이미 양호하게 구축된, 미리 주석한 이미지에 나타나는 객체와 속성의 기설정 관계를 충분히 이용할 수 있으며, 따라서 객체에 기반하여 그 속성을 결정하는 컴퓨팅 복잡성을 감소시킨다.
단계 420에서, 컴퓨팅 기기(330)는 객체(315)와 속성(320)에 기반하여 객체(315)와 조회(310) 사이의 연관성을 결정한다. 상술한 설명에서 언급된 바와 같이, 조회(310)가 객체(315) 자체 또는 그 속성(320)과 직접적으로 연관될 경우, 이는 조회(310)가 객체(315)와 매우 높은 연관성을 가진다는 것을 의미할 수 있다. 보다 일반적인 경우, 컴퓨팅 기기(330)는 조회(310) 중의 서술 단위와 객체(315) 및 속성(320)의 연관성을 결정하여 객체(315)와 조회(310)의 연관성을 결정할 수 있다. 예를 들어, 여기서 서술 단위는 조회(310) 중의 단어, 문구, 문장, 임의의 다른 적절한 서술 단위, 또는 이들의 임의의 조합을 가리킬 수 있다.
조회(310)의 서술 단위와 객체(315) 사이의 연관성을 결정할 경우, 컴퓨팅 기기(330)는 객체(315) 및 속성(320)의 조합의 제1 특징 표현을 결정할 수 있다. 예를 들어, 객체(315) 및 속성(320)의 이러한 조합(본 출원에서 객체(315)의 카테고리 태그로 지칭될 수도 있음)은 "노란색의 바나나", "검정색의 펜", "서있는 원숭이" 등일 수 있다. 컴퓨팅 기기(330)는 단어와 특징 사이의 미리 정의된 매핑 테이블에 의해, 객체(315)의 카테고리 태그를 특정 차원(예를 들어, 300차원)의 제1 특징 표현으로 전환시킬 수 있다.
이어서, 컴퓨팅 기기(330)는 조회(310) 중의 적어도 하나의 서술 단위에 대응되는 적어도 하나의 제2 특징 표현을 결정할 수 있다. 예를 들어, 컴퓨팅 기기(330)는 조회(310)로부터 특정 수량(예를 들어, 14개)의 단어를 추출할 수 있다. 상기 예시적 수량의 경우, 컴퓨팅 기기(330)는 객체(315)의 카테고리 태그를 특징화할 때 사용한 동일한 단어와 특징 사이의 미리 정의된 매핑 테이블에 기반하여, 14개의 단어를 14개의 제2 특징 표현으로 전환시킬 수 있다. 여기서 사용된 다양한 구체적인 수량, 구체적인 객체 및 구체적인 속성은 단지 예시적인 것일 뿐, 본 발명의 범위를 그 어떠한 방식으로도 한정하려는 것이 아님을 이해해야 한다. 다른 실시예에서, 객체(315) 및 속성(320)은 임의의 적절한 객체 및 관련되는 속성일 수 있으며, 컴퓨팅 기기(330)는 조회(310)로부터 임의의 적절한 수량의 서술 단위를 결정할 수도 있다.
다음, 컴퓨팅 기기(330)는 객체(315)의 카테고리 태그의 제1 특징 표현 및 조회(310)의 적어도 하나의 제2 특징 표현에 기반하여, 객체(315)와 조회(310) 사이의 연관성을 획득할 수 있다. 하나의 제2 특징 표현만 존재할 경우, 컴퓨팅 기기(330)는 제1 특징 표현과 제2 특징 표현 사이의 유사도(예를 들어, 코사인 유사도)를 직접 산출하여 객체(315)와 조회(310) 사이의 연관성을 결정할 수 있다. 상기 방식을 통하여, 컴퓨팅 기기(330)는 수치 산출의 방식에 의해 객체(315)와 조회(310) 사이의 연관성을 계량화할 수 있다.
복수 개의 제2 특징 표현이 존재할 경우, 컴퓨팅 기기(330)는 각각의 제1 특징 표현과 복수 개의 제2 특징 표현 사이의 복수 개의 유사도를 산출할 수 있다. 다음, 컴퓨팅 기기(330)는 산출하여 취득한 복수 개의 유사도에 기반하여 객체(315)와 조회(310) 사이의 연관성을 취득할 수 있다. 상기 방식을 통하여, 컴퓨팅 기기(330)는 객체(315)의 특징 표현과 조회(310)의 복수 개의 서술 단위의 특징 표현 사이의 유사성을 종합적으로 고려할 수 있으며, 따라서 객체(315)와 조회(310) 사이의 연관성을 보다 정확하게 결정할 수 있다. 예를 들어, 컴퓨팅 기기(330)는 복수 개의 유사도 중의 최댓값, 중간값, 평균값, 가중값, 다른 임의의 적절한 산출값, 또는 이들의 임의의 조합을 선택하여, 객체(315)와 조회(310) 사이의 연관성으로 사용할 수 있다. 이러한 방식으로, 컴퓨팅 기기(330)는 상이한 계산 방식을 사용하여, 상기 얻은 복수 개의 유사도를 처리할 수 있으며, 이로써 최종 취득한 연관성의 정확성 및 합리성을 조정한다.
단계 430에서, 컴퓨팅 기기(330)는 객체(315)와 조회(310) 사이의 연관성에 기반하여 조회에 대한 응답(340)을 제공한다. 예를 들어, 컴퓨팅 기기(330)가 객체(315)와 조회(310)가 비교적 높은 연관성을 가진다고 결정할 경우, 이미지(305) 중의 조회(310)와 비교적 낮은 연관성을 갖는 다른 객체에 대해, 컴퓨팅 기기(330)는 응답(340)을 결정할 시 객체(315)를 보다 많이 고려해야 한다. 반대로, 컴퓨팅 기기(330)가 객체(315)와 조회(310)가 비교적 낮은 연관성을 가진다고 결정할 경우, 이미지(305) 중의 조회(310)와 비교적 높은 연관성을 갖는 다른 객체에 대해, 컴퓨팅 기기(330)는 응답(340)을 결정할 시 객체(315)를 보다 적게 고려해야 한다.
일부 실시예에서, 컴퓨팅 기기(330)가 응답(340)을 결정할 시 객체(315)에 대한 고려 정도를 계량화하기 위해, 컴퓨팅 기기(330)는 객체(315)와 조회(310) 사이의 연관성에 기반하여 객체(315)의 가중을 결정할 수 있다. 상기 가중은 컴퓨팅 기기(330)가 응답(340)을 결정할 시 객체(315)의 중요 정도를 가리킬 수 있다. 상기 가중을 결정한 이후, 컴퓨팅 기기(330)는 상기 가중에 기반하여 응답(340)의 콘텐츠를 결정할 수 있다. 이러한 방식을 통하여, 컴퓨팅 기기(330)는 이미지(305) 중의 복수 개의 상이한 객체에 상이한 가중을 설정할 수 있으며, 따라서 컴퓨팅 기기(330)가 응답(340)을 결정하는 과정에서의 관심 초점을 개선하여 최종 응답(340)의 정확도를 향상시킨다.
도 5a 내지 도 5c는 본 발명의 실시예에 따른 이미지 기반의 데이터 처리 시스템의 관심 영역의 개략도를 도시한다. 도 5a에 도시된 바와 같이, 이미지(110)에 대하여, 본 발명의 실시예에 따른 이미지 기반의 데이터 처리 시스템은 영역(510) 및 영역(520)에 관심을 기울일 수 있으며, 영역(510)에는 조회에서 언급된 넥타이(112)가 포함된다. 도 5b에 도시된 바와 같이, 이미지(120)에 대하여, 본 발명의 실시예에 따른 이미지 기반의 데이터 처리 시스템은 영역(530) 및 영역(540)에 관심을 기울일 수 있으며, 영역(540)에는 조회에서 언급된 바나나(122)가 포함된다. 도 5c에 도시된 바와 같이, 이미지(130)에 대하여, 본 발명의 실시예에 따른 이미지 기반의 데이터 처리 시스템은 영역(550) 및 영역(560)에 관심을 가질 수 있으며, 영역(550)에는 조회에서 언급된 침대 머리판(132)이 포함된다. 여기서 영역(510-560)의 특정 수량, 크기 및 형상은 단지 예시적인 것으로, 독자가 이미지 기반의 데이터 처리 시스템의 관심 영역을 이해하도록 돕기 위한 것이며, 그 어떠한 방식으로도 본 발명의 범위를 한정하려는 것이 아님을 이해할 것이다. 다른 실시예에서, 이미지 기반의 데이터 처리 시스템은 이미지 중의 임의의 수량, 임의의 크기 및 임의의 형상의 영역에 관심을 가질 수 있다.
도 5a 내지 도 5c로부터 볼 수 있다시피, 본 발명의 실시예의 이미지 기반의 데이터 처리 시스템에 따라 착오적인 관심 초점을 효과적으로 교정하였으며, 또한 정확한 응답을 제공한다. 이로부터 알 수 있는바, 본 발명의 실시예는 이미지 중의 객체의 카테고리 태그를 도입하여, 이미지와 조회 사이에서 보다 직접적인 연결을 구축하여, 이미지에서 가장 관심받는 영역을 보다 정확하게 찾을 수 있도록 도울 수 있고, 따라서 기존의 이미지 기반의 데이터 처리 시스템의 관심 초점이 이탈되는 문제를 완화시키고 제거할 수 있다. 예를 들어, 본 발명의 시스템은 조회와 이미지 사이의 연관성 관계를 강화하였으며, 이미지 기반의 데이터 처리 시스템이 관심 영역을 정확하게 찾을 수 있도록 도울 수 있으며, 이로써 이미지 기반의 데이터 처리 시스템의 성능을 효과적으로 향상시킨다.
도 6은 본 발명의 실시예에 따른 예시적 이미지 기반의 데이터 처리 시스템(600)의 구조 블록도를 도시한다. 예시적 이미지 기반의 데이터 처리 시스템(600)은 본 발명의 실시예를 구현하는 일 예시적 구조일 수 있으며, 본 발명의 범위를 어떠한 방식으로도 한정하려는 것이 아님을 이해할 것이다. 다른 실시예에서, 본 발명의 실시예는 임의의 적절한 시스템 구조를 사용하여 컴퓨팅 기기(330), 또는 컴퓨팅 기능을 가진 다른 임의의 기기에서 구현될 수 있다.
도 6에 도시된 바와 같이, 시스템(600)은 3가지 경로의 입력을 갖는 것으로 볼 수 있다. 제1 경로 입력은 조회(310)의 텍스트를 단어 임베딩 모듈(610) 중에 입력하여 단어 벡터로 전환시키는 것이다. 예를 들어, 단어 임베딩 모듈(610)은 "단어-특징" 매핑 테이블에 따라, 조회(310) 중의 각각의 단어를 특정 차원(예를 들어, 300차원)의 특징 표현으로 전환시킬 수 있다. 다음, 특징 추출 모듈(625)은 조회(310)의 단어 벡터 표시에 기반하여 조회(310)의 특징을 추출할 수 있다. 일부 실시예에서, 특징 추출 모듈(625)은 게이트 순환 유닛(gated recurrent unit, GRU)에 의해 구현될 수 있다.
제2 경로 입력은 우선 객체 검출 알고리즘에 의해 입력된 이미지(305)로부터 가장 현저한 수량 k(k는 자연수)개의 객체를 추출한다. 특징 추출 모듈(615)은 각각의 현저한 객체를 기설정 차원(예를 들어, 2048차원)의 콘볼루션 신경망(Convolutional Neural Network, CNN) 특징으로 표현할 수 있다. 가중 산출 모듈(630)은 14×300차원과 같은 조회 특징을 k×2048(k의 값은 일반적으로 36)차원과 같은 이미지 특징과 함께 다중 모드 융합을 진행할 수 있으며, 이로써 k개의 객체의 관심 가중을 얻는다. 가중 산출 모듈(630)은 이미지(305)와 조회(310)의 특징 표현에 기반하여 객체의 가중을 산출한 것이며, 여기서 객체 가중은 객체와 조회(310) 사이의 연관성을 고려하지 않았음을 유의할 수 있다. 다음, 가중 합계 모듈(640)은 가중 산출 모듈(630)로 산출한 관심 가중을 아래에서 설명될 제3 경로 입력의 객체와 조회(310) 사이의 연관성에 기반하여 결정된 객체 관심 가중에 가한 것일 수 있다.
제3 경로 입력은 이미지 중에 나타나는 객체의 카테고리 태그(605)이며, 각각의 객체의 카테고리 태그는 "속성+엔티티 명칭"의 조합일 수 있다. 상술한 설명에서 언급된 바와 같이, 이러한 카테고리 태그는 시각 게놈 데이터 세트로부터 생성된 것일 수 있다. 구체적으로, k개의 객체의 카테고리 태그(제2 경로 입력의 이미지 중의 객체 특징 순서와 일치할 수 있음)가 입력된 이후, 단어 임베딩 모듈(620)은 "단어-특징" 매핑 테이블에 따라, 각각의 객체의 카테고리 태그를 기설정 차원(예를 들어, 300차원)의 특징 표현으로 전환시킬 수 있다. 연관성 산출 모듈(635)은 조회(310)의 기설정 수량의(예를 들어, 14개) 단어 특징과 이미지의 k개의 객체의 카테고리 태그 특징에 대해 각각 코사인 유사도를 계산할 수 있으며, 공식은 다음과 같다.
Figure pat00001
(1)
여기서, A, B는 각각 객체의 카테고리 태그 특징 및 조회(310)의 하나의 단어 특징을 표시할 수 있고, 상기 공식(1) 중의 similarity는 산출한 코사인 유사도를 표시한다. 공식(1)에 의해, 하나의 k×14차원의 코사인 유사도 매트릭스를 얻을 수 있다. 다음, 상기 코사인 유사도 매트릭스의 각각의 행으로부터 하나의 최댓값(즉, 각각의 객체의 카테고리 태그에 대해, 상기 카테고리 태그의 대응되는 기설정 수량의 코사인 유사도로부터 최댓값을 선택함)을 선택하여, 상기 카테고리 태그(즉 객체)의 관심 가중으로 사용할 수 있다. 최종, k×1차원의 관심 가중을 얻을 수 있다.
또한, 가중 합계 모듈(640)은 제3 경로 입력에서 얻은 k개의 객체의 관심 가중을 가중 산출 모듈(630)로 산출하여 얻은 객체의 관심 가중에 가한 다음, 가한 후의 관심 가중을 응답 산출 모듈(645)에 제공할 수 있다. 응답 산출 모듈(645)은 복수 개의 객체의 관심 가중에 기반하여 최종 응답(340)을 출력할 수 있다. 예를 들어, 응답 산출 모듈(645)은 복수 개의 후보 조회 응답의 점수를 산출하여, 점수가 가장 높은 후보 응답을 최종 응답 콘텐츠로 사용할 수 있다.
도 7은 본 발명의 실시예에 따른 이미지 기반의 데이터 처리 장치(700)의 예시적 블록도를 도시한다. 일부 실시예에서, 장치(700)는 도 3의 컴퓨팅 기기(330)에 포함되거나 컴퓨팅 기기(330)에 의해 구현될 수 있다.
도 7에 도시된 바와 같이, 장치(700)는 속성 결정 모듈(710), 연관성 결정 모듈(720) 및 응답 제공 모듈(730)을 포함한다. 속성 결정 모듈(710)은 이미지에 관하여 입력한 조회에 응하여, 객체와 속성 사이의 기설정 매핑에 기반하여, 이미지 중에 나타나는 객체와 관련되는 속성을 결정하도록 구성된다. 연관성 결정 모듈(720)은 객체 및 속성에 기반하여, 객체와 조회 사이의 연관성을 결정하도록 구성된다. 응답 제공 모듈(730)은 연관성에 기반하여 조회에 대한 응답을 제공하도록 구성된다.
일부 실시예에서, 속성 결정 모듈(710)은 객체에 기반하여 미리 정의된 데이터 세트로부터 속성을 획득하도록 구성된 속성 획득 모듈을 포함하되, 데이터 세트는 복수 개의 이미지로부터 미리 주석한 객체 및 속성을 포함한다.
일부 실시예에서, 연관성 결정 모듈(720)은 객체 및 상기 속성의 조합의 제1 특징 표현을 결정하도록 구성된 제1 특징 표현 결정 모듈; 조회 중의 적어도 하나의 서술 단위에 대응되는 적어도 하나의 제2 특징 표현을 결정하도록 구성된 제2 특징 표현 결정 모듈; 및 제1 특징 표현 및 상기 적어도 하나의 제2 특징 표현에 기반하여, 연관성을 획득하도록 구성된 연관성 획득 모듈을 포함한다.
일부 실시예에서, 적어도 하나의 제2 특징 표현은 복수 개의 제2 특징 표현을 포함하고, 또한 연관성 획득 모듈은 제1 특징 표현과 각각의 복수 개의 제2 특징 표현 사이의 복수 개의 유사도를 산출하도록 구성된 유사도 산출 모듈; 및 복수 개의 유사도에 기반하여 연관성을 취득하도록 구성된 연관성 취득 모듈을 포함한다.
일부 실시예에서, 연관성 취득 모듈은, 복수 개의 유사도 중의 최댓값, 중간값, 평균값, 가중값 중의 적어도 하나를 선택하여 연관성으로 사용하도록 구성된 선택 모듈을 포함한다.
일부 실시예에서, 응답 제공 모듈(730)은, 연관성에 기반하여 객체의 가중을 결정하도록 구성된 가중 결정 모듈 - 가중은 객체가 응답을 결정할 시의 중요 정도를 가리킴 - ; 및 객체의 가중에 기반하여 응답의 콘텐츠를 결정하도록 구성된 응답 결정 모듈을 포함한다.
도 8은 본 발명의 실시예를 구현할 수 있는 기기(800)의 블록도를 예시적으로 도시한다. 도 8에 도시된 바와 같이, 기기(800)는 판독 전용 메모리(ROM); 802)에 저장된 컴퓨터 프로그램 명령 또는 저장 유닛(808)으로부터 랜덤 액세스 메모리(RAM; 803)에 로딩된 컴퓨터 프로그램 명령에 따라, 다양한 적절한 동작 및 처리를 수행할 수 있는 중앙 처리 장치(CPU; 801)를 포함한다. RAM(803)에는, 기기(800) 작동에 필요한 다양한 프로그램과 데이터가 더 저장될 수 있다. CPU(801), ROM(802) 및 RAM(803)은 버스(804)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(805)도 버스(804)에 연결된다.
예를 들어 키보드, 마우스 등을 포함하는 입력 유닛(806); 예를 들어 디스플레이 장치, 스피커 등을 포함하는 출력 유닛(807); 예를 들어 자기 디스크, 광 디스크 등을 포함하는 저장 유닛(808); 및 예를 들어 LAN 카드, 모뎀, 무선 통신 트랜시버 등을 포함하는 통신 유닛(809)을 포함하는 기기(800) 중의 복수 개의 부재는 I/O 인터페이스(805)에 연결된다. 통신 유닛(809)은 기기(800)가 인터넷과 같은 컴퓨터 네트워크 및/또는 다양한 전기 통신망에 의해 다른 기기와 정보/데이터를 교환할 수 있도록 허용한다.
상술한 설명에서의 각각의 프로세스 및 처리 예를 들어 방법(400)은 처리 유닛(801)에 의해 수행될 수 있다. 예를 들어, 일부 실시예에서, 방법(400)은 컴퓨터 소프트웨어 프로그램에 의해 구현될 수 있으며, 저장 유닛(808)과 같은 기계 판독 가능 매체에 유형으로 포함된다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(802) 및/또는 통신 유닛(809)에 의해 기기(800)에 로딩 및/또는 실장될 수 있다. 컴퓨터 프로그램이 RAM(803)에 로딩되고 CPU(801)에 의해 실행될 경우, 상술한 방법(400)의 하나 또는 복수 개의 단계를 수행할 수 있다.
본 출원에 사용된 바와 같이, 용어 "포함" 및 이와 유사한 용어는 개방적 포함으로 이해되어야 하며, 즉 "포함하지만 한정되지 않는다"이다. 용어 "기반"은 "적어도 일부가 기반하여"로 이해되어야 한다. 용어 "일 실시예" 또는 "상기 실시예"는 "적어도 일 실시예"로 이해되어야 한다. 용어 "제1", "제2" 등은 상이하거나 동일한 객체를 대신 지칭할 수 있다. 본 출원은 다른 명시적 및 암시적 정의를 포함할 수 있다.
본 출원에 사용된 바와 같이, 용어 "결정"은 다양한 동작을 포함한다. 예를 들어, "결정"은 연산, 산출, 처리, 도출, 조사, 검색(예를 들어, 테이블, 데이터베이스 또는 다른 일 데이터 구조에서 검색함), 확인 등을 포함할 수 있다. 또한, "결정"은 수신(예를 들어, 정보를 수신함), 액세스(예를 들어, 메모리 중의 데이터를 액세스함) 등을 포함할 수 있다. 또한, "결정"은 해석, 선택, 선택 추출, 구축 등을 포함할 수 있다.
본 발명의 실시예는 하드웨어, 소프트웨어, 또는 소프트웨어와 하드웨어의 결합에 의해 구현될 수 있음에 유의해야 한다. 하드웨어 부분은 전용 논리를 사용하여 구현될 수 있으며, 소프트웨어 부분은 메모리에 저장되고 마이크로 프로세서 또는 전용 설계 하드웨어와 같은 적절한 명령 실행 시스템에 의해 실행될 수 있다. 본 기술분야의 기술자는 상기 기기 및 방법이 컴퓨터 실행 가능 명령을 사용하고 및/또는 프로세서 제어 코드에 포함되어 구현될 수 있으며, 예를 들어, 프로그램 가능 메모리 또는 광학 또는 전자 신호 캐리어와 같은 데이터 캐리어에서 이러한 코드를 제공할 수 있음을 이해할 수 있을 것이다.
또한, 본 발명의 방법의 동작이 도면에서 특정 순서로 설명되어 있지만, 이는 이러한 동작을 반드시 특정 순서로 수행하도록 요구하거나 암시하는 것이 아니며, 또는 모든 도시된 동작을 반드시 수행하여야만 예기한 결과에 달성할 수 있다. 반대로, 흐름도에 설명된 단계는 수행 순서를 변화시킬 수 있다. 부가적으로 또는 대체 가능하게, 일부 단계를 생략하고, 복수 개의 단계를 하나의 단계로 조합하여 수행하며, 및/또는 하나의 단계를 복수 개의 단계를 분해하여 수행할 수 있다. 본 발명의 두 개 또는 보다 많은 장치의 특징 및 기능에 따라, 하나의 장치에서 구체화될 수 있음을 유의해야 한다. 반대로, 상술한 하나의 장치의 특징 및 기능은 복수 개의 장치로 추가로 분할되어 구체화될 수 있다.
본 발명은 다수의 구체적인 실시예를 참조하여 설명되었지만, 본 발명은 공개된 구체적인 실시예에 한정되는 것이 아님을 이해해야 한다. 본 발명은 청구보호범위의 정신 및 범위 내에 포함된 다양한 수정 및 등가 배치를 포함하기 위한 것이다.

Claims (14)

  1. 이미지 기반의 데이터 처리 방법으로서,
    이미지에 관하여 입력한 조회에 응답하여, 객체와 속성 사이의 기설정 매핑에 기반하여, 상기 이미지 중에 나타나는 객체와 관련되는 속성을 결정하는 단계;
    상기 객체 및 상기 속성에 기반하여, 상기 객체와 상기 조회 사이의 연관성을 결정하는 단계; 및
    상기 연관성에 기반하여 상기 조회에 대한 응답을 제공하는 단계를 포함하는 이미지 기반의 데이터 처리 방법.
  2. 제1항에 있어서,
    상기 속성을 결정하는 단계는,
    상기 객체에 기반하여 미리 정의된 데이터 세트로부터 상기 속성을 획득하는 단계를 포함하고,
    상기 데이터 세트는 복수 개의 이미지로부터 미리 주석한 객체 및 속성을 포함하는 이미지 기반의 데이터 처리 방법.
  3. 제1항에 있어서,
    상기 연관성을 결정하는 단계는,
    상기 객체와 상기 속성의 조합의 제1 특징 표현을 결정하는 단계;
    상기 조회 중의 적어도 하나의 서술 단위에 대응되는 적어도 하나의 제2 특징 표현을 결정하는 단계; 및
    상기 제1 특징 표현 및 상기 적어도 하나의 제2 특징 표현에 기반하여, 상기 연관성을 획득하는 단계를 포함하는 이미지 기반의 데이터 처리 방법.
  4. 제3항에 있어서,
    상기 적어도 하나의 제2 특징 표현은 복수 개의 제2 특징 표현을 포함하고, 상기 연관성을 획득하는 단계는,
    상기 제1 특징 표현과 각각의 상기 복수 개의 제2 특징 표현 사이의 복수 개의 유사도를 산출하는 단계; 및
    상기 복수 개의 유사도에 기반하여 상기 연관성을 취득하는 단계를 포함하는 이미지 기반의 데이터 처리 방법.
  5. 제4항에 있어서,
    상기 연관성을 취득하는 단계는,
    상기 복수 개의 유사도 중의 최댓값, 중간값, 평균값, 가중값 중의 적어도 하나를 선택하여 상기 연관성으로 사용하는 단계를 포함하는 이미지 기반의 데이터 처리 방법.
  6. 제1항에 있어서,
    상기 응답을 제공하는 단계는,
    상기 연관성에 기반하여, 상기 객체가 상기 응답을 결정할 시의 중요 정도를 가리키는, 상기 객체의 가중을 결정하는 단계중요 정도; 및
    상기 객체의 상기 가중에 기반하여 상기 응답의 콘텐츠를 결정하는 단계를 포함하는 이미지 기반의 데이터 처리 방법.
  7. 이미지 기반의 데이터 처리 장치로서,
    이미지에 관하여 입력한 조회에 응답하여, 객체와 속성 사이의 기설정 매핑에 기반하여, 상기 이미지 중에 나타나는 객체와 관련되는 속성을 결정하도록 구성된 속성 결정 모듈;
    상기 객체 및 상기 속성에 기반하여, 상기 객체와 상기 조회 사이의 연관성을 결정하도록 구성된 연관성 결정 모듈; 및
    상기 연관성에 기반하여 상기 조회에 대한 응답을 제공하도록 구성된 응답 제공 모듈을 포함하는 이미지 기반의 데이터 처리 장치.
  8. 제7항에 있어서,
    상기 속성 결정 모듈은,
    상기 객체에 기반하여 미리 정의된 데이터 세트로부터 상기 속성을 획득하도록 구성된 속성 획득 모듈을 포함하고,
    상기 데이터 세트는 복수 개의 이미지로부터 미리 주석한 객체 및 속성을 포함하는 이미지 기반의 데이터 처리 장치.
  9. 제7항에 있어서,
    상기 연관성 결정 모듈은,
    상기 객체와 상기 속성의 조합의 제1 특징 표현을 결정하도록 구성된 제1 특징 표현 결정 모듈;
    상기 조회 중의 적어도 하나의 서술 단위에 대응되는 적어도 하나의 제2 특징 표현을 결정하도록 구성된 제2 특징 표현 결정 모듈; 및
    상기 제1 특징 표현 및 상기 적어도 하나의 제2 특징 표현에 기반하여, 상기 연관성을 획득하도록 구성된 연관성 획득 모듈을 포함하는 이미지 기반의 데이터 처리 장치.
  10. 제9항에 있어서,
    상기 적어도 하나의 제2 특징 표현은 복수 개의 제2 특징 표현을 포함하고, 상기 연관성 획득 모듈은,
    상기 제1 특징 표현과 각각의 상기 복수 개의 제2 특징 표현 사이의 복수 개의 유사도를 산출하도록 구성된 유사도 산출 모듈; 및
    상기 복수 개의 유사도에 기반하여 상기 연관성을 취득하도록 구성된 연관성 취득 모듈을 포함하는 이미지 기반의 데이터 처리 장치.
  11. 제10항에 있어서,
    상기 연관성 취득 모듈은,
    상기 복수 개의 유사도 중의 최댓값, 중간값, 평균값, 가중값 중의 적어도 하나를 선택하여 상기 연관성으로 사용하도록 구성된 선택 모듈을 포함하는 이미지 기반의 데이터 처리 장치.
  12. 제7항에 있어서,
    상기 응답 제공 모듈은,
    상기 연관성에 기반하여, 상기 객체가 상기 응답을 결정할 시의 중요 정도를 가리키는, 상기 객체의 가중을 결정하도록 구성된 가중 결정 모듈중요 정도; 및
    상기 객체의 상기 가중에 기반하여 상기 응답의 콘텐츠를 결정하도록 구성된 응답 결정 모듈을 포함하는 이미지 기반의 데이터 처리 장치.
  13. 전자 기기로서,
    하나 또는 복수 개의 프로세서; 및
    하나 또는 복수 개의 프로그램을 저장하기 위한 저장 장치를 포함하며,
    상기 하나 또는 복수 개의 프로그램이 상기 하나 또는 복수 개의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수 개의 프로세서가 제1항 내지 제6항 중 어느 한 항에 따른 이미지 기반의 데이터 처리 방법을 구현하도록 하는 전자 기기.
  14. 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 저장 매체로서,
    상기 프로그램은 프로세서에 의해 실행될 경우 제1항 내지 제6항 중 어느 한 항에 따른 이미지 기반의 데이터 처리 방법을 구현하는 컴퓨터 판독 가능 저장 매체.
KR1020190150445A 2019-01-30 2019-11-21 이미지 기반의 데이터 처리 방법, 장치, 전자 기기 및 저장 매체 KR102279126B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910094119.2 2019-01-30
CN201910094119.2A CN109871457A (zh) 2019-01-30 2019-01-30 基于图像的数据处理方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
KR20200094624A true KR20200094624A (ko) 2020-08-07
KR102279126B1 KR102279126B1 (ko) 2021-07-19

Family

ID=66918287

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190150445A KR102279126B1 (ko) 2019-01-30 2019-11-21 이미지 기반의 데이터 처리 방법, 장치, 전자 기기 및 저장 매체

Country Status (5)

Country Link
US (1) US11314800B2 (ko)
EP (1) EP3690673A1 (ko)
JP (1) JP6997161B2 (ko)
KR (1) KR102279126B1 (ko)
CN (1) CN109871457A (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112288512A (zh) * 2020-10-09 2021-01-29 北京三快在线科技有限公司 信息处理方法、装置、电子设备及可读存储介质
US11769018B2 (en) * 2020-11-24 2023-09-26 Openstream Inc. System and method for temporal attention behavioral analysis of multi-modal conversations in a question and answer system
KR102259009B1 (ko) * 2021-02-26 2021-06-01 아이오크롭스 주식회사 수확 대상 과실 판단 방법 및 과실 수확 장치
CN114840697B (zh) * 2022-04-14 2024-04-26 山东大学 一种云服务机器人的视觉问答方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014041560A (ja) * 2012-08-23 2014-03-06 Canon Inc 画像処理装置、画像処理方法
KR20170043582A (ko) * 2015-05-21 2017-04-21 바이두 유에스에이 엘엘씨 다중 언어 이미지 질의 응답

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240423B1 (en) * 1998-04-22 2001-05-29 Nec Usa Inc. Method and system for image querying using region based and boundary based image matching
JP5089482B2 (ja) * 2008-05-12 2012-12-05 キヤノン株式会社 情報処理装置、データ処理方法およびプログラム
US8903198B2 (en) * 2011-06-03 2014-12-02 International Business Machines Corporation Image ranking based on attribute correlation
US9536178B2 (en) * 2012-06-15 2017-01-03 Vufind, Inc. System and method for structuring a large scale object recognition engine to maximize recognition accuracy and emulate human visual cortex
US8811727B2 (en) * 2012-06-15 2014-08-19 Moataz A. Rashad Mohamed Methods for efficient classifier training for accurate object recognition in images and video
US10534810B1 (en) * 2015-05-21 2020-01-14 Google Llc Computerized systems and methods for enriching a knowledge base for search queries
US9965705B2 (en) 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
CN106933867B (zh) * 2015-12-30 2020-02-21 杭州华为企业通信技术有限公司 一种图像查询方法和装置
JP2017220019A (ja) 2016-06-07 2017-12-14 日本電信電話株式会社 画像検索装置、方法、及びプログラム
JP6751684B2 (ja) 2017-03-28 2020-09-09 株式会社Nttドコモ 類似画像検索装置
CN107169111A (zh) * 2017-05-19 2017-09-15 深圳市唯特视科技有限公司 一种在视觉问答场景中提高问题前提可信度的方法
CN108228703B (zh) * 2017-10-31 2020-05-08 北京市商汤科技开发有限公司 图像问答方法、装置、系统和存储介质
US10719744B2 (en) * 2017-12-28 2020-07-21 Intel Corporation Automated semantic inference of visual features and scenes
CN108446404B (zh) * 2018-03-30 2021-01-05 中国科学院自动化研究所 面向无约束视觉问答指向问题的检索方法及系统
CN109241267B (zh) 2018-09-27 2022-07-01 北京百度网讯科技有限公司 生成vqa系统的训练数据的方法、装置、设备和介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014041560A (ja) * 2012-08-23 2014-03-06 Canon Inc 画像処理装置、画像処理方法
KR20170043582A (ko) * 2015-05-21 2017-04-21 바이두 유에스에이 엘엘씨 다중 언어 이미지 질의 응답

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Nam, Hyeonseob 외 2인. "Dual attention networks for multimodal reasoning and matching." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. (2017.07.26. 공개)* *

Also Published As

Publication number Publication date
CN109871457A (zh) 2019-06-11
US20200242152A1 (en) 2020-07-30
JP6997161B2 (ja) 2022-01-17
JP2020123319A (ja) 2020-08-13
EP3690673A1 (en) 2020-08-05
US11314800B2 (en) 2022-04-26
KR102279126B1 (ko) 2021-07-19

Similar Documents

Publication Publication Date Title
KR102279126B1 (ko) 이미지 기반의 데이터 처리 방법, 장치, 전자 기기 및 저장 매체
US11449767B2 (en) Method of building a sorting model, and application method and apparatus based on the model
WO2022155994A1 (zh) 基于注意力的深度跨模态哈希检索方法、装置及相关设备
CN106682060B (zh) 根据图像的结构化的知识建模、提取和局部化
WO2020143314A1 (zh) 一种基于搜索引擎的问答方法、装置、存储介质及计算机设备
KR102459123B1 (ko) 이미지를 처리하는 방법, 장치, 서버 및 저장 매체
JP2016162423A (ja) 物体認識装置、物体認識方法、およびプログラム
Wang et al. A vision-based active learning convolutional neural network model for concrete surface crack detection
CN113657087B (zh) 信息的匹配方法及装置
US20130218876A1 (en) Method and apparatus for enhancing context intelligence in random index based system
WO2021007159A1 (en) Identifying entity attribute relations
WO2024045474A1 (zh) 图像文案的生成方法、设备及计算机存储介质
CN111506596B (zh) 信息检索方法、装置、计算机设备和存储介质
CN111444313B (zh) 基于知识图谱的问答方法、装置、计算机设备和存储介质
CN111459977B (zh) 自然语言查询的转换
CN112711676B (zh) 一种视频召回方法、装置、电子设备及存储介质
CN109635004A (zh) 一种数据库的对象描述提供方法、装置及设备
US20140247992A1 (en) Attribute recognition via visual search
CN116030375A (zh) 视频特征提取、模型训练方法、装置、设备及存储介质
CN112650869B (zh) 图像检索重排序方法、装置、电子设备及存储介质
CN111858899B (zh) 语句处理方法、装置、系统和介质
Wang et al. Balanced-RetinaNet: solving the imbalanced problems in object detection
Wang et al. Fine-grained label learning in object detection with weak supervision of captions
CN111221880A (zh) 特征组合方法、装置、介质和电子设备
Chamasemani et al. Region-based surveillance video retrieval with effective object representation

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant