KR20130107366A - 화상 처리 장치, 화상 처리 방법 및 제어 프로그램 - Google Patents

화상 처리 장치, 화상 처리 방법 및 제어 프로그램 Download PDF

Info

Publication number
KR20130107366A
KR20130107366A KR1020137020491A KR20137020491A KR20130107366A KR 20130107366 A KR20130107366 A KR 20130107366A KR 1020137020491 A KR1020137020491 A KR 1020137020491A KR 20137020491 A KR20137020491 A KR 20137020491A KR 20130107366 A KR20130107366 A KR 20130107366A
Authority
KR
South Korea
Prior art keywords
image
query image
unit
composite
query
Prior art date
Application number
KR1020137020491A
Other languages
English (en)
Inventor
타카요시 야마시타
시앙 루안
Original Assignee
오므론 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오므론 가부시키가이샤 filed Critical 오므론 가부시키가이샤
Publication of KR20130107366A publication Critical patent/KR20130107366A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • G06F3/1415Digital output to display device ; Cooperation and interconnection of the display device with other functional units with means for detecting differences between the image stored in the host and the images displayed on the displays
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Abstract

인간이 직감적으로 쿼리 화상에 유사하다고 생각하는 화상을 효율적으로 검색하는 것을 목적으로 하고, 본 발명의 화상 처리 장치(1)는, 유저로부터의 지정에 의거하여 쿼리 화상을 특정하는 쿼리 화상 특정부(21)와, 쿼리 화상으로부터 오브젝트를 추출하는 오브젝트 추출부(22)와, 오브젝트 추출부(22)가 추출한 오브젝트를 복수 합성함으로써, 복수의 오브젝트를 포함하는 합성 쿼리 화상을 작성하는 합성 쿼리 화상 작성부(25)와, 합성 쿼리 화상에 유사한 화상을 검색하는 검색부(27)를 구비한다.

Description

화상 처리 장치, 화상 처리 방법 및 제어 프로그램{IMAGE PROCESSING DEVICE, IMAGE PROCESSING METHOD AND CONTROL PROGRAM}
본 발명은, 화상을 검색하는 화상 처리 장치, 화상 처리 방법 및 제어 프로그램에 관한 것이다.
근래, 쿼리(query) 화상에 유사한 화상을 검색하는 기술이 개발되어 있다.
예를 들면, 특허 문헌 1에는, 쿼리 화상에 대해 에지 검출을 행하여, 선분 정보만으로 이루어지는 개략 화상에 의거하여, 쿼리 화상에 유사한 화상을 검색하는 기술이 기재되어 있다. 보다 구체적으로는, 특허 문헌 1에는, 쿼리 화상 전체의 에지 강도에 의거한 대국적 임계치와, 쿼리 화상에 포함되는 주목 화소 및 그 부근의 화소의 에지 강도에 의거한 국소적 임계치를 산출하고, 대국적 임계치 및 국소적 임계치중의 큰 쪽의 값에 의거하여, 주목 화소가 에지인지의 여부를 판정하고, 쿼리 화상으로부터 개략 화상을 작성하는 개략 화상 작성 장치가 기재되어 있다.
또한, 특허 문헌 2에는, 복수의 쿼리 화상을 조합시켜서 검색을 행하는 화상 처리 장치로서, 쿼리 화상의 조합을 규정하는 논리식을 감각적인 조작으로 지정 가능한 화상 처리 장치가 기재되어 있다.
특허 문헌 1 : 일본국 공개특허공보 「특허 제2806666호 공보(공개일 : 1998년 9월 30일)」 특허 문헌 2 : 일본국 공개특허공보 「특개2010-250426호 공보(공개일 : 2010년 11월 4일 공개)」
비특허 문헌 1 : Laurent Itti, 외 2명, 「A Model of Saliency-Based Visual Attention for Rapid Scene Analysis」, IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 20, NO. 11, NOVEMBER 1998 비특허 문헌 2 : 「디지탈 화상 처리」, 제2판, 재단법인 화상정보교육진흥협회, 2009년 3월 2일, p196-199
그러나, 상술한 바와 같은 종래 기술은, 각각 다음과 같은 문제가 있다.
예를 들면, 건물(A)이 찍혀 있는 화상을 유저가 검색하려고 할 때에, 유저가 쿼리 화상으로서, 건물(A)의 화상을 이용한다고 한다. 또한, 쿼리 화상인 건물(A)의 화상에는, 건물(A) 이외에 다른 물체나 배경 등이 포함되어 있다고 한다. 이 경우, 특허 문헌 1에 기재된 기술에서는, 쿼리 화상인, 건물(A)의 화상의 전체 영역(전체 화소)을 개략 화상으로 하기 때문에, 작성한 개략 화상에는, 건물(A) 이외의 다른 물체나 배경 등의 정보가 포함된다.
그 때문에, 특허 문헌 1에 기재된 기술을 이용한 화상 검색 장치는, 작성한 개략 화상으로 검색하는 경우, 건물(A)에 유사한 물체가 찍혀 있는 화상을 검색함과 함께, 건물(A) 이외의 다른 물체나 배경 등이 찍혀 있는 화상을 검색한다. 즉, 상기 화상 검색 장치는, 유저가 소망하는 건물(A)에 유사한 화상 이외의 화상도 검색한다. 따라서, 특허 문헌 1에 기재된 기술을 이용한 경우, 화상 검색 장치가 쓸데없는 검색 처리를 행한다는 문제가 있다.
또한, 상술한 바와 같이, 특허 문헌 1에 기재된 기술을 이용한 화상 검색 장치는, 건물(A)에 유사한 물체가 찍혀 있는 화상 이외에, 건물(A)이 찍혀 있지 않고, 건물(A) 이외의 다른 물체나 배경 등이 찍혀 있는 화상도 검색 결과로서 표시한다. 그 때문에, 유저가 검색 결과 중에서 건물(A)이 찍혀 있는 화상을 찾는데 수고가 걸린다.
또한, 예를 들면, 특허 문헌 2에 기재된 기술에서, 꽃(B) 및 꽃(C)이 찍혀 있는 화상을 유저가 검색하려고 할 때에, 유저가 쿼리 화상으로서, 꽃(B)의 화상과 꽃(C)의 화상을 이용한다고 한다. 이 경우, 특허 문헌 2에 기재된 기술에서는, 꽃(B)에 유사한 물체가 찍혀 있는 화상과, 꽃(C)에 유사한 물체가 찍혀 있는 화상을 일단 검색한 후, 각 검색 결과의 논리곱을 유저에게 제시한다. 즉, 특허 문헌 2에 기재된 화상 처리 장치는, 유저가 소망하는 꽃(B)에 유사한 물체 및 꽃(C)에 유사한 물체가 찍혀 있는 화상 이외의 화상도 검색한다. 따라서, 특허 문헌 2에 기재된 화상 처리 장치가 쓸데없는 검색 처리를 행한다는 문제가 있다.
또한, 일반적으로, 논리식을 정확하게 이해하고 있는 유저는 많지 않다. 그 때문에, 논리식을 이해하지 못하는 유저는, 쿼리 화상의 조합에 의한 검색 결과를 예측할 수가 없다. 따라서, 특허 문헌 2에 기재된 기술에서는, 유저는 쿼리 화상을 이용한 직감적인 검색을 행하기가 어렵다.
본 발명은, 상기한 문제점을 감안하여 이루어진 것으로, 그 목적은, 인간이 직감적으로 쿼리 화상에 유사하다고 생각하는 화상을 효율적으로 검색하는 화상 처리 장치, 화상 처리 방법 및 제어 프로그램을 실현하는 것에 있다.
본 발명에 관한 화상 처리 장치는, 상기 과제를 해결하기 위해, 유저로부터의 지정에 의거하여 쿼리 화상을 특정하는 쿼리 화상 특정 수단과, 상기 쿼리 화상으로부터 오브젝트를 검출하는 오브젝트 검출 수단과, 상기 오브젝트 검출 수단이 검출한 상기 오브젝트를 복수 합성함으로써, 복수의 상기 오브젝트를 포함하는 합성 쿼리 화상을 생성하는 합성 쿼리 화상 생성 수단과, 상기 합성 쿼리 화상에 의거하여, 상기 합성 쿼리 화상에 유사한 화상을 검색하는 화상 검색 수단을 구비하는 것을 특징으로 하고 있다.
본 발명에 관한 화상 처리 방법은, 상기 과제를 해결하기 위해, 유저로부터의 지정에 의거하여 쿼리 화상을 특정하는 쿼리 화상 특정 스텝과, 상기 쿼리 화상으로부터 오브젝트를 검출하는 오브젝트 검출 스텝과, 상기 오브젝트 검출 스텝에서 검출된 상기 오브젝트를 복수 합성함으로써, 복수의 상기 오브젝트를 포함하는 합성 쿼리 화상을 생성하는 합성 쿼리 화상 생성 스텝과, 상기 합성 쿼리 화상에 의거하여, 상기 합성 쿼리 화상에 유사한 화상을 검색하는 화상 검색 스텝을 포함하는 것을 특징으로 하고 있다.
여기서, 유저는, 복수의 오브젝트를 포함하는 하나 또는 복수의 쿼리 화상에 유사한 화상을 검색하는 경우, 일반적으로, 이들의 쿼리 화상에 포함되는 복수의 오브젝트를 포함하는 화상에 유사한 화상을 찾고 있다고 예상된다.
상기 오브젝트 검출 수단은, 상기 쿼리 화상 특정 수단이 유저로부터의 지정에 의거하여 특정한 쿼리 화상으로부터 오브젝트를 검출하고, 상기 합성 쿼리 화상 생성 수단은, 상기 오브젝트 검출 수단이 검출한 상기 오브젝트를 복수 합성함으로써, 복수의 상기 오브젝트를 포함하는 합성 쿼리 화상을 생성하고, 상기 화상 검색 수단은, 상기 합성 쿼리 화상에 의거하여, 상기 합성 쿼리 화상에 유사한 화상을 검색한다.
그 때문에, 유저가 지정한 쿼리 화상으로부터 오브젝트를 자동적으로 검출할 수 있다. 따라서, 쿼리 화상으로부터 검출된 오브젝트를 포함하는 합성 쿼리 화상을 이용하여 검색함에 의해, 유저가 찾고 있는 화상을 효율적으로 검색할 수 있다. 즉, 화상 처리 장치에서 불필요한 검색 처리를 삭감할 수 있다.
그 때문에, 상기 쿼리 화상에 의거하여 쿼리 화상에 유사한 화상을 검색할 때에, 복수의 오브젝트를 포함하는 합성 쿼리 화상을 사용함에 의해, 유저는, 상기 쿼리 화상을 지정하는 것만으로, 직감적으로 소망하는 화상을 검색할 수 있다는 효과를 이룬다.
또한, 복수의 오브젝트를 포함하는 합성 쿼리 화상을 이용하여 검색함에 의해, 오브젝트 단위로 검색하는 것이 아니라, 복수의 오브젝트를 포함하는 합성 쿼리 화상 단위로 검색하기 때문에, 화상 처리 장치의 처리 부하를 경감할 수 있다.
이상과 같이, 본 발명에 관한 화상 처리 장치는, 유저로부터의 지정에 의거하여 쿼리 화상을 특정하는 쿼리 화상 특정 수단과, 상기 쿼리 화상으로부터 오브젝트를 검출하는 오브젝트 검출 수단과, 상기 오브젝트 검출 수단이 검출한 상기 오브젝트를 복수 합성함으로써, 복수의 상기 오브젝트를 포함하는 합성 쿼리 화상을 생성하는 합성 쿼리 화상 생성 수단과, 상기 합성 쿼리 화상에 의거하여, 상기 합성 쿼리 화상에 유사한 화상을 검색하는 화상 검색 수단을 구비하고 있는 구성이다.
또한, 본 발명에 관한 화상 처리 방법은, 유저로부터의 지정에 의거하여 쿼리 화상을 특정하는 쿼리 화상 특정 스텝과, 상기 쿼리 화상으로부터 오브젝트를 검출하는 오브젝트 검출 스텝과, 상기 오브젝트 검출 스텝에서 검출된 상기 오브젝트를 복수 합성함으로써, 복수의 상기 오브젝트를 포함하는 합성 쿼리 화상을 생성하는 합성 쿼리 화상 생성 스텝과, 상기 합성 쿼리 화상에 의거하여, 상기 합성 쿼리 화상에 유사한 화상을 검색하는 화상 검색 스텝을 포함한다.
따라서 상기 쿼리 화상에 의거하여 쿼리 화상에 유사한 화상을 검색할 때에, 복수의 오브젝트를 포함하는 합성 쿼리 화상을 사용함에 의해, 유저는, 상기 쿼리 화상을 지정하는 것만으로, 직감적으로 소망하는 화상을 검색할 수 있다는 효과를 이룬다.
본 발명의 또 다른 목적, 특징 및 우수한 점은, 이하에 나타내는 기재에 의해 충분히 알 수 있을 것이다. 또한, 본 발명의 이익은 첨부 도면을 참조한 다음의 설명으로 명백하게 될 것이다.
도 1은 본 발명의 실시 형태를 나타내는 것으로서, 화상 처리 장치의 주요부 구성의 한 예를 도시하는 블록도.
도 2는 본 발명의 개요를 도시하는 도면.
도 3은 상기 화상 처리 장치의 합성 쿼리 화상 조정부가 위치 및/또는 사이즈를 조정한 합성 쿼리 화상을 도시하는 도면.
도 4는 상기 화상 처리 장치에서의 화상 검색 처리의 한 예를 도시하는 플로 차트.
도 5는 상기 화상 검색 처리에서 상기 화상 처리 장치의 표시부에 표시되는 표시 화면 예를 도시하는 도면.
도 6은 상기 화상 검색 처리에서 상기 화상 처리 장치의 표시부에 표시되는 표시 화면 예를 도시하는 도면.
도 7은 상기 화상 검색 처리에서 상기 화상 처리 장치의 표시부에 표시되는 다른 표시 화면 예를 도시하는 도면.
[개요]
본 발명에 관한 화상 처리 장치는, 유저가 지정한 하나 또는 복수의 쿼리 화상에 의거하여, 쿼리 화상에 유사한 화상을 검색하기 위한 검색용 화상 정보(합성 쿼리 화상)를 생성하는 것이다.
구체적으로는, 도 2에 도시하는 바와 같이, 화상(SP1)과 같은 건물(D)의 앞에 인물(E)이 찍혀 있는 화상을 찾을 때에, 건물(D)이 찍혀 있는 화상(QP1) 및 인물(E)이 찍혀 있는 화상(QP2)을 쿼리 화상으로서 유저가 선택하였다고 한다. 이 때, 본 발명에 관한 화상 처리 장치는, 화상(QP1 및 QP2)으로부터, 각각 건물(D)을 나타내는 정보 및 인물(E)을 나타내는 정보를 추출한다. 다음에, 본 발명에 관한 화상 처리 장치는, 추출한 정보를 하나의 화상에 합성하여, 화상(SP1)을 검색하기 위한 검색용 화상인 합성 쿼리 화상(CQP1)을 작성한다.
그리고, 본 발명에 관한 화상 처리 장치는, 작성한 합성 쿼리 화상(CQP1)에 유사한 화상을 검색하고, 그 검색 결과를 표시한다. 유저는 표시된 검색 결과 중에서 소망하는 화상을 선택한다.
이와 같이, 본 발명에 관한 화상 처리 장치는, 유저가 소망하는 화상(SP1)에 유사한 합성 쿼리 화상(CQP1)을, 유저가 지정한 쿼리 화상(P1 및 P2)으로부터 작성하는 것이다.
이하에서는, 본 발명의 한 실시 형태에 관해 도 1부터 도 7에 의거하여 설명한다.
[화상 처리 장치의 구성]
도 1은, 화상 처리 장치(1)의 주요부 구성의 한 예를 도시하는 블록도이다. 도 1에 도시하는 바와 같이, 화상 처리 장치(1)는, 제어부(11), 기억부(12), 화상 입력부(13), 조작부(입력 수단)(14), 통신부(15) 및 표시부(16)를 구비하고 있다. 또한, 화상 처리 장치(1)는, 음성 입력부, 음성 출력부 등의 부재를 구비하고 있어도 좋지만, 발명의 특징점과는 관계가 없기 때문에 당해 부재를 도시하고 있지 않다.
화상 입력부(13)는, 화상 제공 장치(3)로부터 화상을 취득하는 것이다. 화상 제공 장치(3)는, 유지하고 있는 화상 또는 취득한 화상을 다른 장치에 제공하는 장치라면 무엇이라도 좋다. 예를 들면, 화상 제공 장치(3)는, 디지털 카메라, 디지털 텔레비전, PC, 휴대 전화기, PDA(Personal Digital Assistant), 게임기, USB(Universal Serial Bus) 메모리 등의 기억 장치 등이다.
조작부(14)는, 유저가 화상 처리 장치(1)에 지시 신호를 입력하고, 화상 처리 장치(1)를 조작하기 위한 것이다. 조작부(14)는, 키보드, 마우스, 키패드, 조작 버튼 등의 입력 기기 등으로 구성되어 있는 것이라도 좋다. 또한, 조작부(14)와 표시부(16)가 일체로 되어 있는 터치 패널이라도 좋다. 또한, 조작부(14)는, 화상 처리 장치(1)와 별체의 리모트 컨트롤러 등의 원격 조정 장치라도 좋다.
통신부(15)는, 무선 통신 수단 또는 유선 통신 수단에 의해, 화상 데이터베이스(2) 등의 다른 장치와 통신을 행하여, 제어부(11)의 지시에 따라, 데이터의 주고받음을 행하는 것이다. 예를 들면, 통신부(15)는, 제어부(11)의 지시에 따라, 화상 데이터베이스(2)로부터 화상을 취득한다.
화상 데이터베이스(2)는, 화상을 유지하고 있는 기억 장치 또는 Web 서버 등이다.
표시부(16)는, 제어부(11)의 지시에 따라 화상을 표시하는 것이다. 표시부(16)는, 제어부(11)의 지시에 따라 화상을 표시하는 것이면 좋고, 예를 들면, LCD(액정 디스플레이), 유기 EL 디스플레이, 플라즈마 디스플레이 등을 적용하는 것이 가능하다.
제어부(11)는, 기억부(12)로부터 일시 기억부(도시 생략)에 판독된 프로그램을 실행함에 의해, 각종의 연산을 행함과 함께, 화상 처리 장치(1)가 구비하는 각 부분을 통괄적으로 제어하는 것이다.
본 실시 형태에서는, 제어부(11)는, 기능 블록으로서, 쿼리 화상 특정부(쿼리 화상 특정 수단)(21), 오브젝트 추출부(오브젝트 검출 수단)(22), 합성 쿼리 화상 작성부(합성 쿼리 화상 생성 수단)(25), 합성 쿼리 화상 조정부(합성 쿼리 화상 조정 수단)(26) 및 검색부(화상 검색 수단)(27)를 구비하는 구성이다. 이들의 제어부(11)의 각 기능 블록(21, 22, 25 내지 27)은, CPU(central processing unit)가, ROM(read only memory) 등으로 실현된 기억 장치에 기억되어 있는 프로그램을 RAM(random access memory) 등으로 실현된 일시 기억부에 판독하여 실행함으로써 실현할 수 있다.
쿼리 화상 특정부(21)는, 유저가 지정한 화상을 쿼리 화상으로서 특정하는 것이다. 구체적으로는, 표시부(16)에 표시되어 있는 화상을 유저가 조작부(14)를 사용하여 지정하면, 쿼리 화상 특정부(21)는, 유저가 지정한 화상을 나타내는 정보를 조작부(14)로부터 취득하여, 취득한 정보가 나타내는 화상을 쿼리 화상으로서 특정한다.
또한, 유저가 쿼리 화상으로서 지정하는 화상은, 하나라도 좋고, 복수라도 좋다. 즉, 쿼리 화상 특정부(21)가 특정하는 화상(쿼리 화상)은, 하나라도 좋고, 복수라도 좋다.
상기한 「표시부(16)에 표시되어 있는 화상」이란, 예를 들면, 제어부(11)가, 화상 입력부(13)를 통하여 화상 제공 장치(3)로부터 화상을 취득하고, 취득한 화상을 표시부(16)에 표시한 화상이라도 좋다. 또한, 유저가 Web의 열람을 하고 있는 상태 등, 제어부(11)가, 통신부(15)를 통하여 화상 데이터베이스(2)로부터 화상을 취득하고, 취득한 화상을 표시부(16)에 표시한 화상이라도 좋다. 또한, 제어부(11)가, 화상 기억부(31)로부터 화상을 판독하고, 판독 화상을 표시부(16)에 표시한 화상이라도 좋다.
또한, 표시부(16)에 표시되어 있는 화상으로부터 유저가 쿼리 화상을 선택하는 것에 한정하지 않는다. 예를 들면, 유저는, 화상 데이터베이스(2), 화상 제공 장치(3), 또는 화상 기억부(31)에서의 화상 데이터의 디렉토리 어드레스 등을 지정하여, 화상 데이터베이스(2), 화상 제공 장치(3), 또는 화상 기억부(31)가 유지하는 화상을 쿼리 화상으로서 지정하여도 좋다.
쿼리 화상 특정부(21)는, 화상 입력부(13)로부터, 또는, 통신부(15)를 통하여 화상 데이터베이스(2)로부터, 또는, 화상 기억부(31)로부터, 특정한 화상(쿼리 화상)을 취득한다. 쿼리 화상 특정부(21)는, 취득한 쿼리 화상을 오브젝트 추출부(22)에 출력한다.
오브젝트 추출부(22)는, 쿼리 화상 특정부(21)로부터 쿼리 화상을 취득하고, 취득한 쿼리 화상으로부터 오브젝트를 검출하여, 검출한 오브젝트를 추출하는 것이다. 오브젝트 추출부(22)는, 추출한 오브젝트를 나타내는 오브젝트 정보를 생성하고, 생성한 오브젝트 정보를 합성 쿼리 화상 작성부(25)에 출력한다.
또한, 오브젝트 추출부(22)는, 오브젝트 정보를 생성할 때에, 각 오브젝트의 쿼리 화상에서의 위치 및 사이즈를 각각 나타내는 위치 정보 및 사이즈 정보를 당해 오브젝트의 부가 정보로서, 오브젝트 정보에 부가하여도 좋다.
여기서, 오브젝트란, 건물이나 인물 등의 물체, 바다나 저녁노을 하늘 등의 배경, 또는, 「○」나 「△」 등의 추상적인 모양 등을 포함하는 것이다. 또한, 오브젝트 정보란, 화상 중의 오브젝트의 영역의 화소군의 화소치를 나타내는 정보라도 좋고, 또한, 오브젝트의 에지(윤곽)를 나타내는 에지 정보 등의 오브젝트의 특징량을 나타내는 정보라도 좋다. 또한, 상기 오브젝트의 부가 정보는, 위치 정보 및 사이즈 정보의 양쪽을 포함하지 않아도 좋고, 적어도 하나를 포함하고 있으면 된다.
오브젝트 추출부(22)는, 물체 검출부(23) 및 영역 추출부(24)를 구비하고, 보다 상세하게는, 물체 검출부(23) 및 영역 추출부(24)가, 오브젝트 정보를 생성한다.
물체 검출부(23)는, 오브젝트의 표준적인 화상인 화상 템플릿을 기억부(12)로부터 판독하고, 쿼리 화상과 화상 템플릿과의 매칭을 행하여, 쿼리 화상 중에, 매칭한 화상 템플릿과 같은 오브젝트가 포함되어 있는지의 여부를 판정하는 것이다. 물체 검출부(23)는, 매칭한 화상 템플릿과 같은 오브젝트가 포함되어 있다고 판정하면, 당해 오브젝트를 쿼리 화상으로부터 추출하고, 추출한 오브젝트를 나타내는 오브젝트 정보를 생성한다.
또한, 물체 검출부(23)는, 오브젝트의 표준적인 화상의 특징량을 나타내는 특징량 템플릿을 기억부(12)로부터 판독함과 함께, 쿼리 화상의 특징량을 산출하고, 쿼리 화상의 특징량과 특징량 템플릿과의 매칭을 행한다. 그리고, 쿼리 화상 중에, 매칭한 특징량 템플릿이 나타내는 특징량을 갖는 오브젝트와 같은 오브젝트가 포함되어 있는지의 여부를 판정한다. 물체 검출부(23)는, 매칭한 특징량 템플릿이 나타내는 특징량을 갖는 오브젝트와 같은 오브젝트가 포함되어 있다고 판정하면, 당해 오브젝트를 쿼리 화상으로부터 추출하고, 추출한 오브젝트를 나타내는 오브젝트 정보를 생성한다.
예를 들면, 물체 검출부(23)는, 얼굴, 사람(신체), 패드, 차 등을 검출하여도 좋고, 또한, 개체(개인 등)를 특정하고 검출하여도 좋다. 또한, 물체 검출부(23)는, 바다, 산, 저녁노을 하늘 등의 배경(신)을 검출하여도 좋다.
또한, 물체 검출부(23)는, 화상 템플릿 또는 특징량 템플릿에 당해 템플릿이 나타내는 오브젝트의 명칭이 대응지어져 있는 경우, 추출한 오브젝트를 나타내는 오브젝트 정보에, 당해 오브젝트의 명칭을 나타내는 오브젝트 명칭 정보를 부가 정보로서 부가하여도 좋다.
영역 추출부(24)는, Saliency Map(비특허 문헌 1을 참조)나 영역 분할 처리(세그멘테이션 : 비특허 문헌 2를 참조) 등의 알고리즘을 이용하여, 쿼리 화상 중에서 특징적인 영역(화소군)을 추출하고, 추출한 영역을 오브젝트의 영역으로서 특정하고, 오브젝트 정보를 생성하는 것이다.
영역 추출부(24)는, 예를 들면, Saliency Map를 이용하는 경우, 쿼리 화상으로부터, 색, 휘도, 에지 등의 특징량의 콘트라스트를 나타내는 feature map를 각각 생성하고, 각 feature map의 각 화소를 가산평균하여 saliency map(SM)을 생성하고, SM에서의 콘트라스트가 높은 영역(예를 들면, 화소치가 소정치 이상의 화소군)을 추출한다. Saliency Map는, 인간의 시각(視覺) 처리를 모델화한 것이고, Saliency Map를 이용하여 영역을 추출함에 의해, 인간이 주목하기 쉬운(주목한다고 생각되다) 영역을 자동적으로 특정할 수 있다.
또한, 영역 분할 처리로서, 구체적으로는, 근접 화소의 통합에 의한 영역 분할 처리, 화소 특징량의 클래스 나눔에 의한 영역 분할 처리, 또는, 에지를 이용한 스네이크(snakes)라고 불리는 수법에 의한 영역 분할 처리 등을 적용하여도 좋다.
합성 쿼리 화상 작성부(25)는, 오브젝트 추출부(22)가 생성한 오브젝트 정보가 나타내는 오브젝트 중에서, 하나 또는 복수의 오브젝트를 선택하고, 선택한 오브젝트를 블랭크 화상에 붙여서 합성 쿼리 화상을 작성하는 것이다.
합성 쿼리 화상 작성부(25)는, 조작부(14)에 입력된 유저로부터의 지시에 따라, 오브젝트를 선택하여도 좋고, 미리 정한 소정의 선택 룰에 따라, 오브젝트를 선택하여도 좋다.
상기 선택 룰이란, 예를 들면, 오브젝트의 조합 전부로 실시하는 것이라도 좋고, 또한, 오브젝트가 2개 이상의 조합 전부, 오브젝트가 3개 이상의 조합 전부 등이라도 좋다.
구체적으로는, 오브젝트 추출부(22)가 「L」, 「M」, 「N」의 3개의 오브젝트를 각각 나타내는 오브젝트 정보를 생성하였다고 한다. 이 경우, 합성 쿼리 화상 작성부(25)는, 「L」, 「M」, 「N」, 「L과 M」, 「M과 N」, 「N과 L」, 「L과 M과 N」의 7가지의 조합으로 선택하고, 7개의 합성 쿼리 화상을 작성하여도 좋다.
또한, 각 오브젝트의 조합을 배제하는 룰을 미리 설정하여 두어도 좋다. 예를 들면, 각 오브젝트의 조합을 배제하는 룰로서, 「M과 N」의 조합을 배제하는 것으로서 정하고 있는 경우, 상기한 선택 룰에 의거하여 실시하면, 「L」, 「M」, 「N」, 「L과 M」, 「N과 L」, 「L과 M과 N」의 6가지의 조합으로 선택된다(또한, 이 때, 「L과 M과 N」도 「M과 N」의 조합이 포함되어 있다고 하여 배제하여도 좋다). 또한, 이 경우, 물체 검출부(23)가 적어도 오브젝트「M」과 「N」의 명칭을 특정하고 있는 것으로 한다.
합성 쿼리 화상 작성부(25)는, 선택한 오브젝트를 나타내는 오브젝트 정보에 부가 정보가 부가되어 있는 경우, 당해 부가 정보가 나타내는 위치 정보 및 사이즈 정보가 나타내는 위치 및 사이즈에 따라, 블랭크 화상에서의 당해 오브젝트의 위치 및 사이즈를 결정한다. 한편, 부가 정보가 부가되지 않은 경우, 합성 쿼리 화상 작성부(25)는, 블랭크 화상에서의 당해 오브젝트의 위치 및 사이즈를, 미리 정한 소정의 배치 룰에 따라, 결정한다. 상기 배치 룰이란, 예를 들면, 선택한 오브젝트 수로 블랭크 화상을 분할하고, 분할된 각 영역에 각 오브젝트가 들어가도록 배치하는 것 등이다.
합성 쿼리 화상 작성부(25)는, 작성한 합성 쿼리 화상을 나타내는 합성 쿼리 화상 정보를 합성 쿼리 화상 조정부(26)에 출력한다.
합성 쿼리 화상 조정부(26)는, 합성 쿼리 화상 작성부(25)가 작성한 합성 쿼리 화상에 포함되는 오브젝트의, 당해 합성 쿼리 화상에서의 위치 및 사이즈를 조정하는 것이다. 합성 쿼리 화상 조정부(26)는, 위치 및 사이즈를 조정한 합성 쿼리 화상을 나타내는 합성 쿼리 화상 정보를 검색부(27)에 출력한다.
합성 쿼리 화상 조정부(26)는, 조작부(14)에 입력되는 유저로부터의 지시에 따라, 합성 쿼리 화상에서의 오브젝트의 위치 및 사이즈를 조정하여도 좋고, 미리 정한 소정의 조정 룰에 따라, 합성 쿼리 화상에서의 오브젝트의 위치 및 사이즈를 조정하여도 좋다.
상기 조정 룰이란, 예를 들면, 물체 검출부(23)에 의해 합성 쿼리 화상에 포함되는 오브젝트의 명칭이 특정되어 있는 경우, 건물의 오브젝트의 앞에 인물의 오브젝트를 배치하는 등이다.
예를 들면, 합성 쿼리 화상 조정부(26)는, 도 2에 도시하는 합성 쿼리 화상(CQP1)으로부터, 도 3의 (a) 또는 (b)에 도시하는 합성 쿼리 화상과 같이, 오브젝트의 합성 쿼리 화상에서의 위치 및/또는 사이즈를 조정한다.
검색부(27)는, 합성 쿼리 화상 조정부(26)로부터 합성 쿼리 화상 정보를 취득하고, 화상 데이터베이스(2) 및/또는 화상 기억부(31)가 유지하는 화상 중에서, 취득한 합성 쿼리 화상 정보가 나타내는 합성 쿼리 화상에 유사한 화상을 검색한다.
검색부(27)는, 검색 결과를 표시부(16)에 표시하고, 보다 합성 쿼리 화상에 유사한 화상을 검색 결과의 상위에 표시한다. 합성 쿼리 화상과의 유사한 정도를 나타내는 지표를 유사도라고 하면, 검색부(27)는, 유사도가 높은 화상을, 검색 결과의 보다 상위에 표시한다.
또한, 검색부(27)는, 합성 쿼리 화상에서의 오브젝트의 위치 및/또는 사이즈에 의거하여, 각 검색 대상 화상의 합성 쿼리 화상과의 유사도를 결정하여도 좋다. 구체적으로는, 합성 쿼리 화상에 포함되는 오브젝트와 같은 오브젝트를 갖는 검색 대상 화상이 복수 있는 경우, 검색 대상 화상에서의 오브젝트의 위치 또는 사이즈가, 합성 쿼리 화상에서의 당해 오브젝트의 위치 또는 사이즈라고 가까운 것일수록, 유사도가 높아지도록 하여도 좋다.
또한, 검색부(27)는, 합성 쿼리 화상이 복수 있는 경우, 조작부(14)를 이용하여, 유저로부터 선택(지정)된 합성 쿼리 화상만을 이용하여 검색을 행하여도 좋다.
기억부(12)는, 제어부(11)가 참조하는 프로그램이나 데이터 등을 저장하는 것이고, 화상 기억부(31), 템플릿 기억부(32), 알고리즘 기억부(33), 선택 룰 기억부(34), 배치 룰 기억부(35) 및 조정 룰 기억부(36)를 구비한다.
화상 기억부(31)는, 유저가 쿼리 화상으로서 지정하는 화상이나, 검색부(27)가 합성 쿼리 화상에 의거하여 검색을 행하는 검색 대상의 화상 등을 저장하는 것이다.
템플릿 기억부(32)는, 물체 검출부(23)가 물체를 검출할 때에 사용하는 화상 템플릿이나 특징량 템플릿을 저장하는 것이다.
알고리즘 기억부(33)는, 영역 추출부(24)가 소정의 영역을 추출할 때에 사용하는 상술의 알고리즘을 저장하는 것이다.
선택 룰 기억부(34)는, 합성 쿼리 화상 작성부(25)가 자동적으로 오브젝트를 선택할 때에 사용하는 선택 룰을 저장하는 것이다.
배치 룰 기억부(35)는, 합성 쿼리 화상 작성부(25)가 자동적으로 오브젝트의 배치를 결정할 때에 사용하는 배치 룰을 저장하는 것이다.
조정 룰 기억부(36)는, 합성 쿼리 화상 조정부(26)가 자동적으로 오브젝트의 위치 및 사이즈를 조정할 때에 사용하는 조정 룰을 저장하는 것이다.
[화상 검색 처리]
다음에, 화상 처리 장치(1)에서의 화상 검색 처리에 관해 도 4에 의거하여 설명한다. 도 4는, 화상 처리 장치(1)에서의 화상 검색 처리의 한 예를 도시하는 플로 차트이다. 도 4에 도시하는 처리예에서는, 합성 쿼리 화상 작성부(25) 및 합성 쿼리 화상 조정부(26)가 유저의 지시에 의거하여, 합성 쿼리 화상을 작성 및 조정을 행하는 예를 나타낸다.
도 4에 도시하는 바와 같이, 쿼리 화상 특정부(21)는, 조작부(14)를 통하여 화상을 쿼리 화상으로서 지정하는 지시가 입력되는 것을 기다린다(S1). 유저가 Web 열람 때 등에서 화상을 쿼리 화상으로서 지정하는 조작이 입력되면(S1에서 YES), 쿼리 화상 특정부(21)는, 입력된 지시에 따라, 유저가 지정하는 화상을 쿼리 화상으로서 특정한다(S2). 그리고, 쿼리 화상 특정부(21)는, 특정한 쿼리 화상을 오브젝트 추출부(22)에 출력한다.
오브젝트 추출부(22)는, 쿼리 화상 특정부(21)로부터 쿼리 화상을 취득하고, 취득한 쿼리 화상으로부터 오브젝트를 추출한다(S3). 그리고, 오브젝트 추출부(22)는, 추출한 오브젝트를 표시부(16)에 표시한다(S4). 또한, 오브젝트 추출부(22)는, 추출한 오브젝트를 나타내는 오브젝트 정보를 생성하고, 생성한 오브젝트 정보를 합성 쿼리 화상 작성부(25)에 출력한다.
다음에, 합성 쿼리 화상 작성부(25)는, 표시부(16)에 표시하고 있는 오브젝트 중에서 합성 쿼리 화상에 편입하는 오브젝트를 선택하는 유저의 지시가 입력되는 것을 기다린다(S5). 여기서, 소정 기간 유저의 지시가 입력되지 않거나, 표시부(16)에 표시중의 오브젝트를 합성 쿼리 화상에 편입하지 않는 취지의 지시가 입력되거나 하면(S5에서 NO), S1로 되돌아와, 쿼리 화상이 지정되는 것을 기다린다.
한편, 오브젝트를 선택하는 지시가 입력되면(S5에서 YES), 합성 쿼리 화상 작성부(25)는, 입력된 지시에 따라, 유저가 지정하는 오브젝트를 블랭크 화상에 붙여서 합성 쿼리 화상을 작성한다(S6). 그리고, 합성 쿼리 화상 작성부(25)는, 작성한 합성 쿼리 화상을 표시부(16)에 표시한다(S7). 또한, 합성 쿼리 화상 작성부(25)는, 작성한 합성 쿼리 화상을 나타내는 합성 쿼리 화상 정보를 합성 쿼리 화상 조정부(26)에 출력한다.
다음에, 합성 쿼리 화상 조정부(26)는, 합성 쿼리 화상의 오브젝트의 위치 또는 사이즈를 조정하는 지시가 입력되는 것을 기다린다(S8). 여기서, 소정 기간 유저의 지시가 입력되지 않거나, 오브젝트의 위치 및 사이즈를 조정하지 않는 취지의 지시가 입력되거나 하면(S8에서 NO), 합성 쿼리 화상 조정부(26)는, 합성 쿼리 화상을 나타내는 합성 쿼리 화상 정보를 검색부(27)에 출력한다.
한편, 오브젝트의 위치 또는 사이즈를 조정하는 지시가 입력되면(S8에서 YES), 합성 쿼리 화상 조정부(26)는, 입력된 지시에 따라, 유저가 지정하는 오브젝트의 합성 쿼리 화상에서의 위치 또는 사이즈를 조정한다(S9). 그리고, 합성 쿼리 화상 조정부(26)는, 조정한 합성 쿼리 화상을 표시부(16)에 표시한다(S10). 또한, 합성 쿼리 화상 조정부(26)는, 조정한 합성 쿼리 화상을 나타내는 합성 쿼리 화상 정보를 검색부(27)에 출력한다.
검색부(27)는, 합성 쿼리 화상 조정부(26)로부터 합성 쿼리 화상 정보를 취득하면, 조작부(14)를 통하여, 유저로부터 합성 종료 지시가 입력되는 것을 기다린다(S11). 유저로부터 합성 종료 지시가 아니라, 쿼리 화상의 추가의 지시가 입력되면(S11에서 NO), S1로 되돌아와, 쿼리 화상이 지정되는 것을 기다린다.
한편, 합성 종료 지시가 입력되면(S11에서 YES), 검색부(27)는, 화상 데이터베이스(2) 및/또는 화상 기억부(31)가 유지하는 화상 중에서, 취득한 합성 쿼리 화상 정보가 나타내는 합성 쿼리 화상에 유사한 화상을 검색한다(S12). 그리고, 검색부(27)는, 검색 결과를 표시부(16)에 표시한다(S13).
또한, 합성 쿼리 화상 작성부(25) 및 합성 쿼리 화상 조정부(26)가, 유저의 지시가 아니라 자동으로 행하는 경우는, S5 및 S8의 판단 처리는 필요 없다. 또한, 이 경우, S4, S7 및 S10에서, 표시부(16)에 오브젝트 또는 합성 쿼리 화상을 표시하지 않아도 좋다.
[표시 화면 예 1]
다음에, 상기 화상 검색 처리에서 표시부(16)에 표시되는 표시 화면 예를 도 5 및 도 6에 의거하여 설명한다. 도 5 및 도 6은, 화상 검색 처리에서 표시부(16)에 표시되는 표시 화면 예를 도시하는 도면이다. 도 5 및 도 6에 도시하는 예에서는, 화상 입력부(13)가 화상 제공 장치(3)로부터 취득한 화상을 유저가 쿼리 화상으로서 선택하는 것으로 한다. 또한, 오브젝트 추출부(22)가 각 쿼리 화상에서의 가장 특징적인 오브젝트를 하나 추출하는 것으로 하고, 또한, 합성 쿼리 화상 작성부(25)가 유저의 지시에 의거하여 붙이는 오브젝트를 선택하는 것으로 한다.
먼저, 도 5의 (a)에 도시하는 바와 같이, 화상 입력부(13)가 화상 제공 장치(3)로부터 취득한 입력 화상(P1)을 제어부(11)가 표시부(16)에 표시한다. 여기서, 유저가 조작부(14)를 이용하여 표시부(16)에 표시되어 있는 입력 화상(P1)을 쿼리 화상으로서 선택하면, 쿼리 화상 특정부(21)가 입력 화상(P1)을 쿼리 화상(QP1)으로서 특정한다.
그리고, 오브젝트 추출부(22)는, 쿼리 화상(QP1)으로부터 오브젝트(OBJ1)를 추출하여, 도 5의 (b)에 도시하는 바와 같이, 추출한 오브젝트(OBJ1)를 표시부(16)에 표시한다. 여기서, 유저가 조작부(14)를 이용하여 표시부(16)에 표시되어 있는 오브젝트(OBJ1)를 합성 쿼리 화상에 포함하는 것으로서 선택하면, 합성 쿼리 화상 작성부(25)가 블랭크 화상에 오브젝트(OBJ1)를 붙여서, 합성 쿼리 화상(CQP1a)을 작성한다.
합성 쿼리 화상 작성부(25)는, 도 5의 (c)에 도시하는 바와 같이, 작성한 합성 쿼리 화상(CQP1a)을 표시부(16)에 표시한다. 또한, 도 5의 (c)에 도시하는 예에서는, 합성 쿼리 화상(CQP1a)에 포함되는 오브젝트(OBJ1)를 선화(線畵)로 표시하고 있지만 이것으로 한하는 것이 아니다. 예를 들면, 도 5의 (b)에 도시하는 바와 같이, 쿼리 화상(QP1)으로부터 그대로 추출한 화상을 표시하여도 좋다.
또한, 이 때, 유저가 화면 표시 전환 조작을 행함에 의해, 도 5의 (d)에 도시하는 바와 같이, 제어부(11)는, 합성 쿼리 화상을 작성하기 위해 사용한 쿼리 화상에 관한 정보를 표시하여도 좋다. 도 5의 (d)에 도시하는 예에서는, 제어부(11)는, 표시부(16)에, 쿼리 화상(QP1)의 섬네일 화상과, 쿼리 화상(QP1)으로부터 추출한 오브젝트의 유무와, 얼굴 검출의 유무를 표시한다.
합성 쿼리 화상 작성부(25)가, 도 5의 (c)에 도시하는 합성 쿼리 화상(CQP1a)을 작성한 후, 또한, 화상 입력부(13)가 화상 제공 장치(3)로부터 입력 화상(P2)을 취득하였다고 한다. 상술한 바와 같이, 제어부(11)는, 도 6의 (a)에 도시하는 바와 같이 화상 입력부(13)가 취득한 입력 화상(P2)을 표시부(16)에 표시한다. 여기서, 유저가 조작부(14)를 이용하여 표시부(16)에 표시되어 있는 입력 화상(P2)을 쿼리 화상으로서 선택하면, 쿼리 화상 특정부(21)가 입력 화상(P2)을 쿼리 화상(QP2)으로서 특정한다.
그리고, 오브젝트 추출부(22)는, 쿼리 화상(QP2)으로부터 오브젝트(OBJ2)를 추출하여, 도 6의 (b)에 도시하는 바와 같이, 추출한 오브젝트(OBJ2)를 표시부(16)에 표시한다. 여기서, 유저가 조작부(14)를 통하여 표시부(16)에 표시되어 있는 오브젝트(OBJ2)를 합성 쿼리 화상에 포함하는 것으로서 선택하면, 합성 쿼리 화상 작성부(25)가 방금전 작성한 합성 쿼리 화상(CQP1a)에 오브젝트(OBJ2)를 붙여서, 합성 쿼리 화상(CQP1)을 작성한다.
합성 쿼리 화상 작성부(25)는, 도 6의 (c)에 도시하는 바와 같이, 작성한 합성 쿼리 화상(CQP1)을 표시부(16)에 표시한다. 또한, 이 때, 유저가 화면 표시 전환 조작을 행함에 의해, 도 6의 (d)에 도시하는 바와 같이, 제어부(11)는, 합성 쿼리 화상을 작성하기 위해 사용한 쿼리 화상에 관한 정보를 표시하여도 좋다. 도 6의 (d)에 도시하는 예에서는, 쿼리 화상(QP1 및 QP2)에 관한 정보가 표시되어 있다.
[표시 화면 예 2]
다음에, 상기 화상 검색 처리에서 표시부(16)에 표시되는 다른 표시 화면 예를 도 7에 의거하여 설명한다. 도 7은, 화상 검색 처리에서 표시부(16)에 표시되는 다른 표시 화면 예를 도시하는 도면이다. 도 7에 도시하는 예에서는, 화상 입력부(13)가 화상 제공 장치(3)로부터 취득한 화상(P1 및 P2)을 유저가 쿼리 화상으로서 선택하는 것으로 한다. 또한, 오브젝트 추출부(22)가 각 쿼리 화상으로부터 복수의 오브젝트를 추출하는 것으로 하고, 또한, 합성 쿼리 화상 작성부(25)가 자동적으로 오브젝트를 선택하여 합성 쿼리 화상을 작성하는 것으로 한다.
오브젝트 추출부(22)는, 쿼리 화상(QP1 및 QP2)으로부터 각각 오브젝트를 추출하여, 도 7의 (a)에 도시하는 바와 같이, 쿼리 화상(QP1)으로부터 추출한 오브젝트(OBJ1, OBJ3 및 OBJ4), 및, 쿼리 화상(QP2)으로부터 추출한 오브젝트(OBJ2 및 OBJ5)를 표시부(16)에 표시한다.
다음에, 합성 쿼리 화상 작성부(25)가 자동적으로 오브젝트(OBJ1 내지 5)중에서, 오브젝트를 선택하고, 오브젝트(OBJ1 및 OBJ2)를 포함하는 합성 쿼리 화상(CQP1)과, 오브젝트(OBJ3 및 OBJ4)를 포함하는 합성 쿼리 화상(CQP2)을 작성한다. 합성 쿼리 화상 작성부(25)는, 도 7의 (b)에 도시하는 바와 같이, 작성한 합성 쿼리 화상(CQP1) 및 CQP2를 표시부(16)에 표시한다.
[과제를 해결하기 위한 수단]
본 발명에 관한 화상 처리 장치는, 상기 과제를 해결하기 위해, 유저로부터의 지정에 의거하여 쿼리 화상을 특정하는 쿼리 화상 특정 수단과, 상기 쿼리 화상으로부터 오브젝트를 검출하는 오브젝트 검출 수단과, 상기 오브젝트 검출 수단이 검출한 상기 오브젝트를 복수 합성함으로써, 복수의 상기 오브젝트를 포함하는 합성 쿼리 화상을 생성하는 합성 쿼리 화상 생성 수단과, 상기 합성 쿼리 화상에 의거하여, 상기 합성 쿼리 화상에 유사한 화상을 검색하는 화상 검색 수단을 구비하는 것을 특징으로 하고 있다.
본 발명에 관한 화상 처리 방법은, 상기 과제를 해결하기 위해, 유저로부터의 지정에 의거하여 쿼리 화상을 특정하는 쿼리 화상 특정 스텝과, 상기 쿼리 화상으로부터 오브젝트를 검출하는 오브젝트 검출 스텝과, 상기 오브젝트 검출 스텝에서 검출된 상기 오브젝트를 복수 합성함으로써, 복수의 상기 오브젝트를 포함하는 합성 쿼리 화상을 생성하는 합성 쿼리 화상 생성 스텝과, 상기 합성 쿼리 화상에 의거하여, 상기 합성 쿼리 화상에 유사한 화상을 검색하는 화상 검색 스텝을 포함하는 것을 특징으로 하고 있다.
여기서, 유저는, 복수의 오브젝트를 포함하는 하나 또는 복수의 쿼리 화상에 유사한 화상을 검색하는 경우, 일반적으로, 이들의 쿼리 화상에 포함되는 복수의 오브젝트를 포함하는 화상에 유사한 화상을 찾고 있다고 예상된다.
상기 오브젝트 검출 수단은, 상기 쿼리 화상 특정 수단이 유저로부터의 지정에 의거하여 특정한 쿼리 화상으로부터 오브젝트를 검출하고, 상기 합성 쿼리 화상 생성 수단은, 상기 오브젝트 검출 수단이 검출한 상기 오브젝트를 복수 합성함으로써, 복수의 상기 오브젝트를 포함하는 합성 쿼리 화상을 생성하고, 상기 화상 검색 수단은, 상기 합성 쿼리 화상에 의거하여, 상기 합성 쿼리 화상에 유사한 화상을 검색한다.
그 때문에, 유저가 지정한 쿼리 화상으로부터 오브젝트를 자동적으로 검출할 수 있다. 따라서, 쿼리 화상으로부터 검출된 오브젝트를 포함하는 합성 쿼리 화상을 이용하여 검색함에 의해, 유저가 찾고 있는 화상을 효율적으로 검색할 수 있다. 즉, 화상 처리 장치에서 불필요한 검색 처리를 삭감할 수 있다.
그 때문에, 상기 쿼리 화상에 의거하여 쿼리 화상에 유사한 화상을 검색할 때에, 복수의 오브젝트를 포함하는 합성 쿼리 화상을 사용함에 의해, 유저는, 상기 쿼리 화상을 지정하는 것만으로, 직감적으로 소망하는 화상을 검색할 수 있다는 효과를 이룬다.
또한, 복수의 오브젝트를 포함하는 합성 쿼리 화상을 이용하여 검색함에 의해, 오브젝트 단위로 검색하는 것이 아니라, 복수의 오브젝트를 포함하는 합성 쿼리 화상 단위로 검색하기 때문에, 화상 처리 장치의 처리 부하를 경감할 수 있다.
본 발명에 관한 화상 처리 장치는, 상기 합성 쿼리 화상상에서의 상기 오브젝트의 위치 및 사이즈의 적어도 어느 하나를 조정하는 합성 쿼리 화상 조정 수단을 또한 구비하고, 상기 화상 검색 수단은, 상기 합성 쿼리 화상 조정 수단이 조정한 합성 쿼리 화상에 유사한 화상을 검색하는 것이 바람직하다.
일반적으로, 유저는, 2개의 화상이 유사한지의 여부를 판단할 때에, 각 화상에 포함되는 오브젝트의 위치 및/또는 사이즈를 상호 비교하여 판단한다.
상기한 구성에 의하면, 상기 합성 쿼리 화상 조정 수단이 상기 합성 쿼리 화상 생성 수단이 생성한 합성 쿼리 화상에 포함되는 오브젝트의 당해 합성 쿼리 화상상에서의 위치 및 사이즈의 적어도 어느 하나를 조정한다. 그리고, 상기 화상 검색 수단이, 상기 합성 쿼리 화상 조정 수단이 조정후의 합성 쿼리 화상에 유사한 화상을 검색한다. 이에 의해, 합성 쿼리 화상과 유사한 화상으로서, 당해 합성 쿼리 화상상에서의 오브젝트의 위치 및/또는 사이즈가 유사한 오브젝트를 포함하는 화상을 검색할 수 있다. 따라서, 유저가 직감적으로 유사하다고 생각하는 화상을 보다 효과적, 효율적으로 검색할 수 있다.
본 발명에 관한 화상 처리 장치는, 유저로부터의 입력을 접수하는 입력 수단을 또한 구비하고, 상기 합성 쿼리 화상 생성 수단은, 상기 입력 수단에 입력된 지시에 의거하여, 상기 오브젝트 검출 수단이 검출한 상기 오브젝트를 복수 선택하고, 선택한 복수의 오브젝트를 합성하는 것이 바람직하다.
상기한 구성에 의하면, 상기 합성 쿼리 화상 생성 수단은, 상기 입력 수단에 입력된 유저의 지시에 의거하여, 상기 오브젝트 검출 수단이 검출한 오브젝트를 복수 선택하고, 선택한 복수의 오브젝트를 합성한다. 그 때문에, 상기 합성 쿼리 화상 생성 수단은, 유저가 찾고 있는 화상에 포함되는 오브젝트와 유사한 오브젝트를 선택할 수 있다. 따라서, 유저가 찾고 있는 화상에 포함되는 오브젝트와 유사한 오브젝트를 포함하는 합성 쿼리 화상을 생성할 수 있다. 따라서, 유저가 찾고 있는 화상과 유사한 화상을 보다 효과적, 효율적으로 검색할 수 있다.
본 발명에 관한 화상 처리 장치는, 유저로부터의 입력을 접수하는 입력 수단을 또한 구비하고, 상기 합성 쿼리 화상 조정 수단은, 상기 입력 수단에 입력된 지시에 의거하여, 상기 합성 쿼리 화상상에서의 상기 오브젝트의 위치 및 사이즈의 적어도 어느 하나를 조정하는 것이 바람직하다.
상기한 구성에 의하면, 상기 합성 쿼리 화상 조정 수단은, 상기 입력 수단에 입력된 유저의 지시에 의거하여, 상기 합성 쿼리 화상 생성 수단이 생성한 합성 쿼리 화상상에서의 상기 오브젝트의 위치 및 사이즈의 적어도 어느 하나를 조정한다. 그 때문에, 유저가 찾고 있는 화상에 포함되는 오브젝트와, 화상상의 위치 및/또는 사이즈가 유사한 오브젝트를 포함하는 합성 쿼리 화상을 생성할 수 있다. 따라서, 유저가 찾고 있는 화상과 유사한 화상을 보다 효과적, 효율적으로 검색할 수 있다.
또한, 상기 화상 처리 장치는, 컴퓨터에 의해 실현하여도 좋고, 이 경우에는, 컴퓨터를 상기 화상 처리 장치의 각 수단으로서 동작시킴에 의해, 상기 화상 처리 장치를 컴퓨터에 실현시키는 제어 프로그램, 및 그것을 기록한 컴퓨터 판독 가능한 기록 매체도 본 발명의 범주에 들어간다.
[보충]
본 발명은 상술한 실시 형태로 한정되는 것이 아니고, 청구항에 나타냈던 범위에서 여러 가지의 변경이 가능하다. 즉, 청구항에 나타낸 범위에서 적절히 변경한 기술적 수단을 조합시켜서 얻어지는 실시 형태에 대해서도 본 발명의 기술적 범위에 포함된다.
최후로, 화상 처리 장치(1)의 각 블록, 특히 제어부(11)는, 하드웨어 로직에 의해 구성하여도 좋고, 다음과 같이 CPU를 이용하여 소프트웨어에 의해 실현하여도 좋다.
즉, 화상 처리 장치(1)는, 각 기능을 실현하는 제어 프로그램의 명령을 실행하는 CPU, 상기 프로그램을 저장한 ROM, 상기 프로그램을 전개하는 RAM, 상기 프로그램 및 각종 데이터를 저장하는 메모리 등의 기억 장치(기록 매체) 등을 구비하고 있다. 그리고, 본 발명의 목적은, 상술한 기능을 실현하는 소프트웨어인 화상 처리 장치(1)의 제어 프로그램의 프로그램 코드(실행 형식 프로그램, 중간 코드 프로그램, 소스 프로그램)를 컴퓨터에서 판독 가능하게 기록한 기록 매체를, 상기 화상 처리 장치(1)에 공급하고, 그 컴퓨터(또는 CPU나 MPU)가 기록 매체에 기록되어 있는 프로그램 코드를 판독하고 실행함에 의해서도 달성 가능하다.
상기 기록 매체로서는, 예를 들면, 자기 테이프나 카세트 테이프 등의 테이프계, 플로피(등록상표) 디스크/하드 디스크 등의 자기 디스크나 CD-ROM/MO/MD/DVD/CD-R 등의 광디스크를 포함하는 디스크계, IC 카드(메모리 카드를 포함한다)/광카드 등의 카드계, 또는 마스크 ROM/EPROM/EEPROM/플래시 ROM 등의 반도체 메모리계 등을 이용할 수 있다.
또한, 화상 처리 장치(1)를 통신 네트워크와 접속 가능하게 구성하고, 상기 프로그램 코드를 통신 네트워크를 통하여 공급하여도 좋다. 이 통신 네트워크로서는, 특히 한정되지 않고, 예를 들면, 인터넷, 인트라넷, 엑스트라넷, LAN, ISDN, VAN, CATV 통신망, 가상 전용망(virtual private network), 전화 회선망, 이동체 통신망, 위성 통신망 등이 이용 가능하다. 또한, 통신 네트워크를 구성하는 전송 매체로서는, 특히 한정되지 않고, 예를 들면, IEEE1394, USB, 전력선 반송, 케이블TV 회선, 전화선, ADSL 회선 등의 유선이라도, IrDA나 리모트 콘트롤과 같은 적외선, Bluetooth(등록상표), 802. 11 무선, HDR, 휴대 전화망, 위성 회선, 지상파 디지털망 등의 무선이라도 이용 가능하다. 또한, 본 발명은, 상기 프로그램 코드가 전자적인 전송으로 구현화된, 반송파에 매입된 컴퓨터 데이터 신호의 형태라도 실현될 수 있다.
[산업상의 이용 가능성]
본 발명은, 쿼리 화상에 유사한 화상을 검색하는 화상 처리 장치에 이용할 수 있다.
1 : 화상 처리 장치
14 : 조작부(입력 수단)
21 : 쿼리 화상 특정부(쿼리 화상 특정 수단)
22 : 오브젝트 추출부(오브젝트 검출 수단)
25 : 합성 쿼리 화상 작성부(합성 쿼리 화상 생성 수단)
26 : 합성 쿼리 화상 조정부(합성 쿼리 화상 조정 수단)
27 : 검색부(화상 검색 수단)

Claims (6)

  1. 유저로부터의 지정에 의거하여 쿼리(query) 화상을 특정하는 쿼리 화상 특정 수단과,
    상기 쿼리 화상으로부터 오브젝트를 검출하는 오브젝트 검출 수단과,
    상기 오브젝트 검출 수단이 검출한 상기 오브젝트를 복수 합성함으로써, 복수의 상기 오브젝트를 포함하는 합성 쿼리 화상을 생성하는 합성 쿼리 화상 생성 수단과,
    상기 합성 쿼리 화상에 의거하여, 상기 합성 쿼리 화상에 유사한 화상을 검색하는 화상 검색 수단을 구비하는 것을 특징으로 하는 화상 처리 장치.
  2. 제 1항에 있어서,
    상기 합성 쿼리 화상상에서의 상기 오브젝트의 위치 및 사이즈의 적어도 어느 하나를 조정하는 합성 쿼리 화상 조정 수단을 더 구비하고,
    상기 화상 검색 수단은, 상기 합성 쿼리 화상 조정 수단이 조정한 합성 쿼리 화상에 유사한 화상을 검색하는 것을 특징으로 하는 화상 처리 장치.
  3. 제 1항 또는 제 2항에 있어서,
    유저로부터의 입력을 접수하는 입력 수단을 더 구비하고,
    상기 합성 쿼리 화상 생성 수단은, 상기 입력 수단에 입력된 지시에 의거하여, 상기 오브젝트 검출 수단이 검출한 상기 오브젝트를 복수 선택하고, 선택한 복수의 오브젝트를 합성하는 것을 특징으로 하는 화상 처리 장치.
  4. 제 2항에 있어서,
    유저로부터의 입력을 접수하는 입력 수단을 더 구비하고,
    상기 합성 쿼리 화상 조정 수단은, 상기 입력 수단에 입력된 지시에 의거하여, 상기 합성 쿼리 화상상에서의 상기 오브젝트의 위치 및 사이즈의 적어도 어느 하나를 조정하는 것을 특징으로 하는 화상 처리 장치.
  5. 유저로부터의 지정에 의거하여 쿼리 화상을 특정하는 쿼리 화상 특정 스텝과,
    상기 쿼리 화상으로부터 오브젝트를 검출하는 오브젝트 검출 스텝과,
    상기 오브젝트 검출 스텝에서 검출된 상기 오브젝트를 복수 합성함으로써, 복수의 상기 오브젝트를 포함하는 합성 쿼리 화상을 생성하는 합성 쿼리 화상 생성 스텝과,
    상기 합성 쿼리 화상에 의거하여, 상기 합성 쿼리 화상에 유사한 화상을 검색하는 화상 검색 스텝을 포함하는 것을 특징으로 하는 화상 처리 방법.
  6. 유저로부터의 지정에 의거하여 쿼리 화상을 특정하는 쿼리 화상 특정 스텝과,
    상기 쿼리 화상으로부터 오브젝트를 검출하는 오브젝트 검출 스텝과,
    상기 오브젝트 검출 스텝에서 검출된 상기 오브젝트를 복수 합성함으로써, 복수의 상기 오브젝트를 포함하는 합성 쿼리 화상을 생성하는 합성 쿼리 화상 생성 스텝과,
    상기 합성 쿼리 화상에 의거하여, 상기 합성 쿼리 화상에 유사한 화상을 검색하는 화상 검색 스텝을 포함하는 화상 처리 방법을 컴퓨터에 실행시키기 위한 제어 프로그램.
KR1020137020491A 2011-03-11 2011-03-22 화상 처리 장치, 화상 처리 방법 및 제어 프로그램 KR20130107366A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JPJP-P-2011-054649 2011-03-11
JP2011054649A JP2012190349A (ja) 2011-03-11 2011-03-11 画像処理装置、画像処理方法および制御プログラム
PCT/JP2011/056827 WO2012124149A1 (ja) 2011-03-11 2011-03-22 画像処理装置、画像処理方法および制御プログラム

Publications (1)

Publication Number Publication Date
KR20130107366A true KR20130107366A (ko) 2013-10-01

Family

ID=46830258

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137020491A KR20130107366A (ko) 2011-03-11 2011-03-22 화상 처리 장치, 화상 처리 방법 및 제어 프로그램

Country Status (6)

Country Link
US (1) US20140112598A1 (ko)
EP (1) EP2685420A4 (ko)
JP (1) JP2012190349A (ko)
KR (1) KR20130107366A (ko)
CN (1) CN103415868A (ko)
WO (1) WO2012124149A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180035253A (ko) * 2016-09-28 2018-04-06 서강대학교산학협력단 내용 기반 이미지 검색을 위한 질의 이미지 생성 방법 및 시스템
KR20180131690A (ko) * 2017-05-31 2018-12-11 서강대학교산학협력단 내용 기반 이미지 검색방법 및 그에 따른 시스템
KR102539376B1 (ko) * 2022-11-07 2023-06-02 주식회사 드랩 자연어 기반 상품 사진 생성 방법, 서버 및 컴퓨터 프로그램

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150234926A1 (en) * 2012-09-13 2015-08-20 Ntt Docomo, Inc. User interface device, search method, and program
JP6419560B2 (ja) * 2014-12-05 2018-11-07 株式会社東芝 検索装置、方法及びプログラム
CN105306678A (zh) * 2015-09-14 2016-02-03 联想(北京)有限公司 一种信息处理方法及电子设备
CN110147459B (zh) * 2017-07-28 2021-08-20 杭州海康威视数字技术股份有限公司 一种图像检索方法、装置及电子设备
US11163819B2 (en) * 2017-10-23 2021-11-02 Adobe Inc. Image search and retrieval using object attributes
CN110929057A (zh) * 2018-08-30 2020-03-27 深圳市蓝灯鱼智能科技有限公司 图像处理方法、装置和系统、存储介质及电子装置
KR102646344B1 (ko) 2019-09-06 2024-03-12 삼성전자주식회사 이미지를 합성하기 위한 전자 장치 및 그의 동작 방법
WO2021234935A1 (ja) * 2020-05-22 2021-11-25 日本電気株式会社 画像選択装置、画像選択方法、およびプログラム
CN113468353A (zh) * 2021-07-20 2021-10-01 柒久园艺科技(北京)有限公司 一种基于图形的游客互动方法、装置、电子设备及介质
US20230161809A1 (en) * 2021-11-22 2023-05-25 Comcast Cable Communications, Llc Methods and systems for modifying content searches

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2806666B2 (ja) 1991-12-13 1998-09-30 工業技術院長 概略画像作成方法及び装置
US6408293B1 (en) * 1999-06-09 2002-06-18 International Business Machines Corporation Interactive framework for understanding user's perception of multimedia data
TW501035B (en) * 2001-03-20 2002-09-01 Ulead Systems Inc Interactive image searching method based on local object
EP1302865A1 (en) * 2001-10-10 2003-04-16 Mitsubishi Electric Information Technology Centre Europe B.V. Method and apparatus for searching for and retrieving colour images
JP4066162B2 (ja) * 2002-09-27 2008-03-26 富士フイルム株式会社 画像編集装置、画像編集プログラム並びに画像編集方法
JP5009577B2 (ja) * 2005-09-30 2012-08-22 富士フイルム株式会社 画像検索装置および方法並びにプログラム
JP2007122540A (ja) * 2005-10-31 2007-05-17 Canon Inc 画像情報処理方法、および画像情報処理装置
JP5127067B2 (ja) * 2009-03-06 2013-01-23 パナソニック株式会社 画像検索装置及び画像検索方法
JP5359424B2 (ja) * 2009-03-18 2013-12-04 富士ゼロックス株式会社 文書処理システム、検索装置およびプログラム
JP2010250426A (ja) 2009-04-13 2010-11-04 Seiko Epson Corp 画像処理装置および印刷装置
US9195898B2 (en) * 2009-04-14 2015-11-24 Qualcomm Incorporated Systems and methods for image recognition using mobile devices
JP2010256994A (ja) * 2009-04-21 2010-11-11 Pfu Ltd 文字認識装置、文字認識方法、および、プログラム
US8392430B2 (en) * 2009-09-23 2013-03-05 Microsoft Corp. Concept-structured image search

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180035253A (ko) * 2016-09-28 2018-04-06 서강대학교산학협력단 내용 기반 이미지 검색을 위한 질의 이미지 생성 방법 및 시스템
KR20180131690A (ko) * 2017-05-31 2018-12-11 서강대학교산학협력단 내용 기반 이미지 검색방법 및 그에 따른 시스템
KR102539376B1 (ko) * 2022-11-07 2023-06-02 주식회사 드랩 자연어 기반 상품 사진 생성 방법, 서버 및 컴퓨터 프로그램

Also Published As

Publication number Publication date
EP2685420A1 (en) 2014-01-15
CN103415868A (zh) 2013-11-27
JP2012190349A (ja) 2012-10-04
EP2685420A4 (en) 2014-09-17
US20140112598A1 (en) 2014-04-24
WO2012124149A1 (ja) 2012-09-20

Similar Documents

Publication Publication Date Title
KR20130107366A (ko) 화상 처리 장치, 화상 처리 방법 및 제어 프로그램
CN108537859B (zh) 使用深度学习的图像蒙板
US10049308B1 (en) Synthesizing training data
US10019779B2 (en) Browsing interface for item counterparts having different scales and lengths
CN103262110B (zh) 用于管理和呈现内容的方法、装置和设备
KR102285699B1 (ko) 이미지를 디스플레이하는 사용자 단말기 및 이의 이미지 디스플레이 방법
US20130016910A1 (en) Information processing apparatus, metadata setting method, and program
US20110246939A1 (en) Information Processing Method and Graphical User Interface
JP2010055424A (ja) 画像を処理する装置、方法およびプログラム
KR102244248B1 (ko) 컨텐츠 운용 방법 및 이를 지원하는 전자 장치
JP2011081556A (ja) 情報処理装置、情報処理方法、プログラムおよびサーバ
JP2008234124A (ja) 代表色抽出方法、および代表色抽出装置
CN108377351A (zh) 用于在模板上布局图像的图像处理装置和图像处理方法
US20110274346A1 (en) Information Processing Apparatus, Information Processing Method and Program
US20230345113A1 (en) Display control method and apparatus, electronic device, and medium
US10026176B2 (en) Browsing interface for item counterparts having different scales and lengths
CN106251322A (zh) 图像处理设备、图像处理方法和图像处理系统
CN107704302A (zh) 一种壁纸设置方法及终端
US20150371411A1 (en) Computerized systems and methods for rendering a user interface element
JP2016085534A (ja) 画像処理装置、画像処理装置の制御方法およびプログラム
CN113379866A (zh) 一种壁纸设置方法和装置
CN112822394A (zh) 显示控制方法、装置、电子设备及可读存储介质
CN112083863A (zh) 图像处理方法、装置、电子设备及可读存储介质
JP2018132821A (ja) 情報処理装置、情報処理システム、端末装置、プログラム及び情報処理方法
JP5998952B2 (ja) 標識画像配置支援装置及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application