KR101964397B1 - 정보처리장치 및 정보처리방법 - Google Patents

정보처리장치 및 정보처리방법 Download PDF

Info

Publication number
KR101964397B1
KR101964397B1 KR1020167029372A KR20167029372A KR101964397B1 KR 101964397 B1 KR101964397 B1 KR 101964397B1 KR 1020167029372 A KR1020167029372 A KR 1020167029372A KR 20167029372 A KR20167029372 A KR 20167029372A KR 101964397 B1 KR101964397 B1 KR 101964397B1
Authority
KR
South Korea
Prior art keywords
image
likelihood
identifier
unit
identification
Prior art date
Application number
KR1020167029372A
Other languages
English (en)
Other versions
KR20160136391A (ko
Inventor
히로유키 우치야마
Original Assignee
캐논 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 캐논 가부시끼가이샤 filed Critical 캐논 가부시끼가이샤
Publication of KR20160136391A publication Critical patent/KR20160136391A/ko
Application granted granted Critical
Publication of KR101964397B1 publication Critical patent/KR101964397B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06K9/00369
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • G06K9/6257
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Image Analysis (AREA)

Abstract

화상으로부터 특징량과, 해당 화상에 관한 콘텍스트를 나타내는 콘텍스트 정보를 취득한다. 특징량으로부터, 해당 화상이 특정한 물체의 화상인 우도를 나타내는 제1 우도를 구한다. 콘텍스트 정보로부터, 해당 화상이 특정한 물체의 화상인 우도를 나타내는 제2 우도를 구한다. 제1 우도와 제2 우도를 사용하여, 해당 화상이 특정한 물체의 화상인가 아닌가를 식별한다.

Description

정보처리장치 및 정보처리방법{INFORMATION PROCESSING APPARATUS AND INFORMATION PROCESSING METHOD}
본 발명은, 화상으로부터 물체를 검출하기 위한 기술에 관한 것이다.
종래부터, 카메라로 촬영한 화상으로부터 인체를 검출하는 방법이 제안되어 있다(비특허문헌1(Navneet Dalal and Bill Triggs, "Histograms of Oriented Gradients for Human Detection", CVPR2005)). 이 방법에서는, 인체화상과 배경화상을 기계학습에 의해 사전학습한다. 그 후, 카메라로부터 입력된 화상의 부분 화상이 인체인가 아닌가를 식별하여, 검출을 행한다. 그렇지만, 사전학습시와 검출시 사이에 촬영 씬이나 인체의 외모가 다른 경우, 검출 성능이 저하하는 것이 알려져 있다. 촬영 씬의 차이의 예는, 조명 조건의 차이와, 카메라의 설치 각도, 음영의 유/무, 및 배경의 차이가 있다. 외모의 차이의 예는, 인체의 방향과 복장의 차이가 있다.
검출 성능저하의 요인은, 예를 들면, 사전학습시의 학습 샘플이 촬영 씬과 검출 대상물체의 외모의 다양성을 커버할 수 없는 것이다. 이것을 해결하기 위해서, 검출시와 같은 촬영 씬으로 수집한 추가 학습용의 학습 샘플을 사용해서 추가 학습을 행하는 것으로, 검출 성능을 향상시키는 방법이 제안되어 있다. 특허문헌1(일본국 공개특허 2010-529529)에서는, Real AdaBoost 식별기의 약식별기(weak discriminator)를 사전학습으로 작성하고 나서, 추가 학습에 의해, 약식별기를 추가 학습 샘플에 적합시키는 방법을 제안하고 있다.
또한, 검출시의 씬에서 얻어진 씬 특유의 콘텍스트를 식별에 이용함으로써, 검출 성능이 향상하는 것이 알려져 있다. 콘텍스트의 예는, 검출 대상물체의 화상상의 출현 위치 좌표가 있다. 설치 위치가 고정의 방범 카메라의 경우, 검출 대상인 인체의 화상상의 출현 위치나 크기는 그 설치 씬 특유의 분포를 가진다. 이 때문에, 특허문헌2(일본국 특허 제5096211호)에서는, 인체의 출현 위치 좌표의 확률분포를 작성하고, 식별기의 프론트 필터나 결과수정에 사용하고 있다. 다른 콘텍스트의 예는, 배경화상이 있다. 카메라의 설치 장소에 따라서는, 검출 대상이 특정한 배경 텍스처를 갖는 위치에 출현하는 빈도가 높아진다. 이 때문에, 특허문헌3(US20120219211 A1)에서는, 식별 대상영역 뿐만 아니라, 식별 대상영역 주변의 부분 화상도 학습에 이용하고 있다.
그렇지만, 특허문헌1에서는, Real AdaBoost 식별기의 파라미터를 추가 학습 샘플에 적합시키는 것뿐이다. 추가 학습 및 추가 학습후의 검출에 사용된 특징이 사전학습시에 생성된 것에 한정되므로, 성능향상에는 한계가 있다.
특허문헌2에서는, 고정적으로 설치된 카메라가 전제이며, 또 콘텍스트로서 물체의 출현 위치 좌표의 확률분포를 사용할 뿐이다. 이 때문에, 카메라가 고정적으로 설치되지 않은 상황이나, 물체의 출현 확률이 위치 좌표에 의존하지 않는 상황에서는, 성능향상은 기대할 수 없다.
특허문헌3에서는, 식별 대상영역주변의 부분 화상만이 콘텍스트로서 이용될 수 있다. 배경화상이 시간과 함께 변화되는 상황이나, 물체의 출현 확률이 배경에 의존하지 않는 상황에서는, 성능향상은 기대할 수 없다.
본 발명은 이러한 문제를 해결하기 위한 것으로, 화상에 대한 식별 성능을 향상시키기 위한 기술을 제공한다.
본 발명의 제1 측면에 따른 정보처리장치는, 입력된 화상으로부터 특징량을 취득하는 부; 상기 화상에 관한 콘텍스트를 나타내는 콘텍스트 정보를 취득하는 부; 상기 특징량으로부터, 상기 화상이 특정한 물체의 화상인 우도를 나타내는 제1 우도를 구하는 제1 식별부; 상기 콘텍스트 정보로부터, 상기 화상이 상기 특정한 물체의 화상인 우도를 나타내는 제2 우도를 구하는 제2 식별부; 및 상기 제1 우도와 상기 제2 우도를 사용하여서, 상기 화상이 상기 특정한 물체의 화상인가 아닌가를 식별하는 부를 구비하고, 상기 제2 식별부는, 상기 제1 우도와 상기 콘텍스트 정보를 사용하여 학습한 식별기를 포함한다.
본 발명의 제2 측면에 따른 정보처리장치는, 입력된 화상으로부터 특징량을 취득하는 부; 상기 화상에 관한 콘텍스트를 나타내는 콘텍스트 정보를 취득하는 부; 상기 특징량으로부터, 상기 화상이 특정한 물체의 화상인 우도를 나타내는 제1 우도를 구하는 제1 식별부; 및 상기 제1 우도와 상기 콘텍스트 정보를 사용하여서, 상기 제1 식별부와는 다른 제2 식별부를 학습하는 학습부를 구비한다.
본 발명의 제3 측면에 따른 정보처리장치가 행하는 정보처리방법은, 상기 정보처리장치의 특징량을 취득하는 부가, 입력된 화상으로부터 특징량을 취득하는 단계; 상기 정보처리장치의 콘텍스트 정보를 취득하는 부가, 상기 화상에 관한 콘텍스트를 나타내는 콘텍스트 정보를 취득하는 단계; 상기 정보처리장치의 제1 식별부가, 상기 특징량으로부터, 상기 화상이 특정한 물체의 화상인 우도를 나타내는 제1 우도를 구하는 단계; 상기 정보처리장치의 제2 식별부가, 상기 콘텍스트 정보로부터, 상기 화상이 특정한 물체의 화상인 우도를 나타내는 제2 우도를 구하는 단계; 및 상기 정보처리장치의 식별부가, 상기 제1 우도와 상기 제2 우도를 사용하여서, 상기 화상이 특정한 물체의 화상인가 아닌가를 식별하는 단계를 포함하고, 상기 제2 식별부는, 상기 제1 우도와 상기 콘텍스트 정보를 사용하여 학습한 식별기를 포함한다.
본 발명의 제4 측면에 따른 정보처리장치가 행하는 정보처리방법은, 상기 정보처리장치의 특징량을 취득하는 부가, 입력된 화상으로부터 특징량을 취득하는 단계; 상기 정보처리장치의 콘텍스트 정보를 취득하는 부가, 상기 화상에 관한 콘텍스트를 나타내는 콘텍스트 정보를 취득하는 단계; 상기 정보처리장치의 제1 식별부가, 상기 특징량으로부터, 상기 화상이 특정한 물체의 화상인 우도를 나타내는 제1 우도를 구하는 단계; 및 상기 정보처리장치의 학습부가, 상기 제1 우도와 상기 콘텍스트 정보를 사용하여서, 상기 제1 식별부와는 다른 제 2 식별부를 학습하는 단계를 포함한다.
본 발명의 또 다른 특징들은, (첨부도면을 참조하여) 이하의 실시예들의 설명으로부터 명백해질 것이다.
도 1은, 정보처리장치의 기능 구성 예를 나타내는 블록도;
도 2는, 촬상 장치의 하드웨어 구성 예를 나타내는 블록도;
도 3은, 학습부(111)가 행하는 처리를 나타내는 흐름도;
도 4는, 단계S306에 있어서의 처리의 상세를 나타내는 흐름도;
도 5는, 단계S403에 있어서의 처리의 상세를 나타내는 흐름도;
도 6은, 식별부(101)가 행하는 처리를 나타내는 흐름도;
도 7은, 콘텍스트 특징 벡터를 설명하는 도;
도 8은, 식(11)을 설명하는 그래프;
도 9는, 콘텍스트 특징 벡터를 설명하는 도다.
이하, 첨부 도면을 참조하여, 본 발명의 실시예에 대해서 설명한다. 또한, 이하 설명하는 각 실시예는, 본 발명을 구체적으로 실시했을 경우를 예시한 것으로, 청구범위에 기재된 구성의 구체적인 실시예다.
[제1 실시예]
우선, 제1 실시예에 따른 정보처리장치의 기능 구성 예에 대해서, 도 1의 블록도를 참조하여 설명한다. 도 1에 나타낸 바와 같이, 본 실시예에 따른 정보처리장치는, 식별부(101)와, 학습부(111)를 구비한다.
학습부(111)는, 식별 대상 화상들과 그들에 부수되는 콘텍스트들로부터 식별부(101)가 갖는 제2 식별부(107)를 학습한다. "식별 대상 화상들"은, 검출 대상물체의 화상과 배경화상이 혼재한 화상들이다.
식별부(101)는, 제1 식별부(106a) 및 학습부(111)에 의해 학습한 제2 식별부(107)에 의한 입력 화상에 대한 식별 처리의 결과로부터, 해당 입력 화상이 특정물체가 촬영된 화상인가 아닌가를 식별한다.
또한, 본 실시예에서는, 학습부(111)와 식별부(101)는 1개의 장치(정보처리장치)내에 배치되는 것으로서 설명한다. 그러나, 학습부(111) 및 식별부(101)를 별개의 장치내에 배치되어도 된다. 이 경우에, 장치간의 통신에 의해, 학습부(111)와 식별부(101)가 서로 통신을 행해서 하기의 처리를 달성한다.
우선, 학습부(111)에 대해서 설명한다. 학습 샘플 취득부(112)는, 복수매의 식별 대상 화상을 취득하고, 각각의 식별 대상 화상으로부터, 해당 식별 대상 화상의 화상특징 벡터와, 해당 식별 대상 화상에 첨부된 콘텍스트 특징 벡터를 수집한다. 학습 샘플 취득부(112)는 식별 대상 화상마다, 해당 식별 대상 화상으로부터 수집한 화상특징 벡터와 콘텍스트 특징 벡터를 연결하여서 학습 샘플을 생성한다. 추가로, 학습 샘플 취득부(112)는, 각각의 식별 대상 화상에 대한 분류 라벨을 수신한다. 분류 라벨은, 학습 샘플(식별 대상 화상)이 검출 대상물체인가 아닌가를 나타내는 수치다. 그 분류 라벨은, 학습 샘플이 검출 대상물체일 경우는 +1, 학습 샘플이 배경일 경우는 -1을 취한다. 분류 라벨의 취득 방법에 대해서는 후술한다. 학습 샘플 취득부(112)는, 식별 대상 화상마다, 해당 식별 대상 화상으로부터 생성한 학습 샘플과, 해당 식별 대상 화상에 대한 분류 라벨을, 제1 식별부(106b) 및 추가 식별기 학습부(117)에 대하여 송출한다.
화상취득부(103b)는, 복수매의 식별 대상 화상과, 해당 식별 대상 화상에 대한 분류 라벨을 취득한다. 특징추출부(104b)는, 화상취득부(103b)가 취득한 식별 대상 화상으로부터 화상특징 벡터를 추출한다. 콘텍스트 취득부(105b)는, 화상취득부(103b)가 취득한 식별 대상 화상에 첨부된 콘텍스트 특징 벡터를 취득한다. 특징추출부(104b)가 추출한 화상특징 벡터와, 콘텍스트 취득부(105b)가 취득한 콘텍스트 특징 벡터는, 연결된 상태로, 학습 샘플로서 상기 분류 라벨과 함께, 제1 식별부(106b)와 추가 식별기 학습부(117)에 송출된다.
제1 식별부(106b)는, 학습 샘플 취득부(112)로부터 입력된 각 학습 샘플내의 화상특징 벡터에 대하여, 검출 대상물체의 우도(likelihood)를 나타내는 제1 우도를 산출한다. 본 실시예에서는, 제1 식별부(106b)는, Real AdaBoost 식별기로 구성되는 것으로서 설명한다. 그러나, 제1 식별부(106b)는, 우도를 취득할 수 있는 식별기이면, Support Vector Machine, 뉴럴네트워크, Regression, 또는 다른 식별기로 구성되어도 좋다. "검출 대상물체의 우도"는, 제1 식별부(106b)를 구성하는 식별기에 입력된 화상특징 벡터의 검출 대상물체의 우도를 의미하고, 화상 특징벡터가 값이 클수록 검출 대상물체를 나타낼 가능성이 보다 많은 것을 가리킨다. 제1 우도의 산출 방법에 대해서는 후술한다. 제1 식별부(106b)가 Real AdaBoost 식별기로 구성될 경우, 그 식별기는 복수의 약식별기의 집합으로서 구성된다. Support Vector Machine, 뉴럴네트워크 또는 Regression을 사용하는 경우에는, 그 식별기는 단일의 식별기로서 구성된다. 제1 식별부(106b)를 구성하는 식별기는, 미리 취득한 식별 대상 화상들을 사용해서 사전에 학습되어 있다고 가정한다. 제1 식별부(106b)는, 산출된 제1 우도를, 후단의 추가 식별기 학습부(117)에 송출한다.
추가 식별기 학습부(117)는, 학습 샘플 취득부(112)로부터 입력된 학습 샘플들 및 분류 라벨들, 제1 식별부(106b)로부터 입력된 제1 우도를 사용하여서, 식별부(101)의 제2 식별부(107)를 구성하는 약식별기의 집합을 작성한다.
학습 샘플 가중치(weight) 설정부(118)는, 학습 샘플에 대한 가중치의 초기 설정 및 갱신을 행한다. 식별기 후보 생성부(119)는, 학습 샘플과 그 가중치로부터 약식별기 후보들과 이것들의 평가 스코어를 생성하여, 식별기 선택부(120)에 입력한다. 식별기 선택부(120)는, 이 평가 스코어에 근거하여 원하는 약식별기를 선택하고, 제2 식별부(107)를 갱신한다.
다음에, 식별부(101)에 대해서 설명한다.
식별 샘플 취득부(102)는, 식별 대상 화상을 취득하고, 해당 식별 대상 화상으로부터, 해당 식별 대상 화상의 화상특징 벡터와, 해당 식별 대상 화상에 첨부된 콘텍스트 특징 벡터를 수집한다. 식별 샘플 취득부(102)는, 식별 대상 화상으로부터 수집한 화상특징 벡터와 콘텍스트 특징 벡터를 연결하여서 식별 샘플을 생성하고, 해당 식별 샘플을, 제1 식별부(106a) 및 제2 식별부(107)에 대하여 송출한다.
화상취득부(103a)는, 식별 대상 화상을 취득한다. 특징추출부(104a)는, 화상취득부(103a)가 취득한 식별 대상 화상으로부터, 특징추출부(104b)와 같이, 화상특징 벡터를 추출한다. 콘텍스트 취득부(105a)는, 화상취득부(103a)가 취득한 식별 대상 화상에 첨부된 콘텍스트 특징 벡터를 취득한다. 특징추출부(104a)가 추출한 화상특징 벡터와, 콘텍스트 취득부(105a)가 취득한 콘텍스트 특징 벡터는 연결한 상태로, 식별 샘플로서, 제1 식별부(106a)와 제2 식별부(107)에 송출된다.
제1 식별부(106a)는, 식별 샘플 취득부(102)로부터 입력된 식별 샘플내의 화상특징 벡터에 대하여, 검출 대상물체의 우도를 나타내는 우도(제1 우도)를 산출한다. 제1 식별부(106a)는, 산출된 제1 우도를, 후단의 통합 식별부(108)에 송출한다.
또한, 제1 식별부(106a, 106b)는, 같은 방식으로 사전에 학습되고 같은 동작을 행한다. 따라서, 단일의 식별기를 제1 식별부(106a, 106b)로서 공유해서 사용해도 되거나, 같은 학습을 행해서 생성한 2개의 식별기를 제1 식별부(106a, 106b)로서 사용해도 된다.
제2 식별부(107)는, 식별 샘플 취득부(102)로부터 입력된 식별 샘플에 대하여, 검출 대상물체의 우도를 나타내는 제2 우도를 산출한다. 제2 식별부(107)는, 산출된 제2 우도를, 후단의 통합 식별부(108)에 송출한다.
통합 식별부(108)는, 제1 식별부(106a)로부터 입력된 제1 우도와, 제2 식별부(107)로부터 입력된 제2 우도를 사용하여서, 식별 샘플이 검출 대상물체인가 아닌가를 판정한다.
다음에, 도 1의 학습부(111)가 행하는 처리에 대해서, 이 처리를 나타내는 흐름도인 도 3을 참조하여 설명한다. 단계S301에서는, 화상취득부(103b)는, 복수매의 식별 대상 화상을 취득한다. 단계S302에서는, 화상취득부(103b)는, 각각의 식별 대상 화상에 대한 분류 라벨을 취득한다.
상기한 대로, 식별 대상 화상은, 검출 대상물체의 화상 또는 배경화상 중 어느 한쪽이다. 단계S301에서는, 검출 대상물체의 화상과 배경화상이 혼재한 화상들을 취득하게 된다. 예를 들면, 미리 유저가 식별 대상 화상들 및 분류 라벨들을 지정하여도 좋다. 동화상으로부터 식별 대상 화상들을 취득할 경우에는, 검출 대상물체에 대하여 추미 처리 등을 적용하여, 식별 대상 화상들 및 그들의 분류 라벨을 추미 결과로부터 자동으로 취득해도 좋다.
단계S303에서는, 특징추출부(104b)는, 단계S301에서 취득한 각각의 식별 대상 화상으로부터, 화상특징 벡터를 추출한다. 본 실시예에서는, 식별 대상 화상으로부터 HOG(Histograms of Oriented Gradients)를 화상특징 벡터로서 추출한다. 단, 화상특징 벡터는 그 HOG에 한정되지 않고, LBP(Local Binary Pattern)이나 화상의 휘도값, 또는 또 다른 임의의 특징량을 화상특징 벡터로서 추출해도 된다.
단계S304에서는, 콘텍스트 취득부(105b)는, 단계S301에서 취득한 각각의 식별 대상 화상으로부터, 해당 식별 대상 화상에 첨부된 콘텍스트 특징 벡터를 취득한다. 본 실시예에서는, 검출 대상물체의 출현 위치 정보를 콘텍스트 특징 벡터로서 추출한다. 보다 구체적으로는, 도 7에 도시한 바와 같이, 식별 대상 화상(701)이 취득된 입력 화상(702)(식별 대상 화상(701)을 추출한 원(Original) 화상)에 있어서의 식별 대상 화상(701)의 위치 좌표와 크기를 콘텍스트로서 사용한다. 즉, 식별 대상 화상(701)의 추출 프레임의 높이h 및 추출 프레임 하부의 y좌표를 취득한다. 그리고, 콘텍스트 특징 벡터로서, 추출 프레임의 높이h와 추출 프레임 하부의 y좌표의 비율, 및 높이h의 역수를 설정한다. 이때, 콘텍스트 특징 벡터c는 c=(y/h, 1/h)가 된다.
상기한 대로, 학습 샘플 취득부(112)는, 식별 대상 화상마다, 해당 식별 대상 화상으로부터 추출한 화상특징 벡터와, 해당 식별 대상 화상으로부터 취득한 콘텍스트 특징 벡터를 연결하여서 얻어진 학습 샘플을, 제1 식별부(106b)에 송출한다.
단계S305에서는, 제1 식별부(106b)는, 학습 샘플 취득부(112)로부터 입력된 각 학습 샘플내의 화상특징 벡터v에 대하여 제1 우도H1(v)을 산출한다. 제1 우도H1(v)은,
Figure 112016102238355-pct00001
에 따라서 산출된다.
식(1)에서, H1(v)은, 제1 식별부(106b)에서의 약식별기를 나타내고,
Figure 112016102238355-pct00002
에 따라서 산출된다.
여기서, ε는 정수, W+ j 및 W- j는 빈(bin) 번호j를 갖는 1차원 히스토그램, u는 화상특징 벡터v중의 사전에 정해진 차원의 요소값, 및 J(u)는 u를 1차원 히스토그램의 빈 번호로 변환하기 위한 변환 테이블이다.
단계S306에서는, 추가 식별기 학습부(117)는, 학습 샘플들, 분류 라벨들, 및 제1 우도들을 사용해서, 제2 식별부(107)를 갱신한다. 단계S306에 있어서의 처리의 상세에 대해서, 도 4의 흐름도를 참조하여 설명한다. 단계S306에서는, 소위 Boosting의 학습 알고리즘을 사용해서 학습 샘플들과 분류 라벨들을 학습하고, 제2 식별부(107)를 갱신한다. Boosting은, 다수의 약식별기를 포개서 강한 식별기를 만드는 방법이다. 본 실시예에서는, 제2 식별부(107)를 구성하는 각 약식별기가 적어도 화상특징 벡터와 콘텍스트 특징 벡터 중 어느 한쪽을 학습한다. 본 실시예에 있어서의 학습 알고리즘은, 제1 식별부(106b)를 구성하는 식별기를 이 Boosting의 학습된 약식별기의 하나로서 취급하고, 제2 식별부(107)에 다수의 약식별기를 추가하는 것을 특징으로 한다.
우선, 단계S401에서는, 추가 식별기 학습부(117)는, 제2 식별부(107)를 초기화한다. 이 초기화에서는, 제2 식별부(107)를 구성하는 약식별기의 집합을 빈 집합으로 설정한다.
그 후, 단계S402에서는, 샘플 가중치 설정부(118)는, 각 학습 샘플에 대한 가중치를 초기화한다. Boosting의 학습 알고리즘은, 비특허문헌2(Robert E.Schapire and Yoram Singer, "Improved Boosting Algorithms Using Confidence-rated Predictions", Machine Learning, 1999)에 의하면, 학습된 식별기의 식별 결과로 학습 샘플을 가중하고, 순차적으로 약식별기를 추가함으로써, 보다 식별 성능이 높은 식별기를 구축할 수 있다.
본 실시예에서는, 제1 식별부(106b)에서 식별이 보다 어려운 샘플에 대해서는 보다 큰 가중치에서, 또 식별이 보다 용이한 샘플에 대해서는 보다 작은 가중치에서, 학습을 시작한다. 학습 샘플의 가중치는, 제1 식별부(106b)를 구성하는 식별기로 학습 샘플을 식별했을 경우에 발생된 손실을, 모든 샘플 가중치의 합이 1이 되도록 정규화한 값으로서 구해진다. 예를 들면, 제1 식별부(106b)를 구성하는 식별기가 Real AdaBoost 식별기이면, 학습 샘플의 가중치wi의 초기값은,
Figure 112016102238355-pct00003
에 따라서 산출된다.
여기서, i는 학습 샘플의 번호이고, H1(vi)는 단계S305에서 취득한 "화상특징 벡터vi에 대한 제1 식별부(106b)를 구성하는 식별기H1의 우도"(제1 우도)이고, yi는 그 분류 라벨이다. 식(3)은, Real AdaBoost의 지수 손실 함수를 기초로 하고, 제1 식별부(106b)에서 사용하는 식별기에 따라 원하는 손실함수를 채용한다.
이러한 학습 샘플의 가중치의 설정은, 제1 식별부(106b)를 구성하는 식별기H1에 의한 식별이 부족한 씬 특유의 학습 샘플을, 제2 식별부(107)에 있어서 효율적으로 학습하는 효과를 제공한다. 또한, 제2 식별부(107)는, 제1 식별부(106b)의 특정 씬에 대한 식별 성능을 보완하는 효과를 기대한다.
단계S403에서는, 식별기 후보 생성부(119)는, 학습 샘플들, 분류 라벨들, 학습 샘플의 가중치들을 사용해서, 약식별기 후보들과 이것들의 평가 스코어를 생성한다. 약식별기 후보의 평가 스코어는, 약식별기 후보의 식별 성능을 나타내는 지표이며, 값이 작을수록 식별 성능이 높은 것을 나타낸다. 단계S403에 있어서의 처리의 상세에 대해서는, 도 5를 참조하여 후술한다.
단계S404에서는, 식별기 선택부(120)는, 단계S403에서 생성된 약식별기 후보들로부터, 이것들의 평가 스코어를 기초로 원하는 약식별기를 선택한다. 원하는 약식별기로서, 본 실시예에서는 약식별기 후보들로부터 가장 평가 스코어가 작은 약식별기를 선택한다.
단계S405에서는, 식별기 선택부(120)는, 단계S404에서 선택한 약식별기를, 제2 식별부(107)를 구성하는 약식별기의 집합에 추가한다.
단계S406에서는, 학습 샘플 가중치 설정부(118)는, 단계S404에서 선택한 약식별기h, 학습 샘플xi, 및 분류 라벨yi에 따른 학습 샘플의 가중치wi를,
Figure 112016102238355-pct00004
에 따라 갱신한다.
식(4)에 따라 각 가중치를 갱신한 후, 모든 가중치의 합이 1이 되도록, 각각의 가중치를 정규화한다. 단계S407에서는, 추가 식별기 학습부(117)는, 학습의 종료 조건이 충족되는지 아닌지를 판정한다. 본 실시예에서는, 예를 들면, 포지티브 제거율이 소정의 역치보다 작고 네가티브 제거율이 소정의 역치보다 클 경우, 종료 조건을 충족시킨다고 판정하고; 그 이외의 경우는, 종료 조건을 충족시키지 않는다고 판정한다.
여기에서, 포지티브 제거율은, 검출 대상물체의 학습 샘플이 배경으로서 잘못 식별되는 비율이다. 네가티브 제거율은, 배경의 학습 샘플이 정확히 식별되는 비율이다. 또한, 학습의 종료 조건으로서는 여러 가지 조건을 적용 가능하고, 그 종료 조건은 특정한 조건에 한정되는 것이 아니다. 예를 들면, 단계S401∼S406의 처리가 소정 횟수이상 실행되었을 경우에, 종료 조건을 충족시킨다고 판정하여도 된다.
단계S407에 있어서 종료 조건이 충족시켜졌다고 판정되었을 경우에는, 학습 처리는 종료한다. 아직 종료 조건은 충족시켜지지 않고 있다고 판정했을 경우에는, 처리는 단계S403에 되돌아가, 이후의 처리가 반복된다.
상기한 단계S403에 있어서의 처리의 상세에 대해서, 도 5의 흐름도를 참조하여 설명한다. 도 5의 처리는, 화상특징 벡터를 식별하는 약판별기의 후보들, 콘텍스트 특징 벡터를 식별하는 약판별기의 후보들, 및 화상특징 벡터와 콘텍스트 특징 벡터와의 조합을 식별하는 약판별기의 후보들을 생성하기 위한 처리다. 보다 구체적으로는, 단계S501의 루프(단계S502 및 S503)에서는, 화상특징 벡터를 식별하는 약판별기의 후보들을 생성함과 아울러, 각각의 후보의 평가 스코어를 산출한다. 단계S504의 루프(단계S505 및 S506)에서는, 콘텍스트 특징 벡터를 식별하는 약판별기의 후보들을 생성함과 아울러, 각각의 후보의 평가 스코어를 산출한다. 단계S507의 루프(단계S508 및 S509)에서는, 화상특징 벡터와 콘텍스트 특징 벡터와의 조합을 식별하는 약판별기의 후보들을 생성함과 아울러, 각각의 후보의 평가 스코어를 산출한다.
우선, 화상특징 벡터를 식별하는 약식별기의 후보들의 생성 및 이들의 평가 스코어의 산출을 행하는 단계S501의 루프(단계S502 및 S503)에 대해서 설명한다. 단계S501의 루프에서는, 화상특징 벡터중의 각 차원에 대해서, 약식별기 후보들과 이들의 평가 스코어를 생성한다. 즉, 화상특징 벡터의 차원 수만큼 약식별기 후보들 및 이들의 평가 스코어가 생성된다.
본 실시예에서는, 약식별기들과 이들의 평가 스코어는 비특허문헌2의 Real AdaBoost에 근거하여 구해진다고 가정한다. 비특허문헌2에 의하면, Real AdaBoost의 약식별기는,
Figure 112016102238355-pct00005
로 나타낸 것 같은 형식을 취한다.
여기에서, x는 학습 샘플이고, y는 학습 샘플의 분류 라벨이며, P(y=+1|x), P(y=-1|x)은 학습 샘플의 가중치로 가중된 확률밀도분포다.
단계S502에서는, 식별기 후보 생성부(119)는, 화상특징 벡터를 식별하는 약판별기의 후보들을 생성한다. 여기에서, 화상특징 벡터의 임의의 차원의 요소에 있어서의 약식별기 후보들의 생성 방법에 대해서 설명한다. 비특허문헌2에 의하면, 식(5)의 약식별기 후보는, 한층 더,
Figure 112016102238355-pct00006
으로 재기록된다.
여기서, x는 학습 샘플, ε는 정수, W+ j 및 W- j는 빈 번호j를 갖는 1차원 히스토그램, u는 학습 샘플x중의 화상특징 벡터의 임의의 차원의 요소값, 및 J(u)은 u를 1차원 히스토그램의 빈 번호로 변환하기 위한 변환 테이블이다.
1차원 히스토그램 W+ j 및 W- j 각각은, 하기 식으로 변환 테이블J에 기초한 빈 번호로 특징량을 변환하고, 그 빈에 대응하는 학습 샘플 가중치를 적산함으로써 구한다:
Figure 112016102238355-pct00007
Figure 112016102238355-pct00008
여기서, j는 1차원 히스토그램의 빈 번호이고, i는 학습 샘플의 번호이고, yi 및 ui는 각각, i번째의 학습 샘플의 분류 라벨 및 학습 샘플중의 화상특징의 임의의 요소값이다.
단계S503에서는, 식별기 후보 생성부(119)는, 단계S502에서 생성된 약식별기 후보himage의 평가 스코어z를 산출한다. 평가 스코어z는, 예를 들면,
Figure 112016102238355-pct00009
에 따라서 산출된다.
이상 설명한 단계S501의 루프(단계S502 및 단계S503의 처리)에 의해, 화상특징 벡터를 식별하는 약식별기 후보들이 생성됨과 아울러, 이들의 평가 스코어가 산출된다.
다음에, 콘텍스트 특징 벡터를 식별하는 약식별기 후보들의 생성 및 이들의 평가 스코어의 산출을 행하는 단계S504의 루프(단계S505 및 S506)에 대해서 설명한다. 이 루프에 있어서 복수의 약식별기 후보를 생성해도 좋다. 그렇지만, 본 실시예에서는, 단일의 약식별기 후보를 생성하기 위해서, 되풀이 횟수는 1회뿐이라고 한다.
단계S505에서는, 식별기 후보 생성부(119)는, 콘텍스트 특징 벡터를 식별하는 약판별기의 후보들을 생성한다. 콘텍스트 특징 벡터로부터 약식별기 후보를 생성하는 처리에 대해서, 보다 상세하게 설명한다. 콘텍스트 특징 벡터를 식별하는 약식별기 후보는, 마찬가지로 Real AdaBoost에 근거하여,
Figure 112016102238355-pct00010
로 나타내어지고,
여기에서, x는 학습 샘플이고, c는 학습 샘플내의 콘텍스트 특징 벡터이며, y는 분류 라벨이고, P(c|y=+1), P(c|y=-1)은 각각, 학습 샘플의 가중치로 가중된 검출 대상물체와 배경의 콘텍스트 특징 벡터의 확률밀도분포이고, P(y=+1), P(y=-1)은 각각 검출 물체와 배경과의 분류 라벨의 상기 분포다.
다음에, 식(9)의 확률밀도분포 P(c|y=+1)의 산출 방법에 대해서 설명한다. 단계S304에 있어서 취득한 콘텍스트 특징 벡터는, 추출 프레임의 높이h와 추출 프레임 하부의 y좌표와의 비율, 및 높이h의 역수로 규정된 벡터이다. 콘텍스트 특징 벡터는 c=(y/h, 1/h)이고, 여기서 이것을 c=(c1, c2)이라고 표기한다. 검출 대상물체의 높이가 거의 일정하고, 카메라의 설치 높이, 및 수평선의 화상중의 y좌표가 일정하다고 가정하면, c1은 c2의 아래 식의 일차함수f(c2:a,b)로서 표현될 수 있다:
Figure 112016102238355-pct00011
여기에서, a, b는 일차함수의 계수다. 콘텍스트 특징 벡터의 관측에는 오차가 생긴다고 생각된다. 또한, 검출 대상물체의 높이는 실제로는 일정하지 않다고도 생각된다. 콘텍스트 특징 벡터에는 정규분포 오차가 생긴다고 가정하면, 식(9)에서의 확률분포P(c|y=+1)은,
Figure 112016102238355-pct00012
로 나타내고,
여기서, P(c1|f(c2:a, b), σ2)은 평균f(c2:a, b) 및 분산σ2의 정규분포이다. 식(11)은, 콘텍스트 특징 벡터c=(c1, c2)이 도 8에 나타낸 직선f(c2:a, b)에 가까울수록 검출 대상물체를 나타낼 가능성이 높은 것을 의미한다.
식(11)의 파라미터 a, b, σ2은 학습 샘플의 가중치 및 콘텍스트 특징 벡터로부터 최대 우도 추정에 의해 구해진다. P(c2|y=+1)은 균일한 분포라고 가정한다.
식(9)의 확률밀도분포P(c|y=-1)에 대해서, 배경의 학습 샘플은 씬에서 균일하게 출현한다고 가정한다. 이 때문에, P(c|y=-1)은 균일한 분포로서 간주한다.
본 실시예는, 카메라와 검출 대상물체간 위치 관계의 기하적인 모델을 상정한다. 잡음에 대해 확률밀도분포의 추정이 강건해지고, 그 확률밀도분포의 추정의 정확성을 향상시키는 효과를 기대할 수 있다. 또한, 기하적인 모델을 고려하지 않을 경우와 비교하여, 보다 적은 학습 샘플수를 사용하여 정확한 확률밀도분포를 추정하는 효과를 기대할 수 있다.
본 실시예에서는, 식(11)의 P(c2|y=+1)과 식(9)의 P(c|y=-1)은 균일한 분포이다. 그러나, 학습 샘플의 가중치 및 콘텍스트 특징 벡터를 사용하고, 식(9)의 P(c|y=+1)과 같이, 어떠한 모델에 그들을 적용하여서 최대 우도 추정에 의해 P(c2|y=+1)과 P(c|y=-1)을 구하는 것도 가능하다. 또한, P(c2|y=+1)과 P(c|y=-1)는, 학습 샘플의 가중치 및 콘텍스트 특징 벡터를 사용하여, 커널 밀도 추정이나 투표로 구해져도 좋다.
단계S506에서는, 식별기 후보 생성부(119)는, 약식별기 후보hcontext의 평가 스코어z를 생성한다. 평가 스코어z는, 예를 들면,
Figure 112016102238355-pct00013
에 따라서 산출되고,
여기서, i는 학습 샘플의 번호, wi는 학습 샘플의 가중치, xi는 학습 샘플, yi는 분류 라벨이고, h는 hcontext인 약식별기 후보다.
이상 설명한 단계S504의 루프(단계S505 및 단계S506의 처리)에 의해, 콘텍스트 특징 벡터를 식별하는 약식별기 후보들이 생성됨과 아울러, 그들의 평가 스코어가 산출된다.
다음에, 화상특징 벡터와 콘텍스트 특징 벡터의 조합을 식별하는 약식별기 후보들의 생성 및 이들의 평가 스코어의 산출을 행하는 단계S507의 루프(단계S508 및 S509)에 대해서 설명한다. 단계S507의 루프에서는, 단계S501의 루프와 같이, 화상특징 벡터중의 각 차원에 대해서 약식별기 후보와 이들의 평가 스코어를 생성한다. 즉, 화상특징 벡터의 차원 수만큼 약식별기 후보 및 이들의 평가 스코어가 생성된다.
단계S508에서는, 식별기 후보 생성부(119)는, 화상특징 벡터와 콘텍스트 특징 벡터와의 조합을 식별하는 약판별기의 후보들을 생성한다. 화상특징 벡터와 콘텍스트 특징 벡터의 조합으로부터 약식별기 후보를 생성하는 처리에 대해서, 보다 상세하게 설명한다. 화상특징 벡터와 콘텍스트 특징 벡터를 식별하는 약식별기 후보는, 마찬가지로 Real AdaBoost에 근거하여,
Figure 112016102238355-pct00014
로 나타내어지고,
여기에서, x는 학습 샘플이고, y는 분류 라벨이다. 약식별기 후보로서 식(13)을 사용해도 되지만, 식(13)은 나이브 베이즈(Naive Bayes)법을 사용하여,
Figure 112016102238355-pct00015
와 같이 근사되고,
여기서, x는 학습 샘플이고, v는 학습 샘플중의 화상특징 벡터이며, c는 학습 샘플중의 콘텍스트 특징 벡터다. 식(14)의 1차원 히스토그램 W+ j 및 W- j 각각은, 상기 식(7-1) 및 식(7-2)에 따라서 산출된다. 또한, 식(14)의 P(c|y=+1) 및 P(c|y=-1)은, 상기 식(9)와 같이 산출된다.
단계S509에서는, 식별기 후보 생성부(119)는, 약식별기 후보hjoint의 평가 스코어z를 산출한다. 평가 스코어z는, 예를 들면, 상기한 식(12)에 따라 구해진다.
이상설명한 단계S507의 루프(단계S508 및 단계S509의 처리)에 의해, 화상특징 벡터 및 콘텍스트 특징 벡터의 조합을 식별하는 약식별기 후보들이 생성됨과 아울러, 이들의 평가 스코어가 산출된다.
그리고, 식별기 후보 생성부(119)는, 도 5의 흐름도에 따라서 생성된 약식별기 후보들과, 각각의 약식별기 후보의 평가 스코어를, 식별기 선택부(120)에 송출한다.
다음에, 상기 학습부(111)에 의해 학습된 제2 식별부(107)를 갖는 식별부(101)가 행하는 처리에 대해서, 이 처리를 나타내는 흐름도인 도 6을 참조하여 설명한다. 단계S601의 루프(단계S602∼S607)는, 식별 샘플 취득부(102)에 입력된 식별 대상 화상(검출 대상 화상)중의 각각의 부분 화상(유저가 지정해도 좋거나, 식별부(101)가 지정해도 좋다)에 대하여 행해진다.
단계S602에서는, 화상취득부(103a)는, 식별 대상 화상중의 임의의 부분 화상을 취득하고, 특징추출부(104a)는, 이 취득한 부분 화상으로부터, 상기 단계S303과 같이 해서 화상특징 벡터v를 추출한다.
단계S603에서는, 콘텍스트 취득부(105a)는, 식별 대상 화상에 첨부된 콘텍스트 특징 벡터를, 상기한 단계S304와 같이 해서 취득한다.
단계S604에서는, 제1 식별부(106a)는, 단계S602에서 추출한 화상특징 벡터v에 대하여, 제1 식별부(106a)의 제1 우도H1(v)을, 상기한 식(1)에 따라서 산출한다. 제1 우도H1(v)은, 단계S602에서 취득한 부분 화상의 식별 대상물체의 우도를 가리키는 수치다.
단계S605에서는 제2 식별부(107)는, 단계S602에서 추출한 화상특징 벡터v와, 단계S603에서 취득한 콘텍스트 특징 벡터를 연결하여서 취득된 벡터x에 대하여, 제2 식별부(107)의 제2 우도H2(x)을 산출한다. 제2 우도는, 단계S602에서 취득한 부분 화상의 식별 대상물체의 우도를 가리키는 수치다. 제2 우도H2(x)는, 이하의 식(15)에 나타낸 바와 같이, 제2 식별부(107)인 H2를 구성하는 약식별기h에 의한 우도의 합으로 산출된다.
Figure 112016102238355-pct00016
식(15)에 있어서, 단계S502에서 생성되고 제2 식별부(107)(H2)를 구성하는 약식별기h의 평가는, 식별 샘플x중의 화상특징 벡터v만을 사용한다. 단계S505에서 생성되고 제2 식별부(107)(H2)를 구성하는 약식별기h의 평가는, 식별 샘플x중의 콘텍스트 특징 벡터c만을 사용한다. 또한, 단계S508에서 생성되고 제2 식별부(107)(H2)를 구성하는 약식별기h의 평가는, 식별 샘플x중의 화상특징 벡터v와 콘텍스트 특징 벡터c의 양쪽을 사용한다.
단계S606에서는, 통합 식별부(108)는, 단계S604에서 산출된 제1 우도H1(v)과, 단계S605에서 산출된 제2 우도H2(x)과의 통합 우도H(x)를 산출한다. 통합 우도H(x)는, 이하의 식(16)과 같이, 제2 우도H2(x)를 계수λ로 가중하고, 그 결과를 제1 우도H1(v)에 가산하여서 산출된다:
Figure 112016102238355-pct00017
여기에서, x는 식별 샘플이며, 화상특징 벡터v와 콘텍스트 특징 벡터c를 연결한 것이다. 계수λ는 제1 식별부(106a)와 제2 식별부(107)와의 세기의 비율을 나타내는 값이며, 0 내지 1의 값을 취한다. λ가 0일 때, 그 식별 결과는 제1 식별부(106a)를 구성하는 식별기H1만으로의 식별 결과와 같다. λ가 커질수록, 이것은 씬으로의 적응 정도가 큰 것을 가리킨다. 이 때문에, 계수λ를 조정함으로써, 과잉 학습에 의해 생긴 검출 성능의 저하를 억제하는 효과를 기대할 수 있다.
단계S607에서는, 통합 식별부(108)는, 단계S606에서 산출한 통합 우도H(x)가 소정의 일정값보다 큰 경우에는, 단계S602에서 취득한 부분 화상을 검출 대상물체로 분류한다.
단계S601의 루프가 식별 대상 화상중의 각각의 부분 화상에 대해서 행해진 후, 통합 식별부(108)는, 단계S607에 있어서 검출 대상물체에 분류된 부분 화상의 집합을 출력한다. 출력처와 출력 형태는 특정한 것들에 한정되지 않는다. 상기 출력으로서, 부분 화상 자체를 출력해도 좋거나, 부분 화상에 관한 정보(예를 들면, 식별 대상 화상중의 위치와 사이즈나, 부분 화상중의 인식 결과)를 출력해도 좋다.
본 실시예에서는, 단계S402에서 식별 대상 화상들의 각각의 화상으로부터 제1 식별부에서 취득한 제1 우도에 근거해서 학습 샘플의 가중치의 초기값을 설정한다. 이때, 제2 식별부는 제1 식별부에서 식별한 제1 우도에 근거하여 학습을 행한다. 따라서, 제2 식별부는 제1 식별부에 의한 식별이 부족한 식별 대상 화상들을 효율적으로 고정밀도로 학습하는 효과를 기대할 수 있다.
제1 식별부의 제1 우도를 거쳐, 제1 식별부와 제2 식별부가 동일한 Boosting의 프레임워크에 의해 학습되었으므로, 제1 식별부의 제1 우도와 제2 식별부의 제2 우도는 가/감산으로 결합된다. 따라서, 다른 학습 샘플들로 복수종류의 제2 식별부를 별도로 학습하여, 상기 검출부에서는 갱신 및 교환할 수 있다. 검출부는, 다른 학습 샘플들로부터 학습된 복수의 콘텍스트를 선택적으로 전환할 수 있다. 예를 들면, 카메라가 삼각대에 고정된 경우에는, 좌표를 콘텍스트로서 학습한 제2 식별부를 사용할 수 있다. 카메라가 고정되어 있지 않은 경우에는, 그 이외의 콘텍스트를 학습한 제2 식별부를 사용할 수 있다.
또한, 주어진 제2 식별부가 학습한 콘텍스트와, 다른 제2 식별부가 학습한 콘텍스트가 독립적인 사상, 예를 들면 콘텍스트가 화상상의 좌표와 시간일 경우를 생각한다. 이 경우, 이것들 제2 식별부의 제2 우도는 상관이 없기 때문에, 이것들 제2 식별부를 병용하여, 모든 제2 우도를 적산할 수 있다. 이에 따라, 주어진 학습 샘플의 주어진 콘텍스트와, 다른 콘텍스트에, 동시에 적응될 수 있다.
본 실시예에서는, 단계S403에서 화상특징 벡터를 식별하는 약식별기, 콘텍스트 특징 벡터를 식별하는 약식별기, 화상특징 벡터와 콘텍스트 특징 벡터를 식별하는 약식별기를 생성한다. 이것들 3종류의 약식별기를 생성하는 효과에 대해서 설명한다.
우선, 화상특징 벡터를 식별하는 약식별기의 효과를 설명한다. 종래의 화상검출 기술을 주어진 씬에 적응했을 때에, 종래의 화상검출 기술, 즉 제1 식별부의 검출 성능이 주어진 씬에서만 저하한다. 이 현상의 이유는, 씬 특유의 화상특징의 존재 때문이다. 예를 들면, 검출 대상물체의 특정한 부분이 숨겨지기 쉬운 씬은, 숨겨진 부분 특유의 화상특징을 갖는다. 검출 대상물체의 자세나 화상취득 환경의 변화에 의해, 식별에 필요한 화상특징이 변화된다. 또한, 검출 처리 대상 화상중의 검출 대상물체의 배경부분에 특징적인 물체가 비추어지기 쉬운 씬에서는, 이 물체의 주변에는 물체 특유의 화상특징이 존재한다. 이 때문에, 제2 식별부에서 화상특징 벡터에 근거하여 약식별기를 새롭게 생성함으로써, 씬 특유의 화상특징의 추가 학습이 가능해지고, 검출률의 향상을 기대할 수 있다.
콘텍스트 특징 벡터를 식별하는 약식별기의 효과를 설명한다. 예를 들면, 화상특징이 검출 대상물체와 배경간의 차이를 완전히 표현할 수 없을 경우, 화상특징에만 근거한 식별이 어려울 경우가 있다. 이 경우의 예들은, 검출 대상물체의 숨김이 클 경우와, 검출 대상물체의 형상의 다양성이 클 경우가 있다. 화상특징에만 근거하여 식별이 어려울 경우, 화상특징이외의 정보에 근거한 식별을 행할 필요가 있다. 예를 들면, 검출 물체의 출현 위치 정보를 사용하면, 숨김에 의한 영향을 경감하면서 그 물체가 검출 대상물체인가 아닌가를 용이하게 식별하는 것이 기대된다. 제2 식별부에 콘텍스트 특징 벡터에 근거하는 약식별기를 새롭게 생성한다. 이것에 의해, 콘텍스트에 근거한 식별을 할 수 있다. 상기 씬에 있어서, 화상특징에 상관없이 식별이 가능해지고, 검출율의 향상을 기대할 수 있다.
화상특징 벡터와 콘텍스트 특징 벡터를 식별하는 약식별기의 효과를 설명한다. 씬에 따라서는, 화상특징과 콘텍스트 특징의 사이에 어떠한 관련성이 있다. 예를 들면, 콘텍스트가 검출 대상물체의 출현 위치 정보이면, 검출 대상물체의 출현 위치에 따라 식별에 유용한 화상특징이 변경하는 경우가 있다. 예를 들면, 가까이 존재하는 고해상도의 물체와 멀리 존재하는 저해상도의 물체간에는, 유용한 화상특징이 달라도 된다. 그 밖의 예로서, 출현 위치에 따라 숨김의 유무가 있고, 검출 대상물체의 출현에서 특정한 변화가 생기는 경우와, 출현 위치에 따라 조명 조건이 변경되고, 검출 대상물체와 배경의 음영이 변경되는 경우가 있다. 따라서, 본 실시예에서는, 제2 식별부에 화상특징 벡터와 콘텍스트 특징 벡터의 양쪽에 근거하는 약식별기를 새롭게 생성한다. 화상특징과 콘텍스트 특징의 사이의 관련성에 근거하는 식별이 가능해지고, 검출율의 향상을 기대할 수 있다.
이상과 같이, 본 실시예에 의하면, 화상특징 뿐만 아니라, 콘텍스트 정보에 근거하여서도 약식별기를 생성한다. 보다 구체적으로, 식별기 후보 생성부는 제1 식별부에서 취득한 제1 우도와 콘텍스트 정보에 근거해서 약식별기 후보를 생성하고, 식별기 선택부는 원하는 식별기를 선택해서 제2 식별부를 구성한다. 이에 따라, 콘텍스트 정보를 추가할 수 있다.
[제2 실시예]
상기 제1 실시예에서는, 콘텍스트 특징 벡터가 c=(y/h, 1/h)이다. 그렇지만, 단계S304에서는, 시각, 날짜, 요일, 월, 계절 또는 그 밖의 시간을 나타내는 수치 또는 속성 라벨을, 콘텍스트 특징 벡터로서 취득해도 좋다. 또한, 날씨, 기온, 습도, 기압, 강수량, 적설량, 풍향, 풍속, 태양의 방향, 일사량, 연무의 농도, 시정, 또는 그 밖의 기상조건을 나타내는 수치 또는 속성 라벨을 콘텍스트 특징 벡터로서 취득해도 좋다. 예를 들면, 시각을 t라고 하는 경우, 콘텍스트 특징 벡터를 c=(t)로서 취득해도 좋다.
이것들의 콘텍스트 중, 시간을 나타내는 콘텍스트는, 시계로부터 취득해도 좋거나, 기상조건을 나타내는 콘텍스는 센서로부터 취득해도 좋다. 이러한 콘텍스트는, 인간이 수동으로 입력되어도 또는 네트워크를 통해 외부에서 입력되어도 좋다. 태양의 방향등의 시각적 변화를 생성하는 콘텍스트는, 카메라 화상으로부터 추정되어도 좋다.
예를 들면, 콘텍스트 특징 벡터로서 시간을 사용할 때의 효과를 설명한다. 시각에 따라서 촬영 환경이나 검출 대상물체의 외모가 변화되는 경우가 있다. 예를 들면, 검출 대상물체가 인물이면, 아침과 밤간에 조명 조건의 변화에 따라 음영이 다르기도 하거나, 인물의 복장이나 소지품이 변화되기도 한다. 이러한 경우, 배경이나 검출 대상물체의 화상특징은, 시각에 따라 변화한다고 생각된다. 시각에 따라서 화상특징의 이용 방법을 변화시킴으로써, 식별 성능의 향상이 기대된다.
콘텍스트 특징 벡터로서 시간에 관한 다른 특징이나 기상조건에 관한 다른 특징을 사용하는 경우도, 동일한 효과가 기대된다. 즉, 배경화상이나 검출 대상물체의 화상특징에, 콘텍스트에 대응한 변화가 생기므로, 콘텍스트에 따라서 화상특징의 이용 방법을 변화시키는 것으로 식별 성능의 향상이 기대된다.
또한, 시간이나 기상조건과 같은 콘텍스트는 검출 대상물체의 위치에 의존하지 않으므로, 카메라가 고정되어 있지 않은 씬에 있어서도 콘텍스트를 학습할 수 있다.
화상특징과 콘텍스트 특징간의 관련성을 얻기 위해서, 이것들의 동시 확률밀도분포를 고려해도 좋다. 약식별기 후보로서 식(13)을 채용한 경우, 식(13)의 P(y=+1|x), P(y=-1|x)은, 학습 샘플의 가중치로 가중된 화상특징과 콘텍스트 특징의 동시 확률밀도분포이어도 좋다. 보다 구체적으로는, 그 동시 확률밀도분포는 2차원 히스토그램W+ jk 및 W- jk로서 표현된다. 2차원 히스토그램W+ jk 및 W- jk는, 아래의 식(17)에 도시한 바와 같이, 변환 테이블J, K에 근거하여 특징량을 빈 번호로 변환하고, 그 빈에 대응하는 학습 샘플 가중치를 적산함으로써 산출된다:
Figure 112016102238355-pct00018
여기에서, j, k는 각각 2차원 히스토그램의 빈의 행번호와 열 번호이고, i는 샘플의 번호, ui는 화상특징 벡터 요소값, J는 화상특징의 값을 2차원 히스토그램의 빈의 행번호로 변환하기 위한 변환 테이블이고, ti는 시각, K는 시간을 2차원 히스토그램의 빈의 열번호로 변환하기 위한 변환 테이블이다.
약식별기 후보로서 식(13) 대신에 식(14)의 근사식을 채용해도 좋다. 이 경우에는, 화상특징과 콘텍스트 특징의 각각에 대하여, 학습 샘플로 가중된 확률밀도분포W+ j 및 W- j, P(c|y=+1) 및 P(c|y =-1)를 나타내는 1차원 히스토그램을 작성한다. 약식별기의 평가 스코어로서 식(17)의 z를 사용한다.
[제3 실시예]
상기 제1 실시예에서는, 콘텍스트 특징 벡터가 c=(y/h, 1/h)이다. 그러나, 단계S304에서는, 화상의 추출 프레임의 높이h, 폭w, 검출 프레임의 특정한 장소의 x, y좌표의 원하는 한쪽, 또는 이것들의 원하는 복수의 조합을 콘텍스트 특징 벡터로서 취득해도 좋다. 예를 들면, c=(x, y, y/h)다. 이것에 의해, 검출 대상물체가 출현하기 쉬운 영역과 거의 출현하지 않은 영역을 구별하는 효과를 생성한다. 예를 들면, 검출 대상물체가 인체이고, 씬중에 벽면이 존재하면, 벽면내에는 인체는 존재하지 않고, x, y좌표를 이용하여 인체가 존재할 수 있는 영역과 존재할 수 없는 영역을 구별할 수 있다.
이 경우, 단계S505에서 콘텍스트 특징 벡터를 식별하는 약식별기 후보를 생성하기 위해서, 식(9)의 P(c|y=+1), P(c|y=-1)로서, 콘텍스트 특징 벡터의 1개 혹은 복수의 요소의 조의 동시 확률밀도분포를 산출해도 좋다. 단계S508에서 화상특징 벡터와 콘텍스트 특징 벡터를 식별하는 약식별기 후보를 생성하기 위해서, 식(13)의 P(x|y=+1), P(x|y=-1)로서, 화상특징 벡터와 콘텍스트 특징 벡터의 동시 확률밀도분포를 산출해도 좋다. 이 동시 확률밀도분포를 산출할 때에는, 식(11)과 같이 원하는 모델에 적용하여서 최대 우도 추정을 행해도 된다. 또는, 투표나 커널 밀도추정으로 그 동시 확률밀도분포를 구해도 좋다.
[제4 실시예]
상기 제1 실시예에서는, 콘텍스트 특징 벡터가 c=(y/h, 1/h)다. 그러나, 단계S304에서는, 검출 대상영역을 포함하는 검출 대상영역 주변의 부분 화상의 화상특징 벡터를 콘텍스트 특징 벡터c로서 취득해도 좋다. 보다 구체적으로는, 도 9의 검출 대상영역(902) 주변의 사선으로 나타낸 영역(901)으로부터 화상특징 벡터r을 추출하고, 이것을 콘텍스트 특징 벡터c로서 설정한다. 즉, c=r이다. 콘텍스트 특징 벡터를 취득하기 위한 화상특징으로서, HOG, LBP, 화상의 휘도값, 제1 식별부의 출력값, 또는 다른 특징량을 이용해도 좋다. 이 경우, 식(9)로 나타내어진 것처럼, 콘텍스트 특징 벡터를 식별하는 약식별기는, 식(6)로 나타내어진 것처럼 화상특징 벡터를 식별하는 약식별기와 같은 형식을 가져도 좋다.
본 실시예의 효과를 설명한다. 일부의 경우에, 검출 대상물체의 출현 빈도와 배경화상은 특정한 관련성을 갖는다. 예를 들면, 발밑의 표면이 도로인 듯한 것을 나타내는 텍스처나 색을 갖는 위치에 인체가 출현하기 쉽다. 이러한 경우에는, 검출 대상영역을 포함하는 검출 대상영역 주변의 부분 화상을 학습함으로써, 배경화상을 학습할 수 있고, 검출 성능의 향상을 기대할 수 있다.
[제5 실시예]
상기 제1의 실시예에서는, 콘텍스트 특징 벡터는 c=(y/h, 1/h)이다. 그러나, 단계S304에서는, 동화상의 움직임 정보를 콘텍스트 특징 벡터로서 취득해도 좋다. 보다 구체적으로, 움직임 정보를 나타내는 특징 벡터를 m으로 하면, 콘텍스트 특징 벡터는 c=m이 된다. 움직임 정보로서, 검출 대상영역의 옵티컬 플로우를 사용해도 좋거나, 프레임간 차이 화상이나 배경 차이 화상을 사용해도 좋다. 물체의 궤적을 나타내는 좌표값을 움직임 정보로서 사용하여도 좋다.
콘텍스트 특징 벡터로서 움직임 정보를 사용하는 효과를 설명한다. 검출 대상물체가 이동 물체일 경우, 검출 대상물체와 배경간에는 움직임 정보가 다르다고 생각된다. 예를 들면, 움직임 정보가 옵티컬 플로우일 경우, 검출 대상물체와 배경간에는 옵티컬 플로우의 방향과 강도가 다른 것이 기대된다. 움직임 정보는 검출 대상물체와 배경을 분리하기 위한 유용한 특징이므로, 움직임 정보를 식별하는 약식별기를 생성하여서 식별 성능의 향상이 기대된다.
카메라 모션에 강건한 움직임 정보를 사용하면, 카메라가 고정되어 있지 않은 씬에 있어서도 콘텍스트를 학습 가능하다. 카메라 모션에 강건한 움직임 정보의 예는, 검출 대상영역의 옵티컬 플로우로부터 화상전체의 옵티컬 플로우의 평균을 감산하여서 얻어진 정보이다.
식(9)의 움직임 정보를 식별하는 약식별기로서, 식(6)의 화상특징을 식별하는 약식별기 등의, 특징선택에 의해 원하는 움직임 특징을 이용하는 약식별기를 생성해도 좋다. 식(13)의 화상특징과 움직임 정보를 식별하는 약식별기로서, 화상특징과 움직임 특징의 공기성(cooccurrence)을 고려한 약식별기를 생성해도 좋다.
[제6의 실시예]
상기 제1의 실시예에서는, 콘텍스트 특징 벡터가 c=(y/h, 1/h)이다. 그러나, 단계S304에서는, 환경에 설치된 센서에 의해 얻어진 수치 또는 속성 라벨을 콘텍스트 특징 벡터로서 취득해도 좋다. 보다 구체적으로는, 적외선 센서, 거리 센서, 온도 센서, 마이크로폰, 비가시광 카메라 화상, 바닥압력 센서, 또는 다른 센서를 사용해도 좋다. 또한, 측거 센서, 노출계, 또는 카메라에 내장된 다른 센서를 사용해도 좋다.
콘텍스트 특징 벡터로서, 환경에 설치된 센서에 의해 얻어진 정보를 사용했을 경우의 효과를 설명한다. 센서 정보의 변화에 따라서 변동하는 검출 대상물체의 출현 빈도를 고려할 수 있는 것이 기대되고, 식별 성능의 향상을 기대할 수 있다. 예를 들면, 에어리어 센서에 의한 검출 대상물체의 검지의 유/무에 따라, 씬중에 검출 대상물체가 존재하는 우도가 변경하는 사실을, 식별에 이용할 수 있다. 또한, 화상특징과 센서 정보를 조합하는 것으로, 센서 정보의 변화에 따른 촬영 환경이나 검출 대상물체의 외모의 변화를 고려한 식별이 가능해지고, 식별 성능의 향상을 기대할 수 있다. 예를 들면, 온도 센서로부터 얻어진 온도에 따라서 검출 대상물체의 (복장 등)의 외모가 변화된 경우, 온도에 따라서 화상특징의 이용 방법을 변화시킬 수 있고, 식별 성능의 향상이 기대된다.
[제7 실시예]
단계S304에서는, 씬의 혼잡 정도를 콘텍스트 특징 벡터로서 취득해도 좋다. 혼잡 정도는, 검출 대상물체가 인물이면, 씬중의 인물의 밀도, 인물간의 거리의 평균값, 또는 씬으로부터 취득한 화상의 화소들에 대한 동체에 속하는 화소들의 비율이어도 좋다.
씬의 혼잡 정도는, 검출 대상물체의 검출 결과로부터 추정되어도 좋고, 씬중의 동체 검지 결과로부터 추정되어도 좋거나, 수동으로 지정되어도 좋다. 또한, 씬의 혼잡 정도는, 씬에 설치한 센서로부터 취득되어도 좋다. 혼잡 정도는, 씬으로부터 취득한 화상 전체에서 균일한 정도로서 취득되어도 좋거나, 상기 위치에 따라 변화되는 정도로서 취득되어도 좋다.
콘텍스트 특징 벡터로서 씬의 혼잡 정도를 사용했을 경우의 효과를 설명한다. 화상특징과 혼잡 정도는 관련성이 있는 경우가 있다. 예를 들면, 검출 대상물체가 인물이면, 인물끼리 서로 겹칠 경우와 서로 겹치지 않을 경우간에는 식별에 유용한 화상특징이 다른 경우가 있다. 또한, 배경이 차폐되므로, 식별에 유용한 화상특징이 변화되기도 한다. 이 때문에, 혼잡 정도를 도입함으로써, 혼잡 정도에 따라서 화상특징의 이용 방법을 변화시킬 수 있고, 식별 성능의 향상이 기대된다.
[제8 실시예]
단계S304에서는, 콘텍스트 특징 벡터로서, 복수종류의 콘텍스트의 조합을 취득해도 좋다. 일례는, 검출 대상물체의 위치 정보와 시각의 조합이다.
단계S403에서는, 임의의 조합의 콘텍스트간의 공기성을 이용한 약식별기 후보를 생성해도 좋고, 복수종류의 콘텍스트마다 약식별기 후보를 생성해도 좋고, 혹은 이들 약식별기 후보 양쪽을 생성해도 좋다. 공기성을 이용한 약식별기로서, 상기 제2 실시예와 같이, 동시 확률밀도분포를 기초로 한 약식별기를 생성한다. 복수종류의 콘텍스트를 이용함으로써, 식별 방법들이 증가하고, 화상특징과 각 콘텍스트간의 관련성을 식별에 이용할 수 있고, 식별 성능의 향상을 기대할 수 있다.
[제9 실시예]
단계S304에서는, 환경에 설치된 장치의 가동 상황 혹은 조작 상황을 나타내는 수치 또는 속성 라벨을 콘텍스트 특징 벡터로서 취득해도 좋다. 예들은, 자동 도어 또는 수동 도어의 개/폐의 유/무, 개/폐 시간, 및 개/폐 이력이다. 그 밖의 예들은, 퍼스널 컴퓨터나 카피기 등의 오피스 기기, 공작 기기, 또는 다른 장치의 조작의 유/무나, 조작시간, 및 조작 이력이다. 환경에 설치된 장치의 가동 상황 혹은 조작 상황을 나타내는 수치 또는 속성 라벨은, 상기 장치에 부착된 센서로부터 취득되어도 좋거나, 카메라 화상으로부터 추정되어도 좋다.
환경에 설치된 장치의 가동 상황 혹은 조작 상황을 나타내는 수치 또는 속성 라벨을 콘텍스트 특징 벡터로서 사용하는 효과를 설명한다. 장치의 가동 상황이나 조작 상황과, 검출 대상물체의 출현 빈도나 출현 장소에 관련성이 있는 경우가 있다. 검출 대상이 인물이었을 경우를 예로 든다. 자동 도어 또는 수동 도어가 개/폐될 때, 일반적으로 도어를 통과하려고 하는 인물이 그 도어 부근에 존재한다고 생각된다. 상기 장치가 조작되었을 경우에는, 이 장치를 조작한 인물이 그 장치 부근에 존재한다고 생각된다. 이렇게, 장치의 가동 상황이나 조작 상황과, 검출 대상물체의 존재의 우도는 관련성이 있다. 이것들의 관련성을 학습함으로써, 식별 성능의 향상이 기대된다. 약식별기로서, 예를 들면, 장치의 가동 상황을 나타내는 속성 라벨과 검출 대상물체의 위치 정보의 동시 확률밀도분포를 기초로 한 약식별기를 생성해도 좋다.
[제10 실시예]
상기 제1 실시예에서는, 제1 식별부 및 제2 식별부는 약식별기의 집합으로서 식별기들을 구성한다. 비특허문헌3(Paul Viola and Michael Jones "Robust Real-time Object Detection", IJCV2001)과 같이, 스테이지들이라고 불리는 약식별기들의 집합을 복수개 직렬로 배치된 캐스케이드형태의 구성을 이용할 때, 검출 처리시에 일련의 약식별기의 평가를 도중에 종료시킬 수 있고, 검출 처리량의 삭감 효과가 얻어진 것이 알려져 있다.
제1 식별부를 제1스테이지로서 구성하고, 제2 식별부를 제2스테이지로서 구성하는 캐스케이드형태의 구성을 이용해도 좋다. 비특허문헌4(Lubomir Bourdev and Jonathan Brandt "Robust Object Detection Via Soft Cascade", CVPR2005)에 표시되는 것 같은 캐스케이드형태의 일종인 소프트 캐스케이드형태나 멀티 엑시트 캐스케이드형태의 구성을 이용하여도 좋다. 이 구성에서는, 제1 및 제2 식별부의 약식별기의 집합을 통합하고 나서 스테이지들로 분할한다. 각 스테이지 말단의 약식별기에 있어서, 캐스케이드형태의 식별기의 프레임워크에 따라, 약식별기의 우도의 적산 값에 근거하여 도중에 산출을 종료하고, 검출 처리 대상 화상의 부분 화상을 강제적으로 배경화상으로서 분류하는 기구를 배치하는 것도 가능하다.
[제11 실시예]
제1 식별부는 비특허문헌3과 같은 캐스케이드형태의 식별기로 구성되어도 좋다. 이 경우, 비특허문헌3에 기재된 것 같이, 스테이지마다 학습을 행한다. 보다 구체적으로는, 각 스테이지에 대응하는 제2 식별부를 준비하고, 제1 식별부내의 스테이지마다 도 3의 흐름도에 따른 처리를 행하여도 좋다. 캐스케이드형태의 식별기로 제1 식별부를 구성함으로써, 약식별기의 평가 횟수를 감소시킬 수 있고, 검출 처리량의 감소 효과가 기대된다.
[제12 실시예]
도 1에 나타낸 각각의 부는 전자회로등의 하드웨어로 구성되어도 좋지만, 소프트웨어(컴퓨터 프로그램)로 구성되어도 좋다. 이 경우, 이 소프트웨어를 실행가능한 장치는, 도 1에 나타낸 구성을 갖는 정보처리장치에 적용할 수 있다. 예를 들면, 도 2에 나타낸 것 같은 구성을 갖는 촬상 장치는, 도 1에 나타낸 구성을 갖는 정보처리장치에 적용할 수 있다.
도 2에 있어서 촬상 소자(201)는, CCD나 MOS등으로 구성된다. 촬상 소자(201)는, 외부의 광을 아날로그 전기신호로 변환하여 출력한다. 신호 처리부(202)는, 이 아날로그 전기신호를 디지털 전기신호로 변환하고, 그 디지털 전기신호를 입력 화상으로서 RAM(205)에 송출한다.
ROM(204)에는, 본 장치의 설정 데이터와 기동 프로그램, 도 1에 나타낸 각 부의 기능을 CPU(203)에 실행시키기 위한(상기한 흐름도에 따른 처리를 CPU(203)에 실행시키기 위한) 컴퓨터 프로그램과 데이터가 기억되어 있다. 또한, ROM(204)에는, 기지의 정보로서 상술한 각종의 정보도 기억되어 있다.
CPU(203)는 ROM(204)과 RAM(205)에 기억된 컴퓨터 프로그램들과 데이터를 사용해서 각종의 처리를 실행함으로써, 본 장치 전체의 동작을 제어한다. 또한, CPU(203)는, 본 장치를 적용한 정보처리장치가 행하는 것으로서 상술한 처리들을 실행한다. CPU(203)는, 신호 처리부(202)에 의해 RAM(205)에 기억된 입력 화상으로부터, 특정한 영역(화상으로부터 식별 대상물체를 인식해서 그 영역을 검출해도 좋거나, 유저가 (도시되지 않은) 조작부를 조작해서 지정해도 좋다)내의 화상을, 식별 대상 화상으로서 추출해도 좋다.
RAM(205)은, 신호 처리부(202)로부터 송출된 입력 화상 등을 일시적으로 기억하기 위한 에어리어나, CPU(203)가 각종의 처리를 실행할 때에 사용된 워크 에어리어 등을 가진다. 달리 말하면, RAM(205)은, 각종의 에어리어를 적절하게 제공할 수 있다.
디스플레이(206)는, 액정화면 등으로 형성되고, CPU(203)에 의한 처리 결과를 화상, 문자 등으로서 표시할 수 있다. 예를 들면, 디스플레이(206)는, 유저에 의한 영역지정 등의 여러 가지 지시 입력을 위한 화면과, 통합 식별부(108)에 의한 처리 결과를 표시한다. 도 1에 나타낸 각 부 중 일부를 전자회로 등의 하드웨어로 실현되어도 된다.
식별부(101)와 학습부(111)를 별개의 장치로서 취급할 경우, 각각의 장치에, 도 2에 나타낸 것 같은 촬상 장치와, 상기한 바와 같이 상기 소프트웨어를 실행가능한 장치를 적용해도 된다.
도 2의 구성으로부터 촬상 소자(201)와 신호 처리부(202)를 생략한 후 나머지의 구성을 갖는 장치(예를 들면, 일반적인 퍼스널 컴퓨터)를, 도 2의 촬상 장치 대신에 적용해도 된다.
그 밖의 실시예
또한, 본 발명의 실시예(들)는, 기억매체('기록매체'라고도 함)(보다 완전하게는 '비일시적 컴퓨터 판독 가능한 기억매체'라고도 함)에 레코딩된 컴퓨터 실행가능한 명령어들(예를 들면, 하나 이상의 프로그램)을 판독하고 실행하여 상술한 실시예(들)의 하나 이상의 기능을 수행하는 것 및/또는 상술한 실시예(들)의 하나 이상의 기능을 수행하기 위한 하나 이상의 회로(예를 들면, 주문형 반도체(ASIC))를 구비하는 것인, 시스템 또는 장치를 갖는 컴퓨터에 의해 실현되고, 또 예를 들면 상기 기억매체로부터 상기 컴퓨터 실행가능한 명령어를 판독하고 실행하여 상기 실시예(들)의 하나 이상의 기능을 수행하는 것 및/또는 상술한 실시예(들)의 하나 이상의 기능을 수행하는 상기 하나 이상의 회로를 제어하는 것에 의해 상기 시스템 또는 상기 장치를 갖는 상기 컴퓨터에 의해 행해지는 방법에 의해 실현될 수 있다. 상기 컴퓨터는, 하나 이상의 프로세서(예를 들면, 중앙처리장치(CPU), 마이크로처리장치(MPU))를 구비하여도 되고, 컴퓨터 실행 가능한 명령어를 판독하여 실행하기 위해 별개의 컴퓨터나 별개의 프로세서의 네트워크를 구비하여도 된다. 상기 컴퓨터 실행가능한 명령어를, 예를 들면 네트워크나 상기 기억매체로부터 상기 컴퓨터에 제공하여도 된다. 상기 기억매체는, 예를 들면, 하드 디스크, 랜덤액세스 메모리(RAM), 판독전용 메모리(ROM), 분산형 컴퓨팅 시스템의 스토리지, 광디스크(콤팩트 디스크(CD), 디지털 다기능 디스크(DVD) 또는 블루레이 디스크(BD)TM등), 플래시 메모리 소자, 메모리 카드 등 중 하나 이상을 구비하여도 된다.
본 발명을 실시예들을 참조하여 기재하였지만, 본 발명은 상기 개시된 실시예들에 한정되지 않는다는 것을 알 것이다. 아래의 청구항의 범위는, 모든 변형예, 동등한 구조 및 기능을 포함하도록 폭 넓게 해석해야 한다.
본 출원은, 여기서 전체적으로 참고로 포함된, 2014년 3월 27일에 출원된 일본국 특허출원번호 2014-066802의 이점을 청구한다.

Claims (9)

  1. 입력된 화상으로부터 특징량을 취득하는 부;
    상기 화상에 관한 콘텍스트를 나타내는 콘텍스트 정보를 취득하는 부;
    상기 특징량으로부터, 상기 화상이 특정한 물체의 화상인 우도를 나타내는 제1 우도를 구하는 제1 식별부;
    상기 콘텍스트 정보로부터, 상기 화상이 상기 특정한 물체의 화상인 우도를 나타내는 제2 우도를 구하는 제2 식별부; 및
    상기 제1 우도와 상기 제2 우도를 사용하여서, 상기 화상이 상기 특정한 물체의 화상인가 아닌가를 식별하는 부를 구비하고,
    상기 제2 식별부는, 상기 제1 우도와 상기 콘텍스트 정보를 사용하여 학습한 식별기를 포함하는, 정보처리장치.
  2. 제 1 항에 있어서,
    상기 제2 식별부의 식별기는, 상기 제1 우도와 상기 콘텍스트 정보를 사용하여 생성된 식별기의 후보들로부터 선택된 식별기를 포함하는, 정보처리장치.
  3. 제 2 항에 있어서,
    상기 제2 식별부의 식별기는, 상기 특징량과 상기 콘텍스트 정보를 연결하여 얻어진 샘플에 대하여 상기 제1 우도에 근거해서 설정한 가중치를 더 사용하여 생성된 식별기의 후보들로부터 선택된 식별기를 포함하는, 정보처리장치.
  4. 제 1 항에 있어서,
    상기 콘텍스트 정보는, 상기 화상을 추출한 원 화상에 있어서의 해당 화상의 위치와 크기를 포함하는, 정보처리장치.
  5. 제 1 항에 있어서,
    상기 제1 우도와 상기 콘텍스트 정보를 사용하여서, 상기 제2 식별부를 학습하는 학습부를 더 구비하는, 정보처리장치.
  6. 제 5 항에 있어서,
    상기 학습부는,
    상기 제1 우도와 상기 콘텍스트 정보를 사용하여서 식별기의 후보들을 생성하는 부; 및
    상기 식별기의 후보들로부터 1개 이상의 후보를, 해당 식별기의 후보들의 각각에 대해서 구한 평가 스코어에 근거해서 선택하고, 해당 선택한 후보에 의해 상기 제2 식별부를 구성하는 부를 구비하는, 정보처리장치.
  7. 정보처리장치가 행하는 정보처리방법으로서,
    상기 정보처리장치의 특징량을 취득하는 부가, 입력된 화상으로부터 특징량을 취득하는 단계;
    상기 정보처리장치의 콘텍스트 정보를 취득하는 부가, 상기 화상에 관한 콘텍스트를 나타내는 콘텍스트 정보를 취득하는 단계;
    상기 정보처리장치의 제1 식별부가, 상기 특징량으로부터, 상기 화상이 특정한 물체의 화상인 우도를 나타내는 제1 우도를 구하는 단계;
    상기 정보처리장치의 제2 식별부가, 상기 콘텍스트 정보로부터, 상기 화상이 특정한 물체의 화상인 우도를 나타내는 제2 우도를 구하는 단계; 및
    상기 정보처리장치의 식별부가, 상기 제1 우도와 상기 제2 우도를 사용하여서, 상기 화상이 특정한 물체의 화상인가 아닌가를 식별하는 단계를 포함하고,
    상기 제2 식별부는, 상기 제1 우도와 상기 콘텍스트 정보를 사용하여 학습한 식별기를 포함하는, 정보처리방법.
  8. 제 7 항에 있어서,
    상기 정보처리장치의 학습부가, 상기 제1 우도와 상기 콘텍스트 정보를 사용하여서, 상기 제 2 식별부를 학습하는 단계를 더 포함하는, 정보처리방법.
  9. 컴퓨터를,
    입력된 화상으로부터 특징량을 취득하는 부;
    상기 화상에 관한 콘텍스트를 나타내는 콘텍스트 정보를 취득하는 부;
    상기 특징량으로부터, 상기 화상이 특정한 물체의 화상인 우도를 나타내는 제1 우도를 구하는 제1 식별부;
    상기 콘텍스트 정보로부터, 상기 화상이 상기 특정한 물체의 화상인 우도를 나타내는 제2 우도를 구하는 제2 식별부; 및
    상기 제1 우도와 상기 제2 우도를 사용하여서, 상기 화상이 상기 특정한 물체의 화상인가 아닌가를 식별하는 부로서 기능시키되, 상기 제2 식별부가, 상기 제1 우도와 상기 콘텍스트 정보를 사용하여 학습한 식별기를 포함하기 위한, 컴퓨터 프로그램을 기억하는 컴퓨터 판독 가능한 기록매체.
KR1020167029372A 2014-03-27 2015-03-24 정보처리장치 및 정보처리방법 KR101964397B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JPJP-P-2014-066802 2014-03-27
JP2014066802A JP6320112B2 (ja) 2014-03-27 2014-03-27 情報処理装置、情報処理方法
PCT/JP2015/059828 WO2015147317A1 (en) 2014-03-27 2015-03-24 Information processing apparatus and information processing method

Publications (2)

Publication Number Publication Date
KR20160136391A KR20160136391A (ko) 2016-11-29
KR101964397B1 true KR101964397B1 (ko) 2019-04-01

Family

ID=54195819

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167029372A KR101964397B1 (ko) 2014-03-27 2015-03-24 정보처리장치 및 정보처리방법

Country Status (6)

Country Link
US (1) US10255517B2 (ko)
EP (1) EP3092619B1 (ko)
JP (1) JP6320112B2 (ko)
KR (1) KR101964397B1 (ko)
CN (1) CN106164980B (ko)
WO (1) WO2015147317A1 (ko)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017221412A1 (ja) * 2016-06-24 2017-12-28 オリンパス株式会社 画像処理装置、学習装置、画像処理方法、識別基準の作成方法、学習方法およびプログラム
JP6828333B2 (ja) * 2016-09-13 2021-02-10 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP6418211B2 (ja) * 2016-09-15 2018-11-07 オムロン株式会社 識別情報付与システム、識別情報付与装置、識別情報付与方法及びプログラム
JP6912890B2 (ja) * 2017-01-13 2021-08-04 キヤノン株式会社 情報処理装置、情報処理方法、システム
JP7058941B2 (ja) * 2017-01-16 2022-04-25 キヤノン株式会社 辞書生成装置、辞書生成方法、及びプログラム
KR102572811B1 (ko) * 2017-02-09 2023-09-07 랭 오록 오스트레일리아 피티와이 엘티디 정의된 객체를 식별하기 위한 시스템
JP6438549B1 (ja) * 2017-08-24 2018-12-12 日本分光株式会社 機械学習を用いた未知化合物の分類方法
JP6930389B2 (ja) * 2017-11-16 2021-09-01 日本電信電話株式会社 画像収集装置、プログラム、及び方法
CN110163033B (zh) 2018-02-13 2022-04-22 京东方科技集团股份有限公司 正样本获取方法、行人检测模型生成方法和行人检测方法
CN110197190B (zh) * 2018-02-27 2022-11-01 北京猎户星空科技有限公司 模型训练和物体的定位方法及装置
US11163862B2 (en) * 2018-05-16 2021-11-02 International Business Machines Corporation Authentication of users based on snapshots thereof taken in corresponding acquisition conditions
JP7056401B2 (ja) * 2018-06-18 2022-04-19 日本製鉄株式会社 連続鋳造用モールド内のボイル検出方法、連続鋳造鋳片の品質判定方法、連続鋳造設備の監視方法、連続鋳造用モールド内のボイル検出装置
US10706499B2 (en) * 2018-06-21 2020-07-07 Canon Kabushiki Kaisha Image processing using an artificial neural network
JP6976910B2 (ja) * 2018-07-04 2021-12-08 株式会社日立製作所 データ分類システム、データ分類方法、および、データ分類装置
JP7222519B2 (ja) * 2018-09-10 2023-02-15 公立大学法人岩手県立大学 オブジェクト識別システム、モデル学習システム、オブジェクト識別方法、モデル学習方法、プログラム
JP6695947B2 (ja) * 2018-09-21 2020-05-20 ソニーセミコンダクタソリューションズ株式会社 固体撮像システム、画像処理方法及びプログラム
US11080867B2 (en) * 2019-01-03 2021-08-03 United States Of America As Represented By The Secretary Of The Army Motion-constrained, multiple-hypothesis, target- tracking technique
JP6756961B1 (ja) * 2019-03-29 2020-09-16 Arithmer株式会社 作業支援装置、作業支援方法、プログラム、及び対象物検知モデル。
JP6508797B1 (ja) * 2019-01-17 2019-05-08 Arithmer株式会社 作業支援装置、作業支援方法、プログラム、及び対象物検知モデル。
WO2020149242A1 (ja) * 2019-01-17 2020-07-23 Arithmer株式会社 作業支援装置、作業支援方法、プログラム、及び対象物検知モデル。
JP7234718B2 (ja) * 2019-03-18 2023-03-08 富士フイルムビジネスイノベーション株式会社 情報処理装置、情報処理システム及びプログラム
JP7144384B2 (ja) * 2019-09-25 2022-09-29 Kddi株式会社 オブジェクト検出装置、方法及びプログラム
WO2021060684A1 (ko) * 2019-09-29 2021-04-01 주식회사 작당모의 머신 러닝을 이용한 영상 내 객체 인식 방법 및 장치
JP7028299B2 (ja) * 2020-10-07 2022-03-02 三菱電機株式会社 目標識別装置
US11687620B2 (en) 2020-12-17 2023-06-27 International Business Machines Corporation Artificial intelligence generated synthetic image data for use with machine language models
WO2022254858A1 (ja) * 2021-06-03 2022-12-08 コニカミノルタ株式会社 検査装置、検査方法、および検査プログラム
WO2023082788A1 (zh) * 2021-11-11 2023-05-19 新智我来网络科技有限公司 烟气含氧量负荷预测方法、预测模型选择方法、烟气排放预测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070160294A1 (en) 2005-12-15 2007-07-12 Yasuharu Asano Image processing apparatus, method, and program
JP2011124681A (ja) * 2009-12-09 2011-06-23 Nippon Telegr & Teleph Corp <Ntt> 映像編集装置,映像編集方法および映像編集プログラム
WO2012176317A1 (ja) 2011-06-23 2012-12-27 サイバーアイ・エンタテインメント株式会社 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315670B (zh) 2007-06-01 2010-08-11 清华大学 特定被摄体检测装置及其学习装置和学习方法
JP5096211B2 (ja) * 2008-03-31 2012-12-12 富士フイルム株式会社 確率分布構築方法、確率分布構築装置、および確率分布構築プログラム、並びに被写体検出方法、被写体検出装置、および被写体検出プログラム
US8107726B2 (en) * 2008-06-18 2012-01-31 Samsung Electronics Co., Ltd. System and method for class-specific object segmentation of image data
JP5261312B2 (ja) * 2009-07-30 2013-08-14 富士フイルム株式会社 画像解析装置、画像解析方法およびプログラム
US8565482B2 (en) 2011-02-28 2013-10-22 Seiko Epson Corporation Local difference pattern based local background modeling for object detection
JP5769488B2 (ja) * 2011-04-27 2015-08-26 キヤノン株式会社 認識装置、認識方法及びプログラム
EP2518661A3 (en) * 2011-04-29 2015-02-11 Tata Consultancy Services Limited System and method for human detection and counting using background modeling, hog and haar features
US9367733B2 (en) * 2012-11-21 2016-06-14 Pelco, Inc. Method and apparatus for detecting people by a surveillance system
JP6482195B2 (ja) 2014-07-02 2019-03-13 キヤノン株式会社 画像認識装置、画像認識方法及びプログラム
JP6525635B2 (ja) 2015-02-25 2019-06-05 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070160294A1 (en) 2005-12-15 2007-07-12 Yasuharu Asano Image processing apparatus, method, and program
JP2011124681A (ja) * 2009-12-09 2011-06-23 Nippon Telegr & Teleph Corp <Ntt> 映像編集装置,映像編集方法および映像編集プログラム
WO2012176317A1 (ja) 2011-06-23 2012-12-27 サイバーアイ・エンタテインメント株式会社 画像認識システムを組込んだ関連性検索によるインタレスト・グラフ収集システム

Also Published As

Publication number Publication date
JP2015191334A (ja) 2015-11-02
US20170017859A1 (en) 2017-01-19
KR20160136391A (ko) 2016-11-29
WO2015147317A1 (en) 2015-10-01
US10255517B2 (en) 2019-04-09
EP3092619A1 (en) 2016-11-16
EP3092619A4 (en) 2017-09-20
JP6320112B2 (ja) 2018-05-09
CN106164980B (zh) 2020-06-30
CN106164980A (zh) 2016-11-23
EP3092619B1 (en) 2023-05-10

Similar Documents

Publication Publication Date Title
KR101964397B1 (ko) 정보처리장치 및 정보처리방법
US11657525B2 (en) Extracting information from images
US8737740B2 (en) Information processing apparatus, information processing method, and non-transitory computer-readable storage medium
CN110298297B (zh) 火焰识别方法和装置
Liu et al. Foreground object detection using top-down information based on EM framework
JP5010905B2 (ja) 顔認証装置
US8374440B2 (en) Image processing method and apparatus
CN109154978A (zh) 用于检测植物疾病的系统和方法
US9462160B2 (en) Color correction device, method, and program
JP6351240B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2016015045A (ja) 画像認識装置、画像認識方法及びプログラム
TW200910223A (en) Image processing apparatus and image processing method
JP6351243B2 (ja) 画像処理装置、画像処理方法
CN110929593A (zh) 一种基于细节辨别区别的实时显著性行人检测方法
Noriega et al. Real Time Illumination Invariant Background Subtraction Using Local Kernel Histograms.
JP6448212B2 (ja) 認識装置及び認識方法
US20220366570A1 (en) Object tracking device and object tracking method
CN107886060A (zh) 基于视频的行人自动检测与跟踪方法
JP2014203133A (ja) 画像処理装置、画像処理方法
JP4061405B2 (ja) 顔画像分類登録装置
Chang et al. Single-shot person re-identification based on improved random-walk pedestrian segmentation
JP6851246B2 (ja) 物体検出装置
Chen et al. Robust pedestrian detection and tracking with shadow removal in indoor environments
Tatarenkov et al. Feature extraction from a depth map for human detection
Luo et al. Intelligent tuna recognition for fisheries monitoring

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant