KR20200020009A - 화상 처리 장치 및 화상 처리 방법 - Google Patents

화상 처리 장치 및 화상 처리 방법 Download PDF

Info

Publication number
KR20200020009A
KR20200020009A KR1020207004231A KR20207004231A KR20200020009A KR 20200020009 A KR20200020009 A KR 20200020009A KR 1020207004231 A KR1020207004231 A KR 1020207004231A KR 20207004231 A KR20207004231 A KR 20207004231A KR 20200020009 A KR20200020009 A KR 20200020009A
Authority
KR
South Korea
Prior art keywords
unit
image data
feature
image
descriptor
Prior art date
Application number
KR1020207004231A
Other languages
English (en)
Other versions
KR102150847B1 (ko
Inventor
요시미 모리야
나오히로 시부야
가즈오 스기모토
Original Assignee
미쓰비시덴키 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 미쓰비시덴키 가부시키가이샤 filed Critical 미쓰비시덴키 가부시키가이샤
Publication of KR20200020009A publication Critical patent/KR20200020009A/ko
Application granted granted Critical
Publication of KR102150847B1 publication Critical patent/KR102150847B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Abstract

화상 데이터에 나타나는 오브젝트를 검출하는 오브젝트 검출부(103a)와, 검출된 오브젝트를 시간 방향으로 추적하는 오브젝트 추적부(103b)와, 오브젝트의 검출 결과와 추적 결과에 기초해서, 오브젝트의 특징 기술자를 생성하는 기술자 생성부(104)와, 생성된 특징 기술자와, 당해 특징 기술자에 대응한 오브젝트의 화상 데이터로부터 데이터베이스를 구성하는 데이터 기록 제어부(105)와, 데이터베이스로부터 검색 조건에 합치하는 오브젝트로서, 각각 상이한 영역을 촬상한 화상 데이터에 나타나는 오브젝트의 세트를 구성하는 오브젝트를 검색하는 화상 검색부(108a)와, 검색된 오브젝트의 화상 데이터 및 특징 기술자로부터, 대조에 이용하는 특징량을 추출하는 특징 추출부(108b)와, 추출된 특징량의 대조를 행하고, 오브젝트의 세트를 구성하는 오브젝트가 동일한지 여부의 판정을 행하는 판정부(108c)를 구비한다.

Description

화상 처리 장치 및 화상 처리 방법
이 발명은, 복수의 카메라로 촬영된 오브젝트가 동일한 오브젝트인지 해석을 행하는 화상 처리 기술에 관한 것이다.
복수의 카메라에 걸쳐 촬영된 오브젝트가, 동일한 오브젝트인지 여부를 추정하는 종래의 방법이, 예를 들면 비특허문헌 1 및 비특허문헌 2에 개시되어 있다.
비특허문헌 1에서는, 인물 화상을 포함하는 직사각형 영역을 서브 윈도우로 분할하고, 분할한 서브 윈도우마다 색의 히스토그램과 텍스처의 히스토그램을 특징량으로서 생성한다. 또, 동일 인물인지 여부의 라벨이 부여되어 있는 학습용의 인물 화상을 모은 데이터 세트를 준비하고, 학습용의 인물 화상으로부터 전술한 특징량의 벡터를 생성하고, 거리 학습을 행한다. 거리 학습에서는, 동일한 인물 화상의 페어의 특징량의 벡터의 거리가 작아지도록 가중 파라미터(weight parameter)의 학습을 행하고, 동일하지 않은 인물 화상의 페어의 특징량의 벡터의 거리는 커지도록 가중 파라미터의 학습을 행하고 있다.
비특허문헌 2에서는, 인물 화상으로부터 뉴럴 네트워크(neural network)를 이용해서 특징 추출을 행하고, 뉴럴 네트워크가 생성한 특징량의 벡터를 사용해서, 인물 화상의 페어가 동일 인물인지 여부를 판정하고 있다.
전술한 비특허문헌 1 또는 비특허문헌 2에 개시된 종래의 방법에서는, 정지 화면의 인물 화상의 페어를 비교하는 것에 의해, 동일 인물인지를 판정하고 있다. 한편, 실제의 환경하에서는, 예를 들면 감시 카메라로 촬영된 동화상(動畵像)으로부터 인물 화상의 시퀀스를 특정하고, 특정된 인물 화상의 시퀀스와, 다른 감시 카메라로 촬영된 동화상의 인물 화상의 시퀀스와 비교하고, 동일 인물인지 판정을 행할 필요가 있다. 동화상으로부터 동일한 오브제트인지를 추정하는 종래의 방법이, 예를 들면 비특허문헌 3에 개시되어 있다.
비특허문헌 3에서는, 시퀀스 내 인물 화상의 색과 텍스처의 히스토그램을 특징량으로서 생성하고, 생성한 특징량을 시퀀스 내에서 평균화하고, 인물 화상의 시퀀스의 특징량으로 하고 있다. 특징량을 시퀀스 내에서 평균화하는 것에 의해, 배경 또는 오클루전(occlusion)에 의한 특징량의 변화를 무시하여, 강건한(robust) 인물 화상의 특징량을 생성하고 있다.
S. Liao, Y. Hu, X. Zhu, S. Z. Li, "Person re-identification by local maximal occurrence representation and metric learning", In Computer Vision and Pattern Recognition(CVPR), 2015. E. Ahmed, M. Jones, T.K. Marks, "An improved deep learning architecture for person re-identification," In Computer Vision and Pattern Recognition(CVPR), 2015. J. You, A. Wu, X. Li, and W.-S. Zheng, "Top-push video-based person re-identification," in Computer Vision and Pattern Recognition(CVPR), 2016.
복수의 카메라에 걸쳐 촬영되는 경우, 동일 인물을 촬영하고 있었다고 해도, 예를 들면 가방을 드는 방법이 도중에 변화하거나, 또는 카메라의 설치 위치와 인물의 이동의 방향에 따라서, 카메라에 인물의 소지품 등이 비치고 있는 경우와 비치지 있지 않은 경우가 존재한다. 이 경우, 상기 비특허문헌 3에 개시된 기술에서는, 각 인물 화상으로부터 취득되는 특징량을 시퀀스 내에서 평균화한 경우, 배경 또는 오클루전에 의한 특징량의 변화를 무시할 수 있는 한편, 동일 인물인지를 판정하기 위해서 유효한 특징량을 무시해 버리는 경우가 있다는 과제가 있었다.
이 발명은, 상기와 같은 과제를 해결하기 위해서 이루어진 것으로, 배경 또는 오클루전에 의한 특징량의 변화에 대해서 강건하게, 복수의 카메라로 촬영된 화상간에 동일 오브젝트인지 여부를 판정하는 것을 목적으로 한다.
이 발명에 따른 화상 처리 장치는, 화상 데이터를 해석해서 당해 화상 데이터에 나타나는 오브젝트를 검출하는 오브젝트 검출부와, 오브젝트 검출부가 검출한 오브젝트를 시간 방향으로 추적하는 오브젝트 추적부와, 오브젝트 검출부의 검출 결과와, 오브젝트 추적부의 추적 결과에 기초해서, 오브젝트의 특징 기술자(descriptor)를 생성하는 기술자 생성부와, 기술자 생성부가 생성한 특징 기술자와, 당해 특징 기술자에 대응한 오브젝트의 화상 데이터로부터 데이터베이스를 구성하는 데이터 기록 제어부와, 데이터 기록 제어부가 구성한 데이터베이스로부터, 설정된 검색 조건에 합치하는 오브젝트로서, 각각 상이한 영역을 촬상한 화상 데이터에 나타나는 오브젝트의 세트를 구성하는 오브젝트를 검색하는 화상 검색부와, 화상 검색부가 검색한 오브젝트의 화상 데이터 및 특징 기술자로부터, 대조(照合)에 이용하는 특징량을 추출하는 특징 추출부와, 특징 추출부가 추출한 특징량의 대조를 행하고, 오브젝트의 세트를 구성하는 오브젝트가 동일한지 여부의 판정을 행하는 판정부를 구비하는 것이다.
이 발명에 의하면, 배경 또는 오클루전에 의한 특징량의 변화에 대해서 강건하게, 복수의 카메라로 촬영된 화상간에, 동일 오브젝트인지 판정할 수 있다.
도 1은, 실시형태 1에 따른 화상 처리 장치의 구성을 나타내는 블럭도이다.
도 2는, 실시형태 1에 따른 화상 처리 장치의 화상 인식 결과의 일례를 나타내는 도면이다.
도 3(a), 도 3(b)는, 실시형태 1에 따른 화상 처리 장치의 하드웨어 구성예를 나타내는 도면이다.
도 4는, 실시형태 1에 따른 화상 처리 장치의 화상 인식 처리의 동작을 나타내는 플로 차트이다.
도 5는, 실시형태 1에 따른 화상 처리 장치의 화상 대조 처리의 동작을 나타내는 플로 차트이다.
도 6(a), 도 6(b)는, 실시형태 1에 따른 화상 처리 장치의 대조 처리에 있어서, 오브젝트로서 추적된 인물의 화상 데이터예를 나타내는 도면이다.
이하, 이 발명을 보다 상세하게 설명하기 위해서, 이 발명을 실시하기 위한 형태에 대해서, 첨부된 도면에 따라서 설명한다.
실시형태 1.
도 1은, 실시형태 1에 따른 화상 처리 장치(100)를 구비한 화상 처리 시스템의 구성을 나타내는 블럭도이다.
도 1에 나타내는 바와 같이, 화상 처리 시스템은, n대(n은 1 이상의 정수)의 네트워크 카메라(NC1, NC2,…, NCn)와, 이들 네트워크 카메라(NC1, NC2,…, NCn)의 각각으로부터 배신(配信)된 정지 화상 데이터 또는 동화상 스트림을, 통신 네트워크(NW)를 통해서 수신하는 화상 처리 장치(100)로 구성된다. 화상 처리 장치(100)는, 네트워크 카메라(NC1, NC2,…, NCn)로부터 수신한 정지 화상 데이터 또는 동화상 데이터(이하, 대체로 화상 데이터라고 기재함)에 대해서 화상 해석을 행한다. 화상 처리 장치(100)는, 화상 해석의 결과를 나타내는 공간적, 지리적 또는 시간적 기술자를, 화상과 관련지어서 축적한다.
통신 네트워크(NW)로서는, 예를 들면, 유선 LAN(Local Area Network), 무선 LAN 등의 구내 통신망, 거점간을 연결하는 전용 회선망, 또는 인터넷 등의 광역 통신망을 들 수 있다.
네트워크 카메라(NC1, NC2,…, NCn)는 모두 동일 구성을 갖고 있다. 각 네트워크 카메라(NC)는, 피사체를 촬상하는 촬상부(도시하지 않음)와, 촬상부의 출력을 통신 네트워크(NW) 상의 화상 처리 장치(100)를 향해 송신하는 송신부(도시하지 않음)로 구성된다. 촬상부는, 피사체의 광학상을 형성하는 촬상 광학계와, 형성된 광학상을 전기 신호로 변환하는 고체 촬상 소자와, 변환된 전기 신호를 정지 화상 데이터 또는 동화상 데이터로서 압축 부호화하는 엔코더 회로를 갖고 있다. 고체 촬상 소자로서는, 예를 들면, CCD(Charge-Coupled Device) 또는 CMOS(Complementary Metal-oxide Semiconductor) 소자를 사용하면 된다.
네트워크 카메라(NC1, NC2,…, NCn)의 각각은, 고체 촬상 소자의 출력을 동화상 데이터로서 압축 부호화하는 경우에는, 예를 들면, MPEG-2 TS(Moving Picture Experts Group 2 Transport Stream), RTP/RTSP(Real-time Transport Protocol/Real Time Streaming Protocol), MMT(MPEG Media Transport) 또는 DASH(Dynamic Adaptive Streaming over HTTP)의 스트리밍 방식에 따라, 압축 부호화된 동화상 스트림을 생성한다. 한편, 본 실시형태에서 사용되는 스트리밍 방식은, MPEG-2 TS, RTP/RTSP, MMT 또는 DASH로 한정되는 것은 아니다. 단, 어느 스트리밍 방식에서도, 동화상 스트림에 포함되는 동화상 데이터를 화상 처리 장치(100)로 고유하게 분리할 수 있는 식별자 정보가, 당해 동화상 스트림 내에 다중화되어 있는 것으로 한다.
도 1에 나타내는 바와 같이, 화상 처리 장치(100)는, 수신부(101), 복호부(102), 화상 인식부(103), 기술자 생성부(104), 데이터 기록 제어부(105), 스토리지(106), 인터페이스부(107) 및 화상 대조부(108)를 구비한다.
수신부(101)는, 네트워크 카메라(NC1, NC2,…, NCn)로부터 배신 데이터를 수신하고, 수신한 배신 데이터로부터 화상 데이터를 분리한다. 여기에서, 화상 데이터에는, 정지 화상 데이터 또는 동화상 스트림이 포함된다. 수신부(101)는, 분리한 화상 데이터를 복호부(102)에 출력한다.
복호부(102)는, 수신부(101)로부터 입력된, 압축 부호화된 화상 데이터를, 네트워크 카메라(NC1, NC2,…, NCn)에서 사용된 압축 부호화 방식에 따라서 복호한다. 복호부(102)는, 복호한 화상 데이터를 화상 인식부(103)에 출력한다.
화상 인식부(103)는, 복호부(102)로부터 입력된 화상 데이터에 대해서 화상 인식 처리를 행한다. 화상 인식부(103)는, 오브젝트 검출부(103a) 및 오브젝트 추적부(103b)를 구비한다.
오브젝트 검출부(103a)는, 복호부(102)로부터 입력된 시간적으로 연속한 복수의 화상 데이터를 해석해서, 당해 화상 데이터에 나타나는 오브젝트를 검출한다. 오브젝트 검출부(103a)는, 검출된 오브젝트의 수, 각 오브젝트의 시각적 특징량, 각 오브젝트의 위치 정보, 및 각 오브젝트의 촬영 시각 등을 취득하고, 오브젝트의 검출 결과로서 오브젝트 추적부(103b) 및 기술자 생성부(104)에 출력한다. 여기에서, 오브젝트의 시각적 특징량이란, 오브젝트의 색, 오브젝트의 텍스처, 오브젝트의 형상, 오브젝트의 움직임 및 오브젝트 내의 얼굴 등의 특징량이다. 오브젝트 검출부(103a)는, 오브젝트 추적부(103b)에 대해서 화상 데이터도 아울러 출력한다.
도 2는, 실시형태 1에 따른 화상 처리 장치(100)의 화상 인식 처리의 화상 인식 결과의 일례를 나타내는 도면이다. 도 2에서는, 화상 처리 장치(100)가, 영역(Xa) 및 영역(Xb)을 촬상하는 2개의 네트워크 카메라(NC1, NC2)로부터 배신 데이터를 수신한 경우를 나타내고 있다. 또한, 도 2는, 배신 데이터간에, 오브젝트(A)로 표시된 인물, 오브젝트(B)로 표시된 인물, 및 오브젝트(C)로 표시된 인물의 3명 인물의 움직임을 추적한 결과를 나타내고 있다.
오브젝트 검출부(103a)는, 복호된 네트워크 카메라(NC1)의 화상 데이터로부터, 오브젝트(A1a)를 검출한다. 오브젝트 검출부(103a)는 네트워크 카메라(NC1)의 다음 화상 데이터로부터 오브젝트(A1b)를 검출한다. 계속해서, 오브젝트 검출부(103a)는 네트워크 카메라(NC1)의 다음 화상 데이터로부터 오브젝트(A1c)를 검출한다. 오브젝트 검출부(103a)는, 전술한 검출 처리를 연속해서 행하고, 오브젝트(A1a) 내지 오브젝트(A1g)를 검출한다.
마찬가지로, 오브젝트 검출부(103a)는, 복호된 네트워크 카메라(NC2)의 각 화상 데이터로부터, 오브젝트(A2a) 내지 오브젝트(A2c), 오브젝트(Ba) 내지 오브젝트(Bg) 및 오브젝트(Ca) 내지 오브젝트(Ce)를 검출한다. 오브젝트 검출부(103a)는, 검출한 모든 오브젝트(A1a∼A1g, A2a∼A2c, Ba∼Bg, Ca∼Ce)의 시각적 특징량, 위치 정보 및 촬영 시각 등을 취득한다.
오브젝트 추적부(103b)는, 오브젝트 검출부(103a)로부터 입력된 오브젝트의 검출 결과를 참조하고, 검출된 오브젝트를 시간 방향으로 추적한다. 오브젝트 추적부(103b)는, 오브젝트의 시간 방향으로의 추적을 행하는 경우, 오브젝트 검출부(103a)로 검출된 오브젝트의 검출 결과를, 1개의 화상 데이터 내, 및 시간적으로 연속하는 복수의 화상 데이터간에 비교해서 추적을 행한다. 오브젝트 추적부(103b)는, 오브젝트의 추적 결과인 오브젝트의 움직임 정보(옵티컬 플로)를 기술자 생성부(104)에 출력한다. 예를 들면, 추적 대상의 오브젝트가 인물인 경우, 1대의 네트워크 카메라로 촬영된 동일 인물을 추적한다.
도 2에 추적 대상의 오브젝트가 인물인 경우의 구체예를 나타내고 있다.
도 2의 경우, 오브젝트 추적부(103b)는, 영역(Xa)을 촬상한 화상 데이터간에, 동일한 특징을 갖는 오브젝트(A1)(A1a∼A1g)를 추적한다. 마찬가지로, 오브젝트 추적부(103b)는, 영역(Xb)을 촬상한 화상 데이터간에, 동일한 특징을 갖는 오브젝트(A2)(A2a∼A2c), 오브젝트(B)(Ba∼Bg) 및 오브젝트(C)(Ca∼Ce)를 추적한다.
오브젝트 추적부(103b)는, 오브젝트(A1, A2, B, C)의 움직임 정보로서, 예를 들면 오브젝트(A1)가 영역(Xa)을 촬상한 화상 데이터 내에 출현하고 있던 시간, 오브젝트(A2, B, C)가 영역(Xb)을 촬상한 화상 데이터 내에 출현하고 있던 시간, 오브젝트(A1, A2, B, C)의 움직임을 나타내는 정보를 기술자 생성부(104)에 출력한다.
기술자 생성부(104)는, 오브젝트 검출부(103a)로부터 입력된 오브젝트의 검출 결과, 및 오브젝트 추적부(103b)로부터 입력된 오브젝트의 움직임 정보에 기초해서, 공간적인 기술자, 지리적인 기술자, 시간적인 기술자 또는 이들의 조합을 나타내는 기술자를 생성한다.
구체적으로는, 기술자 생성부(104)는, 소정의 포맷에 따라서, 오브젝트의 검출 결과 및 오브젝트의 추적 결과를, 특징 기술자로 변환한다. 특징 기술자에는, 오브젝트 검출부(103a)에서 검출된 오브젝트의 수, 각 오브젝트의 시각적 특징량, 각 오브젝트의 위치 정보, 및 각 오브젝트의 촬영 시각 등이 포함된다. 또한, 특징 기술자에는, 시간 방향으로 추적된 동일한 오브젝트인 것을 나타내는 식별자가 포함된다.
데이터 기록 제어부(105)는, 복호부(102)로부터 입력된 복호된 화상 데이터와, 기술자 생성부(104)로부터 입력된 특징 기술자로부터 데이터베이스를 구성한다. 데이터 기록 제어부(105)는, 구성한 데이터베이스를 스토리지(106)에 저장하는 제어를 행한다. 데이터 기록 제어부(105)는, 화상 데이터와 특징 기술자를, 쌍방향으로 고속으로 액세스할 수 있는 형식으로, 스토리지(106)에 저장하는 것이 바람직하다. 또한, 데이터 기록 제어부(105)는, 화상 데이터와 특징 기술자의 대응 관계를 나타내는 인덱스 테이블을 작성해서 데이터베이스를 구성해도 된다. 예를 들면, 데이터 기록 제어부(105)는, 화상 데이터를 구성하는 특정의 화상 프레임의 데이터 위치가 주어진 경우, 당해 데이터 위치에 대응하는 기술자 데이터의 스토리지(106) 상의 저장 위치를 고속으로 특정 가능하도록, 인덱스 정보를 부가한다. 또한, 데이터 기록 제어부(105)는, 스토리지(106) 상의 저장 위치에 대응하는 데이터 위치를 고속으로 특정 가능하도록 인덱스 정보를 부가해도 된다.
스토리지(106)는, 예를 들면, HDD(Hard Disk Drive) 또는 플래시 메모리의 대용량 기록 매체로 구성된다. 스토리지(106)는, 화상 데이터가 축적되는 제 1 데이터 기억부(106a)와, 기술자 데이터가 축적되는 제 2 데이터 기억부(106b)로 구성되어 있다. 도 1에서는, 1개의 스토리지(106) 내에 제 1 데이터 기억부(106a) 및 제 2 데이터 기억부(106b)를 마련하는 구성을 나타냈지만, 이에 한정되는 것은 아니다. 예를 들면, 제 1 데이터 기억부(106a)와, 제 2 데이터 기억부(106b)가, 각각 상이한 스토리지에 분산하여 마련되어 있어도 된다.
또한, 도 1에서는, 화상 처리 장치(100)가 스토리지(106)를 구비하는 구성을 나타냈지만, 당해 구성으로 한정되는 것은 아니다. 화상 처리 장치(100)는, 스토리지(106) 대신에, 통신 네트워크(NW) 상에 배치된 단수 또는 복수의 네트워크 스토리지 장치(도시하지 않음)에, 데이터 기록 제어부(105)가 액세스하도록 구성해도 된다. 이에 의해, 데이터 기록 제어부(105)가 화상 데이터와 특징 기술자를, 외부의 네트워크 스토리지 장치에 축적할 수 있어, 화상 처리 장치(100)의 외부에 데이터베이스를 구축할 수 있다.
외부 기기(200)는, 인터페이스부(107)를 통해서, 스토리지(106) 내의 데이터베이스에 액세스한다.
화상 대조부(108)는, 인터페이스부(107)를 통해서, 외부 기기(200)로부터 검색 조건이 설정되면, 처리를 개시한다. 여기에서, 검색 조건이란, 검색 대상으로 하는 에어리어 정보, 검색 대상으로 하는 시각 정보, 검색 대상으로 하는 오브젝트의 종류 또는 검색 대상으로 하는 오브젝트의 판정 시간 등이다. 검색 조건의 구체예로서, 예를 들면, 어느 네트워크 카메라(NC) 내에서 동일한 오브젝트로서 추적된 시간이 일정 시간 초과한 오브젝트를 검색하는 것을 지시하는 조건, 또는 네트워크 카메라(NC) 내에서 미리 설정된 에어리어(예를 들면, 진입 금지 에어리어)에 해당하는 위치 정보를 갖는 오브젝트를 검출하는 것을 지시하는 조건을 들 수 있다.
화상 대조부(108)는, 화상 검색부(108a), 특징 추출부(108b) 및 판정부(108c)를 구비한다. 화상 검색부(108a)는, 스토리지(106)에 액세스하고, 외부 기기(200)가 설정한 검색 조건에 합치하는 오브젝트를 검색한다. 화상 검색부(108a)는, 검색 조건에 합치한 오브젝트에 대해서, 대조하는 오브젝트의 세트(이하, 오브젝트 페어라고 기재함)의 한정(narrowing down)을 행한다. 대조하는 오브젝트 페어는, 상이한 영역을 촬상한 화상 데이터에 각각 존재하는 오브젝트의 조합이다. 또한, 오브젝트 페어의 한정은, 오브젝트의 출현 시간, 오브젝트의 이동 궤적 및 미리 설정된 일반적인 사람의 보행 시간을 고려해서 행해진다. 화상 검색부(108a)는, 검색 및 오브젝트 페어의 한정에 의해서 얻어진 오브젝트의 화상 데이터와 특징 기술자를 특징 추출부(108b)에 출력한다.
도 2의 예에 있어서, 화상 검색부(108a)가, 검색 조건에 합치하는 오브젝트로서, 예를 들면 오브젝트(A1), 오브젝트(A2), 오브젝트(B) 및 오브젝트(C)를 검색한다. 또, 화상 검색부(108a)는, 상이한 네트워크 카메라(NC)로 촬상된 오브젝트 페어의 한정을 행하고, 오브젝트(A1)와 이동 방향이 상이한 오브젝트(B)를 오브젝트로부터 제외한다. 화상 검색부(108a)는, 검색한 오브젝트(A1), 오브젝트(A2) 및 오브젝트(C)의 화상 데이터와 특징 기술자를, 특징 추출부(108b)에 출력한다.
특징 추출부(108b)는, 화상 검색부(108a)로부터 입력된 오브젝트의 화상 데이터 및 기술 데이터를 이용해서, 각 오브젝트의 복수의 화상 데이터간에 특징량을 이용한 클러스터링을 행한다. 특징 추출부(108b)는, 클러스터링의 결과, 클러스터에 포함되는 화상수가 최대인 것을, 오브젝트를 특징짓는 클러스터라고 정의한다. 특징 추출부(108b)는, 정의한 클러스터에 포함되는 화상 데이터로부터, 오브젝트의 대조에 이용하는 특징량을 추출한다. 특징 추출부(108b)는, 예를 들면 전술한 비특허문헌 1 또는 비특허문헌 2에 개시된 수법과 마찬가지의 수법으로, 오브젝트의 대조에 이용하는 특징량을 추출한다. 비특허문헌 1 또는 비특허문헌 2에 개시된 수법으로 구해지는 특징량은, 모두 N차원의 벡터 데이터가 된다. 특징 추출부(108b)는, 클러스터에 포함되는 각 화상 데이터에 대해서 N차원 벡터 데이터를 산출한 후, 클러스터에 포함되는 모든 화상 데이터의 N차원 벡터 데이터를 평균화하거나, 또는 최댓값을 나타내는 벡터 데이터를 선택하고, 클러스터에 대해서 1개의 특징량을 추출한다. 특징 추출부(108b)는, 추출한 특징량을 판정부(108c)에 출력한다.
판정부(108c)는, 특징 추출부(108b)로부터 입력된 특징량 중, 오브젝트 페어를 구성하는 각 오브젝트의 특징량을 비교하고, 오브젝트가 서로 동일한지 여부의 판정을 행한다. 판정부(108c)는, 판정 결과를 기술자로서 버퍼(도시하지 않음) 등에 기록하고, 인터페이스부(107)를 통해서 외부 기기(200)에 출력한다.
도 2의 예의 경우, 판정부(108c)는, 상이한 네트워크 카메라(NC)로 촬상된 오브젝트 페어인, 오브젝트(A1)와 오브젝트(A2)의 특징량의 비교, 및 오브젝트(A1)와 오브젝트(C)의 특징량의 비교를 행한다. 판정부(108c)는, 오브젝트(A1)와 오브젝트(A2)의 특징량이 동일하다고 판정한다. 또한, 판정부(108c)는, 오브젝트(A1)의 특징량과 오브젝트(C)의 특징량이 동일하지 않다고 판정한다.
다음으로, 화상 처리 장치(100)의 하드웨어 구성예를 설명한다.
도 3(a) 및 도 3(b)는, 화상 처리 장치(100)의 하드웨어 구성예를 나타내는 도면이다.
화상 처리 장치(100)에 있어서의 수신부(101), 복호부(102), 화상 인식부(103), 기술자 생성부(104), 데이터 기록 제어부(105), 인터페이스부(107) 및 화상 대조부(108)의 각 기능은, 처리 회로에 의해 실현된다. 즉, 화상 처리 장치(100)는, 상기 각 기능을 실현하기 위한 처리 회로를 구비한다. 당해 처리 회로는, 도 3(a)에 나타내는 바와 같이 전용의 하드웨어인 처리 회로(100a)여도 되고, 도 3(b)에 나타내는 바와 같이 메모리(100c)에 저장되어 있는 프로그램을 실행하는 프로세서(100b)여도 된다.
도 3(a)에 나타내는 바와 같이, 수신부(101), 복호부(102), 화상 인식부(103), 기술자 생성부(104), 데이터 기록 제어부(105), 인터페이스부(107) 및 화상 대조부(108)가 전용의 하드웨어인 경우, 처리 회로(100a)는, 예를 들면, 단일 회로, 복합 회로, 프로그램화한 프로세서, 병렬 프로그램화한 프로세서, ASIC(Application Specific Integrated Circuit), FPGA(Field-programmable Gate Array), 또는 이들을 조합한 것이 해당한다. 수신부(101), 복호부(102), 화상 인식부(103), 기술자 생성부(104), 데이터 기록 제어부(105), 인터페이스부(107) 및 화상 대조부(108)의 각 부의 기능 각각을 처리 회로로 실현해도 되고, 각 부의 기능을 모아서 1개의 처리 회로로 실현해도 된다.
도 3(b)에 나타내는 바와 같이, 수신부(101), 복호부(102), 화상 인식부(103), 기술자 생성부(104), 데이터 기록 제어부(105), 인터페이스부(107) 및 화상 대조부(108)가 프로세서(100b)인 경우, 각 부의 기능은, 소프트웨어, 펌웨어, 또는 소프트웨어와 펌웨어의 조합에 의해 실현된다. 소프트웨어 또는 펌웨어는 프로그램으로서 기술되고, 메모리(100c)에 저장된다. 프로세서(100b)는, 메모리(100c)에 기억된 프로그램을 읽어내어서 실행하는 것에 의해, 수신부(101), 복호부(102), 화상 인식부(103), 기술자 생성부(104), 데이터 기록 제어부(105), 인터페이스부(107) 및 화상 대조부(108)의 각 기능을 실현한다. 즉, 수신부(101), 복호부(102), 화상 인식부(103), 기술자 생성부(104), 데이터 기록 제어부(105), 인터페이스부(107) 및 화상 대조부(108)는, 프로세서(100b)에 의해 실행되는 경우, 후술하는 도 4 및 도 5에 나타내는 각 스텝이 결과적으로 실행되게 되는 프로그램을 저장하기 위한 메모리(100c)를 구비한다. 또, 이들의 프로그램은, 수신부(101), 복호부(102), 화상 인식부(103), 기술자 생성부(104), 데이터 기록 제어부(105), 인터페이스부(107) 및 화상 대조부(108)의 순서 또는 방법을 컴퓨터에 실행시키는 것이라고도 말할 수 있다.
여기에서, 프로세서(100b)란, 예를 들면, CPU(Central Processing Unit), 처리 장치, 연산 장치, 프로세서, 마이크로프로세서, 마이크로컴퓨터, 또는 DSP(Digital Signal Processor) 등의 것이다.
메모리(100c)는, 예를 들면, RAM(Random Access Memory), ROM(Read Only Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically EPROM) 등의 불휘발성 또는 휘발성의 반도체 메모리여도 되고, 하드 디스크, 플렉시블 디스크 등의 자기 디스크여도 되고, 미니 디스크, CD(Compact Disc), DVD(Digital Versatile Disc) 등의 광 디스크여도 된다.
한편, 수신부(101), 복호부(102), 화상 인식부(103), 기술자 생성부(104), 데이터 기록 제어부(105), 인터페이스부(107) 및 화상 대조부(108)의 각 기능에 대해서, 일부를 전용의 하드웨어로 실현하고, 일부를 소프트웨어 또는 펌웨어로 실현하도록 해도 된다. 이와 같이, 화상 처리 장치(100)에 있어서의 처리 회로(100a)는, 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 조합에 의해서, 전술의 각 기능을 실현할 수 있다.
다음으로, 화상 처리 장치(100)의 동작에 대해서 설명한다.
우선, 화상 처리 장치(100)의 화상 인식 처리에 대해서, 도 4를 참조하면서 설명한다.
도 4는, 실시형태 1에 따른 화상 처리 장치(100)의 화상 인식 처리의 동작을 나타내는 플로 차트이다.
수신부(101)는, 네트워크 카메라(NC1, NC2,…, NCn)로부터 배신 데이터를 수신해서 화상 데이터를 분리하고(스텝 ST1), 복호부(102)에 출력한다. 복호부(102)는, 스텝 ST1에서 분리된 화상 데이터를 복호하고(스텝 ST2), 화상 인식부(103)에 출력한다.
화상 인식부(103)의 오브젝트 검출부(103a)는, 스텝 ST2에서 복호된 화상 데이터에 나타나는 오브젝트의 검출을 시도한다(스텝 ST3). 여기에서, 검출 대상이 되는 오브젝트는, 자동차, 자전거 및 보행자 등, 추적 대상이 움직이는 오브젝트이다. 오브젝트 검출부(103a)는, 오브젝트를 검출했는지 여부의 판정을 행한다(스텝 ST4). 오브젝트를 검출하지 않은 경우(스텝 ST4; NO), 플로 차트는 스텝 ST1의 처리로 되돌아간다.
한편, 오브젝트를 검출한 경우(스텝 ST4; YES), 오브젝트 검출부(103a)는, 검출한 오브젝트의 시각적 특징량, 위치 정보 및 촬영 시각 등을 취득한다(스텝 ST5). 오브젝트 검출부(103a)는, 검출한 오브젝트의 화상 데이터와, 취득한 오브젝트의 시각적 특징량, 위치 정보 및 촬영 시각 등을 검출 결과로서 오브젝트 추적부(103b) 및 기술자 생성부(104)에 출력한다.
오브젝트 추적부(103b)는, 오브젝트 검출부(103a)로부터 입력된 오브젝트의 화상 데이터를 참조하고, 1개의 화상 프레임 내에서 검출된 각 오브젝트에 대해서 각각 상이한 ID를 부여한다(스텝 ST6). 오브젝트 추적부(103b)는, 1개의 프레임 내에서 검출된 각 오브젝트의 화상 데이터로부터, 각 오브젝트의 움직임 정보를 추출한다(스텝 ST7). 오브젝트 추적부(103b)는, 스텝 ST5에서 취득된 오브젝트의 시각적 특징량과, 스텝 ST7에서 추출한 오브젝트의 움직임 정보를 참조하고, 오브젝트 검출부(103a)로부터 입력된 오브젝트와, 당해 오브젝트와 시간적으로 연속한 과거의 화상 프레임으로부터 검출된 오브젝트가, 동일한지 여부의 판정을 행한다(스텝 ST8). 오브젝트가 동일하지 않다고 판정한 경우(스텝 ST8; NO), 스텝 ST10의 처리로 진행된다.
한편, 오브젝트가 동일하다고 판정한 경우(스텝 ST8; YES), 오브젝트 추적부(103b)는, 스텝 ST6에서 부여한 ID를, 동일한 과거의 오브젝트에 부여된 ID로 재기입한다(스텝 ST9). 오브젝트 추적부(103b)는, 오브젝트 검출부(103a)로부터 입력된 모든 오브젝트에 대해서 처리를 행했는지 여부의 판정을 행한다(스텝 ST10). 모든 오브젝트에 대해서 처리를 행하고 있지 않은 경우(스텝 ST10; NO), 플로 차트는 스텝 ST7의 처리로 되돌아간다. 한편, 모든 오브젝트에 대해서 처리를 행한 경우(스텝 ST10; YES), 오브젝트 추적부(103b)는 오브젝트의 ID 및 오브젝트의 움직임 정보를 기술자 생성부(104)에 출력한다(스텝 ST11).
기술자 생성부(104)는, 오브젝트 검출부(103a)로부터 입력된 오브젝트의 시각적 특징량, 위치 정보 및 촬영 시각, 스텝 ST11로서 오브젝트 추적부(103b)로부터 입력된 오브젝트의 ID 및 오브젝트의 움직임 정보에 기초해서, 기술자를 생성한다(스텝 ST12). 기술자 생성부(104)는, 생성한 기술자를 데이터 기록 제어부(105)에 출력한다. 데이터 기록 제어부(105)는, 스텝 ST12에서 생성된 기술자와, 스텝 ST2에서 복호된 화상 데이터를 관련지어서 스토리지(106)에 저장하는 제어를 행하고(스텝 ST13), 처리를 종료한다.
다음으로, 화상 처리 장치(100)의 화상 대조 처리에 대해서, 도 5를 참조하면서 설명한다.
도 5는, 실시형태 1에 따른 화상 처리 장치(100)의 화상 대조 처리의 동작을 나타내는 플로 차트이다. 한편, 이하에서는, 2개의 네트워크 카메라가 촬상한 2개의 화상 데이터간에, 오브젝트 페어를 검색하는 경우의 처리를 상정한 설명을 행하지만, 3 이상의 화상 데이터간에 오브젝트 페어를 검색하는 처리에도 마찬가지로 적용 가능하다.
인터페이스부(107)를 통해서 외부 기기(200)로부터 검색 조건이 설정되면(스텝 ST21), 화상 검색부(108a)는 스토리지(106) 내의 검색을 행하고, 설정된 검색 조건과 일치하는 오브젝트를 검색하고, 오브젝트 페어의 한정을 행한다(스텝 ST22). 화상 검색부(108a)는, 각각 상이한 네트워크 카메라(NC)로 촬상된 오브젝트 페어를 1세트 이상 검색했는지 여부의 판정을 행한다(스텝 ST23). 오브젝트 페어를 1세트 이상 검색하지 않은 경우(스텝 ST23; NO), 화상 검색부(108a)는 처리를 종료한다.
한편, 오브젝트 페어를 1세트 이상 검색한 경우(스텝 ST23; YES), 화상 검색부(108a)는, 스토리지(106)로부터 검색한 1세트 이상의 오브젝트 페어의 화상 데이터 및 기술자 데이터를 읽어낸다(스텝 ST24). 화상 검색부(108a)는, 읽어낸 화상 데이터 및 기술자 데이터를 특징 추출부(108b)에 출력한다. 특징 추출부(108b)는, 스텝 ST24에서 읽어내어진 화상 데이터 및 기술자 데이터를 이용해서, 각 오브젝트의 각 화상 데이터간에 특징량을 이용한 클러스터링을 행한다(스텝 ST25). 특징 추출부(108b)는, 각 오브젝트를 특징짓는 클러스터를 정의한다(스텝 ST26). 특징 추출부(108b)는, 스텝 ST26에서 정의한 클러스터 내의 화상 데이터로부터 특징량을 추출한다(스텝 ST27). 특징 추출부(108b)는, 추출한 특징량을 판정부(108c)에 출력한다.
판정부(108c)는, 스텝 ST27에서 추출된 특징량을 비교하고, 오브젝트 페어를 구성하는 오브젝트가 서로 동일한지 여부의 판정을 행한다(스텝 ST28). 판정부(108c)는, 스텝 ST28의 판정 결과를, 버퍼 등에 저장하고, 인터페이스부(107)를 통해서 외부 기기(200)에 출력하고(스텝 ST29), 처리를 종료한다.
다음으로, 도 5의 플로 차트의 각 처리에 대해서, 도 2에서 나타낸 예를 참조하면서 설명한다.
스텝 ST21로서, 외부 기기(200)로부터, 예를 들면 「네트워크 카메라(NC1) 및 네트워크 카메라(NC2)가 촬영하고 있는 에어리어에 있어서, 일정 시간 이상 체재하고 있는 인물」이라는 검색 조건이 설정된다.
스텝 ST22로서, 화상 검색부(108a)는, 스토리지(106) 내의 검색을 행하고, 「네트워크 카메라(NC1) 및 네트워크 카메라(NC2)가 촬영하고 있는 에어리어에 있어서, 일정 시간 이상 체재하고 있는 인물」이라는 검색 조건과 일치하는 오브젝트의 검색을 행한다.
전술한 바와 같이, 스토리지(106)에는, 오브젝트의 화상 데이터와 관련지어져, 오브젝트의 ID, 시각적 특징량, 위치 정보, 촬영 시각, 오브젝트의 ID 및 움직임 정보가 저장되어 있다. 도 2의 예에서는, 네트워크 카메라(NC1)로 검출되고, 추적된 인물인 오브젝트(A1)에 대해서, 새로운 ID가 부여된 시각이, 네트워크 카메라(NC1)의 촬상 화상에 해당하는 인물인 오브젝트(A1a)가 나타난 시각에 상당한다. 또한, 당해 새로운 ID와 동일한 ID가 부여된 인물인 오브젝트(A1b 내지 A1g)는, 동일 오브젝트인 것으로서 추적된 오브젝트이다. 따라서, 새로운 ID와 동일한 ID가 부여되어 있던 시간이, 그 오브젝트가 네트워크 카메라 촬상 화상 내에 체재하고 있던 시간에 상당한다. 또한, 도 2에 있어서 나타낸 화살표(Ta1)는, 동일 오브젝트인 것으로서 추적된 오브젝트(A1a 내지 A1g)의 위치 정보로부터 추정되는, 오브젝트(A1)의 이동 궤적을 나타내는 화살표이다.
스텝 ST23으로서, 화상 검색부(108a)는, 검색 조건과 일치하는 4개의 오브젝트(오브젝트(A1), 오브젝트(A2), 오브젝트(B) 및 오브젝트(C))를 검색한다. 또한, 스텝 ST23으로서, 화상 검색부(108a)는, 오브젝트 페어의 한정을 행해서, 오브젝트(B)를 제외하고, 3개의 오브젝트(오브젝트(A1), 오브젝트(A2) 및 오브젝트(C))를 검출한다(스텝 ST23; YES).
스텝 ST24로서, 화상 검색부(108a)는 오브젝트(A1), 오브젝트(A2), 오브젝트(C)의 화상 데이터 및 기술자 데이터를, 스토리지(106)로부터 읽어낸다. 스텝 ST25로서, 특징 추출부(108b)는, 오브젝트(A1)의 특징량을 이용한 클러스터링, 오브젝트(A2)의 특징량을 이용한 클러스터링 및 오브젝트(C)의 특징량을 이용한 클러스터링을 행한다. 스텝 ST26으로서, 특징 추출부(108b)는, 오브젝트(A1), 오브젝트(A2) 및 오브젝트(C)의 각각 대해서 클러스터를 정의한다. 스텝 ST27로서, 특징 추출부(108b)는, 정의한 클러스터 내의 화상 데이터로부터 특징량을 추출한다.
스텝 ST28로서, 판정부(108c)는 오브젝트(A1), 오브젝트(A2) 및 오브젝트(C)의 시각적 특징량 및 화상 데이터의 특징량을 이용해서, 오브젝트 페어를 구성하는 오브젝트(A1)와 오브젝트(A2)가 동일하다고 판정한다. 또한, 판정부(108c)는, 오브젝트 페어를 구성하는 오브젝트(A1)와 오브젝트(C)가 동일하지 않다고 판정한다. 스텝 ST29로서, 판정부(108c)는, 오브젝트(A1)와 오브젝트(A2)는 동일한 오브젝트이라는 판정 결과, 오브젝트(A1)와 오브젝트(B)는 동일한 오브젝트가 아니라는 판정 결과, 오브젝트(A1)와 오브젝트(C)는 동일한 오브젝트가 아니라는 판정 결과를, 버퍼 등에 기록하고, 외부 기기(200)에 출력한다.
도 6은, 실시형태 1에 따른 화상 처리 장치(100)의 대조 처리에 있어서, 오브젝트로서 추적된 인물의 화상 데이터예를 나타내는 도면이다.
도 6(a)는 도 2에서 나타낸 오브젝트(A)의 화상 데이터를 나타내고, 도 6(b)는 도 2에서 나타낸 오브젝트(C)의 화상 데이터를 나타내는 도면이다.
도 6(a)에 나타내는 바와 같이, 동일한 오브젝트(A)를 추적한 화상 데이터이더라도, 예를 들면 장애물(Y)에 의해서, 오브젝트(A)의 일부가 숨어 있는 경우도 있다. 또한, 동일한 오브젝트(A)를 추적한 화상 데이터이더라도, 예를 들면 오브젝트의 자세가 변화된 경우에, 촬상되는 내용이 상이하다. 그 때문에, 도 6(a)에서 나타낸 오브젝트(A)의 4개의 화상 데이터로부터 1개의 화상 데이터(예를 들면, 오브젝트(Ac)를 촬상한 화상 데이터)를 선택하고, 도 6(b)의 오브젝트(C)의 4개의 화상 데이터로부터 선택한 화상 데이터(예를 들면, 오브젝트(Cb)를 촬상한 화상 데이터)와 비교하면, 선택한 화상 데이터에 의존하여, 화상 대조부(108)의 대조 정밀도가 저하된다.
그래서, 화상 대조부(108)는, 도 6(a)에서 나타낸 예를 들면 4개의 화상 데이터를 이용해서 클러스터를 정의하고, 정의한 클러스터 내의 화상 데이터로부터 특징량을 추출한다. 마찬가지로, 화상 대조부(108)는, 도 6(b)에서 나타낸 예를 들면 3개의 화상 데이터를 이용해서 클러스터를 정의하고, 정의한 클러스터 내의 화상 데이터로부터 특징량을 추출한다. 판정부(108c)는, 오브젝트(A)의 추출된 특징량과, 오브젝트(C)의 추출된 특징량을 비교하는 것에 의해, 판정 결과가 화상 데이터에 의존하는 것을 억제할 수 있다.
이상과 같이, 실시형태 1에 의하면, 화상 데이터를 해석해서 당해 화상 데이터에 나타나는 오브젝트를 검출하는 오브젝트 검출부(103a)와, 검출된 오브젝트를 시간 방향으로 추적하는 오브젝트 추적부(103b)와, 오브젝트의 검출 결과와 추적 결과에 기초해서, 오브젝트의 특징 기술자를 생성하는 기술자 생성부(104)와, 생성된 특징 기술자와, 당해 특징 기술자에 대응한 오브젝트의 화상 데이터로부터 데이터베이스를 구성하는 데이터 기록 제어부(105)와, 데이터베이스로부터, 설정된 검색 조건에 합치하는 오브젝트로서, 각각 상이한 영역을 촬상한 화상 데이터에 나타나는 오브젝트의 세트를 구성하는 오브젝트를 검색하는 화상 검색부(108a)와, 검색된 오브젝트의 화상 데이터 및 특징 기술자로부터, 대조에 이용하는 특징량을 추출하는 특징 추출부(108b)와, 추출된 특징량의 대조를 행하고, 오브젝트의 세트를 구성하는 오브젝트가 동일한지 여부의 판정을 행하는 판정부(108c)를 구비하도록 구성했으므로, 배경 또는 오클루전에 의한 특징량의 변화에 강건하게, 복수의 카메라로 촬영된 화상간에 동일한 오브젝트인지 판정할 수 있다.
또한, 실시형태 1에 의하면, 특징 추출부는, 검색된 오브젝트의 화상 데이터 및 특징 기술자로부터, 검색된 각 오브젝트의 화상 데이터간에 특징량을 이용한 클러스터링을 행하고, 클러스터링의 결과로부터 정의되는 클러스터 내의 화상 데이터로부터, 특징량을 추출하도록 구성했으므로, 화상 데이터에 의존해서 대조 정밀도가 저하되는 것을 억제할 수 있다.
이 발명에 따른 화상 처리 장치는, 예를 들면, 감시 시스템을 포함하는 물체 인식 시스템, 또는 화상 검색 시스템에 이용되는 데에 적합하다.
100: 화상 처리 장치, 101: 수신부, 102: 복호부, 103: 화상 인식부, 103a: 오브젝트 검출부, 103b: 오브젝트 추적부, 104: 기술자 생성부, 105: 데이터 기록 제어부, 106: 스토리지, 106a: 제 1 데이터 기억부, 106b: 제 2 데이터 기억부, 107: 인터페이스부, 108: 화상 대조부, 108a: 화상 검색부, 108b: 특징 추출부, 108c: 판정부.

Claims (4)

  1. 화상 데이터를 해석해서 당해 화상 데이터에 나타나는 오브젝트를 검출하는 오브젝트 검출부와,
    상기 오브젝트 검출부가 검출한 상기 오브젝트를 시간 방향으로 추적하는 오브젝트 추적부와,
    상기 오브젝트 검출부의 검출 결과와, 상기 오브젝트 추적부의 추적 결과에 기초해서, 상기 오브젝트의 특징 기술자(descriptor)를 생성하는 기술자 생성부와,
    상기 기술자 생성부가 생성한 상기 특징 기술자와, 당해 특징 기술자에 대응한 오브젝트의 상기 화상 데이터로부터 데이터베이스를 구성하는 데이터 기록 제어부와,
    상기 데이터 기록 제어부가 구성한 상기 데이터베이스로부터, 설정된 검색 조건에 합치하는 오브젝트로서, 각각 상이한 영역을 촬상한 상기 화상 데이터에 나타나는 오브젝트의 세트를 구성하는 오브젝트를 검색하는 화상 검색부와,
    상기 화상 검색부가 검색한 오브젝트의 상기 화상 데이터 및 상기 특징 기술자로부터, 대조(照合)에 이용하는 특징량을 추출하는 특징 추출부와,
    상기 특징 추출부가 추출한 상기 특징량의 대조를 행하고, 상기 오브젝트의 세트를 구성하는 오브젝트가 동일한지 여부의 판정을 행하는 판정부를 구비한 화상 처리 장치.
  2. 제 1 항에 있어서,
    상기 특징 추출부는, 상기 화상 검색부가 검색한 오브젝트의 상기 화상 데이터 및 상기 특징 기술자로부터, 상기 검색된 각 오브젝트의 화상 데이터간에 특징량을 이용한 클러스터링을 행하고, 상기 클러스터링의 결과로부터 정의되는 클러스터 내의 화상 데이터로부터, 상기 특징량을 추출하는 것을 특징으로 하는 화상 처리 장치.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 특징 기술자에는, 상기 오브젝트의 시각적 특징량, 및 상기 오브젝트의 위치 정보가 포함되는 것을 특징으로 하는 화상 처리 장치.
  4. 오브젝트 검출부가, 화상 데이터를 해석해서 당해 화상 데이터에 나타나는 오브젝트를 검출하는 스텝과,
    오브젝트 추적부가, 상기 검출된 오브젝트를 시간 방향으로 추적하는 스텝과,
    기술자 생성부가, 상기 오브젝트의 검출 결과와, 상기 검출된 오브젝트의 추적 결과에 기초해서, 상기 검출된 오브젝트의 특징 기술자를 생성하는 스텝과,
    데이터 기록 제어부가, 상기 생성된 특징 기술자와, 당해 특징 기술자에 대응한 오브젝트의 상기 화상 데이터로부터 데이터베이스를 구성하는 스텝과,
    화상 검색부가, 상기 구성된 데이터베이스로부터, 설정된 검색 조건에 합치하는 오브젝트로서, 각각 상이한 영역을 촬상한 상기 화상 데이터에 나타나는 오브젝트의 세트를 구성하는 오브젝트를 검색하는 스텝과,
    특징 추출부가, 상기 검색된 오브젝트의 상기 화상 데이터 및 상기 특징 기술자로부터, 대조에 이용하는 특징량을 추출하는 스텝과,
    판정부가, 상기 추출된 특징량의 대조를 행하고, 상기 오브젝트의 세트를 구성하는 오브젝트가 동일한지 여부의 판정을 행하는 스텝을 구비한 화상 처리 방법.
KR1020207004231A 2017-08-22 2017-08-22 화상 처리 장치 및 화상 처리 방법 KR102150847B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/029884 WO2019038821A1 (ja) 2017-08-22 2017-08-22 画像処理装置および画像処理方法

Publications (2)

Publication Number Publication Date
KR20200020009A true KR20200020009A (ko) 2020-02-25
KR102150847B1 KR102150847B1 (ko) 2020-09-02

Family

ID=63855258

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207004231A KR102150847B1 (ko) 2017-08-22 2017-08-22 화상 처리 장치 및 화상 처리 방법

Country Status (8)

Country Link
US (1) US11200683B2 (ko)
JP (1) JP6407493B1 (ko)
KR (1) KR102150847B1 (ko)
CN (1) CN111033564B (ko)
GB (1) GB2579736C (ko)
SG (1) SG11202000383SA (ko)
TW (1) TW201913568A (ko)
WO (1) WO2019038821A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022182040A1 (ko) * 2021-02-24 2022-09-01 삼성전자 주식회사 타겟 영역 내의 객체의 위치를 추적하는 방법 및 이를 수행하는 전자 장치

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11227007B2 (en) * 2019-07-23 2022-01-18 Obayashi Corporation System, method, and computer-readable medium for managing image
JP6764012B1 (ja) * 2019-11-19 2020-09-30 株式会社ARISE analytics 画像処理装置、画像処理方法、及びプログラム
JP7157784B2 (ja) * 2020-09-10 2022-10-20 株式会社ARISE analytics 画像処理装置、画像処理方法、及びプログラム
WO2022195790A1 (ja) * 2021-03-18 2022-09-22 三菱電機株式会社 画像処理装置及び画像処理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160032432A (ko) * 2014-09-16 2016-03-24 삼성에스디에스 주식회사 동일 객체 검출 방법 및 장치
JP2016143335A (ja) * 2015-02-04 2016-08-08 富士通株式会社 グループ対応付け装置、グループ対応付け方法及びグループ対応付け用コンピュータプログラム
JP2016154306A (ja) * 2015-02-20 2016-08-25 パナソニックIpマネジメント株式会社 追跡支援装置、追跡支援システムおよび追跡支援方法
WO2017046872A1 (ja) * 2015-09-15 2017-03-23 三菱電機株式会社 画像処理装置、画像処理システム及び画像処理方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7743330B1 (en) * 2000-06-19 2010-06-22 Comcast Ip Holdings I, Llc Method and apparatus for placing virtual objects
GB2414614A (en) * 2004-05-28 2005-11-30 Sony Uk Ltd Image processing to determine most dissimilar images
WO2010075726A1 (zh) * 2008-12-30 2010-07-08 华为终端有限公司 立体全景视频流生成方法、设备及视频会议方法和设备
US9324003B2 (en) * 2009-09-14 2016-04-26 Trimble Navigation Limited Location of image capture device and object features in a captured image
TWI416068B (zh) 2009-12-10 2013-11-21 Ind Tech Res Inst 跨感測器間之物體追蹤方法與系統
JP5940862B2 (ja) * 2012-03-30 2016-06-29 セコム株式会社 画像処理装置
CN102799900B (zh) * 2012-07-04 2014-08-06 西南交通大学 一种基于检测中支持在线聚类学习的对象跟踪方法
CN105027162B (zh) * 2013-02-27 2018-02-02 株式会社日立制作所 图像解析装置、图像解析系统、图像解析方法
JP6118752B2 (ja) 2014-03-28 2017-04-19 セコム株式会社 学習データ生成装置
JP6377533B2 (ja) * 2015-01-06 2018-08-22 Kddi株式会社 オクルージョン発生時に専用の識別器を用いて物体を追跡する装置、プログラム及び方法
US10176642B2 (en) * 2015-07-17 2019-01-08 Bao Tran Systems and methods for computer assisted operation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160032432A (ko) * 2014-09-16 2016-03-24 삼성에스디에스 주식회사 동일 객체 검출 방법 및 장치
JP2016143335A (ja) * 2015-02-04 2016-08-08 富士通株式会社 グループ対応付け装置、グループ対応付け方法及びグループ対応付け用コンピュータプログラム
JP2016154306A (ja) * 2015-02-20 2016-08-25 パナソニックIpマネジメント株式会社 追跡支援装置、追跡支援システムおよび追跡支援方法
WO2017046872A1 (ja) * 2015-09-15 2017-03-23 三菱電機株式会社 画像処理装置、画像処理システム及び画像処理方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
E. Ahmed, M. Jones, T.K. Marks, "An improved deep learning architecture for person re-identification," In Computer Vision and Pattern Recognition(CVPR), 2015.
J. You, A. Wu, X. Li, and W.-S. Zheng, "Top-push video-based person re-identification," in Computer Vision and Pattern Recognition(CVPR), 2016.
S. Liao, Y. Hu, X. Zhu, S. Z. Li, "Person re-identification by local maximal occurrence representation and metric learning", In Computer Vision and Pattern Recognition(CVPR), 2015.

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022182040A1 (ko) * 2021-02-24 2022-09-01 삼성전자 주식회사 타겟 영역 내의 객체의 위치를 추적하는 방법 및 이를 수행하는 전자 장치

Also Published As

Publication number Publication date
CN111033564A (zh) 2020-04-17
GB2579736A (en) 2020-07-01
CN111033564B (zh) 2023-11-07
GB2579736C (en) 2021-03-10
JP6407493B1 (ja) 2018-10-17
US11200683B2 (en) 2021-12-14
SG11202000383SA (en) 2020-02-27
JPWO2019038821A1 (ja) 2019-11-07
KR102150847B1 (ko) 2020-09-02
WO2019038821A1 (ja) 2019-02-28
GB202002056D0 (en) 2020-04-01
GB2579736B (en) 2021-01-27
TW201913568A (zh) 2019-04-01
US20200242782A1 (en) 2020-07-30

Similar Documents

Publication Publication Date Title
JP7317919B2 (ja) 外観検索のシステムおよび方法
KR102150847B1 (ko) 화상 처리 장치 및 화상 처리 방법
US10691949B2 (en) Action recognition in a video sequence
JP4616702B2 (ja) 画像処理
US8270806B2 (en) Information processing apparatus and method of controlling same
EP3340104A1 (en) A method for generating alerts in a video surveillance system
JP2008501172A (ja) 画像比較方法
JP6829412B1 (ja) 画像処理装置、画像処理システム、画像処理方法、及び画像処理プログラム
CN110796074A (zh) 一种基于时空数据融合的行人再识别方法
JP2018537880A (ja) ビデオにおけるキーポイント軌跡を処理する方法
JP2022008187A (ja) オブジェクト認識ニューラルネットワークの訓練
KR20160099289A (ko) 영상의 전역 특징과 이동객체의 지역 특징을 융합한 동영상 검색 방법 및 그 시스템
Garcia et al. Asymmetric spatio-temporal embeddings for large-scale image-to-video retrieval
US8670598B2 (en) Device for creating and/or processing an object signature, monitoring device, method and computer program
US20230360360A1 (en) Object re-identification in video streams
KR20230099369A (ko) 객체의 위치 추정을 위한 가려짐 판별과 객체 좌표 보정
Choi et al. Intelligent Pedestrian-Search System Based on Color Queries

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant