KR20170038144A - 어텐션 검출 장치 및 어텐션 검출 방법 - Google Patents

어텐션 검출 장치 및 어텐션 검출 방법 Download PDF

Info

Publication number
KR20170038144A
KR20170038144A KR1020160106819A KR20160106819A KR20170038144A KR 20170038144 A KR20170038144 A KR 20170038144A KR 1020160106819 A KR1020160106819 A KR 1020160106819A KR 20160106819 A KR20160106819 A KR 20160106819A KR 20170038144 A KR20170038144 A KR 20170038144A
Authority
KR
South Korea
Prior art keywords
value
hash
attitude
learning
degree
Prior art date
Application number
KR1020160106819A
Other languages
English (en)
Inventor
시앙 루안
휴츄엔 루
Original Assignee
오므론 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오므론 가부시키가이샤 filed Critical 오므론 가부시키가이샤
Publication of KR20170038144A publication Critical patent/KR20170038144A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/35Determination of transform parameters for the alignment of images, i.e. image registration using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking

Abstract

동화상의 어텐션 검출에 있어서, 실장이 용이하고 또한 신뢰성이 우수한 신규의 알고리즘을 제공한다.
어텐션 검출 장치가, 동화상 내의 국소 영역에 대해, 상기 국소 영역 내의 화상의 공간적 또한 시간적인 변화를 나타내는 특징량인, 시공간 특징량을 추출하는 특징 추출부와, 해시 함수를 사용하여, 상기 국소 영역의 시공간 특징량의 값을 해시값으로 변환하고, 또한 학습에 의해 미리 얻어진 시공간 특징량의 학습값이 각 해시값에 대응하는 엔트리로서 등록되어 있는 해시 테이블을 사용하여, 상기 국소 영역의 해시값에 대응하는 학습값을 선택하는 해싱부와, 상기 국소 영역의 시공간 특징량의 값과 상기 선택된 학습값 사이의 거리에 기초하여, 상기 거리가 클수록 어텐션 정도가 커지도록, 상기 국소 영역의 어텐션 정도를 결정하는 어텐션 정도 결정부를 갖는다.

Description

어텐션 검출 장치 및 어텐션 검출 방법 {ATTENTION DETECTION APPARATUS AND ATTENTION DETECTION METHOD}
본 발명은, 동화상에 있어서 시각적 주의(visual attention)를 끌 것으로 예측되는 영역을 검출하는 기술에 관한 것이다.
화상 해석에 의해, 화상 중에서 사람의 시각적 주의를 끌 것으로 예측되는 영역, 혹은 비정상적인 영역(이러한 영역을 어텐션 영역이라고 칭함)을 자동으로 검출하는 기술이 알려져 있다(예를 들어, 특허문헌 1 참조). 이러한 종류의 기술은, 어텐션 검출(visual attention detection), 현저성 검출(saliency detection) 등이라고 불리고, 컴퓨터 비전 등의 분야에 있어서의 중요한 요소 기술로서 큰 주목을 모으고 있다. 특히, 동화상을 대상으로 한 어텐션 검출은, 예를 들어 감시 카메라에 의한 이상이나 부정의 검출, 차량이나 로봇의 자동 운전 등, 다양한 분야에의 응용이 기대되고 있다.
어텐션 검출의 알고리즘은, 일반적으로, 모델 베이스의 방법과 학습 베이스의 방법으로 크게 구별된다. 모델 베이스의 방법이라 함은, 비정상이라고 판단할 화상 특징을 모델로서 부여하고, 그러한 화상 특징을 갖는 영역을 화상 중에서 검출하는 방법이다. 그러나, 미지의 비정상 상태를 가정하는 것은 간단하지 않으며, 현실 세계에서 발생하는 다양한 사상에 대응 가능한 모델을 실장하는 것은 극히 어렵다. 한편, 학습 베이스의 방법은, 대량의 학습 데이터를 사용하여, 정상 또는 비정상이라고 판단할 화상 특징을 학습하는 방법이다. 학습 베이스의 방법은, 모델이나 가설이 필요 없어, 더욱 간단하게 고정밀도의 검출기를 구축할 수 있다고 하는 이점이 있다. 그러나, 이 방법은 학습 데이터의 의존도가 높기 때문에, 학습 데이터가 적절하지 않으면 검출 정밀도가 저하된다고 하는 문제가 있다. 또한, 적절한 학습 데이터를 사용하여 사전 학습을 행한 경우라도, 시간의 경과와 함께 관찰 대상, 상황, 환경 등이 변화되어, 학습한 지식이 적절하지 않게 되는 케이스도 있다. 그러한 경우는, 현재의 상황에 의거한 새로운 학습 데이터를 준비하여 재학습을 행할 필요가 있어, 메인터넌스가 번거롭다.
일본 특허 공개 제2010-258914호 공보
본 발명은, 상기 실정에 비추어 이루어진 것이며, 동화상의 어텐션 검출에 있어서, 실장이 용이하고 또한 신뢰성이 우수한 신규의 알고리즘을 제공하는 것을 목적으로 한다.
또한 본 발명의 다른 목적은, 동화상의 어텐션 검출에 있어서, 대상이나 환경 등의 변화에 유연하게 적응 가능한 알고리즘을 제공하는 것이다.
상기 목적을 달성하기 위해, 본 발명은 이하의 구성을 채용한다.
구체적으로는, 본 발명에 관한 어텐션 검출 장치는, 동화상에 있어서 시각적 주의를 끌 것으로 예측되는 영역을 검출하기 위한 어텐션 검출 장치이며, 동화상 내의 국소 영역에 대해, 상기 국소 영역 내의 화상의 공간적 또한 시간적인 변화를 나타내는 특징량인, 시공간 특징량을 추출하는 특징 추출부와, 해시 함수를 사용하여, 상기 국소 영역의 시공간 특징량의 값을 해시값으로 변환하고, 또한 학습에 의해 미리 얻어진 시공간 특징량의 학습값이 각 해시값에 대응하는 버킷에 등록되어 있는 해시 테이블을 사용하여, 상기 국소 영역의 해시값에 대응하는 학습값을 선택하는 해싱부와, 상기 국소 영역의 시공간 특징량의 값과 상기 선택된 학습값 사이의 거리에 기초하여, 상기 거리가 클수록 어텐션 정도가 커지도록, 상기 국소 영역의 어텐션 정도를 결정하는 어텐션 정도 결정부를 갖는 것을 특징으로 한다.
「시공간 특징량」은, 동화상 내의 피사체의 움직임·변화를 수치화한 지표라고 할 수 있다. 그러므로, 「시공간 특징량의 학습값」은, 피사체의 움직임·변화의 통상 상태(정상값)를 나타내고 있고, 한편, 「국소 영역의 시공간 특징량의 값」은, 처리 대상의 동화상으로부터 검출된 피사체의 움직임·변화, 즉, 현재의 상태를 나타내고 있다. 따라서, 「국소 영역의 시공간 특징량의 값」과 「선택된 학습값」사이의 거리의 크기를 평가하는 것은, 피사체의 움직임·변화의 현재의 상태가 통상의 상태로부터 어느 정도 상이한지를 평가하는 것과 등가이다. 일반적으로, 통상의 상태와 상이한 움직임·변화를 나타내는 것은 사람의 시각적 주의를 끌기 쉬운 경향이 있다. 따라서, 본 발명과 같이, 「국소 영역의 시공간 특징량의 값」과 「선택된 학습값」사이의 거리 크기에 기초하여 어텐션 정도를 결정함으로써, 어텐션 영역을 고정밀도로 검출(추정)하는 것이 가능하다.
또한, 본 발명에서는, 시공간 특징량의 학습값이 각 해시값에 대응하는 버킷에 등록되어 있는 해시 테이블을 사용하여, 국소 영역의 해시값에 대응하는 학습값을 선택한다. 이에 의해, 모든 학습값 중에서, 국소 영역의 시공간 특징량의 값과 비교할 학습값 분포를, 간단하고 또한 고속으로 선택할 수 있다.
또한, 본 발명에 따르면, 종래의 모델 베이스의 방법과 같이 복잡한 모델을 설계할 필요가 없이, 학습에 의해 해시 테이블에 학습값을 등록만 하면 된다. 따라서, 어텐션 검출 장치의 실장의 용이화를 도모할 수 있다. 또한, 해시 테이블을 갱신하는 것만으로, 대상이나 환경 등의 변화에 유연하게 적응 가능하다고 하는 이점도 있다.
상기 학습값은, 상기 동화상과 동일한 촬영 대상 및 동일한 촬영 조건에서 촬영된 소정 기간분의 동화상으로부터 추출된 시공간 특징량의 값이면 된다. 이와 같이 학습용 동화상을 선택함으로써, 동화상 내의 피사체의 움직임·변화의 통상 상태(정상값)를 적절하게 학습할 수 있다.
상기 해싱부는, 복수의 해시 테이블을 갖고 있고, 상기 어텐션 정도 결정부는, 상기 복수의 해시 테이블을 각각 사용하여 복수의 어텐션 정도를 계산하고, 상기 복수의 어텐션 정도를 통합함으로써 최종적인 어텐션 정도를 결정하면 된다. 학습값의 분포의 편차나 해시 함수의 편차 등이 원인으로, 어텐션 정도의 계산 결과의 신뢰성이 저하될 가능성이 있다. 따라서, 상기한 바와 같이 복수의 해시 테이블을 사용하여, 복수의 계산 결과를 통합함으로써, 어텐션 검출의 신뢰성을 향상시킬 수 있다.
상기 국소 영역의 시공간 특징량의 값을 새로운 학습값으로서 상기 해시 테이블에 등록함으로써, 상기 해시 테이블을 갱신하는 해시 테이블 갱신부를 더 가지면 좋다. 이에 의해, 해시 테이블이 현재의 상태(국소 영역의 시공간 특징량의 값)를 추가 학습하므로, 어텐션 검출의 신뢰성을 더욱 향상시킬 수 있다.
상기 해시 테이블 갱신부는, 등록되어 있는 학습값의 수가 역치보다 작은 버킷을 삭제함으로써, 상기 해시 테이블을 갱신할 수도 있다. 학습값이 적은 버킷을 사용하면, 어텐션 정도의 추정 오차가 커질 가능성이 있다. 그러므로, 학습값이 적은 버킷을 삭제하여, 어텐션 정도의 계산에 사용되지 않도록 함으로써, 어텐션 검출의 신뢰성 및 안정성을 향상시킬 수 있다.
상기 동화상의 프레임 내의 움직이는 영역을 전경 영역으로서 추출하는 전경 추출부와, 상기 어텐션 정도 결정부에 의해 결정된 어텐션 정도의 정보와, 상기 전경 추출부에 의해 추출된 전경 영역의 정보로부터, 상기 전경 영역 내의 어텐션 정도가 균일해지도록 수정한 어텐션 맵을 생성하는 어텐션 맵 수정부를 더 가지면 좋다. 이와 같이, 전경 영역(움직이는 영역)의 단위로 어텐션 정도를 출력함으로써, 어텐션 검출의 신뢰성을 더욱 향상시킬 수 있다.
또한, 본 발명은, 상기 구성 내지 기능의 적어도 일부를 갖는 어텐션 검출 장치로서 파악할 수 있다. 또한 본 발명은, 상기 처리의 적어도 일부를 포함하는 어텐션 검출 방법으로서 파악할 수 있다. 또한, 본 발명은 이들 방법을 컴퓨터에 실행시키기 위한 프로그램, 또는 그러한 프로그램을 비일시적으로 기록한 컴퓨터 판독 가능한 기록 매체로서 파악할 수도 있다. 상기 구성 및 처리 각각은 기술적인 모순이 발생하지 않는 한 서로 조합하여 본 발명을 구성할 수 있다.
본 발명에 따르면, 동화상의 어텐션 검출에 있어서, 실장이 용이하고 또한 신뢰성이 우수한 신규의 알고리즘을 제공할 수 있다. 또한, 동화상의 어텐션 검출에 있어서, 대상이나 환경 등의 변화에 유연하게 적응 가능한 알고리즘을 제공할 수 있다.
도 1은 제1 실시 형태의 어텐션 검출 장치의 기능 구성을 도시하는 블록도.
도 2는 입력 동화상과 국소 화상과 화상 블록의 관계를 모식적으로 도시하는 도면.
도 3은 HOF의 개념을 도시하는 도면.
도 4는 LSH의 해시 함수의 개념을 나타내는 도면.
도 5의 (A)는 해시 테이블의 개념을 나타내는 도면, 도 5의 (B)는 해시 테이블과 해시 함수와 엔트리의 관계를 모식적으로 나타내는 도면.
도 6은 해시 테이블의 학습 처리의 흐름도.
도 7은 어텐션 검출 처리의 흐름도.
도 8은 어텐션 정도의 계산식을 설명하기 위한 도면.
도 9는 동화상과 어텐션 맵의 예를 나타내는 도면.
도 10은 제2 실시 형태의 어텐션 검출 장치의 기능 구성을 도시하는 블록도.
도 11은 전경 영역 정보에 의한 어텐션 맵의 수정을 설명하기 위한 도면.
도 12는 제3 실시 형태의 어텐션 검출 장치의 기능 구성을 도시하는 블록도.
본 발명은, 컴퓨터에 의한 화상 해석에 의해, 동화상에 있어서 시각적 주의를 끌 것으로 예측되는 영역(어텐션 영역)을 자동으로 검출하는 어텐션 검출 알고리즘에 관한 것이다. 어텐션 검출의 결과인 어텐션 정보는, 예를 들어 픽셀마다 또는 소영역마다의 어텐션 정도의 분포를 나타내는 어텐션 맵, 또는 어텐션 맵을 소정의 역치에서 2치화한 2치 화상의 형식으로 출력된다. 이러한 어텐션 정보는, 컴퓨터 비전 애플리케이션(예를 들어, 화상의 영역 분할(세그멘테이션), 화상 분류, 씬 해석, 화상 압축, 얼굴 인식, 물체 인식)의 전처리 등, 다양한 용도에 바람직하게 이용된다.
본 발명에 관한 어텐션 검출 알고리즘의 특징 중 하나는, 화상 특징의 평가 및 어텐션 정도의 평가에, 해싱 기술을 응용한 점이다. 해싱은, 데이터의 검색, 암호화, 전자 인증 등의 분야에서 종래부터 사용되고 있는 기술이기는 하지만, 이것을 어텐션 검출에 적용한 예는 없다.
이하에, 본 발명에 관한 어텐션 검출 알고리즘의 구체적인 실시 형태의 일례를, 도면을 사용하여 설명한다. 단, 이하에 서술하는 실시 형태는 본 발명의 적합한 구성예를 나타내는 것이며, 본 발명의 범위를 그 구성예에 한정하는 취지의 것은 아니다.
<제1 실시 형태>
(장치 구성)
도 1은, 본 발명의 제1 실시 형태에 관한 어텐션 검출 장치의 기능 구성을 도시하는 블록도이다. 도 1의 어텐션 검출 장치(1)는, 주된 구성으로서, 동화상 취득부(10), 화상 분할부(11), 특징 추출부(12), 해싱부(13), 어텐션 정도 결정부(14), 기억부(15)를 갖는다.
동화상 취득부(10)는, 검사 대상이 되는 동화상을 취득하는 기능을 갖는다. 동화상 취득부(10)는, 촬상 장치(비디오 카메라)로부터 동화상 데이터를 도입해도 되고, 기억 장치나 네트워크 상의 서버 등으로부터 동화상 데이터를 읽어들여도 된다. 본 실시 형태에서는, 감시 카메라로부터 도입되는 30fps의 그레이 스케일 동화상을 사용한다. 단, 동화상의 형식은 이것에 한정되지 않고, 컬러의 동화상을 사용해도 된다. 취득된 입력 동화상은, 기억부(15)에 기억된다.
화상 분할부(11)는, 입력 동화상을 시간 방향(t)과 공간 방향(x, y)으로 분할하여, 복수의 화상 블록을 생성하는 기능을 갖는다. 여기서, 화상 블록이라 함은, 복수 프레임분의 동일한 공간 위치의 국소 화상으로 구성되는 화상 세트이며, 큐보이드(cuboid) 또는 시공간 화상(spatio-temporal image)이라고도 불린다. 화상 블록은, 입력 동화상 중의 어느 국소 영역 내의 어느 국소 시간분의 동화상을 잘라낸 것이라고 할 수 있다. 본 실시 형태에서는, 화상의 공간적 또한 시간적인 변화를 포착하기 위해, 화상 블록 단위로 화상 특징의 추출 및 평가를 행한다. 도 2에, 입력 동화상(20), 국소 화상(21), 화상 블록(22)의 관계를 모식적으로 도시한다. 예를 들어, 입력 동화상(20)이 30fps·VGA(640 픽셀×480 픽셀)·1분간의 동화상이며, 화상 블록(22)의 사이즈가 5 픽셀×5 픽셀×5 프레임이었을 경우, 입력 동화상(20)은 73728개의 화상 블록(22)으로 분할되게 된다.
특징 추출부(12)는, 각 화상 블록(22)으로부터 시공간 특징량을 추출하는 기능을 갖는다. 시공간 특징량이라 함은, 화상의 공간적인 변화와 시간적인 변화를 모두 나타내는 화상 특징을 말하며, 동화상 내의 피사체(사람, 물체 등)의 움직임이나 변화를 수치화한 지표이다. 본 실시 형태에서는 시공간 특징량으로서 HOF(Histogram of Optical Flow)를 이용하지만, 본 알고리즘에는, 모션 벡터 등 다른 시공간 특징량을 사용해도 된다.
도 3에, HOF의 개념을 나타낸다. 특징 추출부(12)는, 화상 블록(22)의 각 프레임으로부터 특징점(30)을 검출하고, 프레임 사이에서의 특징점(30)의 대응을 취함으로써 각 특징점(30)의 움직임을 검출한다. 이 특징점(30)의 움직임은 옵티컬 플로우(Optical Flow)(31)라고 불린다. 그리고, 특징 추출부(12)는, 각 특징점(30)의 옵티컬 플로우(31)의 방향(각도) θ와 속도(강도) v를 구하고, 방향 θ 및 속도 v를 횡축으로 하는 히스토그램(32)에 도수를 플롯한다. 이러한 조작에 의해, 화상 블록(22)으로부터 추출된 복수의 옵티컬 플로우(31)가 1개의 히스토그램(32)으로 변환된다. 이 히스토그램(32)이 HOF이다. 예를 들어, 방향 θ를 8빈(bin), 속도 v를 10빈(bin)으로 나눈 경우, HOF는 18차원의 특징량 벡터가 된다.
해싱부(13)는, 해시 함수를 사용하여 시공간 특징량의 값을 해시값으로 변환하는 기능과, 해시 테이블을 참조하여 해시값에 대응하는 엔트리를 취득하는 기능을 갖는다.
해시 함수는, 입력된 데이터(본 실시 형태에서는 HOF)를 단순한 비트 열로 이루어지는 해시값으로 변환하는 함수이다. 해시 함수에는 종래부터 다양한 것이 제안되어 있고, 본 알고리즘에는 어떠한 해시 함수를 사용해도 된다. 이하에서는, 해시 함수로서 LSH(Locality-sensitive hashing)를 이용하는 예를 설명한다. LSH는, 해시 함수의 생성에 교사 신호가 불필요하고, 처리가 고속이고, 유사한 데이터가 동일한 해시값으로 변환될 확률이 높은 등의 이점을 갖고 있으며, 본 실시 형태에서 다루는 것과 같은 동화상의 리얼타임 해석에는 특히 유효하다.
도 4에, LSH의 해시 함수의 개념을 나타낸다. LSH의 해시 함수 g(x)는, n차원의 특징량 공간 상에 랜덤하게 배치된 k개의 초평면 h1(x)∼hk(x)로 구성된다. 설명의 편의로부터, 도 4에는 n=2, k=5의 예를 나타내지만(이 경우, 초평면은 직선이 됨), 실장하는 프로그램에서는, 특징량 공간의 차원 수 n은 수 차원 내지 수백 차원이 되고, 초평면의 수 k는 수십 개 내지 수백 개가 된다.
특징량의 값 x(x는 n차원 벡터)가 입력되면, 해싱부(13)는, 값 x가 초평면 h1(x)에 대해 플러스측에 있는지 마이너스측에 있는지를 판정하고, 값 x의 초평면 h1(x)에 대한 위치를 1(플러스측)이나 0(마이너스측)으로 부호화한다. 해싱부(13)는, 나머지 초평면 h2(x)∼hk(x)에 관해서도 마찬가지의 판정을 행하고, 얻어진 k개의 부호를 조합함으로써, k 비트의 해시값을 생성한다. 도 4의 예에서는, 값 x1은, h1(x), h3(x), h4(x)에 대해 마이너스측에 있고, h2(x), h5(x)에 대해 플러스측에 있으므로, 값 x1의 해시값은 「01001」이 된다. 또한, 값 x2는, h2(x), h3(x)에 대해 마이너스측에 있고, h1(x), h4(x), h5(x)에 대해 플러스측에 있으므로, 값 x2의 해시값은 「10011」이 된다.
도 5의 (A)에, 해시 테이블의 개념을 나타낸다. 해시 테이블은, 복수의 버킷으로 구성되는 배열 데이터이며, 각 버킷에는, 인덱스로서의 해시값과 그 해시값에 대응하는 엔트리가 등록되어 있다. 본 실시 형태에서는, 해시값에 대응하는 엔트리로서, 그 해시값을 부여하는 시공간 특징량의 샘플 데이터가 각 버킷에 등록된다. 샘플 데이터는, 예를 들어 동화상을 사용한 학습에 의해 취득·축적된 데이터이다.
도 5의 (B)는, 해시 테이블과 해시 함수와 엔트리의 관계를 모식적으로 나타내고 있다. 해시 함수(초평면 h1(x)∼hk(x))에 의해 구분된 서브 공간이 해시 테이블의 버킷에 대응하고, 서브 공간 내에 플롯된 샘플 데이터가 버킷에 등록되는 엔트리에 대응한다. 도 5의 (B)로부터 알 수 있는 바와 같이, 하나의 버킷에는 2개 이상의 엔트리를 등록하는 것도 가능하고, 반대로, 엔트리를 하나도 포함하지 않는 버킷도 존재할 수 있다.
어텐션 정도 결정부(14)는, 해싱의 결과를 사용하여 각 화상 블록(22)의 어텐션 정도를 결정하고, 어텐션 맵을 생성하는 기능을 갖는다. 어텐션 정도 결정부(14)의 기능의 상세에 대해서는 후술한다.
어텐션 검출 장치(1)는, 예를 들어 CPU(프로세서), 메모리, 보조 기억 장치, 입력 장치, 표시 장치, 통신 장치 등을 구비하는 컴퓨터에 의해 구성할 수 있다. 도 1에 도시한 어텐션 검출 장치(1)의 각 기능은, 보조 기억 장치에 저장된 프로그램을 메모리에 로드하고, CPU가 실행함으로써 실현된다. 단, 어텐션 검출 장치(1)의 일부 또는 전부의 기능을 ASIC이나 FPGA 등의 회로에서 실현할 수도 있다. 혹은, 어텐션 검출 장치(1)의 일부의 기능을 클라우드 컴퓨팅이나 분산 컴퓨팅에 의해 실현해도 된다.
(해시 테이블의 학습)
도 6을 참조하여, 어텐션 검출 장치(1)가 실행하는 해시 테이블의 학습 처리의 상세를 설명한다. 도 6은, 해시 테이블의 학습 처리의 흐름도이다. 이 처리는, 예를 들어 어텐션 검출 장치(1)의 설치 시나 운용 개시 시 등의 타이밍에, 신규 해시 함수 및 해시 테이블을 생성하기 위해 실행된다.
스텝 S600에서는, 동화상 취득부(10)가 학습용 동화상을 취득한다. 학습용 동화상으로서는, 후술하는 어텐션 검출에 있어서 처리 대상으로 하는 동화상과, 동일한 촬영 대상(장소, 피사체 등) 및 동일한 촬영 조건(앵글, 배율, 노출, 프레임 레이트 등)에서 촬영된 소정 기간분의 동화상을 사용하는 것이 좋다. 이와 같이 학습용 동화상을 선택함으로써, 동화상 내의 피사체의 움직임·변화의 통상의 상태(정상값)를 학습할 수 있기 때문이다. 예를 들어, 어텐션 검출 장치(1)를 감시 카메라에 의한 이상 검출에 적용하는 것이면, 감시 카메라에 의해 촬영된 수 시간 내지 수 일분의 동화상을 사용하면 된다.
스텝 S601에서는, 화상 분할부(11)가, 학습용 동화상을 화상 블록으로 분할한다(도 2 참조). 스텝 S602에서는, 특징 추출부(12)가, 각 화상 블록의 특징량을 계산한다. 여기서 계산된 특징량 데이터는 기억부(15)에 축적된다. 또한, 스텝 S601 및 S602의 처리는, 필요한 프레임 수(도 2의 예에서는 5 프레임)의 동화상 데이터가 읽어들여질 때마다 순차 실행해도 된다.
이상과 같이 하여 학습용 특징량 데이터가 얻어지면, 해시 함수 및 해시 테이블의 생성 처리로 이행한다. 본 실시 형태에서는, 해싱 처리의 신뢰성 향상을 위해, 동일한 학습용 특징량 데이터로부터 복수 세트의 해시 함수 및 해시 테이블을 생성한다.
먼저, 해싱부(13)는, 해시 함수(즉, k개의 초평면)를 랜덤으로 생성함(스텝 S603)과 함께, 해시 테이블용으로 버킷수 2k개의 배열을 신규 생성하여, 각 버킷을 초기화한다(스텝 S604). 계속해서, 해싱부(13)는, 학습용 특징량 데이터로부터 1개의 값(학습값이라고 칭함)을 취출하고, 그 학습값을 스텝 S603에서 생성된 해시 함수에서 해시값으로 변환한다(스텝 S605). 그리고, 해싱부(13)는, 스텝 S605에서 얻어진 해시값에 해당되는 버킷에, 그 학습값을 등록한다(스텝 S606). 스텝 S605, S606의 처리를 학습용 특징량 데이터에 포함되는 모든 학습값에 대해 실행하면(스텝 S607), 해시 테이블의 완성이다.
그리고, 스텝 S603∼S607의 처리를 L회 반복함으로써, L 세트의 해시 함수 및 해시 테이블이 얻어진다. L의 값은, 실험 내지 경험에 의해 임의로 정할 수 있다(본 실시 형태에서는 L=10으로 함). 이상으로 해시 테이블의 학습 처리는 완료이다.
(어텐션 검출)
도 7을 참조하여, 어텐션 검출 장치(1)가 실행하는 어텐션 검출 처리의 상세를 설명한다. 도 7은 어텐션 검출 처리의 흐름도이다. 이 처리는, 어텐션 검출 장치(1)의 운용 중에 연속적 또는 정기적으로 실행된다.
스텝 S700에서는, 동화상 취득부(10)가 처리 대상의 동화상 데이터를 취득한다. 예를 들어, 감시 카메라로부터 5 프레임분의 동화상 데이터가 도입된다. 스텝 S701에서는, 화상 분할부(11)가, 동화상 데이터를 화상 블록으로 분할한다(도 2 참조). 스텝 S702에서는, 특징 추출부(12)가, 각 화상 블록의 특징량을 계산한다. 여기서 계산된 특징량의 데이터는 기억부(15)에 축적된다.
이어지는 스텝 S703∼S708의 처리는, 동화상 내의 각각의 화상 블록에 대해 차례로 실행된다. 이후, 처리 대상의 화상 블록을 「대상 블록」이라고 칭한다.
먼저, 해싱부(13)는, i번째(i=1∼L)의 해시 함수를 사용하여, 대상 블록의 특징량의 값을 해시값으로 변환한다(스텝 S703, S704). 계속해서, 해싱부(13)는, i번째의 해시 테이블로부터, 대상 블록의 해시값에 대응하는 버킷의 엔트리(학습값)를 취득한다(스텝 S705). 만일 해시값에 대응하는 버킷에 학습값이 1개도 포함되어 있지 않은(빈 버킷이라고 칭함) 경우에는, 빈 버킷 대신에 대상 블록의 특징량의 값에 가장 가까운 학습값을 포함하는 버킷(인접 버킷이라고 칭함)의 엔트리를 취득하면 된다. 스텝 S705에서 취득된 학습값을, 이후, 「대응 학습값」이라고 칭한다. 대응 학습값은, 복수의 학습값을 포함하는 것이 대부분이지만, 1개의 학습값뿐인 경우도 있을 수 있다.
다음으로, 어텐션 정도 결정부(14)가, 대상 블록의 특징량의 값과 대응 학습값 사이의 특징량 공간 상에서의 거리에 기초하여, 대상 블록의 어텐션 정도를 구한다(스텝 S706). 본 실시 형태에서는, 하기 식에 의해, 대상 블록의 어텐션 정도 Ai(z)가 계산된다.
Figure pat00001
여기서, i는 해시 테이블의 번호이며, i=1∼L이다. z는 대상 블록의 특징량의 값(특징량 벡터)이다. cm은 대응 학습값 분포의 중심(무게 중심)이고, rm은 대응 학습값 분포의 중심(무게 중심)과 최외 학습값 사이의 거리이다(도 8 참조).
적용하는 해시 함수 및 해시 테이블을 바꾸면서, 스텝 S703∼S706의 처리를 반복함으로써, L개의 어텐션 정도 A1(z)∼AL(z)이 계산된다(스텝 S707). 마지막으로, 어텐션 정도 결정부(14)는, 각 해시 테이블에서 얻어진 어텐션 정도 A1(z)∼AL(z)을 통합함으로써, 최종적인 어텐션 정도 A(z)를 계산한다(스텝 S708). 통합 방법은 임의이지만, 본 실시 형태에서는, 하기 식과 같은 가중 가산을 사용한다.
Figure pat00002
αi는 가중치이며, 실험 내지 경험에 기초하여 적절하게 설정할 수 있다. 예를 들어, 해시 테이블의 신뢰성을 평가하여, 신뢰성이 낮은 해시 테이블의 가중치는 작게, 신뢰성이 높은 해시 테이블의 가중치는 크게 설정해도 된다. 해시 테이블의 신뢰성은, 예를 들어 각 버킷 내의 학습값 분포, 버킷간의 학습값 분포의 분리도, 버킷간의 학습값의 수의 편차 등으로 평가할 수 있다. 물론, α1, …, αL=1/L과 같이 모든 가중치를 동등하게 해도 된다.
동화상의 모든 화상 블록에 대해 어텐션 정도 A(z)를 구하면, 어텐션 정도 결정부(14)는 어텐션 맵을 생성한다. 도 9에, 동화상(90)과 어텐션 맵(91)의 일례를 나타낸다. 어텐션 맵(91)에서는, 화상 블록마다의 어텐션 정도가 그레이 스케일로 나타내어져 있고, 밝은(백색에 가까운) 화상 블록일수록 어텐션 정도가 높은 것을 나타내고 있다. 동화상(90)에는 움직이는 물체로서 사람(92)과 물체(자동차)(93)가 찍혀 있지만, 어텐션 맵(91)을 보면, 사람(92)의 영역만 어텐션 정도가 크게 되어 있다. 예를 들어, 고속도로의 감시 카메라의 동화상 경우, 주행하는 자동차가 화상에 찍히는 것은 통상(정상)이지만, 걷고 있는 사람이 찍히는 것은 이상하다(비정상). 그러한 경우에는, 비정상적인 움직임이 검출된 사람(92)의 영역만 어텐션 정도가 커진다. 이러한 어텐션 맵은, 기억부(15)에 보존되거나, 또는 외부장치에 출력되어, 물체 인식이나 화상 인식 등의 각종 컴퓨터 비전 애플리케이션에 이용된다.
(본 실시 형태의 이점)
해시 테이블에 등록되어 있는 학습값은, 피사체의 움직임·변화의 통상의 상태(정상값)를 나타내고 있고, 한편, 대상 블록의 특징량의 값은, 처리 대상의 동화상으로부터 검출된 피사체의 움직임·변화, 즉, 현재의 상태를 나타내고 있다. 따라서, 대상 블록의 특징량의 값과 대응 학습값 사이의 특징량 공간 상에서의 거리의 크기를 평가하는 것은, 피사체의 움직임·변화의 현재의 상태가 통상의 상태로부터 어느 정도 상이한지를 평가하는 것과 등가이다. 일반적으로, 통상의 상태와 상이한 움직임·변화를 나타내는 것은 사람의 시각적 주의를 끌기 쉬운 경향이 있다. 따라서, 본 실시 형태의 어텐션 검출 알고리즘에 의하면, 어텐션 영역을 고정밀도로 검출(추정)하는 것이 가능하다.
또한, 본 실시 형태에서는, 시공간 특징량의 학습값이 각 해시값에 대응하는 버킷에 등록되어 있는 해시 테이블을 사용하여, 대상 블록의 해시값에 대응하는 학습값을 선택한다. 이에 의해, 모든 학습값 중에서, 대상 블록의 시공간 특징량의 값과 비교할 학습값 분포를, 간단하고 또한 고속으로 선택할 수 있다.
또한, 본 실시 형태에 따르면, 종래의 모델 베이스의 방법과 같이 복잡한 모델을 설계할 필요가 없이, 학습에 의해 해시 테이블에 학습값을 등록만 하면 된다. 따라서, 어텐션 검출 장치의 실장의 용이화를 도모할 수 있다. 또한, 해시 테이블을 갱신하는 것만으로, 대상이나 환경 등의 변화에 유연하게 적응 가능하다고 하는 이점도 있다. 또한, 본 실시 형태에서는, 복수의 해시 테이블을 사용하여, 복수의 계산 결과를 통합하여 최종적인 어텐션 정도를 구하므로, 학습값의 분포의 편차나 해시 함수의 편차 등에 기인하는 신뢰성의 저하를 억제하여, 고신뢰의 어텐션 검출을 실현할 수 있다.
<제2 실시 형태>
제1 실시 형태에서 얻어지는 어텐션 맵은 화상 블록 단위의 어텐션 정도로 구성되므로, 도 9에 도시하는 바와 같이, 어텐션 정도의 분포와, 동화상 중의 사람(92)이나 물체(93)의 영역이 일치하지 않는 경우가 있다. 그러나, 통상, 시각적 주의는, 사람이나 물체를 향하게 되는 경우가 많으므로, 화상 블록 단위가 아니라, 사람이나 물체의 영역 단위로 어텐션 정도를 출력하는 것이 바람직하다. 따라서, 제2 실시 형태에서는, 동화상의 전경 영역을 추출하고, 그 전경 영역에 따라서 어텐션 맵을 수정하는 구성을 채용한다.
도 10은, 본 실시 형태의 어텐션 검출 장치(1)의 기능 구성을 도시하는 블록도이다. 제1 실시 형태(도 1)와의 차이는, 전경 추출부(16) 및 어텐션 맵 수정부(17)를 갖는 점이다. 그 밖의 구성에 대해서는 제1 실시 형태의 것과 동일하다.
전경 추출부(16)는, 동화상의 프레임 내의 「움직이는 영역」을 전경 영역으로서 추출하는 기능을 갖는다. 구체적으로는, 전경 추출부(16)는, 특징 추출부(12)가 시공간 특징량을 계산할 때에 구한 옵티컬 플로우를 사용하여, 옵티컬 플로우의 강도(속도)가 역치 이상인 영역을 전경 영역이라고 판정한다. 옵티컬 플로우를 유용함으로써, 전경 추출에 필요한 계산량을 작게 할 수 있어, 처리의 고속화를 도모할 수 있다. 또한, 본 실시 형태의 알고리즘에 비해 계산량은 커지지만, 비디오 세그멘테이션이나 모션 클러스터링 등의 전경 추출 알고리즘을 사용해도 된다.
어텐션 맵 수정부(17)는, 전경 추출부(16)에서 얻어진 전경 영역 정보에 기초하여, 각각의 전경 영역 내의 어텐션 정도가 균일해지도록, 어텐션 맵을 수정하는 기능을 갖는다. 구체적으로는, 어텐션 맵 수정부(17)는, 1개의 전경 영역에 복수의 화상 블록이 오버랩되는 경우, 그들 화상 블록의 어텐션 정도 중 최댓값을 당해 전경 영역의 어텐션 정도로 설정한다.
도 11은, 동화상(90), 어텐션 맵(91), 전경 영역 정보(94), 수정 후의 어텐션 맵(95)의 예를 나타내고 있다. 어텐션 정도가 스무딩되어, 영역 단위로 어텐션 정도의 균일화가 도모되어 있는 것을 알 수 있다. 이와 같이, 본 실시 형태에 따르면, 전경 영역(움직이는 영역)의 단위로 어텐션 정도를 출력할 수 있으므로, 어텐션 검출의 신뢰성을 더욱 향상시킬 수 있다.
<제3 실시 형태>
도 12는, 본 발명의 제3 실시 형태에 관한 어텐션 검출 장치(1)의 기능 구성을 도시하는 블록도이다. 제1 실시 형태(도 1)와의 차이는, 해시 테이블 갱신부(18)를 갖는 점이다. 그 밖의 구성에 대해서는 제1 실시 형태의 것과 동일하다.
해시 테이블 갱신부(18)는, 해시 테이블의 온라인 갱신을 행하는 기능을 갖는다. 여기서, 「온라인」이라 함은 「어텐션 검출 장치의 운용 중(가동 중)에」라고 하는 의미이다. 구체적으로는, 해시 테이블 갱신부(18)는, 정기적(예를 들어, 30분에 1회, 1일에 1회, 1주일에 1회 등)으로, 이하에 서술하는 「추가」와 「삭제」의 2종류의 갱신 조작을 행한다.
(추가)
추가라 함은, 처리 대상의 동화상으로부터 얻어진 시공간 특징량의 값을 새로운 학습값으로서 해시 테이블에 등록하는 갱신 조작이다. 이러한 갱신 조작에 의해, 해시 테이블이 현재의 상태를 추가 학습하므로, 어텐션 검출의 신뢰성을 향상시킬 수 있다.
처리 대상의 동화상으로부터 얻어지는 모든 값을 해시 테이블에 추가해도 되지만, 해시 테이블의 등록 엔트리 수가 방대해지면, 기억 용량의 압박이나 처리 속도의 저하 등의 문제가 발생한다. 따라서, 모든 값을 추가하는 것이 아니라, 소정의 조건을 만족시킨 것만을 추가하는 것이 바람직하다.
예를 들어, 도 7의 스텝 S705에서는, 대상 블록의 해시값에 대응하는 버킷이 빈 버킷이었을 경우, 빈 버킷 대신에 인접 버킷에 포함되는 학습값을 사용하여 어텐션 정도 A(z)가 계산된다. 이때, 어텐션 정도 A(z)가 역치 THa보다 작으면(즉, 대상 블록이 정상적인 움직임이라고 판정되면), 기억부(15)가 이 대상 블록의 특징량의 값을 일시적으로 유지한다. 이와 같이, 빈 버킷에 속하지만 「정상」이라고 판정되는 특징량의 값이 일정 수 이상 쌓이면, 해시 테이블 갱신부(18)는, 그들 특징량의 값을 해시 테이블의 빈 버킷에 등록한다. 이에 의해, 어텐션 정도의 계산에 사용되는 버킷이 증가하므로, 해싱의 신뢰성, 나아가 어텐션 검출의 신뢰성을 향상시킬 수 있다.
(삭제)
삭제라 함은, 등록되어 있는 학습값의 수가 역치 Tb보다 작은 버킷을 삭제하는 갱신 조작이다. 「버킷을 삭제하는」이라 함은, 버킷에 등록되어 있는 학습값을 모두 삭제한다(빈 버킷으로 한다)고 하는 의미이다. 학습값이 적은 버킷을 사용하면, 어텐션 정도의 추정 오차가 커질 가능성이 있다. 그러므로, 학습값이 적은 버킷을 삭제하여, 어텐션 정도의 계산에 사용되지 않도록 함으로써, 어텐션 검출의 신뢰성 및 안정성을 향상시킬 수 있다.
이상 서술한 바와 같이 본 실시 형태에 따르면, 해시 테이블의 자동 온라인 갱신을 실현할 수 있으므로, 대상이나 환경 등의 변화에 유연하게 적응할 수 있다.
<기타>
상술한 실시 형태는 본 발명의 일 구체예를 나타낸 것이며, 본 발명의 범위를 그들의 구체예에 한정하는 취지의 것은 아니다. 예를 들어, 제3 실시 형태에서 서술한 온라인 갱신의 기능을 제2 실시 형태의 장치에 조합해도 된다. 또한, 제3 실시 형태에서는, 기존의 해시 테이블에 대해 학습값의 추가/삭제를 행할 뿐이었지만, 기억부(15)에 축적된 특징량의 값을 사용하여 새롭게 해시 테이블을 생성해도 된다.
1 : 어텐션 검출 장치
10 : 동화상 취득부
11 : 화상 분할부
12 : 특징 추출부
13 : 해싱부
14 : 어텐션 정도 결정부
15 : 기억부
16 : 전경 추출부
17 : 어텐션 맵 수정부
18 : 해시 테이블 갱신부
20 : 입력 동화상
21 : 국소 화상
22 : 화상 블록
30 : 특징점
31 : 옵티컬 플로우
32 : 히스토그램
90 : 동화상
91 : 어텐션 맵
92 : 사람
93 : 물체
94 : 전경 영역 정보
95 : 어텐션 맵

Claims (7)

  1. 동화상에 있어서 시각적 주의를 끌 것으로 예측되는 영역을 검출하기 위한 어텐션 검출 장치이며,
    동화상 내의 국소 영역에 대해, 상기 국소 영역 내의 화상의 공간적 또한 시간적인 변화를 나타내는 특징량인, 시공간 특징량을 추출하는 특징 추출부와,
    해시 함수를 사용하여, 상기 국소 영역의 시공간 특징량의 값을 해시값으로 변환하고, 또한 학습에 의해 미리 얻어진 시공간 특징량의 학습값이 각 해시값에 대응하는 버킷에 등록되어 있는 해시 테이블을 사용하여, 상기 국소 영역의 해시값에 대응하는 학습값을 선택하는 해싱부와,
    상기 국소 영역의 시공간 특징량의 값과 상기 선택된 학습값 사이의 거리에 기초하여, 상기 거리가 클수록 어텐션 정도가 커지도록, 상기 국소 영역의 어텐션 정도를 결정하는 어텐션 정도 결정부를 갖는 것을 특징으로 하는, 어텐션 검출 장치.
  2. 제1항에 있어서,
    상기 학습값은, 상기 동화상과 동일한 촬영 대상 및 동일한 촬영 조건에서 촬영된 소정 기간분의 동화상으로부터 추출된 시공간 특징량의 값인 것을 특징으로 하는, 어텐션 검출 장치.
  3. 제1항 또는 제2항에 있어서,
    상기 해싱부는, 복수의 해시 테이블을 갖고 있고,
    상기 어텐션 정도 결정부는, 상기 복수의 해시 테이블을 각각 사용하여 복수의 어텐션 정도를 계산하고, 상기 복수의 어텐션 정도를 통합함으로써 최종적인 어텐션 정도를 결정하는 것을 특징으로 하는, 어텐션 검출 장치.
  4. 제1항 또는 제2항에 있어서,
    상기 국소 영역의 시공간 특징량의 값을 새로운 학습값으로서 상기 해시 테이블에 등록함으로써, 상기 해시 테이블을 갱신하는 해시 테이블 갱신부를 더 갖는 것을 특징으로 하는, 어텐션 검출 장치.
  5. 제4항에 있어서,
    상기 해시 테이블 갱신부는, 등록되어 있는 학습값의 수가 역치보다 작은 버킷을 삭제함으로써 상기 해시 테이블을 갱신하는 것을 특징으로 하는, 어텐션 검출 장치.
  6. 제1항 또는 제2항에 있어서,
    상기 동화상의 프레임 내의 움직이는 영역을 전경 영역으로서 추출하는 전경 추출부와,
    상기 어텐션 정도 결정부에 의해 결정된 어텐션 정도의 정보와, 상기 전경 추출부에 의해 추출된 전경 영역의 정보로부터, 상기 전경 영역 내의 어텐션 정도가 균일해지도록 수정한 어텐션 맵을 생성하는 어텐션 맵 수정부를 더 갖는 것을 특징으로 하는, 어텐션 검출 장치.
  7. 동화상에 있어서 시각적 주의를 끌 것으로 예측되는 영역을 검출하기 위한 어텐션 검출 방법이며,
    동화상 내의 국소 영역에 대해, 상기 국소 영역 내의 화상의 공간적 또한 시간적인 변화를 나타내는 특징량인, 시공간 특징량을 추출하는 스텝과,
    해시 함수를 사용하여, 상기 국소 영역의 시공간 특징량의 값을 해시값으로 변환하는 스텝과,
    학습에 의해 미리 얻어진 시공간 특징량의 학습값이 각 해시값에 대응하는 버킷에 등록되어 있는 해시 테이블을 사용하여, 상기 국소 영역의 해시값에 대응하는 학습값을 선택하는 스텝과,
    상기 국소 영역의 시공간 특징량의 값과 상기 선택된 학습값 사이의 거리에 기초하여, 상기 거리가 클수록 어텐션 정도가 커지도록 상기 국소 영역의 어텐션 정도를 결정하는 스텝을 갖는 것을 특징으로 하는, 어텐션 검출 방법.
KR1020160106819A 2015-09-29 2016-08-23 어텐션 검출 장치 및 어텐션 검출 방법 KR20170038144A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510633327.7A CN106557765A (zh) 2015-09-29 2015-09-29 注意检测装置以及注意检测方法
CN201510633327.7 2015-09-29

Publications (1)

Publication Number Publication Date
KR20170038144A true KR20170038144A (ko) 2017-04-06

Family

ID=56979325

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160106819A KR20170038144A (ko) 2015-09-29 2016-08-23 어텐션 검출 장치 및 어텐션 검출 방법

Country Status (5)

Country Link
US (1) US9904868B2 (ko)
EP (1) EP3151160B1 (ko)
JP (1) JP6565600B2 (ko)
KR (1) KR20170038144A (ko)
CN (1) CN106557765A (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017010514A1 (ja) * 2015-07-15 2017-01-19 日本電信電話株式会社 画像検索装置及び方法、撮影時刻推定装置及び方法、反復構造抽出装置及び方法、並びにプログラム
JP6751691B2 (ja) * 2017-06-15 2020-09-09 ルネサスエレクトロニクス株式会社 異常検出装置及び車両システム
KR102058393B1 (ko) * 2017-11-30 2019-12-23 국민대학교산학협력단 스케치 기반의 영상표절 검사 방법 및 장치
JP6742623B1 (ja) * 2019-11-13 2020-08-19 尚範 伊達 監視装置、監視方法、及びプログラム
SG10201913744SA (en) * 2019-12-30 2020-12-30 Sensetime Int Pte Ltd Image processing method and apparatus, electronic device, and storage medium
CN112559781B (zh) * 2020-12-10 2023-04-07 西北大学 一种图像检索系统和方法
CN116414867B (zh) * 2023-06-12 2023-08-22 中南大学 一种基于量化哈希编码的时空数据检索方法
CN116719418B (zh) * 2023-08-09 2023-10-27 湖南马栏山视频先进技术研究院有限公司 一种注视点预测模型的检验方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010258914A (ja) 2009-04-27 2010-11-11 Nippon Telegr & Teleph Corp <Ntt> 顕著領域映像生成方法、顕著領域映像生成装置、プログラムおよび記録媒体

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101404032B (zh) * 2008-11-11 2011-09-28 清华大学 一种基于内容的视频检索方法及系统
US8909025B2 (en) * 2011-03-22 2014-12-09 Georgia Tech Research Corporation Systems and methods for retrieving causal sets of events from unstructured signals
US9092520B2 (en) * 2011-06-20 2015-07-28 Microsoft Technology Licensing, Llc Near-duplicate video retrieval
US9165190B2 (en) * 2012-09-12 2015-10-20 Avigilon Fortress Corporation 3D human pose and shape modeling
CN103096122B (zh) * 2013-01-24 2015-04-22 上海交通大学 基于感兴趣区域内运动特征的立体视觉舒适度评价方法
JP6164899B2 (ja) * 2013-04-05 2017-07-19 キヤノン株式会社 ハッシュ値生成装置、システム、判定方法、プログラム、記憶媒体
CN103336957B (zh) * 2013-07-18 2016-12-28 中国科学院自动化研究所 一种基于时空特征的网络同源视频检测方法
JP6321153B2 (ja) * 2013-10-21 2018-05-09 マイクロソフト テクノロジー ライセンシング,エルエルシー モバイルビデオ検索
CN104036287B (zh) * 2014-05-16 2017-05-24 同济大学 一种基于人类运动显著轨迹的视频分类方法
CN104504365A (zh) * 2014-11-24 2015-04-08 闻泰通讯股份有限公司 视频序列中的笑脸识别系统及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010258914A (ja) 2009-04-27 2010-11-11 Nippon Telegr & Teleph Corp <Ntt> 顕著領域映像生成方法、顕著領域映像生成装置、プログラムおよび記録媒体

Also Published As

Publication number Publication date
US9904868B2 (en) 2018-02-27
EP3151160A1 (en) 2017-04-05
CN106557765A (zh) 2017-04-05
JP2017068815A (ja) 2017-04-06
JP6565600B2 (ja) 2019-08-28
US20170091573A1 (en) 2017-03-30
EP3151160B1 (en) 2019-06-12

Similar Documents

Publication Publication Date Title
KR20170038144A (ko) 어텐션 검출 장치 및 어텐션 검출 방법
CN110235138B (zh) 用于外观搜索的系统和方法
US11450114B2 (en) Information processing apparatus, information processing method, and computer-readable storage medium, for estimating state of objects
St-Charles et al. Universal background subtraction using word consensus models
US7982774B2 (en) Image processing apparatus and image processing method
CN105404884B (zh) 图像分析方法
EP2549759B1 (en) Method and system for facilitating color balance synchronization between a plurality of video cameras as well as method and system for obtaining object tracking between two or more video cameras
EP3255585A1 (en) Method and apparatus for updating a background model
CN108229418B (zh) 人体关键点检测方法和装置、电子设备、存储介质和程序
CN112418200B (zh) 基于热成像的对象检测方法、装置及服务器
KR102391853B1 (ko) 영상 정보 처리 시스템 및 방법
Hung et al. A fast algorithm of temporal median filter for background subtraction.
KR101537559B1 (ko) 객체 검출 장치, 차량용 객체 검출 장치 및 이들의 방법
CN114511661A (zh) 图像渲染方法、装置、电子设备及存储介质
CN108229281B (zh) 神经网络的生成方法和人脸检测方法、装置及电子设备
JP2013137604A (ja) 画像照合処理装置、画像照合処理方法及び画像照合処理プログラム
CN116402852A (zh) 基于事件相机的动态高速目标追踪方法及装置
CN110717593A (zh) 神经网络训练、移动信息测量、关键帧检测的方法及装置
CN113052019A (zh) 目标跟踪方法及装置、智能设备和计算机存储介质
CN112052823A (zh) 目标检测方法和装置
JPWO2018179119A1 (ja) 映像解析装置、映像解析方法およびプログラム
JP2014203133A (ja) 画像処理装置、画像処理方法
JP7243372B2 (ja) 物体追跡装置および物体追跡方法
CN112991419A (zh) 视差数据生成方法、装置、计算机设备及存储介质
KR20210031444A (ko) 데이터 프로그래밍에 기반한 레이블링 모델 생성 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal