KR20160143494A - 현저성 정보 취득 장치 및 현저성 정보 취득 방법 - Google Patents

현저성 정보 취득 장치 및 현저성 정보 취득 방법 Download PDF

Info

Publication number
KR20160143494A
KR20160143494A KR1020160033218A KR20160033218A KR20160143494A KR 20160143494 A KR20160143494 A KR 20160143494A KR 1020160033218 A KR1020160033218 A KR 1020160033218A KR 20160033218 A KR20160033218 A KR 20160033218A KR 20160143494 A KR20160143494 A KR 20160143494A
Authority
KR
South Korea
Prior art keywords
candidate
degree
local
candidate region
input image
Prior art date
Application number
KR1020160033218A
Other languages
English (en)
Inventor
시앙 루안
후추안 루
Original Assignee
오므론 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오므론 가부시키가이샤 filed Critical 오므론 가부시키가이샤
Publication of KR20160143494A publication Critical patent/KR20160143494A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration by the use of histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06T7/0028
    • G06T7/0034
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing

Abstract

[과제]
범용성 및 신뢰성에 우수한 신규 현저성 검출 기술을 제공한다.
[해결 수단]
현저성 정보 취득 장치는, 입력 화상의 픽셀마다의 현저도를, 각 픽셀의 주위의 국소 영역에서 얻어지는 정보에 의거하여 계산하는, 로컬 현저성 취득부와, 상기 입력 화상에 대해, 복수의 후보 영역을 설정하는 후보 영역 설정부와, 상기 복수의 후보 영역 각각의 현저도를, 각 후보 영역 내의 픽셀마다의 현저도의 특징을 나타내는 로컬 현저성 특징량과, 상기 입력 화상의 전체에 대한 각 후보 영역의 특징을 나타내는 글로벌 특징량을 포함하는 정보에 의거하여 계산하는, 글로벌 현저성 취득부와, 상기 글로벌 현저성 취득부에 의해 얻어진 상기 복수의 후보 영역의 현저도를 통합하여, 상기 입력 화상의 현저성 정보를 생성하는 통합부를 갖는다.

Description

현저성 정보 취득 장치 및 현저성 정보 취득 방법{SALIENCY INFORMATION ACQUISITION APPARATUS AND SALIENCY INFORMATION ACQUISITION METHOD}
본 발명은, 화상 중의 현저(顯著) 영역을 자동으로 검출하는 기술에 관한 것이다.
화상 해석에 의해, 화상 중의 중요한 영역, 또는 인간이 주목한다고 예측되는 영역(이와 같은 영역을 현저 영역(saliency region)이라고 부른다)을 자동으로 검출하는 기술이 공지되어 있다. 이런 종류의 기술은, 현저성 검출(saliency detection) 또는 주시(注視) 영역 검출(visual attention detection)이라고 불리고, 컴퓨터 비전 등의 분야에서의 중요한 요소 기술로서 큰 주목을 받고 있다.
현저성 검출의 알고리즘은, 일반적으로, 로컬 수법과 글로벌 수법으로 대별된다. 로컬 수법이란, 화상 내의 국소 영역에서 추출되는 특징량(국소 콘트라스트, 에지 방향 등)을 단서로 하여 현저도(saliency measure)를 계산하는 수법이다(예를 들면 비특허 문헌 1). 일방의 글로벌 수법은, 화상 전체로부터 추출되는 특징량(대역(大域) 콘트라스트, 히스토그램 등)이나 사전(事前) 지식(배경, 주목하기 쉬운 위치 등)을 단서로 하여 현저도를 계산하는 수법이다(예를 들면 비특허 문헌 2).
이와 같이 현저성 검출의 알고리즘은 종래로부터 많이 제안되고 있다. 그러나, 모든 화상에서 고정밀도의 검출 결과를 얻기는 어렵고, 현저성 검출의 범용성 및 신뢰성의 향상이 더 한층 요망되고 있다.
비특허 문헌 1 : L. Itti, C. Koch, and E. Niebur. A model of saliency-based visual attention for rapid scene analysis. PAMI, 20(11) : 1254-1259, 1998. 비특허 문헌 2 : M. -M. Cheng, G. -X. Zhang, N. J. Mitra, X. Huang, and S. -M. Hu. Global contrast based salient region detection. In CVPR, pages 409-416, 2011. 비특허 문헌 3 : P. Krahenbuhl and V. Koltun. Geodesic object proposals. In ECCV, pages 725-739. 2014. 비특허 문헌 4 : A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, pages 1097-1105, 2012.
본 발명은 상기 실정을 감안하여 이루어진 것으로, 범용성 및 신뢰성에 우수한 신규의 현저성 검출 기술을 제공하는 것을 목적으로 한다.
상기 목적을 달성하기 위해, 본 발명은 이하의 구성을 채용한다.
구체적으로는, 본 발명에 관한 현저성 정보 취득 장치는, 입력 화상의 픽셀마다의 현저도(saliency measure)를, 각 픽셀의 주위의 국소 영역(local region)으로부터 얻어지는 정보에 의거하여 계산하는, 로컬 현저성 취득부와, 상기 입력 화상에 대해, 복수의 후보 영역(candidate region)을 설정하는 후보 영역 설정부와, 상기 복수의 후보 영역 각각의 현저도를, 각 후보 영역 내의 픽셀마다의 현저도의 특징을 나타내는 로컬 현저성 특징량(local saliency feature)과, 상기 입력 화상의 전체에 대한 각 후보 영역의 특징을 나타내는 글로벌 특징량(global feature)을 포함하는 정보에 의거하여 계산하는, 글로벌 현저성 취득부와, 상기 글로벌 현저성 취득부에 의해 얻어진 상기 복수의 후보 영역의 현저도를 통합하여, 상기 입력 화상의 현저성 정보(saliency information)를 생성하는 통합부를 갖는 것을 특징으로 한다.
이 구성에 의하면, 국소 영역에서 얻어지는 정보를 단서로 하여 픽셀마다의 현저도(로컬 현저성)를 계산한 후에, 영역 단위의 로컬 현저성 특징량과 글로벌 특징량을 단서로 하여 후보 영역마다의 현저도(글로벌 현저성)를 계산하고, 그들을 통합하여 최종적인 현저성 정보를 생성한다. 따라서 국소적인 특징과 화상 전체로 본 때의 특징의 양방을 고려한 현저성의 평가를 실현할 수 있고, 현저성 검출의 범용성 및 신뢰성을 향상할 수 있다.
상기 로컬 현저성 취득부는, 제1의 딥 뉴럴 네트워크를 이용하여, 상기 입력 화상의 픽셀마다의 현저도를 계산하면 좋다. 종래의 현저성 검출 알고리즘에서는, 현저도의 평가에 이용하는 특징량이나 그 조합을 유저 자신이 설계할 필요가 있었다. 그 때문에, 특징량의 최적화가 매우 어렵고, 또한, 현저성 검출의 성능이 특징량의 설계의 좋고 나쁨에 의존하여 버린다는 과제가 있다. 이에 대해, 본 발명에서는, 제1의 딥 뉴럴 네트워크를 이용함에 의해, 국소 영역의 정보로부터 현저도를 계산하는 식별기를 기계 학습에 의해 자동 생성할 수 있다. 따라서 안정된 성능을 갖는 식별기를 간단하게 얻는 것이 가능해진다.
상기 제1의 딥 뉴럴 네트워크는, 어느 픽셀의 주위의 국소 영역의 화상을 입력으로 하고, 당해 픽셀의 현저도의 추정 결과를 출력하도록 구성된 뉴럴 네트워크라도 좋다. 국소 영역에서 추출 가능한 특징량은 여러가지 있지만, 그 중의 어느 것이 현저성에 영향을 주는지는 분명하지가 않다. 따라서 기계 학습의 단계에서, 제1의 딥 뉴럴 네트워크에 대해 생(生) 데이터인 화상 그 자체를 입력하고, 제1의 딥 뉴럴 네트워크 내부에서 특징량의 추출, 선택, 결합의 최적화를 행하도록 함으로써, 현저도의 추정 결과의 신뢰성을 향상할 수 있다.
상기 로컬 현저성 취득부에 의해 얻어진 픽셀마다의 현저도와, 상기 후보 영역 설정부에 의해 얻어진 상기 복수의 후보 영역에 의거하여, 상기 후보 영역에 포함되는 픽셀의 현저도가 상대적으로 커지고, 상기 후보 영역에서 벗어난 픽셀의 현저도가 상대적으로 작아지도록, 픽셀마다의 현저도를 수정(refine)하는, 로컬 현저성 수정부를 또한 가지며, 상기 글로벌 현저성 취득부는, 상기 로컬 현저성 수정부에 의해 수정된 현저도를 이용하여, 각 후보 영역의 상기 로컬 현저성 특징량을 얻으면 좋다. 후보 영역의 내부인지 외부인지라는 공간적인 정보를 보완적으로 이용하여 현저도를 수정함으로써, 현저도 분포에서의 노이즈를 저감하고, 현저도 분포의 공간적인 일관성을 높일 수 있다.
상기 글로벌 현저성 취득부는, 제2의 딥 뉴럴 네트워크를 이용하여, 상기 복수의 후보 영역 각각의 현저도를 계산하면 좋다. 종래의 현저성 검출 알고리즘에서는, 현저도의 평가에 이용하는 특징량이나 그 조합을 유저 자신이 설계할 필요가 있었다. 그 때문에, 특징량의 최적화가 매우 어렵고, 또한, 현저성 검출의 성능이 특징량의 설계의 좋고 나쁨에 의존하여 버린다는 과제가 있었다. 이에 대해, 본 발명에서는, 제2의 딥 뉴럴 네트워크를 이용함에 의해, 로컬 현저성 특징량과 글로벌 특징량을 포함하는 정보로부터 각 후보 영역의 현저도를 계산하는 식별기를 기계 학습에 의해 자동 생성할 수 있다. 따라서 안정된 성능을 갖는 식별기를 간단하게 얻는 것이 가능해진다.
상기 제2의 딥 뉴럴 네트워크는, 어느 후보 영역의 로컬 현저성 특징량과 글로벌 특징량을 성분으로서 포함하는 특징 벡터를 입력으로 하여, 당해 후보 영역의 현저도의 추정 결과를 출력하도록 구성된 뉴럴 네트워크라도 좋다. 로컬 현저성 특징량과 글로벌 특징량에는 여러가지 있지만, 그 중의 어느 것이 현저성에 영향을 주는지는 분명하지가 않다. 따라서 기계 학습의 단계에서, 제2의 딥 뉴럴 네트워크에 대해 다양한 종류의 로컬 현저성 특징량과 글로벌 특징량을 입력하고, 제2의 딥 뉴럴 네트워크 내부에서 특징량의 선택, 결합의 최적화를 행하도록 함으로써, 현저도의 추정 결과의 신뢰성을 향상할 수 있다.
예를 들면, 상기 로컬 현저성 특징량으로서는, 「당해 후보 영역에서의 픽셀마다의 현저도의 통계치」, 「상기 입력 화상 전체에서의 픽셀마다의 현저도의 합계에 대한, 당해 후보 영역에서의 픽셀마다의 현저도의 합계의 비(比)」, 「상기 통계치와 상기비의 곱(積)」, 「상기 입력 화상 내에서 현저도가 제로가 아닌 영역에 대한, 당해 후보 영역의 중복률(重なり率)」 등이 생각된다. 이 중의 하나 이상을, 로컬 현저성 특징량으로서 이용하면 좋다.
예를 들면, 상기 글로벌 특징량으로서는, 「당해 후보 영역의 색(色) 히스토그램과 상기 입력 화상의 단부(端部) 영역의 색 히스토그램 사이의 차(差)」, 「당해 후보 영역 내에서의 색의 대표치와 상기 입력 화상의 단부 영역 내에서의 색의 대표치 사이의 차」, 「당해 후보 영역의 색 히스토그램과 상기 입력 화상 전체의 색 히스토그램 사이의 차」, 「당해 후보 영역 내에서의 색의 분산」 등이 생각된다. 이 중의 하나 이상을, 글로벌 특징량으로서 이용하면 좋다.
또한, 상기 글로벌 특징량으로서는, 「당해 후보 영역을 포함하는 사각형(矩形)의 애스펙트비」, 「상기 사각형의 높이」, 「상기 사각형의 폭」, 「당해 후보 영역의 중심 좌표」, 「당해 후보 영역의 장축의 길이」, 「당해 후보 영역의 단축의 길이」, 「당해 후보 영역의 오일러수(數)」 등도 생각된다. 이들은 후보 영역의 기하(幾何) 특징을 나타내고 있다. 이 중의 1개 이상을, 글로벌 특징량으로서 이용하면 좋다.
상기 통합부는, 상기 복수의 후보 영역의 현저도를, 상기 제2의 딥 뉴럴 네트워크에 의한 각 후보 영역에 대한 추정 결과의 신뢰성에 응한 무게를 이용하여, 무게 부여 가산함에 의해, 상기 입력 화상의 현저성 정보를 생성하면 좋다. 이에 의해, 보다 신뢰성이 높은 현저성 정보를 얻을 수 있다.
상기 후보 영역 설정부는, 상기 입력 화상 중에서 물체다움[物體らしい] 영역을 복수 검출하고, 검출된 복수의 영역을 상기 복수의 후보 영역으로 설정하면 좋다. 인간의 주의는, 화상의 배경이나 아무것도 없는 영역보다도, 화상에 찍히는 물체에 향하여지는 일이 많다. 따라서 현저성은, 화상의 사이에 존재하는 물체의 단위로 평가하는 것이 타당하다고 생각된다. 그 때문에, 물체다움 영역을 후보 영역으로 설정함으로써, 보다 신뢰성이 높은 현저성 정보를 얻을 수 있다고 기대할 수 있다.
또한, 본 발명은, 상기 구성 내지 기능의 적어도 일부를 갖는 현저성 정보 취득 장치, 현저성 검출 장치 등으로서 파악할 수 있다. 또한 본 발명은, 상기 처리의 적어도 일부를 포함하는 현저성 정보 취득 방법, 현저성 검출 방법 등으로서 파악할 수 있다. 또한, 본 발명은, 이들의 방법을 컴퓨터에 실행시키기 위한 프로그램, 또는, 그와 같은 프로그램을 비(非)일시적으로 기록한 컴퓨터 판독 가능한 기록 매체로서 파악할 수도 있다. 상기 구성 및 처리의 각각은 기술적인 모순이 생기지 않는 한 서로 조합시켜서 본 발명을 구성할 수 있다.
본 발명에 의하면, 범용성 및 신뢰성에 우수한 신규의 현저성 검출 기술을 제공할 수 있다.
도 1은 현저성 정보 취득 장치의 기능 구성을 도시하는 블록도.
도 2는 현저성 검출 처리의 흐름을 도시하는 플로 차트.
도 3은 로컬 현저성 취득 처리를 설명하는 도면.
도 4는 GOP법에 의한 후보 영역 설정 처리를 설명하는 도면.
도 5는 로컬 현저성 맵의 수정 처리를 설명하는 도면.
도 6은 글로벌 현저성 취득 처리를 설명하는 도면.
도 7은 단부 영역을 설명하는 도면.
도 8은 현저성 맵의 통합 처리를 설명하는 도면.
본 발명은, 컴퓨터에 의한 화상 해석에 의해, 정지화상 또는 동화상으로부터 현저 영역을 자동으로 검출·추출하는 현저성 검출 알고리즘에 관한 것이다. 현저성 검출의 결과인 현저성 정보는, 예를 들면, 픽셀마다 또는 영역마다의 현저도(saliency measure)의 분포를 나타내는 현저성 맵(saliency map), 또는, 현저성 맵을 소정의 임계치로 2치화한 2치 화상의 형식으로 출력된다. 이와 같은 현저성 정보는, 컴퓨터 비전 어플리케이션(예를 들면, 화상의 영역 분할(세그멘테이션), 화상 분류, 신 해석, 화상 압축, 얼굴 인식, 물체 인식)의 전처리 등, 다양한 용도에 바람직하게 이용된다.
본 발명에 관한 현저성 검출 알고리즘은 「로컬 추정」과 「글로벌 검출」의 2개의 스테이지로 구성된다. 전단(前段)의 로컬 추정 스테이지에서는, 입력 화상의 각 픽셀 주변의 국소 영역에서 얻어지는 정보를 단서로 하여, 각 픽셀의 현저도가 추정되고, 임시의 현저성 맵(로컬 현저성 맵이라고 부른다)이 생성된다. 후단의 글로벌 검출 스테이지에서는, 로컬 추정 스테이지에서 얻은 로컬 현저성 맵과, 입력 화상의 전체로부터 얻어지는 정보를 단서로 하여, 현저 영역이 추정되고, 최종적인 현저성 맵이 생성된다. 이에 의해, 화상 내의 국소적인 특징과 화상 전체로 본 때의 특징의 양방을 고려한 현저성의 평가를 실현할 수 있고, 알고리즘의 로버스트성을 향상하고 범용성을 높일 수 있음과 함께, 현저성 검출의 정밀도 및 신뢰성을 향상할 수 있다.
또한, 이하에 기술하는 실시 형태에서는, 로컬 추정과 글로벌 검출의 각각의 스테이지에서, 딥 러닝(Deep learning) 베이스의 뉴럴 네트워크인 딥 뉴럴 네트워크(DNN)를 이용한다. 로컬 추정 스테이지에서 이용하는 제1의 딥 뉴럴 네트워크(이후, DNN-L이라고 부른다)에 관해서는, 다수의 교사(敎師)가 있는 화상을 이용하여, 픽셀 주변의 국소 영역에서 추출 가능한 로컬 특징량(국소적인 콘트라스트, 텍스쳐, 형상정보 등)과 현저성과의 관계가 학습된다. 또한, 글로벌 검출 스테이지에서 이용하는 제2의 딥 뉴럴 네트워크(이후, DNN-G라고 부른다)에 관해서는, 다수의 교사가 있는 화상을 이용하여, 입력 화상으로부터 추출 가능한 글로벌 특징량(대역적(大域的)인 콘트라스트, 기하 정보(화상 내에서의 위치 정보 포함한다) 등)와 현저성과의 관계가 학습된다. 이와 같은 방법에 의해, 화상으로부터 추출 가능한 다양한 단서(특징량) 사이의 복잡한 의존 관계나 중요성(현저성에 대한 공헌)을 모델화하고, 임의의 화상에 범용적으로 적용 가능한 현저성 검출 엔진을 구축할 수 있다.
이하에, 본 발명에 관한 현저성 검출 알고리즘의 구체적인 실시 형태의 한 예를, 도면을 이용하여 설명한다. 단, 이하에 기술하는 실시 형태는 본 발명의 알맞는 구성례를 나타내는 것이고, 본 발명의 범위를 그 구성례로 한정하는 취지의 것은 아니다.
(장치 구성)
도 1은, 본 발명의 실시 형태에 관한 현저성 정보 취득 장치의 기능 구성을 도시하는 블록도다. 도 1의 현저성 정보 취득 장치(1)는, 주된 구성으로서, 화상 취득부(10), 로컬 현저성 취득부(11), 후보 영역 설정부(12), 로컬 현저성 수정부(13), 특징 추출부(14), 글로벌 현저성 취득부(15), 통합부(16)를 갖는다. 이 중, 로컬 현저성 취득부(11), 후보 영역 설정부(12), 로컬 현저성 수정부(13)가 「로컬 추정」에 관하는 기능 블록이고, 후보 영역 설정부(12), 특징 추출부(14), 글로벌 현저성 취득부(15), 통합부(16)가 「글로벌 검출」에 관하는 기능 블록이다. 도 1의 부호 D10∼D16은, 기능 블록 사이에서 수수되는 데이터를 나타내고 있다.
화상 취득부(10)는, 처리 대상이 되는 화상을 취득하는 기능을 갖는다. 화상 취득부(10)는, 촬상 장치(카메라)로부터 화상 데이터를 받아들여도 좋고, 기억 장치나 네트워크(network)상의 서버 등으로부터 화상 데이터를 판독하여도 좋다. 화상의 형식은 묻지 않지만, 본 실시 형태에서는 RGB의 컬러 화상을 상정하고 있다. 또한, 화상으로서는, 정지화상, 동화상의 어느것을 입력하여도 좋다. 동화상이 입력되는 경우에는, 후술하는 현저성 검출의 처리가 프레임마다 실행된다. 취득된 입력 화상(D10)은, 메모리 등에 기억되고, 로컬 현저성 취득부(11), 후보 영역 설정부(12), 특징 추출부(14) 등에서 이용된다.
로컬 현저성 취득부(11)는, 입력 화상(D10)의 픽셀마다의 현저도를, 각 픽셀의 주위의 국소 영역에서 얻어지는 정보에 의거하여 계산(추정)하는 기능을 갖는다. 로컬 현저성 취득부(11)는, 국소 영역의 정보로부터 현저도를 추정하기 위한 식별기로서, 딥 뉴럴 네트워크(DNN-L)를 이용한다. 로컬 현저성 취득부(11)에 의해 추정된 픽셀마다의 현저도의 분포를 나타내는 데이터를 로컬 현저성 맵(D11)이라고 부른다.
후보 영역 설정부(12)는, 입력 화상(D10)에 대해, 복수의 후보 영역(D12)을 설정하는 기능을 갖는다. 이 후보 영역(D12)은, 로컬 현저성 수정부(13), 특징 추출부(14), 통합부(16) 등에서 이용된다.
로컬 현저성 수정부(13)는, 로컬 현저성 취득부(11)에 의해 얻어진 로컬 현저성 맵(D11)과, 후보 영역 설정부(12)에 의해 얻어진 복수의 후보 영역(D12)의 정보에 의거하여, 픽셀마다의 현저도를 수정(리파인)하는 기능을 갖는다. 후단의 글로벌 검출 스테이지에서는, 수정된 로컬 현저성 맵(D13)이 이용된다. 또한, 로컬 현저성 취득부(11)에 의해 얻어진 로컬 현저성 맵(D11)의 신뢰성이 충분 높은 경우에는, 수정 처리는 생략하여도 상관없다(그 경우는, 로컬 현저성 맵(D11)이 그대로 글로벌 검출에 이용된다).
특징 추출부(14)는, 복수의 후보 영역(D12)의 각각에 관해, 현저성의 단서가 될 수 어느 다양한 종류의 특징량을 추출하고, 다차원의 특징 벡터(D14)를 생성하는 기능을 갖는다. 특징량에는, 적어도, 후보 영역 내의 픽셀마다의 현저도의 특징을 나타내는 것(로컬 현저성 특징량이라고도 부른다)와, 입력 화상(D10)의 전체에 대한 후보 영역의 특징을 나타내는 것(글로벌 특징량이라고도 부른다)이 포함된다.
글로벌 현저성 취득부(15)는, 특징 추출부(14)에 의해 얻어진 특징 벡터(D14)에 의거하여, 각 후보 영역의 현저도를 계산(추정)하는 기능을 갖는다. 글로벌 현저성 취득부(15)는, 특징 벡터(D14)로부터 현저도를 추정하기 위한 식별기로서, 딥 뉴럴 네트워크(DNN-G)를 이용한다. 글로벌 현저성 취득부(15)의 추정 결과(D15)는 통합부(16)에 입력된다.
통합부(16)는, 글로벌 현저성 취득부(15)에 의해 얻어진 복수의 후보 영역의 현저도를 통합하여, 입력 화상 전체의 최종적인 현저성 맵(현저성 정보)을 생성하는 기능을 갖는다. 통합부(16)에 의해 생성된 최종적인 현저성 맵(D16)은, 기억 장치에 보존되고, 또는, 외부 장치에 출력되고, 물체 인식이나 화상 분류 등의 각종 컴퓨터 비전 어플리케이션에 이용된다.
현저성 정보 취득 장치(1)는, 예를 들면, CPU(프로세서), 메모리, 보조 기억 장치, 입력 장치, 표시 장치, 통신 장치 등을 구비하는 컴퓨터에 의해 구성할 수 있다. 도 1에 도시한 현저성 정보 취득 장치(1)의 각 기능은, 보조 기억 장치에 격납된 프로그램을 메모리에 로드하고, CPU가 실행함에 의해 실현된다. 단, 현저성 정보 취득 장치(1)의 일부 또는 전부의 기능을 ASIC나 FPGA 등의 회로로 실현할 수도 있다. 또는, 현저성 정보 취득 장치(1)의 일부의 기능을 클라우드 컴퓨팅이나 분산 컴퓨팅에 의해 실현하여도 좋다.
(현저성 검출 처리)
현저성 정보 취득 장치(1)가 실행하는 현저성 검출 처리의 상세를 설명한다. 도 2는, 현저성 검출 처리의 흐름을 도시하는 플로 차트이다.
(1) 로컬 추정 스테이지
스텝 S10에서, 화상 취득부(10)가, 현저성 검출의 대상이 되는 입력 화상을 취득한다. 화상 취득부(10)는, 필요에 응하여, 포맷 변환, 해상도 변환, 노이즈 제거 등의 전처리를 행하여도 좋다. 도 3에 입력 화상(D10)의 한 예로서, 자전거에 탄 여성의 화상을 도시한다. 이 화상을 본 사람은, 많은 경우, 피사체인 여성에 주목한다고 생각된다. 따라서 현저성 정보 취득 장치(1)에 기대되는 출력 결과는, 여성의 영역의 현저도가 높은 현저성 맵이다.
계속된 스텝 S11∼S13의 처리는, 입력 화상(D10) 내의 모든 픽셀에 대해 차례로 실행된다. 이후, 입력 화상(D10)의 좌표(x, y)에 있는 픽셀을 픽셀(x, y)로 표기한다. 도 3은, 스텝 S11∼S13의 처리를 모식적에 나타내고 있다.
로컬 현저성 취득부(11)는, 입력 화상(D10)으로부터, 처리 대상의 픽셀(x, y)을 중심으로 하는 소정 사이즈의 국소 영역 화상을 절출한다(스텝 S11). 국소 영역 화상의 사이즈는 임의로 설정할 수 있지만, 본 실시 형태에서는 51×51픽셀로 한다. 그리고, 로컬 현저성 취득부(11)는, DNN-L을 이용하여 픽셀(x, y)의 현저도를 계산한다(스텝 S12). DNN-L은, 51×51픽셀의 국소 영역 화상을 입력으로 하여, 그 중심 픽셀(x, y)의 현저도의 추정 결과를 출력하도록 구성되어 있다. 추정 결과(S)(x, y)는, 0∼1의 값, 또는, 0∼255의 값으로 주어진다(0이 비(非)현저이고, 값이 커질수록 현저성이 높다). DNN-L의 구성 및 파라미터(θL)의 학습 방법에 관해서는 후술한다.
로컬 현저성 취득부(11)는, 입력 화상(D10) 내의 모든 픽셀의 현저도가 구해질 때까지, 스텝 S11 및 S12의 처리를 반복한다(스텝 S13). 그 결과, 도 3에 도시하는 바와 같은 로컬 현저성 맵(D11)을 얻을 수 있다. 픽셀마다의 현저도가 그레이 스케일로 나타나 있고, 밝은(백색에 가까운) 픽셀일수록 현저성이 높은 것을 나타내고 있다.
다음에, 후보 영역 설정부(12)가, 입력 화상(D10)에 대해, 복수의 후보 영역(D12)를 설정한다(스텝 S14). 후보 영역(D12)의 결정 방법은 임의이지만, 본 실시 형태에서는, 후보 영역 설정부(12)가 입력 화상(D10) 중에서 「물체다움 영역(물체일 가능성이 있는 영역)」을 복수 검출하고, 그 검출된 영역을 각각 후보 영역(D12)으로 설정한다. 인간의 주의는, 화상의 배경이나 아무것도 없는 영역보다도, 화상에 찍히는 물체로 향해지는 일이 많다. 따라서 현저성은, 화상의 사이에 존재하는 물체의 단위로 평가하는 것이 타당하다고 생각된다. 그 때문에, 본 실시 형태에서는, 물체다움 영역을 후보 영역(D12)으로 설정하고, 이후의 처리를 후보 영역 베이스로 행한다. 이에 의해, 물체다움(objectness)을 고려한 현저성 검출을 실현할 수 있기 때문에, 보다 신뢰성이 높은 현저성 정보를 얻을 수 있다고 기대할 수 있다.
화상으로부터 물체다움 영역을 검출한` 방법에 관해서는 다양한 방법이 제안되어 있고, 어느 방법을 이용해`도 상관없지만, 본 실시 형태에서는 비특허 문헌 3에 기재되어 어느 Gedesic Object Proposal(GOP)법을 이용한다. 도 4에 GOP법에 의해 얻어진 후보 영역(D12)의 한 예를 도시한다. 또한, 여기서의 물체 검출은 엄밀하지 않아도 좋고, 오히려, 물체의 가능성이 있는 영역을 누락 없이 검출한` 것이 바람직하다. 또한, 도 4의 예로부터도 알 수 있는 바와 같이, 복수의 후보 영역(D12)이 중복 부분(용장(冗長) 부분)을 포함하고 있어도 좋다.
그런데, 로컬 현저성 맵(D11)은, 국소적인 정보만으로부터 계산되기 때문에, 입력 화상(D10)에 포함되는 고주파 성분(예를 들면, 배경 내의 윤곽, 모양이나 색의 바뀌는 곳 등)에 기인하는 노이즈가 나타나기 쉽다. 그래서, 스텝 S15에서, 로컬 현저성 수정부(13)가, 스텝 S14에서 얻어진 복수의 후보 영역(D12)의 정보에 의거하여, 로컬 현저성 맵(D11)을 수정(리파인)하는 처리를 행한다. 이 때, 후보 영역(D12)에 포함되는 픽셀의 현저도가 상대적으로 크고, 후보 영역(D12)으로부터 벗어난 픽셀의 현저도가 상대적으로 작아지도록, 각 픽셀의 현저도를 수정하면 좋다.
도 5를 참조하여, 본 실시 형태에서 채용한 수정 처리의 구체례를 설명한다. 우선, 로컬 현저성 수정부(13)는, 식(1)에 의해, 각 후보 영역(i)의 신뢰성 스코어(confL)를 계산한다. 또한, 오른쪽어깨의 첨자 「L」은 「로컬 추정」에 관한 지표인 것을 나타내는 기호이다.
[수식 1]
Figure pat00001
여기서, i는 후보 영역의 번호이다. m개의 후보 영역이 설정되어 있는 경우, i는 1∼m의 값을 취한다. Oi는 후보 영역(i)의 마스크이고, Oi(x, y)=1는, 픽셀(x, y)이 i번째의 후보 영역에 포함되어 있는 것, Oi(x, y)=0은, 픽셀(x, y)이 i번째의 후보 영역에서 벗어나 있는 것을 의미한다. SL는 로컬 현저성 맵(D11)이고, SL(x, y)∈[0, 1]는 픽셀(x, y)의 현저도를 나타낸다.
Ai는, 후보 영역(i)에서의 픽셀마다의 현저도(SL)(x, y)의 평균치이고, 이후, 「정밀도 스코어(accuracy score)」라고 부른다. 정밀도 스코어(Ai)가 클수록(1에 가까울수록), 후보 영역(i)이 현저 영역일 가능성(확률)이 높은 것을 나타낸다. 본 실시형태에서는, 현저도의 평균치를 이용하였지만, 평균치 이외의 통계치(최빈치, 최대치, 최소치, 합계치 등)를 정밀도 스코어에 이용하여도 좋다.
Ci는, 입력 화상 전체에서의 현저도(SL)(x, y)의 합계에 대한, 후보 영역(i)에서의 현저도(SL)(x, y)의 합계의 비이고, 이후, 「커버율 스코어(coverage score)」라고 부른다. 커버율 스코어(Ci)가 클수록(1에 가까울수록), 후보 영역(i)이 현저 영역일 가능성(확률)이 높은 것을 나타낸다. 또한, 여기서는, 현저도(SL)(x, y)가 1이나 0의 값밖에 취하지 않기 때문에, Ci의 분모는, 입력 화상에서의 현저도가 제로가 아닌 영역(현저 영역)의 총면적과 등가(等價)이고, Ci의 분자는, 현저 영역과 후보 영역(i)의 중복 부분의 면적과 등가이다. 따라서 Ci는, 현저 영역에 대한 후보 영역(i)의 중복률(overlap ratio)도 나타내고 있다.
β는, 정밀도 스코어(Ai)와 커버율 스코어(Ci)의 밸런스를 조정하기 위한 무게 계수이다. 본 실시 형태에서는 β=0.4로 설정한다.
로컬 현저성 수정부(13)는, m개의 후보 영역의 전부에 관해 신뢰성 스코어(confL)를 계산한 후, 스코어가 큰 순서로 각 후보 영역의 마스크(O1∼Om)를 소트한다. 그리고, 상위 K개(본 실시 형태에서는 20개로 한다)의 후보 영역의 마스크를 합성함으로써, 수정 후의 로컬 현저성 맵(D13)을생성한다. 마스크의 합성 방법은, 예를들면, 단순한 가산평균이라도 좋고, 신뢰성 스코어(confL)에 응한 무게에 의한 무게 부여 가산이라도 좋다.
도 5에, 수정된 로컬 현저성 맵(D13)의 예를 도시한다. 후보 영역의 내부인지 외부인지라는 공간적인 정보를 보완적으로 이용하여 현저도를 수정함에 의해, 현저도 분포에서의 노이즈가 저감되고, 현저도 분포의 공간적인 일관성이 향상하고 있음을 알 수 있다.
(2) 글로벌 검출 스테이지
스텝S16∼S18의처리는, 스텝S14에서 설정된 모든 후보 영역(D12)에 대해 차례로 실행된다. 도 6은, 스텝S16∼S18의 처리를 모식적으로 도시하고 있다.
특징 추출부(14)는, 처리 대상의 후보 영역(i)과 로컬 현저성 맵(D13)과 입력 화상(D10)에 의거하여, 후보 영역(i)의 특징 벡터(D14)를 생성한다(스텝S16). 후보 영역(i)의 현저성의 단서가 될수 있는 특징량으로서는, 예를들면 다음과 같은 것을 이용할 수있다.
(a) 로컬 현저성 특징량
(a-1) 후보 영역(i)의 마스크(Oi)와 수정 후의 로컬 현저성 맵(D13)으로부터 식(2)으로 계산되는 정밀도 스코어(Ai). 이 특징량은, 후보 영역(i)에서의 픽셀마다의 현저도의 통계치를 나타내고 있다.
(a-2) 후보 영역(i)의 마스크(Oi)와 수정 후의 로컬 현저성 맵(D13)으로부터 식(3)으로 계산된 커버율 스코어(Ci). 이 특징량은, 입력 화상 전체에 픽셀마다의 현저도의 합계에 대한, 후보 영역(i)에서의 픽셀마다의 현저도의 합계의 비를 나타내고 있다.
(a-3) 정밀도 스코어와 커버율 스코어의 곱(Ai×Ci).
(a-4) 수정 후의 로컬 현저성 맵(D13)에서의 현저 영역(현저도가 제로가 아닌 영역)의 총면적에 대한 후보 영역(i)의 면적비(중복률).
(b) 글로벌 특징량(후보 영역의 콘트라스트 특징량)
(b-1) 후보 영역(i)의 색 히스토그램과 입력 화상(D10)의 단부 영역의 색 히스토그램 사이의 차(예를들면 카이제곱거리). 단부 영역이란 화상의 단(端)에 위치하는 소영역이고, 예를들면, 도 7에 도시하는 바와 같이, 입력 화상(D10)의 상단, 좌단, 하단, 우단의 소정 폭의 영역을 단부 영역(B1∼B4)라고 정의한다. 일반적으로, 화상의 단부는 배경일 개연성이 높기 때문에, 이 특징량은, 후보 영역(i)의 배경에 대한 콘트라스트를 나타낸다고 간주할 수 있다. 또한, RGB 색공간에서 계산한 값뿐만아니라, Lab, HSV 등, 다른 색공간에서 계산한 값도 이용하는 것도 바람직하다.
(b-2) 후보 영역(i) 내에서의 색의 대표치와 입력 화상(D10)의 단부 영역 내에서의색의 대표치 사이의 차(예를들면 유클리드 거리). 이 특징량도, 후보 영역(i)의 배경에 대한 콘트라스트를 나타낸다고 간주할 수 있다. 색의 대표치는, 예를들면, 평균치, 최빈치, 중간치, 최대치, 최소치 등이다. 색 채널마다 특징량을 계산하여도 좋고(RGB의경우, R대표치의 특징량, G대표치의 특징량, B대표치의 특징량), 휘도치로 특징량을 계산하여도 좋다. 또한, RGB 색공간에서 계산한 값뿐만 아니라, Lab, HSV 등, 다른 색공간에서 계산한 값도 이용하는 것도 바람직하다.
(b-3) 후보 영역(i)의 색 히스토그램과 입력 화상(D10) 전체의 색 히스토그램 사이의 차(예를들면 카이제곱거리). 이 특징량은, 후보 영역(i)의 화상 전체에 대한 콘트라스트를 나타내고 있다. 이 특징량에 대해서도, RGB, Lab, HSV 등, 복수의 색공간에서 계산한 값을 이용하면 좋다.
(b-4) 후보 영역(i) 내에서의 색의 분산. 이 특징량에 대해서도, 색 채널마다 분산을 계산하여도 좋고, 휘도치의 분산을 계산하여도 좋다. 또한, RGB, Lab, HSV 등, 복수의 색공간에서 계산한 값을 이용하여도 좋다.
(c) 글로벌 특징량(후보 영역의 기하 특징량)
(c-1) 후보 영역(i)을 포함하는 사각형(외접 사각형)의 애스펙트비, 높이, 폭.
(c-2) 후보 영역(i)의 중심 좌표.
(c-3) 후보 영역(i)의 장축의 길이, 단축의 길이.
(c-4) 후보 영역(i)의 오일러수.
본 실시 형태에서는, 여기서 든 모든 특징량을 성분으로서 포함하는 72차원의 특징 벡터(D14)를 이용하지만, 특징량의 수 및 종류는 임의로 설정할 수 있다.
글로벌 현저성 취득부(15)는, DNN-G를 이용하여 후보 영역(i)의 현저도를 계산한다(스텝S17). DNN-G는, 후보 영역의 특징 벡터(D14)를 입력으로 하여`, 그 후보 영역의 현저도의 추정 결과를 출력하도록 구성되어 있다. 추정 결과(φ)는, 예측 정밀도(φ1)와 중복률(φ2)로 주어진다. 예측 정밀도(φ1)는, 후보 영역(i)이 현저 영역일 가능성(확률)을 나타내고, 중복률(φ2)은, 입력 화상 내의 현저 영역의 총 면적에 대한 후보 영역(i)의 면적비를 나타낸다. 글로벌 현저성 취득부(15)는, m개의 후보 영역의 현저도(φ)=[φ1, φ2]가 구해질 때까지, 스텝 S16 및 S17의 처리를 반복한다(스텝 S18). DNN-G의 구성 및 파라미터(θG)의 학습 방법에 관해서는 후술한다.
스텝 S19에서는, 통합부(16)가, 스텝 S17에서 얻은 현저도(φ)=[φ1, φ2]를 이용하여, 식(4)에 의해, 각 후보 영역(i)의 신뢰성 스코어(confG)를 계산한다. 또한, 오른쪽어깨의 첨자 「G」는 「글로벌 검출」인 것을 나타내는 기호이다.
[수식 2]
Figure pat00002
통합부(16)는, m개의 후보 영역의 전부에 관해 신뢰성 스코어(confG)를 계산한 후, 스코어가 큰 순서로 각 후보 영역의 마스크(O1∼Om)를 소트한다. 그리고, 상위 K개(본 실시 형태에서는 20개로 한다)의 후보 영역의 마스크를 합성함으로써, 최종적인 현저성 맵(D16)을 생성한다. 마스크의 합성 방법은, 예를들면, 단순한 가산평균이라도 좋고, 신뢰성 스코어(confG)에 응한 무게에 의한 무게 부여 가산이라도 좋다. 도 8에, 무게 부여 가산에 의해 얻어진 최종적인 현저성 맵(D16)의 한 예를 도시한다. 입력 화상(D10)에서의 피사체(여성) 부분의 현저도가 높게 되어 있고, 고정밀도의 현저성 맵이생성할 수 있음을 알 수 있다.
(DNN-L)
로컬 추정에서 이용된` DNN-L의 구성례와 그 학습 방법에 관해 설명한다. 딥 뉴럴 네트워크에 관해서는 다양한 수법이 제안되어 있고, 어느 수법을 이용하여도 상관없지만, 본 실시 형태에서는 비특허문헌 4에 기재되어 있는, 딥·콘볼류션·뉴럴 네트워크를 이용한다.
표 1에, DNN-L의 구성례를 표시한다.
[표 1]
Figure pat00003
Type은 레이어의 종류를 나타낸다. 「C」는 접어넣음(疊入) 레이어(Convolutional layer)이고, 「F」는 전(全) 결합 레이어(Fully connected layer)이다. 또한, 「R」은 활성화 함수로서 ReLU(rectified linear unit)를 이용하는 것을, 「L」은 필터 결과를 정규화하는 것을, 「D」는 드롭 아웃(오버 피팅 방지를 위해 일부의 뉴런을 다음의 계산에 참가시키지 않는 것)을, 「S」는 소프트맥스 레이어를 각각 의미한다.
Channels는, 다음의 레이어에 출력하는 특징량 맵의 수(특징량의 차원수)이다. Filter size는, 접어넣음 연산에 이용하는 필터의 커늘 사이즈이다. Pooling size와 Pooling stride는, 특징량 맵의 다운 샘플링의 파라미터이다. Input size는, 레이어에 입력되는 특징량 맵의 사이즈이다.
학습용 데이터로서는, 다수의 교사가 있는 화상을 이용한다. 어떤 화상을 이용하여도 좋지만, 바람직하게는, 다양한 피사체나 신의 화상이 혼재하여 있으면 좋다. 각 화상으로부터, 51×51픽셀 사이즈의 패치를 복수개 절출한다(예를 들면, 10픽셀씩 중심 위치를 어긋내면, 1장의 화상으로부터 수십부터 수백개의 패치를 절출하면 좋다). 그리고, 진치(眞値)(ground truth) 마스크와의 중복률이 큰(예를 들면 0.7 이상) 패치를 포지티브 샘플, 중복률이 작은 것(예를 들면 0.3 이하) 패치를 네가티브 샘플로 분류한다. 포지티브 샘플에는 라벨「1」을, 네가티브 샘플에는 라벨 「0」을 붙인다. 최종적으로, 포지티브 샘플과 네가티브 샘플의 각각에 관해, 수백로부터 수천개의 패치를 준비한다.
DNN-L의 학습용의 코스트 함수를 식(5)에 표시한다.
[수식 3]
Figure pat00004
여기서, θL는, DNN-L의 학습 파라미터이고, 6개의 레이어 각각의 무게, 바이어스 등을 포함하고 있다. 1{·}은, 지시 함수(indicator function)이다. P(li=j| θL)는, DNN-L의 추정 결과이고, i번째의 학습 샘플이 현저(li=1) 또는 비현저(li=0)일 확률이다. λ은`, 무게 감쇠(weight decay) 파라미터이다. WL k는, k번째의 레이어의무게이다. ||·||F은` 프로베니우스 노름(Frobenius Norm)이다. m는`, 학습 샘플의 총수이다.
예를 들면, 확률적 구배 강하법(stochastic gradient descent)에 의해 식(5)의 코스트 함수를 풀음에 의해, DNN-L의 파라미터(θL)를 학습할 수 있다. 예를 들면, 모멘텀(momentum)은 0.9, 무게 감쇠 파라미터(λ)은` 0.0005로 설정하면 좋다.
(DNN-G)
다음에, 글로벌 검출로` 이용된` DNN-G의 구성례와 그 학습 방법에 관해 설명한다. 표 2는 DNN-G의 구성례를 표시한다. 표 중의 기호의 의미는 표 1과 같은다.
[표 2]
Figure pat00005
학습용 데이터로서는, DNN-L과 같은 교사가 있는 화상을 이용한다. 각 화상에 대해, GOP법을 이용하여 복수의 후보 영역(물체다움 영역)을 설정한다. 그리고, 각 후보 영역에 관해 특징 벡터(v)를 생성함과 함께, 진치 마스크와 비교한 때의 정밀도(p)와 중복률(o)을 성분으로 하여서도 라벨 벡터(y)를 계산한다. 또한, 특징 벡터(v)의 구성은 스텝 S16에서 설명한 것과 같다. 정밀도(p) 및 중복률(o)은, 각각, 식(2) 및 식(3)에 의해 계산할 수 있다(단, 현저성 맵(SL)으로서, 진치 마스크를 이용한다).
DNN-G의 학습용의 코스트 함수를 식(6)에 표시한다.
[수식 4]
Figure pat00006
여기서, θG는, DNN-G의 학습 파라미터이고, 6개의 레이어 각각의 무게 등을 포함하고 있다. yi=[pi, Oi]는, i번째의 후보 영역의 정밀도(pi) 및 중복률(Oi)로 이루어지는 라벨 벡터이다. vi는, i번째의 후보 영역의 특징 벡터이다. φ(viG)=[φ1 i, φ2 i]는, DNN-G의 추정 결과이다. WG k는, k번째의 레이어의 무게이다. ||·||F는 프로베니우스 노름(Frobenius Norm)이다. η는, 무게 감쇠 파라미터이다. m은, 학습용의 후보 영역의 총수이다.
예를 들면, 확률적 구배 강하법(stochastic gradient descent)에 의해 식(6)의 코스트 함수를 풀음에 의해, DNN-G의 파라미터(θG)를 학습할 수 있다. 예를 들면, 모멘텀(momentum)은 0.9, 무게 감쇠 파라미터(η)는 0.0005로 설정하면 좋다.
(본 실시 형태의 이점)
이상 기술한 본 실시 형태의 구성에 의하면, 국소 영역에서 얻어지는 정보를 단서로 하여 픽셀마다의 현저도(D11 또는 D13)를 계산한 후에, 영역 단위의 로컬 현저성 특징량과 글로벌 특징량을 포함하는 특징 벡터(D14)를 단서로 하여 후보 영역마다의 현저도(D15)를 계산하고, 그들을 통합하여 최종적인 현저성 정보(D16)를 생성한다. 따라서 국소적인 특징과 화상 전체로 본 때의 특징의 양방을 고려한 현저성의 평가를 실현할 수 있고, 현저성 검출의 범용성 및 신뢰성을 향상할 수 있다.
종래의 현저성 검출 알고리즘에서는, 현저도의 평가에 이용하는 특징량이나 그 조합을 유저 자신이 설계할 필요가 있었다. 그 때문에, 특징량의 최적화가 매우 어렵고, 또한, 현저성 검출의 성능이 특징량의 설계의 좋고 나쁨에 의존하여 버린다는 과제가 있었다. 이에 대해, 딥 러닝을 이용함에 의해, 국소 영역의 정보로부터 현저도를 계산하는 식별기(DNN-L)와 글로벌 정보로부터 각 후보 영역의 현저도를 계산하는 식별기(DNN-G)를 기계 학습에 의해 자동 생성할 수 있다. 따라서 안정된 성능을 갖는 현저성 검출기를 간단하게 얻는 것이 가능해진다.
또한, DNN에 대해 가능한 한 많은 정보를 입력으로서 주고, 기계 학습에 의하여 DNN 내부에서 특징량의 추출, 선택, 결합의 최적화를 행하도록 하였기 때문에, 현저도의 추정 결과의 신뢰성을 향상할 수 있다.
또한, DNN-G에 의한 각 후보 영역에 대한 추정 결과의 신뢰성(confG)에 응한 무게를 이용하여, 복수의 후보 영역의 현저도를 무게 부여 합성하여 최종적인 현저성 맵(D16)을 생성하였기 때문에, 보다 신뢰성이 높은 현저성 정보를 얻을수 있다.
상술한 실시형태는 본 발명의 한 구체례를 나타낸 것이고, 본 발명의 범위를 그들의 구체례로 한정하는 취지의 것은 아니다.
1 : 현저성 정보 취득 장치
10 : 화상 취득부
11 : 로컬 현저성 취득부
12 : 후보 영역 설정부
13 : 로컬 현저성 수정부
14 : 특징 추출부
15 : 글로벌 현저성 취득부
16 : 통합부
D10 : 입력 화상
D11 : 로컬 현저성 맵
D12 : 후보 영역
D13 : 수정된 로컬 현저성 맵
D14 : 특징 벡터
D15 : 후보 영역의 현저도의 추정 결과
D16 : 최종의 현저성 맵

Claims (13)

  1. 입력 화상의 픽셀마다의 현저도를, 각 픽셀의 주위의 국소 영역에서 얻어지는 정보에 의거하여 계산하는, 로컬 현저성 취득부와,
    상기 입력 화상에 대해, 복수의 후보 영역을 설정하는 후보 영역 설정부와,
    상기 복수의 후보 영역 각각의 현저도를, 각 후보 영역 내의 픽셀마다의 현저도의 특징을 나타내는 로컬 현저성 특징량과, 상기 입력 화상의 전체에 대한 각 후보 영역의 특징을 나타내는 글로벌 특징량을 포함하는정보에 의거하여 계산하는, 글로벌 현저성 취득부와,
    상기 글로벌 현저성 취득부에 의해 얻어진 상기 복수의 후보 영역의 현저도를 통합하여, 상기 입력 화상의 현저성 정보를 생성하는 통합부를 갖는 것을 특징으로 하는 현저성 정보 취득 장치.
  2. 제1항에 있어서,
    상기 로컬 현저성 취득부는, 제1의 딥 뉴럴 네트워크를 이용하여, 상기 입력 화상의 픽셀마다의 현저도를 계산하는 것을 특징으로 하는 현저성 정보 취득 장치.
  3. 제2항에 있어서,
    상기 제1의 딥 뉴럴 네트워크는, 어느 픽셀의 주위의 국소 영역의 화상을 입력으로 하여, 당해 픽셀의 현저도의 추정 결과를 출력하도록 구성된 뉴럴 네트워크인 것을 특징으로 하는 현저성 정보 취득 장치.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 로컬 현저성 취득부에 의해 얻어진 픽셀마다의 현저도와, 상기 후보 영역 설정부에 의해 얻어진 상기 복수의 후보 영역에 의거하여, 상기 후보 영역에 포함되는 픽셀의 현저도가 상대적으로 커지고, 상기 후보 영역에서 벗어난 픽셀의 현저도가 상대적으로 작아지도록, 픽셀마다의 현저도를 수정하는, 로컬 현저성 수정부를 또한 가지며,
    상기 글로벌 현저성 취득부는, 상기 로컬 현저성 수정부에 의해 수정된 현저도를 이용하여, 각 후보 영역의 상기 로컬 현저성 특징량을 얻는 것을 특징으로 하는 현저성 정보 취득 장치.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 글로벌 현저성 취득부는, 제2의 딥 뉴럴 네트워크를 이용하여, 상기 복수의 후보 영역 각각의 현저도를 계산하는 것을 특징으로 하는 현저성 정보 취득 장치.
  6. 제5항에 있어서,
    상기 제2의 딥 뉴럴 네트워크는, 어느 후보 영역의 로컬 현저성 특징량과 글로벌 특징량을 성분으로서 포함하는 특징 벡터를 입력으로 하고, 당해 후보 영역의 현저도의 추정 결과를 출력하도록 구성된 뉴럴 네트워크인 것을 특징으로 하는 현저성 정보 취득 장치.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 로컬 현저성 특징량은,
    당해 후보 영역에서` 픽셀마다의 현저도의 통계치,
    상기 입력 화상 전체에서` 픽셀마다의 현저도의 합계에 대한, 당해 후보 영역에서의 픽셀마다의 현저도의 합계의 비,
    상기 통계치와 상기 비의 곱, 및,
    상기 입력 화상 내에서 현저도가 제로가 아닌 영역에 대한, 당해 후보 영역의 중복률, 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 현저성 정보 취득 장치.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 글로벌 특징량은,
    당해 후보 영역의 색 히스토그램과 상기 입력 화상의 단부 영역의 색 히스토그램 사이의 차,
    당해 후보 영역 내에서의 색의 대표치와 상기 입력 화상의 단부 영역 내에서의 색의 대표치 사이의 차,
    당해 후보 영역의 색 히스토그램과 상기 입력 화상 전체의 색 히스토그램 사이의 차, 및,
    당해 후보 영역 내에서의 색의 분산 중 적어도 어느 하나를 포함하는 것을 특징으로 하는 현저성 정보 취득 장치.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 글로벌 특징량은,
    당해 후보 영역을 포함한` 사각형의 애스펙트비,
    상기 사각형의 높이,
    상기 사각형의 폭,
    당해 후보 영역의 중심 좌표,
    당해 후보 영역의 장축의 길이,
    당해 후보 영역의 단축의 길이, 및,
    당해 후보 영역의 오일러수,
    중 적어도 어느 하나를 포함하는 것을 특징으로 하는 현저성 정보 취득 장치.
  10. 제6항에 있어서,
    상기 통합부는, 상기 복수의 후보 영역의 현저도를, 상기 제2의 딥 뉴럴 네트워크에 의한 각 후보 영역에 대한 추정 결과의 신뢰성에 응한 무게를 이용하여, 무게 부여 가산함에 의해, 상기 입력 화상의 현저성 정보를 생성하는 것을 특징으로 하는 현저성 정보 취득 장치.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    상기 후보 영역 설정부는, 상기 입력 화상 중에서 물체다움 영역을 복수 검출하고, 검출된 복수의 영역을 상기 복수의 후보 영역으로 설정하는 것을 특징으로 하는 현저성 정보 취득 장치.
  12. 제11항에 있어서,
    상기 후보 영역 설정부는, Geodesic Object Proposal(GOP)법에 의해, 상기 입력 화상 중에서 상기 물체다움 영역을 검출하는 것을 특징으로 하는 현저성 정보 취득 장치.
  13. 입력 화상의 픽셀마다의 현저도를, 각 픽셀의 주위의 국소 영역에서 얻어지는 정보에 의거하여 계산하는 스텝과,
    상기 입력 화상에 대해, 복수의 후보 영역을 설정하는 스텝과,
    상기 복수의 후보 영역 각각의 현저도를, 각 후보 영역 내의 픽셀마다의 현저도의 특징을 나타내는 로컬 현저성 특징량과, 상기 입력 화상의 전체에 대한 각 후보 영역의 특징을 나타내는 글로벌 특징량을 포함하는 정보에 의거하여 계산하는 스텝과,
    상기 복수의 후보 영역의 현저도를 통합하여, 상기 입력 화상의 현저성 정보를 생성하는 스텝를 갖는 것을 특징으로 하는 현저성 정보 취득 방법.
KR1020160033218A 2015-06-04 2016-03-21 현저성 정보 취득 장치 및 현저성 정보 취득 방법 KR20160143494A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510303277.6A CN106296638A (zh) 2015-06-04 2015-06-04 显著性信息取得装置以及显著性信息取得方法
CN2015103032776 2015-06-04

Publications (1)

Publication Number Publication Date
KR20160143494A true KR20160143494A (ko) 2016-12-14

Family

ID=55701710

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160033218A KR20160143494A (ko) 2015-06-04 2016-03-21 현저성 정보 취득 장치 및 현저성 정보 취득 방법

Country Status (5)

Country Link
US (1) US9824294B2 (ko)
EP (1) EP3101594A1 (ko)
JP (1) JP2017004480A (ko)
KR (1) KR20160143494A (ko)
CN (1) CN106296638A (ko)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9779492B1 (en) * 2016-03-15 2017-10-03 International Business Machines Corporation Retinal image quality assessment, error identification and automatic quality correction
WO2018100668A1 (en) * 2016-11-30 2018-06-07 Nec Corporation Image processing device, image processing method, and image processing program
JP6778625B2 (ja) * 2017-01-31 2020-11-04 株式会社デンソーアイティーラボラトリ 画像検索システム、画像検索方法及び画像検索プログラム
JP6565967B2 (ja) * 2017-05-12 2019-08-28 トヨタ自動車株式会社 路上障害物検出装置,方法,およびプログラム
CN109118459B (zh) 2017-06-23 2022-07-19 南开大学 图像显著性物体检测方法和装置
US10726307B2 (en) 2017-06-30 2020-07-28 Ai Systems Co., Ltd. Real-time identification of moving objects in video images
CN107301420A (zh) * 2017-06-30 2017-10-27 武汉大学 一种基于显著性分析的热红外影像目标探测方法
CN107506792B (zh) * 2017-08-16 2020-09-29 广西荷福智能科技有限公司 一种半监督的显著对象检测方法
CN110809784B (zh) 2017-09-27 2021-04-20 谷歌有限责任公司 高分辨率图像分割的端到端网络模型
US9984325B1 (en) * 2017-10-04 2018-05-29 StradVision, Inc. Learning method and learning device for improving performance of CNN by using feature upsampling networks, and testing method and testing device using the same
CN108021920A (zh) * 2017-11-09 2018-05-11 华南理工大学 一种图像对象协同发现的方法
CN107784662B (zh) * 2017-11-14 2021-06-11 郑州布恩科技有限公司 一种图像目标显著性度量方法
US10579908B2 (en) * 2017-12-15 2020-03-03 Google Llc Machine-learning based technique for fast image enhancement
CN108154150B (zh) * 2017-12-18 2021-07-23 北京工业大学 一种基于背景先验的显著性检测方法
JP7107544B2 (ja) * 2018-01-16 2022-07-27 Necソリューションイノベータ株式会社 情報処理装置、制御方法、及びプログラム
JP2019160251A (ja) * 2018-03-16 2019-09-19 株式会社リコー 画像処理装置、物体認識装置、機器制御システム、移動体、画像処理方法およびプログラム
CN108629286B (zh) * 2018-04-03 2021-09-28 北京航空航天大学 一种基于主观感知显著模型的遥感机场目标检测方法
JP2021523461A (ja) * 2018-05-10 2021-09-02 ザ ボード オブ トラスティーズ オブ ザ レランド スタンフォード ジュニア ユニバーシティー 原位置逆伝搬を通した光子ニューラルネットワークの訓練
KR102631031B1 (ko) 2018-07-27 2024-01-29 삼성전자주식회사 반도체 장치의 불량 검출 방법
JP7089179B2 (ja) 2018-08-30 2022-06-22 富士通株式会社 画像認識装置、画像認識方法および画像認識プログラム
JP7222216B2 (ja) 2018-10-29 2023-02-15 株式会社アイシン 運転支援装置
US10929708B2 (en) * 2018-12-10 2021-02-23 International Business Machines Corporation Deep learning network for salient region identification in images
WO2020235079A1 (ja) * 2019-05-23 2020-11-26 日本電信電話株式会社 3次元点群ラベル学習推定装置、3次元点群ラベル学習推定方法、及び3次元点群ラベル学習推定プログラム
CN110361625B (zh) * 2019-07-23 2022-01-28 中南大学 一种用于逆变器开路故障诊断的方法和电子设备
CN110598610B (zh) * 2019-09-02 2022-02-22 北京航空航天大学 一种基于神经选择注意的目标显著性检测方法
CN110765882B (zh) * 2019-09-25 2023-04-07 腾讯科技(深圳)有限公司 一种视频标签确定方法、装置、服务器及存储介质
CN110737497B (zh) * 2019-10-15 2020-11-03 中国人民解放军海军大连舰艇学院 一种显控界面辅助决策设计优化方法
US11373407B2 (en) * 2019-10-25 2022-06-28 International Business Machines Corporation Attention generation
CN111027544B (zh) * 2019-11-29 2023-09-29 武汉虹信技术服务有限责任公司 一种基于视觉显著性检测的mser车牌定位方法及系统
CN111047579B (zh) * 2019-12-13 2023-09-05 中南大学 一种特征质量评估方法及图像特征均匀提取方法
CN111161177B (zh) * 2019-12-25 2023-09-26 Tcl华星光电技术有限公司 图像自适应降噪方法和装置
CN111429463A (zh) * 2020-03-04 2020-07-17 北京三快在线科技有限公司 实例分割方法、装置、电子设备和存储介质
WO2021187776A1 (en) * 2020-03-17 2021-09-23 Samsung Electronics Co., Ltd. Methods and systems for grouping of media based on similarities between features of the media
US11854242B2 (en) * 2020-09-23 2023-12-26 Apple Inc. Systems and methods for providing personalized saliency models
CN112348033B (zh) * 2020-10-15 2024-01-26 北京交通大学 一种协同显著性目标检测方法
CN112581446A (zh) * 2020-12-15 2021-03-30 影石创新科技股份有限公司 一种图像的显著性物体检测方法、装置、设备及存储介质
CN113850828B (zh) * 2021-11-30 2022-02-22 腾讯科技(深圳)有限公司 图像处理方法、装置、电子设备、存储介质及程序产品
CN114338355B (zh) * 2021-12-30 2023-12-22 龙坤(无锡)智慧科技有限公司 一种嵌入式数据采集设备同步与更换方法及装置
CN114863138B (zh) * 2022-07-08 2022-09-06 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质及设备

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6721446B1 (en) * 1999-04-26 2004-04-13 Adobe Systems Incorporated Identifying intrinsic pixel colors in a region of uncertain pixels
IL172480A (en) * 2005-12-08 2011-11-30 Amir Zahavi Method for automatic detection and classification of objects and patterns in low resolution environments
JP4712635B2 (ja) * 2006-07-27 2011-06-29 富士フイルム株式会社 データ補正方法および装置並びにプログラム
JP5049899B2 (ja) * 2008-06-30 2012-10-17 キヤノン株式会社 撮像装置及びその制御方法
CN101329767B (zh) * 2008-07-11 2011-11-16 西安交通大学 基于学习的视频中显著物体序列自动检测方法
JP5202148B2 (ja) * 2008-07-15 2013-06-05 キヤノン株式会社 画像処理装置、画像処理方法、及びコンピュータプログラム
JP5057183B2 (ja) * 2010-03-31 2012-10-24 アイシン・エィ・ダブリュ株式会社 風景マッチング用参照データ生成システム及び位置測位システム
CN102236883A (zh) * 2010-04-27 2011-11-09 株式会社理光 图像增强方法和装置、物体检测方法和装置
CN102779338B (zh) 2011-05-13 2017-05-17 欧姆龙株式会社 图像处理方法和图像处理装置
US8675966B2 (en) * 2011-09-29 2014-03-18 Hewlett-Packard Development Company, L.P. System and method for saliency map generation
CN102693426B (zh) * 2012-05-21 2014-01-08 清华大学深圳研究生院 一种图像显著区域检测方法
JP5958534B2 (ja) * 2012-05-24 2016-08-02 日本電気株式会社 病理診断結果判定システム、病理診断結果判定方法および病理診断結果判定装置
WO2015025704A1 (ja) * 2013-08-23 2015-02-26 日本電気株式会社 映像処理装置、映像処理方法および映像処理プログラム
CN103679173B (zh) * 2013-12-04 2017-04-26 清华大学深圳研究生院 图像显著区域检测方法
US10650508B2 (en) * 2014-12-03 2020-05-12 Kla-Tencor Corporation Automatic defect classification without sampling and feature selection
US9530082B2 (en) * 2015-04-24 2016-12-27 Facebook, Inc. Objectionable content detector
US10019657B2 (en) * 2015-05-28 2018-07-10 Adobe Systems Incorporated Joint depth estimation and semantic segmentation from a single image

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
비특허 문헌 1 : L. Itti, C. Koch, and E. Niebur. A model of saliency-based visual attention for rapid scene analysis. PAMI, 20(11) : 1254-1259, 1998.
비특허 문헌 2 : M. -M. Cheng, G. -X. Zhang, N. J. Mitra, X. Huang, and S. -M. Hu. Global contrast based salient region detection. In CVPR, pages 409-416, 2011.
비특허 문헌 3 : P. Krahenbuhl and V. Koltun. Geodesic object proposals. In ECCV, pages 725-739. 2014.
비특허 문헌 4 : A. Krizhevsky, I. Sutskever, and G. E. Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, pages 1097-1105, 2012.

Also Published As

Publication number Publication date
US20160358035A1 (en) 2016-12-08
EP3101594A1 (en) 2016-12-07
JP2017004480A (ja) 2017-01-05
US9824294B2 (en) 2017-11-21
CN106296638A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
KR20160143494A (ko) 현저성 정보 취득 장치 및 현저성 정보 취득 방법
Wang et al. Deep networks for saliency detection via local estimation and global search
CN113065558A (zh) 一种结合注意力机制的轻量级小目标检测方法
Zou et al. Harf: Hierarchy-associated rich features for salient object detection
CN110298297B (zh) 火焰识别方法和装置
CN110263712B (zh) 一种基于区域候选的粗精行人检测方法
EP2490171A1 (en) Clothing feature extraction device, person retrieval device, and processing method thereof
US20170011523A1 (en) Image processing apparatus, image processing method, and storage medium
CN107273832B (zh) 基于积分通道特征与卷积神经网络的车牌识别方法及系统
CN103020992B (zh) 一种基于运动颜色关联的视频图像显著性检测方法
CN111126240B (zh) 一种三通道特征融合人脸识别方法
CN110929593A (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN112633297B (zh) 目标对象的识别方法、装置、存储介质以及电子装置
JP4098021B2 (ja) シーン識別方法および装置ならびにプログラム
CN108629286A (zh) 一种基于主观感知显著模型的遥感机场目标检测方法
CN111259756A (zh) 基于局部高频次特征和混合度量学习的行人重识别方法
CN112364873A (zh) 弯曲文本图像的文字识别方法、装置及计算机设备
CN108734200B (zh) 基于bing特征的人体目标视觉检测方法和装置
CN112818905A (zh) 一种基于注意力和时空信息的有限像素车辆目标检测方法
WO2020022329A1 (ja) 物体検出認識装置、方法、及びプログラム
CN111160194A (zh) 一种基于多特征融合的静态手势图像识别方法
JP4285640B2 (ja) オブジェクト識別方法および装置ならびにプログラム
JP2009123234A (ja) オブジェクト識別方法および装置ならびにプログラム
KR20180092453A (ko) Cnn과 스테레오 이미지를 이용한 얼굴 인식 방법
JP3962517B2 (ja) 顔面検出方法及びその装置、コンピュータ可読媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right