WO2013085278A1

WO2013085278A1 - 선택적 주의 집중 모델을 이용한 모니터링 장치 및 그 모니터링 방법

Info

Publication number: WO2013085278A1
Application number: PCT/KR2012/010480
Authority: WO
Inventors: 이민호; 장영민; 정성문; 김범휘; 박형민; 김민욱
Original assignee: 경북대학교 산학협력단; 서강대학교산학협력단
Priority date: 2011-12-06
Filing date: 2012-12-05
Publication date: 2013-06-13
Also published as: US9355641B2; US20140334682A1

Abstract

모니터링 장치가 개시된다. 본 모니터링 장치는, 이격된 위치에서 촬영된 복수의 이미지 및 이격된 위치에서 청취된 복수의 음원을 입력받는 입력부, 복수의 이미지 각각에 대한 복수의 모노 돌출맵을 생성하고, 생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성하는 돌출맵 생성부, 복수의 음원을 분석하여 음원의 위치를 판단하는 위치 판단부, 생성된 동적 돌출맵 및 판단된 음원 위치를 기초로 복수의 이미지에 대한 경로를 생성하는 시선 경로 인식부 및 생성된 시선 경로를 출력하는 출력부를 포함한다.

Description

선택적 주의 집중 모델을 이용한 모니터링 장치 및 그 모니터링 방법

본 발명은 모니터링 장치 및 모니터링 방법에 관한 것으로, 더욱 상세하게 는 시/청각 융합 정보에 기초하는 선택적 주의 집중 모델을 이용하는 모니터링 장치 및 모니터링 방법에 관한 것이다.

모니터링 장치는 센서기술을 이용하여 입력되는 이미지 및 음향을 정확하게 식별하는 기능을 수행한다. 모니터링 장치에 이용되는 센서기술은 인간의 감각기관을 모방하는 것으로 시작하였다. 최근에는 센서 기술 중 능동형 인공 시각 시스템 및 음성 인식 시스템의 중요성이 부각되고 있다.

그러나 지금까지 개발된 많은 인공 시각 시스템은 입력 이미지에 대해 특정 대상 검출 및 인식에 중점을 두고 있기 때문에 높은 복잡도를 갖는 실세계 환경의 자연 이미지에서 인간의 시각시스템처럼 어떻게 효과적으로 필요한 정보를 선택할 것인가 하는 시각시스템의 시작 단계의 문제에 대한 해결책을 갖지 못하는 단점이 있었다.

또한, 기존의 음성 인식 시스템은 실세계 환경에서는 잡음이 많이 존재하기 때문에 음성 신호만 이용해서는 어느 시점에 음성 인식을 수행해야 할지 결정하기가 어렵고, 화자가 아닌 잡음에 의해 음성 인식이 실행되는 경우가 빈번하게 발생하는 문제점이 있었다.

이에 따라서, 기존의 인공 시각 시스템 및 음성 인식 시스템의 한계를 극복하기 위한 방법이 요청되고 있다.

따라서, 본 발명의 목적은 시/청각 융합 정보에 기초한 주위 집중 모델을 이용하여 인간과 유사한 시선 경로를 제공하는 모니터링 장치를 제공하는데 에 있다.

한편, 본 발명의 또 다른 목적은 시/청각 융합 정보에 기초한 주위 집중 모델을 이용하여 모니터링 대상이 되는 화자의 말하는 시점을 정확히 파악하여 음성 인식을 용이하게 수행할 수 있는 모니터링 장치를 제공하는데 에 있다.

이상과 같은 목적을 달성하기 위한 본 발명에 의한 모니터링 장치는, 이격된 위치에서 촬영된 복수의 이미지 및 이격된 위치에서 청취된 복수의 음원을 입력받는 입력부, 상기 복수의 이미지 각각에 대한 복수의 모노 돌출맵을 생성하고, 상기 생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성하는 돌출맵 생성부, 상기 복수의 음원을 분석하여 상기 음원의 위치를 판단하는 위치 판단부, 상기 생성된 동적 돌출맵 및 상기 판단된 음원 위치를 기초로 상기 복수의 이미지에 대한 시선 경로를 생성하는 시선 경로 인식부 및 상기 생성된 시선 경로를 출력하는 출력부를 포함한다.

여기서, 상기 돌출맵 생성부는, 상기 입력된 이미지에 대한 밝기, 에지, 대칭성 및 보색 중 적어도 하나의 이미지 정보를 추출하는 이미지 정보 추출부, 상기 추출된 이미지 정보에 대한 중앙-주변 차(Center-surround Difference: CSD) 및 정규화 처리를 수행하여, 밝기 특징맵, 방향 특징맵, 대칭성 특징맵, 컬러 특징맵 중 적어도 하나의 특징맵을 출력하는 CSD 처리부 및 상기 출력된 특징맵에 대한 독립성분해석(Independent component analysis)을 수행하여 모노 돌출맵을 생성하는 ICA 처리부를 포함할 수 있다.

이 경우, 상기 돌출맵 생성부는, 상기 ICA 처리부에서 생성된 복수의 모노 돌출맵을 병합하여 동적 돌출맵을 생성하는 병합부를 더 포함할 수 있다.

한편, 상기 돌출맵 생성부는, 생물학 기반의 선택적 주위 집중 모델을 이용하여 상기 복수의 모노 돌출맵을 생성할 수 있다.

한편, 상기 시선 경로 인식부는, 상기 판단된 음원 위치에 기초하여 상기 생성된 동적 돌출맵에 포함된 복수 개의 돌출 포인트(salient point)를 보강 처리 또는 억제 처리하여 상기 복수개의 돌출 포인트에 대한 우선 순위를 부여하고, 상기 부여된 우선 순위에 따라 시선 경로를 생성할 수 있다.

한편, 상기 입력부는, 기설정된 시간을 주기로 복수의 이미지 및 복수의 음원을 입력받을 수 있다.

한편, 본 실시 예에 따른 모니터링 장치에서의 모니터링 방법은, 이격된 위치에서 촬영된 복수의 이미지 및 이격된 위치에서 청취된 복수의 음원을 입력받는 단계, 상기 복수의 이미지 각각에 대한 복수의 모노 돌출맵을 생성하는 단계, 상기 생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성하는 단계, 상기 복수의 음원을 분석하여 상기 음원의 위치를 판단하는 단계, 상기 생성된 동적 돌출맵 및 상기 판단된 음원 위치를 기초로 상기 복수의 이미지에 대한 시선 경로를 생성하는 단계 및 상기 생성된 시선 경로를 출력하는 단계를 포함한다.

여기서, 상기 복수의 모노 돌출맵을 생성하는 단계는, 상기 입력된 복수의 이미지 각각에 대한 밝기, 에지, 대칭성 및 보색 중 적어도 하나의 이미지 정보를 추출하는 단계, 상기 추출된 이미지 정보에 대한 중앙-주변 차(Center-surround Difference: CSD) 및 정규화 처리를 수행하여, 밝기 특징맵, 방향 특징맵, 대칭성 특징맵, 컬러 특징맵 중 적어도 하나의 특징맵을 출력하는 단계 및 상기 출력된 특징맵에 대한 독립성분해석(Independent component analysis)을 수행하여 모노 돌출맵을 생성하는 단계를 포함할 수 있다.

한편, 상기 동적 돌출맵을 생성하는 단계는, 상기 생성된 복수의 모노 돌출맵을 병합하여 동적 돌출맵을 생성할 수 있다.

한편, 상기 복수의 모노 돌출맵을 생성하는 단계는, 생물학 기반의 선택적 주위 집중 모델을 이용하여 상기 복수의 모노 돌출맵을 생성할 수 있다.

한편, 상기 시선 경로를 생성하는 단계는, 상기 판단된 음원 위치에 기초하여 상기 생성된 동적 돌출맵에 포함된 복수 개의 돌출 포인트(salient point)를 보강 처리 또는 억제 처리하여 상기 복수개의 돌출 포인트에 대한 우선 순위를 부여하고, 상기 부여된 우선 순위에 따라 시선 경로를 생성할 수 있다.

한편, 상기 입력받는 단계는, 기설정된 시간을 주기로 복수의 이미지 및 복수의 음원을 입력받을 수 있다.

한편, 본 실시 예에 따른 모니터링 장치는, 사용자를 촬상한 복수의 이미지 및 음원을 입력받는 입력부, 상기 복수의 이미지 각각에서 사용자의 입술 영역을 검출하는 검출부, 상기 복수의 이미지 각각의 검출된 입술 영역에 대한 동적 돌출맵을 생성하는 돌출맵 생성부, 상기 생성된 동적 돌출맵을 이용하여 입술의 움직임 정보를 취득하는 정보 취득부, 상기 취득된 움직임 정보를 기초로 상기 입력된 음원에 대한 음성 인식을 수행하는 음성 인식부 및 상기 음성 인식의 결과를 출력하는 출력부를 포함할 수 있다.

한편, 상기 검출부는, 상기 복수의 이미지 각각에서 사용자의 얼굴 영역을 검출하는 얼굴 검출부 및 상기 검출된 얼굴 영역 내에서 사용자의 입술 영역을 검출하는 입술 검출부를 포함할 수 있다.

이 경우, 상기 얼굴 검출부는, Adaboost 알고리즘을 이용하여 사용자의 얼굴 영역을 검출하고, 상기 입술 검출부는, 기저장된 탬플릿을 이용하여 입술 영역을 검출할 수 있다.

한편, 상기 입술 검출부는, 상기 복수의 이미지 각각에서 상기 검출된 입술 영역을 추출하여 복수의 추출 이미지를 생성할 수 있다.

한편, 상기 돌출맵 생성부는, 상기 생성된 복수의 추출 이미지 각각에 대한 복수의 모노 돌출맵을 생성하고, 상기 생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성할 수 있다.

한편, 상기 움직임 정보는, 사용자의 말하는 시점 정보, 청킹(chunking) 시점 정보 및 사용자의 말이 끝나는 시점 정보 중 적어도 하나의 시점 정보를 포함할 수 있다.

한편, 상기 음성 인식부는, 상기 취득된 움직임 정보를 기초로 사용자의 말하는 시점 중에 입력된 음원에 대한 음성 인식만을 수행할 수 있다.

한편, 상기 입력부는, 상호 이격된 위치에서 청취된 복수의 음원을 입력받고, 상기 음원 인식 장치는, 상기 복수의 음원을 분석하여 상기 음원의 발생 위치를 판단하는 위치 판단부를 더 포함하고, 상기 음성 인식부는, 상기 취득된 움직임 정보 및 상기 판단된 음원 발생 위치를 기초로 상기 입력된 음원에 대한 음성 인식을 수행할 수 있다.

한편, 본 실시 예에 따른 모니터링 방법은, 사용자를 촬상한 복수의 이미지 및 음원을 입력받는 단계, 상기 복수의 이미지 각각에서 사용자의 입술 영역을 검출하는 단계, 상기 복수의 이미지 각각의 검출된 입술 영역에 대한 동적 돌출맵을 생성하는 단계, 상기 생성된 동적 돌출맵을 이용하여 입술의 움직임 정보를 취득하는 단계, 상기 취득된 움직임 정보를 기초로 상기 입력된 음원에 대한 음성 인식을 수행하는 단계 및 상기 음성 인식의 결과를 출력하는 단계를 포함한다.

한편, 상기 검출하는 단계는, 상기 복수의 이미지 각각에서 사용자의 얼굴 영역을 검출하는 단계 및 상기 검출된 얼굴 영역 내에서 사용자의 입술 영역을 검출하는 단계를 포함할 수 있다.

이 경우, 상기 얼굴 영역을 검출하는 단계는, Adaboost 알고리즘을 이용하여 사용자의 얼굴 영역을 검출하고, 상기 입술 영역을 검출하는 단계는, 기저장된 탬플릿을 이용하여 입술 영역을 검출할 수 있다.

한편, 상기 복수의 이미지 각각에서 상기 검출된 입술 영역을 추출하여 복수의 추출 이미지를 생성하는 단계를 더 포함할 수 있다.

이 경우, 상기 동적 돌출맵을 생성하는 단계는, 상기 생성된 복수의 추출 이미지 각각에 대한 복수의 모노 돌출맵을 생성하고, 상기 생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성할 수 있다.

한편, 상기 음성 인식을 수행하는 단계는, 상기 취득된 움직임 정보를 기초로 사용자의 말하는 시점 중에 입력된 음원에 대한 음성 인식만을 수행할 수 있다.

한편, 상기 입력받는 단계는, 상호 이격된 위치에서 청취된 복수의 음원을 입력받고, 상기 음원 인식 방법은, 상기 복수의 음원을 분석하여 상기 음원의 발생 위치를 판단하는 단계를 더 포함하고, 상기 음성 인식을 수행하는 단계는, 상기 취득된 움직임 정보 및 상기 판단된 음원 발생 위치를 기초로 상기 입력된 음원에 대한 음성 인식을 수행할 수 있다.

따라서, 본 실시 예에 따른 모니터링 장치 및 모니터링 방법은, 시/청각 정보를 융합하여, 영상의 동적인 움직임과 음원의 위치를 동시에 고려하는 인간과 유사한 시선 경로를 제공하여, 높은 신뢰도의 모니터링 장치 및 모니터링 방법을 제공할 수 있다.

또한, 본 실시 예에 따른 모니터링 장치 및 모니터링 방법은, 시/청각 정보를 융합하여 모니터링 대상이 되는 화자의 말하는 시점, 청킹 시점, 끝나는 시점을 검출하고, 음성 인식이 수행될 음원를 선별적으로 선택할 수 있다.

도 1은 본 발명의 일 실시 예에 따른 모니터링 장치의 구성을 나타내는 블럭도,

도 2는 본 발명의 제1 실시 예에 따른 모니터링 장치의 구성을 나타내는 블럭도,

도 3은 본 발명의 제1 실시 예에 따른 모니터링 장치의 돌출맵 생성부의 구체적인 구성을 도시한 블록도,

도 4는 본 발명의 제1 실시 예에 따른 모니터링 장치의 위치 판단부의 동작을 설명하기 위한 도면,

도 5는 본 발명의 제1 실시 예에 따른 모니터링 장치의 돌출맵 생성부의 동작을 설명하기 위한 도면,

도 6은 본 발명의 제1 실시 예에 따른 모니터링 방법의 동작을 설명하기 위한 흐름도,

도 7은 본 발명의 제2 실시 예에 따른 모니터링 장치의 구성을 나타내는 블럭도,

도 8은 본 발명의 제2 실시 예에 따른 모니터링 장치의 얼굴 검출부의 구체적인 구성을 설명하기 위한 도면,

도 9는 본 발명의 제2 실시 예에 따른 모니터링 장치의 입술 검출부의 구체적인 구성을 설명하기 위한 도면,

도 10은 본 발명의 제2 실시 예에 따른 모니터링 장치의 돌출맵 생성부의 동작을 설명하기 위한 도면,

도 11은 본 발명의 제2 실시 예에 따른 모니터링 장치의 위치 판단부의 동작을 설명하기 위한 도면,

도 12는 본 발명의 제2 실시 예에 따른 모니터링 장치의 동작을 설명하기 위한 도면, 그리고,

도 13은 본 발명의 제2 실시 예에 따른 모니터링 방법의 동작을 설명하기 위한 흐름도이다.

-

이하 첨부된 도면들을 참조하여 본 발명에 대하여 보다 상세하게 설명한다.

본 발명의 모니터링 장치는 보안 시스템, 감시 시스템 및 로봇의 비젼 시스템으로 구현 될 수 있다.

도 1은 본 발명의 일 실시 예에 따른 모니터링 장치의 구성을 나타내는 블럭도이다.

도 1을 참고하면, 본 실시 예에 따른 모니터링 장치(100)는 입력부(110), 출력부(120), 저장부(130), 돌출맵 생성부(140), 음성/시선경로 인식부(150) 및 제어부(160)로 구성될 수 있다.

입력부(110)는 촬영된 복수의 이미지 및 청취된 복수의 음원을 입력받는다. 구체적으로, 입력부(110)는 외부 디지털 카메라, 외부 캠코더와 같은 촬영 장치에서 촬영된 복수의 이미지를 입력받을 수 있다. 그리고 입력부(110)는 복수의 채널을 갖는 마이크를 통하여 복수의 음원을 입력받을 수 있다.

한편, 이상에서는 외부 장치로부터 이미지 및 음원을 입력받는 것으로 도시하고 설명하였지만, 구현시 촬상 소자 및/또는 음성 독취 소자가 모니터링 장치(100)에 구비되는 형태로도 구현될 수 있다.

출력부(120)는 인식된 음성 및 시선 경로를 출력할 수 있다, 구체적으로 출력부(120)는 모니터와 같은 디스플레이 장치로 구현될 수 있으며, 입력부(110)를 통하여 입력받은 이미지와 해당 이미지에 대한 시선 경로를 함께 표시할 수 있다. 또한, 출력부는(120)는 음성 인식 결과를 표시할 수 있다.

여기서, 시선 경로란 정보량을 분석하여 정보량이 많이 발생하는 곳을 모니터링 하기 위한 경로, 즉 주의 집중할 경로를 의미한다.

한편, 출력부(120)는 인식된 음성 및 시선 경로를 외부 장치에 전송할 수도 있다.

저장부(130)는 입력된 복수의 이미지 및 입력된 복수의 음원을 저장한다. 구체적으로, 저장부(130)는 상술한 입력부(110)에서 입력된 복수의 이미지 및 복수의 음원을 저장할 수 있다. 그리고 저장부(130)는 후술할 돌출맵 생성부(140)에서 생성된 돌출맵을 임시 저장할 수 있으며, 후술할 음성/시선 경로 인식부(160)에서 생성된 시선 경로 및 음성 인식 결과를 임시 저장할 수도 있다.

그리고 저장부(130)는 시선 경로 제공장치(100) 내부에 장착된 메모리, 예를 들면 ROM, 플래시 메모리나 HDD일 수 있으며, 시선 경로 제공장치(100)와 연결된 외장형 HDD 또는 메모리 카드, 예를 들면, 플래시 메모리(Flash Memory: M/S, xD, SD 등)나 USB 메모리 등일 수도 있다.

돌출맵 생성부(140)는 복수의 이미지 각각을 이용하여, 동적 돌출맵을 생성한다. 돌출맵 생성부(140)의 구체적인 동작 및 구성에 대해서는 이하 각 실시 예에서 자세히 설명하도록 한다.

음성/시선 경로 인식부(150)는 생성된 동적 돌출맵을 이용하여 음성 및 시선 경로를 인식한다. 구체적인 음성 인식 및 시선 경로 인식은 이하 각 실시 예에서 자세히 설명하도록 한다.

한편, 음성/시선 경로 인식부(150)의 기능은 돌출맵 생성부(140)에 통합되는 형태로도 구현될 수 있다.

제어부(160)는 모니터링 장치(100)의 각 구성을 제어한다. 구체적으로, 복수의 이미지 및 복수의 음원이 입력부(110)를 통하여 입력되면, 제어부(160)는 입력된 복수의 이미지에 대한 동적 돌출맵이 생성되도록 돌출맵 생성부(150)를 제어할 수 있다.

이상에서 설명한 도 1 에 따른 따른 모니터링 장치(100)는, 시/청각 정보를 융합하여, 영상의 동적인 움직임과 음원의 위치를 동시에 고려하는 인간과 유사한 시선 경로를 제공하여, 높은 신뢰도의 모니터링 장치을 제공할 수 있다.

또한, 도 1 의 모니터링 장치(100)은, 시/청각 정보를 융합하여 모니터링 대상이 되는 화자의 말하는 시점, 청킹 시점, 끝나는 시점을 검출하고, 음성 인식이 수행될 음원를 선별적으로 선택할 수 있다.

이하에서는 2가지의 실시 예를 갖는 모니터링 장치(100)에 대해 설명하도록 한다. 제1 실시 예는 인간과 유사한 시선 경로를 제공하는 모니터링 장치(100)에 대한 예이며, 제2 실시 예는 신뢰성이 높은 음성 인식을 제공하는 모니터링 장치(100)에 대한 예이다. 제1 실시 예와 제2 실시 예는 각각 다른 모니터링 장치로 구현될 수도 있고, 또는 제1 실시 예와 제2 실시 예의 구성을 갖는 하나의 모니터링 장치로 구현될 수 도 있다.

한편, 제1 실시 예에 따른 모니터링 장치(100)는 시선 경로 제공 장치로 구현될 수도 있고, 제2 실시 예에 따른 모니터링 장치(100)는 음성 인식 장치로 구현될 수 있다.

이하 도 2 내지 도 6을 참고하여, 제1 실시 예에 따른 모니터링 장치(100)에 대해 설명하도록 한다.

도 2는 본 발명의 제1 실시 예에 따른 모니터링 장치(100)의 구성을 나타내는 블럭도이다.

도 2를 참고하면, 제1 실시 예에 따른 모니터링 장치(100)는 입력부(110), 출력부(120), 저장부(130), 돌출맵 생성부(140), 음성/시선 경로 인식부(150) 및 제어부(160)로 구성될 수 있다. 본 실시 예에서는 단순히 선택적으로 주의 집중할 시선 경로만을 파악하는 장치로 이용되는 것으로 설명하나, 본 실시 예에 따른 모니터링 장치는 시선 경로 제공장치, 로봇의 비전 시스템, 보안 시스템 및 서벨리언스 시스템의 일 구성으로 구현될 수도 있다.

한편, 도 1에서 설명한 바와 같이 시선 경로란 정보량을 분석하여 정보량이 많이 발생하는 곳을 모니터링 하기 위한 경로, 즉 주의 집중할 경로를 의미한다.

입력부(110)는 이격된 위치에서 촬영된 복수의 이미지 및 이격된 위치에서 청취된 복수의 음원을 입력받는다. 구체적으로, 입력부(110)는 외부 디지털 카메라, 화상독취장치(스캐너)와 같은 촬영 장치에서 촬영된 복수의 이미지를 입력받을 수 있다. 그리고 입력부(110)는 복수의 채널을 갖는 마이크를 통하여 복수의 음원을 입력받을 수 있다.

출력부(120)는 생성된 시선 경로를 출력할 수 있다. 구체적으로 출력부(120)는 모니터와 같은 디스플레이 장치로 구현될 수 있으며, 입력부(110)를 통하여 입력받은 이미지와 해당 이미지에 대한 시선 경로를 함께 표시할 수 있다.

저장부(130)는 입력된 복수의 이미지 및 입력된 복수의 음원을 저장한다. 구체적으로, 저장부(130)는 상술한 입력부(110)에서 입력된 복수의 이미지 및 복수의 음원을 저장할 수 있다. 그리고 저장부(130)는 후술할 돌출맵 생성부(140)에서 생성된 돌출맵을 임시 저장할 수 있으며, 후술할 시선 경로 생성부(152)에서 생성된 시선 경로를 임시 저장할 수도 있다. 그리고 저장부(130)는 모니터링 장치(100) 내부에 장착된 메모리, 예를 들면 ROM, 플래시 메모리나 HDD일 수 있으며, 모니터링 장치(100)와 연결된 외장형 HDD 또는 메모리 카드, 예를 들면, 플래시 메모리(Flash Memory: M/S, xD, SD 등)나 USB 메모리 등일 수도 있다.

돌출맵 생성부(140)는 복수의 이미지 각각에 대한 복수의 모노 돌출맵을 생성하고, 생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성한다. 돌출맵 생성부(140)의 구체적인 동작 및 구성에 대해서는 도 3를 참고하여 후술한다.

음성/시선 경로 인식부(150)는 위치 판단부(151) 및 시선 경로 인식부(152)로 구성될 수 있다.

위치 판단부(151)는 복수의 음원(예를 들어, 스테레오 음원)을 분석하여 음원의 위치를 판단한다. 구체적으로, 위치 판단부(151)는 입력된 복수의 음원 사이의 위상 차를 분석하여 음원이 발생된 위치를 판단할 수 있다. 이러한 동작은 종래 널리 알려진 기술인바 이에 대해서 구체적인 설명은 생략한다.

한편, 위치 판단부(151)는 음성/시선 경로 인식부(150)의 일 구성으로 설명하고 있지만, 별개의 독립된 모니터링 장치(100)의 일 구성으로 구현될 수도 있다.

시선 경로 인식부(152)는 생성된 동적 돌출맵 및 판단된 음원 위치를 기초로 복수의 이미지에 대한 시선 경로를 생성한다. 구체적으로, 시선 경로 생성부(152)는 돌출맵 생성부(140)에서 생성된 동적 돌출맵에 포함된 복수의 돌출 포인트에 대해서 위치 판단부(151)에서 판단된 음원 위치에 기초하여 보강 처리 또는 억제 처리를 수행하여 복수개의 돌출 포인트에 대한 우선 순위를 부여하고, 부여된 우선 순위에 따라 시선 경로를 인식하여 생성할 수 있다.

한편, 음성/시선 경로 인식부(150)의 기능은 돌출맵 생성부(150)에 통합되는 형태로도 구현될 수 있다.

이와 같은 음성/시선 경로 인식부(150)의 동작은 생물학 기반의 선택적 주위 집중 모델을 이용할 수 있다. 여기서, 생물학 기반의 선택적 주위 집중 모델은 인간의 기각 구조 및 처리의 일부 과정을 모델링한 것으로, 입력된 영상에 대해서 즉각적으로 반응하는 자료 주도적 처리 과정과 학습된 정보를 이용하여 개념 주도적 처리 과정으로 나누어진다. 자료 주도적 처리 과정과 개념 주도적 처리 과정은 널리 알려진 기술인바 이에 대한 구체적인 설명은 생략한다.

제어부(160)는 모니터링 장치(100)의 각 구성을 제어한다. 구체적으로, 복수의 이미지 및 복수의 음원이 입력부(110)를 통하여 입력되면, 제어부(160)는 입력된 복수의 이미지에 대한 동적 돌출맵이 생성되도록 돌출맵 생성부(140)를 제어할 수 있으며, 복수의 음원에 대한 음원 위치가 판단되도록 위치 판단부(151)를 제어할 수 있다. 그리고 제어부(160)는 생성된 동적 돌출맵 및 음원 위치에 기초하여 사용자의 시선 경로가 생성되도록 시선 경로 생성부(151)를 제어할 수 있다. 그리고 제어부(160)는 생성된 시선 경로가 표시되도록 출력부(120)를 제어할 수 있다.

따라서, 본 실시 예에 따른 모니터링 장치(100)는 시/청각 정보를 융합하여, 영상의 동적인 움직임과 음원의 위치를 동시에 고려하기 때문에 정보 선택에 있어 높은 신뢰도를 가지고 시선 경로를 인식하여 생성할 수 있게 된다.

본 실시 예에서는 생성된 시선 경로를 출력부(120)를 통하여 표시하는 동작만을 설명하였으나, 구현시에는 생성된 시선 경로가 저장부(130)에 저장되거나, 인쇄 장치를 통하여 인쇄되거나, 특정 장치에 전송되는 형태로도 구현될 수 있다.

도 3은 본 발명의 제1 실시 예에 따른 모니터링 장치의 돌출맵 생성부의 구체적인 구성을 도시한 블록도이다.

도 3를 참고하면, 돌출맵 생성부(140)는 이미지 정보 추출부(141), CSD 처리부(142), ICA 처리부(143) 및 병합부(144)를 포함한다.

도 3에서 Second Natural image는 First Natral image 이후 일정한 시간차(△t)를 두고 입력되는 이미지를 의미한다.

이미지 정보 추출부(141)는 입력된 이미지에 대한 밝기(I), 에지(E), 및 보색(RG, BY)에 대한 이미지 정보를 추출한다. 구체적으로, 입력된 이미지의 R(Red), G(Green), B(Ble) 값을 기초로 입력된 영상에 대한 밝기, 에지, 대칭성 및 보색 중 적어도 하나의 이미지 정보를 추출할 수 있다.

CSD 처리부(142)는 추출된 이미지 정보에 대한 중앙-주변 창(Center-surround Difference: CSD) 및 정규화 처리를 수행하여 밝기 특징맵, 방향 특징맵, 대칭성 특징맵, 컬러 특징맵을 생성할 수 있다.

그리고 ICA 처리부(143)는 출력된 특징맵에 대한 독립 성분해석(Independent component analysis)을 수행하여 모노 돌출맵(SM: Salient Map)을 생성한다.

이와 같은 이미지 정보 추출부(141), CSD 처리부(142), ICA 처리부(143)를 이용하여 각각의 이미지에 대한 모노 돌출맵을 생성한다.

그리고 병합부(144)는 ICA 처리부(143)에서 시간차(△t)를 두고 생성된 복수의 모노 돌출맵을 병합하여 동적 돌출맵을 생성한다. 구체적으로, 동적 돌출맵은 아래의 수학식 1 내지 2에 의하여 생성될 수 있다.

수학식 1

여기서 Sp(v)는 깊이 정보가 고려되지 않은 상향식 돌출맵이고, L(sp.v.σ)는 수학식 2과 같은 라플라스 식이다.

수학식 2

도 3에 도시된 바와 같은 동적 돌출맵이 인간의 선택적 주의 집중 기능과 유사한 돌출맵을 만들어 낼지라고, 돌출된 돌출 영역들은 인간에게 관심없는 영역이 될 수도 있고, 보다 관심을 가져야 할 영역일 수도 있다. 왜냐하면, 돌출맵은 보색성과 밝기, 에지, 대칭성 정보와 같은 원시적인 특징들만을 사용하여 생성하였기 때문이다. 이러한 점을 해결하기 위하여, 청각 정보에 반영하여 동적 돌출맵의 돌출 영역 각각에 대한 억제/강화를 수행할 수 있다. 이러한 동작은 Fuzzy ART 신경망으로 모델링할 수 있다.

도 4는 본 발명의 제1 실시 예에 따른 모니터링 장치의 위치 판단부의 동작을 설명하기 위한 도면이다.

도 4을 참조하면, 입력부에 두 개의 음원(예를 들어, 스테레오 음원)이 입력되면, 위치 판단부(151)는 각각의 음원의 스펙트럼을 분석하고, 분석된 음원 각각의 스펙트럼을 통하여, 음원이 발생된 위치를 예측할 수 있다.

도 5는 본 발명의 제1 실시 예에 따른 모니터링 장치의 돌출맵 생성부의 동작을 설명하기 위한 도면이다.

도 5를 참조하면, ICA 처리부(143)에서 생성된 복수의 돌출맵(510), 병합부(144)에서 생성된 동적 돌출맵(520) 및 최종 돌출맵(530)이 표시되어 있다.

복수의 모노 돌출맵(510)은 입력부(110)를 통하여 시간차를 두고 입력된 복수의 이미지 각각에 대응되는 돌출입니다.

그리고 동적 돌출맵(520)은 ICA 처리부(144)에서 출력된 복수의 모노 돌출맵이 병합되어 생성된 돌출맵이다.

그리고 최종 돌출맵(430)은 위치 판단부(151)에서 판단된 음원의 위치에 따라 동적 돌출맵(520)의 돌출 영역에 대한 보강 및 억제 동작을 수행하여 생성된 돌출맵이다.

도 6은 본 발명의 제1 실시 예에 따른 모니터링 방법의 동작을 설명하기 위한 흐름도이다.

이격된 위치에서 촬영된 복수의 이미지 및 이격된 위치에서 청취된 복수의 음원을 입력받는다(S610). 구체적으로, 외부 디지털 카메라, 화상독취장치(스캐너)와 같은 촬영 장치에서 촬영된 복수의 이미지를 입력받을 수 있다. 그리고 복수의 채널을 갖는 마이크를 통하여 복수의 음원을 입력받을 수 있다.

그리고 복수의 이미지 각각에 대한 복수의 모노 돌출맵을 생성한다(S620). 구체적으로, 입력된 복수의 이미지 각각에 대한 밝기, 에지, 대칭성 및 보색 중 적어도 하나의 이미지 정보를 추출하고, 추출된 이미지 정보에 대한 중앙-주변 차(Center-surround Difference: CSD) 및 정규화 처리를 수행하여, 밝기 특징맵, 방향 특징맵, 대칭성 특징맵, 컬러 특징맵 중 적어도 하나의 특징맵을 출력하고, 출력된 특징맵에 대한 독립성분해석(Independent component analysis)을 수행하여 모노 돌출맵을 생성할 수 있다.

생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성한다(S630). 구체적으로, 생성된 복수의 모노 돌출맵을 병합하여 동적 돌출맵을 생성할 수 있다.

그리고 복수의 음원을 분석하여 상기 음원의 위치를 판단한다(S640). 구체적으로, 입력된 복수의 음원 사이의 위상 차를 분석하여 음원이 발생된 위치를 판단할 수 있다. 한편, 음원의 위치를 판단 하는 단계는 모노 돌출맵을 생성하는 단계(S620)이전에 실행될 수 도 있다.

생성된 동적 돌출맵 및 판단된 음원 위치를 기초로 복수의 이미지에 대한 시선 경로를 생성한다(S650). 구체적으로, 생성된 동적 돌출맵에 포함된 복수의 돌출 포인트에 대해서 판단된 음원 위치에 기초하여 보강 처리 또는 억제 처리를 수행하여 복수개의 돌출 포인트에 대한 우선 순위를 부여하고, 부여된 우선 순위에 따라 시선 경로를 생성할 수 있다.

생성된 시선 경로를 출력한다(S660). 구체적으로 모니터와 같은 디스플레이 장치를 통하여 생성된 시선 경로를 출력할 수 있다. 이때, 입력받은 복수의 이미지와 해당 복수의 이미지에 대한 시선 경로를 함께 표시할 수 있다.

따라서, 본 실시 예에 따른 모니터링 방법은 시/청각 정보를 융합하여, 영상의 동적인 움직임과 음원의 위치를 동시에 고려하기 때문에 정보 선택에 있어 높은 신뢰도를 가지고 시선 경로를 생성할 수 있게 된다. 도 6와 같은 모니터링 방법은, 도 2의 구성을 가지는 모니터링 장치 상에서 실행될 수 있으며, 그 밖의 다른 구성을 가지는 모니터링 장치상에도 실행될 수 있다.

이하 도 7 내지 도 13을 참고하여, 제2 실시 예에 따른 모니터링 장치(100)에 대해 설명하도록 한다. 제2 실시 예에 따른 모니터링 장치(100)는 신뢰성이 높은 음성 인식을 제공하는 모니터링 장치(100)에 대한 실시 예로, 음성 인식 장치로 구현될 수도 있다.

도 7은 본 발명의 제2 실시 예에 따른 모니터링 장치(100)의 구성을 나타내는 블럭도이다.

도 7을 참조하면, 본 실시 예에 따른 모니터링 장치(100)는 입력부(110), 출력부(120), 저장부(130), 돌출맵 생성부(140), 음성/시선 경로 인식부(150) 및 제어부(160)로 구성될 수 있다. 본 실시 예에서는 단순히 음성 인식만을 파악하는 장치로 이용되는 것으로 설명하지만, 본 실시 예에 따른 모니터링 장치는 로봇 비젼 시스템, 보안 시스템 및 서벨리언스 시스템 등의 일 구성으로 구현될 수도 있다.

입력부(110)는 사용자를 촬상한 복수의 이미지 및 음원을 입력받는다. 구체적으로, 입력부(110)는 외부 디지털 카메라, 외부 캠코더와 같은 촬영 장치에서 촬영된 복수의 이미지를 입력받을 수 있다. 그리고 입력부(110)는 외부 마이크를 통하여 음원을 입력받을 수 있다.

한편, 이상에서는 외부 장치로부터 이미지 및 음원을 입력받는 것으로 도시하고 설명하였지만, 구현시에는 촬상 소자 및/또는 음성 독취 소자가 모니터링 장치(100)에 구비되는 형태로도 구현될 수 있다.

또한, 이상에서는 입력부(110)가 하나의 음원만을 입력받는 것으로 설명하였지만, 구현시에 입력부(110)는 서로 이격된 위치에서 청취된 복수의 음원을 입력받을 수 있으며, 이 경우, 입력된 복수의 음원은 후술한 위치 판단부(151)에 제공될 수 있다.

출력부(120)는 음성 인식의 결과를 출력할 수 있다. 구체적으로, 출력부(120)는 모니터와 같은 디스플레이 장치로 구현될 수 있으며, 이 경우, 출력부(120)는 후술할 음성 인식부(154)에서 음식 인식의 결과를 표시할 수 있다. 또한, 출력부(120)는 음성 인식의 결과를 외부 장치에 전송할 수도 있다.

저장부(130)는 입력된 복수의 이미지 및 입력된 음원을 저장한다. 구체적으로, 저장부(130)는 상술한 입력부(110)에서 입력된 복수의 이미지 및 음원을 저장할 수 있다. 그리고 저장부(130)는 후술할 검출부(145)에서 검출된 영역 정보 및 추출 이미지를 임시 저장할 수 있으며, 후술할 생성부(146)에서 생성된 돌출맵을 임시 저장할 수 있으며, 후술할 정보 취득부(153)에 취득된 정보 및 후술할 음성 인식부(154)에서 음성 인식의 결과를 임시 저장할 수도 있다.

그리고 저장부(130)는 모니터링 장치(100) 내부에 장착된 메모리, 예를 들면 ROM, 플래시 메모리나 HDD일 수 있으며, 모니터링 장치(100)와 연결된 외장형 HDD 또는 메모리 카드, 예를 들면, 플래시 메모리(Flash Memory: M/S, xD, SD 등)나 USB 메모리 등일 수도 있다.

돌출맵 생성부(140)는 검출부(145) 및 생성부(146)로 구성되어, 돌출맵을 생성할 수 있다.

검출부(145)는 복수의 이미지 각각에서 사용자의 입술 영역을 검출한다. 구체적으로, 검출부(145)는 얼굴 검출부(미도시) 및 입술 검출부(미도시)로 구성될 수 있다.

얼굴 검출부는 복수의 이미지 각각에서 사용자의 얼굴 영역을 검출한다. 구체적으로, 얼굴 검출부는 Adaboost 알고리즘을 이용하여 복수의 이미지 각각에서의 사용자 얼굴 영역을 검출할 수 있다. 얼굴 검출부의 구체적인 동작에 대해서는 도 8을 참조하여 후술한다.

입술 검출부는 검출된 얼굴 영역 내에서 사용자의 입술 영역을 검출한다. 구체적으로, 입술 검출부는 기저장된 탬플릿을 이용하여 얼굴 검출부에서 검출된 얼굴 영역 중 입술 영역을 검출할 수 있다. 그리고 입술 검출부는 복수의 이미지 각각에서 검출된 입술 영역을 추출하여 복수의 추출 이미지를 생성할 수 있다. 입술 검출부의 구체적인 동작에 대해서는 도 9를 참조하여 후술한다.

생성부(146)는 복수의 이미지 각각의 검출된 입술 영역에 대한 동적 돌출맵을 생성한다. 구체적으로, 생성부(146)는 검출부(145)의 입술 검출부에서 생성된 복수의 추출 이미지를 이용하여 복수의 모노 돌출맵을 생성하고, 생성된 모노 돌출맵을 이용하여 동적 돌출맵을 생성할 수 있다. 생성부(146)의 구체적인 동작에 대해서는 도 4를 참조하여 후술한다.

음성/시선 경로 인식부(150)는 위치 판단부(151), 정보 취득부(152) 및 음성 인식부(154)를 구비할 수 있다.

위치 판단부(151)는 복수의 음원(예를 들어, 스테레오 음원)을 분석하여 음원의 위치를 판단한다. 구체적으로, 위치 판단부(151)는 입력된 복수의 음원 사이의 위상 차를 분석하여 음원이 발생된 위치를 판단할 수 있다. 이상에서는 두 개의 채널만을 이용하는 것에 대해서 도시하고 설명하였지만, 구현시에는 4개의 채널을 갖는 음원을 이용하는 것도 가능하다. 이에 대해서는 도 11를 참조하여 후술한다.

한편, 위치 판단부(151)는 음성/시선 경로 인식부(150)의 일 구성으로 설명하였지만, 이에 한정되지 않고 별도의 독립된 구성으로 구현될 수도 있다.

정보 취득부(153)는 생성된 동적 돌출맵을 이용하여 입술의 움직임 정보를 취득한다. 구체적으로, 정보 취득부(153)는 생성된 동적 돌출맵을 이용하여, 사용자가 말하는 시점, 청킹 시점, 말이 끝나는 시점을 파악하고, 이에 대응되는 움직임 정보를 취득할 수 있다. 이와 관련하여서는 도 12를 참조하여 후술한다.

한편, 정보 취득부(153)는 음성/시선 경로 인식부(150)의 일 구성으로 설명하였지만, 이에 한정되지 않고 별도의 독립된 구성으로 구현될 수도 있다.

음성 인식부(154)는 취득된 움직임 정보를 기초로 입력된 음원에 대한 음성 인식을 수행한다. 구체적으로, 음성 인식부(154)는 취득된 움직임 정보를 기초로 사용자가 실제 말을 하는 시점의 음원만을 이용하여 음원 인식을 수행할 수 있다. 또한, 음원 인식부(154)는 취득된 움직임 정보 및 위치 판단부(151)에서 판단된 음원 발생 위치를 기초로 음원에 대한 음성 인식을 수행할 수 있다. 음원을 이용하여 음성 인식을 수행하는 구체적인 기술은 종래 널리 알려진 방법을 이용할 수 있다.

제어부(160)는 모니터링 장치(100)의 각 구성을 제어한다. 구체적으로, 복수의 이미지 및 음원이 입력부(110)를 통하여 입력되면, 제어부(160)는 입력된 복수의 이미지 각각의 입술 영역이 검출되도록 검출부(145)를 제어하고, 검출된 입술 영역에 대한 동적 돌출맵이 생성되도록 돌출맵 생성부(140)를 제어할 수 있다. 그리고 제어부(160)는 복수의 음원이 입력된 경우, 입력된 음원의 위치가 판단되도록 위치 판단부(151)를 제어할 수 있다. 그리고 제어부(160)는 생성된 동적 돌출맵에 기초하여 움직임 정보가 취득되도록 정보 취득부(153)를 제어하고, 취득된 움직임 정보 및 음원의 발생 위치에 기초하여 입력된 음원에 대한 음성 인식이 수행되도록 음성 인식부(154)를 제어할 수 있다.

따라서, 본 실시 예에 따른 모니터링 장치(100)는 시각 정보를 이용하여 화자의 말하는 시점, 청킹 시점, 끝나는 시점을 검출하고, 음성 인식이 수행될 음원의 선별적으로 선택할 수 있다. 또한, 시각 정보와 음원의 위치를 동시에 고려하기 때문에 높은 신뢰도를 가지고 음원 인식을 수행할 수 있다.

도 8은 본 발명의 제2 실시 예에 따른 모니터링 장치의 얼굴 검출부의 구체적인 구성을 설명하기 위한 도면이다.

도 8을 참고하면, 얼굴 검출부(800)는 생물학 기반의 선택적 주의집중 모듈을 이용하여 사용자의 얼굴 영역을 검출한다. 구체적으로, 얼굴 검출부(800)는 이미지 정보 추출부(810), CSD 처리부(820) 및 ICA 처리부(830)로 구성될 수 있다.

이미지 정보 추출부(810)는 입력된 이미지에 대한 밝기(I), 에지(E), 및 보색(RG, BY)에 대한 이미지 정보를 추출한다. 구체적으로, 입력된 이미지의 R(Red), G(Green), B(Ble) 값을 기초로 입력된 영상에 대한 밝기, 에지, 대칭성 및 보색 중 적어도 하나의 이미지 정보를 추출할 수 있다.

CSD 처리부(820)는 추출된 이미지 정보에 대한 중앙-주변 창(Center-surround Difference: CSD) 및 정규화 처리를 수행하여 밝기 특징맵(

), 에지 특징맵(

), 컬러 특징맵(

)을 생성할 수 있다.

그리고 ICA 처리부(830)는 출력된 특징맵에 대한 독립 성분해석(Independent component analysis)을 수행하여 모노 돌출맵(SM: Salient Map)을 생성한다.

그리고 ICA 처리부(830)는 생성된 모노 돌출맵에서 단위 면적당 에너지값이 높은 영역을 우선적으로 4개 영역을 선별하여 얼굴 후보 영역을 검출할 수 있다.

그리고 ICA 처리부(830)는 검출된 얼굴 후보 영역에 대하여 Adaboost 알고리즘을 이용하여 얼굴 영역을 검출할 수 있다. Adaboost 알고리즘은 '간단한', '약한' 분류기들의 선형 조합으로부터 '강한'분류기를 설계하기 위한 알고리즘으로, Adaboost 알고리즘을 이용하여 빠른 시간 내에 얼굴 영역을 검출할 수 있다.

도 9는 본 발명의 제2 실시 예에 따른 모니터링 장치의 입술 검출부의 구체적인 구성을 설명하기 위한 도면이다.

도 9를 참조하면, 입술 검출부는 얼굴 검출부에서 검출된 얼굴 영역(910)에 대해서 입술 영역이라고 추정될 수 있는 영역(구체적으로, 붉은 색을 갖는 영역)을 한정하고, 한정된 영역과 기저장된 탬플릿(920)을 비교하여 correlation 값이 가장 높은 영역을 입술 영역으로 검출할 수 있다.

그리고 입술 검출부는 검출된 입술 영역을 추출 및 확대하여, 이후의 작업에 사용될 추출 이미지를 생성할 수 있다.

도 10은 본 발명의 제2 실시 예에 따른 모니터링 장치의 돌출맵 생성부의 동작을 설명하기 위한 도면이다.

도 10을 참조하면, 돌출맵 생성부(140)는 생물학 기반의 선택적 주의 집중 모델을 이용하여 동적 돌출맵을 생성할 수 있다.

구체적으로, 돌출맵 생성부(140)는 단위 시간에 입력된 복수의 이미지에 대한 추출 이미지(즉, 입술 영역의 이미지, 1010) 각각에 대해서 모노 돌출맵을 생성한다. 모노 돌출맵을 생성하는 과정은 도 8에서의 설명하였는바, 중복 설명은 생략한다.

그리고 돌출맵 생성부(140)는 생성된 복수의 모노 돌출맵을 이용하여 복수의 추출 이미지 각각의 돌출 포인트를 추출할 수 있다.

그리고 돌출맵 생성부(140)는 생성된 복수의 모노 돌출맵 및 복수의 모노 돌출맵 각각의 돌출 포인트를 이용하여 동적 돌출맵을 생성할 수 있다.

도 11은 본 발명의 제2 실시 예에 따른 모니터링 장치의 위치 판단부의 동작을 설명하기 위한 도면이다.

도 5를 참조하면, 입력부(110)에 복수의 음원(예를 들어, 스테레오 음원 또는 4채널 음원)이 입력되면, 위치 판단부(151)는 각각의 음원의 스펙트럼을 분석하고, 분석된 음원 각각의 스펙트럼을 통하여 음원이 발생한 방향 또는 위치를 탐지할 수 있다. 구체적으로, DUET 알고리즘을 이용하여 경계치 이상의 음원 세기의 발생 위치를 파악할 수 있다. 도 5에서는 4채널 마이크를 통하여 각도 방향으로 상/하 그리고 좌/우의 음원을 탐지한 결과가 도시하였다.

도 12는 본 발명의 제2 실시 예에 따른 모니터링 장치의 동작을 설명하기 위한 도면이다.

도 12를 참조하면, 먼저, 입력된 영상(1210)에 대해서 얼굴 영역을 검출하고(1220),얼굴 영역이 검출된 이미지(1230)에 대해서 입술 영역을 검출할 수 있다. 그리고 검출된 입술 영역에 대응되는 추출 이미지(1240)를 생성할 수 있다.

그리고 생성된 추출 이미지(1240)의 형상에 기초하여, 사용자가 말하는 시작 시점, 청킹 시점 및 끝나는 시점을 검출하고, 검출된 시점을 움직임 정보로 취득할 수 있다.

이때, 모니터링 장치(100)는 위치 판단부(151)에서 음원의 발생 위치(또는 음원의 크기)를 고려하여, 움직임 정보를 수정할 수 있다. 예를 들어, 사용자가 말을 하지 않고 입 모양만이 변화된 경우에는 음성 인식을 수행할 필요가 없으나, 이러한 사용자의 입 모양의 변화에 대해서는 움직임 정보로 취득하지 않을 수 있다.

따라서, 본 실시 예에 따른 모니터링 장치(100)는 화자의 입술이 움직이고,경계치 이상의 음원 에너지값이 발생하였을 때(즉, 동일한 위치에서 영상의 움직임과 음원이 발생하였을 때), 사용자가 말을 하고 있는 시점으로 판단할 수 있다.

도 13을 참조하면, 먼저, 사용자를 촬상한 복수의 이미지 및 음원을 입력받는다(S1310). 구체적으로, 외부 디지털 카메라, 외부 캠코더와 같은 촬영 장치에서 촬영된 복수의 이미지를 입력받을 수 있다. 그리고 외부 마이크를 통하여 음원을 입력받을 수 있다. 한편, 이상에서는 외부 장치로부터 이미지 및 음원을 입력받는 것으로 도시하고 설명하였지만, 구현시에는 촬상 소자 및/또는 음성 독취 소자가 직접 복수의 이미지를 생성하거나, 음원을 생성할 수도 있다.

그리고 복수의 이미지 각각에서 사용자의 입술 영역을 검출한다(S1320). 구체적으로, 복수의 이미지 각각에서 사용자의 얼굴 영역을 검출하고, 검출된 얼굴 영역 내에서 사용자의 입술 영역을 검출할 수 있다. 이때, 검출된 입술 영역에 대한 추출 이미지가 생성될 수 있다.

그리고 복수의 이미지 각각의 검출된 입술 영역에 대한 동적 돌출맵을 생성한다(S1330). 구체적으로, 앞선 단계에서 생성된 복수의 추출 이미지를 이용하여 복수의 모노 돌출맵을 생성하고, 생성된 모노 돌출맵을 이용하여 동적 돌출맵을 생성할 수 있다.

그리고 생성된 동적 돌출맵을 이용하여 입술의 움직임 정보를 취득한다(S1340).구체적으로, 생성된 동적 돌출맵을 이용하여, 사용자가 말하는 시점, 청킹 시점, 말이 끝나는 시점을 파악하고, 이에 대응되는 움직임 정보를 취득할 수 있다.

그리고 취득된 움직임 정보를 기초로 입력된 음원에 대한 음성 인식을 수행한다(S1350). 구체적으로, 취득된 움직임 정보를 기초로 사용자가 실제 말을 하는 시점의 음원만을 이용하여 음원 인식을 수행할 수 있다.

그리고 음성 인식의 결과를 출력한다(S1360).

따라서, 본 실시 예에 따른 모니터링 방법은, 시각 정보를 이용하여 화자의 말하는 시점, 청킹 시점, 끝나는 시점을 검출하고, 음성 인식이 수행될 음원의 선별적으로 선택할 수 있다. 또한, 시각 정보와 음원의 위치를 동시에 고려하기 때문에 높은 신뢰도를 가지고 음원 인식을 수행할 수 있다. 도 13과 같은 모니터링 방법은, 도 7의 구성을 가지는 모니터링 장치 상에서 실행될 수 있으며, 그 밖의 다른 구성을 가지는 모니터링 장치상에도 실행될 수 있다.

이상에서는 본 발명의 바람직한 실시 예에 대해서 도시하고, 설명하였으나, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자라면 누구든지 다양한 변형 실시할 수 있는 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.

Claims

모니터링 장치에 있어서,

이격된 위치에서 촬영된 복수의 이미지 및 이격된 위치에서 청취된 복수의 음원을 입력받는 입력부;

상기 복수의 이미지 각각에 대한 복수의 모노 돌출맵을 생성하고, 상기 생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성하는 돌출맵 생성부;

상기 복수의 음원을 분석하여 상기 음원의 위치를 판단하는 위치 판단부;

상기 생성된 동적 돌출맵 및 상기 판단된 음원 위치를 기초로 상기 복수의 이미지에 대한 시선 경로를 생성하는 시선 경로 인식부; 및

상기 생성된 시선 경로를 출력하는 출력부;를 포함하는 모니터링 장치.
제1항에 있어서,

상기 돌출맵 생성부는,

상기 입력된 이미지에 대한 밝기, 에지, 대칭성 및 보색 중 적어도 하나의 이미지 정보를 추출하는 이미지 정보 추출부;

상기 추출된 이미지 정보에 대한 중앙-주변 차(Center-surround Difference: CSD) 및 정규화 처리를 수행하여, 밝기 특징맵, 방향 특징맵, 대칭성 특징맵, 컬러 특징맵 중 적어도 하나의 특징맵을 출력하는 CSD 처리부; 및

상기 출력된 특징맵에 대한 독립성분해석(Independent component analysis)을 수행하여 모노 돌출맵을 생성하는 ICA 처리부;를 포함하는 것을 특징으로 하는 모니터링 장치.
제2항에 있어서,

상기 돌출맵 생성부는,

상기 ICA 처리부에서 생성된 복수의 모노 돌출맵을 병합하여 동적 돌출맵을 생성하는 병합부;를 더 포함하는 것을 특징으로 하는 모니터링 장치.
제1항에 있어서,

상기 돌출맵 생성부는,

생물학 기반의 선택적 주위 집중 모델을 이용하여 상기 복수의 모노 돌출맵을 생성하는 것을 특징으로 하는 모니터링 장치.
제1항에 있어서,

상기 시선 경로 인식부는,

상기 판단된 음원 위치에 기초하여 상기 생성된 동적 돌출맵에 포함된 복수 개의 돌출 포인트(salient point)를 보강 처리 또는 억제 처리하여 상기 복수개의 돌출 포인트에 대한 우선 순위를 부여하고, 상기 부여된 우선 순위에 따라 시선 경로를 생성하는 것을 특징으로 하는 모니터링 장치.
제1항에 있어서,

상기 입력부는,

기설정된 시간을 주기로 복수의 이미지 및 복수의 음원을 입력받는 것을 특징으로 하는 모니터링 장치.
모니터링 장치에서의 모니터링 방법에 있어서,

이격된 위치에서 촬영된 복수의 이미지 및 이격된 위치에서 청취된 복수의 음원을 입력받는 단계;

상기 복수의 이미지 각각에 대한 복수의 모노 돌출맵을 생성하는 단계;

상기 생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성하는 단계;

상기 복수의 음원을 분석하여 상기 음원의 위치를 판단하는 단계;

상기 생성된 동적 돌출맵 및 상기 판단된 음원 위치를 기초로 상기 복수의 이미지에 대한 시선 경로를 생성하는 단계; 및

상기 생성된 시선 경로를 출력하는 단계;를 포함하는 모니터링 방법.
제7항에 있어서,

상기 복수의 모노 돌출맵을 생성하는 단계는,

상기 입력된 복수의 이미지 각각에 대한 밝기, 에지, 대칭성 및 보색 중 적어도 하나의 이미지 정보를 추출하는 단계;

상기 추출된 이미지 정보에 대한 중앙-주변 차(Center-surround Difference: CSD) 및 정규화 처리를 수행하여, 밝기 특징맵, 방향 특징맵, 대칭성 특징맵, 컬러 특징맵 중 적어도 하나의 특징맵을 출력하는 단계; 및

상기 출력된 특징맵에 대한 독립성분해석(Independent component analysis)을 수행하여 모노 돌출맵을 생성하는 단계;를 포함하는 것을 특징으로 하는 모니터링 방법.
제8항에 있어서,

상기 동적 돌출맵을 생성하는 단계는,

상기 생성된 복수의 모노 돌출맵을 병합하여 동적 돌출맵을 생성하는 것을 특징으로 하는 모니터링 방법.
제7항에 있어서,

상기 복수의 모노 돌출맵을 생성하는 단계는,

생물학 기반의 선택적 주위 집중 모델을 이용하여 상기 복수의 모노 돌출맵을 생성하는 것을 특징으로 하는 모니터링 방법.
제7항에 있어서,

상기 시선 경로를 생성하는 단계는,

상기 판단된 음원 위치에 기초하여 상기 생성된 동적 돌출맵에 포함된 복수 개의 돌출 포인트(salient point)를 보강 처리 또는 억제 처리하여 상기 복수개의 돌출 포인트에 대한 우선 순위를 부여하고, 상기 부여된 우선 순위에 따라 시선 경로를 생성하는 것을 특징으로 하는 모니터링 방법.
제7항에 있어서,

상기 입력받는 단계는,

기설정된 시간을 주기로 복수의 이미지 및 복수의 음원을 입력받는 것을 특징으로 하는 모니터링 방법.
모니터링 장치에 있어서,

사용자를 촬상한 복수의 이미지 및 음원을 입력받는 입력부;

상기 복수의 이미지 각각에서 사용자의 입술 영역을 검출하는 검출부;

상기 복수의 이미지 각각의 검출된 입술 영역에 대한 동적 돌출맵을 생성하는 돌출맵 생성부;

상기 생성된 동적 돌출맵을 이용하여 입술의 움직임 정보를 취득하는 정보 취득부;

상기 취득된 움직임 정보를 기초로 상기 입력된 음원에 대한 음성 인식을 수행하는 음성 인식부; 및

상기 음성 인식의 결과를 출력하는 출력부;를 포함하는 모니터링 장치.
제13항에 있어서,

상기 검출부는,

상기 복수의 이미지 각각에서 사용자의 얼굴 영역을 검출하는 얼굴 검출부; 및

상기 검출된 얼굴 영역 내에서 사용자의 입술 영역을 검출하는 입술 검출부;를 포함하는 것을 특징으로 하는 모니터링 장치.
제14항에 있어서,

상기 얼굴 검출부는, Adaboost 알고리즘을 이용하여 사용자의 얼굴 영역을 검출하고,

상기 입술 검출부는, 기저장된 탬플릿을 이용하여 입술 영역을 검출하는 것을 특징으로 하는 모니터링 장치.
제14항에 있어서,

상기 입술 검출부는,

상기 복수의 이미지 각각에서 상기 검출된 입술 영역을 추출하여 복수의 추출 이미지를 생성하는 것을 특징으로 하는 모니터링 장치.
제16항에 있어서,

상기 돌출맵 생성부는,

상기 생성된 복수의 추출 이미지 각각에 대한 복수의 모노 돌출맵을 생성하고, 상기 생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성하는 것을 특징으로 하는 모니터링 장치.
제13항에 있어서,

상기 움직임 정보는,

사용자의 말하는 시점 정보, 청킹(chunking) 시점 정보 및 사용자의 말이 끝나는 시점 정보 중 적어도 하나의 시점 정보를 포함하는 것을 특징으로 하는 모니터링 장치.
제13항에 있어서,

상기 음성 인식부는,

상기 취득된 움직임 정보를 기초로 사용자의 말하는 시점 중에 입력된 음원에 대한 음성 인식만을 수행하는 것을 특징으로 하는 모니터링 장치.
제13항에 있어서,

상기 입력부는,

상호 이격된 위치에서 청취된 복수의 음원을 입력받고,

상기 모니터링 장치는,

상기 복수의 음원을 분석하여 상기 음원의 발생 위치를 판단하는 위치 판단부;를 더 포함하고,

상기 음성 인식부는,

상기 취득된 움직임 정보 및 상기 판단된 음원 발생 위치를 기초로 상기 입력된 음원에 대한 음성 인식을 수행하는 것을 특징으로 하는 모니터링 장치.
모니터링 방법에 있어서,

사용자를 촬상한 복수의 이미지 및 음원을 입력받는 단계;

상기 복수의 이미지 각각에서 사용자의 입술 영역을 검출하는 단계;

상기 복수의 이미지 각각의 검출된 입술 영역에 대한 동적 돌출맵을 생성하는 단계;

상기 생성된 동적 돌출맵을 이용하여 입술의 움직임 정보를 취득하는 단계;

상기 취득된 움직임 정보를 기초로 상기 입력된 음원에 대한 음성 인식을 수행하는 단계; 및

상기 음성 인식의 결과를 출력하는 단계;를 포함하는 모니터링 방법.
제21항에 있어서,

상기 검출하는 단계는,

상기 복수의 이미지 각각에서 사용자의 얼굴 영역을 검출하는 단계; 및

상기 검출된 얼굴 영역 내에서 사용자의 입술 영역을 검출하는 단계;를 포함하는 것을 특징으로 하는 모니터링 방법.
제22항에 있어서,

상기 얼굴 영역을 검출하는 단계는, Adaboost 알고리즘을 이용하여 사용자의 얼굴 영역을 검출하고,

상기 입술 영역을 검출하는 단계는, 기저장된 탬플릿을 이용하여 입술 영역을 검출하는 것을 특징으로 하는 모니터링 방법.
제22항에 있어서,

상기 복수의 이미지 각각에서 상기 검출된 입술 영역을 추출하여 복수의 추출 이미지를 생성하는 단계;를 더 포함하는 것을 특징으로 하는 모니터링 방법.
제24항에 있어서,

상기 동적 돌출맵을 생성하는 단계는,

상기 생성된 복수의 추출 이미지 각각에 대한 복수의 모노 돌출맵을 생성하고, 상기 생성된 복수의 모노 돌출맵을 이용하여 동적 돌출맵을 생성하는 것을 특징으로 하는 모니터링 방법.
제21항에 있어서,

상기 움직임 정보는,

사용자의 말하는 시점 정보, 청킹(chunking) 시점 정보 및 사용자의 말이 끝나는 시점 정보 중 적어도 하나의 시점 정보를 포함하는 것을 특징으로 하는 모니터링 방법.
제21항에 있어서,

상기 음성 인식을 수행하는 단계는,

상기 취득된 움직임 정보를 기초로 사용자의 말하는 시점 중에 입력된 음원에 대한 음성 인식만을 수행하는 것을 특징으로 하는 모니터링 방법.
제21항에 있어서,

상기 입력받는 단계는,

상호 이격된 위치에서 청취된 복수의 음원을 입력받고,

상기 음원 인식 방법은,

상기 복수의 음원을 분석하여 상기 음원의 발생 위치를 판단하는 단계;를 더 포함하고,

상기 음성 인식을 수행하는 단계는,

상기 취득된 움직임 정보 및 상기 판단된 음원 발생 위치를 기초로 상기 입력된 음원에 대한 음성 인식을 수행하는 것을 특징으로 하는 모니터링 방법.