KR20200020590A

KR20200020590A - 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템 및 그 동작 방법

Info

Publication number: KR20200020590A
Application number: KR1020190090302A
Authority: KR
Inventors: 강용민
Original assignee: 한화테크윈 주식회사
Priority date: 2018-08-16
Filing date: 2019-07-25
Publication date: 2020-02-26
Also published as: US20210201933A1; US11462235B2

Abstract

본 발명의 실시예에 의한 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템은, 감시영역에 대한 영상 신호 및 오디오 신호를 수집하는 감시 카메라 장치; 상기 수집된 영상 및 오디오 신호들을 포함하는 감시영역 정보를 누적하여 저장하는 데이터베이스 및 상기 감시 카메라 장치에서 촬영된 감시영역 영상에서 선정된 제1 오디오 주밍 포인트를 상기 저장된 감시영역의 누적 정보를 이용하여 제2 오디오 주밍 포인트로 보정하고, 상기 보정된 제2 오디오 주밍 포인트에 대응하는 오디오 신호에 대한 빔포밍을 수행하는 프로세서를 포함한다.

Description

시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템 및 그 동작 방법{SURVEILLANCE CAMERA SYSTEM FOR EXTRACTING SOUND OF SPECIFIC REGION FROM VISUALIZED OBJECT AND OPERATING METHOD THE SAME}

본 발명의 실시예는 감시 카메라 시스템 및 그 동작 방법에 관한 것으로, 보다 구체적으로는, 감시 카메라 장치의 감시영역 영상에서 오디오 주밍 포인트를 선정하고, 상기 선정된 포인트를 보정하여 상기 보정된 위치의 음성 신호를 선택적으로 증폭하는 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템 및 그 동작 방법에 관한 것이다.

최근 들어, 방범, 보안, 매장 관리 등 다양한 목적으로 건물 내부나 외부, 길거리 등에 감시 카메라 시스템을 설치하는 경우가 증가하고 있다.

이러한 감시 카메라 시스템을 통해 음원과 영상을 동시에 수집할 수 있는데, 잡음, 구조물에 의한 회절 및 굴절 현상 등 주변 환경의 영향에 의하여 수집된 음원의 품질이 저하되는 경우가 많이 발생한다. 또한, 감시 목적에 따라, 감시 카메라가 촬영하는 감시영역 중 특정 위치에서 발생되는 음원의 오디오 신호를 선택적으로 검출하거나 이를 증폭하는 기능을 수행할 수 있는 카메라 시스템이 요구된다.

본 발명의 실시예는 감시 카메라 장치에 구비된 마이크 어레이를 통하여 감시영역의 영상에 표시된 특정 위치의 음원 신호를 선택적으로 증폭함에 있어서, 카메라와 마이크 어레이가 서로 다른 평면에 위치한 경우 상기 카메라 및 마이크 어레이를 이용하여 각각 영상신호 및 오디오신호를 입력받고, 상기 입력받은 신호에 기반하여 사용자 설정영역 내의 오디오 주밍 포인트에 해당하는 음원 신호를 증폭하는 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템을 제공한다.

또한, 상기 카메라 및 마이크 어레이를 통해 입력받는 영상신호 및 오디오신호를 저장하여 상기 카메라의 감시영역에 대응하는 다양한 정보들을 데이터베이스화하고, 상기 감시영역 영상에 표시된 오디오 주밍 포인트의 음성신호를 증폭함에 있어서, 상기 데이터베이스를 참조하여 상기 오디오 주밍 포인트 위치를 보정함으로써 보다 명확한 오디오 주밍을 수행할 수 있는 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템 및 그 동작 방법을 제공한다.

상기 목적을 달성하기 위하여 본 발명의 실시예에 의한 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템은, 감시영역에 대한 영상 신호 및 오디오 신호를 수집하는 감시 카메라 장치; 상기 수집된 영상 및 오디오 신호들을 포함하는 감시영역 정보를 누적하여 저장하는 데이터베이스 및 상기 감시 카메라 장치에서 촬영된 감시영역 영상에서 선정된 제1 오디오 주밍 포인트를 상기 저장된 감시영역의 누적 정보를 이용하여 제2 오디오 주밍 포인트로 보정하고, 상기 보정된 제2 오디오 주밍 포인트에 대응하는 오디오 신호에 대한 빔포밍을 수행하는 프로세서를 포함한다.

상기 빔포밍의 대상이 되는 오디오 신호는 사람의 음성 신호로 한정될 수 있으며, 상기 프로세서는, 상기 수집된 오디오 신호가 언어의 구성요소인 모음을 포함할 경우 상기 오디오 신호를 사람의 음성 신호인 것으로 판단할 수 있다.

상기 프로세서는, 상기 데이터베이스에 저장된 감시영역 정보를 이용하여 상기 감시영역에 대한 소리기반 히트맵을 생성하는 자료수집부와; 상기 감시영역 영상 중 빔 포밍을 수행할 사용자 설정영역을 선택하고, 상기 선택된 사용자 설정영역 내의 제1 오디오 주밍 포인트를 선정하는 사용자영역 설정부와; 상기 제1 오디오 주밍 포인트 및 상기 자료수집부에서 생성되는 소리기반 히트맵 정보에 근거하여 상기 사용자영역 설정부에 의해 설정된 사용자 설정영역 내에서 보정된 제2 오디오 주밍 포인트를 선정하는 계산부와; 상기 보정된 제2 오디오 주밍 포인트에 대응하는 방향으로 상기 빔포밍을 수행하는 보정부를 포함할 수 있다.

상기 소리기반 히트맵은 상기 감시 카메라 장치에서 수집된 오디오 신호 데이터들을 기반으로 음원 정위하여 사람의 음성 신호에 대응하는 음역 대의 위치를 상기 감시 카메라 장치에서 수집된 영상 신호 데이터와 함께 표시할 수 있다.

상기 감시영역 영상은 복수개의 영역으로 분할될 수 있으며, 상기 사용자영역 설정부는 상기 분할된 복수개의 영상 중 적어도 하나를 선택할 수 있다.

상기 사용자영역 설정부는 움직임 감지(motion detection) 알고리즘 및/또는 얼굴 인식(face recognition) 알고리즘을 이용하여 빔 포밍의 대상에 해당하는 객체를 특정할 수 있다.

상기 제2 오디오 주밍 포인트는 상기 제1 오디오 주밍 포인트와 함께 상기 감시영역 영상의 화면에 표시될 수 있다.

상기 제2 오디오 주밍 포인트는 복수 개가 선정될 수 있으며, 상기 복수개의 제2 오디오 주밍 포인트들 중 하나의 제2 오디오 주밍 포인트가 보정된 제2 오디오 주밍 포인트로 선정될 수 있다.

상기 감시 카메라 장치는, 소정의 화각을 갖는 영상 신호를 출력하는 카메라와; 소정 간격으로 배치된 복수의 마이크들을 포함하여 소정의 음원 신호를 출력하는 마이크 어레이를 포함할 수 있다.

상기 카메라와 상기 마이크 어레이는 서로 다른 평면상에 위치할 수 있다.

상기 계산부에서 출력한 데이터를 저장 및 관리하며, 상기 카메라와 마이크 어레이로부터 입력받은 신호 데이터에 대응하는 측정 시간, 날짜 데이터를 상기 계산부에서 출력한 데이터와 함께 저장하는 메모리를 더 포함할 수 있다.

본 발명의 다른 실시예에 의한 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템의 동작 방법은, 감시영역에 대한 영상 신호 및 오디오 신호를 수집하는 단계; 상기 수집된 영상 및 오디오 신호들을 포함하는 감시영역 정보를 누적하여 저장하는 단계; 상기 데이터베이스에 저장된 감시영역 정보를 이용하여 상기 감시영역에 대한 소리기반 히트맵을 생성하는 단계; 상기 감시 카메라 장치에서 촬영된 감시영역 영상에서 빔 포밍을 수행할 사용자 설정영역을 선택하고, 상기 선택된 사용자 설정영역 내의 제1 오디오 주밍 포인트를 선정하는 단계; 상기 제1 오디오 주밍 포인트 및 소리기반 히트맵 정보에 근거하여 상기 사용자 설정영역 내에서 보정된 제2 오디오 주밍 포인트를 선정하는 단계; 및 상기 보정된 제2 오디오 주밍 포인트에 대응하는 방향으로 상기 빔포밍을 수행하는 단계를 포함한다.

상기 빔포밍의 대상이 되는 오디오 신호는 사람의 음성 신호로 한정될 수 있다.

상기 수집된 오디오 신호가 언어의 구성요소인 모음을 포함할 경우 상기 오디오 신호를 사람의 음성 신호인 것으로 판단하는 단계가 더 포함될 수 있다.

상기 감시영역 영상은 복수개의 영역으로 분할될 수 있으며, 상기 사용자 설정영역이 선택되는 단계는 상기 분할된 복수개의 영상 중 적어도 하나가 선택됨을 포함할 수 있다.

상기 사용자 설정영역이 선택되는 단계는 움직임 감지(motion detection) 알고리즘 및/또는 얼굴 인식(face recognition) 알고리즘을 이용하여 빔 포밍의 대상에 해당하는 객체를 특정하는 단계를 더 포함할 수 있다.

이와 같은 본 발명의 실시예에 의하면, 카메라와 마이크 어레이가 서로 다른 평면에 위치한 감시 카메라 시스템에 있어서, 상기 카메라 및 마이크 어레이를 이용하여 각각 영상신호 및 오디오 신호를 입력받고, 상기 입력받은 신호에 기반하여 사용자 설정영역 내의 오디오 주밍 포인트에 해당하는 음원 신호를 증폭할 수 있다.

또한, 상기 사용자 설정영역의 오디오 신호를 증폭함에 있어서, 상기 입력받은 신호들 및 상기 카메라의 감시영역에 대응하는 다양한 정보들을 저장하여 생성된 데이터베이스를 참조하여 상기 선택된 오디오 주밍 포인트 위치를 보정하여 사람의 음성신호를 보다 명확히 수집함으로써 정확한 오디오 주밍을 수행할 수 있다.

도 1은 본 발명의 실시예에 의한 감시 카메라 시스템의 구성을 개략적으로 나타내는 블록도.
도 2는 본 발명의 실시예에 의한 감시 카메라 장치의 구성을 개략적으로 나타내는 블록도.
도 3은 본 발명의 실시예에 의한 감시 서버의 구성을 개략적으로 나타내는 블록도.
도 4는 도 1에 도시된 감시 카메라 시스템 중 감시 카메라 장치 및 감시 서버와의 동작을 개략적으로 나타내는 블록도.
도 5는 도 4에 도시된 프로세서의 구성을 개략적으로 나타내는 블록도.
도 6은 본 발명의 실시예에 의한 감시 카메라 장치의 외형을 개략적으로 나타내는 도면.
도 7은 본 발명의 실시예에 의한 감시 카메라 장치가 촬영하는 감시영역의 일 예를 나타내는 도면.
도 8은 본 발명의 실시예에 의해 수집된 음원 신호가 인간의 언어 정보를 포함하는지 판단하는 기준을 설명하는 그래프.
도 9는 본 발명의 실시예에 의한 감시 카메라 시스템에 의해 획득된 감시영역 영상의 화각을 설명하는 도면.
도 10은 본 발명의 실시예에 의한 감시 카메라 시스템의 감시영역에 대응하는 영상 화면의 일 예를 나타내는 도면.
도 11은 도 10의 감시영역 중 사용자 설정영역으로 선택된 특정 영역에서 오디오 주밍을 수행하는 위치가 보정됨을 설명하는 도면.
도 12는 본 발명의 실시예에 의한 감시 카메라 시스템의 동작 방법을 나타내는 순서도.

위 발명의 배경이 되는 기술 란에 기재된 내용은 오직 본 발명의 기술적 사상에 대한 배경 기술의 이해를 돕기 위한 것이며, 따라서 그것은 본 발명의 기술 분야의 당업자에게 알려진 선행 기술에 해당하는 내용으로 이해될 수 없다.

아래의 서술에서, 설명의 목적으로, 다양한 실시예들의 이해를 돕기 위해 많은 구체적인 세부 내용들이 제시된다. 그러나, 다양한 실시예들이 이러한 구체적인 세부 내용들 없이 또는 하나 이상의 동등한 방식으로 실시될 수 있다는 것은 명백하다. 다른 예시들에서, 잘 알려진 구조들과 장치들은 장치는 다양한 실시예들을 불필요하게 이해하기 어렵게 하는 것을 피하기 위해 블록도로 표시된다.

첨부된 블록도의 각 블록은 컴퓨터 프로그램 인스트럭션들(실행 엔진)에 의해 수행될 수도 있으며, 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록에서 설명된 기능들을 수행하는 수단을 생성하게 된다.

이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다.

그리고, 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성하여 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록에서 설명되는 기능들을 실행하기 위한 기능을 제공하는 것도 가능하다.

또한, 각 블록은 특정된 논리적 기능들을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있으며, 몇 가지 대체 실시 예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능하다.

즉, 도시된 두 개의 블록들은 사실 실질적으로 동시에 수행되는 것도 가능하며, 또한 그 블록들이 필요에 따라 해당하는 기능의 역순으로 수행되는 것도 가능하다.

여기에서 사용된 용어는 특정한 실시예들을 설명하는 목적이고 제한하기 위한 목적이 아니다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함한다" 고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 다른 정의가 없는 한, 여기에 사용된 용어들은 본 발명이 속하는 분야에서 통상적인 지식을 가진 자에게 일반적으로 이해되는 것과 같은 의미를 갖는다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 보다 상세히 설명하도록 한다.

도 1은 본 발명의 실시예에 의한 감시 카메라 시스템의 구성을 개략적으로 나타내는 블록도이고, 도 2는 본 발명의 실시예에 의한 감시 카메라 장치의 구성을 개략적으로 나타내는 블록도이다. 또한, 도 3은 본 발명의 실시예에 의한 감시 서버의 구성을 개략적으로 나타내는 블록도이다.

단, 도 1에 도시된 실시예에서는 감시 카메라 시스템을 구성하는 감시 카메라 장치(100a) 및 감시 서버(150)가 서로 분리된 장치로 구현되고, 이들이 통신망(160)을 통해 서로 연결되는 구성을 설명하고 있으나, 이는 하나의 실시예로서 본 발명의 실시예에 의한 감시 카메라 시스템의 구성이 이에 한정되는 것은 아니다. 즉, 상기 감시 카메라 장치(100a) 및 감시 서버(150)가 단일 장치로 구현되어 외부의 통신망(160)을 사용하지 않고 자체적으로 본 발명의 실시예에 의한 감시 카메라 시스템을 구성할 수도 있다.

먼저 도 1을 참조하면, 본 발명의 실시예에 따른 감시 카메라 시스템은 적어도 하나의 감시 카메라 장치(100a)를 포함할 수 있다. 상기 감시 카메라 장치(100a)는 특정 장소의 고정된 위치에 배치되어, 감시 카메라 장치(100a)가 촬영할 수 있는 영역을 감시영역으로 설정하여 상기 감시영역에서 발생되는 이벤트들에 대한 정보를 지속적으로 수집하는 동작을 수행할 수 있다. 일 예로, 감시 카메라 장치(100a)는 팬(pan), 틸트(tilt), 및 줌(zoom) 기능을 갖는 PTZ 카메라를 포함하여 상기 감시영역을 녹화하거나 사진을 촬영하는 기능을 가질 수 있고, 마이크 어레이를 포함하여 상기 감시영역에서 발생하는 소리를 수집하는 기능을 가질 수 있다.

감시 서버(150)는 상기 감시 카메라 장치(100a)를 통하여 수집된 정보들 및 상기 감시영역에 대응하는 다양한 정보들을 저장한 데이터베이스와, 상기 감시 카메라 장치(100a)의 동작을 제어하는 역할을 수행할 수 있다.

통신망(160)은 감시 카메라 장치(100a)와 감시 서버(150)를 연결하는 역할을 수행할 수 있다. 즉, 통신망(160)은 감시 카메라 장치(100a)와 감시 서버(150) 간에 데이터를 송수신할 수 있도록 접속 경로를 제공하는 통신망을 의미한다.

통신망(160)은 예컨대 LANs(Local Area Networks), WANs(Wide Area Networks), MANs(Metropolitan Area Networks), ISDNs(Integrated Service Digital Networks) 등의 유선 네트워크나, 무선 LANs, CDMA, 블루투스, 위성 통신 등의 무선 네트워크를 망라할 수 있으나, 본 발명의 범위가 이에 한정되는 것은 아니다. 즉, 앞서 언급한 바와 같이 상기 감시 카메라 장치(100a) 및 감시 서버(150)가 단일 장치로 구현될 경우에는 상기 통신망(160)은 상기 단일 장치에 구비된 모듈들 간의 데이터 송수신을 가능하게 하는 수단으로 대체될 수 있다.

도 2를 참조하면, 감시 카메라 장치(100a)는 카메라(110), 마이크 어레이(120), 프로세서(60) 및 통신부(70)를 포함할 수 있다.

카메라(110)는 감시영역의 영상을 촬영한다. 일 예로, 본 발명의 실시예에 의한 상기 카메라(110)는 감시 카메라로 구현될 수 있으며, 이는 일반적으로 고정된 위치에 설치되어 동일한 영역을 장시간 동안 촬영하는 동작을 수행할 수 있다.

마이크 어레이(120)는 상기 감시영역에서 발생하는 소리를 수집하는 기능을 수행하는 것으로, 오디오 입력 신호를 수신하는 복수의 마이크들로 구성될 수 있다.

프로세서(60)는 카메라(110) 및 마이크 어레이(120)의 전반적인 동작을 제어하며, 영상/오디오 신호 처리부(62), 메모리(64) 및 PTZ 제어부(66)를 포함할 수 있다.

영상/오디오 신호 처리부(62)는 실시간 입력되는 영상 및 오디오 신호를 처리하여 감시 정보를 생성한다. 상기 감시 정보는 의 카메라(110)에 의해 촬영된 영상 정보 및 마이크 어레이(120)에 의해 녹음된 오디오 정보를 포함할 수 있다.

메모리(64)는 상기 영상/오디오 신호 처리부(62)에서 생성된 영상/오디오 정보 및 카메라 고유의 정보 (예: 카메라 ID), 카메라 위치 정보 등을 저장 및 관리하는 역할을 수행할 수 있다.

PTZ 제어부(66)는 설정된 프리셋 정보에 따라 카메라(110)의 PTZ 좌표를 변경하는 역할을 수행할 수 있다. 상기 프리셋 정보는 일 예로 감시 서버(150)를 통해 관리자가 설정할 수 있는 것으로 상기 관리자는 카메라의 프리셋 정보를 이용하여 PTZ 좌표를 변경함으로써, 카메라의 위치, 방향, 줌 정도 등을 제어할 수 있다.

상기 프로세서(60)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 상기 명령은 메모리(64)에 의해 프로세서(60)로 제공될 수 있다. 여기서, 상기 프로세서(60)는 메모리(64)가 포함하는 운영체제의 코드와 적어도 하나의 프로그램 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 이 때, 프로세서(60) 내의 구성요소들 즉, 영상/오디오 신호 처리부(62) 및 PTZ 제어부(66)는 상기 메모리(64)에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서(60)에 의해 수행되는 서로 다른 기능들을 구분하여 표현하는 것으로 이해할 수도 있다.

통신부(70)는 통신 모듈과 안테나로 구성되며, 프로세서(60)와 접속되어 영상/오디오 신호 처리부(62)의 영상 등의 정보들을 감시 서버(150)로 전송할 수 있다.

도 3을 참조하면, 상기 감시 서버(150)는 메모리(140), 데이터베이스(142) 프로세서(130), 통신모듈(144) 및 입출력 인터페이스(146)을 포함한다.

메모리(140)는 컴퓨터에서 판독 가능한 기록 매체로서, RAM, ROM 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치를 포함할 수 있다. 또한, 메모리(140)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 드라이브 메커니즘을 이용하여 메모리(140)와는 별도의 컴퓨터에서 판독 가능한 기록 매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록 매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 기록 매체를 포함할 수 있다. 또한, 상기 소프트웨어 구성요소들은 통신모듈(144)을 통해 메모리(140)에 로딩될 수도 있다.

데이터베이스(142)는 본 발명의 실시예에 의한 감시 카메라 장치(110a)를 통해 수집한 입력 신호들(영상/오디오 신호) 및 상기 감시 카메라 장치에 의한 감시영역에 해당하는 다양한 정보들(예: 장애물의 위치, 주변 온도 등)을 저장하여 생성된 정보들을 저장할 수 있다.

본 발명의 실시예는 상기 데이터베이스(142)를 이용하여 사용자가 상기 감시영역의 특정영역에 대한 오디오 신호를 증폭하고자 할 때, 상기 사용자가 설정한 영역의 특정 위치(오디오 주밍 포인트)를 보정하여 정확한 오디오 주밍을 수행할 수 있다. 이와 같은 본 발명의 실시예에 의한 감시 카메라 시스템의 동작에 대해서는 이후 보다 상세히 설명하도록 한다.

프로세서(130)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(140) 또는 통신모듈(144)에 의해 프로세서(130)로 제공될 수 있다. 일 예로, 프로세서(130)는 메모리(140)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다. 즉, 상기 프로세서(130)는 소프트웨어적으로 C, C++, Java, Visual Basic, Visual C 등에 의해 구현되어 다양한 기능들을 수행하는 프로그램 모듈(Module)을 포함할 수 있다.

통신모듈(144)은 통신망(160)를 통해 감시 카메라 장치(100a)와 감시 서버(150)가 서로 통신하기 위한 기능을 제공할 수 있다. 일 예로, 감시 서버(150)의 프로세서(130)의 제어에 따라 제공되는 제어신호, 명령, 컨텐츠, 파일 등이 통신모듈(144)을 통해 통신망(160)을 거쳐 감시 카메라 장치(100a)로 전송될 수 있으며, 그 반대로 상기 감시 카메라 장치(100a)에서 생성된 신호들이 통신망(160)을 거쳐 상기 감시 서버(150)로 전송될 수도 있다.

입출력 인터페이스(146)는 키보드 또는 마우스 등으로 구현되는 입력장치 및 디스플레이 등과 같은 출력장치 간의 인터페이스를 제공하는 역할을 할 수 있다.

도 4는 도 1에 도시된 감시 카메라 시스템 중 감시 카메라 장치 및 감시 서버와의 동작을 개략적으로 나타내는 블록도이고, 도 5는 도 4에 도시된 프로세서의 구성을 개략적으로 나타내는 블록도이다. 또한, 도 6은 본 발명의 실시예에 의한 감시 카메라 장치의 외형을 개략적으로 나타내는 도면이다.

도 4 및 도 5를 참조하면, 본 발명의 실시예에 의한 카메라 시스템(100)은, 카메라(110), 마이크 어레이(120)를 포함하는 감시 카메라 장치(100a), 프로세서(130) 및 메모리(140)를 포함하는 감시 서버(150)를 포함하며, 상기 프로세서(130)는 사용자영역 설정부(132), 자료수집부(134), 계산부(136), 및 보상부(138)을 포함한다.

카메라(110)는 감시 카메라 장치(100a)의 감시 영역의 영상을 촬영한다. 도시되지 않았지만, 카메라(110)는 렌즈, 렌즈로 입력되는 광 신호를 전기 신호로 변환하는 이미지 센서, 이미지 센서에서 출력된 전기 신호를 디지털 신호로 변환하는 A/D(Analog/Digital) 변환부, 디지털 신호로부터 화질을 보상하고 미리 정해진 규격으로 휘도 신호 및 색차 신호를 합성한 영상을 출력하는 영상 처리부, 촬영된 영상을 전송하기 위한 코덱부 및 전송부 등을 포함할 수 있다.

일 예로, 본 발명의 실시예에 의한 상기 카메라(110)는 감시 카메라로 구현될 수 있다. 상기 감시 카메라는 일반적으로 고정된 위치에 설치되어 동일한 영역을 장시간 동안 촬영하는 동작을 수행할 수 있다.

상기 카메라(110)의 화각은 영상의 중심으로부터 영상의 가장자리까지 사용자에게 보이는 각을 의미하는 것으로서, 상기 화각은 일반적으로 상기 렌즈의 중심을 한 점으로 할 때 수평 화각과 수직 화각이 결정될 수 있으나, 어안렌즈를 사용하는 카메라의 경우는 상기 수평 및 수직 화각과는 다른 화각(diagonal angle of view)을 사용할 수 있다. 본 발명의 실시예에 의한 카메라는 상기 화각의 종류에 한정되지 않는다.

마이크 어레이(120)는 소정 간격으로 배치되어 각각 오디오 입력 신호를 수신하는 복수의 마이크들(도 6의 120a)로 구성된다. 복수의 마이크들(120a)은 직선형, 평면형, 구면형, 및 나선형 중 적어도 하나의 형태로 배열될 수 있으며, 이에 한정되지 않는다. 복수의 마이크들은 대칭 또는 비대칭으로 배치될 수 있다. 상기 마이크 어레이(120)를 구성하는 마이크(120a)는 지향성일 수 있으나, 이에 한정되지 않는다.

도 6에 도시된 실시예를 참조하면, 상기 마이크 어레이(120)는 복수의 마이크들(120a)이 선형으로 배치되어 있고, 4개의 마이크를 포함하고 있으나, 상기 마이크 어레이(120)는 그보다 적게 또는 많은 마이크를 포함하는 것도 본 발명의 범주에 포함된다. 또한, 본 실시예는 복수의 마이크들이 선형 배치된 마이크 어레이(120)를 구성하였으나, 이는 하나의 실시예일뿐 복수의 마이크들로 구성된 마이크 어레이라면 선형 배치되어 있지 않더라도 본 발명의 범주에 포함됨은 물론이다.

다만, 본 발명의 실시예는 상기 마이크 어레이(120)와 카메라(110)가 서로 다른 평면상에 위치함을 특징으로 한다. 도 6을 참조하면, 상기 감시 카메라 장치(100a)는 돔형의 카메라(110)가 감시 카메라 장치(100a)의 뒷면에 위치하고, 4개의 마이크들(120a)로 구성되는 마이크 어레이(120)이 상기 카메라(110) 보다 전면에 배치되는 구성을 갖는다. 다만, 이는 하나의 실시예일뿐 상기 마이크 어레이(120)이 상기 카메라(110) 보다 전면에 배치되지 않더라도 마이크 어레이(120)와 카메라(110)가 서로 다른 평면상에 위치하면 본 발명의 범주에 포함됨은 물론이다.

이와 같이 복수의 마이크를 포함하는 마이크 어레이(120)에는 빔포밍(beamforming)을 적용할 수 있다. 빔포밍은 음원 신호를 수집할 때 방향성을 적용하기 위하여 수행될 수 있으며, 상기 빔포밍은 하드웨어 빔포밍과 소프트웨어 빔포밍으로 구현될 수 있다. 상기 소프트웨어 빔포밍은 딜레이-섬(Delay-sum), 필터-섬(Filter-sum), 수퍼 디렉티브(Super directive) 방식 등으로 구현될 수 있으며, 이 중 딜레이-섬(Delay-sum) 빔포밍 방식이 가장 기초적인 방법으로 설명될 수 있다. 상기 딜레이-섬(Delay-sum) 빔포밍은 각 마이크들에 수집된 음원에 지연시간을 조절하여 음원을 증폭하는 방법이다.

본 발명의 실시예는 상기 카메라(110)와 마이크 어레이(120)가 서로 다른 평면에 위치한 카메라 시스템(100)에 있어서, 상기 카메라(100)가 촬영한 화면 즉, 감시영역에 대응하는 영상 화면의 특정 위치를 오디오 주밍 포인트로 선택하여 상기 선택된 위치의 음원 신호를 증폭시킬 수 있다. 또한, 상기 선택된 위치의 음원 신호를 증폭하기 위해 상기 프로세서(130)는 상기 카메라(110) 및 마이크 어레이(120)로부터 각각 영상신호 및 오디오 신호를 입력받고, 상기 입력받은 신호에 기반하여 사용자가 설정한 오디오 주밍 포인트의 음원 신호를 증폭하는 동작을 수행할 수 있다.

보다 구체적으로, 본 발명의 실시예는 사용자가 상기 감시영역의 특정영역(오디오 주밍 포인트)에 대한 오디오 신호를 증폭하고자 할 때, 사람의 음성신호를 빔포밍의 대상으로 한정하고, 상기 음성신호를 보다 명확히 수집할 수 있도록 상기 오디오 주밍 포인트의 위치를 보정할 수 있다.

상기 프로세서(130)는 상기 카메라(110)의 화각을 통해 사용자 지정영역의 방향을 검출하고, 상기 검출된 방향과 마이크 어레이(120)가 이루는 각도를 계산하여 상기 마이크 어레이(120)의 각 마이크(120a)에 해당하는 지연시간을 도출하는 동작을 수행할 수 있다.

이를 위해 본 발명의 실시예에 의한 프로세서(130)는 도 5에 도시된 바와 같이 사용자영역 설정부(132), 자료수집부(134), 계산부(136), 및 보상부(138)을 포함하여 구성될 수 있다. 이 때, 상기 사용자영역 설정부(132)는 빔포밍의 대상이 되는 오디오 주밍 영역으로서 사용자가 원하는 영역을 설정할 수 있다. 상기 자료수집부(134)는 카메라(110)와 마이크 어레이(120)로부터 입력받은 신호 데이터를 기반으로 소리기반 히트-맵(heat-map)을 구현할 수 있다. 상기 계산부(136)는 카메라(110)의 화각 즉, 카메라 렌즈의 화각을 통하여 2차원 화면에 선정된 오디오 주밍 포인트 및 상기 자료수집부(134)에 의해 출력된 상기 오디오 주밍 포인트와 관련된 정보에 근거하여 상기 사용자영역 설정부(132)에 의해 설정된 영역 내의 오디오 주밍 포인트의 최적점을 선정할 수 있다. 상기 보상부(138) 상기 계산부(136)에서 계산된 최적점의 방향을 마이크 어레이(120)의 기준 방향으로 수정하는 동작을 수행할 수 있다.

상기 프로세서(130)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 상기 명령은 메모리(140)에 의해 프로세서(130)로 제공될 수 있다. 일 예로, 프로세서(130)는 메모리(140)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.

여기서, 상기 프로세서(130)는 메모리(140)가 포함하는 운영체제의 코드와 적어도 하나의 프로그램 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다. 이 때, 프로세서(130) 내의 구성요소들 즉, 사용자영역 설정부(132), 자료수집부(134), 계산부(136), 및 보상부(138)는 메모리(140)에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서(130)에 의해 수행되는 서로 다른 기능들을 구분하여 표현하는 것으로 이해할 수도 있다.

상기 메모리(140)는 컴퓨터에서 판독 가능한 기록 매체로서, RAM, ROM 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치를 포함할 수 있다. 또한, 메모리(140)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 드라이브 메커니즘을 이용하여 메모리(140)와는 별도의 컴퓨터에서 판독 가능한 기록 매체로부터 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록 매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 기록 매체를 포함할 수 있다. 또한, 상기 소프트웨어 구성요소들은 통신모듈(미도시)을 통해 메모리(140)에 로딩될 수도 있다.

또한, 상기 메모리(140)는 상기 계산부(136)에서 출력한 데이터를 저장 및 관리하는 역할을 수행할 수 있다. 소리의 왜곡은 특정 시간 및 날짜에 의해 발생할 수 있다. 예를 들어 겨울과 여름은 온도차이가 발생하여 소리가 전파되는 속도가 다르다. 소리의 전파 매질인 공기의 밀도가 온도에 따라 크게 변하기 때문이다. 따라서 상기 메모리(140)는 상기 계산부(136)의 출력을 단순히 저장하는 것이 아닌 상기 카메라(110)와 마이크 어레이(120)로부터 입력받은 신호 데이터에 대응하는 측정 시간, 날짜 등 여러 데이터와 함께 저장할 수 있다.

이하에서는 도 5에 도시된 프로세서(130)의 각 구성요소의 동작 및/또는 기능을 보다 구체적으로 설명하도록 한다.

도 7은 본 발명의 실시예에 의한 감시 카메라 장치가 촬영하는 감시영역의 일 예를 나타내는 도면이다.

도 7을 참조하면, 본 발명의 실시예에 의한 감시 카메라 장치는 도시된 바와 같이 옷 매장을 감시하는 동작을 수행할 수 있다. 도 7에 도시된 실시예는 적어도 하나의 감시 카메라 장치(100a)가 다수의 소비자들(410)이 다양한 매대들(420)에 놓인 의류를 쇼핑하는 옷 매장을 감시영역(400)으로 관리함을 나타내고 있다. 이 때, 상기 감시 카메라 장치(100a)는 도 6에 도시된 바와 같이 돔형의 카메라(110) 및 복수개의 마이크들(120a)로 구성되는 마이크 어레이(120)를 포함할 수 있다.

상기 감시 카메라 장치(100a)는 카메라가 동일한 위치에 고정되어 지속적으로 상기 감시영역(400)에 대한 영상 신호들 및 오디오 신호들을 수집하는 동작을 수행하고, 상기 신호들은 감시 서버(150)의 프로세서(130)로 제공될 수 있다.

상기 감시 카메라 장치(100a)로부터 수집된 상기 감시영역(400)에 대한 영상 신호들 및 오디오 신호들은 누적되어 상기 감시 서버(150)의 데이터베이스(142) 및/또는 메모리(140)에 저장될 수 있다. 이러한 누적 데이터는 상기 감시영역(400) 중 어느 영역에서 소비자들(410)이 많이 검출되는지, 소비자들의 음성 신호가 어느 영역에서 많이 검출되는지를 나타낼 수 있다.

또한, 본 발명의 실시예로서, 상기 프로세서(130)의 자료수집부(134)는 상기 데이터베이스(142) 및/또는 메모리(140)에 누적되어 저장된 정보들 즉, 상기 감시 카메라 장치(100a)로부터 수집되어 누적된 상기 감시영역(400)에 대한 영상 신호들 및 오디오 신호들에 대응하는 데이터를 이용하여, 소리기반 히트-맵(heat-map)을 구현할 수 있다. 즉, 상기 데이터는 앞서 설명한 바와 같이 고정된 위치에 설치된 감시 카메라 장치(100a)를 통해 수집 및 축적되는 상기 감시영역에 대한 정보에 대응된다. 또한, 상기 감시영역에 대한 정보는 상기 감시영역(400)에 설치된 매대(420)와 같은 장애물들의 재질, 크기 및 위치 등과 같은 정보들도 포함될 수 있다.

본 발명의 실시예에 의하면, 상기 소리기반 히트-맵(heat-map)은 상기 감시 카메라 장치(100a)의 마이크 어레이(120)로부터 입력받은 음원 데이터를 기반으로 음원 정위(sound localization)하여 관심 음역 대(예: 사람의 목소리 대역)의 위치를 카메라(110)로부터 입력받은 영상 데이터와 함께 나타낼 수 있다.

본 발명의 실시예는 상기 감시 카메라 장치(100a)의 마이크 어레이(120)로부터 입력되는 오디오 신호에 대하여, 사용자가 상기 감시영역의 특정영역에 대한 오디오 신호를 증폭하고자 할 때, 상기 증폭하고자 하는 오디오 신호를 사람의 음성신호로 한정함을 특징으로 하며, 이에 따라 상기 사용자가 설정한 영역의 특정 위치를 사람의 음성신호를 빔포밍의 대상으로 한정하고, 상기 음성신호를 보다 명확히 수집할 수 있도록 상기 특정 위치를 보정할 수 있다.

본 발명의 실시예에 의하면, 상기 빔포밍의 대상이 되는 오디오 신호는 사람의 음성 신호가 되며, 이는 사용자가 자세히 듣고자 하는 오디오 정보는 대부분 사람이 말하는 언어 정보에 해당하기 때문이다. 따라서, 상기 수집된 오디오 신호들이 인간의 언어 정보를 포함하는지에 대한 판단이 요구되며, 본 발명의 실시예는 상기 수집된 오디오 신호가 사람의 구강구조에서 발생하는 소리적인 공통점인 "모음"을 포함하는지 여부를 검출함으로써 이를 구현할 수 있다. 사람이 만들어 내는 소리에는 그 사람이 구사하는 언어와 관계없이 음절이 존재하고, 각 음절에는 적어도 1개의 모음이 포함된다. 이러한 모음은 다양한 언어들에 공통적으로 포함되어 있다.

이에 따라, 상기 감시 카메라 장치(100a)의 마이크 어레이(120)로부터 입력되는 오디오 신호들이 "모음"을 포함하고 있는지 여부를 판단함을 통해 상기 수집된 오디오 신호가 사람의 음성신호인지를 확인할 수 있다. 다시 말하면, 인간의 언어들은 상기 "모음"들을 포함하는 음절들로 구성되며, 이러한 "모음"들은 도 8에 도시된 그래프들에서와 같이 각 모음별로 구별되는 주파수 특성을 갖는다.

도 8은 본 발명의 실시예에 의해 수집된 음원 신호가 인간의 언어 정보를 포함하는지 판단하는 기준을 설명하는 그래프이며, 도 8에 도시된 그래프들은, 사람이 특정 단어에 포함된 모음을 발성할 때 발생되는 주파수(Hz) 및 그 크기(Loudness)를 나타낸다. 이 때, 상기 그래프의 y축에 도시된 크기(Loudness)는 소리의 상대적인 크기를 나타낼 수 있다.

도 8의 첫번째 그래프를 참조하면, 사람이 "파더(FATHER)"라는 단어에 포함된 모음, 일 예로 "아(AH)"를 발성할 때의 발생되는 주파수 특성을 나타낸다. 즉, 도 8의 첫번째 그래프에 의하면, 사람이 "아(AH)"를 발성하면 주파수가 약 700Hz 일 때 그 크기가 약 7인 제1 신호, 주파수가 약 1200Hz 일 때 그 크기가 약 4인 제2 신호, 및 주파수가 약 2600Hz 일 때 그 크기가 약 2인 제3 신호들의 조합으로 구현됨을 확인할 수 있다.

또한, 도 8의 두번째 그래프를 참조하면, 사람이 "히드(HEED)"라는 단어에 포함된 모음, 일 예로 "이(EE)"를 발성할 때의 발생되는 주파수 특성을 나타내는 것으로, 주파수가 약 300Hz 일 때 그 크기가 약 6인 제1 신호, 주파수가 약 2300Hz 일 때 그 크기가 약 2인 제2 신호, 및 주파수가 약 3200Hz 일 때 그 크기가 약 2인 제3 신호들의 조합으로 구현됨을 확인할 수 있으며, 도 8의 세번째 그래프를 참조하면, 사람이 "풀(POOL)"이라는 단어에 포함된 모음, 일 예로 "우(OO)"를 발성할 때의 발생되는 주파수 특성을 나타내는 것으로, 주파수가 약 300Hz 일 때 그 크기가 약 5인 제1 신호, 주파수가 약 700Hz 일 때 그 크기가 약 3인 제2 신호, 및 주파수가 약 2500Hz 일 때 그 크기가 약 1인 제3 신호들의 조합으로 구현됨을 확인할 수 있다..

본 발명의 실시예에 의하면, 상기 감시 카메라 장치(100a)의 마이크 어레이(120)로부터 입력되는 오디오 신호들은 상기 데이터베이스(142) 및/또는 메모리(140)에 누적되어 저장될 수 있다.

이 때, 본 발명의 실시예는 상기 입력되는 오디오 신호들에 대한 주파수 분석을 실행하여 상기 오디오 신호들이 도 8에 도시된 바와 같은 모음의 특성(예: 주파수 특정 및/또는 크기 특성)을 포함하는지를 판단할 수 있다. 즉, 상기 입력되는 오디오 신호들이 "모음"을 포함하고 있는지 여부를 판단함을 통해 상기 수집된 오디오 신호가 사람의 음성신호인지를 확인할 수 있는 것이다.

또한, 상기 감시 카메라 장치(100a)의 카메라(110)의 화각은 렌즈의 중심을 한 점으로 하여 수평 화각과 수직 화각이 결정될 수 있다. 상기 화각은 영상의 중심으로부터 영상의 가장자리까지 사용자에게 보이는 각을 의미한다.

도 9는 본 발명의 실시예에 의한 감시 카메라 시스템에 의해 획득된 감시영역 영상(400)의 화각을 설명하는 도면이다. 도 9를 참조하면, 이는 수평으로

, 수직으로

의 화각을 가진 카메라가 촬영한 감시영역 영상(400)으로서, 사용자 설정부(132)를 통해 지정된 점 P 위치(h, v) 영역의 소리를 증폭하고자 함을 가정한다.

또한, 앞서 설명한 바와 같이 본 발명의 실시예에 의한 카메라는 감시 카메라로 구현될 수 있으므로, 이 경우 상기 감시영역 영상(400)은 동일한 영역에 대해 장시간 동안 촬영된 영상일 수 있다.

빛의 직진성에 의하여 카메라(110)의 중심으로부터 상이 맺힌 지점은 직선으로 연결되기 때문에 사용자가 선택한 영상 위의 점, 일 예로 점 P 위치와 원점을 지나는 벡터를 구할 수 있다.

또한, 구면파로 전파되는 소리는 원거리에서 평면으로 근사화할 수 있다. 따라서, 빔포밍을 위한 각 마이크들(120a)의 지연시간은 상기 벡터를 법선 벡터로 갖는 평면의 방정식을 통해 계산이 가능하다.

상기 감시 카메라 장치(100a)의 카메라(110)는 상기 화각(angle of view) 정보에 따라 도 9에 도시된 감시영역 영상(400)을 검출할 수 있다. 이에 따라 상기 영상(400)의 영역 중 사용자가 설정한 특정 영역, 일 예로 도 9에 도시된 점 P 위치에 대응되는 영역도 검출될 수 있다.

상기 감시 카메라 장치(100a)의 마이크 어레이(120)는 음원의 음파를 검출하고, 상기 음파에 대응하는 전기 신호를 발생시킨다. 상기 발생된 전기신호는 오디오 신호로 정의될 수 있다. 상기 마이크 어레이(120)는 복수의 마이크들(120a)로 이루어지고, 상기 마이크들의 간격과 위치정보는 메모리(140)에 미리 저장되어 음원의 빔포밍시 상기 정보가 이용될 수 있다.

프로세서(130)는 빔포밍 기술을 이용하여 상기 감시영역 영상 영역 내의 음원을 출력함에 있어서, 특히 사용자영역 설정부(132)를 통해 도 9에 도시된 바와 같이 상기 감시영역 영상 중 사용자가 설정한 특정 영역, 일 예로 도 9에 도시된 점 P 위치에 대응되는 영역을 설정하여 상기 설정된 영역의 음원을 증폭하는 동작을 수행할 수 있다.

즉, 상기 사용자영역 설정부(132)는 상기 감시영역 영상(400) 중 사용자가 빔포밍의 수행을 원하는 영역을 설정하는 동작을 수행할 수 있다. 이후 프로세서(130)는 상기 설정된 영역 내의 방향 벡터를 얻기 위한 최적점을 선정하는 동작을 수행할 수 있다. 본 발명의 실시예에서는, 상기 빔포밍의 대상을 사람의 음성 신호로 한정함을 특징으로 한다. 또한, 본 발명의 실시예는 앞서 설명한 바와 같이 상기 오디오 신호가 사람의 음성신호인지 확인하기 위해 상기 입력되는 오디오 신호들에 대한 주파수 분석을 실행하여 상기 오디오 신호들이 도 8에 도시된 바와 같은 모음의 특성(예: 주파수 특정 및/또는 크기 특성)을 포함하는지를 판단할 수 있다.

다시 말하면, 상기 사용자영역 설정부(132)를 통해 설정된 특정영역 즉, P점에 해당하는 영역의 음원 즉, 사람의 언어 정보를 포함하는 음원을 빔 포밍하여 증폭함에 있어서, 본 발명의 실시예는 고정된 위치에 설치된 감시 카메라를 통해 촬영되는 동일 지역에 대한 감시영역 영상(400)을 대상으로, 앞서 언급한 소리기반 히트-맵(heat-map)에 기반한 음원 정위(sound localization)를 이용하여 음원과 그 대응위치에 대한 정보를 수집, 축적하고, 상기 축적된 정보에 기반하여 사용자 설정영역의 최적점을 보상할 수 있다. 도 9를 참조하면, 본 발명의 실시예는 이러한 보상 동작을 통해 최초 설정된 사용자 설정영역 내의 P(h, v)는 P'(h', v')로 보정될 수 있는 것이다.

이하, 도 10 및 도 11을 참조하여 본 발명의 실시예의 감시 서버(130)의 프로세서(130)의 동작을 보다 자세히 설명하도록 한다.

도 10은 본 발명의 실시예에 의한 감시 카메라 시스템의 감시영역에 대응하는 영상 화면의 일 예를 나타내는 도면이고, 도 11은 도 10의 감시영역 중 사용자 설정영역으로 선택된 특정 영역에서 오디오 주밍을 수행하는 위치가 보정됨을 설명하는 도면이다.

도 10을 참조하면, 상기 감시영역 영상(400)은 복수개의 영역으로 분할될 수 있으며, 이에 상기 프로세서(130)의 사용자영역 설정부(132)는 상기 분할된 복수개의 영상 중 적어도 하나를 선택할 수 있다. 일 예로, 도 10의 A 지점에서 발생된 음성 신호를 증폭 즉, 오디오 주밍하고자 할 경우 상기 사용자영역 설정부(132)는 제1 분할영역(420a)을 사용자 영역으로 설정할 수 있다.

또한, 도 10의 B 지점에서 발생된 음성 신호를 증폭 즉, 오디오 주밍하고자 할 경우 상기 사용자영역 설정부(132)는 제2 분할영역(420b)을 사용자 영역으로 설정할 수 있다.

마찬가지로, 도 10의 C 지점에서 발생된 음성 신호를 증폭 즉, 오디오 주밍하고자 할 경우 상기 사용자영역 설정부(132)는 제3 분할영역(420c)을 사용자 영역으로 설정할 수 있다.

본 발명의 실시예에 의하면, 상기 제1 내지 제3 분할영역 중 적어도 하나의 분할 영역을 사용자 영역으로 설정하게 되면, 이후 상기 소리기반 히트-맵(heat-map)에 기반한 음원 정위(sound localization)를 이용하여 음원과 그 대응위치에 대한 정보를 수집, 축적하고, 상기 축적된 정보에 기반하여 사용자 설정영역의 최적점을 보상할 수 있다. 즉, 제1 분할영역(420a)의 오디오 주밍 포인트 A는 A' 지점으로 보정될 수 있고, 제2 분할영역(420b)의 오디오 주밍 포인트 B는 B ' 지점으로 보정될 수 있으며, 제3 분할영역(420c)의 오디오 주밍 포인트 C는 C' 지점으로 보정될 수 있다.

도 11은 사용자 설정영역으로 선택된 특정 영역(420)에서 오디오 주밍을 수행하는 위치 즉, 오디오 주밍 포인트가 p 지점에서 p ' 지점으로 보정되는 예를 보다 구체적으로 나타낸다.

도 11을 참조하면, 감시 카메라 장치(100a)의 감시영역 영상 중 특정 화자(424)가 위치한 영역에 대응하는 분할영역(420)이 상기 프로세서(130)의 사용자 영역 설정부(132)에 의해 설정될 수 있다.

이 때, 상기 사용자 영역 설정부(132)는 움직임 감지(motion detection) 알고리즘 및 얼굴 인식(face recognition) 알고리즘을 이용하여 빔 포밍 및 오디오 주밍의 대상이 되는 객체를 보다 명확히 특정할 수 있다.

도 11에 도시된 실시예에 의할 경우, 상기 선택된 분할영역(420)에 표시된 화자(424)는 얼굴 인식 알고리즘에 의해 누구인지 미리 확인할 수 있으며, 상기 화자(424)에 의해 발생되는 오디오 신호 즉, 음성 신호에 대한 빔 포밍을 수행하기 위해 상기 화자의 입부분(422)을 오디오 주밍 포인트인 p 지점으로 설정할 수 있다.

다만, 본 발명의 실시예에 의하면, 상기 p 지점은 일 예로 상기 프로세서(130)의 자료수집부(134)에 의해 생성된 소리기반 히트-맵(heat-map)에 근거하여 보다 정확한 오디오 주밍을 위해 p ' 지점으로 보정될 수 있다.

상기 프로세서(130)의 자료수집부(134)는 상기 데이터베이스(142) 및/또는 메모리(140)에 누적되어 저장된 정보들 즉, 상기 감시 카메라 장치(100a)로부터 수집되어 누적된 상기 감시영역(400)에 대한 영상 신호들 및 오디오 신호들에 대응하는 데이터를 이용하여, 소리기반 히트-맵(heat-map)을 구현할 수 있다. 즉, 상기 데이터는 앞서 설명한 바와 같이 고정된 위치에 설치된 감시 카메라 장치(100a)를 통해 수집 및 축적되는 상기 감시영역에 대한 정보에 대응된다. 또한, 상기 감시영역에 대한 정보는 상기 감시영역(400)에 설치된 매대(420)와 같은 장애물들의 재질, 크기 및 위치 등과 같은 정보들도 포함될 수 있다.

본 발명의 실시예에 의하면, 상기 소리기반 히트-맵(heat-map)은 상기 감시 카메라 장치(100a)의 마이크 어레이(120)로부터 입력받은 음원 데이터를 기반으로 음원 정위(sound localization)하여 관심 음역 대(예: 사람의 목소리 대역)의 위치를 카메라(110)로부터 입력받은 영상 데이터와 함께 나타낼 수 있다. 또한, 상기 프로세서(130)의 자료수집부(134)는 사용자가 상기 감시영역의 특정 위치(오디오 주밍 포인트)에 대한 오디오 신호를 증폭하고자 할 때, 상기 증폭하고자 하는 오디오 신호를 사람의 음성신호로 한정하는 동작을 수행할 수 있다. 즉, 빔 포밍의 대상을 사람의 음성신호로 한정할 수 있다. 상기 프로세서(130)의 계산부(136)는 상기 감시 카메라 장치(100a)의 카메라(110)의 화각 즉, 카메라 렌즈의 화각을 통하여 2차원 화면에 선정된 오디오 주밍 포인트 및 상기 자료수집부(134)에 의해 출력된 상기 오디오 주밍 포인트와 관련된 정보에 근거하여 상기 사용자영역 설정부(132)에 의해 설정된 영역 내의 오디오 주밍 포인트의 최적점을 선정할 수 있다.

보다 구체적으로, 상기 계산부(136)는 소리의 전파 왜곡현상을 보상하기 위한 계산을 수행할 수 있다. 소리의 전파(propagation)는 온도 주변 장애물 등을 포함한 여러 요인에 의하여 왜곡이 발생할 수 있다. 상기 감시 영역에 배치된 다양한 장애물 환경(예: 매대(420)) 등과 같은 정보는 데이터베이스(142) 및/또는 메모리(140)에 저장되며, 상기 소리기반 히트-맵(heat-map)는 이러한 정보들이 반영되어 생성될 수 있다. 이러한 왜곡은 수학적으로 계산이 불가능 하며, 이를 보상하기 위해서는 각 상황에 맞추어 맞춤화 하는 작업이 필요하다.

이에 따라 본 발명의 실시예에 의한 계산부(136)는 맞춤화하는 작업을 상기 자료수집부(134)로부터 입력받은 소리기반 히트-맵(heat-map)을 기준으로 임의의 점을 선택하고 선택된 점의 주변의 소리를 함께 판단하여 왜곡에 대한 보상 값을 계산하여 수행할 수 있다. 즉, 도 11을 참조하면, 오디오 주밍 포인트로 최초 선택된 영역이 화자(424)의 입(422)에 해당하는 p인 경우, 상기 계산부(136)는 상기 선택된 오디오 주밍 포인트 p의 주변 좌표들에서 입력되는 소리를 오디오 주밍하고 수집된 소리 데이터의 품질을 p 지점과 비교하여 더 좋은 좌표를 보정된 오디오 주밍 포인트인 p'로 선정할 수 있다.

본 발명의 실시예는 상기 보정 오디오 주밍 포인트 p'를 도 11에서와 같이 화면 상에 표시하여 사용자가 직접 보정된 오디오 주밍 포인트를 선택할 수 있도록 할 수 있다. 또한, 다른 실시예로서, 상기 보정 오디오 주밍 포인트 p'를 복수개 선정하여 화면에 표시하고 사용자로 하여금 상기 복수개 중 하나를 선택할 있도록 할 수도 있다.

상기 보상부(138) 상기 계산부(136)에서 계산된 최적점의 방향을 마이크 어레이(120)의 기준 방향으로 수정하는 동작을 수행할 수 있다. 보다 구체적으로, 상기 보상부(138)는 상기 사용자영역 설정부(132)에 의해 설정된 특정 분할영역(420) 내의 오디오 주밍 포인트 p 점의 좌표를 상기 보정된 제2 오디오 주밍 포인트 p'로 수정하여 마이크 어레이(120) 어파쳐(aperture)의 빔의 방향으로 집음하는 동작을 수행할 수 있다. 도 12는 본 발명의 실시예에 의한 감시 카메라 시스템의 동작 방법을 나타내는 순서도이며, 도 1 내지 도 12를 참조하여 본 발명의 실시예에 의한 감시 카메라 시스템의 동작 방법을 설명하면 다음과 같다.

먼저 감시 카메라 장치(100a)는 카메라가 동일한 위치에 고정되어 지속적으로 상기 감시영역(400)에 대한 영상 신호들 및 오디오 신호들을 수집하는 동작을 수행하고, 상기 감시영역(400)에 대한 영상 신호들 및 오디오 신호들은 감시 서버(150)의 프로세서(130)로 제공된다 (ST 100).

다음으로 상기 감시 카메라 장치(100a)로부터 수집된 상기 감시영역(400)에 대한 영상 신호들 및 오디오 신호들은 누적되어 상기 감시 서버(150)의 데이터베이스(142) 및/또는 메모리(140)에 저장될 수 있다 (ST 110).

또한, 상기 감시 서버(150)의 프로세서(130) 즉, 자료수집부(134)는 상기 데이터베이스(142) 및/또는 메모리(140)에 누적되어 저장된 정보들 즉, 상기 감시 카메라 장치(100a)로부터 수집되어 누적된 상기 감시영역(400)에 대한 영상 신호들 및 오디오 신호들에 대응하는 데이터를 이용하여, 소리기반 히트-맵(heat-map)을 구현한다 (ST 120).

상기 소리기반 히트-맵(heat-map)은 상기 감시 카메라 장치(100a)의 마이크 어레이(120)로부터 입력받은 음원 데이터를 기반으로 음원 정위(sound localization)하여 관심 음역 대(예: 사람의 목소리 대역)의 위치를 카메라(110)로부터 입력받은 영상 데이터와 함께 나타낼 수 있다. 본 발명의 실시예는, 사용자가 상기 감시영역의 특정영역에 대한 오디오 신호를 증폭하고자 할 때, 상기 증폭하고자 하는 오디오 신호를 사람의 음성신호로 한정함을 특징으로 한다.

본 발명의 실시예는 상기 감시 카메라 장치(100a)의 마이크 어레이(120)로부터 입력되는 오디오 신호들이 "모음"을 포함하고 있는지 여부를 판단함을 통해 상기 수집된 오디오 신호가 사람의 음성신호인지를 확인할 수 있다.

일 예로, 본 발명의 실시예는 상기 입력되는 오디오 신호들에 대한 주파수 분석을 실행하여 상기 오디오 신호들이 도 8에 도시된 바와 같은 모음의 특성(예: 주파수 특정 및/또는 크기 특성)을 포함하는지를 판단할 수 있다. 즉, 상기 입력되는 오디오 신호들이 "모음"을 포함하고 있는지 여부를 판단함을 통해 상기 수집된 오디오 신호가 사람의 음성신호인지를 확인할 수 있는 것이다.

이후, 감시 카메라 장치(100a)의 감시영역(400) 영상 중 빔포밍을 수행할 특정 영역이 사용자 설정영역으로 설정되고, 상기 사용자 설정영역 내의 제1 오디오 주밍 포인트가 선정될 수 있다 (ST 130).

일 예로, 도 11을 참조하면, 특정 화자(424)가 위치한 영역에 대응하는 분할영역(420)을 사용자 설정영역으로 선택할 수 있다. 이 때, 상기 사용자 영역 설정부(132)는 움직임 감지(motion detection) 알고리즘 및 얼굴 인식(face recognition) 알고리즘을 이용하여 빔 포밍 및 오디오 주밍의 대상이 되는 객체를 보다 명확히 특정할 수 있다.

또한, 상기 사용자 설정영역 내에서 제1 오디오 주밍 포인트를 설정할 수 있으며, 일 예로, 상기 화자(424)에 의해 발생되는 오디오 신호 즉, 음성 신호에 대한 빔 포밍을 수행하기 위해 상기 화자의 입부분(422)을 상기 제1 오디오 주밍 포인트인 p 지점으로 설정할 수 있다.

다음으로, 상기 사용자 설정영역 내의 제1 오디오 주밍 포인트는 데이터베이스 및/또는 메모리에 기 저장된 감지영역 정보에 근거하여 제2 오디오 주밍 포인트로 보정한다 (ST 140).

일 예로, 상기 프로세서(130)의 계산부(136)는 상기 감시 카메라 장치(100a)의 카메라(110)의 화각 즉, 카메라 렌즈의 화각을 통하여 2차원 화면에 선정된 오디오 주밍 포인트 및 상기 자료수집부(134)에 의해 출력된 상기 제1 오디오 주밍 포인트와 관련된 정보에 근거하여 상기 사용자 설정영역 내의 제1 오디오 주밍 포인트 p를 제2 오디오 주밍 포인트 p'로 보정할 수 있다.

보다 구체적으로, 상기 계산부(136)는 상기 소리기반 히트-맵(heat-map)을 기준으로 상기 선택된 제1 오디오 주밍 포인트 p에 대해 그 주변의 소리를 함께 판단하여 왜곡에 대한 보상 값을 계산하여 수행할 수 있다. 즉, 도 11을 참조하면, 제1 오디오 주밍 포인트로 최초 선택된 영역이 화자(424)의 입(422)에 해당하는 p인 경우, 상기 계산부(136)는 상기 선택된 제1 오디오 주밍 포인트 p의 주변 좌표들에서 입력되는 소리를 오디오 주밍하고 수집된 소리 데이터의 품질을 p 지점과 비교하여 더 좋은 좌표를 보정된 제2 오디오 주밍 포인트인 p'로 선정할 수 있다.

마지막으로, 상기 보정된 제2 오디오 주밍 포인트에 근거하여 상기 제2 오디오 주밍 포인트 방향을 상기 감시 카메라 장치(100a)의 마이크 어레이(120)의 기준 방향으로 수정하는 동작을 수행한다. 즉, 상기 보정된 제2 오디오 주밍 포인트에 근거하여 빔포밍을 수행한다 (ST 150).

일 예로, 상기 프로세서의 보상부(138) 상기 계산부(136)에서 계산된 최적점의 방향을 마이크 어레이(120)의 기준 방향으로 수정하는 동작을 수행할 수 있다. 보다 구체적으로, 상기 보상부(138)는 상기 사용자영역 설정부(132)에 의해 설정된 특정 분할영역(420) 내의 제1 오디오 주밍 포인트 p 점의 좌표를 상기 보정된 제2 오디오 주밍 포인트 p'로 수정하여 마이크 어레이(120) 어파쳐(aperture)의 빔의 방향으로 집음하는 동작을 수행할 수 있다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims

감시영역에 대한 영상 신호 및 오디오 신호를 수집하는 감시 카메라 장치;
상기 수집된 영상 및 오디오 신호들을 포함하는 감시영역 정보를 누적하여 저장하는 데이터베이스 및
상기 감시 카메라 장치에서 촬영된 감시영역 영상에서 선정된 제1 오디오 주밍 포인트를 상기 저장된 감시영역의 누적 정보를 이용하여 제2 오디오 주밍 포인트로 보정하고, 상기 보정된 제2 오디오 주밍 포인트에 대응하는 오디오 신호에 대한 빔포밍을 수행하는 프로세서를 포함하는 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템.
제1 항에 있어서,
상기 빔포밍의 대상이 되는 오디오 신호는 사람의 음성 신호로 한정되는 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템.
제2 항에 있어서,
상기 프로세서는, 상기 수집된 오디오 신호가 언어의 구성요소인 모음을 포함할 경우 상기 오디오 신호를 사람의 음성 신호인 것으로 판단하는 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템.
제1 항에 있어서,
상기 프로세서는,
상기 데이터베이스에 저장된 감시영역 정보를 이용하여 상기 감시영역에 대한 소리기반 히트맵을 생성하는 자료수집부와;
상기 감시영역 영상 중 빔 포밍을 수행할 사용자 설정영역을 선택하고, 상기 선택된 사용자 설정영역 내의 제1 오디오 주밍 포인트를 선정하는 사용자영역 설정부와;
상기 제1 오디오 주밍 포인트 및 상기 자료수집부에서 생성되는 소리기반 히트맵 정보에 근거하여 상기 사용자영역 설정부에 의해 설정된 사용자 설정영역 내에서 보정된 제2 오디오 주밍 포인트를 선정하는 계산부와;
상기 보정된 제2 오디오 주밍 포인트에 대응하는 방향으로 상기 빔포밍을 수행하는 보정부를 포함하는 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템.
제4 항에 있어서,
상기 소리기반 히트맵은 상기 감시 카메라 장치에서 수집된 오디오 신호 데이터들을 기반으로 음원 정위하여 사람의 음성 신호에 대응하는 음역 대의 위치를 상기 감시 카메라 장치에서 수집된 영상 신호 데이터와 함께 표시하는 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템.
제4 항에 있어서,
상기 감시영역 영상은 복수개의 영역으로 분할될 수 있으며, 상기 사용자영역 설정부는 상기 분할된 복수개의 영상 중 적어도 하나를 선택하는 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템.
제6 항에 있어서,
상기 사용자영역 설정부는 움직임 감지(motion detection) 알고리즘 및/또는 얼굴 인식(face recognition) 알고리즘을 이용하여 빔 포밍의 대상에 해당하는 객체를 특정하는 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템.
제4 항에 있어서,
상기 제2 오디오 주밍 포인트는 상기 제1 오디오 주밍 포인트와 함께 상기 감시영역 영상의 화면에 표시되는 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템.
제8 항에 있어서,
상기 제2 오디오 주밍 포인트는 복수 개가 선정될 수 있으며, 상기 복수개의 제2 오디오 주밍 포인트들 중 하나의 제2 오디오 주밍 포인트가 보정된 제2 오디오 주밍 포인트로 선정되는 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템.
제1 항에 있어서,
상기 감시 카메라 장치는,
소정의 화각을 갖는 영상 신호를 출력하는 카메라와;
소정 간격으로 배치된 복수의 마이크들을 포함하여 소정의 음원 신호를 출력하는 마이크 어레이를 포함하는 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템.
제10 항에 있어서,
상기 카메라와 상기 마이크 어레이는 서로 다른 평면상에 위치하는 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템.
제4 항에 있어서,
상기 계산부에서 출력한 데이터를 저장 및 관리하며, 상기 카메라와 마이크 어레이로부터 입력받은 신호 데이터에 대응하는 측정 시간, 날짜 데이터를 상기 계산부에서 출력한 데이터와 함께 저장하는 메모리를 더 포함하는 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템.
감시영역에 대한 영상 신호 및 오디오 신호를 수집하는 단계;
상기 수집된 영상 및 오디오 신호들을 포함하는 감시영역 정보를 누적하여 저장하는 단계;
상기 데이터베이스에 저장된 감시영역 정보를 이용하여 상기 감시영역에 대한 소리기반 히트맵을 생성하는 단계;
상기 감시 카메라 장치에서 촬영된 감시영역 영상에서 빔 포밍을 수행할 사용자 설정영역을 선택하고, 상기 선택된 사용자 설정영역 내의 제1 오디오 주밍 포인트를 선정하는 단계;
상기 제1 오디오 주밍 포인트 및 소리기반 히트맵 정보에 근거하여 상기 사용자 설정영역 내에서 보정된 제2 오디오 주밍 포인트를 선정하는 단계; 및
상기 보정된 제2 오디오 주밍 포인트에 대응하는 방향으로 상기 빔포밍을 수행하는 단계를 포함하는 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템의 동작 방법.
제13 항에 있어서,
상기 빔포밍의 대상이 되는 오디오 신호는 사람의 음성 신호로 한정되는 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템의 동작 방법.
제14 항에 있어서,
상기 수집된 오디오 신호가 언어의 구성요소인 모음을 포함할 경우 상기 오디오 신호를 사람의 음성 신호인 것으로 판단하는 단계가 더 포함되는 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템의 동작 방법.
제13 항에 있어서,
상기 소리기반 히트맵은 상기 감시 카메라 장치에서 수집된 오디오 신호 데이터들을 기반으로 음원 정위하여 사람의 음성 신호에 대응하는 음역 대의 위치를 상기 감시 카메라 장치에서 수집된 영상 신호 데이터와 함께 표시하는 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템의 동작 방법.
제13 항에 있어서,
상기 감시영역 영상은 복수개의 영역으로 분할될 수 있으며, 상기 사용자 설정영역이 선택되는 단계는 상기 분할된 복수개의 영상 중 적어도 하나가 선택됨을 포함하는 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템의 동작 방법.
제17 항에 있어서,
상기 사용자 설정영역이 선택되는 단계는 움직임 감지(motion detection) 알고리즘 및/또는 얼굴 인식(face recognition) 알고리즘을 이용하여 빔 포밍의 대상에 해당하는 객체를 특정하는 단계를 더 포함하는 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템의 동작 방법.
제13 항에 있어서,
상기 제2 오디오 주밍 포인트는 상기 제1 오디오 주밍 포인트와 함께 상기 감시영역 영상의 화면에 표시되는 객체를 특정하는 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템의 동작 방법.
제19 항에 있어서,
상기 제2 오디오 주밍 포인트는 복수 개가 선정될 수 있으며, 상기 복수개의 제2 오디오 주밍 포인트들 중 하나의 제2 오디오 주밍 포인트가 보정된 제2 오디오 주밍 포인트로 선정되는 시각화된 객체에서 특정영역의 소리를 추출하는 감시 카메라 시스템의 동작 방법.