KR20170105727A

KR20170105727A - 음성분석을 통해 화자를 추적하여 빌딩의 보안을 증강하는 방법 그를 이용한 시스템

Info

Publication number: KR20170105727A
Application number: KR1020160028666A
Authority: KR
Inventors: 노영두; 김윤호; 신주철
Original assignee: (주)인타임정보
Priority date: 2016-03-10
Filing date: 2016-03-10
Publication date: 2017-09-20

Abstract

본 발명은 화자에 대한 음성분석을 통해 화자의 정확한 위치를 파악할 수 있으며, 어떤 위치에서 화자가 발언을 하더라도 카메라의 촬영거리 이동을 최소화하고, 화자의 안면부 추적 및 촬상이 용이한 음성분석을 통해 화자를 추적하는 화자 추적 방법 및 그를 이용한 시스템에 관한 것이다. 이를 위해 본 발명은 음성분석을 통해 화자를 추적하는 화자 추적 보안 시스템에 관한 것으로서, 공간 내에 설치되는 복수의 집음기 및 i) 공간 내에서 발생하는 음원이 복수의 집음기에 도달하는 시간차를 참조로 하여, 음원의 위치를 판단하고, ii) 촬상장치의 촬상 방향이 음원의 위치를 향하도록 촬상장치에 대해 자세 제어를 수행하는 제어부를 포함하여 구성될 수 있다.

Description

음성분석을 통해 화자를 추적하여 빌딩의 보안을 증강하는 방법 그를 이용한 시스템{METHOD FOR ENHANCING THE SECURITY OF BUILDING BY TRACING A MAN WHO IS SPEAKING ON THE BASIS OF VOICE ANALAYSIS AND SYSTEM USING THE SAME}

본 발명은 음성분석을 통해 화자를 추적하여 빌딩의 보안을 증강하는 방법 및 그를 이용한 시스템에 관한 것으로, 더욱 상세하게는 음성이 각 집음 장치에 도달하는 시간 차를 참조로 하여 화자의 위치를 추적하고, 촬상장치의 제어를 통해 화자의 위치로 촬상장치를 팬(PAN), 틸트(TILT) 또는 줌(ZOOM) 제어를 하여 화자를 촬상하는 음성분석을 통해 빌딩의 보안을 증강하는 방법 및 그를 이용한 시스템에 관한 것이다.

통상적으로, 화상회의 시스템이나, 방송 토크쇼, 회의실 등에서 영상 시스템을 이용할 때, 통상 테이블이나 의자와 같이 화자(Speaker)가 있을 것으로 예상되는 위치에 카메라가 배치되어 화자를 촬상하고, 모니터링 하도록 영상 시스템이 구축된다.

방송에서는 화자가 의자에 앉아있지 않고 이동하는 경우, 스태프가 카메라를 들고 화자를 따라 이동하면서 촬상을 하는 경우도 있으나, 화자가 둘 이상이고, 화자의 이동이 잦은 경우, 한 명의 스태프가 카메라를 들고 화자를 추적하여 촬상하는데 한계가 있으므로, 다수의 스태프를 운용하여 화자를 촬상하기도 한다. 화상회의 시스템이나 방송 시스템에서 화자가 정해진 위치에 고정되지 않으면, 다수의 스태프가 다수의 카메라를 이용하여 화자들을 촬상한 영상을 영상 시스템에 전송하고, 영상 시스템의 운용자는 실시간 전송되는 영상 중 주 영상을 선택하여 송출하여야 한다.

화자의 이동성이 크고 화자가 많을 수록 요구되는 스태프의 수가 증가하고, 촬상된 다수의 촬상 영상 중 어느 것을 주 영상으로 할 것인가를 고려해야 하는 바, 화자의 증가는 영상 시스템의 구성을 복잡하게 만들고, 운용을 어렵게 만드는 한 원인이 되고 있다.

이에 대해, 공개특허 제2010-0061890은 복수의 마이크로폰으로 집음되는 소리의 크기를 비교하여 소리의 크기가 큰 방향으로 카메라 방향을 전환하여 요구되는 스태프의 수를 저감하고, 자동으로 영상 시스템을 운용하도록 하는 "소리인식을 통해 카메라의 동작을 제어하는 카메라 위치 제어장치"를 제안한 바 있다.

그러나, 공개특허 제2010-0061890의 "음성의 크기를 이용한 화자의 추적 방법은 아래의 각 호에 따른 문제점이 우려된다.

1) 음성신호의 크기만으로 화자를 추적할 경우, 화자의 대략적인 위치 파악은 가능하나 정확한 위치 파악이 어렵고,

2) 화자의 정확한 위치 파악이 안되는 상태에서 카메라를 제어할 경우, 촬상 영상의 중심부에 화자가 배치되지 않을 수 있고,

3) 음성신호의 크기를 참조하여 화자의 위치를 판단 후, 카메라를 제어할 경우, 화자의 정면이 아니라 화자의 배면이나 측면을 촬상할 우려가 있으며,

4) 화자가 둘 이상인 경우, 목소리가 큰 화자만이 영상에 잡힐 우려가 있다.

본 발명은 이와 같은 문제점을 해결하고, 음성을 내는 화자를 추적하여 이들에 대하여 파악함으로써 빌딩 내의 보안 정도를 강화하고자 함에 있다.

본 발명의 목적은 상기한 종래의 문제점 중 적어도 하나를 해결하는데 있다.

본 발명의 일 태양에 따르면, 음성분석을 통해 화자를 추적하는 화자 추적 보안 시스템에 있어서, 공간 내에 설치되는 복수의 집음기 및 i) 상기 공간 내에서 발생하는 음원이 상기 복수의 집음기에 도달하는 시간 차를 참조로 하여, 음원의 위치를 판단하고, ii) 촬상장치의 촬상 방향이 상기 음원의 위치를 향하도록 상기 카메라에 대해 자세 제어를 수행하는 제어부를 포함하는 시스템을 제공한다.

본 발명의 다른 태양에 따르면, 음성분석을 통해 화자를 추적하는 화자 추적 방법에 있어서, (a) 제어부는, 공간 내에 설치되는 복수의 집음기를 통해 음원이 상기 각 집음기에 도달하는 시간 차를 참조로 하여 음원의 위치를 판단하는 단계 및 (b) 제어부는, 촬상장치의 촬상 방향이 상기 음원의 위치를 향하도록 상기 촬상장치에 대해 자세 제어를 수행하는 단계;를 포함하는 방법을 제공한다.

본 발명에 따르면, 화자에 대한 음성분석을 통해 화자의 정확한 위치를 파악할 수 있으며, 어떤 위치에서 화자가 발언을 하더라도 카메라의 촬영거리 이동을 최소화하고, 화자의 안면부 추적 및 촬상이 용이하다.

도 1은 본 발명의 일 실시예에 따른 음성분석을 통해 화자를 추적하는 화자 추적 보안 시스템의 개념도를 도시한다.
도 2는 촬상장치의 배치 방식의 일 예에 따른 참조도면을 도시한다.
도 3은 촬상장치의 팬 제어와 틸트 제어에 대한 개념도를 도시한다.
도 4와 도 5는 집음기의 집음 시간을 참조로 음원 위치를 판단하는 방법에 대한 개념도를 도시한다.
도 6과 도 7은 화자의 안면부 식별을 통해 촬상장치를 선택 및 제어하는 일 예에 대한 참조도면을 도시한다.
도 8은 화자가 복수일 때, 프로세서의 줌 제어방식을 설명하기 위한 참조도면을 도시한다.

이하, 도면을 참조하여 본 발명을 상세히 설명하도록 한다.

도 1은 본 발명의 일 실시예에 따른 음성분석을 통해 화자를 추적하여 빌딩의 보안을 증강하는 시스템(이하, "화자 추적 보안 시스템"이라 한다)의 개념도를 도시한다.

도 1을 참조하면, 실시예에 따른 화자 추적 보안 시스템(100)은 촬상장치(110a 내지 110n), 집음기(120a 내지 120n), 프로세서(130), 비디오 스위치(140), 모니터(150) 및 비디오 레코더(160)를 포함하여 구성될 수 있다.

촬상장치(110a 내지 110n)는 공간 내에 복수 개 설치될 수 있으며, 바람직하게는 공간을 복수로 구획하고, 공간 내에서 화자가 어느 방향을 향하든, 화자의 정면을 촬상할 수 있도록 공간의 모서리에 배치될 수 있다.

예를 들어, 도 2에 도시된 바와 같이, 촬상장치(110a 내지 110n)는 공간의 각 모서리에서 공간 중심부(P1)를 향해 촬상 방향이 향하도록 배치될 수 있다. 도 2에 도시된 촬상장치(110a 내지 110n)의 배치 구조에 따르면, 화자가 공간 내에서 어느 방향을 바라보던 관계없이 화자의 안면부가 촬상될 수 있으며, 화자의 전, 후, 좌 및 우 방향 전체를 촬상할 수 있으므로, 다양한 각도에서 화자의 안면부를 촬상할 수 있다. 또한, 화자가 둘 이상인 경우, 둘 이상의 화자들이 하나의 화면에 모두 표현될 수 있도록 줌-인(Zoom-in) 또는 줌-아웃(Zoom-out) 기능을 구비하여야 한다.

도 2에서, 공간은 4개의 영역(S1 내지 S4)으로 구획되고, 각 영역(S1 내지 S4)에는 4개의 촬상장치(110a 내지 110d)가 각각 배치되는 일 예를 도시하며, 이 중 촬상장치(110d)의 촬상 영역이 빗금 처리되는 일 예를 도시한다.

각 촬상장치(110a 내지 110d)는 팬(PAN), 줌(ZOOM) 또는 틸트(TILT) 제어될 수 있다.

팬(PAN) 제어는 각 촬상장치(110a 내지 110n)의 촬상 영역이 수평 이동하도록 제어하는 것을 나타내고, 틸트(TILT) 제어는 촬상 영역의 수직 방향을 따라 촬상 방향이 이동하도록 제어하는 것을 나타낸다. 팬 제어 및 틸트 제어는 도 3을 함께 참조하여 설명하도록 한다.

도 3은 촬상장치의 팬 제어와 틸트 제어에 대한 개념도를 도시한다.

도 3은 촬상장치(110a 내지 110n)의 팬(PAN) 제어 및 틸트 제어의 개념을 설명하기 위한 참조도면을 도시한 것으로서,

공간을 X, Y 및 Z 축으로 구획할 때, 팬(PAN) 제어는 촬상장치(110d)의 촬상영역이 X축과 Y 축 평면에서 변동하도록 자세를 전환하는 제어를 나타내고, 틸트(TILT) 제어는 촬상장치(110d)의 촬상 방향이 Z 축을 따라 변동하도록 촬상장치(110a 내지 110n)의 자세를 제어하는 것을 의미한다. 도 3에서, 팬(PAN) 제어에 의해 촬상장치(110d)의 촬상영역은 S4 -> S41 또는 S4 -> S42로 변동되며, 틸트 제어에 의해 촬상영역(S4)은 Z 축을 따라 상하 이동됨을 예시하고 있다.

집음기(120a 내지 120n)는 공간 내에 복수 개 설치되며, 공간 내의 음성신호를 획득하고 이를 전기적인 신호로 변환하여 프로세서(130)로 제공할 수 있다. 집음기(120a 내지 120n)는 공간 내에 균일하게 배치되거나, 화자가 주로 위치할 영역을 중심으로 분산 배치될 수 있다.

프로세서(130)는 집음기(120a 내지 120n)에서 제공되는 음성신호를 분석하여 동일 주파수 대역의 음성신호에 대한 전달시간을 참조로 하여 화자의 위치를 파악한다. 그리고, 프로세서(130)는 파악된 화자의 위치로 촬상장치(110a 내지 110d)가 향하도록 팬(PAN), 틸트(TILT) 및 줌(ZOOM) 제어를 수행할 수 있다.

집음기(120a 내지 120n)가 공간 내에 복수 개가 배치되고, 서로 거리를 두고 이격되어 배치되므로, 동일한 음성신호라 하더라도, 집음기(120a 내지 120n)에 도달하는 시간은 동일하지 않다. 음성신호의 발생위치와 근접한 집음기(예를 들어 120a)에서 음성신호(A1)가 t1 시간 이후 획득되고, 음성신호의 발생위치 대비 원거리에 위치하는 집음기(120b)에 음성신호(A1)가 도달하는데 t2라는 시간 이후 획득되었다고 가정하면,

1) 집음기(110a)와 집음기(110b) 사이의 거리를 시간 값으로 환산하고,

2) 집음기(110a)와 집음기(110b)로 음성신호(A1)가 도달하는 시간 값을 변으로 하는 삼각형을 형성할 수 있다.

항목 1) 에서, 집음기(110a)와 집음기(110b) 사이의 거리를 시간 값으로 환산한다는 것은, 집음기(110a)에서 집음기(110b)로 음성신호(A1)가 도달하는데 걸리는 시간을 의미할 수 있다. 예를 들어, 집음기(110a)에서 집음기(110b)로 음성신호가 도달하는데 걸리는 시간을 t3라고 가정하면, 시간 t3가 집음기(110a)와 집음기(110b) 사이의 거리를 시간으로 환산한 시간 값에 해당하는 것이다.

삼각 측위에서, 두 개의 기준점을 알고, 각 기준점에서의 길이를 알면, 목적지의 위치를 파악할 수 있다. 본 실시예에서, 집음기(110a)와 집음기(110b)의 위치가 고정 값이고, 집음기(110a)와 집음기(110b)에서 동일한 음성신호(A1)가 도달하는데 걸리는 시간 값을 참조한다면, 프로세서(130)에서 화자의 정확한 위치를 파악할 수 있다. 이는 도 4와 도 5를 함께 참조하여 설명하도록 한다.

먼저, 도 4에서 참조부호 "10"은 음성신호의 발생위치로서, 이하 "음원"이라 기재하도록 한다.

음원(10)에서 집음기(120b)로 화자의 음성이 전달되는데 소요되는 시간을 t1이라 하고, 음원(10)에서 집음기(120a)로 화자의 음성이 전달되는데 소요되는 시간을 t2라고 가정할 때, 두 개의 집음기(120a, 120b) 사이의 거리는 t3이라는 시간 값으로 환산되어 3개의 시간 값으로 이루어진 삼각 측위 값이 획득될 수 있다.

여기서, 시간 t1은 f1(t1)으로 표현되고, 시간 t2는 f1(t2)로 표현됨에 유의하여야 한다. 이는 동일한 주파수 대역(f1)의 음성신호가 각 집음기(120a, 120b)에 도달하는 시간을 참조로 하여 음원(10)의 위치를 판단하는 것을 의미한다. 서로 상이한 주파수 대역의 음성신호에 대해서는 시간 차를 이용하여 음원(10)의 위치를 파악할 수 없으며, 만일 화자가 둘 이상이라면, 각 화자별 주파수 대역에 따른 음원의 위치를 파악하여야 하며, 화자의 수가 복수인 경우 각 화자의 음성주파수 대역별로 삼각 측위를 적용하여 각 화자의 위치를 파악한다는 것을 의미한다.

프로세서(130)는 집음기(120a, 120b)에서 획득한 음성신호 f1(t1) 및 음성신호 f1(t2)과, 두 집음기(120a, 120b) 사이의 거리를 시간 값으로 환산한 환산 시간 t3를 참조로 하여, 도 5에 도시된 바와 같이 음원(10)의 위치를 판단할 수 있다. 집음기(120a, 120b)의 위치와 환산 시간 값은 고정 값이므로, 두 집음기(120a, 120b)에서의 시간 값(f1(t1), f1(t2)) 만큼 변을 확장하고, 두 변의 종단이 만나도록 변의 각도를 조절하면, 음원(10)의 위치를 획득할 수 있다.

음원(10)의 신호 크기를 이용하여 음원(10)을 생성하는 화자의 위치를 파악하는 공개특허 제2010-0061890호는 음원(10)이 대략 어느 방향에서 발생하는가는 식별할 수 있으나, 식별된 위치를 토대로 화자를 촬상 영상의 중심에 정확히 위치시키기 곤란한 측면이 있다.

반면, 실시예에 따른 화자 추적 보안 시스템(100)은 두 개의 고정 값을 이용하여 삼각 측위를 수행함으로써, 화자의 정확한 위치 파악이 가능해지며, 화자의 위치가 정확히 파악됨에 따라, 화자가 촬상 영상의 중심에 배치되도록 할 수 있는 것이다.

한편, 프로세서(130)에는 집음기(120a 내지 120n)에서 집음된 음성신호를 처리하기 위해 별도의 DSP(Digital Signal Processor)(131)가 내장될 수 있다.

DSP(131)는 각 집음기(120a 내지 120n)에서 집음된 음성신호를 주파수 대역별로 분류하고, 분류된 각 음성신호가 각 집음기(120a 내지 120n)에 도달하는 시간 차를 산출할 수 있다. 시간 차의 산출을 위해, DSP(131)는 음원(10)에 대한 비교 작업을 수행할 수 있다.

DSP(131)는 집음기(예를 들어, 120a)에서 화자의 음성신호(A1)가 획득되면, 음성신호(A1)에 대해 퓨리에 변환(Fourier Transform)을 하여 음성신호(A1)에 대한 주파수 변환 값(FT1)을 획득할 수 있다. 이후, 타 집음기(예를 들어, 120b)에서 집음된 음성신호에 대해 퓨리에 변환을 하여 주파수 변환 값(FT2)을 획득한 후, DSP(131)는 FT1과 FT2에 대한 상관 값(correlation) 산출을 통해 FT1과 FT2의 유사성을 판단할 수 있다.

FT1과 FT2의 상관 값 비교를 통해 양자가 유사한 것으로 판단되면, DSP(131)는 FT1과 FT2가 동일한 음원(10)으로 식별하고, FT1과 FT2의 음성신호가 집음기(120a, 120b)로 입력된 시간정보를 음성신호에 부가할 수 있다. 프로세서(130)는 시간정보가 부여된 FT1과 FT2의 시간 차를 이용하여 화자의 위치를 파악할 수 있다.

한편, 예시된 DSP(131)는 프로세서(130)의 처리 능력 향상을 위해, 프로세서(130)에 부가되는 구성으로서, 프로세서(130)가 DSP(131)의 기능을 스스로 온전히 수행할 경우 개별 구성으로 포함되지 않을 수도 있다.

프로세서(130)가 DSP(131)의 기능을 온전히 수행 가능한 경우, DSP(131)의 구성은 생략될 수 있으며, 전술한 DSP(131)의 기능은 프로세서(130)가 단독으로 수행될 수 있다.

도 6과 도 7은 화자의 안면부 식별을 통해 촬상장치를 선택 및 제어하는 일 예에 대한 참조도면을 도시한다.

도 6은 화자는 D1 방향을 향한 채, 음원(10)을 생성하고 있으며, 집음기(120a 내지 120n)는 D1-R 방향에서 화자의 음원(10)을 획득하는 상황을 묘사한다.

도 6의 상황에서, 프로세서(130)는 음원(10)의 발생 위치는 정확히 파악하더라도, 파악된 위치를 토대로 촬상장치(110a 내지 110n)를 제어하여 화자를 촬상하는 경우, 촬상장치(110a 내지 110n)는 화자의 배면이나, 측면을 촬상할 우려가 있다.

촬상장치(110a 내지 110n)를 통해 촬상되는 촬상 영상의 중심부에 화자의 등이나 측면이 촬상된다면, 자동으로 화자를 추적하여 스태프의 수를 저감하고, 운용을 편리하게 구현하고자 하는 본 발명의 취지를 흐릴 우려가 있다. 이에 본 출원인은 화자가 생성하는 음원(10)을 이용하여 화자의 위치를 판단하는 위치 판단 알고리즘에 더하여, 촬상장치(110a 내지 110n)에 촬상되는 화자의 머리 영역의 영상을 함께 참조하여 화자의 지향성을 판단하고, 화자의 지향성을 고려하여, 화자의 안면부를 촬상 가능한 촬상장치(110a 내지 110n)를 주 촬상장치로 선정할 수 있다.

이를 위해, 프로세서(130)는 도 7에 도시된 바와 같은 영상처리를 통해 화자의 지향성을 판단한다.

도 7을 참조하면, 프로세서(130)가 집음기(120a 내지 120n)에서 집음된 음성신호의 시간 차를 통해 화자의 위치를 판단 후, 촬상장치(110a 내지 110n)를 이용하여 화자의 머리 영역을 촬상하고, 촬상된 머리 영역에 대한 이미지 프로세싱을 통해 화자의 지향성을 판단하며, 화자의 지향성을 참조하여, 화자의 안면부를 촬상 가능한 촬상장치(110a 내지 110n)를 주 촬상장치로 선정 후, 주 촬상장치에서 주 영상을 획득한다.

도 7의 (a)는 피부색과 머리 숱의 색이 차별되면서, 피부색이 표현되는 영역에 원형의 눈이 표현되는 영상을 지향성으로 판단하는 일 예를 나타내고,

도 7의 (b)는 머리 숱의 색이 피부색과 접하는 접선의 형태를 참조로, 화자의 지향성이 D3임을 판단하는 일 예를 나타내고,

도 7의 (c)는 머리 숱의 색과 피부색이 접하는 접선의 형태를 참조로 하여, 화자의 지향성이 D4임을 판단하는 일 예를 나타내며,

도 7의 (d)는 피부색과 머리 숱의 색이 차별되면서, 피부색이 표현되는 영역에 원형의 눈이 표현되지 않는 영상으로서, 화자의 배면을 판단하는 일 예를 나타낸다.

프로세서(130)는 촬상장치(110a 내지 110n)의 촬상 영상을 도 7의 (a), (b), (c) 및 (d)의 유형으로 구분하고, 구분된 촬상 영상 중, 도 7의 (a)에 해당하는 촬상 영상을 주 영상으로 선정할 수 있다. 물론, 프로세서(130)는 주 영상을 촬상하는 촬상장치(110a 내지 110n 중 어느 하나)가 이후 화자를 촬상하도록 주 촬상장치로 지정한다.

상기한 과정에 따라 프로세서(130)가 화자의 지향성을 판단하여 화자의 정면을 촬상할 때, 화자가 복수인 경우에는, 복수의 화자가 촬상 영상에서 모두 표현되도록 촬상장치(110a 내지 110n)에서 표현되도록 줌 제어를 수행할 필요가 있다. 이는 도 8을 함께 참조하여 설명하도록 한다.

도 8을 참조하면, 촬상장치(110a)가 주 촬상장치이고, 촬상장치(110a)에서 촬상된 촬상 영상에 화자(1, 2, 3)가 셋이 존재하는 경우, 세 명의 화자가 촬상 영상에서 모두 표현될 수 있도록 줌 제어가 요구된다.

프로세서(130)는 세 명의 화자(1, 2, 3) 모두가 촬상 영상에서 표시될 수 있도록 줌-아웃 제어를 수행할 수 있는데, 이때, 줌-아웃된 촬상 영상에서 화자들이 촬상 영상의 표시 영역 대비 차지하는 면적이 기준 면적 이하인 경우, 프로세서(130)는 촬상장치(110a)를 줌-인 제어하여 세 명의 화자(1, 2, 3)가 적정한 비율로 촬상 영상에서 표시되도록 할 수 있다. 여기서, 기준 면적은 화자(1, 2, 3)가 화면 내에 모두 배치되고, 화면 내에서 상하좌우 여백이 화자(1, 2, 3)를 제외하고 50%이상을 충족하는 면적을 의미할 수 있으며, 기준 면적이 촬상 영상에서 표시되는 표시 영역 대비 30% 내지 70%일 수 있다. 그러나 이 수치는 본 실시예에 따른 설명과 이해를 위해 제시된 것일 뿐, 그 수치는 필요에 따라 증감될 수 있음은 물론이다. 다만 한정하지는 않는다.

비디오 스위치(140)는 프로세서(130)에서 처리된 촬상 영상의 출력 경로를 모니터(150) 또는 비디오 레코더(160)로 설정할 수 있다. 비디오 스위치(140)에서 촬상 영상의 출력 경로가 모니터(150)인 경우, 촬상된 촬상 영상은 모니터(150)로 출력되어 재생되고, 출력 경로가 비디오 레코더(160)인 경우, 촬상 영상은 비디오 레코더(160)에 저장될 수 있다.

또한, 이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

110a 내지 110n : 촬상 장치 120a 내지 120n : 집음기
130 : 프로세서 131 : DSP
140 : 비디오 스위치 150 : 모니터
160 : 비디오 레코더

Claims

음성분석을 통해 화자를 추적하여 빌딩의 보안을 증강하는 시스템에 있어서,
빌딩의 공간 내에 설치되는 복수의 집음기; 및
i) 상기 공간 내에서 발생하는 음원이 상기 복수의 집음기에 도달하는 시간차를 참조로 하여, 음원의 위치를 판단하고,
ii) 촬상장치의 촬상 방향이 상기 음원의 위치를 향하도록 상기 촬상장치에 대해 자세 제어를 수행하는 제어부;를 포함하는 시스템.
제1항에 있어서,
상기 촬상장치는,
상기 공간을 복수로 구획한 각 촬상 영역마다 적어도 하나 배치되며,
상기 제어부는,
상기 음원을 향해 촬상 방향이 설정된 촬상장치를 주 촬상장치로 지정하고, 상기 주 촬상장치의 영상을 주 영상으로 지정하는 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 자세 제어는,
상기 촬상 장치에 대한 팬(PAN) 또는 틸트(TILT) 제어인 것을 특징으로 하는 시스템.
제2항에 있어서,
서로 다른 주파수 대역의 제1 음원과 제2 음원이 검출되는 경우,
상기 제어부는, 상기 제1 음원과 상기 제2 음원 각각에 대해 음원 위치를 파악하고,
상기 제1 음원과 상기 제2 음원의 위치가 함께 촬상될 수 있도록 상기 촬상장치에 대해 줌(Zoom) 제어를 수행하는 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 제어부는,
동일 주파수의 음원에 대해 상기 집음기에 도달하는 시간 차를 참조로 상기 음원의 위치를 판단하는 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 제어부는,
상기 복수의 집음기 사이의 거리를 음성도달에 소요되는 시간 값으로 변환 후, 상기 복수의 집음기에 도달하는 시간 값에 대해 삼각 측위법을 적용하여 상기 음원의 위치를 판단하는 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 프로세서는,
상기 촬상장치에 의해 촬상되는 영상에서 머리 색과 피부 색의 색대비를 통해 상기 화자의 안면부를 식별하는 것을 특징으로 하는 시스템.
제7항에 있어서,
상기 프로세서는,
상기 화자의 안면부 방향에 위치하는 촬상장치를 주 촬상장치로 지정하는 것을 특징으로 하는 시스템.
음성분석을 통해 화자를 추적하여 빌딩의 보안을 증강하는 방법에 있어서,
(a) 제어부는, 빌딩의 공간 내에 설치되는 복수의 집음기를 통해 음원이 상기 각 집음기에 도달하는 시간차를 참조로 하여 음원의 위치를 판단하는 단계; 및
(b) 제어부는, 촬상장치의 촬상 방향이 상기 음원의 위치를 향하도록 상기 촬상장치에 대해 자세 제어를 수행하는 단계;를 포함하는 방법.
제9항에 있어서,
상기 (a) 단계에서,
상기 제어부는, 상기 공간을 복수로 구획한 각 촬상 영역에 배치되는 촬상장치 중 상기 음원의 위치와 가장 가까운 촬상 영역에 대응하는 촬상장치의 영상을 주 영상으로 지정하는 것을 특징으로 하는 방법.
제10항에 있어서,
상기 (a) 단계에서,
서로 다른 주파수의 제1 음원과 제2 음원이 검출되는 경우,
제어부는, i) 상기 제1 음원과 상기 제2 음원 각각에 대해 음원 위치를 파악하고,
ii) 상기 제1 음원과 상기 제2 음원의 위치가 함께 촬상될 수 있도록 상기 촬상장치에 대해 줌(Zoom) 제어를 수행하는 것을 특징으로 하는 방법.
제9항에 있어서,
상기 (a) 단계에서,
상기 제어부는, 동일 주파수의 음원에 대해 상기 집음기에 도달하는 시간차를 참조로 하여 상기 음원의 위치를 판단하는 것을 특징으로 하는 방법.
제9항에 있어서,
상기 (a) 단계에서,
상기 제어부는,
상기 집음기 사이의 거리를 음성도달에 소요되는 시간 값으로 변환 후, 상기 복수의 집음기에 도달하는 시간 값에 대해 삼각 측위법을 적용하여 상기 음원의 위치를 판단하는 것을 특징으로 하는 방법.
제9항에 있어서,
상기 (b) 단계 이후 수행되며,
(c) 상기 프로세서는, 상기 촬상장치에 의해 촬상되는 영상에서 머리 색과 피부 색의 색대비를 통해 상기 화자의 안면부를 식별하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
제14항에 있어서,
상기 (c) 단계 이후 수행되며,
상기 프로세서는, 상기 화자의 안면부 방향에 위치하는 촬상장치를 주 촬상장치로 지정하는 단계;를 더 포함하는 것을 특징으로 하는 방법.
제9항에 있어서,
상기 자세 제어는,
팬(PAN) 또는 틸트(TILT) 제어인 것을 특징으로 하는 방법.