KR20160011490A

KR20160011490A - 멀티 채널 오디오 데이터의 시각화 장치 및 방법

Info

Publication number: KR20160011490A
Application number: KR1020140092663A
Authority: KR
Inventors: 조성봉
Original assignee: 한화테크윈 주식회사
Priority date: 2014-07-22
Filing date: 2014-07-22
Publication date: 2016-02-01
Also published as: WO2016013740A1

Abstract

본 발명은 종래의 다수의 네트워크 카메라로 운용되는 멀티 채널 영상 감시 시스템에 있어서, 각 채널에 대응되는 오디오 데이터를 식별하기 어려운 점을 개선시키기 위해, 오디오 데이터를 주파수 특성별로 분리하고, 기설정된 오디오패턴과 동일하거나, 유사한 오디오 데이터를 검출하여 그것을 텍스트로 변환한 후, 관련 비디오 정보와 함께 메타데이터로 저장하는 멀티 채널 오디오 데이터의 시각화 장치 및 방법을 제공함으로써, 멀티 채널 영상 감시 시스템에서 특정 채널의 오디오만을 선택적으로 청취해야 할 필요없이 각 채널의 특정 이벤트 발생을 명확히 감지할 수 있다.

Description

멀티 채널 오디오 데이터의 시각화 장치 및 방법{Visualizing apparatus and method of multi-channel audio data}

본 발명은 멀티 채널 오디오의 시각화 장치 및 방법에 관한 것으로, 구체적으로는 영상 감시 시스템에서 다수의 네트워크 카메라를 통해 입력된 오디오 데이터로부터 특정 단어 및 어구를 시각화하여 영상과 함께 출력시키기 위한 장치 및 방법에 관한 것이다.

종래의 영상 감시 시스템은, 이벤트가 발생하면 감시 시스템 관리자가 해당 채널의 오디오를 선택하여 출력하도록 하고, 마이크 입력을 통해 카메라에 설치되어 있는 스피커로 소리를 전달하는 양방향 오디오 동작이 주를 이루는 방식으로, 오디오 데이터는 영상 감시 시스템에서 부가적인 기능으로 활용되어왔다.

감시 시스템 관리자는 멀티 채널의 영상을 감시하는 중 특정 이벤트가 발생한 경우, 단일 또는 멀티 채널의 오디오를 선택적으로 청취할 수 있었다. 그러나, 다중 채널 영상 감시 시스템에서 중앙 시스템 모니터에 표시되는 채널의 수는 보통 4개에서 많게는 128개가 되므로, 일시적으로 여러 채널의 영상을 감시하는 것은 가능하지만 여러 채널의 오디오를 출력하도록 하는 경우 1) 어떤 채널의 영상과 연결되어 발생된 소리인지 구분하기 어렵고(영상과 대응되는 소리의 매칭이 난해함), 2) 여러 채널의 소리가 섞이기 때문에 어떤 소리인지 명확히 구분하기 어려운 문제가 있었다.(소리의 의미를 파악할 수 있도록 식별하기 어려움) 3) 소리에 대해서는 파형이나 피치를 시각화하여 보여 주기 때문에 시각화에 한계가 있었다.(직관적인 이해가 가능한 시각화가 요구됨)

미국등록특허 제6011854호

본 발명이 이루고자 하는 기술적 과제는, 종래의 다수의 네트워크 카메라로 운용되는 멀티 채널 영상 감시 시스템에서, 각 채널에 대응되는 오디오 데이터를 식별하기 어려운 점을 개선시킬 수 있는 멀티 채널 오디오 데이터의 시각화 장치 및 방법을 제공하는 데에 있다.

상기 기술적 과제를 해결하기 위한 본 발명의 제 1실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치는 네트워크 카메라로부터 비디오 데이터와 오디오 데이터를 수신하여, 상기 오디오 데이터를 주파수 특성별로 분리하는 데이터 분리부;주파수 특성별로 분리된 오디오 데이터로부터 기설정된 오디오패턴과 동일하거나, 유사한 오디오 데이터를 검출하는 패턴 검출부; 검출된 오디오 데이터를 상기 기설정된 오디오패턴과 대응되는 텍스트로 변환하는 변환 처리부; 텍스트로 변환된 오디오 데이터를, 상기 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간정보 및 채널정보와 함께 메타데이터로 저장하는 메타데이터(Metadata) 저장부; 를 포함한다.

상기 기술적 과제를 해결하기 위한 본 발명의 제 2실시 예에 따른 멀티 채널 오디오 데이터의 시각화 방법은 네트워크 카메라로부터 비디오 데이터와 오디오 데이터를 수신하여, 상기 오디오 데이터를 주파수 특성별로 분리하는 데이터 분리 단계; 주파수 특성별로 분리된 오디오 데이터로부터 기설정된 오디오패턴과 동일하거나, 유사한 오디오 데이터를 검출하는 패턴 검출 단계; 검출된 오디오 데이터를 상기 기설정된 오디오패턴과 대응되는 텍스트로 변환하는 변환 처리 단계; 텍스트로 변환된 오디오 데이터를, 상기 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간정보 및 채널정보와 함께 메타데이터로 저장하는 메타데이터(Meta data) 저장단계; 를 포함한다.

본 발명에 따른 멀티 채널 오디오 데이터의 시각화 장치 및 방법에 의하면, 종래의 영상 감시 시스템에서 부가적인 기능으로만 활용되던 오디오 데이터를, 특정 음성뿐만 아니라 음향에 대해서도 시각화하여 표현함으로써, 멀티 채널 영상 감시 시스템에서 특정 채널의 오디오만을 선택적으로 청취해야 할 필요없이 각 채널의 특정 이벤트 발생을 명확히 감지할 수 있다.

또한, 오디오 데이터의 특성 분석을 통해, 특정 음성 또는 음향을 발생시킨 주체를 구분하고, 그 주체의 정보를 유추함으로써, 감시 시스템 관리자가 별도로 영상 분석을 하지 않더라도 영상 감시의 목적을 일정 수준 이상 달성할 수 있다. 오디오 데이터의 정밀 분석이 수반됨에 따라, 다중 채널 영상 감시 시스템에서 네트워크 카메라의 사각지대에서 특정 소리만 발생한 경우에도 이를 시각화하여 보여주는 방식으로 종래의 영상 감시 시스템보다 더 높은 성능의 감시 시스템을 운용하는 데에 도움을 줄 수 있다.

도 1은 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치를 개략적으로 나타낸 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 방법을 개략적으로 나타낸 순서도이다.
도 3은 본 발명에 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치를 네트워크 카메라에 구현한 것을 개략적으로 나타낸다.
도 4는 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치 및 방법에 따라, 감시 시스템 관리자에게 보여지는 4개 채널 영상 감시 시스템의 모니터를 개략적으로 나타낸 것이다.
도 5a는 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치(오디오 텍스트 변환부)가 네트워크 카메라에 구현된 경우, 그것에 대응하여 NVR, DVR, 또는 CMS 장치(이하, 중앙 시스템)내에 필요한 각 구성을 도식적으로 나타낸 블록도이다.
도 5b는 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치 또는 방법이 중앙 시스템에 구현되는 경우, 각 구성의 관계를 도식적으로 나타낸 블록도이다.
도 6은 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치를 내부 구성까지 상세하게 나타내는 블록도이다.
도 7은 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치 또는 방법으로 동작하는 9채널 영상 감시 시스템의 모니터를 나타낸다.

이하 본 발명의 바람직한 실시 예가 첨부된 도면들을 참조하여 설명될 것이다. 도면들 중 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 참조번호들 및 부호들로 나타내고 있음에 유의해야 한다.

본 발명을 설명함에 있어서 관련된 공지 기능 혹은 구성에 대해 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략하거나 간략하게 설명하는 것으로 한다.

한편, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

후술하는 '이벤트 단어'는 본 발명에 따라 구현된 오디오 텍스트 변환부에 사전 정의된 단어로서, 해당 단어가 네트워크 카메라에 감지되면 그와 원격으로 연결된 영상 감시 시스템의 모니터에 그에 따른 자막형태로 나타난다.

후술하는 단어 중 '멀티 채널 오디오 데이터의 시각화 장치'는 네트워크 카메라나 중앙 시스템에서 구현될 경우, 명세서와 도면의 간명화를 위해 '오디오 텍스트 변환부'로 간략하게 기재할 수 있다.

도 1은 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치를 개략적으로 나타낸 블록도이다.

본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치는 데이터 분리부(110), 패턴 검출부(130), 변환 처리부(150), 메타데이터 저장부(170)을 포함한다.

데이터 분리부(110)는 비디오 데이터와 오디오 데이터를 수신하고, 수신한 오디오 데이터를 주파수 특성별로 분리한다.

패턴 검출부(130)는 주파수 특성별로 분리된 오디오 데이터로부터 기설정된 오디오패턴과 동일하거나, 유사한 오디오 데이터를 검출한다.

변환 처리부(150)는 검출된 오디오 데이터를 기설정된 오디오패턴과 대응되는 텍스트로 변환한다. 변환된 텍스트는 검출된 오디오 데이터를, 사람 귀를 통해 들리는 대로 문자화하는 것뿐만 아니라 부가적인 정보도 포함시킬 수 있으며, 이는 도 6을 통해 상세히 후술한다.

메타데이터(Metadata)저장부(170)는 각 채널별로 비디오 데이터를 비디오 구간에 대응되는 텍스트와 함께 출력하기 위해, 텍스트로 변환된 오디오 데이터를, 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간정보 및 채널정보와 함께 메타데이터로 저장한다. 오디오 데이터에 포함된 이벤트 단어의 양에 따라 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간정보는 텍스트로 변환된 오디오 데이터에 대응되는 비디오 구간정보로 대체될 수 있으며, 이에 대한 설명은 도 6과 함께 후술한다.

도 2는 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 방법을 개략적으로 나타낸 순서도이다.

데이터 분리부는 비디오 데이터와 오디오 데이터를 수신하고, 수신한 오디오 데이터를 주파수 특성별로 분리한다.(S210)

패턴 검출부는 주파수 특성별로 분리된 오디오 데이터로부터 기설정된 오디오패턴과 동일하거나, 유사한 오디오 데이터를 검출한다.(S230)

변환 처리부는 검출된 오디오 데이터를 기설정된 오디오패턴과 대응되는 텍스트로 변환한다.(S250) 변환된 텍스트는 검출된 오디오 데이터를, 사람 귀를 통해 들리는 대로 문자화하는 것뿐만 아니라 부가적인 정보도 포함시킬 수 있으며, 이는 도 6을 통해 후술한다.

메타데이터(Metadata)저장부는 각 채널별로 비디오 데이터를 비디오 구간에 대응되는 텍스트와 함께 출력하기 위해, 텍스트로 변환된 오디오 데이터를, 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간정보 및 채널정보와 함께 메타데이터로 저장한다.(S270) 오디오 데이터에 포함된 이벤트 단어의 양에 따라 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간정보는 텍스트로 변환된 오디오 데이터에 대응되는 비디오 구간정보로 대체될 수 있으며, 이에 대한 설명은 도 6과 함께 후술한다.

도 3은 본 발명에 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치를 네트워크 카메라에 구현한 것을 개략적으로 나타낸다.

본 발명에 일 실시 예에 따른 영상 감시 시스템에서의 네트워크 카메라(300)는 이미지 센서(310), 비디오 인코더(320), 네트워크 인터페이스(330), 오디오 센서 & 마이크로폰(340), 오디오 인코더(350), 오디오 설정부(360), 멀티 채널 오디오 데이터의 시각화 장치(370) 및 오디오/텍스트 데이터베이스(380)를 포함한다.

이미지 센서(310)는 네트워크 카메라의 렌즈를 통해서 입력받은 빛을 영상 신호로 변환하며, 비디오 인코더(320)는 이미지 센서(310)가 변환시킨 영상 신호를 압축한다.

네트워크 인터페이스(330)는 네트워크 카메라(300)의 비디오 인코더(320) 및 오디오 인코더(350)가 출력하는 압축된 비디오 데이터나 압축된 오디오 데이터를, NVR(Network Video Recorder)나 CMS(Central Monitoring System)과 같은 중앙 시스템 장치로 전송한다.

오디오 센서 & 마이크로폰(340)은 네트워크 카메라를 통해 입력되는 소리를 취득하여 오디오 데이터로 변환하고 이를 오디오 인코더 및 오디오 텍스트 변환부에 전달한다. 이때, 오디오 데이터에 대응되는 비디오 구간정보도 함께 전달된다.

오디오 인코더(350)는 변환된 오디오 데이터를 네트워크 인터페이스(330)가 전송하기 용이하도록 G.711, G.726 과 같은 음성 코덱으로 압축한다.

오디오 설정부(360)는 오디오 데이터로부터 검출하려는 국가의 언어, 검출하려는 이벤트 어휘, 오디오의 특성 등을 분석할 정보를 저장한다. 또, 검출된 국가의 언어를 다른 나라의 언어로 변경하려는 경우 변경할 대상이 되는 언어를 설정한다. 이벤트 검출 언어로는 폭탄, 위협, 테러 등의 단어를 사용할 수 있다. 설정된 이벤트 단어에 유사한 단어를 검출하게 되면 이벤트를 발생하도록 하거나 알람을 발생하도록 설정할 수 있다. 오디오 설정부(360)는 후술하는 오디오 텍스트 변환부(370)내에 위치하도록 할 수도 있다.

변환을 위해서 다시 압축을 해제하는 것(디코딩)은 비효율적이므로, 오디오 인코더(350)에 전달되는 압축되지 않은 오디오 데이터는 동시에 오디오 텍스트 변환부(370)에도 전달된다.

오디오 텍스트 변환부(370)는, 본 발명에 따른 멀티 채널 오디오 데이터의 시각화 장치가 네트워크 카메라(300)내부에 구현된 것으로서, 오디오 설정부(360)의 정보를 활용하여 입력되는 오디오 데이터를 분석하여 주파수특성별로 분리한 후 문장 또는 단어로 텍스트 변환을 수행한다. 이때 텍스트로 변환된 오디오 데이터와 오디오 데이터에 대응되는 비디오 구간정보 및 네트워크 카메라의 채널정보는 비디오의 메타데이터(Metadata)로 저장된다.

오디오/텍스트 데이터베이스(380)는 네트워크 카메라(300)의 내부 또는 외부에 위치할 수 있고, 문장 또는 단어가 변경되면 네트워크 인터페이스(330)를 통해 영상 감시 시스템 관리자로부터 입력받음으로써, 데이터를 갱신한다.

도 4는 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치 및 방법에 따라, 감시 시스템 관리자에게 보여지는 4개 채널 영상 감시 시스템의 모니터를 개략적으로 나타낸 것이다.

채널-01의 네트워크 카메라에 사전 정의된 '폭탄'이라는 단어가 감지됨에 따라 이 단어가 채널-01의 모니터에 자막으로 표시된다.

채널-02의 네트워크 카메라에 사전 정의된 '마약'라는 단어가 감지됨에 따라 이 단어가 채널-02의 모니터에 자막으로 표시된다.

채널-03의 네트워크 카메라에 사전 정의된 '접선장소'라는 단어가 감지됨에 따라 이 단어가 채널-03의 모니터에 자막으로 표시된다.

채널-04의 네트워크 카메라에 사전 정의된 'Money'라는 단어가 감지됨에 따라 채널-04의 모니터에 'Money'가 해당 단어의 번역과 함께 자막으로 표시된다.

각 채널에 특정 단어가 자막으로 표시됨에 따라, 감시 시스템 관리자는 모든 채널의 오디오를 출력하거나 심지어 모든 채널의 오디오 전원을 끄더라도, 출력되는 단어나 문장을 통해서 어떤 채널에서 발생하는 소리인지 구분할 수 있다.

도 5a는 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치(오디오 텍스트 변환부) 또는 방법이 네트워크 카메라에 구현된 경우, 그것에 대응하여 NVR, DVR, 또는 CMS 장치(이하, 중앙 시스템)내에 필요한 각 구성을 도식적으로 나타낸 블록도이다.

중앙 시스템(500)은 비디오 데이터 수신부(505), 비디오 디코더(510), 저장장치(515), 오디오 텍스트 데이터 수신부(520), 오디오 데이터 수신부(525), 오디오 디코더(530), 비디오 멀티 플렉서(535), 비디오 출력부(540), 및 오디오 출력부(545)를 포함하고, 다수의 네트워크 카메라와 연결되어 그로부터 압축된 비디오 데이터와 오디오 데이터를 수신한다.

비디오 데이터 수신부(505)는 네트워크 카메라로부터 압축된 비디오 데이터를 수신하여 비디오 디코더(510) 및 저장장치(515)로 전달한다.

비디오 디코더(510)는 수신한 압축된 비디오 데이터를 압축해제(디코딩)하고, 비디오 멀티플렉서(335)로 전달한다.

저장장치(515)는 비디오 데이터 수신부(505), 오디오 텍스트 데이터 수신부(520), 및 오디오 데이터 수신부(525)로부터 각각 압축된 비디오 데이터, 오디오 텍스트 데이터, 압축된 오디오 데이터를 받아 저장한다. 저장장치(515)는 데이터를 저장할 뿐만 아니라, 필요에 따라 각 구성에 저장된 데이터를 전달하는 역할도 한다.

오디오 텍스트 데이터 수신부(520)는 네트워크 카메라로부터 텍스트로 변환된 오디오 데이터, 오디오 데이터에 대응되는 비디오 구간정보, 및 네트워크 카메라의 채널정보를 수신하여 저장장치(515)에 전달한다. 도 1에서 텍스트로 변환된 오디오 데이터, 오디오 데이터에 대응되는 비디오 구간정보, 및 네트워크 카메라의 채널정보를 비디오의 메타데이터(Metadata)로 설명한 바 있다. 원격 전송을 용이하게 하기 위해 오디오 텍스트 데이터 수신부(520)는 네트워크 카메라로부터 압축된 텍스트 데이터를 받을 수 있고, 그 압축된 데이터를 해제하는 구성도 포함할 수 있다.

오디오 데이터 수신부(525)는 네트워크 카메라로부터 압축된 오디오 데이터를 수신하여 오디오 디코더(530) 및 저장장치(515)로 전달한다.

오디오 디코더(530)는 수신한 압축된 오디오 데이터를 압축해제(디코딩)하고, 오디오 출력부(545)로 전달한다.

비디오 멀티플렉서(335)는 비디오 디코더(510)로부터 압축해제된 비디오 데이터를 수신하여, 중앙 시스템 모니터에 출력하기 위한 채널 레이아웃(Channel Layout)을 구성하고, 오디오 텍스트 데이터 수신부(520)로부터 오디오 텍스트 데이터를 받아 해당 채널 레이아웃에 맵핑시킨다.

예를 들어, 수신되는 네트워크 카메라에 따라 16채널을 구성해야 한다면, 채널 레이아웃은 모니터의 화면을 균등하게 16등분한 구성을 가지고, 아라비아 숫자의 순서대로 채널 번호를 대응시킬 수 있다. 또한, 감시 시스템 관리자가 특정 채널 하나를 주의깊게 보기 위해 하나의 채널을 위해 모니터의 넓은 공간을 할당하고, 나머지 15개 채널의 화면은 균등하게 나누는 구성을 취할 수 있다.

비디오 출력부(540)는 비디오 멀티플렉서로부터 채널 레이아웃과 맵핑된 오디오 텍스트 데이터 및 압축해제된 비디오 데이터를 받아 중앙 시스템 모니터에 출력한다.

오디오 출력부(545)는 오디오 디코더(530)로부터 압축해제된 오디오 데이터를 수신하여 중앙 시스템의 스피커를 통해 출력시킨다.

도 5b는 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치 또는 방법이 중앙 시스템에 구현되는 경우, 각 구성의 관계를 도식적으로 나타낸 블록도이다. 명세서의 간명화를 위해 도 5a와 중복되는 구성에 대한 설명은 생략한다.

오디오 디코더(530)는 오디오 데이터 수신부(525)로부터 압축된 오디오 데이터를 수신하여 압축해제(디코딩)하고, 이 압축해제된 오디오 데이터를 오디오 출력부(345) 및 오디오 텍스트 변환부(550)에 전달한다.

오디오 텍스트 변환부(550)는, 본 발명에 따른 멀티 채널 오디오 데이터의 시각화 장치가 중앙 시스템(500)내부에 구현된 것으로서, 오디오 디코더(530)으로부터 수신한 오디오 데이터를 분석하여 주파수 특성별로 분리한 후 문장 또는 단어로 텍스트 변환을 수행한다. 이때 텍스트로 변환된 오디오 데이터와 오디오 데이터에 대응되는 비디오 구간정보 및 네트워크 카메라의 채널정보는 비디오의 메타데이터(Metadata)로 저장된다.

오디오 텍스트 변환부(550)는, 오디오 설정부(360)(도 1 참고)의 구성을 포함하며, 도 5b의 저장장치(515)는 오디오/텍스트 데이터베이스(380)(도 3참고)를 포함할 수 있다.

본 발명에 따른 멀티 채널 오디오 데이터의 시각화 장치(오디오 텍스트 변환부)가 네트워크 카메라에 구현된 경우(도 3 참고) 네트워크 카메라의 개수대로 구성이 필요한 단점이 있는 반면, 중앙 시스템의 중앙 처리 장치(이하, CPU)에 과도한 부하를 주지 않는다는 장점이 있다.

반변, 본 발명에 따른 멀티 채널 오디오 데이터의 시각화 장치(오디오 텍스트 변환부)가 중앙 시스템 내부의 구성에 포함된 경우(도 5b 참고)에는, 중앙 시스템의 CPU의 부하를 늘리는 단점이 있으나, 각 네트워크 카메라에 오디오 텍스트 변환부를 구비할 필요가 없는 장점이 있다. 추가적으로 도 5b와 같이 시스템을 구현하는 경우 중앙 시스템의 더 뛰어난 연산 처리 능력과 오디오 텍스트 변환부의 일괄 관리 측면에서 발생하는 이점을 기대할 수 있다.

도 6은 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치를 내부 구성까지 상세하게 나타내는 블록도이다.

도 6에 도시된 멀티 채널 오디오 데이터의 시각화 장치는 데이터 분리부(610), 패턴 검출부(630), 변환 처리부(650), 메타데이터 저장부(670)을 포함하며, 오디오 설정부(699)를 선택적으로 포함할 수 있다.

데이터 분리부(610)는 음성/음향 수신부(613)과 음성/음향 전처리부(616)을 포함하며 비디오 데이터와 오디오 데이터를 수신하여, 상기 오디오 데이터를 주파수 특성별로 분리한다.

음성/음향 수신부(613)는 오디오 센서, 오디오 디코더로부터 압축(인코딩)되지 않은 오디오 데이터를 수신한다.

음성/음향 전처리부(616)는 수신한 오디오 데이터를 텍스트로 변환하기 위해서 주파수의 특성을 기초로 분리한다. 음성/음향 전처리부(616)에서 주파수 특성에 따라 오디오 데이터를 분리함에 따라, 음성(음향)을 낸 주체별로 데이터 분리가 가능하여, 한 오디오 데이터에서 얻을 수 있는 데이터량은 음성(음향)을 낸 주체의 수만큼 늘어난다.

예를 들어, 네트워크 카메라가 동시에 누군가에게 말을 하고 있는 성인남성, 성인여성, 어린이가 포함된 영상에 대한 데이터를 수신했다면, 음성 전처리부(1704)는 성인남성의 음성, 성인여성의 음성, 어린이의 음성을 분리하여 텍스트 변환 대상으로 설정한다. 수신된 오디오 데이터는 고주파수, 중주파수, 저주파수 특성에 기반하여 분리가 되므로, 남성과 여성, 높은 소리와 낮은 소리로 분리되고, 음향의 경우도 음성과 마찬가지로 주체별로 분리되어 데이터로 저장된다.(개가 짖는 소리, 내용을 포함하고 있지 않으나 중요한 정보를 담은 비명소리)

음성/음향 전처리부(616)는 음성/음향 데이터가 전처리되는 과정에서 오디오 설정부(699)로부터 오디오의 특성을 판단할 수 있는 각종 정보를 제공받을 수 있으며, 이는 도 3에서 이미 설명한 바 있다.

패턴 검출부(630)는 주파수 특성별로 분리된 오디오 데이터로부터 기설정된 오디오패턴과 동일하거나, 유사한 오디오 데이터를 검출하며, 특징 벡터 분석부(633)와 패턴 인식부(636)을 포함한다.

특징 벡터 분석부(633)는 분리된 음성/음향 데이터의 특징점을 추출하여 이를 특징 벡터로 표현하고, 소리의 음색이나 패턴을 분석할 수 있는 데이터로 처리한다. 구체적으로는, 음성 데이터로부터 특정한 의미를 갖는 단어, 음절, 문장을 추출하기 위한 전(前) 단계로서, 음성 데이터를 특징 벡터로 처리하고, 각 데이터에 알맞게 처리하기 위한 필터를 결정한다.

예를 들어, 분리된 여성의 음성 데이터의 특징 벡터를 이용하여, 그 여성의 음성의 높낮이, 발음, 발언속도를 1차적으로 분석 후 그로부터, 발언 주체의 연령과 같은 부가적인 정보를 2차적으로 분석하여 최종적으로 음성 데이터에 적용할 필터, 처리방법을 결정하는 방식이다. 음향 데이터도 음성 데이터와 동일한 과정을 통해 분석된다.

패턴 인식부(636)는, 특징 벡터 분석부(633)로부터 특징 벡터와 그것으로부터 패턴을 산출해낼 수 있는 필터정보를 수신하고, 음향 모델링을 통해 어떤 패턴의 소리인지 판단한다.

패턴 인식부(636)는 기준패턴을 저장하고 있다가, 음향 모델링이 끝난 음성/음향 데이터로부터 패턴을 판단한다. 패턴 판단의 순서는 처리해야하는 연산량이 적은 음향 데이터가 음절 데이터보다 우선하며, 패턴 인식부(636)에 저장된 기준패턴에는 특정 음성/음향에 대한 것뿐만 아니라, 공장내부의 설비 이상을 판단할 수 있도록 소리의 단절에 대한 패턴도 포함될 수 있다.

이 기준패턴에 따르면 최종적으로는, 계속 특정 주파수 대역대의 소리가 나야 하는 공장내부의 특정 설비가 평소와 다른 소리를 낼 때는 물론, 소리가 단절된 경우에도 감시 시스템 관리자의 모니터에 "설비 이상 발생!!" 등의 자막을 나타내게 할 수 있다. 그 외에도 패턴 인식부(636)에 저장된 음향의 기준패턴에는 총소리, 비명소리, 알람소리, 유리창 깨지는 소리 등이 있을 수 있다.

패턴 인식부(636)가 음성 데이터의 특징 벡터로부터 만들어내는 음성 데이터의 패턴은, 음성을 낸 주체의 연령, 성별, 발언속도, 목소리의 높낮이와 같은 정보도 포함된 기준 패턴에 의한다.

변환 처리부(650)는 패턴 인식부(636)로부터 음성/음향 데이터의 패턴을 수신하여 텍스트로 변환 처리하며 언어모델부(653)와 언어사전부(656)을 포함한다. 음성 데이터뿐만 아니라, 음향 데이터도 패턴 인식부(636)에서 이벤트와 관련된 정보라고 인식된 음향이라면 사전 정의된 텍스트로 변환될 수 있다.

언어모델부(653)는 음성 데이터를 수신하여 어느 국가의 언어인지 1차적으로 판별하여 언어의 종류를 특정 후, 수신한 음성 데이터와 특정된 언어에 대한 정보를 언어사전부(656)에 전달한다.

언어사전부(656)은 언어모델부(653)로부터 언어의 종류를 특정한 정보를 전달받아, 변환 처리부(650)가 음성 데이터를 텍스트로 변환하는 데에 필요한 정보를 제공한다.

이 과정에서 패턴 인식부(636)가 전달한 정보에 의해서, 변환되는 텍스트는 의미를 가진 단어나 문장외에 발언 주체의 성별, 목소리의 높낮이, 연령 등에 대한 정보를 포함할 수 있다. 예를 들어, 음성 데이터로부터 패턴 인식부(636)가, 아일랜드 출신의 20대 여성이 도움을 요청하는 음성이라는 것을 인식했다면, 최종적으로 감시 시스템의 모니터에 출력되는 자막은 "Help me(20대 아일랜드 여성)" 이 된다. 이 기능은 감시 시스템의 모니터에 다수의 인물이 비춰지는 경우, 음성을 발생시킨 주체를 빠르게 특정하는 데에 도움을 줄 수 있다.

언어사전부(656)는 언어모델부(653)로부터 음성 데이터에 어느 국가의 언어가 포함되어 있는지 그 정보를 전달받고, 그 언어가 사용되는 지역을 판단한다.

언어사전부(656)에 기록된 특정 지역의 방언이나, 특정 국가에서만 쓰이는 은어, 속어에 대응하는 음성 데이터가 인식되었다면, 영상 감시 시스템의 모니터에 출력되는 자막에 그 지역이나, 국가에 대한 정보가 같이 출력될 수 있다.

또한, 같은 의미를 가지고 있음에도 유사하게 바뀌어서 쓰이는 단어까지 언어사전부(656)에 기록해둠에 따라, 이벤트 단어와 동일할 뿐만 아니라, 유사한 단어에 대해서도 위험한 단어로 간주하여 경고 시스템을 발동시킬 수 있다. 음성의 패턴을 인식하는 방법은 고립단어식으로 단어 하나하나를 구분하여 인식할 수도 있고, 연속적인 음성 인식으로 문장 단위 인식을 적용할 수도 있으며, 핵심어(키워드)를 검출하는 방식을 적용할 수도 있다.

이 과정에서 오디오 설정부(699)는 변환 처리부가 변환 처리한 텍스트의 우선 순위를 매겨서 영상과 함께 자막형태로 표시될 때, 특별한 시각적 또는 청각적 효과가 나타나도록 할 수 있다.

예를 들어, 도 2를 참조하면, 채널-01에서 '폭탄'이라는 단어가 가장 위험도가 높으므로, 오디오 설정부(360)내에서 높은 우선 순위가 매겨져서, 다른 3개의 채널에 일반적으로 표시되는 자막과는 다르게, '폭탄'단어가 다른 색깔의 자막으로 표시되거나, 바로 영상 감시 시스템에 연결된 경보 시스템을 발동시킬 수 있다. 이후 채널-01뿐만 아니라 채널-02 내지 채널-04에서 '폭탄'이라는 단어가 재차 감지된 경우에도, 동일한 시각적 또는 청각적 효과가 발생한다.

도 5b에서 상술했듯이 오디오 설정부(699)는 멀티 채널 오디오 데이터의 시각화 장치에 선택적으로 포함될 수 있다.

메타데이터(Metadata)저장부(670)는 텍스트로 변환된 오디오 데이터를 저장한다. 이때 저장되는 데이터는 텍스트로 변환된 오디오 데이터뿐만 아니라, 음성/음향 전처리부(616)에서 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간정보 및 채널정보도 비디오의 메타데이터(Metadata)로서 저장된다. 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간정보는, 텍스트로 변환된 오디오 데이터에 대응되는 비디오 구간정보로 대체될 수 있다.

예를 들어, 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간이 12시에서 12시 20분이고, 텍스트로 변환된 오디오 데이터에 대응되는 비디오 구간(이벤트 단어가 감지된 구간)이 12시 5분에서 12시 6분이라면, 영상 감시 시스템에 표시될 자막을 위한 비디오 구간정보는 12시 5분에서 12시 6분에 대한 것이면 충분하다. 다만, 오디오 데이터 특성상 내용 파악을 위해 이벤트 단어가 포함된 음성/음향 데이터의 발생 시간을 정확히 알기 위해서는 여전히 12시에서 12시 20분에 대한 비디오 구간정보가 필요하므로, 두 비디오 구간정보에 대한 것은 감시 시스템 관리자에 의해 조정될 수 있는 부분이라 할 것이다.

도 7은 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치 또는 방법으로 동작하는 9채널 영상 감시 시스템의 모니터를 나타낸다.

9개의 채널 중 채널-02, 채널-05, 채널-06, 채널-08의 네트워크 카메라에는 이벤트 단어가 입력되지 않아서, 해당 채널의 모니터에는 아무런 자막이 표시되지 않는다.

채널-01의 네트워크 카메라에는 유리창 깨지는 소리가 음향 데이터로 입력되고, 오디오 텍스트 변환부는 그 소리를 인지하고 그에 따른 사전 정의된 자막인 '쨍그랑!!(유리창 깨짐)'을 중앙 시스템의 채널-01의 모니터(605)에 출력하도록 한다.

채널-03의 네트워크 카메라에는 여성의 비명소리가 음향 데이터로 입력되고, 오디오 텍스트 변환부는 그 소리를 인지하고 그에 따른 사전 정의된 자막인 '비명소리!!(40대 여성)'을 중앙 시스템의 채널-03의 모니터(610)에 출력하도록 한다.

비명을 지른 여성의 모습이 채널-03의 네트워크 카메라의 사각 지대에 있더라도, 음향만으로 중앙 시스템의 감시 시스템 관리자에게 위험을 알릴 수 있고, 오디오 텍스트 변환부에 포함된 특징 벡터 분석부와 패턴 인식부에 따라 비명을 지른 여성이 40대 여성이라는 정보를 얻어낼 수 있다.

채널-04의 네트워크 카메라에는 여러 사람의 목소리가 음성 데이터로 입력되고, 해당 채널의 모니터에 사전 정의된 자막인 '"폭발물"(중국 20대 남성, 산둥지방)'과 '"테러"(중국 30대 여성, 난징지방)'이 채널-04의 모니터(615)에 출력된다.

오디오 텍스트 변환부내 음성 전처리부는 여러 사람의 목소리로부터 각 음성을 발생 주체별로 분리하고, 특징 벡터 분석과 패턴 인식을 통해 주체의 연령과 성별을 특정하고, 변환 처리부의 언어모델부와 언어사전부를 통해 이벤트 단어를 인식하고 그 이벤트 단어를 말한 주체가 중국인이라는 것을 특정한다. 추가적으로 음성 전처리 과정에서 입력되는 오디오의 볼륨 정보를 추출하여 화면에 출력함으로써, 감시 시스템 관리자가 이벤트 단어를 포함한 특정 오디오 구간을 볼륨을 조절해가며 들을 수 있는 기능도 포함할 수 있다.

채널-07의 네트워크 카메라에 특정 주파수대의 동작음으로 동작하는 설비의 이상 동작음 또는 동작음 단절이 감지된 경우, 채널-07의 모니터(620)에는 사전 정의된 자막인 '설비 이상 발생!!'이 표시된다. 설비의 이상 동작음 뿐만 아니라, 동작음 단절도 기준패턴으로 정의하여 설비 이상에 대해 빠른 조치가 가능하다.

채널-09의 네트워크 카메라에 무단으로 주차하는 차에 의해 발동한 경보 시스템의 경보 소리가 음향 데이터로 입력된다면, 채널-09의 모니터(625)에 자막형태로 '무단 주차 발생!!'이 표시된다.

채널-09의 네트워크 카메라과 중앙 시스템은 양방향 오디오로 스피커가 설치되어 있고, 감시 시스템 관리자가 "서울22아1234 차 빼시오"라고 말하는 경우, 스피커로 무단 주차자에게 그 소리가 전달됨과 동시에 중앙 시스템내 오디오 텍스트 변환부는 감시 시스템 관리자의 언어를 인식하여 텍스트로 저장하는, STT(Speech To Text) 기능을 포함할 수 있다.

이때 저장된 감시 시스템 관리자의 언어를 변환한 텍스트는, 영상 검색을 통하지 않고 단순한 텍스트 검색을 통해서 무단 주차가 발생한 시간과 차 번호에 대해서 알 수 있게 해준다.

채널-04의 이벤트 단어가 가장 위험도가 높다고 판단됨에 따라, 채널-04의 모니터(615)가 가장 크게 표시되었으며(중앙 시스템의 비디오 멀티플렉서(335)의 기능, 도 3 참조), 이는 각 채널의 모니터의 크기는 감시 시스템 관리자가 수동으로 변경할 수 있다.

본 발명에 따른 멀티 채널 오디오 데이터의 시각화 장치 및 방법에 의하면, 종래의 영상 감시 시스템에서 부가적인 기능으로만 활용되던 오디오 데이터를, 특정 음성뿐만 아니라 음향에 대해서도 시각화하여 표현함으로써, 멀티 채널 영상 감시 시스템에서 특정 채널의 오디오만을 선택적으로 청취해야 할 필요없이 각 채널의 특정 이벤트 발생에 대해서 명확히 감지할 수 있다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

본 발명은 상술한 실시형태 및 첨부된 도면에 의해 한정되지 아니하고, 첨부된 청구범위에 의해 권리범위를 한정하고자 하며, 청구범위에 기재된 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양한 형태의 치환, 변형 및 변경할 수 있다는 것은 당 기술분야의 통상의 지식을 가진 자에게 자명할 것이다.

110 : 데이터 분리부 705 : 채널-01의 모니터
130 : 패턴 검출부 710 : 채널-03의 모니터
150 : 변환 처리부 715 : 채널-04의 모니터
170 : 메타데이터 저장부 720 : 채널-07의 모니터
300 : 네트워크 카메라 725 : 채널-09의 모니터

Claims

비디오 데이터와 오디오 데이터를 수신하여, 상기 오디오 데이터를 주파수 특성별로 분리하는 데이터 분리부;
주파수 특성별로 분리된 오디오 데이터로부터 기설정된 오디오패턴과 동일하거나, 유사한 오디오 데이터를 검출하는 패턴 검출부;
검출된 오디오 데이터를 상기 기설정된 오디오패턴과 대응되는 텍스트로 변환하는 변환 처리부; 및
각 채널별로 상기 비디오 데이터를 텍스트와 함께 출력하기 위해, 텍스트로 변환된 오디오 데이터, 상기 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간정보, 및 채널정보를 메타데이터로 저장하는 메타데이터(Metadata) 저장부;를 포함하는 멀티 채널 오디오 데이터의 시각화 장치.
제 1 항에 있어서, 상기 변환 처리부는,
상기 검출된 오디오 데이터 중 음성에 포함된 언어의 종류와 특성을 판단하고, 상기 음성을 발생시킨 주체의 출신지역정보를 포함하여 텍스트로 변환하는 것을 특징으로 하는 멀티 채널 오디오 데이터의 시각화 장치.
비디오 데이터와 오디오 데이터를 수신하여, 상기 오디오 데이터를 주파수 특성별로 분리하는 데이터 분리 단계;
주파수 특성별로 분리된 오디오 데이터로부터 기설정된 오디오패턴과 동일하거나, 유사한 오디오 데이터를 검출하는 패턴 검출 단계;
검출된 오디오 데이터를 상기 기설정된 오디오패턴과 대응되는 텍스트로 변환하는 변환 처리 단계;
각 채널별로 상기 비디오 데이터를 텍스트와 함께 출력하기 위해, 텍스트로 변환된 오디오 데이터, 상기 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간정보, 및 채널정보를 메타데이터로 저장하는 메타데이터(Metadata) 저장 단계;를 포함하는 멀티 채널 오디오 데이터의 시각화 방법.
제 3 항에 있어서, 상기 변환 처리 단계는,
상기 검출된 오디오 데이터 중 음성에 포함된 언어의 종류와 특성을 판단하고, 상기 음성을 발생시킨 주체의 출신지역정보를 포함하여 텍스트로 변환하는 것을 특징으로 하는 멀티 채널 오디오 데이터의 시각화 방법.