WO2016013740A1

WO2016013740A1 - 멀티 채널 오디오 데이터의 시각화 장치 및 방법

Info

Publication number: WO2016013740A1
Application number: PCT/KR2015/000896
Authority: WO
Inventors: 조성봉
Original assignee: 한화테크윈 주식회사
Priority date: 2014-07-22
Filing date: 2015-01-28
Publication date: 2016-01-28
Also published as: KR20160011490A

Abstract

본 발명은 종래의 다수의 네트워크 카메라로 운용되는 감시 시스템에 있어서, 각 채널에 대응되는 오디오 데이터를 식별하기 어려운 점을 개선시키기 위해, 오디오 데이터를 주파수 특성별로 분리하고, 기설정된 오디오 패턴과 동일하거나, 유사한 오디오 데이터를 검출하여 그것을 텍스트로 변환한 후, 관련 비디오 정보와 함께 메타데이터로 저장하는 멀티 채널 오디오 데이터의 시각화 장치 및 방법을 제공함으로써, 감시 시스템에서 특정 채널의 오디오만을 선택적으로 청취해야 할 필요 없이 각 채널의 특정 이벤트 발생을 명확히 감지할 수 있다.

Description

멀티 채널 오디오 데이터의 시각화 장치 및 방법

본 발명은 멀티 채널 오디오 데이터의 시각화 장치 및 방법에 관한 것으로, 구체적으로는, 감시 시스템에서 다수의 네트워크 카메라를 통해 입력된 오디오 데이터로부터 특정 단어 및 어구를 시각화하여 영상과 함께 출력시키기 위한 장치 및 방법에 관한 것이다.

종래의 감시 시스템 동작 방식은, 감시 시스템 관리자에 의해 선택된 채널의 오디오를 출력하고, 카메라에 설치되어 있는 스피커로 마이크 입력을 전달하는 양방향 오디오 동작이 주를 이루는 방식으로, 오디오 데이터는 감시 시스템에서 부가적으로 활용되어왔다.

감시 시스템 관리자는 멀티 채널의 영상을 감시하는 중 특정 이벤트가 발생한 경우, 단일 또는 멀티 채널의 오디오를 선택적으로 청취할 수 있다. 그러나, 감시 시스템에서 중앙 시스템 모니터에 표시되는 채널의 수는 보통 4개에서 많게는 128개가 되므로, 여러 채널의 오디오가 동시에 출력되면 어떤 채널로부터 발생된 소리인지 구분하기 어렵고, 여러 채널의 소리가 섞이기 때문에 어떤 소리인지 명확히 구분하기 어려운 문제가 있다.

본 발명이 이루고자 하는 기술적 과제는, 다수의 네트워크 카메라로 운용되는 감시 시스템에서, 각 채널에 대응되는 오디오 데이터를 식별할 수 있는 멀티 채널 오디오 데이터의 시각화 장치 및 방법을 제공하는 데에 있다.

본 발명의 일 실시 예에 따르면, 상기 기술적 과제를 해결하기 위한 본 발명의 제 1실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치는 채널별로 비디오 데이터와 오디오 데이터를 수신하고, 상기 오디오 데이터를 주파수 특성별로 분리하는 데이터 분리부, 주파수 특성별로 분리된 오디오 데이터로부터 미리 저장된 기준 패턴과 동일하거나, 유사한 오디오 데이터를 검출하는 패턴 검출부, 검출된 오디오 데이터를 상기 기준 패턴과 대응되는 텍스트로 변환하는 변환부 및 텍스트로 변환된 오디오 데이터, 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보, 및 채널 정보를 상기 비디오 데이터의 메타데이터로 저장하는 메타데이터 저장부를 포함한다.

본 발명의 다른 실시 예에 따르면, 상기 기술적 과제를 해결하기 위한 본 발명의 제 2실시 예에 따른 멀티 채널 오디오 데이터의 시각화 방법은 채널별로 비디오 데이터와 오디오 데이터를 수신하는 단계, 상기 오디오 데이터를 주파수 특성별로 분리하는 단계, 주파수 특성별로 분리된 오디오 데이터로부터 미리 저장된 기준 패턴과 동일하거나, 유사한 오디오 데이터를 검출하는 단계, 검출된 오디오 데이터를 상기 기준 패턴과 대응되는 텍스트로 변환하는 단계 및 상기 텍스트로 변환된 오디오 데이터, 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보, 및 채널 정보를 상기 비디오 데이터의 메타데이터로 저장하는 단계를 포함한다.

본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치 및 방법에 의하면, 오디오 데이터를 시각화하여 표현함으로써, 감시 시스템에서 특정 채널의 오디오만을 선택적으로 청취할 필요 없이 각 채널의 특정 이벤트 발생을 명확히 구분하여 감지할 수 있다.

또한, 오디오 데이터의 특성 분석을 통해, 특정 음성 또는 특정 음향을 발생시킨 주체를 구분하고, 그 주체에 대한 정보를 유추함으로써, 감시 시스템 관리자가 별도로 영상 분석을 하지 않더라도 영상 감시의 목적을 일정 수준 이상 달성할 수 있다. 오디오 데이터의 정밀 분석이 수반됨에 따라, 감시 시스템에서 네트워크 카메라의 사각지대에서 특정 소리만 발생한 경우에도 이를 시각화하여 보여주는 방식의 보다 높은 성능의 감시 시스템을 운용할 수 있다.

도 1은 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치를 나타낸 블록도이다.

도 2는 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 방법을 나타낸 순서도이다.

도 3은 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치가 구현된 네트워크 카메라를 나타낸 블록도이다.

도 4는 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치 및 방법으로 동작하는 4채널 영상 감시 시스템의 모니터를 나타낸다.

도 5a는 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치의가 네트워크 카메라에 구현된 경우, 그것에 대응하는 중앙 시스템을 나타낸 블록도이다.

도 5b는 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치가 구현된 중앙 시스템을 나타낸 블록도이다.

도 6은 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치를 내부 구성까지 상세하게 나타낸 블록도이다.

도 7은 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치 또는 방법으로 동작하는 9채널 영상 감시 시스템의 모니터를 나타낸다.

본 실시 예에 있어서, 상기 데이터 분리부는 상기 오디오 데이터를 오디오를 생성하는 주체별로 분리할 수 있다.

본 실시 예에 있어서, 상기 데이터 분리부는 미리 정해진 주파수 대역, 오디오 생성 주체의 성별 주파수 특성, 오디오 생성 주체의 연령별 주파수 특성, 및 언어의 종류 중 적어도 하나에 기초하여 상기 오디오 데이터를 분리할 수 있다.

본 실시 예에 있어서, 상기 기준 패턴은 미리 정해진 음성에 대한 패턴, 미리 정해진 음향에 대한 패턴, 및 미리 정해진 오디오의 단절에 대한 패턴 중 적어도 하나를 포함할 수 있다.

본 실시 예에 있어서, 상기 미리 정해진 음성에 대한 패턴은 음성을 생성하는 주체의 성별, 연령, 발언 속도, 목소리의 높낮이, 및 지역색을 나타내는 단어 중 적어도 하나에 대한 패턴을 포함할 수 있다.

본 실시 예에 있어서, 상기 메타데이터 저장부는 상기 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보 및 텍스트로 변환된 오디오 데이터에 대응되는 비디오 구간 정보 중 적어도 하나를 저장할 수 있다.

본 실시 예에 있어서, 상기 텍스트는 오디오 생성 주체의 성별, 연령, 발언 속도, 목소리의 높낮이, 출신 지역, 음향에 대응되는 자막, 및 경고 중 적어도 하나에 대한 정보를 포함할 수 있다.

본 실시 예에 있어서, 상기 채널별로 상기 비디오 데이터 및 상기 텍스트를 출력하는 모니터를 더 포함하고, 상기 텍스트는 상기 채널 정보 및 상기 비디오 구간 정보에 기초하여 상기 비디오 데이터와 대응되도록 출력될 수 있다.

본 실시 예에 있어서, 상기 모니터는 상기 검출된 오디오 데이터에 대응되는 채널의 표시 영역을 상기 검출된 오디오 데이터의 미리 정해진 우선순위에 비례하는 사이즈로 표시할 수 있다.

본 실시 예에 있어서, 상기 기준 패턴은 미리 정해진 검출 대상이 되는 언어의 종류 및 미리 정해진 사용자 언어의 종류를 포함하고, 상기 변환부는 상기 검출된 오디오 데이터를 상기 미리 정해진 검출 대상이 되는 언어의 종류 및 상기 사용자 언어의 종류 중 적어도 하나의 텍스트로 변환할 수 있다.

본 실시 예에 있어서, 상기 오디오 데이터를 상기 주파수 특성별로 분리하는 단계는, 상기 오디오 데이터를 오디오를 생성하는 주체별로 분리하는 단계일 수 있다.

본 실시 예에 있어서, 상기 오디오 데이터를 상기 주파수 특성별로 분리하는 단계는, 미리 정해진 주파수 대역, 오디오 생성 주체의 성별 주파수 특성, 오디오 생성 주체의 연령별 주파수 특성, 및 언어의 종류 중 적어도 하나에 기초하여 상기 오디오 데이터를 분리하는 단계일 수 있다.

본 실시 예에 있어서, 상기 비디오 데이터의 메타데이터를 저장하는 단계는, 상기 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보 및 텍스트로 변환된 오디오 데이터에 대응되는 비디오 구간 정보 중 적어도 하나를 저장하는 단계일 수 있다.

본 실시 예에 있어서, 상기 채널별로 상기 비디오 데이터 및 상기 텍스트를 출력하고, 상기 채널 정보 및 상기 비디오 구간 정보에 기초하여 상기 텍스트가 상기 비디오 데이터와 대응되도록 출력하는 단계를 더 포함할 수 있다.

본 실시 예에 있어서, 상기 검출된 오디오 데이터의 우선순위를 판단하는 단계를 더 포함하고, 상기 채널별로 상기 비디오 데이터 및 상기 텍스트를 출력하는 단계는, 상기 검출된 오디오 데이터에 대응되는 채널의 표시 영역을 상기 우선순위에 비례하는 사이즈로 표시하는 단계일 수 있다.

본 실시 예에 있어서, 상기 기준 패턴은 미리 정해진 검출 대상이 되는 언어의 종류 및 미리 정해진 사용자 언어의 종류 를 포함하고, 상기 검출된 오디오 데이터를 상기 기준 패턴과 대응되는 텍스트로 변환하는 단계는, 상기 검출된 오디오 데이터를 상기 미리 정해진 검출 대상이 되는 언어의 종류 및 상기 사용자 언어의 종류 중 적어도 하나의 텍스트로 변환하는 단계일 수 있다.

이하의 내용은 단지 본 발명의 원리를 예시한다. 그러므로 당업자는 비록 본 명세서에 명확히 설명되거나 도시되지 않았지만 본 발명의 원리를 구현하고 본 발명의 개념과 범위에 포함된 다양한 장치를 발명할 수 있는 것이다. 또한, 본 명세서에 열거된 모든 조건부 용어 및 실시 예들은 원칙적으로, 본 발명의 개념이 이해되도록 하기 위한 목적으로만 명백히 의도되고, 이와 같이 특별히 열거된 실시 예들 및 상태들에 제한적이지 않는 것으로 이해되어야 한다. 또한, 본 발명의 원리, 관점 및 실시 예들뿐만 아니라 특정 실시 예를 열거하는 모든 상세한 설명은 이러한 사항의 구조적 및 기능적 균등물을 포함하도록 의도되는 것으로 이해되어야 한다. 또한, 이러한 균등물들은 현재 공지된 균등물뿐만 아니라 장래에 개발될 균등물 즉 구조와 무관하게 동일한 기능을 수행하도록 발명된 모든 소자를 포함하는 것으로 이해되어야 한다.

따라서, 프로세서 또는 이와 유사한 개념으로 표시된 기능 블록을 포함하는 도면에 도시된 다양한 소자의 기능은 전용 하드웨어뿐만 아니라 적절한 소프트웨어와 관련하여 소프트웨어를 실행할 능력을 가진 하드웨어의 사용으로 제공될 수 있다. 프로세서에 의해 제공될 때, 기능은 단일 전용 프로세서, 단일 공유 프로세서 또는 복수의 개별적 프로세서에 의해 제공될 수 있고, 이들 중 일부는 공유될 수 있다. 또한, 프로세서, 제어 또는 이와 유사한 개념으로 제시되는 용어의 사용은 소프트웨어를 실행할 능력을 가진 하드웨어를 배타적으로 인용하여 해석되어서는 아니 되고, 제한 없이 디지털 신호 프로세서(DSP) 하드웨어, 소프트웨어를 저장하기 위한 롬(ROM), 램(RAM) 및 비휘발성 메모리를 암시적으로 포함하는 것으로 이해되어야 한다. 주지 관용의 다른 하드웨어도 포함될 수 있다.

이하 본 발명의 바람직한 실시 예가 첨부된 도면들을 참조하여 설명될 것이다. 도면들 중 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 참조번호들 및 부호들로 나타내고 있음에 유의해야 한다.

한편, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

후술하는 '이벤트 단어'는, 본 발명의 일 실시 예에 따라 구현된 오디오 설정부에 사전 정의된 단어로서, 네트워크 카메라에 의해 감지되면, 네트워크 카메라와 원격으로 연결된 감시 시스템의 모니터에 자막으로 표시된다.

후술하는 '멀티 채널 오디오 데이터의 시각화 장치'는 네트워크 카메라나 중앙 시스템에서 구현되는 경우, 명세서와 도면의 간명화를 위해 '오디오 텍스트 변환부'로 간략하게 기재될 수 있다.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치는 데이터 분리부(110), 패턴 검출부(130), 변환부(150), 메타데이터 저장부(170)을 포함한다.

데이터 분리부(110)는 채널별로 비디오 데이터와 오디오 데이터를 수신하고, 수신한 오디오 데이터를 주파수 특성별로 분리한다.

데이터 분리부(110)는 오디오 데이터를 오디오를 생성하는 주체별로 분리할 수 있다. 데이터 분리부(110)는 오디오 데이터를 미리 정해진 주파수 대역, 오디오 생성 주체의 성별 주파수 특성, 오디오 생성 주체의 연령별 주파수 특성, 및 언어의 종류 중 적어도 하나에 기초하여 분리할 수도 있다.

패턴 검출부(130)는 데이터 분리부(110)를 통해 주파수 특성별로 분리된 오디오 데이터로부터 미리 저장된 기준 패턴과 동일하거나, 유사한 오디오 데이터를 검출한다.

기준 패턴은 미리 정해진 음성에 대한 패턴, 미리 정해진 음향에 대한 패턴, 및 미리 정해진 오디오의 단절에 대한 패턴 중 적어도 하나를 포함할 수 있다.

미리 정해진 음성에 대한 패턴은 음성을 생성하는 주체의 성별, 연령, 발언 속도, 목소리의 높낮이, 지역색을 나타내는 단어, 언어의 종류 중 적어도 하나에 대한 패턴을 포함할 수 있으나, 이에 한정되지 않는다. 언어의 종류는 검출 대상이 되는 언어의 종류, 및 미리 정해진 사용자 언어 중 적어도 하나를 포함할 수 있으나, 이에 한정되지 않는다. 사용자 언어는 사용자 예컨대, 관리자 등에 의해 미리 설정될 수 있으나, 이에 한정되지 않는다.

미리 정해진 음향에 대한 패턴은 음향의 주파수 대역, 음향의 크기, 음향의 지속 시간 중 적어도 하나에 대한 패턴을 포함할 수 있으나, 이에 한정되지 않는다.

미리 정해진 오디오의 단절에 대한 패턴은 묵음의 지속 시간 등에 대한 패턴일 수 있으나, 이에 한정되지 않는다.

변환부(150)는 패턴 검출부(130)를 통해 검출된 오디오 데이터를 미리 저장된 기준 패턴과 대응되는 텍스트로 변환한다. 변환된 텍스트는 검출된 오디오 데이터를 문자화한 정보, 및 부가적인 정보 중 적어도 하나를 포함할 수 있다. 텍스트는 오디오 생성 주체의 성별, 연령, 발언 속도, 목소리의 높낮이, 출신 지역, 음향에 대응되는 자막, 및 경고 중 적어도 하나에 대한 정보를 포함할 수 있으나, 이에 한정되지 않는다.

변환부(150)는 텍스트를 하나 이상의 언어로 변환할 수 있다. 예컨대, 변환부(150)는 검출된 오디오 데이터를 검출 대상이 되는 언어의 종류의 텍스트 예컨대, 영어 텍스트 및 사용자 언어 예컨대, 한글 텍스트 중 적어도 하나로 변환할 수 있으나, 이에 한정되지 않는다.

메타데이터 저장부(170)는 텍스트로 변환된 오디오 데이터를, 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보 및 채널 정보와 함께, 비디오 데이터의 메타데이터로서 저장한다. 오디오 데이터에 포함된 이벤트 단어의 양에 따라, 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보는 텍스트로 변환된 오디오 데이터에 대응되는 비디오 구간 정보로 대체될 수 있으며, 이에 대한 설명은 도 6을 통해 후술한다.

도면에 도시되지 않았으나, 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치는 모니터를 통해 채널별 비디오 데이터 및 텍스트를 동시에 출력할 수 있다. 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치는 모니터를 통해, 메타데이터 저장부(170)에 저장된 채널 정보 및 비디오 구간 정보에 기초하여, 비디오 데이터와 텍스트가 대응되도록 출력할 수 있으나, 이에 한정되지 않는다. 모니터는 채널별 표시 영역의 크기를 동일하거나 상이하게 표시할 수 있다. 예컨대, 모니터는 검출된 오디오 데이터에 대응되는 채널의 표시 영역을 검출된 오디오 데이터의 미리 정해진 우선순위에 비례하는 사이즈로 각각 표시할 수 있다.

도 2는 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 방법을 나타낸 순서도이다. 이하에서는, 도 1과 동일한 내용에 관한 설명은 생략한다.

도 2를 참조하면, 데이터 분리부(110)는 비디오 데이터와 오디오 데이터를 수신하고, 수신한 오디오 데이터를 주파수 특성별로 분리한다(S210),

패턴 검출부(130)는 주파수 특성별로 분리된 오디오 데이터로부터 기설정된 오디오 패턴과 동일하거나, 유사한 오디오 데이터를 검출한다(S230),

변환부(150)는 검출된 오디오 데이터를 기설정된 오디오 패턴과 대응되는 텍스트로 변환한다(S250).

메타데이터 저장부(170)는 각 채널별로 비디오 데이터를 비디오 구간에 대응되는 텍스트와 함께 출력하기 위해, 텍스트로 변환된 오디오 데이터를, 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보 및 채널 정보와 함께, 비디오 데이터의 메타데이터로 저장한다(S270).구간 정보구간 정보

도 3을 참조하면, 본 발명의 일 실시 예에 따른 감시 시스템의 네트워크 카메라(300)는 이미지 센서(310), 비디오 인코더(320), 네트워크 인터페이스(330), 오디오 센서 & 마이크로폰(340), 오디오 인코더(350), 오디오 설정부(360), 오디오 텍스트 변환부(370) 및 오디오/텍스트 데이터베이스(380)를 포함한다.

이미지 센서(310)는 네트워크 카메라(300)의 렌즈를 통해 입사된 빛을 영상 신호로 변환하고, 비디오 인코더(320)는 영상 신호를 압축한다.

네트워크 인터페이스(330)는 네트워크 카메라(300)의 비디오 인코더(320) 및 오디오 인코더(350)가 각각 출력하는 압축된 비디오 데이터 및 압축된 오디오 데이터를, Network Video Recorder(NVR), Digital Video Recorder(DVR), 또는 Central Monitoring System(CMS)과 같은 중앙 시스템으로 전송한다.

오디오 센서 & 마이크로폰(340)은 네트워크 카메라(300)를 통해 입력되는 소리를 오디오 데이터로 변환하여, 오디오 인코더(350), 및 오디오 텍스트 변환부(370)에 전달한다. 이때, 오디오 데이터에 대응되는 비디오 구간 정보도 함께 전달될 수 있다.

오디오 인코더(350)는 변환된 오디오 데이터를 네트워크 인터페이스(330)에서 전송하기 용이하도록 G.711, G.726 과 같은 음성 코덱으로 압축한다.

오디오 설정부(360)는 오디오의 특성을 판단할 수 있는 정보를 미리 설정한다. 오디오의 특성을 판단할 수 있는 정보는 주파수 대역, 오디오 생성 주체의 성별 주파수 특성, 오디오 생성 주체의 연령별 주파수 특성, 언어의 종류, 이벤트 단어 등을 포함할 수 있으나, 이에 한정되지 않는다.

예를 들면, 오디오 설정부(360)는 검출 대상이 되는 이벤트 단어를 미리 설정할 수 있다. 예컨대, 오디오 설정부(360)는 ‘폭탄’, ‘위협’, ‘테러’ 등의 단어를 이벤트 단어로 설정할 수 있다.

또한, 오디오 설정부(360)는 검출 대상이 되는 언어의 종류 및 사용자 언어의 종류를 미리 설정할 수 있다. 후술할 오디오 텍스트 변환부(370)는, 오디오 데이터로부터 미리 설정된 검출 대상이 되는 언어의 종류가 감지되면, 검출된 오디오 데이터를, 감지된 언어의 종류 및 사용자 언어의 종류 중 적어도 하나의 텍스트로 변환할 수 있으나, 이에 한정되지 않는다.

오디오 설정부(360)는 후술하는 오디오 텍스트 변환부(370)에 포함될 수도 있으나, 이에 한정되지 않는다.

오디오 텍스트 변환부(370)는, 네트워크 카메라(300)에 구현된, 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치로서, 입력된 오디오 데이터를, 오디오 설정부(360)에 저장된 정보를 이용하여 분석하여 주파수 특성별로 분리하고, 텍스트로 변환한다. 이때, 텍스트로 변환된 오디오 데이터, 해당 오디오 데이터에 대응되는 비디오 구간 정보 및 네트워크 카메라(300)의 채널 정보는 비디오 데이터의 메타데이터로서 저장될 수 있다.

오디오/텍스트 데이터베이스(380)는 네트워크 인터페이스(330)를 통해 감시 시스템 관리자로부터 변경된 이벤트 단어 등을 입력받음으로써, 데이터를 갱신한다. 오디오/텍스트 데이터베이스(380)는 네트워크 카메라(300)의 내부 또는 외부에 위치할 수 있으나, 이에 한정되지 않는다.

도 4를 참조하면,채널-01의 네트워크 카메라를 통해 사전 정의된 '폭탄'이라는 단어가 감지되면, 해당 단어가 모니터의 채널-01 영역(401)에 자막으로 표시된다.

채널-02의 네트워크 카메라를 통해 사전 정의된 '마약'이라는 단어가 감지되면, 해당 단어가 모니터의 채널-02 영역(402)에 자막으로 표시된다.

채널-03의 네트워크 카메라를 통해 사전 정의된 '접선장소'라는 단어가 감지되면, 해당 단어가 모니터의 채널-03 영역(403)에 자막으로 표시된다.

채널-04의 네트워크 카메라를 통해 사전 정의된 'Money'라는 단어가 감지되면, 모니터의 채널-04 영역(404)에 'Money'가 해당 단어의 한국어 번역(돈)과 함께 자막으로 표시된다. 이와 같은 경우는, 검출 대상이 되는 언어의 종류가 영어이고, 사용자 언어의 종류가 한국어인 경우로서, 오디오 텍스트 변환부(370)는 오디오 설정부(360)에 저장된 정보를 이용하여, 검출된 오디오 데이터를, 영어 텍스트 및 한국어 텍스트로 표시할 수 있음을 나타낸다.

이와 같이, 본 발명의 실시 예에 따르면, 감시 시스템의 모니터의 각 채널 영역에 특정 단어가 자막으로 표시됨에 따라, 감시 시스템 관리자는 모든 채널의 오디오를 출력하거나 심지어 모든 채널의 오디오 전원을 끄더라도, 어느 채널에서 발생하는 소리인지 구분할 수 있다.

도 5a는 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치가 네트워크 카메라에 구현된 경우, 그것에 대응하는 중앙 시스템을 나타낸 블록도이다.

도 5a를 참조하면, 중앙 시스템(500)은 비디오 데이터 수신부(505), 비디오 디코더(510), 저장장치(515), 오디오 텍스트 데이터 수신부(520), 오디오 데이터 수신부(525), 오디오 디코더(530), 비디오 멀티플렉서(535), 비디오 출력부(540), 및 오디오 출력부(545)를 포함한다. 중앙 시스템(500)은 다수의 네트워크 카메라들(301a 내지 Na)로부터 압축된 비디오 데이터 및 압축된 오디오 데이터를 수신할 수 있다.

비디오 데이터 수신부(505)는 네트워크 카메라 1(301a)로부터 압축된 비디오 데이터를 수신한다. 네트워크 카메라 1(301a)은 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치가 구현된 카메라를 의미할 수 있다.

비디오 데이터 수신부(505)는 압축된 비디오 데이터를 비디오 디코더(510) 및 저장장치(515)로 각각 전달할 수 있다.

비디오 디코더(510)는 압축된 비디오 데이터를 디코딩한다. 비디오 디코더(510)는 디코딩한 비디오 데이터를 비디오 멀티플렉서(535)로 전달할 수 있다.

저장장치(515)는 비디오 데이터 수신부(505), 오디오 텍스트 데이터 수신부(520), 및 오디오 데이터 수신부(525)로부터 각각 압축된 비디오 데이터, 오디오 텍스트 데이터, 압축된 오디오 데이터를 받아 저장한다. 저장장치(515)는 데이터를 저장할 뿐만 아니라, 필요에 따라 저장된 데이터를 전달하는 역할도 한다.

오디오 텍스트 데이터 수신부(520)는 네트워크 카메라 1(301a)로부터 텍스트로 변환된 오디오 데이터, 오디오 데이터에 대응되는 비디오 구간 정보, 및 네트워크 카메라의 채널 정보를 수신하여 저장장치(515)에 전달한다. 오디오 텍스트 데이터 수신부(520)는 원격 전송을 용이하게 하기 위해 네트워크 카메라 1(301a)로부터 압축된 텍스트 데이터를 받을 수 있고, 압축된 텍스트 데이터를 해제하는 구성도 포함할 수 있다.

오디오 데이터 수신부(525)는 네트워크 카메라 1(301a)로부터 압축된 오디오 데이터를 수신한다. 오디오 데이터 수신부(525)는 압축된 오디오 데이터를 오디오 디코더(530) 및 저장장치(515)로 각각 전달할 수 있다.

오디오 디코더(530)는 압축된 오디오 데이터를 디코딩한다. 오디오 디코더(530)는 디코딩한 오디오 데이터를 오디오 출력부(545)로 전달한다.

비디오 멀티플렉서(535)는 비디오 디코더(510)에서 전달된 압축해제된 비디오 데이터를 이용하여 중앙 시스템 모니터에 출력하기 위한 채널 레이아웃(Channel Layout)을 구성하고, 오디오 텍스트 데이터 수신부(520)에서 전달된 오디오 텍스트 데이터를 해당 채널 레이아웃에 맵핑시킨다.

예를 들어, 중앙 시스템(500)이 16개의 네트워크 카메라들과 연결된 경우, 비디오 멀티플렉서(535)는 중앙 시스템 모니터의 화면을 균등하게 16등분한 채널 레이아웃을 구성하고, 아라비아 숫자를 순서대로 채널 번호와 대응시킬 수 있다. 중앙 시스템 모니터의 화면은 불균등하게 16등분한 채널 레이아웃으로 구성될 수도 있으나, 이에 한정되지 않는다.

비디오 출력부(540)는 비디오 멀티플렉서(535)를 통해 채널 레이아웃과 맵핑된 오디오 텍스트 데이터 및 압축해제된 비디오 데이터를, 중앙 시스템 모니터를 통해 출력한다.

오디오 출력부(545)는 오디오 디코더(530)를 통해 압축해제된 오디오 데이터를 , 중앙 시스템의 스피커를 통해 출력한다.

도 5b는 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치가 구현된 중앙 시스템을 나타낸 블록도이다. 이하에서, 도 5a와 중복되는 구성에 대한 설명은 생략한다. 도 5b에 도시된 네트워크 카메라 1(301b)은 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치가 구현되지 않은 카메라를 의미할 수 있으나, 이에 한정되지 않는다. 네트워크 카메라 1(301b)은 압축된 비디오 데이터 및 압축된 오디오 데이터를 중앙 시스템(500)에 전송할 수 있다.

도 5b를 참조하면, 오디오 디코더(530)는 오디오 데이터 수신부(525)로부터 압축된 오디오 데이터를 수신하여 압축해제(디코딩)하고, 압축해제된 오디오 데이터를 오디오 출력부(545) 및 오디오 텍스트 변환부(550)에 각각 전달한다.

오디오 텍스트 변환부(550)는, 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치가 중앙 시스템(500)에 구현된 것으로서, 오디오 디코더(530)로부터 수신한 오디오 데이터를 주파수 특성별로 분리한 후, 텍스트로 변환한다. 이때, 텍스트로 변환된 오디오 데이터와 오디오 데이터에 대응되는 비디오 구간 정보 및 네트워크 카메라의 채널 정보는 비디오의 메타데이터로서 저장될 수 있다.

오디오 텍스트 변환부(550)는, 오디오 설정부(360, 도 1 참고)를 포함할 수 있고, 도 5b의 저장장치(515)는 오디오/텍스트 데이터베이스(380, 도 3참고)를 포함할 수 있다.

본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치(오디오 텍스트 변환부)가 네트워크 카메라에 구현된 경우(도 3 참고), 중앙 시스템의 중앙 처리 장치(이하, CPU)의 부하를 경감시킬 수 있다.

본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치(오디오 텍스트 변환부)가 중앙 시스템 내부의 구성에 포함된 경우(도 5b 참고)에는, 각 네트워크 카메라에 오디오 텍스트 변환부를 구비할 필요가 없다. 또한, 도 5b와 같이 중앙 시스템을 구현하는 경우에는, 중앙 시스템의 뛰어난 연산 처리 능력을 활용할 수 있고, 오디오 텍스트 변환부를 일괄적으로 관리할 수 있다.

도 6을 참조하면, 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치(600)는 데이터 분리부(610), 패턴 검출부(630), 변환부(650), 메타데이터 저장부(670), 오디오 설정부(699)를 포함한다.

데이터 분리부(610)는 음성/음향 수신부(613), 및 음성/음향 전처리부(616)를 포함한다. 데이터 분리부(610)는 비디오 데이터와 오디오 데이터를 수신하고, 오디오 데이터를 주파수 특성별로 분리한다.

음성/음향 수신부(613)는 오디오 센서 및 오디오 디코더로부터 인코딩되지 않은 오디오 데이터를 수신한다.

음성/음향 전처리부(616)는 주파수 특성을 기초로 음성/음향 수신부(613)에서 수신한 오디오 데이터를 분리한다. 음성/음향 전처리부(616)는 주파수 특성을 기초로 오디오 데이터를 분리함에 따라, 음성(음향)을 생성하는 주체별로 오디오 데이터를 분리할 수 있다. 그 결과, 본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치(600)는 수신한 오디오 데이터로부터 음성/음향을 생성하는 주체의 수만큼 늘어난 데이터량을 얻을 수 있다.

예를 들어, 음성/음향 수신부(613)가 동시에 말을 하는 성인남성, 성인여성, 및 어린이가 포함된 영상에 대한 데이터를 수신한다면, 음성/음향 전처리부(616)는 주파수의 고저 특성에 기반하여 성인남성의 음성, 성인여성의 음성, 어린이의 음성을 분리하여 텍스트 변환 대상으로 설정할 수 있다. 다른 예를 들어, 음성/음향 수신부(613)가 개가 짖는 소리, 및 의미를 포함하고 있지 않으나 중요한 정보를 담은 비명 소리와 같은 음향을 수신하는 경우, 음성/음향 전처리부(616)는 주파수 특성에 기반하여 개가 짖는 소리, 비명 소리를 분리하여 별도의 데이터로 저장할 수 있다.

음성/음향 전처리부(616)는 오디오 데이터를 전처리하는 과정에서 오디오 설정부(699)로부터 오디오의 특성을 판단할 수 있는 각종 정보를 제공받을 수 있으며, 이는 도 3에서 이미 설명한 바 있다.

패턴 검출부(630)는 특징 벡터 분석부(633, feature vector analyzer), 및 패턴 인식부(636, pattern recognizor)를 포함한다. 패턴 검출부(630)는 데이터 분리부(610)를 통해 주파수 특성별로 분리된 오디오 데이터 각각으로부터 기설정된 오디오패턴과 동일하거나 유사한 오디오 데이터를 검출한다.

특징 벡터 분석부(633)는 오디오 데이터를 소리의 음색이나 패턴을 분석할 수 있는 데이터로 만든다. 구체적으로는, 특징 벡터 분석부(633)는 음성 데이터로부터 특징 벡터를 추출하고, 각 데이터 처리에 적합한 필터를 결정할 수 있다.

예를 들어, 특징 벡터 분석부(633)는 음성 데이터로부터 추출된 특징 벡터를 이용하여 음성의 높낮이, 발음, 발언속도를 1차적으로 분석하고, 그로부터 음성 주체의 연령과 같은 부가적인 정보를 2차적으로 분석하여, 최종적으로 음성 데이터에 적용할 필터를 결정할 수 있다. 음향 데이터도 음성 데이터와 동일한 과정을 통해 분석될 수 있다.

패턴 인식부(636)는 오디오 데이터의 패턴을 판단한다. 구체적으로, 패턴 인식부(636)는 특징 벡터 분석부(633)로부터 오디오 데이터의 패턴을 산출하기 위한 특징 벡터, 및 필터에 관한 정보를 수신하고, 음향 모델링을 통해 오디오 데이터의 패턴을 판단할 수 있다.

패턴 인식부(636)는 미리 저장된 기준 패턴에 기초하여, 음향 모델링이 적용된 오디오 데이터로부터 패턴을 판단할 수 있다. 패턴 인식부(636)는 음절 데이터보다 연산량이 적은 음향 데이터의 패턴을 먼저 판단할 수 있다. 기준 패턴은 이벤트 단어와 같은 특정 음성에 대한 패턴, 총소리, 비명소리, 알람 소리, 유리창 깨지는 소리 등과 같은 특정 음향에 대한 패턴뿐만 아니라, 소리의 단절에 대한 패턴도 포함할 수 있다. 기준 패턴은 음성을 생성하는 주체의 성별, 연령, 발언속도, 목소리의 높낮이 등을 포함할 수도 있으나, 이에 한정되지 않는다.

패턴 인식부(636)는 단어 하나하나를 구분하여 인식하거나, 문장 단위로 인식하거나, 또는 키워드를 검출함으로써, 음성의 패턴을 인식할 수 있다.

이와 같은 본 발명의 실시 예들에 따르면, 계속 특정 주파수 대역의 소리를 발생시키는 공장 내부의 특정 설비가 해당 특정 주파수 대역 이외의 소리를 낼 때는 물론, 소리가 단절된 경우에도 감시 시스템 관리자의 모니터에 "설비 이상 발생!!" 등의 자막을 표시할 수 있다.

변환부(650)는 언어 모델부(653, language modeler) 및 언어 사전부(656, language dictionary)을 포함한다. 변환부(650)는 패턴 검출부(630)에서 검출된 오디오 데이터의 패턴을 텍스트로 변환 처리한다. 변환부(650)는 음성 데이터, 및 패턴 인식부(636)에서 기설정된 이벤트와 관련된 정보라고 인식된 음향 데이터 중 적어도 하나를 사전 정의된 텍스트로 변환할 수 있다.

언어모델부(653)는 음성 데이터로부터 언어의 종류를 식별하고, 수신한 음성 데이터와 언어의 종류에 대한 정보를 언어사전부(656)에 전달한다.

언어사전부(656)은 언어모델부(653)로부터 언어의 종류에 대한 정보를 전달받아, 변환부(650)가 음성 데이터를 텍스트로 변환하기 위해 필요한 정보를 제공한다.

텍스트는 의미를 가진 단어나 문장 외에도, 음성을 생성하는 주체의 성별, 목소리의 높낮이, 연령 등에 대한 정보를 포함할 수 있다. 예를 들어, 본 발명의 일 실시 예에 따른 패턴 인식부(636)가, 음성 데이터로부터 아일랜드 출신의 20대 여성이 도움을 요청하는 음성 패턴을 인식한 경우, 감시 시스템의 모니터에 "Help me(20대 아일랜드 여성)"와 같은 자막이 출력될 수 있다. 이와 같은 본 발명의 일 실시 예에 따르면, 감시 시스템의 모니터에 다수의 인물이 비춰지는 경우라 하더라도, 감시 시스템의 관리자가 음성을 생성하는 주체를 빠르게 알아낼 수 있다.

언어사전부(656)는 언어모델부(653)로부터 음성 데이터가 어느 국가의 언어를 포함하고 있는지에 관한 정보를 전달받고, 해당 언어가 사용되는 지역을 판단할 수 있다.

언어사전부(656)에 미리 저장된 특정 지역의 방언이나, 특정 국가에서만 쓰이는 은어, 속어에 대응하는 음성 데이터가 인식된 경우, 감시 시스템의 모니터에 해당 지역이나, 해당 국가에 대한 정보를 포함하는 자막이 출력될 수 있다.

또한, 언어사전부(656)가 동의어를 저장함에 따라, 이벤트 단어와 동일한 단어 뿐만 아니라, 유사한 단어에 대해서도 위험한 단어로 간주하여 경고 시스템을 발동시킬 수 있다.

이때, 오디오 설정부(699)는 텍스트를 자막 형태로 표시할 때, 텍스트의 우선 순위에 따라 시각적 또는 청각적 효과가 다르게 나타나도록 설정할 수 있다.

예를 들어, 도 4를 참조하면, 채널-01의 '폭탄'이라는 단어가 최우선 순위로 설정된 경우, 감시 시스템의 모니터에'폭탄'이라는 단어가, 채널-02 내지 채널-04의 단어들과는 다른 색으로 표시될 수도 있고, 감시 시스템의 모니터에 ‘폭탄’이라는 단어를 표시하는 동시에 감시 시스템에 연결된 경보 시스템을 발동시킬 수도 있으나, 이에 한정되지 않는다.

다시 도 6을 참조하여 설명한다.

메타데이터 저장부(670)는 텍스트로 변환된 오디오 데이터를 저장한다. 메타데이터 저장부(670)는 채널 정보, 및 오디오 데이터에 대응되는 비디오 구간 정보를 비디오 데이터의 메타데이터로서 저장할 수 있으나, 이에 한정되지 않는다. 오디오 데이터에 대응되는 비디오 구간 정보는, 음성/음향 전처리부(616)에서 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보, 및 텍스트로 변환된 오디오 데이터에 대응되는 비디오 구간 정보 중 적어도 하나일 수 있다.

예를 들어, 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간이 12시에서 12시 20분이고, 이벤트 단어가 감지된 구간과 같이 텍스트로 변환된 오디오 데이터에 대응되는 비디오 구간이 12시 5분에서 12시 6분이라면, 감시 시스템에 표시될 자막을 위한 비디오 구간 정보는 12시 5분에서 12시 6분에 대한 것이면 충분하다. 다만, 오디오 데이터 특성상 내용 파악을 위해 이벤트 단어가 포함된 오디오 데이터의 발생 시간을 정확히 알기 위해서는 12시에서 12시 20분에 대한 비디오 구간 정보 역시 필요하므로, 비디오 구간 정보는 감시 시스템 관리자에 의해 조정될 수 있다.

도 7을 참조하면, 채널-02, 채널-05, 채널-06, 및 채널-08 각각의 네트워크 카메라는 이벤트 단어를 입력받지 않은 상태로, 감시 시스템 모니터는 해당 채널 영역(702, 705, 706, 708)에 자막을 표시하지 않는다.

채널-01의 네트워크 카메라를 통하여 유리창 깨지는 소리가 음향 데이터로 입력되면, 본 발명의 일 실시 예에 따른 오디오 텍스트 변환부는 유리창 깨지는 소리를 인지하고, 그에 대응되도록 사전 정의된 자막인 '쨍그랑!!(유리창 깨짐)'을 감시 시스템 모니터의 채널-01 영역(701)에 출력할 수 있다.

채널-03의 네트워크 카메라를 통하여 여성의 비명 소리가 음향 데이터로 입력되면, 본 발명의 일 실시 예에 따른 오디오 텍스트 변환부는 여성의 비명 소리를 인지하고, 그에 대응되도록 사전 정의된 자막인 '비명소리!!(40대 여성)'을 감시 시스템 모니터의 채널-03 영역(703)에 출력할 수 있다. 이와 같은 본 발명의 일 실시 예에 따르면, 비명을 지른 여성의 모습이 채널-03의 네트워크 카메라가 영상을 촬영할 수 없는 사각 지대에 있다 하더라도, 음향 입력만으로 중앙 시스템의 감시 시스템 관리자에게 위험을 알릴 수 있고, 비명을 지른 여성이 40대 여성이라는 정보를 알아낼 수도 있다.

채널-04의 네트워크 카메라를 통하여 여러 사람의 목소리가 음성 데이터로 입력되면, 본 발명의 일 실시 예에 따른 오디오 텍스트 변환부는 여러 사람의 목소리를 구분하여 인지하고, 인지된 음성으로부터 키워드를 검출하여, 키워드에 대응되도록 사전 정의된 자막인 '"폭발물"(중국 20대 남성, 산둥지방)'과 '"테러"(중국 30대 여성, 난징지방)'를 감시 시스템의 모니터인 채널-04 영역(704)에 출력할 수 있다.

본 발명의 일 실시 예에 따른 오디오 텍스트 변환부는 음성 전처리부(616, 도 6 참조)를 통해 여러 사람의 목소리를 주체별로 분리하고, 특징 벡터 분석과 패턴 인식을 통해 주체의 연령과 성별을 구별하고, 변환부(650, 도 6 참조)의 언어모델부(653, 도 6 참조)와 언어사전부(656, 도 6 참조)를 통해 이벤트 단어를 인식하여, 해당 이벤트 단어를 말한 주체를 중국인이라고 판단할 수 있다. 본 발명의 일 실시 예에 따른 오디오 텍스트 변환부는 음성 전처리 과정에서 입력되는 오디오의 볼륨 정보를 추출하여 화면에 출력함으로써, 감시 시스템 관리자가 이벤트 단어를 포함한 특정 오디오 구간을 볼륨을 조절해가며 들을 수 있는 기능도 제공할 수도 있다.

채널-07의 네트워크 카메라를 통하여 특정 주파수 대역의 동작음으로 동작하는 설비의 이상 동작음 또는 동작음 단절이 감지된 경우, 감시 시스템 모니터의 채널-07 영역(707)에 이상 동작음 또는 동작음 단절에 대응되도록 사전 정의된 자막인 '설비 이상 발생!!'이 출력될 수 있다. 이와 같은 본 발명의 일 실시 예에 따르면, 설비의 이상 동작음 뿐만 아니라, 동작음 단절도 기준 패턴으로 정의함으로써, 설비 이상에 대한 빠른 조치를 유도할 수 있다.

채널-09의 네트워크 카메라를 통하여 무단으로 주차하는 차에 의해 발동한 경보 시스템의 경보 소리가 음향 데이터로 입력되면, 감시 시스템의 모니터의 채널-09 영역(709)에 '무단 주차 발생!!'이 자막으로 표시될 수 있다.

본 발명의 일 실시 예에 따른 오디오 텍스트 변환부는, 채널-09의 네트워크 카메라와 중앙 시스템에 양방향 스피커가 설치되어 있는 경우, 감시 시스템 관리자가 "서울22아1234 차 빼시오"라고 말하면, 스피커로 무단 주차자에게 그 말소리를 전달하는 동시에, 감시 시스템 관리자의 언어를 인식하여 텍스트로 저장하는 Speech To Text(STT) 기능을 수행할 수 있다. STT 기능에 의해 저장된, 감시 시스템 관리자의 언어를 변환한 텍스트는, 무단 주차가 발생한 시간과 차 번호를 알아내기 위한 텍스트 검색에 이용될 수 있다.

본 발명의 일 실시 예에 따르면, 채널-04의 이벤트 단어의 위험도가 가장 높다고 판단됨에 따라, 감시 시스템 모니터의 채널-04 영역(704)이 가장 크게 표시될 수 있다. 또는, 감시 시스템 모니터의 각 채널 영역의 크기는 감시 시스템 관리자에 의해 수동으로 변경될 수 있으나, 이에 한정되지 않는다.

본 발명의 일 실시 예에 따른 멀티 채널 오디오 데이터의 시각화 장치 및 방법에 의하면, 감시 시스템에서 오디오 데이터를, 시각화하여 표현함으로써, 감시 시스템에서 특정 채널의 오디오만을 선택적으로 청취할 필요 없이 각 채널의 특정 이벤트 발생에 대해서 명확히 구분하여 감지할 수 있다.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

본 발명은 상술한 실시형태 및 첨부된 도면에 의해 한정되지 아니하고, 첨부된 청구범위에 의해 권리범위를 한정하고자 하며, 청구범위에 기재된 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양한 형태의 치환, 변형 및 변경할 수 있다는 것은 당 기술분야의 통상의 지식을 가진 자에게 자명할 것이다.

Claims

채널별로 비디오 데이터와 오디오 데이터를 수신하고, 상기 오디오 데이터를 주파수 특성별로 분리하는 데이터 분리부;

주파수 특성별로 분리된 오디오 데이터로부터 미리 저장된 기준 패턴과 동일하거나, 유사한 오디오 데이터를 검출하는 패턴 검출부;

검출된 오디오 데이터를 상기 기준 패턴과 대응되는 텍스트로 변환하는 변환부; 및

텍스트로 변환된 오디오 데이터, 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보, 및 채널 정보를 상기 비디오 데이터의 메타데이터로 저장하는 메타데이터 저장부를 포함하는 멀티 채널 오디오 데이터의 시각화 장치.
제1항에 있어서,

상기 데이터 분리부는 상기 오디오 데이터를 오디오를 생성하는 주체별로 분리하는 포함하는 멀티 채널 오디오 데이터의 시각화 장치.
제1항에 있어서,

상기 데이터 분리부는 미리 정해진 주파수 대역, 오디오 생성 주체의 성별 주파수 특성, 오디오 생성 주체의 연령별 주파수 특성, 및 언어의 종류 중 적어도 하나에 기초하여 상기 오디오 데이터를 분리하는 멀티 채널 오디오 데이터의 시각화 장치.
제1항에 있어서,

상기 기준 패턴은 미리 정해진 음성에 대한 패턴, 미리 정해진 음향에 대한 패턴, 및 미리 정해진 오디오의 단절에 대한 패턴 중 적어도 하나를 포함하는 멀티 채널 오디오 데이터의 시각화 장치.
제4항에 있어서,

상기 미리 정해진 음성에 대한 패턴은 음성을 생성하는 주체의 성별, 연령, 발언 속도, 목소리의 높낮이, 및 지역색을 나타내는 단어 중 적어도 하나에 대한 패턴을 포함하는 멀티 채널 오디오 데이터의 시각화 장치.
제1항에 있어서,

상기 메타데이터 저장부는 상기 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보 및 텍스트로 변환된 오디오 데이터에 대응되는 비디오 구간 정보 중 적어도 하나를 저장하는 멀티 채널 오디오 데이터의 시각화 장치.
제1항에 있어서,

상기 텍스트는 오디오 생성 주체의 성별, 연령, 발언 속도, 목소리의 높낮이, 출신 지역, 음향에 대응되는 자막, 및 경고 중 적어도 하나에 대한 정보를 포함하는 멀티 채널 오디오 데이터의 시각화 장치.
제1항에 있어서,

상기 채널별로 상기 비디오 데이터 및 상기 텍스트를 출력하는 모니터를 더 포함하고, 상기 텍스트는 상기 채널 정보 및 상기 비디오 구간 정보에 기초하여 상기 비디오 데이터와 대응되도록 출력되는 멀티 채널 오디오 데이터의 시각화 장치.
제8항에 있어서,

상기 모니터는 상기 검출된 오디오 데이터에 대응되는 채널의 표시 영역을 상기 검출된 오디오 데이터의 미리 정해진 우선순위에 비례하는 사이즈로 표시하는 멀티 채널 오디오 데이터의 시각화 장치.
제1항에 있어서,

상기 기준 패턴은 미리 정해진 검출 대상이 되는 언어의 종류 및 미리 정해진 사용자 언어의 종류를 포함하고,

상기 변환부는 상기 검출된 오디오 데이터를 상기 미리 정해진 검출 대상이 되는 언어의 종류 및 상기 사용자 언어의 종류 중 적어도 하나의 텍스트로 변환하는 멀티 채널 오디오 데이터의 시각화 장치.
채널별로 비디오 데이터와 오디오 데이터를 수신하는 단계;

상기 오디오 데이터를 주파수 특성별로 분리하는 단계;

주파수 특성별로 분리된 오디오 데이터로부터 미리 저장된 기준 패턴과 동일하거나, 유사한 오디오 데이터를 검출하는 단계;

검출된 오디오 데이터를 상기 기준 패턴과 대응되는 텍스트로 변환하는 단계; 및

상기 텍스트로 변환된 오디오 데이터, 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보, 및 채널 정보를 상기 비디오 데이터의 메타데이터로 저장하는 단계를 포함하는 멀티 채널 오디오 데이터의 시각화 방법.
제11항에 있어서,

상기 오디오 데이터를 상기 주파수 특성별로 분리하는 단계는,

상기 오디오 데이터를 오디오를 생성하는 주체별로 분리하는 단계인 멀티 채널 오디오 데이터의 시각화 방법.
제11항에 있어서,

상기 오디오 데이터를 상기 주파수 특성별로 분리하는 단계는,

미리 정해진 주파수 대역, 오디오 생성 주체의 성별 주파수 특성, 오디오 생성 주체의 연령별 주파수 특성, 및 언어의 종류 중 적어도 하나에 기초하여 상기 오디오 데이터를 분리하는 단계인 멀티 채널 오디오 데이터의 시각화 방법.
제11항에 있어서,

상기 기준 패턴은 미리 정해진 음성에 대한 패턴, 미리 정해진 음향에 대한 패턴, 및 미리 정해진 오디오의 단절에 대한 패턴 중 적어도 하나를 포함하는 멀티 채널 오디오 데이터의 시각화 방법.
제14항에 있어서,

상기 미리 정해진 음성에 대한 패턴은 음성을 생성하는 주체의 성별, 연령, 발언 속도, 목소리의 높낮이, 및 지역색을 나타내는 단어 중 적어도 하나에 대한 패턴을 포함하는 멀티 채널 오디오 데이터의 시각화 방법.
제11항에 있어서,

상기 비디오 데이터의 메타데이터를 저장하는 단계는,

상기 주파수 특성별로 분리된 오디오 데이터에 대응되는 비디오 구간 정보 및 텍스트로 변환된 오디오 데이터에 대응되는 비디오 구간 정보 중 적어도 하나를 저장하는 단계인 멀티 채널 오디오 데이터의 시각화 방법.
제11항에 있어서,

상기 텍스트는 오디오 생성 주체의 성별, 연령, 발언 속도, 목소리의 높낮이, 출신 지역, 음향에 대응되는 자막, 및 경고 중 적어도 하나에 대한 정보를 포함하는 멀티 채널 오디오 데이터의 시각화 방법.
제11항에 있어서,

상기 채널별로 상기 비디오 데이터 및 상기 텍스트를 출력하고, 상기 채널 정보 및 상기 비디오 구간 정보에 기초하여 상기 텍스트가 상기 비디오 데이터와 대응되도록 출력하는 단계를 더 포함하는 멀티 채널 오디오 데이터의 시각화 방법.
제18항에 있어서,

상기 검출된 오디오 데이터의 우선순위를 판단하는 단계를 더 포함하고,

상기 채널별로 상기 비디오 데이터 및 상기 텍스트를 출력하는 단계는,

상기 검출된 오디오 데이터에 대응되는 채널의 표시 영역을 상기 우선순위에 비례하는 사이즈로 표시하는 단계인 멀티 채널 오디오 데이터의 시각화 방법.
제11항에 있어서,

상기 기준 패턴은 미리 정해진 검출 대상이 되는 언어의 종류 및 미리 정해진 사용자 언어의 종류를 포함하고,

상기 검출된 오디오 데이터를 상기 기준 패턴과 대응되는 텍스트로 변환하는 단계는,

상기 검출된 오디오 데이터를 상기 미리 정해진 검출 대상이 되는 언어의 종류 및 상기 사용자 언어의 종류 중 적어도 하나의 텍스트로 변환하는 단계인 멀티 채널 오디오 데이터의 시각화 방법.