KR102154776B1 - 소리 특성을 분석하여 영상과 함께 출력하는 cctv 감시 시스템 - Google Patents

소리 특성을 분석하여 영상과 함께 출력하는 cctv 감시 시스템 Download PDF

Info

Publication number
KR102154776B1
KR102154776B1 KR1020200031961A KR20200031961A KR102154776B1 KR 102154776 B1 KR102154776 B1 KR 102154776B1 KR 1020200031961 A KR1020200031961 A KR 1020200031961A KR 20200031961 A KR20200031961 A KR 20200031961A KR 102154776 B1 KR102154776 B1 KR 102154776B1
Authority
KR
South Korea
Prior art keywords
sound
section
breathing
sound source
abnormal sound
Prior art date
Application number
KR1020200031961A
Other languages
English (en)
Inventor
정준호
Original Assignee
사회적협동조합 어우리
정준호
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 사회적협동조합 어우리, 정준호 filed Critical 사회적협동조합 어우리
Priority to KR1020200031961A priority Critical patent/KR102154776B1/ko
Application granted granted Critical
Publication of KR102154776B1 publication Critical patent/KR102154776B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/16Actuation by interference with mechanical vibrations in air or other fluid
    • G08B13/1654Actuation by interference with mechanical vibrations in air or other fluid using passive vibration detection systems
    • G08B13/1672Actuation by interference with mechanical vibrations in air or other fluid using passive vibration detection systems using sonic detecting means, e.g. a microphone operating in the audio frequency range
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L21/14Transforming into visible information by displaying frequency domain information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
    • H04N5/23299
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N5/9201Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal
    • H04N5/9202Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal the additional signal being a sound signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Alarm Systems (AREA)

Abstract

본 발명에 따른 소리 특성을 분석하여 영상과 함께 출력하는 CCTV 감시 시스템은 영상을 촬영하는 카메라와, 사운드를 입력받는 마이크를 구비한 CCTV 어셈블리; 상기 영상과 사운드를 입력받는 수신 모듈과, 상기 사운드를 분석하여 사운드 레벨을 결정하는 사운드 분석모듈 및, 상기 영상을 출력하는 영상 출력장치와, 상기 사운드 레벨이 기 설정된 레벨 수치보다 높을 시 상기 사운드를 녹음하여 상기 영상과 함께 상기 사운드를 상기 영상 출력장치에 출력하는 출력 제어모듈을 포함한 중앙관제서버;를 포함하는 것을 특징으로 한다.
본 발명에 따르면, CCTV 어셈블리 및 중앙관제서버로 구성되며, CCTV 어셈블리를 통해 영상과 사운드를 입력 받아 중앙관제서버에서 이를 수신 및 분석하여 사운드 레벨이 기 설정된 레벨 수치보다 높을 시 영상과 사운드를 함께 출력 할 수 있으며, 영상 출력장치에 출력시 영상정보와 더불어 소리를 시각화하여 표시하여 영상과 사운드가 함께 표시되어 감시 업무의 효율성을 향상시킬 수 있다.

Description

소리 특성을 분석하여 영상과 함께 출력하는 CCTV 감시 시스템{CCTV surveillance system that analyzes sound characteristics and outputs them with video}
본 발명은 소리 특성을 분석하여 영상과 함께 출력하는 CCTV 감시 시스템에 관한 것으로서, 보다 상세히 설명하면 CCTV 어셈블리 및 중앙관제서버로 구성되며, CCTV 어셈블리를 통해 영상과 사운드를 입력 받아 중앙관제서버에서 이를 수신 및 분석하여 사운드 레벨이 기 설정된 레벨 수치보다 높을 시 영상과 사운드를 함께 출력 할 수 있는, 소리 특성을 분석하여 영상과 함께 출력함은 물론 영상 출력 신호에 더하여 소리 정보를 시각화하여 모니터링하는 CCTV 감시 시스템에 관한 것이다.
CCTV는 방범용 혹은 건물 관리용 목적으로 건물 내외부에 달아 공간 및 상황을 실시간으로 촬영하고, 중앙관제서버에 송신시켜 관리 목적을 편하게 달성할 수 있는 장치이다.
CCTV 본체의 형태는 반구형, 육면체형, 직육면체형, 구형 등 여러 입체 형상으로 제작될 수 있으며, 렌즈의 모양은 일반적인 카메라에 쓰이는 것과 같은 표준 렌즈나 넓은 공간을 한 번에 담을 수 있는 광각 렌즈 등이 활용된다.
CCTV촬영은 단일한 영상만을 입력받거나 혹은 다중 영상을 입력 받아 활용될 수 있다. 일반적으로 CCTV로 관리하는 공간은 여러 개의 CCTV를 이용하여, 다수의 CCTV로부터 다중 영상을 입력받는다. 그러한 다중 영상 내의 각 영상을 분류하고, 분류 결과에 따라 영상들에 대한 식별정보를 생성해내는 것이 일반적이고 이러한 방식은 국내공개특허 제 10-2019-0054593호에서도 게시되어 있다.
그러나 기존의 CCTV는 사운드 정보는 제외하고 영상 정보만 녹화할 수 있도록 제작되어 위험 상황이 발생하였을 시 관리자가 수신된 CCTV의 영상 내용을 세부적으로 파악해야만 하는 문제점이 있었다.
또한 국내특허 제 10-2019-0054593호인 다중 CCTV 영상 모니터링 시스템 및 그 방법은 다수의 CCTV로부터의 다중 영상을 입력받는 영상 수신부와; 상기 다중 영상을 분석하여, 상기 다중 영상 내의 각 영상들을 분류하고, 분류 결과에 따라 각 영상들에 대한 식별정보를 생성하는 영상 분석부; 및 영상별 식별정보와 영상 배치 방식 데이터베이스에 저장된 영상 배치 방식에 따라 다중 영상 내 영상들의 배치를 결정하고, 결정 결과에 따라, 다중 영상을 다중 스크린을 통해 표출하는 영상 배치 결정부를 포함하는 다중 CCTV 영상 모니터링 시스템을 구비하고 있다.
이때 사운드 정보를 입력하는 마이크와 같은 입력장치와, 이에 따른 사운드 처리부가 없다는 문제점을 가진다.
따라서, 영상과 함께 사운드를 입력받아 분석할 수 있는 사운드 입력 장치와 그런 사운드를 분석하여 위기 상황 시에 올바르게 송출할 수 있는 사운드 분석부를 구비하고 소리의 시각화를 신규하고 진보한 CCTV를 개발할 필요성이 대두되고 있는 실정이다.
본 발명은 상기 기술의 문제점을 극복하기 위해 안출된 것으로, CCTV 어셈블리 및 중앙관제서버로 구성되며, CCTV 어셈블리를 통해 영상과 사운드를 입력 받아 중앙관제서버에서 이를 수신 및 분석하여 사운드 레벨이 기 설정된 레벨 수치보다 높을 시 영상과 사운드를 함께 출력할 수 있는 시스템을 제공하는 것이다.
본 발명의 다른 목적은, 데시벨 및 주파수의 변화를 측정하여 이상음원 여부를 파악하고 이상음원 유무 및 개수의 고저에 따라 사운드 레벨을 결정할 수 있는 시스템을 제공하는 것이다.
본 발명의 또 다른 목적은, 수학식을 통해 이상음원 지수 및 정규화 수치를 산출하고 정규화 수치의 고저에 따라 사운드 레벨을 결정할 수 있는 시스템을 제공하는 것이다.
본 발명의 추가 목적은, 이상음원의 성질을 주파수, 데시벨 기준으로 분석하여 정의한 이상음원 데이터베이스를 기반으로 이상음원의 식별정보를 파악하여 영상 출력장치의 일 측에 식별정보를 함께 출력하여 소리를 시각화 할 수 있는 시스템을 제공하는 것이다.
본 발명의 추가 목적은, STT 기능에 의해 사운드를 텍스트로 변환하여 영상 출력장치 일 측에 텍스트를 출력할 수 있는 시스템을 제공하는 것이다.
상기 목적을 달성하기 위하여, 본 발명에 따른 소리 특성을 분석하여 영상과 함께 출력하는 CCTV 감시 시스템은 영상을 촬영하는 카메라와, 사운드를 입력받는 음성수집장치를 구비한 CCTV 어셈블리; 상기 영상과 사운드를 입력받는 수신 모듈과, 상기 사운드를 분석하여 사운드 레벨을 결정하는 사운드 분석모듈 및, 상기 영상을 출력하는 영상 출력장치와, 상기 사운드 레벨이 기 설정된 레벨 수치보다 높을 시 상기 사운드를 녹음하여 상기 영상과 함께 상기 사운드를 상기 영상 출력장치에 출력하는 출력 제어모듈을 포함한 중앙관제서버;를 포함하는 것을 특징으로 한다.
또한, 상기 CCTV 어셈블리는, 상기 카메라를 일정 반경으로 회전시키는 회전부를 포함하고, 상기 출력 제어모듈은, 상기 사운드를 상기 영상 출력장치에 출력 시 상기 회전부를 구동하여 상기 카메라를 회전시키는 기능을 포함하는 것을 특징으로 한다.
더하여, 상기 사운드 분석모듈은, 상기 사운드의 데시벨(dB)을 측정하는 데시벨 측정부와, 상기 데시벨의 고저에 따라 상기 사운드 레벨을 결정하는 데시벨 분석부로 이루어지는 것을 특징으로 한다.
본 발명에 따른 소리 특성을 분석하여 영상과 함께 출력하는 CCTV 감시 시스템에 의하면,
1) CCTV 어셈블리 및 중앙관제서버로 구성되며, CCTV 어셈블리를 통해 영상과 사운드를 입력 받아 중앙관제서버에서 이를 수신 및 분석하여 사운드 레벨이 기 설정된 레벨 수치보다 높을 시 영상과 사운드를 함께 출력할 수 있으며, 영상 출력신호에 더하여 소리의 시각화를 통한 감시 업무의 효율성을 향상 시킬 수 있고,
2) 데시벨 및 주파수의 변화를 측정하여 이상음원 여부를 파악하고 이상음원 유무 및 개수의 고저에 따라 사운드 레벨을 결정할 수 있으며,
3) 수학식을 통해 이상음원 지수 및 정규화 수치를 산출하고 정규화 수치의 고저에 따라 사운드 레벨을 결정할 수 있을 뿐 아니라,
4) 이상음원의 성질을 주파수, 데시벨 기준으로 분석하여 정의한 이상음원 데이터베이스를 기반으로 이상음원의 식별정보를 파악하여 영상 출력장치의 일 측에 식별정보를 함께 출력할 수 있고,
5) STT기능에 의해 사운드를 텍스트로 변환하여 영상 출력장치 일 측에 텍스트를 출력할 수 있다.
도 1은 본 발명의 기본적인 구성 관계를 도시한 개념도.
도 2는 CCTV 어셈블리에서 제공받은 영상과 사운드를 중앙관제서버의 영상 출력장치에서 출력하는 상태를 예시한 개념도.
도 3은 본 발명의 중앙관제서버의 세부 구성을 도시한 블록도.
도 4는 중앙관제서버의 영상 출력장치에서 출력되는 식별정보를 예시한 개념도.
도 5는 도 3의 식별정보의 색상을 차등 처리하여 출력하는 상태를 예시한 개념도.
도 5는 도 4의 식별정보의 색상을 차등 처리하여 출력하는 상태를 예시한 개념도.
도 6은 영상 출력장치에 텍스트를 출력하는 상태를 예시한 개념도.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세하게 설명하도록 한다. 첨부된 도면은 축척에 의하여 도시되지 않았으며, 각 도면의 동일한 참조 번호는 동일한 구성 요소를 지칭한다.
도 1은 본 발명의 기본적인 구성 관계를 도시한 개념도이다.
우선 도 1을 참조하면, 본 발명의 CCTV 감시 시스템(1)은 기본적으로 CCTV 어셈블리(10) 및 중앙관제서버(20)로 구성되며, CCTV 어셈블리(10)를 통해 영상과 사운드를 입력 받아 중앙관제서버(20)에서 이를 수신 및 분석하여 사운드 레벨이 기 설정된 레벨 수치보다 높을 시 영상과 사운드를 함께 출력하는 역할을 수행한다.
즉, 중앙관제서버(20)는 중앙처리장치(CPU) 및 메모리와 하드디스크와 같은 저장수단을 구비한 하드웨어 기반에서 중앙처리장치에서 수행될 수 있는 프로그램, 즉 소프트웨어가 설치되어 이 소프트웨어를 실행할 수 있는데 이러한 소프트웨어에 대한 일련의 구체적 구성을 '모듈' 및 '부', '인터페이스'라는 구성 단위로서 후술할 예정이다.
이때, 중앙관제서버는 이 내부에서 처리되는 신호(또는, 데이터)를 일시적 및/또는 영구적으로 저장하는 저장장치 또는 램(RAM: Random Access Memory, 미도시) 및 롬(ROM: Read-Only Memory, 미도시), 프로세서를 포함할 수 있다.
또한, 중앙관제서버는 그래픽 처리부, 램 및 롬 중 적어도 하나를 포함하는 시스템온칩(SoC: system on chip) 형태로 구현될 수 있다.
프로세서는 하나 이상의 코어(core, 미도시) 및 그래픽 처리부(미도시) 및/또는 다른 구성 요소와 신호를 송수신하는 연결 통로(예를 들어, 버스(bus) 등)를 포함할 수 있다.
메모리에는 후술할 모듈 내지 부의 실행 및 제어를 위한 프로그램들(하나 이상의 인스트럭션들)을 저장할 수 있다. 메모리에 저장된 프로그램들은 기능에 따라 복수 개의 모듈들로 구분될 수 있다.
본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, SSD, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.
즉, 본 발명의 구성 요소들은 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다. 본 발명의 구성 요소들은 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있으며, 이와 유사하게, 실시 예는 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다.
이러한 '모듈' 또는 '부' 또는 '인터페이스'의 구성은 중앙관제서버의 저장수단에 설치 및 저장된 상태에서 CPU 및 메모리를 매개로 실행되는 소프트웨어 또는 FPGA 내지 ASIC과 같은 하드웨어의 일 구성을 의미한다. 이때, '모듈' 또는 '부', '인터페이스'라는 구성은 하드웨어에 한정되는 의미는 아니고, 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 일 예로서 '모듈' 또는 '부' 또는 '인터페이스'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다.
이러한 '모듈' 또는 '부' 또는 '인터페이스'에서 제공되는 기능은 더 작은 수의 구성요소들 및 '부' 또는'모듈'들로 결합되거나 추가적인 구성요소들과 '부' 또는 '모듈'들로 더 분리될 수 있다.
이하, 이와 같은 거시적 구성 내의 세부 구성 및 기능을 설명하도록 한다.
본 발명의 CCTV 어셈블리(10)는 영상을 촬영하는 카메라(11)와, 사운드를 입력받는 음성수집장치(12)를 구비한다.
먼저, CCTV(closed circuit television)란 폐쇄 회로 텔레비전을 말하는데, 특정 건축물이나 시설물에서 특정 수신자를 대상으로 유선 또는 특수 무선 전송로를 이용해 화상을 전송하는 시스템으로 산업용, 교육용, 의료용, 교통 관제용 등 그 용도가 다양하다. 또한 거치되는 공간이 작아 실내외에 설치가 용이하고, 범죄의 예방 및 억제에 효과가 있고, 범인을 발견하고 체포하는 데 용이하며 경찰인력을 대체할 수 있는 비용 절감의 효과를 가진다.
이때, CCTV 카메라(11)는 돔형, 적외선 돔 형, BULLET 적외선 형, 박스형 등 이 있으며 목적이나 위치에 따라 적절한 형상의 카메라(11)를 선택할 수 있다.
일반적으로, CCTV는 화상만을 촬영하여 전송하지만, 본 발명에서는 음성수집장치(12)를 함께 구비하여 사운드를 함께 전송하며, 이때 음성수집장치(12)는 카메라의 외측에 별도로 구비될 수 있지만, 카메라(11)에 내장되어 있을 수 있으며, 이에 대한 구체적인 제한은 두지 않는다.
이렇게 CCTV 어셈블리(10)를 통해 입력받은 영상과 사운드는 CCTV 어셈블리(10)와 연동된 클라우드 시스템, SD 카드 등을 통해 저장될 수 있으며, 저장된 영상과 사운드는 후술할 중앙관제서버(20)로 전송될 수 있다.
도 2는 CCTV 어셈블리에서 제공받은 영상과 사운드를 중앙관제서버의 영상 출력장치에서 출력하는 상태를 예시한 개념도이며, 도 3은 본 발명의 중앙관제서버의 세부 구성을 도시한 블록도이다.
중앙관제서버(20)는 수신 모듈(100), 사운드 분석모듈(200), 영상 출력장치(400), 출력 제어모듈(500)을 포함하여, 상술한 CCTV 어셈블리(10)로부터 입력받은 영상과 사운드를 관리 및 처리할 수 있으며, 이때 중앙관제서버(20)라 함은 앞서 설명한 기본적인 구성을 구비한 기반 하에서 CCTV 어셈블리(10)로부터 입력받은 영상 및 사운드를 관리하고 처리하는 중앙 관제실과 연동된 서버일 수 있다.
수신 모듈(100)은 영상과 사운드를 입력 받는 역할을 수행하는 것으로, 상술한 CCTV 어셈블리로(10)부터 영상과 사운드를 입력 받는 역할을 수행한다.
즉, 상술한 CCTV 어셈블리로(10)부터 입력되어 저장된 영상과 사운드를 전송받을 수 있으며, 이러한 영상과 사운드는 중앙관제서버(20)와 연동된 데이터베이스에 따로 저장되는 것도 가능하다.
이때, 영상과 사운드에 대하여 설명하면, CCTV어셈블리(10)가 골목길의 전봇대에 설치되었다고 할 때, 영상은 골목길을 촬영한 것이며, 사운드는 차 경적 소리, 사람들의 말소리, 개, 고양이 울음소리 등일 수 있다. 이때, 후술할 출력 제어모듈(500)을 통해 영상과 사운드를 동시에 재생할 경우 영상과 사운드의 싱크로율(synchronization, 어떤 요소와 요소가 합쳐지면서 발생하는 것으로 '완성도' 또는 '정확도'와 비슷한 말)을 보장하기 위해서는 영상을 촬영한 시간과 사운드를 녹음한 시간이 정확히 기록되어 저장되는 것이 바람직하다.
사운드 분석모듈(200)은 수신 받은 사운드를 분석하여 사운드 레벨을 결정하는 기능을 제공한다.
여기서, 사운드 분석이라 함은 전송받은 사운드를 음고(소리의 높고 낮음, 헤르츠(Hz)), 세기(진동에너지 크기, 주파수, 데시벨(dB)), 장단(길고 짧음), 음색 등 으로 특징지어 파악하는 것으로, 예를 들어, 입력받은 사운드는 350 내지 450Hz에 해당하는 진동수 및 30 내지 40 데시벨(dB)에 해당하는 주파수를 가질 수 있으며, 이러한 사운드를 분석한 결과 성인 남성의 목소리로 판단될 수 있다.
이때, 사운드를 분석하는 과정은 입력받은 사운드를 일정 시간 간격에 따라 분할하여, 일 세트의 서브 사운드를 생성할 수 있고, 서브 사운드 간의 유사도에 기반하여 각 서브 사운드에 대한 반복 매칭 관계를 결정하여, 이렇게 반복적으로 발생하는 반복 사운드 패턴을 추출하는 단계를 포함할 수 있으며, 이를 통해 사운드의 음고, 세기, 음색 등을 파악할 수 있는 것이다.
또한, 이러한 사운드 분석 과정을 통해 사운드 레벨을 설정할 수 있는데, 사운드 레벨은 시스템(1) 상에 미리 기 설정되어 있거나 상황에 따라 시스템(1)의 관리자를 통해 임의로 설정될 수 있음은 물론이다.
소리는 데시벨로 분류했을 때, 낙엽이 떨어지거나 시계 초침 소리가 들리는 10-20dB, 속삭이거나 생활 소음의 소리가 들리는 30-40dB, 보통 크기의 대화소리에 해당하는 50-60dB, 시끄러운 사무실에 해당하는 70dB, 교통량이 많은 거리에 해당하는 80-90dB, 공장 소리보다 더 큰 소리에 해당하는 100dB 이상 등으로 분류할 수 있는데, 예를 들어 사운드 레벨은 0 - 30dB까지 1 레벨, 30 - 60dB까지 2 레벨, 60 - 90까지 3 레벨, 90dB 이상을 4레벨로 설정할 수 있다.
또 다른 예시로서, 0 - 150Hz까지 1 레벨, 150 - 300Hz까지 2 레벨, 300 - 450Hz까지 4레벨 등으로 사운드 레벨을 설정하는 것도 가능하다.
이때, 이러한 사운드 레벨 설정은 일 실시예에 불과하며, 데시벨 및 헤르츠(Hz) 만이 아닌 소리의 다른 특징을 기준으로 설정될 수 있으며, 여러 특징을 조합하여 사운드 레벨의 기준을 설정할 수도 있음은 물론이다. 또한, 상술한 예시에서는 총 4레벨의 사운드 레벨을 설정하였지만, 더욱 세분화하여 총 10 또는 100 단계 등으로 나누어 설정하는 것도 가능하다.
출력 제어모듈(500)은 사운드 레벨이 기 설정된 레벨 수치보다 높을 시 사운드를 녹음하여 영상과 함께 사운드를 영상 출력장치(400)에 출력하는 역할을 수행한다.
즉, 기 설정된 사운드 레벨 수치보다 낮을 경우 영상만 출력할 수 있으며, 설정된 사운드 레벨 수치보다 높을 경우(소리의 데시벨이 높을 경우) 주의 상황 또는 긴급 상황이라고 판단되어 사운드도 함께 녹음 및 출력함으로써 보다 기민한 후속 대응을 수행할 수 있는 기반을 갖추는 특성을 제공할 수 있다.
예를 들어, 기 설정된 레벨이 2 레벨(30 - 60dB)이라고 할 때, 사운드 레벨이 4 레벨 100dB 일 수 있으며, 사운드 레벨이 기 설정된 레벨 수치보다 높다고 판단되어 영상 출력과 함께 사운드도 출력할 수 있는 것이다.
더하여, 영상 출력장치(400)는 시스템(1)의 관리자 또는 중앙관제실의 관계자가 관리하는 컴퓨터, 노트북, 이동 단말(핸드폰, 테블릿 PC) 등일 수 있으며, 이 기기들의 디스플레이 장치에 영상 및 사운드가 출력되어 제공될 수 있다. 이때, 여영상 출력장치(400)는 하나의 화면에서 여러 대의 카메라에서 촬영한 영상을 PIP(Picture In Picture) 방식으로 다중 분할하여 출력할 수 있는데, 이 경우 어느 분할 화면에서 사운드를 발생하는지 혼동이 올 수 있기 때문에 사운드가 출력되는 영상에서는 예를 들어 영상의 모서리 부분에 빨간색 색상이 깜빡이는 식으로 사운드가 함께 출력되고 있다는 표식을 나타내는 것도 가능하다.
더하여, CCTV 어셈블리(10)는 회전부(13)를 포함할 수 있다.
회전부(13)는 카메라(11)를 일정 반경으로 회전시키는 기능을 제공한 것으로, CCTV 어셈블리(10)의 카메라(11)를 일정 반경으로 회전시킬 수 있도록 함으로써 넓은 화각을 가질 수 있도록 보조할 수 있다.
일반적으로 CCTV의 보안성을 위하여 지지대에 고정 설치되며, 지지대의 길이는 일반인이 쉽게 손대지 못하도록 높은 곳에 위치되어 있다. 따라서 CCTV의 영상 촬영 시에는 제한된 공간만을 촬영할 수 있었으며, 넓은 지역을 촬영하기 위해서는 광각 렌즈를 이용하거나, 혹은 다수의 CCTV를 사용해야만 하는 문제점이 있었다. 이때, 회전부(13)를 통해 CCTV 어셈블리(10)의 카메라(11)를 회전시키는 것은 고정CCTV가 갖는 화각이 좁아서 넓은 위치를 찍을 수 없는 문제점을 해결하기 위한 것으로 카메라를 여러 개 달지 않고도 자세한 영상을 얻을 수 있도록 하는 효과를 가지며, 이를 위하여 힌지, 모터 등의 구성이 회전부로 구비되어 CCTV 어셈블리(10)의 회전 능력을 보장할 수 있다.
예를 들면, CCTV 어셈블리(10) 몸체 하단부에는 힌지부재가 회동 가능하게 결합되어 CCTV 어셈블리(10)를 다양한 각도로 회전시키며 영상을 촬영할 수 있으며, 이때 힌지부재에는 회동 가능하도록 프레임이 결합되고, 절첩식으로 길이를 조절하여 보다 넓은 지역의 영상을 촬영할 수 있도록 할 수 있다.
이에 따라 출력 제어모듈(500)은 상기 사운드를 상기 영상 출력장치(400)에 출력 시 상기 회전부(13)를 구동하여 상기 카메라(11)를 회전시키는 기능을 포함할 수 있다.
즉, 사운드 레벨이 기 설정된 레벨 수치보다 높을 시 CCTV 어셈블리(10)의 회전부(13)가 구동되어 카메라(11)를 회전시키는 것이 가능하다. 일반적으로, 기 설정된 레벨 수치보다 높은 사운드 레벨이 측정되었을 경우 일반적인 상황과는 다른 긴급 상황 또는 주의 상황이 발생하였을 가능성이 있으므로, 카메라(11)를 회전시켜 CCTV 어셈블리(10) 주변의 상황을 좀 더 신속하고 효율적으로 파악하는 것이 가능하다.
다른 실시예로서, 사운드 분석모듈(200)은 데시벨 측정부(210), 데시벨 분석부(220)를 포함할 수 있다.
데시벨 측정부(210)는 상기 사운드의 데시벨(dB)을 측정하는 역할을 수행한다.
여기서, 데시벨(decibel)이라 함은 소리 세기 수준(sound intensity level, SIL)을 나타낼 때 많이 사용되는 것으로, 음압(音壓) 또는 소리의 세기의 표준 단위이며, 음압이 1m²당
Figure 112020027450486-pat00001
뉴턴인 때를 0데시벨로 하고, 음압이 10배(소리의 세기가 100배)가 될 때마다 20데시벨을 더하여 계산할 수 있으며, 사운드의 데시벨 측정은 데시벨 측정기와 연동하여 진행될 수 있다.
데시벨 분석부(220)는 상기 데시벨의 고저에 따라 상기 사운드 레벨을 결정하는 기능을 제공한다. 즉, 사운드 분석 결과 사운드의 데시벨을 기준으로 사운드 레벨을 결정할 수 있으며, 데시벨이 높을수록(즉, 소리의 크기가 클수록) 높은 사운드 레벨을 가지도록 사운드 레벨의 기준을 설정할 수 있다. 이에 대하여 예를 들어 설명하면, 걷는 소리, 자동차 지나가는 소리, 사람들의 대화 소리의 데시벨 보다 사람의 비명 소리, 고함 소리 등이 더 높은 데시벨을 가지므로 더욱 높은 사운드 레벨을 가지도록 결정할 수 있다.
또 다른 실시예로서, 사운드 분석모듈(200)은 융합 측정부(230), 이상음원 파악부(240), 이상음원 분석부(250)를 구비할 수 있다.
융합 측정부(230)는 상기 사운드의 데시벨 및 주파수의 변화를 측정하는 역할을 수행한다. 여기서, 데시벨은 앞서 설명하였듯이 소리 세기 수준을 의미하며, 주파수는 소리의 높낮이를 의미하는데 진동 횟수가 높을수록(즉, 헤르츠(Hz)가 높을수록) 가늘고 높은 소리가 나게 되며 진동 횟수가 낮을수록(즉, 헤르츠(Hz)가 낮을수록) 굵은 저음의 소리가 나게 된다.
이때, 데시벨과 주파수를 측정한 후 이를 시간에 따른 2차원 상의 그래프로 나타내어 데시벨 및 주파수의 변화를 쉽게 파악할 수 있도록 하는 것이 바람직하다.
이상음원 파악부(240)는 일정 시간 단위를 구간으로 설정하여 다음의 수학식 1을 통해 구간 이상음원 지수를 파악하는 기능을 제공한다.
이상음원이라 함은 음성수집장치로 입력된 사운드에 포함된 사람의 비명소리, 충돌음과 같이 특유의 주파수 변화폭을 가진 사운드일 수 있으며, 이러한 이상음원은 통상적으로 고음(고주파)의 시끄러운 소리로 인식될 수 있으나, 통상적인 시끄럽고 고음의 소리와는 다른 성질이 존재하여 이를 이상음원으로 파악할 수 있다.
이러한 이상음원은 사운드를 시간에 따른 주파수 및 데시벨의 변화를 2차원의 그래프로 나타내었을 때, 주파수 및 데시벨이 급격히 증가하여 고조될 때 그래프 상에서 피크(Peak)를 보이게 되는데 이 구간이 이상음원으로 파악될 수 있다.
이때, 이상음원임을 판단하는 주파수 및 데시벨의 기준은 시스템(1) 상에서 미리 기 설정되어있을 수 있으며, 시스템(1)의 관리자를 통해 임의로 설정되는 것도 가능하다. 예를 들어, 공장 소리보다 더 큰 소리에 해당하는 사운드의 데시벨은 약 100dB이고, 일반적으로 약 320Hz 이상을 가지는 사운드부터 높은 중역에 해당하므로, 100dB 이상, 320Hz 이상의 특성을 동시에 가지는 사운드를 이상음원인 것으로 판단할 수 있다.
이때, 구간 이상음원 지수는 다음의 수학식 1을 통해 산출될 수 있다.
수학식 1.
Figure 112020027450486-pat00002
여기서,
Figure 112020027450486-pat00003
은 구간 이상음원 지수,
Figure 112020027450486-pat00004
는 구간 내 추출된 이상음원의 개수,
Figure 112020027450486-pat00005
은 정규화수 0.1이고,
Figure 112020027450486-pat00006
이 자연수가 아닐 경우 반올림 처리한다.
상기 수학식 1은 일정 시간 단위인 구간 내에서 발생된 이상음원의 개수를 통해 구간 이상음원 지수를 산출하는 식이며, 일정 시간 단위인 구간은 1시간, 3시간, 12시간, 하루, 일주일 등이 될 수 있으며, 이에 대한 구체적인 제한은 두지 않는다.
예를 들어, 구간은 1시간이고, 구간 내에서 추출된 이상음원의 개수가 24개일 때 수학식 1을 통해 구간 이상음원 지수
Figure 112020027450486-pat00007
을 산출하면 다음과 같다.
Figure 112020027450486-pat00008
이때, 구간 이상강도 지수가 2.4로 자연수가 아니므로 반올림 처리하여
Figure 112020027450486-pat00009
은 2가 될 수 있으며, 시스템(1) 상에서 구간 및 이에 따라 산출되는 구간 이상음원 지수를 미리 데이터화해 놓은 경우, 이를 통해 구간에 따른 이상음원의 빈도수가 어느 수준인지 개략적으로 판단하는 것이 가능하다.
예를 들어, 구간이 1시간일 때, 구간 이상음원 지수가 3 이상일 경우 이상음원의 빈도수가 매우 높다고 미리 데이터화 되어있을 수 있으며, 상술한 예시에서 구간 이상음원 지수가 2이므로 이상음원의 빈도수가 높지 않다고 판단되어 별 다른 후속조치를 취하지 않아도 된다고 판단할 수 있다.
즉, 구간 내에서 이상음원 발생 빈도수가 높을수록 높은 구간 이상음원 지수를 가지게 되어 이를 통해 이상음원 발생 빈도에 대한 개략적인 판단이 가능해질 수 있다.
이에 따라, 이상음원 분석부(250)는 상기 구간 이상음원 지수의 고저에 따라 상기 사운드 레벨을 결정할 수 있다.
이때, 구간에 따라 구간 이상음원 지수에 대한 사운드 레벨이 달라질 수 있으므로, 이상음원 지수를 구간으로 나눈 값에 따라 사운드 레벨을 결정할 수 있다.
예를 들면, 구간이 하루(24시간)일 경우 구간 이상음원 지수 0 - 2일 경우 1 단계, 3 - 5일 경우 2 단계, 6 - 8일 경우 3 단계 등과 같이 차등적으로 사운드 레벨을 결정할 수 있으며, 사운드 레벨이 높을수록 구간 내에서 이상음원의 빈도수가 높다고 판단할 수 있다.
더 나아가, 사운드 분석모듈(200)은 정규화 처리부(260)를 포함할 수 있다.
정규화 처리부(260)는 다음의 수학식 2를 통해 상기 구간 이상음원 지수를 정규화 수치로 산출하는 역할을 수행한다.
일반적으로, 정규화(Normalization)라 함은 데이터베이스의 설계에서 중복을 최소화하게 데이터를 구조화하는 프로세스로서 연관성 있는 속성들을 분류하고, 각 릴레이션들에서 이상 현상이 생기지 않도록 하는 과정을 의미하며, 본 발명에서 정규화라 함은 이상음원의 빈도수와 관련하여 실질적으로 유의미한 사운드 레벨 설정을 위하여 구간 이상음원 지수를 조절한 값이다.
이상음원의 빈도수가 적거나 평균일 때에는 이상음원의 발생 및 빈도 변화 자체가 유의미하지만, 이상음원이 일정 수치 이상으로 계속 증가할 경우 이상음원 발생의 계속적인 증가에 따른 사운드 레벨 설정은 무의미해질 수 있다.
예를 들어, 공사장의 소음으로 인해 이상음원이 발생하였으며 이러한 공사장 소음으로 인하여 이상음원 빈도수 및 구간 이상음원 지수가 계속적으로 높아진다고 하였을 때, 이를 통해 사운드 레벨의 고저를 설정하는 것은 무의미하다고 판단될 수 있다. 즉, 일정 빈도수 이상에서는 사운드에 대하여 모두 비슷한 중요도로 판단될 수 있다.
수학식 2.
Figure 112020027450486-pat00010
여기서,
Figure 112020027450486-pat00011
는 정규화 수치,
Figure 112020027450486-pat00012
은 구간 이상음원 지수,
Figure 112020027450486-pat00013
은 조절변수로서 1<
Figure 112020027450486-pat00014
<3,
Figure 112020027450486-pat00015
는 구간의 시간 단위(시간)를 의미한다.
상기 수학식 2는 상술한 구간 이상음원 지수 및 조절변수, 구간의 시간 단위를 이용하여 정규화 수치를 산출하는 식이다.
여기서, 조절변수라 함은 사운드의 상황에 따라 구간 이상음원 지수를 조절하기 위한 변수로서, CCTV 어셈블리(10)가 설치된 장소 및 주변 상황에 따라 조절변수가 다르게 적용될 수 있다. 예를 들면, CCTV 어셈블리(10)가 설치된 장소 주변에 공사장이 존재하거나, 해당 구간에서 지역 축제가 열렸을 경우 이상음원의 빈도수가 다른 장소에 설치된 CCTV 어셈블리(10)로부터 녹음된 사운드의 이상음원 빈도수보다 높을 수 있으며, 이때 조절변수를 1에 가까운 값으로 설정하여 다른 장소에 설치된 CCTV 어셈블리로부터 녹음된 사운드와 비슷한 조건으로 정규화 수치가 산출될 수 있도록 조절할 수 있다.
이때, 정규화 수치는
Figure 112020027450486-pat00016
값에 비례하게 되는데, 하이퍼 볼릭 탄젠트는 -1에서 1사이의 값을 가지게 되며
Figure 112020027450486-pat00017
값은 모두 0보다 큰 값이므로,
Figure 112020027450486-pat00018
값이 증가함에 따라 정규화 수치가 양수 범위에서는 급격한 기울기로 증가하였다가 점점 낮은 기울기로 증가하게 되어 결국 일정한 임계값으로 정규화 수치의 값이 수렴하게 된다.
결국, 이러한 사실은 일정 이상소음 빈도수 내에서는 이상음원 개수 및 빈도수 자체가 유의미하지만, 이상음원이 계속적으로 증가함에 따라 빈도수가 얼마나 많이 증가하였는가에 대한 정보는 무의미함을 의미한다.
이때, 수학식 1의 예시를 이어 받아
Figure 112020027450486-pat00019
가 2이고,
Figure 112020027450486-pat00020
가 24이며, 추가적으로
Figure 112020027450486-pat00021
가 2라고 할 때, 수학식 2를 산출하면 다음과 같다.
Figure 112020027450486-pat00022
이렇게 수학식 2에 따라 산출된 정규화 수치는 0.29이며, 이에 따라 이상음원 분석부는 상기 정규화 수치의 고저에 따라 상기 사운드 레벨을 결정하는 기능을 포함할 수 있다. 다시 말해, 이러한 구간 이상음원 지수에서 조절변수 및 구간의 시간 단위를 고려하여 산출된 정규화 수치가 높을수록 높은 사운드 레벨로 결정할 수 있다.
예를 들면, 사운드 레벨은 정규화 수치가 0 - 0.10일 경우 1 단계, 0.11 - 0.20일 경우 2 단계, 0.21 - 0.30일 경우 3 단계 등으로 설정될 수 있으며, 이는 일 실시예에 불과하며 사운드 레벨의 결정에는 다양한 실시예가 적용될 수 있다.
도 4는 중앙관제서버의 영상 출력장치에서 출력되는 식별정보를 예시한 개념도이다.
다른 실시예로서, 사운드 분석모듈(200)은 이상음원 데이터베이스(270), 이상음원 정의부(280)를 포함할 수 있다.
이상음원 데이터베이스(270)는 상기 이상음원의 성질을 주파수와 데시벨을 기준으로 분석하여 정의한 것들이 저장된 공간으로서, 통신 기능을 구비하여 다른 구성과 연동 가능한 환경에서 DB 서버 등으로 구축될 수 있다.
즉, 사운드를 이상음원으로 파악하였을 경우, 이때 이상음원의 주파수와 데시벨을 파악하여 해당 주파수와 데시벨일 때 이상음원의 발생 원인, 지속 시간 등을 포함하는 이상음원의 식별정보를 이상음원 데이터베이스에 저장할 수 있다.
예를 들어, 발생한 이상음원이 150dB, 2200Hz의 특성을 가지며, 발생 원인은 어린 아이의 비명소리, 지속 시간은 약 3분일 수 있으며, 이러한 이상음원의 특성을 이상음원 데이터베이스(270)에 저장할 수 있다.
이상음원 정의부(280)는 상기 이상음원을 상기 이상음원 데이터베이스(270)와 비교하여 상기 이상음원을 정의한 식별정보를 생성하는 기능을 제공한다.
즉, 이상음원이 발생하였을 경우 이상음원 데이터베이스(270)에 저장된 이상음원의 식별정보과 비교하여 이상음원의 식별정보를 생성할 수 있다. 예를 들어, 상술한 예시와 같이 발생한 이상음원이 150dB, 2200Hz의 특성을 가지며, 지속 시간은 약 3분일 경우 '어린 아이의 비명소리'일 수 있다고 식별정보가 생성될 수 있는 것이다.
이에 따라, 출력 제어모듈(500)은 식별정보 표시부(510)를 포함할 수 있다.
식별정보 표시부(510)는 상기 사운드를 상기 영상 출력장치(400)에 출력 시 상기 식별정보를 문자로 표시한 식별정보를 상기 영상의 일 측에 함께 표시하는 역할을 수행한다. 도 4를 참조하여 알 수 있듯이, 상술한 예시의 경우에는 영상 출력장치에 '어린 아이의 비명소리'를 출력함과 동시에 이상음원의 데시벨, 주파수, 지속 시간 등의 식별정보를 함께 출력하여 이상음원을 더욱 빠르고 효율적으로 파악할 수 있도록 도움을 줄 수 있다.
도 5는 도 4의 식별정보의 색상을 차등 처리하여 출력하는 상태를 예시한 개념도이다.
더하여, 사운드 분석모듈(200)은 파형정보 생성부(290), 호흡량분석부(300), 호흡패턴 생성부(310)를 포함함으로써, 이상음원 내 사람 목소리를 보다 구체적으로 파악할 수 있다.
파형정보 생성부(290)는 상기 식별정보가 사람의 음성으로 정의 시, 상기 사운드를 증폭하여 음성파형정보를 생성하는 기능을 제공한다.
예를 들어, 이상음원의 식별정보가 '어린 아이의 비명 소리', '성인 남성의 고함 소리' 등의 사람의 음성으로 정의될 수 있으며, 이러한 경우 사운드를 증폭하여 음성파형정보를 생성할 수 있다.
이때, 개개인의 목소리는 파동을 가지므로, 그 특정한 파동의 생김새를 파형정보로 일컫는 것이 음성파형정보라할 수 있으며, 이러한 음성파형정보는 해당 파동의 생김새에 대한 특성을 반영한다고 할 수 있다.
또한, 음성파형정보는 음성의 주파수, 거칠기, 포즈(pause), 빠르기, 리듬, 성량, 진폭, 길이 등의 정보를 포함할 수 있는데, 주파수는 음성의 높낮이를 분석하는데 이용되며, 거칠기는 목소리의 음색을 의미한다. 다른 말로는 보이스컬러라고도 할 수 있다. 이 때 거칠기라 함은 전반적인 파형이 매끄러운 형태를 띠는지, 혹은 파장이 매끄럽지 못하고 거친 형태를 나타내는 지에 대한 것으로서, 파장의 거칠기에 따라 음색이 달라진다.
호흡량분석부(300)는 상기 음성파형정보로부터 개별호흡량을 분석하는 역할을 수행한다. 이때, 개별호흡량은 음성파형정보로부터 진폭 변화 및 포즈가 나타나는 것을 기반으로 하여 호흡여부를 파악하고, 그로부터 분석될 수 있다.
호흡패턴 생성부(310)는 상기 호흡량분석부를 기반으로 상기 사운드의 호흡패턴을 생성하는 기능을 제공한다.
여기서, 호흡패턴이라 함은 사람의 음성에서 나타나는 호흡의 패턴을 일컫는 것인데, 예를 들어 들숨간의 간격과, 한번 들숨을 들이마셨다고 파악되었을 때 다음 들숨까지의 길이나, 날숨, 즉 호흡을 내뱉을 때의 진폭의 크기나 진폭의 변화 등을 포함하는 것이다. 이를 통해 사람이 말을 할 때 어떻게 호흡을 수행하는지를 패턴화한 것이라 할 수 있다.
즉, 음성파형정보로부터 분석된 개별호흡량을 기준으로 사운드 내의 음성의 호흡을 파악하여 이를 호흡패턴으로 생성할 수 있으며, 이렇게 생성된 호흡패턴은 호흡패턴 생성부와 연동된 DB 서버에 따로 저장될 수 있다.
이에 따라, 출력 제어모듈(500)은 상기 호흡패턴에 따라 상기 식별정보의 색상을 차등 처리하여 출력하는 기능을 포함할 수 있다.
이때, 사람의 감정에 따라 일정한 호흡패턴이 반복하여 발생될 수 있으며, 이러한 호흡패턴을 분석함으로써 이상음원 내 사람의 목소리에서 어떤 감정이 느껴지는지 대략적으로 파악하여 특징정보로 저장하는 것이 가능하다. 예를 들어, 이상음원 내 사람 목소리의 호흡패턴을 분석하였을 때 분노, 흥분의 감정으로 판단될 수 있으며, 이에 따라 싸움이나 범죄가 발생하였을 수도 있다고 판단하여 출력 제어모듈에 빨간색의 글자로 식별정보를 출력하여 긴급 상황일 수도 있음을 알릴 수 있다.
구체적으로, 호흡량분석부(300)는 포즈파악파트(301), 호흡구간파악파트(302), 추가호흡파악파트(303), 호흡량산출파트(304)를 구비할 수 있다.
포즈파악파트(301)는 상기 음성파형정보로부터 포즈(pause)구간을 파악하는 역할을 수행하는 것으로서, 포즈구간이라 함은 파형이 발생하지 않거나 파형이 끊기는 구간, 즉 별도의 발성을 하지 않는 구간을 말한다. 이는 사운드에서 사람이 호흡하기 위해 발성을 멈춘 구간을 일컫는다.
호흡구간파악파트(302)는 상기 포즈구간 중 기 설정된 간주구간 이하의 길이를 갖는 포즈구간을 기본호흡구간으로 파악하는 기능을 제공한다.
즉, 기 설정된 간주구간 이하 길이를 가지는 기본호흡구간은 실제 사람이 호흡을 위해 발성을 멈춘 구간이라고 파악될 수 있다.
여기서, 간주구간이라 함은 사람의 음성이 연속적으로 발생하였을 경우 이를 구간이라고 하였을 때, 복수의 구간 사이에 발생하게 되는 부분을 의미한다. 예를 들어, 사람이 비명을 지르다가 중간에 약 60초 동안 멈춘 후 다시 비명을 지를 수 있으며, 이렇게 비명을 멈춘 구간을 간주구간이라고 파악할 수 있다.
이때, 간주구간을 기 설정할 수 있는데 예를 들어 10초, 30초, 60초 등으로 다양하게 설정할 수 있으며, 기 설정된 간주구간이 30초라고 할 때 상술한 예시의 간주구간은 60초이므로 기본호흡구간으로 파악되지 않는 것이다.
추가호흡파악파트(303)는 두 개의 상기 호흡구간 사이에서의 상기 음성파형정보의 성량변화를 기반으로 추가호흡구간을 파악하는 기능을 수행하는 것으로서, 상술한 바와 같이 두 개의 상기 호흡구간 사이, 즉 한 번의 호흡으로 발성이 이어진 구간 내에서 음성파형정보의 성량변화를 기반으로 포즈로써 감지되지 못한 추가호흡구간을 산출하는 것이다. 이는 숨을 내쉬고 호흡이 끝날 쯤, 즉 마지막 숨을 내쉬는 구간에서 일반적으로 성량이 순간 커지는 것에서 착안한 것으로서, 성량이 미세하게 호흡구간 내에서 급격하게 커진 후 내려오는 경우 이를 추가호흡을 위한 짧은 호흡구간인 것으로 파악하고 추가호흡구간으로 판단하는 것이다.
호흡량산출파트(304)는 상기 기본호흡구간 및 상기 추가호흡구간을 기반으로 총 호흡구간수 및 총 호흡시간을 포함하는 개별호흡량을 산출하는 역할을 수행하는 것으로서, 각각의 기본호흡구간 및 추가호흡구간을 통해 호흡을 수행한 횟수인 총호흡구간수와, 호흡을 위해 들인 시간인 총호흡시간(이는 포즈의 길이를 통해 산출할 수 있다.)을 포함하는 사람의 개별호흡량을 산출하도록 하는 기능을 수행한다.
더 나아가, 호흡패턴생성부(310)는 길이파악파트(311), 호흡가능구간파악파트(312), 확정호흡구간산출파트(313)를 더 포함함으로써 이상음원 내 음성의 감정을 포함한 특징정보를 더욱 잘 분석 및 파악할 수 있다.
길이파악파트(311)는 상기 이상음원의 길이를 파악하는 역할을 수행하는 것으로서, 이는 이상음원의 길이, 즉 사람의 음성이 재생되는데 걸리는 시간을 파악하는 것이므로 별다른 설명을 생략하기로 한다.
호흡가능구간파악파트(312)는 상기 이상음원의 음성파형정보를 분석하여 기 설정된 기준포즈구간 이하의 길이를 갖는 포즈구간을 호흡가능구간으로 지정하는 기능을 제공하는 것으로서, 이때 기준포즈구간이라 함은 중간에 호흡을 가능케 하는 구간인 포즈구간 중에서, 너무 긴 포즈간격을 갖는 포즈구간을 일컫는다. 이는 상술한 간주구간과 일맥상통한다고 할 수도 있으며, 호흡가능구간이 너무 길게 산출되어 실제에 적용하기 힘든 경우 이상음원마다 설정된 기준포즈구간 이하의 길이를 갖는 포즈구간, 즉 호흡이 가능한 정도의 텀을 갖는, 예를 들어 0.1초 내지 1분 내의 포즈가 진행되는 포즈구간 중 기준포즈구간, 즉 간주로 여겨지지 않는 정도의 길이 이하의 길이를 갖는 포즈구간을 호흡가능구간으로 지정하는 것이다.
확정호흡구간산출파트(313)는 상기 호흡가능구간과 상기 개별호흡량을 비교 처리하여 호흡패턴을 산출하는 역할을 수행하는 것으로서, 산출된 호흡가능구간을 통해 특정 이상음원에 대해 어느 시점에서 호흡이 가능한지, 몇 번의 호흡이 가능한지, 호흡 가능한 시간은 얼마인지에 대해 먼저 파악한 후, 그를 호흡을 수행한 횟수인 총호흡구간수와, 호흡을 위해들인 시간인 총호흡시간(이는 포즈의 길이를 통해 산출할 수 있다.)을 포함하는 사람의 호흡패턴을 산출하는 것이다.
구체적으로, 확정호흡구간산출파트(313)는 다음의 수학식 3을 통해 상기 호흡가능구간과 상기 개별호흡량을 기반으로 확정호흡구간을 결정하며, 다음의 수학식 4를 통해 상기 확정호흡구간 사이의 간격을 산출하여 호흡패턴을 최종 산출할 수 있다.
수학식 3.
Figure 112020027450486-pat00023
여기서,
Figure 112020027450486-pat00024
는 Mann-Kendall 통계값의 분산 추정값,
Figure 112020027450486-pat00025
는 개별호흡량의 수,
Figure 112020027450486-pat00026
는 개별호흡구간의 수,
Figure 112020027450486-pat00027
는 기본호흡구간과 일치하는 추가호흡구간의 수,
Figure 112020027450486-pat00028
은 포즈구간의 전체 수를 의미한다.
수학식 4.
Figure 112020027450486-pat00029
여기서,
Figure 112020027450486-pat00030
는 확정호흡구간 사이의 간격,
Figure 112020027450486-pat00031
는 양측검증 통계값,
Figure 112020027450486-pat00032
는 오차 허용률,
Figure 112020027450486-pat00033
는 수학식 1을 통해 산출된 Mann-Kendall 통계값의 분산 추정값을 의미한다.
먼저 수학식 3은 Mann-Kendall 통계값의 분산 추정값을 이용하여 상기 호흡가능구간과 상기 개별호흡량을 비교 처리하고 Sen의 경향성 분석법을 적용하여 확정호흡구간, 즉 비교 처리한 값을 기반으로 신뢰 가능한 구간을 결정하여 확정호흡구간을 결정하는 것이며, 수학식 4에서는 해당 구간, 즉 확정호흡구간 사이의 간격을 파악함으로써 호흡패턴을 산출하게 되는 것이다.
결과적으로 호흡패턴은 수학식 3을 통해 산출된 통계값의 분산 추정값에 양측검증 통계값, 그리고 오차 허용률을 반영하여 생성되는 것이며, 이와 같은 통계 분산의 경우 Mann-Kendall 통계값 및 Sen의 경향성 분석법을 적용하여 산출하는 것이므로 이를 참고하면 된다.
따라서 이와 같은 통계 및 경향성 분석, 그리고 검증을 수행하는 방식을 통해 호흡패턴을 산출함으로써 호흡패턴 생성의 신뢰도를 높일 수 있는 것이며, 보다 표준화 및 수치화된 호흡 구간 및 호흡패턴의 결정이 가능해지는 것이다.
도 6은 영상 출력장치에 텍스트를 출력하는 상태를 예시한 개념도이다.
또 다른 실시예로서, 사운드 분석모듈(200)은 텍스트 변환부(320)를 포함할 수 있다.
텍스트 변환부(320)는 상기 사운드를 STT 기능에 의해 텍스트로 변환하는 역할을 수행한다.
이때, STT(Speech To Text) 기능이라 함은 음성문자 자동변환 기술로서 사운드, 바람직하게는 사람의 음성을 인식하여 텍스트로 변환하는 기술이며, 이는 이미 공지된 기술이므로 이에 대한 구체적인 원리 및 설명은 생략하도록 한다.
이에 따라, 출력 제어모듈(500)은 텍스트 표시부(520)를 포함할 수 있다.
텍스트 표시부(520)는 상기 사운드를 상기 영상 출력장치(400)에 출력 시 상기 텍스트를 상기 시각적으로 출력하는 기능을 제공한다.
예를 들어, 도 6과 같이 음성수집장치(12)를 통해 사람의 음성이 수집될 수 있으며 구체적으로 "도와주세요"일 수 있으며, STT 기능에 의해 텍스트로 변환되어 영상 출력장치(400)의 일 측에 "도와주세요"가 출력될 수 있다.
이러한 기능을 통해 사운드가 시각화됨으로써 영상과 사운드의 분석 효율을 더욱 향상시킬 수 있다.
지금까지 설명한 바와 같이, 본 발명에 따른 소리 특성을 분석하여 영상과 함께 출력하는 CCTV 감시 시스템을 상기 설명 및 도면에 표현하였지만 이는 예를 들어 설명한 것에 불과하여 본 발명의 사상이 상기 설명 및 도면에 한정되지 않으며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 다양한 변화 및 변경이 가능함은 물론이다.
1: 시스템 10: CCTV 어셈블리
11: 카메라 12: 음성수집장치
13: 회전부 20: 중앙관제서버
100: 수신모듈 200: 사운드 분석모듈
210: 데시벨 측정부 220: 데시벨 분석부
230: 융합 측정부 240: 이상음원 파악부
250: 이상음원 분석부 260: 정규화 처리부
270: 이상음원 데이터베이스 280: 이상음원 정의부
290: 파형정보 생성부 300: 호흡량분석부
301: 포즈파악파트 302: 호흡구간파악파트
303: 추가호흡파악파트 304: 호흡량산출파트
310: 호흡패턴 생성부 311: 길이파악파트
312: 호흡가능구간파악파트 313: 확정호흡구간산출파트
320: 텍스트 변환부 400: 영상 출력장치
500: 출력 제어모듈 510: 식별정보 표시부
520: 텍스트 표시부

Claims (12)

  1. 소리 특성을 분석하여 영상과 함께 출력하는 CCTV 감시 시스템으로서,
    영상을 촬영하는 카메라와, 사운드를 입력받는 음성수집장치를 구비한 CCTV 어셈블리;
    상기 영상과 사운드를 입력받는 수신 모듈과,
    상기 사운드를 분석하여 사운드 레벨을 결정하는 것으로서, 상기 사운드의 데시벨 및 주파수의 변화를 측정하는 융합 측정부와, 상기 주파수와 데시벨의 분석으로 이상음원인지 여부를 파악하는 이상음원 파악부 및, 상기 사운드에 대한 이상음원 유무 및 개수의 고저에 따라 상기 사운드 레벨을 결정하는 이상음원 분석부로 이루어진 사운드 분석모듈 및,
    상기 영상을 출력하는 영상 출력장치와,
    상기 사운드 레벨이 기 설정된 레벨 수치보다 높을 시 상기 사운드를 녹음하여 상기 영상과 함께 상기 사운드를 상기 영상 출력장치에 출력하는 출력 제어모듈을 포함한 중앙관제서버;를 포함하되,
    상기 사운드 분석모듈은,
    상기 이상음원의 성질을 주파수와 데시벨을 기준으로 분석하여 정의한 이상음원 데이테베이스와, 상기 이상음원을 상기 이상음원 데이터베이스와 비교하여 상기 이상음원을 정의한 식별정보를 생성하는 이상음원 정의부 및, 상기 식별정보가 사람의 음성으로 정의 시, 상기 사운드를 증폭하여 음성파형정보를 생성하는 파형정보 생성부와, 상기 음성파형정보로부터 개별호흡량을 분석하는 호흡량분석부 및, 상기 호흡량분석부를 기반으로 상기 사운드의 호흡패턴을 생성하는 호흡패턴 생성부를 포함하고,
    상기 출력 제어모듈은,
    상기 사운드를 상기 영상 출력장치에 출력 시 상기 식별정보를 문자로 표시한 식별정보를 상기 영상의 일 측에 함께 표시하는 식별정보 표시부를 포함한 상태에서, 상기 호흡패턴에 따라 상기 식별정보의 색상을 차등 처리하여 출력하는 기능을 포함하며,
    상기 호흡량분석부는,
    상기 음성파형정보로부터 포즈(pause)구간을 파악하는 포즈파악파트와, 상기 포즈구간 중 기 설정된 간주구간 이하의 길이를 갖는 포즈구간을 기본호흡구간으로 파악하는 호흡구간파악파트 및, 두 개의 상기 호흡구간 사이에서의 상기 음성파형정보의 성량변화를 기반으로 추가호흡구간을 파악하는 추가호흡파악파트 및, 상기 기본호흡구간 및 상기 추가호흡구간을 기반으로 총 호흡구간수 및 총 호흡시간을 포함하는 개별호흡량을 산출하는 호흡량산출파트를 포함하고,
    상기 호흡패턴생성부는,
    상기 이상음원의 길이를 파악하는 길이파악파트 및, 상기 이상음원의 음성파형정보를 분석하여 기 설정된 기준포즈구간 이하의 길이를 갖는 포즈구간을 호흡가능구간으로 지정하는 호흡가능구간파악파트와, 상기 호흡가능구간과 상기 개별호흡량을 비교 처리하여 호흡패턴을 산출하는 확정호흡구간산출파트를 포함하는 것을 특징으로 하는, CCTV 감시 시스템.
  2. 제 1항에 있어서,
    상기 CCTV 어셈블리는,
    상기 카메라를 일정 반경으로 회전시키는 회전부를 포함하고,
    상기 출력 제어모듈은,
    상기 사운드를 상기 영상 출력장치에 출력 시 상기 회전부를 구동하여 상기 카메라를 회전시키는 기능을 포함하는 것을 특징으로 하는, CCTV 감시 시스템.
  3. 제 1항에 있어서,
    상기 사운드 분석모듈은,
    상기 사운드의 데시벨(dB)을 측정하는 데시벨 측정부와,
    상기 데시벨의 고저에 따라 상기 사운드 레벨을 결정하는 데시벨 분석부로 이루어진 것을 특징으로 하는, CCTV 감시 시스템.
  4. 제 1항에 있어서,
    상기 이상음원 파악부는,
    일정 시간 단위를 구간으로 설정하여 다음의 수학식 1을 통해 구간 이상음원 지수를 파악하는 기능을 포함하고,
    상기 이상음원 분석부는,
    상기 구간 이상음원 지수의 고저에 따라 상기 사운드 레벨을 결정하는 기능을 포함하는 것을 특징으로 하는, CCTV 감시 시스템.
    수학식 1.
    Figure 112020055969493-pat00034

    (여기서,
    Figure 112020055969493-pat00035
    은 구간 이상음원 지수,
    Figure 112020055969493-pat00036
    는 구간 내 추출된 이상음원의 개수,
    Figure 112020055969493-pat00037
    은 정규화수 0.1이고,
    Figure 112020055969493-pat00038
    이 자연수가 아닐 경우 반올림 처리)
  5. 제 4항에 있어서,
    상기 사운드 분석모듈은,
    다음의 수학식 2를 통해 상기 구간 이상음원 지수를 정규화 수치로 산출하는 정규화 처리부를 포함하고,
    상기 이상음원 분석부는,
    상기 정규화 수치의 고저에 따라 상기 사운드 레벨을 결정하는 기능을 포함하는 것을 특징으로 하는, CCTV 감시 시스템.
    수학식 2.
    Figure 112020055969493-pat00039

    (여기서,
    Figure 112020055969493-pat00040
    는 정규화 수치,
    Figure 112020055969493-pat00041
    은 구간 이상음원 지수,
    Figure 112020055969493-pat00042
    은 조절변수로서 1<
    Figure 112020055969493-pat00043
    <3,
    Figure 112020055969493-pat00044
    는 구간의 시간 단위(시간))
  6. 제 1항에 있어서,
    상기 확정호흡구간산출파트는,
    다음의 수학식 3을 통해 상기 호흡가능구간과 상기 개별호흡량을 기반으로 확정호흡구간을 결정하며,
    다음의 수학식 4를 통해 상기 확정호흡구간 사이의 간격을 산출하여 호흡패턴을 최종 산출하는 것을 특징으로 하는, CCTV 감시 시스템.
    수학식 3.
    Figure 112020055969493-pat00045

    (여기서,
    Figure 112020055969493-pat00046
    는 Mann-Kendall 통계값의 분산 추정값,
    Figure 112020055969493-pat00047
    는 개별호흡량의 수,
    Figure 112020055969493-pat00048
    는 개별호흡구간의 수,
    Figure 112020055969493-pat00049
    는 기본호흡구간과 일치하는 추가호흡구간의 수,
    Figure 112020055969493-pat00050
    은 포즈구간의 전체 수를 의미한다)
    수학식 4.
    Figure 112020055969493-pat00051

    (여기서,
    Figure 112020055969493-pat00052
    는 확정호흡구간 사이의 간격,
    Figure 112020055969493-pat00053
    는 양측검증 통계값,
    Figure 112020055969493-pat00054
    는 오차 허용률,
    Figure 112020055969493-pat00055
    는 수학식 1을 통해 산출된 Mann-Kendall 통계값의 분산 추정값을 의미한다.)
  7. 제 1항에 있어서,
    상기 사운드 분석모듈은,
    상기 사운드를 STT 기능에 의해 텍스트로 변환하는 텍스트 변환부를 포함하고,
    상기 출력 제어모듈은,
    상기 사운드를 상기 영상 출력장치에 출력 시 상기 텍스트를 시각적으로 출력하는 텍스트 표시부를 포함하는 것을 특징으로 하는, CCTV 감시 시스템.
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
KR1020200031961A 2020-03-16 2020-03-16 소리 특성을 분석하여 영상과 함께 출력하는 cctv 감시 시스템 KR102154776B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200031961A KR102154776B1 (ko) 2020-03-16 2020-03-16 소리 특성을 분석하여 영상과 함께 출력하는 cctv 감시 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200031961A KR102154776B1 (ko) 2020-03-16 2020-03-16 소리 특성을 분석하여 영상과 함께 출력하는 cctv 감시 시스템

Publications (1)

Publication Number Publication Date
KR102154776B1 true KR102154776B1 (ko) 2020-09-11

Family

ID=72472667

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200031961A KR102154776B1 (ko) 2020-03-16 2020-03-16 소리 특성을 분석하여 영상과 함께 출력하는 cctv 감시 시스템

Country Status (1)

Country Link
KR (1) KR102154776B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220141017A (ko) * 2021-04-12 2022-10-19 주식회사 엘지유플러스 영상 분석 대상 판별 서버 및 그 제어방법
KR102484948B1 (ko) 2022-09-22 2023-01-09 주식회사 엔브이티 과소음 차량 단속 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190125232A (ko) * 2019-07-18 2019-11-06 주식회사 경림이앤지 카메라와 마이크와 a/v 컨트롤러를 구비하는 이상음원 탐지 단말과 cctv 시스템에서 이상 음원 탐지 시스템 및 방법
JP2019208876A (ja) * 2018-06-05 2019-12-12 株式会社東芝 呼吸センサ、呼吸検出装置、生体情報処理装置、生体情報処理方法、コンピュータプログラム及びマインドフルネス支援装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019208876A (ja) * 2018-06-05 2019-12-12 株式会社東芝 呼吸センサ、呼吸検出装置、生体情報処理装置、生体情報処理方法、コンピュータプログラム及びマインドフルネス支援装置
KR20190125232A (ko) * 2019-07-18 2019-11-06 주식회사 경림이앤지 카메라와 마이크와 a/v 컨트롤러를 구비하는 이상음원 탐지 단말과 cctv 시스템에서 이상 음원 탐지 시스템 및 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220141017A (ko) * 2021-04-12 2022-10-19 주식회사 엘지유플러스 영상 분석 대상 판별 서버 및 그 제어방법
KR102527133B1 (ko) * 2021-04-12 2023-05-02 주식회사 엘지유플러스 영상 분석 대상 판별 서버 및 그 제어방법
KR102484948B1 (ko) 2022-09-22 2023-01-09 주식회사 엔브이티 과소음 차량 단속 시스템

Similar Documents

Publication Publication Date Title
EP3591633B1 (en) Surveillance system and surveillance method using multi-dimensional sensor data
CN109583278B (zh) 人脸识别报警的方法、装置、系统及计算机设备
KR102154776B1 (ko) 소리 특성을 분석하여 영상과 함께 출력하는 cctv 감시 시스템
CN111712183A (zh) 耳内非语言音频事件分类系统和方法
US20220007964A1 (en) Apparatus and method for detection of breathing abnormalities
BRPI0621897B1 (pt) “sistema de vigilância utilizando reconhecimento de vídeo e áudio, método de vigilância e dispositivo de armazenamento legível por uma máquina”
JP2012048689A (ja) 異常検知装置
KR102465105B1 (ko) 열화상 복합 데이터를 이용한 ai 모델 기반 재난을 감지하는 방법 및 이를 수행하는 전자 장치
TWI222622B (en) Robotic vision-audition system
CN110634506A (zh) 一种语音数据的处理方法及装置
KR101736466B1 (ko) 음향 정보 기반 상황 인식 장치 및 방법
CN116129490A (zh) 一种用于复杂环境行为识别的监控装置及监控方法
KR102488741B1 (ko) 현장 상황 식별성이 향상된 비상벨 시스템
KR102029760B1 (ko) 사용자 감정 분석을 이용한 이벤트 탐지 시스템 및 방법
JP5627962B2 (ja) 異常検知装置
CN110031976A (zh) 一种具有报警功能的眼镜及其控制方法
CN113553996A (zh) 一种基于深度学习神经网络情绪识别的危险人物发现系统
JP5669302B2 (ja) 行動情報収集システム
US11547366B2 (en) Methods and apparatus for determining biological effects of environmental sounds
JP5907487B2 (ja) 情報伝送システム、送信装置、受信装置、情報伝送方法、およびプログラム
JP4859130B2 (ja) 監視システム
KR20230017444A (ko) 드론을 이용한 방역수칙준수 감시방법
KR20220170673A (ko) 폐음 기반 폐질환 분석 장치 및 방법
CN107111921A (zh) 用于有效的可听警报设置的方法和设备
Garcia et al. Development of a Non-contact Cough Recognition System with Face Mask Detection and Distance Assistance using Convolutional Neural Networks

Legal Events

Date Code Title Description
N231 Notification of change of applicant
GRNT Written decision to grant