KR101794260B1 - 음성인식을 이용한 보안등 및 보안시스템 - Google Patents

음성인식을 이용한 보안등 및 보안시스템 Download PDF

Info

Publication number
KR101794260B1
KR101794260B1 KR1020170014951A KR20170014951A KR101794260B1 KR 101794260 B1 KR101794260 B1 KR 101794260B1 KR 1020170014951 A KR1020170014951 A KR 1020170014951A KR 20170014951 A KR20170014951 A KR 20170014951A KR 101794260 B1 KR101794260 B1 KR 101794260B1
Authority
KR
South Korea
Prior art keywords
emergency
unit
signal
speech recognition
voice
Prior art date
Application number
KR1020170014951A
Other languages
English (en)
Inventor
윤형관
이풍우
윤태식
김성진
Original Assignee
인성 엔프라 주식회사
주식회사 보임
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인성 엔프라 주식회사, 주식회사 보임 filed Critical 인성 엔프라 주식회사
Priority to KR1020170014951A priority Critical patent/KR101794260B1/ko
Application granted granted Critical
Publication of KR101794260B1 publication Critical patent/KR101794260B1/ko

Links

Images

Classifications

    • H05B37/0236
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • G08B13/196Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B25/00Alarm systems in which the location of the alarm condition is signalled to a central station, e.g. fire or police telegraphic systems
    • G08B25/12Manually actuated calamity alarm transmitting arrangements emergency non-personal manually actuated alarm, activators, e.g. details of alarm push buttons mounted on an infrastructure
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Emergency Management (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Alarm Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 보안장치의 내부에 설치되어 근거리영상을 획득하는 내장카메라와, 지주의 상부에 설치되어 원거리영상인 감시영상을 획득하는 감시카메라를 포함하고, 긴급 상황 발생 시 내장카메라 및 감시카메라에 의해 획득된 근거리영상 및 감시영상이 관제센터서버로 전송됨으로써 긴급 상황에 대한 신속한 대응이 이루어질 수 있을 뿐만 아니라 영상 모니터링을 통해 긴급 상황에 대한 정보를 더욱 정확하게 인지할 수 있으며, 보안장치가 감시영상을 분석하여 객체가 프레임상으로부터 벗어나는 경우, 객체의 도주방향을 검출하도록 구성됨으로써 범죄자의 도주에 대해 신속하게 대처할 수 있고, 보안장치가 긴급 상황 발생 시 기 설정된 카테고리 테이블을 활용하여 발생된 긴급 상황의 종류 및 위험수위를 검출하도록 구성됨으로써 긴급 상황에 대한 보다 자세한 정보를 검출할 수 있으며, 서로 다른 알고리즘이 적용되는 멀티 음성인식모듈을 이용하여 음성인식의 정확성을 높여 긴급 상황에 대한 신속한 대처 및 경보가 이루어질 수 있는 보안등 및 보안시스템에 관한 것이다.

Description

음성인식을 이용한 보안등 및 보안시스템{safety light and safety system using voice recognition}
본 발명은 보안등과 보안등 지주에 설치되는 음성인식모듈 및 카메라를 이용한 보안시스템에 관한 것이다.
보안등이란, 실외에 설치되어 야간의 안전한 보행을 위한 목적으로 조명을 제공하는 장치이다.
특히, 최근 들어 다양한 범죄사고 발생률이 증가하고 있고, 이러한 범죄사고가 이루어지는 장소가 주로 인적이 드물면서 타인으로부터 시야가 확보되지 않은 어두운 장소에서 이루어지는 특성을 갖기 때문에 이러한 장소에 보안등을 설치하여 다양한 범죄 사고를 미연에 방지하고 있다.
그러나 종래의 보안등은 단순히 실외의 지주의 상측에 설치되어 조명영역을 제공하는 기능만을 수행하기 때문에 범죄가 이루어지는 경우 별도의 대응 및 동작을 수행하지 못하여 보안성이 떨어지는 구조적 한계를 갖는다.
이에 따라, 보안등 지주에 설치되어 비상벨이 접촉(푸시) 될 때 긴급 상황을 외부로 전파하는 비상벨 장치가 연구되어 널리 사용되고 있으나, 종래의 보안등에 설치되는 비상벨 장치는 사용자와의 물리적인 접촉(푸시)을 통해서만 구동되기 때문에 실제 긴급 상황에 처한 당사자가 범죄자가 지켜보는 상황에서 직접 비상벨이 설치된 위치로 이동한 후 비상벨을 조작(푸시)하기가 어려워 보안의 효율성이 현저히 떨어지는 단점을 갖는다.
이에 따라 마이크로폰을 통해 수집된 음향신호의 데시벨 크기를 임계치에 비교하여 긴급 상황을 감지하도록 하는 기술이 연구되었으나, 이러한 방식은 긴급 상황과 무관한 소리에도 반응하기 때문에 오동작 및 에러가 높아 신뢰도가 떨어지는 문제점이 발생하거나 또는 긴급 상황을 알리는 음성인식의 정확성이 떨어짐으로서 보안장치로서의 제 기능을 수행하지 못하고 있다.
도 1은 국내등록특허 제10-1273654호(발명의 명칭 : 아이피 카메라가 부착된 브이오아이피 기반의 방범용 비상벨 시스템 및 이를 포함하는 방범시스템)에 개시된 비상벨 시스템을 나타내는 구성도이다.
도 1의 비상벨 시스템(이하 종래기술이라고 함)(100)은 IP 카메라가 부착되고 VoIP 기반으로 작동하는 방범용 비상벨 시스템(101)들과, 방범용 비상벨 시스템(101)들과 통신하며 VoIP 폰(131)을 포함하는 통합 관제 서버(103)로 이루어진다.
또한 방범용 비상벨 시스템(101)은 이벤트 발생 시 사용자로부터 버튼을 입력받아 방범용 비상벨 시스템(101)을 작동시키는 비상 버튼(111)과, 통합 관제 서버(103)로부터 전송받은 음성을 출력하는 스피커(112)와, 이벤트 발생 시 생성되는 음성을 입력하는 마이크(113)와, 비상 버튼(111)과 인접하여 위치하고 비상 버튼(111)이 입력됨과 동시에 자동으로 작동하는 IP 카메라(114)와, 비상 버튼(111), 스피커(112), 마이크(113) 및 IP 카메라(114)의 작동을 제어하는 제어 모듈(115)로 이루어진다.
이와 같이 구성되는 종래기술(100)은 통합 관제 서버(103)의 VoIP 폰(131)을 이용하여 음성 통신이 이루어져 신속한 대응이 가능하며, 비상 버튼 입력 시 자동으로 작동하는 IP 카메라(114)에 의하여 긴급 상황에 대한 주변 영상을 정확하게 촬영할 수 있는 장점을 갖는다.
그러나 종래기술(100)은 전술하였던 바와 같이, 긴급 상황에 처한 피해자가 비상버튼(111)을 직접 푸시 하여야 이벤트가 발생하기 때문에 긴급 상황에 처한 당사자가 범죄자가 지켜보는 상황에서 직접 비상벨이 설치된 위치로 이동한 후 비상벨을 조작(푸시)하기가 어려워 보안의 효율성이 현저히 떨어지는 단점을 갖는다.
이러한 문제점을 해결하기 위하여, 최근에 널리 사용되고 있는 음성인식모듈을 종래기술(100)에 포함한다고 하더라도, 외부 잡음이 많은 야외의 특성 상 입력되는 음향신호에 잡음신호가 많이 포함하여 음성 인식률이 떨어지는 문제점이 발생한다.
또한 종래기술(100)은 단순히 이벤트가 발생된 이후 대응을 위한 것이기 때문에 발생된 이벤트를 범죄예방 및 차단에 2차적으로 활용하지 못하고, 이에 따라 범죄를 사전에 예방하지 못하는 단점을 갖는다.
또한 종래기술(100)은 IP 카메라(114)가 이벤트 발생 시 단순히 특정영역만을 촬영하는 영상획득의 목적으로만 사용되기 때문에 영상분석을 통한 다양한 2차서비스를 제공할 수 없는 구조적 한계를 갖는다.
본 발명은 이러한 문제를 해결하기 위한 것으로, 본 발명의 해결과제는 보안장치의 내부에 설치되어 근거리영상을 획득하는 내장카메라와, 지주의 상부에 설치되어 원거리영상인 감시영상을 획득하는 감시카메라를 포함하고, 긴급 상황 발생 시 내장카메라 및 감시카메라에 의해 획득된 근거리영상 및 감시영상이 관제센터서버로 전송됨으로써 긴급 상황에 대한 신속한 대응이 이루어질 수 있을 뿐만 아니라 영상 모니터링을 통해 긴급 상황에 대한 정보를 더욱 정확하게 인지할 수 있는 보안등 및 보안시스템을 제공하기 위한 것이다.
또한 본 발명의 다른 해결과제는 보안장치가 감시영상을 분석하여 객체가 프레임상으로부터 벗어나는 경우, 객체의 도주방향을 검출하도록 구성됨으로써 범죄자의 도주에 대해 신속하게 대처할 수 있는 보안등 및 보안시스템을 제공하기 위한 것이다.
또한 본 발명의 또 다른 해결과제는 보안장치가 긴급 상황 발생 시 기 설정된 카테고리 테이블을 활용하여 발생된 긴급 상황의 종류 및 위험수위를 검출하도록 구성됨으로써 긴급 상황에 대한 보다 자세한 정보를 검출할 수 있는 보안등 및 보안시스템을 제공하기 위한 것이다.
또한 본 발명의 또 다른 해결과제는 서로 다른 알고리즘이 적용되는 멀티 음성인식모듈을 이용하여 음성인식의 정확성을 높여 긴급 상황에 대한 신속한 대처 및 경보가 이루어지는 보안등 및 보안시스템을 제공하기 위한 것이다.
또한 본 발명의 또 다른 해결과제는 음성인식부가 2개의 마이크로폰들로부터 입력되는 음향신호(H1), (H2)들 각각으로부터 원신호(S1), (S2) 및 잡음신호(N1), (N2)들을 분리한 후 원신호(S1), (S2)를 합산하여 1차 원신호(X1)를 검출하는 제1 음성인식모듈과, 다른 마이크로폰으로부터 입력되는 음향신호(H3)로부터 원신호(S3) 및 잡음신호(N3)를 분리한 후 분리된 원신호(S3)를 제1 음성인식모듈로부터 입력되는 1차 원신호(X1)와 합산하여 최종 원신호(X2)를 검출하는 제2 음성인식모듈을 포함함으로써 잡음제거 시 원신호가 함께 제거되는 현상을 상쇄시켜 음성인식의 정확성 및 신뢰도를 높일 수 있는 보안등 및 보안시스템을 제공하기 위한 것이다.
또한 본 발명의 또 다른 해결과제는 음성인식모듈들에 의하여 원신호의 검출이 반복적으로 수행됨으로써 음성을 정확하고 정밀하게 검출할 수 있는 보안등 및 보안시스템을 제공하기 위한 것이다.
또한 본 발명의 또 다른 해결과제는 제1 음성인식모듈 및 제2 음성인식모듈이 서로 다른 신호분리 알고리즘을 이용하여 음향신호로부터 원신호 및 잡음신호를 분리하도록 구성됨으로써 각 신호분리 알고리즘의 장점은 부각시키되, 단점을 서로 상쇄시켜 음성인식의 정확성을 더욱 높일 수 있는 보안등 및 보안시스템을 제공하기 위한 것이다.
또한 본 발명의 또 다른 해결과제는 각 마이크로폰이 입력신호로부터 잡음회귀현상을 제거하기 위한 음향반향삭제(AEC, Acoustic Echo Cancellation)가 적용됨으로써 동적 잡음원을 적응적으로 제거할 수 있는 보안등 및 보안시스템을 제공하기 위한 것이다.
상기 과제를 해결하기 위한 본 발명의 해결수단은 마이크로폰들, 내장카메라 및 제어부를 포함하고, 음성인식을 통해 긴급 상황 발생여부를 판단하며, 긴급 상황이 발생되었다고 판단될 때 상기 내장카메라를 구동시켜 근거리영상을 획득하는 보안장치;
긴급 상황 발생 시 상기 보안장치로부터 근거리영상을 전송받아 모니터링 하는 관제센터서버;
상기 보안장치가 설치된 장소를 촬영하여 감시영상을 획득하는 감시카메라;
보안등을 포함하고,
상기 제어부는
상기 마이크로폰들에 의해 획득된 음향신호들을 분석하여 음성단어를 결정하는 음성처리 및 관리부;
긴급 상황이라고 판단할 수 있는 음성단어로 정의되는 비교대상문자들이 저장되는 메모리;
상기 음성처리 및 관리부에 의해 결정된 음성단어와 상기 메모리에 저장된 상기 비교대상문자들 각각의 연관관계를 검출한 후 검출된 연관관계가 임계치를 넘어서는 경우 긴급 상황이 발생하였다고 판단하는 긴급 상황 판단부를 더 포함하고, 상기 보안등은 지주의 상부에 설치되고, 상기 보안장치는 상기 지주의 일측에 설치되고, 상기 감시카메라는 상기 지주의 상측에 설치되어 하부를 향하여 촬영하고, 상기 제어부는 상기 긴급 상황 판단부에 의해 긴급 상황이 발생되었다고 판단될 때 상기 감시카메라를 구동시키고, 상기 감시카메라에 의해 획득된 영상인 감시영상을 상기 관제센터서버로 전송하고, 상기 제어부는 상기 감시카메라가 촬영하는 촬영영역에 대한 실제 거리지도 상에서 상기 촬영영역에 연결되는 진출로들에 대한 프레임 상에서의 위치정보인 진출로위치정보들이 기 설정되어 저장되는 메모리와, 상기 감시카메라에 의해 획득된 감시영상을 분석하는 감시영상 분석부를 더 포함하고, 상기 감시영상 분석부는 상기 감시영상의 노이즈를 제거하는 제1 전처리모듈; 기 설정된 객체검출 알고리즘을 이용하여 상기 제1 전처리모듈에 의한 전처리 영상을 분석하여 영상 내 객체를 검출하는 객체검출모듈; 상기 감시영상의 연속 프레임들을 통해 상기 객체검출모듈에 의해 검출된 객체의 움직임을 추적하는 궤적추적모듈; 상기 궤적추적모듈에 의해 추적된 궤적정보를 통해 해당 객체가 영상으로부터 사라지는 경우 객체가 사라진 지점의 프레임상 위치정보를 검출하는 진출 위치정보 검출모듈; 상기 진출 위치정보 검출모듈에 의하여 검출된 진출 위치정보를 상기 메모리에 저장된 진출로위치정보들 각각과 비교하여 차이값이 임계치 미만인 진출로위치정보를 객체가 사라진 도주방향으로 결정하는 도주방향 결정모듈을 더 포함하고, 상기 제어부는 상기 도주방향 결정모듈에 의해 검출된 도주방향 정보를 상기 관제센터서버로 전송하는 것이다.
삭제
삭제
삭제
삭제
삭제
또한 본 발명에서 상기 메모리에는 상기 비교대상문자들 각각에 대한 카테고리 정보가 매칭되면서 각 카테고리의 위험도가 매칭된 데이터인 카테고리 테이블이 더 저장되고, 상기 제어부는 상기 긴급상황 판단부에 의해 긴급 상황이 발생되었다고 판단될 때 구동되며, 상기 메모리에 저장된 카테고리 테이블을 탐색하여 상기 긴급 상황 판단부에 의해 연관관계가 임계치를 넘은 비교대상문자에 대응되는 카테고리 정보와 위험도 정보를 검출하는 긴급상세정보 검출부를 더 포함하고, 상기 제어부는 상기 긴급상세정보 검출부에 의해 검출된 카테고리 정보 및 위험도 정보를 상기 관제센터서버로 전송하는 것이 바람직하다.
또한 본 발명에서 상기 제어부는 기 설정된 주기(T) 동안의 긴급 확인데이터와, 카테고리 정보, 위험도정보를 분석하여 주기(T) 별 긴급상황 발생회수, 긴급 상황 종류, 위험도에 대한 통계데이터인 2차 데이터를 생성하며, 주기(T) 동안 발생된 긴급상황의 위험도를 누적 한산한 후 합산된 값을 임계치에 비교하며, 위험도 합산값이 임계치 이상인 경우 해당 장소를 위험군으로 결정하는 2차 데이터 생성부를 더 포함하고, 상기 보안시스템은 상기 촬영영역의 진출입로에 설치되어 상기 제어부에 의해 제어되는 디스플레이 수단을 더 포함하고, 상기 제어부는 일정 주기마다 상기 2차 데이터 생성부에 의해 생성된 2차 데이터와, 위험군 정보를 상기 관제센터서버로 전송하며, 상기 2차 데이터 생성부에 의해 해당 장소가 위험군으로 결정되면, 상기 디스플레이 수단에 해당 장소가 위험군이라는 안내문구를 디스플레이 하는 것이 바람직하다.
또한 본 발명에서 상기 보안장치는 외면에 상기 마이크로폰들 및 상기 내장카메라의 렌즈가 설치되는 하우징; 상기 하우징의 외면에 설치되는 비상벨과, 스피커, 비상램프들을 더 포함하고, 상기 긴급 상황 판단부는 상기 비상벨이 조작(푸시) 될 때 긴급 상황이 발생하였다고 판단하고, 상기 제어부는 상기 긴급 상황 판단부에 의해 긴급 상황이 발생되었다고 판단될 때 구동되며, 상기 비상램프들을 점멸시키는 LED 모듈 구동부; 상기 긴급 상황 판단부에 의해 긴급 상황이 발생되었다고 판단될 때 구동되며, 상기 스피커를 통해 기 제작된 경보방송을 출력시키는 경보방송 출력부; 상기 긴급 상황 판단부에 의해 긴급 상황이 발생되었다고 판단될 때 구동되며, 상기 관제센터서버의 요원과의 데이터 통화를 중계하는 VoIP 관리부를 더 포함하는 것이 바람직하다.
또한 본 발명에서 상기 마이크로폰들은 제1, 2, 3 마이크로폰들을 포함하고, 상기 음성처리 및 관리부는 기 설정된 참조모델들이 저장되는 참조모델 데이터베이스부; 상기 제1, 2, 3 마이크로폰들에 의해 획득된 음향신호들을 입력받는 음향신호 입력부; 상기 음향신호 입력부에 의해 입력되는 음향신호들을 분석하여 원신호(X2)를 검출하는 음성인식부; 상기 음성인식부에 의해 검출된 원신호(X2)의 특징벡터를 추출한 후 추출된 특징벡터를 이용하여 특징파라미터를 생성하는 특징파라미터 생성부; 기 설정된 비교 알고리즘을 이용하여 상기 참조모델 데이터베이스부에 저장된 참조모델들과, 상기 특징파라미터 생성부에 의해 생성된 특징파라미터를 분석하여 상기 특징파라미터와 상기 참조모델들 각각의 신호패턴들의 일치정도로 정의되는 유사도들을 검출한 후 검출된 유사도가 최상인 참조모델을 검출하는 비교 및 매칭부; 상기 비교 및 매칭부에 의해 검출된 유사도가 최상인 참조모델에 대응되는 문자를 검색어로 하여 단어를 검색하며, 검색된 단어를 최종 출력하여 음성인식을 수행하는 단어결정부를 더 포함하는 것이 바람직하다.
또한 본 발명에서 상기 음성인식부는 제1, 2 마이크로폰들의 음향신호들로부터 원신호(S1), (S2)들 및 잡음신호(N1), (N2)들을 분리한 후 분리된 원신호(S1), (S2)들을 합산하여 1차 원신호(X1)를 검출하는 제1 음성인식모듈; 제3 마이크로폰의 음향신호로부터 원신호(S3) 및 잡음신호(N3)를 분리한 후 분리된 원신호(S3)를 상기 제1 음성인식모듈에 의해 검출된 1차 원신호(X1)에 합산하여 최종 원신호(X2)를 검출하는 제2 음성인식모듈을 더 포함하는 것이 바람직하다.
또한 본 발명에서 상기 제1 음성인식모듈과, 상기 제2 음성인식모듈은 서로 다른 방식의 제1 신호분리 알고리즘 및 제2 신호분리 알고리즘을 이용하여 음향신호로부터 원신호 및 잡음신호를 분리시키는 것이 바람직하다.
또한 본 발명에서 상기 음성인식부는 최종 원신호(X2)가 검출되면, 검출된 원신호(X2)의 초성에 기 설정된 모음을 조합하되, 종성을 삭제한 음절로 변환시키고, 상기 비교 및 매칭부는 입력된 음성과 참조음성 사이의 발음 속도와 길이의 차이를 보상하기 위하여 입력 특징파라미터와 참조모델을 비선형적으로 정합하여 가장 유사도가 높은 참조모델의 음성을 인식하기 위한 동적시간 워핑(DTW; Dynamic Time Warping) 알고리즘을 이용하여 특징파라미터와 참조모델들 각각의 유클리드 제곱 거리(Squared Euclidean Distance)를 산출한 후 그 거리가 가장 작은 참조모델을 특징파리미터와 가장 유사한 모델로 인식하고, 특징파라미터와의 유사도가 기 설정된 임계치 이내인 참조모델이 한 개인 경우 유사도가 가장 높은 참조모델을 입력음성을 결정하며, 특정파라미터와의 유사도가 기 설정된 임계치 이내인 참조모델이 2개 이상인 경우, 음성신호를 음소단위로 분리한 후 은닉 마르포크 모델(Hidden Markov model)을 통해 패턴 비교 알고리즘을 통해 유사도가 가장 높은 음소를 입력음성을 결정하는 것이 바람직하다.
상기 과제와 해결수단을 갖는 본 발명에 따르면 보안장치의 내부에 설치되어 근거리영상을 획득하는 내장카메라와, 지주의 상부에 설치되어 원거리영상인 감시영상을 획득하는 감시카메라를 포함하고, 긴급 상황 발생 시 내장카메라 및 감시카메라에 의해 획득된 근거리영상 및 감시영상이 관제센터서버로 전송됨으로써 긴급 상황에 대한 신속한 대응이 이루어질 수 있을 뿐만 아니라 영상 모니터링을 통해 긴급 상황에 대한 정보를 더욱 정확하게 인지할 수 있게 된다.
또한 본 발명에 의하면 보안장치가 감시영상을 분석하여 객체가 프레임상으로부터 벗어나는 경우, 객체의 도주방향을 검출하도록 구성됨으로써 범죄자의 도주에 대해 신속하게 대처할 수 있다.
또한 본 발명에 의하면보안장치가 긴급 상황 발생 시 기 설정된 카테고리 테이블을 활용하여 발생된 긴급 상황의 종류 및 위험수위를 검출하도록 구성됨으로써 긴급 상황에 대한 보다 자세한 정보를 검출할 수 있다.
또한 본 발명에 의하면 서로 다른 알고리즘이 적용되는 멀티 음성인식모듈을 이용하여 음성인식의 정확성을 높여 긴급 상황에 대한 신속한 대처 및 경보가 이루어지게 된다.
또한 본 발명에 의하면 음성인식부가 2개의 마이크로폰들로부터 입력되는 음향신호(H1), (H2)들 각각으로부터 원신호(S1), (S2) 및 잡음신호(N1), (N2)들을 분리한 후 원신호(S1), (S2)를 합산하여 1차 원신호(X1)를 검출하는 제1 음성인식모듈과, 다른 마이크로폰으로부터 입력되는 음향신호(H3)로부터 원신호(S3) 및 잡음신호(N3)를 분리한 후 분리된 원신호(S3)를 제1 음성인식모듈로부터 입력되는 1차 원신호(X1)와 합산하여 최종 원신호(X2)를 검출하는 제2 음성인식모듈을 포함함으로써 잡음제거 시 원신호가 함께 제거되는 현상을 상쇄시켜 음성인식의 정확성 및 신뢰도를 높일 수 있다.
또한 본 발명에 의하면 음성인식모듈들에 의하여 원신호의 검출이 반복적으로 수행됨으로써 음성을 정확하고 정밀하게 검출할 수 있다.
또한 본 발명에 의하면 제1 음성인식모듈 및 제2 음성인식모듈이 서로 다른 신호분리 알고리즘을 이용하여 음향신호로부터 원신호 및 잡음신호를 분리하도록 구성됨으로써 각 신호분리 알고리즘의 장점은 부각시키되, 단점을 서로 상쇄시켜 음성인식의 정확성을 더욱 높일 수 있게 된다.
또한 본 발명에 의하면 각 마이크로폰이 입력신호로부터 잡음회귀현상을 제거하기 위한 음향반향삭제(AEC, Acoustic Echo Cancellation)가 적용됨으로써 동적 잡음원을 적응적으로 제거할 수 있다.
도 1은 국내등록특허 제10-1273654호(발명의 명칭 : 아이피 카메라가 부착된 브이오아이피 기반의 방범용 비상벨 시스템 및 이를 포함하는 방범시스템)에 개시된 비상벨 시스템을 나타내는 구성도이다.
도 2는 본 발명의 일실시예인 보안시스템을 나타내는 구성도이다.
도 3은 도 2의 보안등의 지주에 설치된 비상보안장치를 나타내는 예시도이다.
도 4는 도 3의 비상보안장치를 나타내는 정면도이다.
도 5는 도 4의 비상보안장치의 제어부를 나타내는 블록도이다.
도 6은 도 5의 영상 분석부를 나타내는 블록도이다.
도 7은 도 6의 진출방향 결정모듈을 설명하기 위한 예시도이다.
도 8은 도 5의 음성처리 및 관리부를 나타내는 블록도이다.
도 9는 도 8의 마이크로폰에 적용되는 전처리 기술을 설명하기 위한 예시도이다.
도 10은 도 8의 음성인식부를 나타내는 블록도이다.
도 11은 도 10의 제1 음성인식모듈에 적용되는 제1 신호분리 알고리즘을 설명하기 위한 예시도이다.
도 12는 도 8의 음성처리 및 관리부의 동작과정을 설명하기 위한 플로차트이다.
이하, 첨부된 도면을 참조하여 본 발명의 일실시예를 설명한다.
도 2는 본 발명의 일실시예인 보안시스템을 나타내는 구성도이고, 도 3은 도 2의 보안등의 지주에 설치된 비상보안장치를 나타내는 예시도이고, 도 4는 도 3의 비상보안장치를 나타내는 정면도이다.
본 발명의 일실시예인 보안시스템(1)은 보안등(200)이 설치된 지주에 설치되는 비상보안장치(500)가 음성인식 또는 비상벨의 조작(푸시)을 통해 범죄사건 등의 긴급 상황 발생여부를 판단하며, 긴급 상황 발생 시 부속장비(감시카메라, 내장카메라, 경고방송, 비상램프 등)들을 구동시켜 긴급 상황에 대한 경보 및 정보수집이 이루어지도록 함과 동시에 긴급 상황이 발생되었다는 긴급 확인데이터를 관제센터서버(600)로 전송하여 긴급 상황에 대한 신속한 대응 및 대처가 이루어지도록하기 위한 시스템이다.
또한 보안시스템(1)은 도 2 내지 4에 도시된 바와 같이, 기 설정된 장소에 설치되는 보안등(200-1), ..., (200-N)들과, 보안등(200-1), ..., (200-N)들 각각의 지주에 설치되며 비상벨, 내장카메라, 마이크로폰들, 스피커, 비상램프 및 제어부로 이루어지는 비상보안장치(500)들과, 보안등(200-1), ..., (200-N)들이 설치된 지주의 암에 설치되어 긴급 상황 발생 시 기 설정된 촬영영역을 상부에서 촬영하는 감시카메라(300)들과, 비상보안장치(500)들로부터 긴급 상황이 발생하였다는 긴급 확인데이터를 전송받으면 해당 현장으로 요원을 투입시키는 관제센터서버(600)와, 관제센터서버(600) 및 비상보안장치(500)들 사이의 데이터 이동경로를 제공하는 통신망(800)으로 이루어진다.
통신망(800)은 관제센터서버(600) 및 비상보안장치(500)들 사이의 데이터통신을 지원하며, 상세하게로는 광케이블, 광역통신망(WAN), 이동통신망 등으로 구성될 수 있다.
감시카메라(300)는 도 3에 도시된 바와 같이 보안등(200)이 설치된 지주(201)의 암에 설치된다. 이때 감시카메라(300)는 돔-카메라인 것이 바람직하다.
또한 감시카메라(300)는 긴급 상황 발생 시 비상보안장치(500)로부터 트리거신호(Trigger signal)를 전송받으면, 하부를 향하여 촬영하여 비교적 넓은 면적의 영상(이하 감시영상이라고 함)을 획득한다.
또한 감시카메라(300)는 획득된 감시영상을 비상보안장치(500)의 제어부(210)로 전송하고, 제어부(210)는 전송받은 감시영상을 관제센터서버(600)로 전송하여 범죄 증거자료 및 범죄자 검거에 활용되도록 한다.
보안등(200)은 도 3에 도시된 바와 같이, 범죄가 자주 발생하는 장소에 설치되어 보안용 조명을 제공하는 장치이다.
또한 보안등(200)은 지면에 수직 설치되는 지주(201)의 상부에 결합된다. 이때 지주(201)의 일측에는 비상보안장치(500)가 설치된다.
이때 보안등(200)은 도면에는 도시되지 않았지만, 긴급 상황 발생 시 특정 색상으로 점멸되는 비상등(미도시)을 포함하여 긴급 상황이 발생되었다는 상황을 외부로 전파(표출)한다.
비상보안장치(500)는 도 3과 4에 도시된 바와 같이, 보안등(200)의 지주(201)의 일측에 설치, 상세하게로는 사람에 의하여 비상벨(507)의 조작(푸시)이 용이하게 이루어질 수 있을 정도의 높이에 설치된다.
또한 비상보안장치(500)는 함체로 형성되는 하우징(501)과, 하우징(501)의 전면(511)의 테두리에 서로 이격되게 설치되어 음향신호들을 각각 입력받는 복수개의 마이크로폰(503)들과, 하우징(501)의 전면(511)의 하측에 설치되어 사용자에 의해 조작(푸시) 되는 비상벨(507)과, 하우징(501)의 전면(511)의 중앙에 설치되어 요원의 음성 또는 경고방송을 출력하는 스피커(505)와, 비상벨(507)의 외측에 원호를 따라 설치되어 긴급 상황 발생 시 기 설정된 색상으로 점멸되는 비상램프(509)들과, 하우징(501)의 전면(511)의 상측에 설치되어 이벤트 발생 시 전방을 촬영하는 내장카메라(502)와, 하우징(501)의 내부에 설치되어 이들 구성수단(502), (503), (505), (507), (509)들의 동작을 제어하는 제어부(210)로 이루어진다.
이때 본 발명에서는 설명의 편의를 위해 하우징(501)의 형상이 육면체이고, 마이크로폰(503)의 수량이 4개인 것으로 예를 들어 설명하였으나, 하우징(501)의 형상과 마이크로폰(503)의 수량은 이에 한정되지 않는다.
마이크로폰(503)들은 하우징(501)의 전면(511)의 테두리에 서로 이격되게 설치되어 음향신호들을 입력받으며, 입력된 음향신호들을 제어부(210)로 입력한다.
이때 제어부(210)는 마이크로폰(503)들로부터 입력된 음향신호들을 분석하여 음성단어를 결정하며, 결정된 음성단어의 분석을 통해 이벤트 발생 여부(긴급 상황 발생 여부)를 판단하며, 이벤트 발생 시 내장카메라(502) 및 감시카메라(300)를 구동시킴과 동시에 부속장비(스피커, 비상램프 등)를 구동시키며, 긴급 확인데이터를 관제센터서버(600)로 전송한다.
스피커(505)는 제어부(210)에 의하여 긴급 상황이 발생되었다고 판단될 때 구동되며, 기 제작된 경고방송이 출력되거나 또는 관제센터서버(600)의 요원의 통화음성이 출력된다.
비상벨(507)은 사용자에 의하여 푸시가 가능하도록 하우징(501)의 전면(511)에 설치된다. 이때 제어부(210)는 비상벨(507)이 사용자에 의해 조작(푸시) 되면 긴급 상황이 발생되었다고 판단한다.
비상램프(509)들은 비상벨(507)의 외측에 원호를 따라 설치되며, 긴급 상황 발생 시 제어부(210)의 제어에 따라 특정 색상으로 점멸됨으로써 긴급 상황을 외부로 표출하여 범죄자에게 경각심을 준다.
내장카메라(502)는 하우징(501)의 전면(511)의 상측에 설치되며, 긴급 상황 발생 시 제어부(210)의 제어에 따라 전방영역을 촬영하여 영상(이하 근거리영상이라고 함)을 획득한다.
또한 내장카메라(502)는 획득된 근거리영상을 제어부(210)로 입력하고, 제어부(210)는 입력된 근거리영상을 관제센터서버(600)로 전송함과 동시에 영상분석을 통해 영상 내 객체의 특징인 객체특징 정보를 검출한다.
이와 같이 본 발명의 일실시예인 비상보안장치(500)는 사용자의 물리적인 접촉을 통한 비상벨(507)의 조작과, 마이크로폰(503)들을 통해 입력된 음향신호의 분석을 통해 이벤트 발생여부를 자체적으로 판단함으로써 긴급 상황 발생여부를 보다 정확하게 검출할 수 있으며, 이벤트 발생 시 내장카메라(502) 및 감시카메라(300)를 구동시켜 다양한 초점 및 각도의 영상들을 획득함과 동시에 부속장비(비상램프, 스피커 등)들을 구동시켜 긴급 상황을 외부로 표출하여 범죄를 사전에 방지할 수 있게 된다.
도 5는 도 4의 비상보안장치의 제어부를 나타내는 블록도이다.
도 5의 제어부(210)는 비상보안장치(500)의 내부에 설치되며, 내장카메라(502), 마이크로폰(503)들, 스피커(505), 비상벨(507) 및 비상램프(509)들에 연결되어 이들의 구동을 제어한다.
또한 제어부(210)는 음성처리 및 관리부(220)와, 긴급 상황 판단부(211), 메모리(212), 통신 인터페이스부(213), 카메라 구동부(214), VoIP 관리부(215), 비상램프 구동부(216), 경보방송 출력부(217), 긴급상세정보 검출부(218), 영상 분석부(219), 2차 데이터 생성부(219‘)로 이루어진다.
음성처리 및 관리부(220)는 마이크로폰(503)들로부터 입력받은 음향신호를 분석하여 음성단어를 결정하고, 이러한 음성처리 및 관리부(220)가 음향신호로부터 음성단어를 결정하는 과정 및 방법은 후술되는 도 8 내지 12에서 상세하게 설명하기로 한다. 이때 본 발명에서는 3개의 마이크로폰들로부터 음향신호를 입력받는 것으로 예를 들어 설명하기로 한다.
또한 음성처리 및 관리부(220)에 의해 결정된 검출된 음성단어는 긴급 상황 판단부(211)로 입력된다.
통신 인터페이스부(213)는 통신망(800)에 접속하여 관제센터서버(600)와 데이터를 송수신한다.
메모리(212)에는 긴급상세정보 검출부(214)D 의해 검출된 긴급상세정보와, 기 제작된 경보방송과, 2차 데이터 생성부(219‘)에 의해 생성되는 2차 데이터가 저장된다.
또한 메모리(212)에는 긴급 상황이라고 판단할 수 있는 문자인 비교대상문자들이 저장된다.
또한 메모리(212)에는 비교대상문자들 각각이 속하는 카테고리 정보가 매챙되면서 각 카테고리에 대한 위험도가 매칭된 데이터인 카테고리 테이블이 기 설정되어 저장된다.
이때 카테고리 정보는 긴급 상황의 종류를 나타내며, 예를 들어 카테고리 정보는 ‘단순시비’, ‘폭행’, ‘성범죄’, ‘강력범죄’ 등으로 분류될 수 있고, ‘강력범죄’ 카테고리가 ‘단순시비’ 카테고리 보다 위험도가 높게 설정될 수 있다.
또한 메모리(212)에는 감시카메라(300)가 촬영하는 촬영영역에 대한 실제 거리지도 상에서 해당 영역에 연결되는 진출로들에 대한 프레임 상에서의 위치정보인 진출로위치정보들이 기 설정되어 저장된다.
예를 들어 촬영영역이 골목 등과 같은 인도인 경우 해당 촬영영역의 진출로는 양측의 2개의 방향일 수 있고, 메모리(212)에는 양측의 각 진출로에 대한 프레임상의 위치정보인 진출로위치정보들이 저장된다.
긴급 상황 판단부(211)는 비상벨(507)의 가압이 이루어지면 긴급 상황이 발생되었다고 판단한다.
또한 긴급 상황 판단부(211)는 음성처리 및 관리부(220)에 의해 음성단어가 결정되면, 결정된 음성단어와 메모리(212)를 탐색하여 결정된 음성단어와 비교대상문자들 각각의 연관관계를 검출한 후 검출된 연관관계가 임계치를 넘어서는 경우 긴급 상황이 발생하였다고 판단한다.
또한 긴급 상황 판단부(211)는 만약 긴급 상황이 발생되었다고 판단되면, 통신 인터페이스부(213)를 통해 관제센터서버(600)로 긴급 상황이 발생되었다는 긴급 확인데이터를 전송하고, 카메라 구동부(214), VoIP 관리부(215), 비상램프 구동부(216), 경보방송 출력부(217), 긴급상세정보 검출부(218), 영상 분석부(219) 및 2차 데이터 생성부(219‘)를 구동시킨다.
이때 긴급 상황 판단부(211)가 긴급 상황 발생 여부를 판단하는 방식은 본 출원인에 의해 출원되어 특허 등록된 국내등록특허 제10-1625121호(발명의 명칭 : 음성인식을 이용한 비상경보 방법, 이를 위한 컴퓨터 프로그램, 그 기록 매체)에 개시된 비상경보를 판단하는 방법을 적용하였다.
카메라 구동부(214)는 긴급 상황 판단부(211)에 의해 긴급 상황이 발생되었다고 판단될 때 구동되며, 감시카메라(300) 및 내장카메라(502)로 트리거신호(Trigger signal)를 전송 및 입력하여 카메라(300), (502)들을 구동시킨다. 이때 감시카메라(300) 및 내장카메라(502)에 의해 획득된 감시영상 및 근거리영상은 영상 분석부(219)로 입력된다.
VoIP 관리부(215)는 긴급 상황 판단부(211)에 의해 긴급 상황이 발생되었다고 판단될 때 구동되며, 관제센터서버(600)와의 데이터통화를 중계한다.
이때 VoIP 관리부(215)는 관제센터서버(600)로부터 송출된 음성신호를 스피커(505)를 통해 출력하며, 마이크로폰(503)들로부터 입력되는 음성신호를 관제센터서버(600)로 소출한다.
비상램프 구동부(216)는 긴급 상황 발생 시 구동되어 비상램프(509)들을 기 설정된 색상으로 점멸시킨다.
경보방송 출력부(217)는 긴급 상황 발생 시 구동되며, 기 제작된 경보방송을 스피커(505)를 통해 출력한다.
또한 경보방송 출력부(217)는 VoIP 관리부(215)에 의해 데이터 통화가 이루어지는 상태인 경우, 경보방송을 출력하지 않아 혼선을 방지한다.
긴급상세정보 검출부(218)는 긴급 상황 판단부(211)에 의해 긴급 상황이 발생되었다고 판단될 때 구동되며, 메모리(212)에 저장된 카테고리 테이블을 탐색하여 긴급 상황 판단부에 의해 연관관계가 임계치를 넘은 비교대상문자에 대응되는 카테고리 정보와 위험도 정보를 검출한다.
이때 긴급상세정보는 비교대상문자, 카테고리 정보 및 위험도 정보가 매칭된 데이터로 정의된다.
또한 긴급상세정보 검출부(218)에 의해 검출된 긴급상세정보는 통신 인터페이스부(213)를 통해 관제센터서버(600)로 전송됨으로써 관제센터서버(600)는 전송받은 긴급상세정보를 통해 긴급 상황의 종류 및 위험수위를 즉각적으로 인지할 수 있게 된다.
도 6은 도 5의 영상 분석부를 나타내는 블록도이고, 도 7은 도 6의 진출방향 결정모듈을 설명하기 위한 예시도이다.
영상 분석부(219)는 도 6에 도시된 바와 같이, 감시영상 분석부(2180)와, 근거리영상 분석부(2190)로 이루어진다.
감시영상 분석부(2180)는 감시카메라(300)의 촬영에 의한 감시영상을 전처리하여 노이즈를 제거하는 제1 전처리모듈(2181)과, 제1 전처리모듈(2181)에 의해 전처리된 영상을 기 설정된 객체검출 알고리즘을 이용하여 영상 내 객체를 검출하는 제1 객체검출모듈(2182)과, 감시영상의 연속되는 프레임을 통해 제1 객체검출모듈(2182)에 의해 검출된 객체의 움직임을 추적하는 궤적추적모듈(2183)과, 궤적추적모듈(2183)에 의해 추적된 궤적정보를 통해 해당 객체가 영상으로부터 사라지는 경우 객체가 사라진 지점의 프레임상 위치정보를 검출하는 진출 위치정보 검출모듈(2184)과, 진출 위치정보 검출모듈(2184)에 의하여 검출된 진출 위치정보를 메모리(212)에 저장된 진출로위치정보들 각각과 비교하여 차이값이 임계치 미만인 진출로위치정보를 객체가 사라진 도주방향으로 결정하는 도주방향 결정모듈(2185)로 이루어진다.
예를 들어 도 7에 도시된 바와 같이, 제1 객체검출모듈(2182)에 의해 객체가 검출된 후 궤적추적모듈(2183)에 의해 객체의 궤적이 추적된다. 이때 메모리(212)에는 해당 촬영영역의 진출로인 ‘진출로A’ 및 ‘진출로B’에 대한 프레임상의 위치정보인 진출로위치정보들이 기 설정되어 저장된다.
만약 경찰관이 현장으로 투입되기 이전에 객체가 ‘진출로B’를 통해 사라졌다고 가정하면, 진출 위치정보 검출모듈(2184) 및 도주방향 결정모듈(2185)은 객체가 사라진 지점의 프레임상 위치정보와 ‘진출로B’에 대한 진출로위치정보를 비교하여 객체가 도주한 도주방향을 결정할 수 있게 된다.
또한 도주방향 결정모듈(2185)에 의해 결정된 도주방향 정보는 통신 인터페이스부9213)를 통해 관제센터서버(600)로 전송된다.
다시 도 6으로 돌아가 근거리영상 분석부(2190)를 살펴보면, 근거리영상 분석부(2190)는 내장카메라(502)의 촬영에 의한 근거리영상을 전처리하여 노이즈를 제거하는 제2 전처리모듈(2191)과, 제2 전처리모듈(2191)에 의해 전처리된 영상을 기 설정된 객체검출 알고리즘을 이용하여 영상 내 객체를 검출하는 제2 객체검출모듈(2192)과, 기 설정된 특징검출 알고리즘을 이용하여 제2 객체검출모듈(2192)에 의해 검출된 객체영상을 분석하여 객체의 특징을 검출하는 특징검출모듈(2193)로 이루어진다.
또한 특징검출모듈(2193)에 의해 검출된 특징정보는 통신 인터페이스부(213)를 통해 관제센터서버(600)로 전송된다.
2차 데이터 생성부(219‘)는 기 설정된 주기(T) 동안의 긴급상세정보를 분석하여 주기(T) 별 긴급 상황 발생회수, 긴급 상황 종류, 위험도에 대한 통계데이터인 2차 데이터를 생성한다.
또한 2차 데이터 생성부(219‘)는 주기(T) 동안 발생된 긴급 상황의 위험도를 누적 합산한 후 합산된 값을 임계치에 비교하며, 위험도 합산값이 임계치 이상인 경우 해당 장소를 위험군으로 결정한다. 이때 2차 데이터 생성부(219‘)에 의해 위험군으로 결정되면 해당 실내공중장소의 출입구에 설치되는 디스플레이 수단(미도시)에 해당 장소가 위험군임을 알리는 안내문구를 전시하여 해당 장소를 이용하는 이용자에게 미리 이러한 정보를 전달하여 긴급 상황을 사전에 방지하도록 한다.
또한 2차 데이터 생성부(219‘)는 주기(T) 별 긴급 상황 발생회수, 긴급 상황 종류, 위험도에 대한 2차 데이터와, 위험도 합산값을 일정 주기마다 관제센터서버(600)로 전송하고, 관제센터서버(600)는 전송받은 2차 데이터 및 위험도 합산값을 이용하여 범죄를 효율적으로 예방할 수 있게 된다.
도 8은 도 5의 음성처리 및 관리부를 나타내는 블록도이다.
도 8의 음성처리 및 관리부(220)는 음향신호 입력부(221), 음성인식부(222), 특징파라미터 검출부(223), 비교 및 매칭부(224), 참조모델 데이터베이스부(225), 단어결정부(226)로 이루어진다.
이때 음성처리 및 관리부(220)는 복수개의 마이크로폰(503)들로부터 음향신호를 입력받으면, 후술되는 도 9의 제1 음성인식모듈(2221)이 제1, 2 마이크로폰(503-1), (503-2)들의 입력신호(H1), (H2)들에 대하여 제1 신호분리 알고리즘을 이용하여 각 입력신호(H1), (H2)들로부터 원신호(S1), (S2)들 및 잡음신호(N1), (N2)들을 분리한 후 원신호(S1), (S2)들을 합산하여 1차 원신호(X1=S1+S2)를 검출한다.
또한 후술되는 도 10의 제2 음성인식모듈(2222)은 제2 신호분리 알고리즘을 이용하여 제3 마이크로폰(503-3)의 입력신호(H3)로부터 원신호(S3) 및 잡음신호(N3)를 검출하면, 검출된 원신호(S3)를 제1 음성인식모듈(2221)로부터 입력된 1차 원신호(X1)와 합산하여 최종 원신호(X2=S3+X1)를 검출한다.
즉 본 발명의 비상보안장치의 제어부(220)는 동일 음향신호에 대한 마이크로폰들로 입력되는 입력신호들은 음향발생위치와의 방향 및 거리에 따라 원신호 및 잡음의 주파수크기가 각기 다르게 형성되기 때문에 본 발명에서는 서로 다른 신호분리 알고리즘이 적용되는 두 개의 음성인식모듈들을 통해 각 입력신호에 대한 잡음제거 시 원신호가 함께 제거되는 현상을 상쇄시킴과 동시에 원신호의 검출이 반복적으로 이루어져 음성을 정확하고 정밀하게 검출할 수 있으며, 각 신호분리 알고리즘의 장점은 부각시키되, 단점을 서로 상쇄시켜 음성인식의 정확성을 현저히 높일 수 있게 된다.
이때 제1 음성인식모듈(2221) 및 제2 음성인식모듈(2222)은 동일한 신호분리 알고리즘을 이용하여 음향신호로부터 원신호 및 잡음신호를 분리하는 것으로 구성되어도 무방하나, 서로 다른 신호분리 알고리즘이 적용되는 경우 각 신호분리 알고리즘의 단점을 서로 상쇄시킬 수 있기 때문에 음성인식에 있어서 더 효과적이다.
이때 본 발명에서는 설명의 편의를 위해 비상보안장치(500)에 설치되는 마이크로폰들이 3개이고, 음성인식모듈이 2개인 것으로 예를 들어 설명하였으나, 마이크로폰들의 수량은 4개 이상이고, 음성인식부의 수량은 3개 이상인 것으로 구성될 수 있음은 당연하다.
음향신호 입력부(221)는 3개의 마이크로폰(503-1), (503-2), (503-3)들로부터 입력되는 음향신호들을 입력받으며, 입력된 음향신호(H1), (H2), (H3)들을 음성인식부(22)로 입력한다. 이때 마이크로폰(503-1), (503-2), (503-3)들은 서로 다른 음향입력각도들을 갖도록 이격되게 설치되어 음향신호들을 각각 입력받고, 음향신호에는 원신호 및 잡음신호(노이즈)가 포함된다.
이때 마이크로폰(503-1), (503-2), (503-3)들은 어레이 형태로 설치되며, 음향신호를 입력받아 전기 신호로 변환한다.
또한 마이크로폰(503-1), (503-2), (503-3)들은 빔-포밍(Beam forming) 기법이 적용되어 서로 다른 방향의 빔을 갖는다.
이때 빔-포밍 기법은 송신 기기나 수신 기기의 배열을 이용하여 방사 패턴의 방향이나 민감도를 조절하기 위한 목적을 위해 주로 사용되는 신호 처리 기법으로서, 신호를 전송하는 경우, 전송하고자 하는 방향의 신호 강도를 키우고, 이외의 방향으로 전송되는 신호의 강도는 줄일 수 있게 된다.
도 9는 도 8의 마이크로폰에 적용되는 전처리 기술을 설명하기 위한 예시도이다.
본 발명의 마이크로폰(503)은 도 9에 도시된 바와 같이, 마이크로폰(503)으로부터 입력되는 입력신호로부터 잡음회귀현상을 제거할 수 있는 음향반향삭제(AEC, Acoustic Echo Cancellation)가 적용됨으로써 동적 잡음원을 적응적으로 제거함으로써 마이크로폰(503)으로부터 입력되는 입력신호만을 추출하도록 하였다.
또한 음향반향삭제(AEC) 기술은 NLMS(Normalized Least Mean Square)기반의 가변 학습율 잡음제거 알고리즘이 적용되어 스피커 등과 같은 동적 잡음원을 제거함과 동시에 마이크로폰(503)으로부터 입력되는 입력신호는 자연스러운 상태로 유지시킴으로써 입력신호에 대한 전처리 기능을 수행할 수 있게 된다.
즉 본 발명의 음향신호 입력부(221)는 마이크로폰(503-1), (503-2), (503-3)들로부터 음향신호를 입력받되, 마이크로폰(503-1), (503-2), (503-3)들 각각에 음향반향삭제(AEC) 기술이 적용됨으로써 전처리 된 음향신호들을 입력받을 수 있고, 이에 따라 음성인식의 정확성을 높일 수 있게 된다.
도 10은 도 8의 음성인식부를 나타내는 블록도이고, 도 11은 도 10의 제1 음성인식모듈에 적용되는 제1 신호분리 알고리즘을 설명하기 위한 예시도이다.
음성인식부(222)는 도 10에 도시된 바와 같이, 기 설정된 제1 신호분석 알고리즘을 이용하여 음향신호 입력부(221)를 통해 입력된 제1, 2 마이크로폰(503-1), (503-2)들의 입력신호(H1), (H2)들로부터 원신호(S1), (S2)들 및 잡음신호(N1), (N2)들을 분리한 후 원신호(S1), (S2)들을 합산하여 제1 원신호(X1)를 검출하는 제1 음성인식모듈(2221)과, 기 설정된 제2 신호분석 알고리즘을 이용하여 음향신호 입력부(221)를 통해 입력된 제3 마이크로폰(503-3)의 입력신호를 분석하여 원신호(S3) 및 잡음신호(N3)를 분리한 후 분리된 원신호(S3)를 제1 음성인식모듈(2221)로부터 입력된 제1 원신호(X1)와 합산하여 최종 원신호(X2)를 검출하는 제2 음성인식모듈(2222)로 이루어진다.
이때 제1 음성인식모듈(2221) 및 제2 음성인식모듈(2222)은 동일한 신호분리 알고리즘을 이용하여 음향신호로부터 원신호 및 잡음신호를 분리하는 것으로 구성되어도 무방하나, 서로 다른 신호분리 알고리즘이 적용되는 경우 각 신호분리 알고리즘의 단점을 서로 상쇄시킬 수 있기 때문에 음성인식에 있어서 더 효과적이다.
제1 음성인식모듈(2221)은 음향신호 입력부(221)로부터 제1, 2 마이크로폰(503-1), (503-2)들의 음향신호(H1), (H2)들을 입력받는다.
또한 제1 음성인식모듈(2221)은 기 설정된 제1 신호분리 알고리즘을 이용하여 입력된 음향신호(H1)를 원신호(S1) 및 잡음신호(N1)로 분리하며, 입력된 음향신호(H2)를 원신호(S2) 및 잡음신호(N2)로 분리한다.
또한 제1 음성인식모듈(2221)은 음향신호로부터 신호들이 분리되면, 분리된 원신호(S1), (S2)들을 합산하여 1차 원신호(X1)를 검출한다.
제2 음성인식모듈(2222)은 기 설정된 제2 신호분리 알고리즘을 이용하여 음향신호 입력부(221)를 통해 입력된 제3 마이크로폰(503-3)으로부터 원신호(S3) 및 잡음신호(N3)를 분리한다.
또한 제2 음성인식모듈(2222)은 분리된 원신호(S3)와, 제1 음성인식모듈(2221)로부터 입력된 1차 원신호(X1)를 합산하여 최종 원신호(X2)를 검출한다.
다시 말하면, 본원 발명은 제1 음성인식모듈(2221) 및 제2 음성인식모듈(2222)이 서로 다른 신호분리 알고리즘을 이용하여 음향신호로부터 원신호 및 잡음신호를 분리하도록 구성됨과 동시에 제1 음성인식모듈(2221)은 제1, 2 마이크로폰(503-1), (503-2)들에 대한 원신호들을 합산하여 1차 원신호(X1)를 검출하되, 제2 음성인식모듈(2222)은 분리한 원신호(S3)를 제1 음성인식모듈(2221)에 의해 검출된 1차 원신호(X1)와 합산하여 최종 원신호(X2)를 검출하도록 구성됨으로써 서로 다른 신호분리 알고리즘이 적용되는 두 개의 음성인식모듈(2221), (2222)들을 통해 각 입력신호에 대한 잡음제거 시 원신호가 함께 제거되는 현상을 상쇄시킬 수 있을 뿐만 아니라 원신호의 검출이 반복적으로 이루어져 음성을 정확하고 정밀하게 검출할 수 있으며, 각 음성인식모듈에 적용되는 신호분리 알고리즘의 장점은 부각시키되, 단점을 서로 상쇄시켜 음성인식의 정확성을 현저히 높일 수 있게 된다.
이때 제1 음성인식모듈(2221)에 적용되는 제1 신호분리 알고리즘 및 제2 음성인식모듈(2222)에 적용되는 제2 신호분리 알고리즘은 서로 다른 방식의 연산처리를 갖도록 구성된다.
예를 들어, 제1 음성인식모듈(2221)에 적용되는 제1 신호분리 알고리즘은 도 11에 도시된 바와 같이, 제1, 2 마이크로폰(503-1), (503-2)들로부터 입력된 음향신호(H1), (H2)들을 주파수영역으로 변환(STFT, short-time Fourier transform)한 후 소프트 마스크(IE soft-mask) 알고리즘 및 IVA 알고리즘이 적용되는 다중채널 음원분리(BSS, Blind Source Separation)가 적용될 수 있다.
또한 제2 음성인식모듈(2222)에 적용되는 제2 신호분리 알고리즘은 단일채널 음원분리 방식이 적용될 수 있다.
예를 들어, 제2 신호분리 알고리즘은 우선 제3 마이크로폰(503-3)으로부터 입력된 음향신호(H3)를 주파수영역으로 변환(STFT) 한 후 ICA(Independent Component Analysis)를 통해 신호들을 분리시킨다.
이때 제2 신호분리 알고리즘으로 ICA가 적용되는 경우, 우선 음향신호(H1)의 차원을 음원의 차원으로 줄이기 위한 목적으로 Linear transformation을 수행한 후, Linear transformation 처리된 신호에 단일 행렬(unitary matrix)(B)을 곱해줌으로써 분리된 신호의 주파수 영역의 값을 구하고, 앞서 검출된 분리 행렬(separation matrix)(V*B)을 통해 분리된 신호를 검출한다.
즉 제1 신호분리 알고리즘으로 소프트 마스크(IE soft-mask)및 IVA를 포함하는다중채널 음원분리(BSS, Blind Source Separation)가 적용된다고 가정할 때, 제1 신호분리 알고리즘은 잔향 시간(reverberation time)이 큰 경우 각 채널에 잔여교차성분(residual cross-talk component)이 분리 후에도 존재하여 분리 성능이 저하되는 단점을 갖고, 제2 신호분리 알고리즘으로 ICA가 적용된다고 가정할 때, 제2 신호분리 알고리즘은 주파수 bin 사이가 독립적이지 않아 정적잡음에 취약한 단점을 갖는다.
그러나 본 발명에서는 1)제1 음성인식모듈(2221)이 제1 신호분리 알고리즘을 이용하여 원신호(S1), (S2)들을 분리시키고, 2)제2 음성인식모듈(2222)이 제2 신호분리 알고리즘을 이용하여 원신호(S3)를 분리시키고, 3)최종 원신호(X2)가 제1 음성인식모듈(2221)에 의한 1차 원신호(X1)와 제2 음성인식모듈(2222)에 의한 원신호(S3)를 합산하여 검출되도록 구성됨으로써 제1 신호분리 알고리즘의 단점과 제2 신호분리 알고리즘의 단점을 서로 상쇄시킬 수 있으며, 원신호의 검출이 반복적으로 이루어져 음성을 정확하고 정밀하게 검출할 수 있으며, 각 음성인식모듈에 적용되는 신호분리 알고리즘의 장점은 부각시키되, 단점을 서로 상쇄시켜 음성인식의 정확성을 현저히 높일 수 있게 된다.
또한 음성인식부(222)는 제2 음성인식모듈(2222)에 의해 최종 원신호(X2)가 검출되면, 검출된 원신호의 초성에 기 설정된 모음을 조합하되, 종성이 삭제된 음절로 변환시킨다.
예를 들어 음성인식부(222)는 제2 음성인식모듈(2222)에 의해 ‘홍길동’이 검색되면, 검출된 음성을 ‘하가다’와 같은 음절로 변환시킨다.
이때 본 발명에서는 설명의 편의를 위해 마이크로폰이 3개이고, 음성인식모듈이 2개인 것으로 예를 들어 설명하였으나, 마이크로폰이 4개 이상이고, 음성인식모듈이 3개 이상인 경우, 제1 음성인식모듈은 도 9와 동일한 방식으로 1차 원신호를 검출하되, 제n 음성인식모듈은 (n-1) 마이크로폰으로부터 입력되는 음향신호와 제n-1 음성인식모듈로부터 입력되는 원신호를 이용하여 원신호를 검출하게 된다.
특징파라미터 검출부(223)는 음성인식부(222)에 의해 검출된 원신호를 분석하여 인식에 필요한 특징벡터를 추출한다.
이때 특징파라미터 검출부(223)는 선형 예측 부호화(LPC, Linear Predictive Coding)를 통해 입력된 음성신호로부터 특징벡터를 추출한다.
또한 특징파라미터 검출부(223)는 추출된 특징벡터를 이용하여 입력된 음성신호에 대한 특징파라미터를 생성한다. 이때 특징파라미터는 음성신호를, 참조모델과의 비교 알고리즘 수행이 가능하도록 처리한 데이터이다.
또한 특징파라미터 검출부(223)에 의해 검출되는 특징 파라미터는 비교 및 매칭부(224)로 입력된다.
비교 및 매칭부(224)는 기 설정된 비교 알고리즘을 이용하여 참조모델 데이터베이스부(225)에 저장되는 기 설정된 참조모델과, 입력된 특징 파라미터를 분석하여 특징 파라미터와 가장 유사도가 높은 참조모델에 대한 정보를 음성인식 결과로 출력한다.
다시 말하면, 비교 및 매칭부(224)는 특징파라미터 검출부(223)로부터 입력된 특징파라미터와 기 설정된 참조모델을 음절단위로 생성하여 비교 및 분석한다.
이때 참조모델 데이터베이스부(225)에는 기 설정된 참조모델 정보들이 저장된다.
또한 비교 및 매칭부(224)는 입력된 음성과 참조음성 사이의 발음 속도와 길이의 차이를 보상하기 위하여 입력 특징파라미터와 참조모델을 비선형적으로 정합하여 가장 유사도가 높은 참조모델의 음성을 인식하기 위한 동적시간 워핑(DTW; Dynamic Time Warping) 알고리즘을 이용하여 특징파라미터와 참조모델들 각각의 유클리드 제곱 거리(Squared Euclidean Distance)를 산출한 후 그 거리가 가장 작은 참조모델을 특징파리미터와 가장 유사한 모델로 인식한다.
이때 특정한 입력음성(특징파라미터)에 대하여, 참조모델에는 특징파라미터와의 유사도가 기 설정된 임계치 이내인 참조모델이 한 개이거나 또는 2개 이상일 수 있다. 예를 들어 가'와 '카', '다'와 '타' 등은 발음의 유사성으로 인해 신호 패턴들 일치정도로 정의되는 유사도가 높기 때문에 입력음성 ‘가’에 대한 유사도가 기 설정된 임계치 이내인 참조모델은 ‘가’, ‘카’와 같이 2개로 검출될 수 있다.
이에 따라 비교 및 매칭부(224)는 만약 특징파라미터와의 유사도가 기 설정된 임계치 이내인 참조모델이 1개인 경우 유사도가 높은 참조모델을 입력음성으로 결정한다.
또한 비교 및 매칭부(224)는 만약 특정파라미터와의 유사도가 기 설정된 임계치 이내인 참조모델이 2개 이상인 경우 동적 시간 워핑 방식 보다 인식률이 우수한 분석을 다시 수행, 상세하게로는 음성신호를 음소단위로 분리한 후 은닉 마르포크 모델(Hidden Markov model)을 통해 패턴 비교 알고리즘을 수행한다. 이때 은닉 마르코프 모델은, 모델링하는 시스템이 미지의 파라미터를 가진 Markov process일 것이라고 가정하여, 그 가정에 기초해서 관측된 파라미터로부터 숨겨진 파라미터를 결정하는 하나의 통계모델이며, 음성인식분야에서 널리 사용되는 방식 중 하나이기 때문에 상세한 설명은 생략하기로 한다.
또한 비교 및 매칭부(224)는 검출된 참조모델에 대한 음성을 단어결정부(226)로 입력한다.
단어결정부(226)는 비교 및 매칭부(224)로부터 입력된 참조모델에 대응되는 문자를 검색어로 하여 단어를 검색하며, 검색된 단어를 최종 출력함으로써 음성인식을 수행하게 된다.
즉 본 발명의 비상보안장치의 제어부(220)는 참조모델 데이터베이스부(225)에 저장되어 특징 파라미터와 비교되는 참조모델의 수가 많을수록 정확한 음성인식이 가능하나, 이 경우 참조모델 데이터베이스부(225)의 용량이 방대해야할 뿐만 아니라 특징 파라미터와 참조모델의 비교 알고리즘 수행 시 연산량이 과도하게 증가하게 되고, 이러한 연산량 증가는 임베디드 시스템에 적용될 경우 시스템 자원이 제한되기 때문에 최소한의 자원으로 정확한 음성인식 결과를 도출하기 위하여 본 발명에서는 초성 기반의 음성인식을 적용하였다.
특히 초성 'ㄱ', 'ㄴ', 'ㄷ' 등을 음성으로 입력함에 있어서, '기역', '니은', '디귿'과 같이 초성의 명칭을 사용하지 않고, '가', '나', '다' 같이 초성에 하나의 통일된 모음을 조합하여 발음하여 입력하도록 하고, 특징파라미터 또한 초성과 통일된 하나의 모음이 조합된 형태의 음성신호에 대응되도록 한다.
도 12는 도 8의 음성처리 및 관리부의 동작과정을 설명하기 위한 플로차트이다.
본 발명의 음성처리 및 관리부(220)의 동작과정(S1)은 도 12에 도시된 바와 같이, 음향신호 입력단계(S10)와, 음성인식단계(S20), 특징파라미터 생성단계(S30), 분석단계(S40), 판단단계(S50), 음소단위 패턴분석 수행단계(S60), 음소결정단계(S70), 단어결정단계(S80)로 이루어진다.
음향신호 입력단계(S10)는 마이크로폰(503-1), (503-2), (503-3)들로부터 음향신호를 입력받는 단계이다.
음성인식단계(S20)는 음향신호 입력단계(S10)를 통해 입력된 음향신호들을 도 4에서 전술하였던 바와 같이, 2개의 음성인식모듈을 이용하여 음성을 인식하는 단계이다.
또한 음성인식단계(S20)는 초성에 공통된 하나의 모음을 조합한 발음을 기초로 생성된 참조모델을 이용하여 음성인식이 수행되므로 '가', '나', '다' 와 같이 공통된 모음을 갖고, 종성을 포함하지 않는 음절들의 조합으로 변환시킨다.
예를 들어, 음성인식단계(S20)는 음성인식모듈들에 의해 '홍길동'이 검출되는 경우, 검출된 음성을 '하가다'와 같은 음성으로 변환시킨다.
또한 음성인식단계(S20)는 변환된 음성신호를 특징파라미터 생성단계(S30)로 입력시킨다.
특징파라미터 생성단계(S30)는 선형 예측 부호화(LPC, Linear Predictive Coding)를 통해 입력된 음성신호로부터 특징벡터를 추출한다.
또한 특징파라미터 검출단계(S30)는 추출된 특징 벡터를 이용하여 입력된 음성신호에 대한 특징파라미터를 생성한다. 이때 특징파라미터는 음성신호를 참조모델과의 비교 알고리즘 수행이 가능하도록 처리한 데이터이다.
또한 특징파라미터 생성단계(S30)에 의해 생성된 특징파라미터는 분석단계(S40)로 입력된다.
분석단계(S40)는 특징파라미터 생성단계(S30)로부터 입력된 특징파라미터와 기 설정된 참조모델을 음절단위로 생성하여 비교 및 분석한다.
또한 분석단계(S40)는 입력된 음성과 참조 음성 사이의 발음 속도와 길이의 차이를 보상하기 위하여 입력 패턴과 참조 패턴을 비선형적으로 정합하여 가장 유사도가 높은 참조 패턴의 음성으로 입력된 음성을 인식하기 위한 동적시간 워핑(DTW; Dynamic Time Warping) 알고리즘을 이용하여 특징파라미터와 참조모델들 각각의 유클리드 제곱 거리(Squared Euclidean Distance)를 산출한 후 그 거리가 가장 작은 참조모델을 특징파리미터와 가장 유사한 모델로 인식한다.
판단단계(S50)는 분석단계(S40)에 의해 특징파라미터와의 유사도가 기 설정된 범위 내인 참조모델이 2개 이상인지를 판단하는 단계이다.
다시 말하면, 판단단계(S50)는 분석단계(S40)에서 특징파라미터와 참조모델들 각각의 유클리드 제곱입력 패턴과 각각의 참조 패턴 사이의 유클리드 제곱 거리를 산출한 결과, 기 설정된 임계값보다 작은 유클리드 제곱 거리를 갖는 참조모델이 2개 이상인지의 여부를 판단한다.
즉 현재 입력된 음성이 2개 이상의 유사한 음성으로 인식될 가능성이 있는 경우에 해당하기 때문에 보다 정확한 패턴 분석이 요구된다.
예를 들어 '가'와 '카', '다'와 '타' 등은 발음의 유사성으로 인해 신호 패턴도 어느 정도 유사하므로 이를 동적 시간 워핑 방식만으로 비교하는 경우, 사용자가 의도한 바와 다르게 인식될 가능성이 있다.
따라서 본 발명에서는 판단단계(S50)에서 분석단계(S40) 시 유사한 참조모델이 2개 이상이 이상인지 여부를 판별하여, 2개 이상인 경우 동적 시간 워핑 방식 보다 인식률이 우수한 패턴 분석을 다시 수행하도록 한다.
즉 판단단계(S50)는 만약 유사한 참조모델이 2개 이상인 경우 음소단위 패턴분석 수행단계(S60)를 진행하고, 만약 유사한 참조모델이 1개인 경우 음소결정단계(S70)를 진행한다.
음소단위 패턴분석 수행단계(S60)는 음성신호를 음소단위로 분리한 후 은닉 마르코프 모델(Hidden Markov model)과 같은 방식에 의하여 음소단위의 패턴 비교 알고리즘을 수행한다.
이때 은닉 마르코프 모델은, 모델링하는 시스템이 미지의 파라미터를 가진 Markov process일 것이라고 가정하여, 그 가정에 기초해서 관측된 파라미터로부터 숨겨진 파라미터를 결정하는 하나의 통계모델이며, 음성인식분야에서 널리 사용되는 방식 중 하나이기 때문에 상세한 설명은 생략하기로 한다.
음소결정단계(S70)는 분석단계(S40) 또는 음소단위 패턴분석 수행단계(S60)에서 수행된 패턴 분석 결과에 따라 음소를 결정한다.
즉 음소결정단계(S70)는 판단단계(S50)에서 유사한 참조모델이 하나인 경우 분석단계(S40)에 의해 해당 참조모델에 해당하는 음성에 대응되는 음소를 입력된 음소로 결정하며, 판단단계(S50)에서 유사한 참조모델이 2개인 경우 음소단위 패턴분석 수행단계(S60)에 의해 가장 유사도가 높은 음소를 입력된 음소로 결정한다.
예를 들어 사용자가 음성 '가'를 입력하여 분석단계(S40)에서 각각 '가'와 '카'에 해당하는 참조모델이 유사하다고 판단한 경우에는 음소단위 패턴분석 수행단계(S60)를 통해 다시 저장된 음성 신호의 음소 부분만을 따로 처리하여 은닉 마르코프 모델을 수행함으로써 사용자가 실질적으로 입력하고자 하였던 초성 'ㄱ'을 인식된 음소로 결정하게 되고, 다른 예를 들자면 사용자가 음성 '나'를 입력하여 분석단계(S40)에서 유사한 참조모델이 '나'로 인식되었다면 음소단위 패턴분석 수행단계(S60)를 거치지 않고 바로 'ㄴ'이 입력된 것으로 결정한다.
단어결정단계(S80)는 음소결정단계(S70)에 의해 검출된 음소들을 이용하여 단어를 검색하며, 검색된 단어 중 최종 결과를 선택하는 단계이다.
이와 같이 본 발명의 비상보안장치의 제어부(220)는 우선 초성 기반의 음성인식을 통해 비교되는 참조패턴의 개수를 절감시킴으로써 메모리를 절약함과 동시에 연산 처리량을 감소시킬 수 있으며, 비교적 계산량이 많지 않은 음절 단위 패턴에 대한 동적 시간 워핑을 기본적으로 사용하되, 정확성이 요구되는 경우에만 음소 단위 패턴에 대한 은닉 마르코프 모델방식을 보조적으로 사용함으로써 시스템에 과도한 부하를 주지 않으면서 음성인식의 정확성 및 신뢰도를 높일 수 있게 된다.
1:보안시스템 200:보안등 201:지주
210:제어부 211:긴급 상황 판단부
212:메모리 213:통신 인터페이스부
214:카메라 구동부 215:VoIP 관리부
216:비상램프 구동부 217:경보방송 출력부
218:긴급상세정보 검출부 219:영상 분석부
219‘:2차 데이터 생성부 220:음성처리 및 관리부
221:음향신호 입력부 222:음성인식부
223:특징파라미터 검출부 224:비교 및 매칭부
225:참조모델 데이터베이스부
300:감시카메라 500:비상보안장치 501:함체
502:내장카메라 503:마이크로폰 505:스피커
507:비상벨 509:비상램프 2180:감시영상 분석부
2190:근거리영상 분석부 2221:제1 음성인식모듈
2222:제2 음성인식모듈

Claims (13)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 마이크로폰들, 내장카메라 및 제어부를 포함하고, 음성인식을 통해 긴급 상황 발생여부를 판단하며, 긴급 상황이 발생되었다고 판단될 때 상기 내장카메라를 구동시켜 근거리영상을 획득하는 보안장치;
    긴급 상황 발생 시 상기 보안장치로부터 근거리영상을 전송받아 모니터링 하는 관제센터서버;
    상기 보안장치가 설치된 장소를 촬영하여 감시영상을 획득하는 감시카메라;
    보안등을 포함하고,
    상기 제어부는
    상기 마이크로폰들에 의해 획득된 음향신호들을 분석하여 음성단어를 결정하는 음성처리 및 관리부;
    긴급 상황이라고 판단할 수 있는 음성단어로 정의되는 비교대상문자들이 저장되는 메모리;
    상기 음성처리 및 관리부에 의해 결정된 음성단어와 상기 메모리에 저장된 상기 비교대상문자들 각각의 연관관계를 검출한 후 검출된 연관관계가 임계치를 넘어서는 경우 긴급 상황이 발생하였다고 판단하는 긴급 상황 판단부를 더 포함하고,
    상기 보안등은 지주의 상부에 설치되고, 상기 보안장치는 상기 지주의 일측에 설치되고, 상기 감시카메라는 상기 지주의 상측에 설치되어 하부를 향하여 촬영하고,
    상기 제어부는 상기 긴급 상황 판단부에 의해 긴급 상황이 발생되었다고 판단될 때 상기 감시카메라를 구동시키고, 상기 감시카메라에 의해 획득된 영상인 감시영상을 상기 관제센터서버로 전송하고,
    상기 제어부는
    상기 감시카메라가 촬영하는 촬영영역에 대한 실제 거리지도 상에서 상기 촬영영역에 연결되는 진출로들에 대한 프레임 상에서의 위치정보인 진출로위치정보들이 기 설정되어 저장되는 메모리와, 상기 감시카메라에 의해 획득된 감시영상을 분석하는 감시영상 분석부를 더 포함하고,
    상기 감시영상 분석부는
    상기 감시영상의 노이즈를 제거하는 제1 전처리모듈;
    기 설정된 객체검출 알고리즘을 이용하여 상기 제1 전처리모듈에 의한 전처리 영상을 분석하여 영상 내 객체를 검출하는 객체검출모듈;
    상기 감시영상의 연속 프레임들을 통해 상기 객체검출모듈에 의해 검출된 객체의 움직임을 추적하는 궤적추적모듈;
    상기 궤적추적모듈에 의해 추적된 궤적정보를 통해 해당 객체가 영상으로부터 사라지는 경우 객체가 사라진 지점의 프레임상 위치정보를 검출하는 진출 위치정보 검출모듈;
    상기 진출 위치정보 검출모듈에 의하여 검출된 진출 위치정보를 상기 메모리에 저장된 진출로위치정보들 각각과 비교하여 차이값이 임계치 미만인 진출로위치정보를 객체가 사라진 도주방향으로 결정하는 도주방향 결정모듈을 더 포함하고,
    상기 제어부는 상기 도주방향 결정모듈에 의해 검출된 도주방향 정보를 상기 관제센터서버로 전송하는 것을 특징으로 하는 보안시스템.
  5. 삭제
  6. 삭제
  7. 청구항 제4항에 있어서, 상기 메모리에는 상기 비교대상문자들 각각에 대한 카테고리 정보가 매칭되면서 각 카테고리의 위험도가 매칭된 데이터인 카테고리 테이블이 더 저장되고,
    상기 제어부는
    상기 긴급상황 판단부에 의해 긴급 상황이 발생되었다고 판단될 때 구동되며, 상기 메모리에 저장된 카테고리 테이블을 탐색하여 상기 긴급 상황 판단부에 의해 연관관계가 임계치를 넘은 비교대상문자에 대응되는 카테고리 정보와 위험도 정보를 검출하는 긴급상세정보 검출부를 더 포함하고,
    상기 제어부는 상기 긴급상세정보 검출부에 의해 검출된 카테고리 정보 및 위험도 정보를 상기 관제센터서버로 전송하는 것을 특징으로 하는 보안시스템.
  8. 청구항 제7항에 있어서, 상기 제어부는
    기 설정된 주기(T) 동안의 긴급 확인데이터와, 카테고리 정보, 위험도정보를 분석하여 주기(T) 별 긴급 상황 발생회수, 긴급 상황 종류, 위험도에 대한 통계데이터인 2차 데이터를 생성하며, 주기(T) 동안 발생된 긴급상황의 위험도를 누적 한산한 후 합산된 값을 임계치에 비교하며, 위험도 합산값이 임계치 이상인 경우 해당 장소를 위험군으로 결정하는 2차 데이터 생성부를 더 포함하고,
    상기 보안시스템은 상기 촬영영역의 진출입로에 설치되어 상기 제어부에 의해 제어되는 디스플레이 수단을 더 포함하고,
    상기 제어부는 일정 주기마다 상기 2차 데이터 생성부에 의해 생성된 2차 데이터와, 위험군 정보를 상기 관제센터서버로 전송하며, 상기 2차 데이터 생성부에 의해 해당 장소가 위험군으로 결정되면, 상기 디스플레이 수단에 해당 장소가 위험군이라는 안내문구를 디스플레이 하는 것을 특징으로 하는 보안시스템.
  9. 청구항 제8항에 있어서, 상기 보안장치는
    외면에 상기 마이크로폰들 및 상기 내장카메라의 렌즈가 설치되는 하우징;
    상기 하우징의 외면에 설치되는 비상벨과, 스피커, 비상램프들을 더 포함하고,
    상기 긴급 상황 판단부는 상기 비상벨이 조작(푸시) 될 때 긴급 상황이 발생하였다고 판단하고,
    상기 제어부는
    상기 긴급 상황 판단부에 의해 긴급 상황이 발생되었다고 판단될 때 구동되며, 상기 비상램프들을 점멸시키는 LED 모듈 구동부;
    상기 긴급 상황 판단부에 의해 긴급 상황이 발생되었다고 판단될 때 구동되며, 상기 스피커를 통해 기 제작된 경보방송을 출력시키는 경보방송 출력부;
    상기 긴급 상황 판단부에 의해 긴급 상황이 발생되었다고 판단될 때 구동되며, 상기 관제센터서버의 요원과의 데이터 통화를 중계하는 VoIP 관리부를 더 포함하는 것을 특징으로 하는 보안시스템.
  10. 청구항 제4항, 제7항 내지 제9항 중 어느 한 항에 있어서, 상기 마이크로폰들은 제1, 2, 3 마이크로폰들을 포함하고,
    상기 음성처리 및 관리부는
    기 설정된 참조모델들이 저장되는 참조모델 데이터베이스부;
    상기 제1, 2, 3 마이크로폰들에 의해 획득된 음향신호들을 입력받는 음향신호 입력부;
    상기 음향신호 입력부에 의해 입력되는 음향신호들을 분석하여 원신호(X2)를 검출하는 음성인식부;
    상기 음성인식부에 의해 검출된 원신호(X2)의 특징벡터를 추출한 후 추출된 특징벡터를 이용하여 특징파라미터를 생성하는 특징파라미터 생성부;
    기 설정된 비교 알고리즘을 이용하여 상기 참조모델 데이터베이스부에 저장된 참조모델들과, 상기 특징파라미터 생성부에 의해 생성된 특징파라미터를 분석하여 상기 특징파라미터와 상기 참조모델들 각각의 신호패턴들의 일치정도로 정의되는 유사도들을 검출한 후 검출된 유사도가 최상인 참조모델을 검출하는 비교 및 매칭부;
    상기 비교 및 매칭부에 의해 검출된 유사도가 최상인 참조모델에 대응되는 문자를 검색어로 하여 단어를 검색하며, 검색된 단어를 최종 출력하여 음성인식을 수행하는 단어결정부를 더 포함하는 것을 특징으로 하는 보안시스템.
  11. 청구항 제10항에 있어서, 상기 음성인식부는
    제1, 2 마이크로폰들의 음향신호들로부터 원신호(S1), (S2)들 및 잡음신호(N1), (N2)들을 분리한 후 분리된 원신호(S1), (S2)들을 합산하여 1차 원신호(X1)를 검출하는 제1 음성인식모듈;
    제3 마이크로폰의 음향신호로부터 원신호(S3) 및 잡음신호(N3)를 분리한 후 분리된 원신호(S3)를 상기 제1 음성인식모듈에 의해 검출된 1차 원신호(X1)에 합산하여 최종 원신호(X2)를 검출하는 제2 음성인식모듈을 더 포함하는 것을 특징으로 하는 보안시스템.
  12. 청구항 제11항에 있어서, 상기 제1 음성인식모듈과, 상기 제2 음성인식모듈은 서로 다른 방식의 제1 신호분리 알고리즘 및 제2 신호분리 알고리즘을 이용하여 음향신호로부터 원신호 및 잡음신호를 분리시키는 것을 특징으로 하는 보안시스템.
  13. 청구항 제12항에 있어서, 상기 음성인식부는 최종 원신호(X2)가 검출되면, 검출된 원신호(X2)의 초성에 기 설정된 모음을 조합하되, 종성을 삭제한 음절로 변환시키고,
    상기 비교 및 매칭부는
    입력된 음성과 참조음성 사이의 발음 속도와 길이의 차이를 보상하기 위하여 입력 특징파라미터와 참조모델을 비선형적으로 정합하여 가장 유사도가 높은 참조모델의 음성을 인식하기 위한 동적시간 워핑(DTW; Dynamic Time Warping) 알고리즘을 이용하여 특징파라미터와 참조모델들 각각의 유클리드 제곱 거리(Squared Euclidean Distance)를 산출한 후 그 거리가 가장 작은 참조모델을 특징파리미터와 가장 유사한 모델로 인식하고,
    특징파라미터와의 유사도가 기 설정된 임계치 이내인 참조모델이 한 개인 경우 유사도가 가장 높은 참조모델을 입력음성을 결정하며,
    특정파라미터와의 유사도가 기 설정된 임계치 이내인 참조모델이 2개 이상인 경우, 음성신호를 음소단위로 분리한 후 은닉 마르포크 모델(Hidden Markov model)을 통해 패턴 비교 알고리즘을 통해 유사도가 가장 높은 음소를 입력음성을 결정하는 것을 특징으로 하는 보안시스템.
KR1020170014951A 2017-02-02 2017-02-02 음성인식을 이용한 보안등 및 보안시스템 KR101794260B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170014951A KR101794260B1 (ko) 2017-02-02 2017-02-02 음성인식을 이용한 보안등 및 보안시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170014951A KR101794260B1 (ko) 2017-02-02 2017-02-02 음성인식을 이용한 보안등 및 보안시스템

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020170069523A Division KR101882309B1 (ko) 2017-06-05 2017-06-05 음성인식을 이용한 보안등 및 보안시스템

Publications (1)

Publication Number Publication Date
KR101794260B1 true KR101794260B1 (ko) 2017-11-06

Family

ID=60384440

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170014951A KR101794260B1 (ko) 2017-02-02 2017-02-02 음성인식을 이용한 보안등 및 보안시스템

Country Status (1)

Country Link
KR (1) KR101794260B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117042252A (zh) * 2023-10-08 2023-11-10 深圳华唐锐照明电器有限公司 基于光学与雷达感知的智能灯具控制系统
CN117253484A (zh) * 2023-11-18 2023-12-19 无锡科晟光子科技有限公司 一种基于mems光纤技术的矿用猴车综合检测系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100807757B1 (ko) * 2006-10-27 2008-02-28 오상원 음성인식 자동경보시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100807757B1 (ko) * 2006-10-27 2008-02-28 오상원 음성인식 자동경보시스템

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117042252A (zh) * 2023-10-08 2023-11-10 深圳华唐锐照明电器有限公司 基于光学与雷达感知的智能灯具控制系统
CN117042252B (zh) * 2023-10-08 2023-12-05 深圳华唐锐照明电器有限公司 基于光学与雷达感知的智能灯具控制系统
CN117253484A (zh) * 2023-11-18 2023-12-19 无锡科晟光子科技有限公司 一种基于mems光纤技术的矿用猴车综合检测系统
CN117253484B (zh) * 2023-11-18 2024-01-30 无锡科晟光子科技有限公司 一种基于mems光纤技术的矿用猴车综合检测系统

Similar Documents

Publication Publication Date Title
CN109672853B (zh) 基于视频监控的预警方法、装置、设备及计算机存储介质
KR101445367B1 (ko) 이상 음원에 대한 인식율 향상을 통하여 긴급상황 판별 성능을 개선한 지능형 영상감시 시스템 및 이를 이용한 긴급상황 판별방법
US9761248B2 (en) Action analysis device, action analysis method, and action analysis program
KR101872313B1 (ko) 적외선 카메라와 객체 추적이 가능한 성범죄자 데이터베이스와 연동되는 지능형 비상벨 시스템
CN111063162A (zh) 静默报警方法、装置、计算机设备和存储介质
KR101687296B1 (ko) 음향 및 행동 패턴 인식 기반의 하이브리드 패턴 분석이 가능한 객체 추적 시스템 및 객체 추적 방법
KR101822084B1 (ko) 시각장애인을 위한 지팡이
KR101899436B1 (ko) 비명인식 기반 안전감지센서
JP6682222B2 (ja) 検知装置及びその制御方法、コンピュータプログラム
JP5970232B2 (ja) 避難情報提供装置
KR102210087B1 (ko) 교량에서의 투신을 방지하는 IoT 장치 및 이를 이용한 투신 방지 시스템
KR101882309B1 (ko) 음성인식을 이용한 보안등 및 보안시스템
KR101794260B1 (ko) 음성인식을 이용한 보안등 및 보안시스템
KR101736466B1 (ko) 음향 정보 기반 상황 인식 장치 및 방법
KR101822085B1 (ko) 비상벨을 구비한 비상경보장치
KR20120103286A (ko) 오디오 신호를 이용하여 차량에 대한 관심 대상 이벤트를 감지하기 위한 방법 및 장치
KR102156241B1 (ko) 안전 블록을 구비한 위험상황 알림 시스템
CN111723671A (zh) 一种智慧灯杆呼救系统及方法
JP4175180B2 (ja) 監視通報システム
CN111179969A (zh) 一种基于音频信息的报警方法、装置、系统及存储介质
CN100483471C (zh) 带有成像传感器的报警装置
US20230260387A1 (en) Systems and methods for detecting security events in an environment
US11869532B2 (en) System and method for controlling emergency bell based on sound
KR20160072678A (ko) 폭력 및 범죄예방 위한 실시간 모니터링 시스템
KR102313283B1 (ko) 영상 분석 기능을 탑재한 인공지능 다목적 비상벨 시스템

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant