KR101822085B1

KR101822085B1 - 비상벨을 구비한 비상경보장치

Info

Publication number: KR101822085B1
Application number: KR1020170014949A
Authority: KR
Inventors: 윤형관; 이풍우; 윤태식; 김성진
Original assignee: 인성 엔프라 주식회사; 주식회사 보임
Priority date: 2017-02-02
Filing date: 2017-02-02
Publication date: 2018-01-25

Abstract

본 발명은 서로 다른 알고리즘이 적용되는 멀티 음성인식모듈을 이용하여 음성인식의 정확성을 높여 위급상황에 대한 신속한 대처 및 경보가 이루어지며, 음성인식부가 2개의 마이크로폰들로부터 입력되는 음향신호(H1), (H2)들 각각으로부터 원신호(S1), (S2) 및 잡음신호(N1), (N2)들을 분리한 후 원신호(S1), (S2)를 합산하여 1차 원신호(X1)를 검출하는 제1 음성인식모듈과, 다른 마이크로폰으로부터 입력되는 음향신호(H3)로부터 원신호(S3) 및 잡음신호(N3)를 분리한 후 분리된 원신호(S3)를 제1 음성인식모듈로부터 입력되는 1차 원신호(X1)와 합산하여 최종 원신호(X2)를 검출하는 제2 음성인식모듈을 포함함으로써 잡음제거 시 원신호가 함께 제거되는 현상을 상쇄시켜 음성인식의 정확성 및 신뢰도를 높일 수 있고, 음성인식모듈들에 의하여 원신호의 검출이 반복적으로 수행됨으로써 음성을 정확하고 정밀하게 검출할 수 있고, 제1 음성인식모듈 및 제2 음성인식모듈이 서로 다른 신호분리 알고리즘을 이용하여 음향신호로부터 원신호 및 잡음신호를 분리하도록 구성됨으로써 각 신호분리 알고리즘의 장점은 부각시키되, 단점을 서로 상쇄시켜 음성인식의 정확성을 더욱 높일 수 있는 음성인식모듈을 이용한 비상경보장치에 관한 것이다.

Description

비상벨을 구비한 비상경보장치{emergency alarm apparatus having emergency bell}

본 발명은 비상벨을 구비한 비상경보장치에 관한 것으로서, 상세하게로는 서로 다른 알고리즘이 적용되는 멀티 음성인식모듈을 이용하여 음성인식의 정확성을 높여 위급상황에 대한 신속한 대처 및 경보가 이루어지는 비상벨을 구비한 비상경보장치에 관한 것이다.

최근 들어 화장실 등과 같이 공중의 이용이 가능하면서 외부와의 노출이 차단되는 공간(이하 실내공중장소라고 함)에서, 폭행, 강도, 성추행, 살인 등의 범죄사고가 빈번하게 발생하고 있고, 이에 따라 실내공중장소를 이용하는 이용자의 불안감이 점차 증가하고 있다. 특히 여성의 경우 남성에 비교하여 신체적 능력이 낮기 때문에 실내공중장소 이용에 대하여 더욱 큰 불안감 및 부담을 가지게 된다.

이에 따라 실내공중장소에서의 위급상황을 미연에 방지함과 동시에 대처하기 위한 비상경보장치에 대한 다양한 연구가 진행되고 있다.

비상벨 장치는 이러한 연구 중 하나로서, 설치가 간단하며, 조작이 편리한 장점으로 인해 실제 현장에 설치되고 있으나, 비상벨을 구동시키기 위해서는 위급상황에 처한 당사자가 직접 비상벨이 설치된 위치로 이동하여야만 하고, 물리적인 접촉을 통해서만 비상벨을 누를 수 있기 때문에 실제 위급상황에 처한 당사자가 범죄자의 시야에서 비상벨을 누르기가 어려운 단점을 갖는다.

또한 마이크로폰을 통해 수집된 음향신호의 데시벨 크기를 임계치에 비교하여 위급상황을 감지하도록 하는 기술이 연구되었으나, 이러한 방식은 위급상황과 무관한 소리에도 반응하기 때문에 오동작 및 에러가 높아 신뢰도가 떨어지는 문제점이 발생한다.

도 1은 국내등록특허 제10-1651158호(발명의 명칭 : 음향 및 하이브리드 인식 기반의 긴급상황 인지 CCTV 방범 시스템 및 CCTV 방범 제공 방법)에 개시된 CCTV 방범 시스템을 나타내는 블록도이다.

도 1의 CCTV 방범 시스템(이하 종래기술이라고 함)(100)은 특정 영역을 촬영하여 영상을 획득하며 획득된 영상으로부터 피사체의 존재 여부를 감지하는 고정형 카메라(110)와, 팬-틸트 회전하여 피사체를 정밀 촬영하는 이동형 카메라(120)와, 마이크를 통해 입력되는 음향 주파수 신호를 인식하는 음향 주파수 인식 장치(130)와, 음향 주파수 인식 장치(130)에 의해 인식된 주파수를 분석하여 긴급 상황 발생여부를 판별하는 제어 장치(160)와, 평판형 스피커(140), 비콘 무선 신호 송수신부(150)로 이루어진다.

제어 장치(160)는 음향 주파수 인식 장치(130)에 의해 인식된 주파수와, 카메라(110)에 의해 획득된 영상을 다각적으로 분석하여 긴급상황이 발생되었는지를 판단한다.

그러나 종래기술(100)은 단순히 입력된 음향 주파수의 데시벨 및 주기를 임계치에 비교하여 긴급 상황을 판단하도록 구성되었기 때문에 긴급 상황의 음향 주파수와 유사한 소리를 긴급 상황이라고 오판하는 일이 빈번하게 발생하여 방범의 신뢰도가 현저히 떨어지게 된다.

또한 종래기술(100)은 입력된 음향신호로부터 음성을 인식하여 단어를 검출하는 과정이 기재되어 있지 않기 때문에 범죄에 주로 사용되는 대화가 이루어지더라도 이를 전혀 감지할 수 없는 구조적 한계를 갖는다.

또한 종래기술(100)은 만약 음성인식모듈이 설치된다고 가정하더라도, 해당 장소의 잡음에 의하여 음성인식이 정확하게 이루어지지 않아 검지율이 떨어지는 단점을 갖는다.

본 발명은 이러한 문제를 해결하기 위한 것으로, 본 발명의 해결과제는 서로 다른 알고리즘이 적용되는 멀티 음성인식모듈을 이용하여 음성인식의 정확성을 높여 위급상황에 대한 신속한 대처 및 경보가 이루어지는 음성인식모듈을 이용한 비상경보장치를 제공하기 위한 것이다.

또한 본 발명의 다른 해결과제는 음성인식부가 2개의 마이크로폰들로부터 입력되는 음향신호(H1), (H2)들 각각으로부터 원신호(S1), (S2) 및 잡음신호(N1), (N2)들을 분리한 후 원신호(S1), (S2)를 합산하여 1차 원신호(X1)를 검출하는 제1 음성인식모듈과, 다른 마이크로폰으로부터 입력되는 음향신호(H3)로부터 원신호(S3) 및 잡음신호(N3)를 분리한 후 분리된 원신호(S3)를 제1 음성인식모듈로부터 입력되는 1차 원신호(X1)와 합산하여 최종 원신호(X2)를 검출하는 제2 음성인식모듈을 포함함으로써 잡음제거 시 원신호가 함께 제거되는 현상을 상쇄시켜 음성인식의 정확성 및 신뢰도를 높일 수 있는 음성인식모듈을 이용한 비상경보장치를 제공하기 위한 것이다.

또한 본 발명의 또 다른 해결과제는 음성인식모듈들에 의하여 원신호의 검출이 반복적으로 수행됨으로써 음성을 정확하고 정밀하게 검출할 수 있는 음성인식모듈을 이용한 비상경보장치를 제공하기 위한 것이다.

또한 본 발명의 또 다른 해결과제는 제1 음성인식모듈 및 제2 음성인식모듈이 서로 다른 신호분리 알고리즘을 이용하여 음향신호로부터 원신호 및 잡음신호를 분리하도록 구성됨으로써 각 신호분리 알고리즘의 장점은 부각시키되, 단점을 서로 상쇄시켜 음성인식의 정확성을 더욱 높일 수 있는 음성인식모듈을 이용한 비상경보장치를 제공하기 위한 것이다.

또한 본 발명의 또 다른 해결과제는 각 마이크로폰이 입력신호로부터 잡음회귀현상을 제거하기 위한 음향반향삭제(AEC, Acoustic Echo Cancellation)가 적용됨으로써 동적 잡음원을 적응적으로 제거할 수 있는 음성인식모듈을 이용한 비상경보장치를 제공하기 위한 것이다.

상기 과제를 해결하기 위한 본 발명의 해결수단은 외면에 제1, 2, 3 마이크로폰들이 설치되는 하우징과, 상기 하우징의 내부에 설치되는 제어부를 포함하는 비상경보 장치에 있어서: 상기 제어부는 통신 인터페이스부; 기 설정된 참조모델들이 저장되는 참조모델 데이터베이스부; 상기 제1, 2, 3 마이크로폰들에 의해 획득된 음향신호들을 입력받는 음향신호 입력부; 상기 음향신호 입력부에 의해 입력되는 음향신호들을 분석하여 원신호(X2)를 검출하는 음성인식부; 상기 음성인식부에 의해 검출된 원신호(X2)의 특징벡터를 추출한 후 추출된 특징벡터를 이용하여 특징파라미터를 생성하는 특징파라미터 생성부; 기 설정된 비교 알고리즘을 이용하여 상기 참조모델 데이터베이스부에 저장된 참조모델들과, 상기 특징파라미터 생성부에 의해 생성된 특징파라미터를 분석하여 특징파라미터와 가장 유사도가 높은 참조모델을 검출하는 비교 및 매칭부; 상기 비교 및 매칭부에 의해 검출된 참조모델에 대응되는 문자를 검색어로 하여 단어를 검색하며, 검색된 단어를 최종 출력하여 음성인식을 수행하는 단어결정부; 위급상황이라고 판단할 수 있는 음성단어로 정의되는 비교대상문자들이 저장되는 메모리; 상기 단어결정부에 의해 결정된 음성단어와 상기 메모리에 저장된 상기 비교대상문자들 각각의 연관관계를 검출한 후 검출된 연관관계가 임계치를 넘어서는 경우 위급상황이 발생하였다고 판단하는 위급상황 판단부를 포함하고, 상기 제어부는 위급상황 판단부에 의해 위급상황이 발생되었다고 판단될 때 상기 통신 인터페이스부를 통해 위급상황이 발생되었다는 위급상황 확인데이터를 외부관제서버로 전송하고, 상기 음성인식부는 제1, 2 마이크로폰들의 음향신호들로부터 원신호(S1), (S2)들 및 잡음신호(N1), (N2)들을 분리한 후 분리된 원신호(S1), (S2)들을 합산하여 1차 원신호(X1)를 검출하는 제1 음성인식모듈; 제3 마이크로폰의 음향신호로부터 원신호(S3) 및 잡음신호(N3)를 분리한 후 분리된 원신호(S3)를 상기 제1 음성인식모듈에 의해 검출된 1차 원신호(X1)에 합산하여 최종 원신호(X2)를 검출하는 제2 음성인식모듈을 더 포함하고, 상기 음성인식부는 최종 원신호(X2)가 검출되면, 검출된 원신호(X2)의 초성에 기 설정된 모음을 조합하되, 종성을 삭제한 음절로 변환시키고, 상기 비교 및 매칭부는 입력된 음성과 참조음성 사이의 발음 속도와 길이의 차이를 보상하기 위하여 입력 특징파라미터와 참조모델을 비선형적으로 정합하여 가장 유사도가 높은 참조모델의 음성을 인식하기 위한 동적시간 워핑(DTW; Dynamic Time Warping) 알고리즘을 이용하여 특징파라미터와 참조모델들 각각의 유클리드 제곱 거리(Squared Euclidean Distance)를 산출한 후 그 거리가 가장 작은 참조모델을 특징파리미터와 가장 유사한 모델로 인식하고, 특징파라미터와의 유사도가 기 설정된 임계치 이내인 참조모델이 한 개인 경우 유사도가 가장 높은 참조모델을 입력음성을 결정하며, 특정파라미터와의 유사도가 기 설정된 임계치 이내인 참조모델이 2개 이상인 경우, 음성신호를 음소단위로 분리한 후 은닉 마르포크 모델(Hidden Markov model)을 통해 패턴 비교 알고리즘을 통해 유사도가 가장 높은 음소를 입력음성을 결정하는 것이다.

삭제

또한 본 발명에서 상기 제1 음성인식모듈과, 상기 제2 음성인식모듈은 서로 다른 방식의 제1 신호분리 알고리즘 및 제2 신호분리 알고리즘을 이용하여 음향신호로부터 원신호 및 잡음신호를 분리시키는 것이 바람직하다.

삭제

또한 본 발명에서 상기 메모리에는 비교대상문자들 각각에 대한 카테고리 정보가 매칭됨과 동시에 각 카테고리의 위험도가 매칭된 카테고리 테이블이 더 저장되고, 상기 제어부는 상기 위급상황 판단부에 의해 위급상황이 발생되었다고 판단될 때 구동되며, 상기 메모리에 저장된 카테고리 테이블을 탐색하여 상기 위급상황 판단부에 의해 연관관계가 임계치를 넘은 비교대상문자에 대응되는 카테고리 정보와 위험도 정보를 검출하는 위급관련정보 검출부를 더 포함하고, 상기 제어부는 상기 통신 인터페이스부를 제어하여 상기 위급관련정보 검출부에 의해 검출된 카테고리 정보 및 위험도 정보를 상기 외부관제서버로 전송하는 것이 바람직하다.

또한 본 발명에서 상기 제어부는 기 설정된 주기(T) 동안의 위급상황 확인데이터와, 카테고리정보, 위험도정보를 분석하여 주기(T) 별 위급상황 발생회수, 위급상황 종류, 위험도에 대한 통계데이터를 생성하며, 주기(T) 동안 발생된 위급상황의 위험도를 누적 한산한 후 합산된 값을 임계치에 비교하며, 위험도 합산값이 임계치 이상인 경우 해당 장소를 위험군으로 결정하는 통계정보 생성부를 더 포함하고, 상기 제어부는 일정 주기마다 상기 통신 인터페이스부를 제어하여 상기 통계정보 생성부에 의해 생성된 주기(T) 별 위급상황 발생회수, 위급상황 종류, 위험도에 대한 통계데이터와, 위험도 합산값을 상기 외부관제서버로 전송하는 것이 바람직하다.

또한 본 발명에서 상기 비상경보장치는 해당 장소의 진출입로에 설치되어 상기 제어부에 의해 제어되는 디스플레이 수단을 더 포함하고, 상기 제어부는 상기 통계정보 생성부에 의해 해당 장소가 위험군으로 결정되면, 상기 디스플레이 수단에 해당 장소가 위험군이라는 안내문구를 디스플레이 하도록 상기 디스플레이 수단을 제어하는 것이 바람직하다.

또한 본 발명에서 상기 비상경보장치는 해당 장소에 설치되는 다운라이트들을 더 포함하고, 상기 제어부는 상기 판단부에 의해 위급상황이 발생하였다고 판단될 때 구동되어 스피커를 통해 사운드QR 신호를 출력시키는 사운드QR 출력부를 더 포함하고, 상기 다운라이트들은 LED와, 상기 LED의 점등 및 소등을 제어하는 조명제어부와, 상기 제어부로부터 출력되는 사운드QR을 입력받는 마이크로폰을 더 포함하고, 상기 조명제어부는 상기 마이크로폰을 통해 상기 제어부로부터 사운드QR을입력받으면 상기 LED를 점멸시키는 것이 바람직하다.

또한 본 발명에서 상기 비상경보장치는 상기 하우징의 외면에 설치되는 비상벨과, 스피커, LED 모듈들을 더 포함하고, 상기 위급상황 판단부는 상기 비상벨이 가압되는 경우 위급상황이 발생하였다고 판단하고, 상기 제어부는 상기 위급상황 판단부에 의해 위급상황이 발생되었다고 판단될 때 구동되며, 상기 LED 모듈들을 점멸시키는 LED 모듈 구동부; 상기 위급상황 판단부에 의해 위급상황이 발생되었다고 판단될 때 구동되며, 상기 스피커를 통해 기 제작된 경보방송을 출력시키는 경보방송 출력부; 상기 위급상황 판단부에 의해 위급상황이 발생되었다고 판단될 때 구동되며, 상기 외부관제서버의 요원과 위급상황이 처한 이용자의 통화를 중계하는 통화처리부를 더 포함하는 것이 바람직하다.

상기 과제와 해결수단을 갖는 본 발명에 따르면 서로 다른 알고리즘이 적용되는 멀티 음성인식모듈을 이용하여 음성인식의 정확성을 높여 위급상황에 대한 신속한 대처 및 경보가 이루어지게 된다.

또한 본 발명에 의하면 음성인식부가 2개의 마이크로폰들로부터 입력되는 음향신호(H1), (H2)들 각각으로부터 원신호(S1), (S2) 및 잡음신호(N1), (N2)들을 분리한 후 원신호(S1), (S2)를 합산하여 1차 원신호(X1)를 검출하는 제1 음성인식모듈과, 다른 마이크로폰으로부터 입력되는 음향신호(H3)로부터 원신호(S3) 및 잡음신호(N3)를 분리한 후 분리된 원신호(S3)를 제1 음성인식모듈로부터 입력되는 1차 원신호(X1)와 합산하여 최종 원신호(X2)를 검출하는 제2 음성인식모듈을 포함함으로써 잡음제거 시 원신호가 함께 제거되는 현상을 상쇄시켜 음성인식의 정확성 및 신뢰도를 높일 수 있다.

또한 본 발명에 의하면 음성인식모듈들에 의하여 원신호의 검출이 반복적으로 수행됨으로써 음성을 정확하고 정밀하게 검출할 수 있다.

또한 본 발명에 의하면 제1 음성인식모듈 및 제2 음성인식모듈이 서로 다른 신호분리 알고리즘을 이용하여 음향신호로부터 원신호 및 잡음신호를 분리하도록 구성됨으로써 각 신호분리 알고리즘의 장점은 부각시키되, 단점을 서로 상쇄시켜 음성인식의 정확성을 더욱 높일 수 있게 된다.

또한 본 발명에 의하면 각 마이크로폰이 입력신호로부터 잡음회귀현상을 제거하기 위한 음향반향삭제(AEC, Acoustic Echo Cancellation)가 적용됨으로써 동적 잡음원을 적응적으로 제거할 수 있다.

도 1은 국내등록특허 제10-1651158호(발명의 명칭 : 음향 및 하이브리드 인식 기반의 긴급상황 인지 CCTV 방범 시스템 및 CCTV 방범 제공 방법)에 개시된 CCTV 방범 시스템을 나타내는 블록도이다.
도 2는 본 발명의 일실시예인 비상경보장치를 나타내는 사시도이다.
도 3은 도 2의 구성도이다.
도 4는 도 2가 적용된 비상경보 시스템을 나타내는 구성도이다.
5는 도 4의 다운라이트를 나타내는 블록도이다.
도 6은 도 2의 비상경보장치의 제어부를 나타내는 블록도이다.
도 7은 도 6의 음성처리 및 관리부를 나타내는 블록도이다.
도 8은 도 7의 마이크로폰에 적용되는 전처리 기술을 설명하기 위한 예시도이다.
도 9는 도 7의 음성인식부를 나타내는 블록도이다.
도 10은 도 9의 제1 음성인식모듈에 적용되는 제1 신호분리 알고리즘을 설명하기 위한 예시도이다.
도 11은 도 7의 음성처리 및 관리부의 동작과정을 설명하기 위한 플로차트이다.

이하, 첨부된 도면을 참조하여 본 발명의 일실시예를 설명한다.

도 2는 본 발명의 일실시예인 비상경보장치를 나타내는 사시도이고, 도 3은 도 2의 구성도이고, 도 4는 도 2가 적용된 비상경보 시스템을 나타내는 구성도이다.

본 발명의 일실시예인 비상경보장치(500)는 화장실, 복도 등과 같이 공공의 사람들이 이용하되, 외부와의 노출이 차단되는 공간인 실내공중장소에 설치되어 위급상황 발생여부를 판단하며, 위급상황 발생 시 위급상황의 종류 및 등급을 판별한 후 후술되는 도 4의 외부 관제서버(600)로 위급상황이 발생되었다는 위급상황 확인데이터와, 판별된 종류 및 등급정보를 전송함으로써 위급상황에 대한 신속한 대처가 이루어지도록 함과 동시에 비상등, 비상방송을 출력하여 위급상황을 사전에 방지하기 위한 장치이다.

또한 비상경보장치(500)는 도 2에 도시된 바와 같이, 함체 형상의 하우징(501)과, 하우징(501)의 전면의 각 모서리에 설치되어 음향신호들을 각각 입력받는 복수개의 마이크로폰(503)들과, 하우징(501)의 전면의 하측에 설치되어 사용자에 의해 가압되는 비상벨(507)과, 하우징(501)의 전면의 중앙에 설치되어 음향을 출력하는 스피커(505)와, 스피커(505)의 외측에 원호를 따라 설치되어 비상조명이 점등 및 소등되는 LED 모듈(509)들로 이루어진다.

이때 본 발명에서는 설명의 편의를 위해 하우징(501)의 형상이 육면체이고, 마이크로폰(503)의 수량이 4개인 것으로 예를 들어 설명하였으나, 하우징(501)의 형상과 마이크로폰(503)의 수량은 이에 한정되지 않는다.

마이크로폰(503)들은 하우징(501)의 전면의 각 모서리에 설치되어 음향신호를 입력받는다. 이때 입력된 음향신호들은 후술되는 도 5의 제어부(210)로 입력된다.

스피커(505)는 위급상황 발생 시 기 제작된 경보방송이 출력되며, 도 3의 다운라이트(200)들로 사운드QR을 출력한다. 이때 ‘사운드QR’은 인간에게는 들리지 않는 주파수대의 음향신호로 정의된다.

즉 다운라이트(200)들은 스피커(505)로부터 사운드QR을 입력받으면, LED의 점멸을 반복하여 위급상황 시 비상등의 기능을 수행하게 되고, 이러한 다운라이트(200)들의 점멸을 통해 해당 장소에 인접한 행인들 또는 해당 장소에 위치한 다른 이용자들이 위급상황이 발생되었음을 인지할 수 있게 된다.

또한 비상경보장치(500)는 위급상황 발생 시 외부관제서버(600)와 보이스통신을 수행하여 외부관제서버(600)의 음성을 스피커(505)를 통해 출력한다.

비상벨(507)은 사용자에 의해 가압되면, 제어부(210)는 위급상황이 발생하였다고 판단한다.

LED 램프(509)들은 위급상황 발생 시 기 설정된 색상으로 점멸된다.

비상경보시스템(700)은 전술하였던 도 2의 비상경보장치(500-1), ..., (500-N)들과, 평상시에는 해당 실내공중장소의 조명용으로 사용되되 위급상황 발생 시 해당 비상경보장치로부터 전송받은 사운드QR을 입력받아 비상등 기능을 수행하는 다운라이트(200-1), ..., (200-N)들과, 외부관제서버(600) 및 비상경보장치(500-1), ..., (500-N)들 사이의 데이터 이동경로를 제공하는 통신망(800)으로 이루어진다.

통신망(800)은 접속된 외부관제서버(600) 및 비상경보장치(500-1), ..., (500-N)들 사이의 데이터 통신을 지원하며, 상세하게로는 광케이블, 광역통신망(WAN), 이동통신망 등으로 구성될 수 있다.

도 5는 도 4의 다운라이트를 나타내는 블록도이다.

다운라이트(200-1), ..., (200-N)들은 천장(30)에 매입되게 설치되며, 빛을 출사하여 실내공중장소로 조명을 제공한다.

또한 다운라이트(200-1), ..., (200-N)들은 도 6에 도시된 바와 같이, 광원소자인 LED의 점등 및 소등을 제어하는 조명관리부(201)와, 비상경보장치(500)로부터 사운드QR을 입력받는 마이크로폰(203)과, 마이크로폰(203)으로부터 입력된 신호가 사운드QR인 경우 조명관리부(201)로 점멸데이터를 입력하는 제어부(205)로 이루어진다.

이때 조명관리부(201)는 제어부(205)로부터 점멸데이터를 입력받으면, 광원소자인 LED를 점멸시킴으로써 위급상황 발생 시 다운라이트가 비상등 용도로 사용되게 된다.

도 6은 도 2의 비상경보장치의 제어부를 나타내는 블록도이다.

도 6의 제어부(210)는 비상경보장치(500)의 내부에 설치되며, 마이크로폰(503)들과, 스피커(505), 비상벨(507), LED 램프(507)들에 연결되어 이들을 제어한다.

또한 제어부(210)는 통신 인터페이스부(213)와, 위급상황 판단부(211), 메모리(212), 위급관련정보 검출부(214), 통화처리부(215), LED 모듈 구동부(216), 사운드QR 출력부(217), 경보방송 출력부(218), 통계정보 생성부(219), 음성처리 및 관리부(220)로 이루어진다.

음성처리 및 관리부(220)는 마이크로폰(503)들로부터 입력받은 음향신호를 분석하여 음성단어를 검출하며, 후술되는 도 7 내지 11에서 상세하게 설명하기로 한다. 이때 본 발명에서는 3개의 마이크로폰들로부터 음향신호를 입력받는 것으로 예를 들어 설명하기로 한다.

또한 음성처리 및 관리부(220)에 의해 검출된 음성단어는 위급상황 판단부(211)로 입력된다.

통신 인터페이스부(213)는 통신망(800)에 접속하여 외부관제서버(600)와 데이터를 송수신한다.

메모리(212)에는 위급관련정보 검출부(214)에 의해 검출된 위급관련정보와, 기제작된 경보방송과, 통계정보 생성부(219)에 의해 생성되는 통계정보가 임시 저장된다.

또한 메모리(212)에는 위급상황이라고 판단할 수 있는 문자인 비교대상문자들이 저장된다.

또한 메모리(212)에는 비교대상문자들 각각에 대한 카테고리 정보가 매칭됨과 동시에 각 카테고리의 위험도가 매칭된 카테고리 테이블이 기 설정되어 저장된다. 이때 카테고리 정보는 위급상황의 종류를 나타내며, 예를 들어 카테고리 정보는 ‘단순시비’, ‘폭행’, ‘성범죄’, ‘살인’ 등으로 분류될 수 있고, ‘살인’ 카테고리가 ‘단순시비’ 카테고리 보다 위험도가 높게 설정될 수 있다.

위급상황 판단부(211)는 비상벨(507)의 가압이 이루어지면 위급상황이 발생되었다고 판단한다.

또한 위급상황 판단부(211)는 음성처리 및 관리부(220)에 의해 음성단어가 결정되면, 결정된 음성단어와 메모리(212)를 탐색하여 결정된 음성단어와 비교대상문자들 각각의 연관관계를 검출한 후 검출된 연관관계가 임계치를 넘어서는 경우 위급상황이 발생하였다고 판단한다.

또한 위급상황 판단부(211)는 만약 위급상황이 발생되었다고 판단되면, 통신 인터페이스부(213)를 통해 외부관제서버(600)로 위급상황이 발생되었다는 데이터를 전송하고, 위급관련정보 검출부(214), 통화처리부(215), LED 모듈 구동부(216), 사운드QR 출력부(217), 경보방송 출력부(218), 통계정보 생성부(219)를 구동시킨다.

이때 위급상황 판단부(211)가 위급상황 발생 여부를 판단하는 방식은 본 출원인에 의해 출원되어 특허 등록된 국내등록특허 제10-1625121호(발명의 명칭 : 음성인식을 이용한 비상경보 방법, 이를 위한 컴퓨터 프로그램, 그 기록 매체)에 개시된 비상경보를 판단하는 방법을 적용하였다.

위급관련정보 검출부(214)는 위급상황 판단부(211)에 의해 위급상황이 발생되었다고 판단될 때 구동되며, 메모리(212)에 저장된 카테고리 테이블을 탐색하여 위급상황 판단부에 의해 연관관계가 임계치를 넘은 비교대상문자에 대응되는 카테고리 정보와 위험도 정보를 검출한다. 이때 카테고리 정보 및 위험도 정보를 매칭한 데이터를 위급관련정보라고 하고, 위급관련정보 검출부(214)에 의해 검출된 위급관련정보는 통신 인터페이스부(213)를 통해 외부관제서버(600)로 전송됨으로써 외부관제서버(600)는 단순히 위급상황이 발생되었다는 정보만을 전달받는 것이 아니라 위급관련정보의 카테고리 정보를 통해 위급상황의 종류를 인지할 수 있으며, 위급관련정보의 위험도 정보를 통해 위험수위를 인지할 수 있게 된다.

통화처리부(215)는 위급상황 판단부(211)에 의해 위급상황이 발생되었다고 판단될 때 구동되며, 위급상황에 처한 사람과 외부관제서버의 요원 사이의 통화를 중계한다.

LED 모듈 구동부(216)는 위급상황 판단부(211)에 의해 위급상황이 발생되었다고 판단될 때 구동되며, 전술하였던 도 2의 LED 모듈(209)들을 점멸시킨다.

사운드QR 출력부(217)는 위급상황 판단부(211)에 의해 위급상황이 발생되었다고 판단될 때 구동되며, 사운드QR을 다운라이트(200-1), ..., (200-N)들로 출력함으로써 다운라이트들이 점멸되도록 한다.

경보방송 출력부(218)는 위급상황 판단부(211)에 의해 위급상황이 발생되었다고 판단될 때 구동되며, 전술하였던 도 2의 스피커(505)를 통해 기 제작된 경보방송을 출력한다.

또한 경보방송 출력부(218)는 통화처리부(215)에 의해 통화가 이루어지는 상태인 경우에는 경보방송을 출력하지 않아 혼선을 방지한다.

통계정보 생성부(219)는 기 설정된 주기(T) 동안의 위급관련정보를 분석하여 주기(T) 별 위급상황 발생회수, 위급상황 종류, 위험도에 대한 통계데이터를 생성한다.

또한 통계정보 생성부(219)는 주기(T) 동안 발생된 위급상황의 위험도를 누적 합산한 후 합산된 값을 임계치에 비교하며, 위험도 합산값이 임계치 이상인 경우 해당 장소를 위험군으로 결정한다. 이때 통계정보 생성부(219)에 의해 위험군으로 결정되면 해당 실내공중장소의 출입구에 설치되는 디스플레이 수단(미도시)에 해당 장소가 위험군임을 알리는 안내문구를 전시하여 해당 장소를 이용하는 이용자에게 미리 이러한 정보를 전달하여 위급상황을 사전에 방지하도록 한다.

또한 통계정보 생성부(219)는 주기(T) 별 위급상황 발생회수, 위급상황 종류, 위험도에 대한 통계데이터와, 위험도 합산값을 일정 주기마다 외부관제서버(600)로 전송하고, 외부관제서버(600)는 전송받은 통계데이터 및 위험도 합산값을 이용하여 범죄를 효율적으로 예방할 수 있게 된다.

도 7은 도 6의 음성처리 및 관리부를 나타내는 블록도이다.

도 7의 음성처리 및 관리부(220)는 음향신호 입력부(221), 음성인식부(222), 특징파라미터 검출부(223), 비교 및 매칭부(224), 참조모델 데이터베이스부(225), 단어결정부(226)로 이루어진다.

이때 음성처리 및 관리부(220)는 복수개의 마이크로폰(503)들로부터 음향신호를 입력받으면, 후술되는 도 9의 제1 음성인식모듈(2221)이 제1, 2 마이크로폰(503-1), (503-2)들의 입력신호(H1), (H2)들에 대하여 제1 신호분리 알고리즘을 이용하여 각 입력신호(H1), (H2)들로부터 원신호(S1), (S2)들 및 잡음신호(N1), (N2)들을 분리한 후 원신호(S1), (S2)들을 합산하여 1차 원신호(X1=S1+S2)를 검출한다.

또한 후술되는 도 9의 제2 음성인식모듈(2222)은 제2 신호분리 알고리즘을 이용하여 제3 마이크로폰(503-3)의 입력신호(H3)로부터 원신호(S3) 및 잡음신호(N3)를 검출하면, 검출된 원신호(S3)를 제1 음성인식모듈(2221)로부터 입력된 1차 원신호(X1)와 합산하여 최종 원신호(X2=S3+X1)를 검출한다.

즉 본 발명의 비상경보장치의 제어부(220)는 동일 음향신호에 대한 마이크로폰들로 입력되는 입력신호들은 음향발생위치와의 방향 및 거리에 따라 원신호 및 잡음의 주파수크기가 각기 다르게 형성되기 때문에 본 발명에서는 서로 다른 신호분리 알고리즘이 적용되는 두 개의 음성인식모듈들을 통해 각 입력신호에 대한 잡음제거 시 원신호가 함께 제거되는 현상을 상쇄시킴과 동시에 원신호의 검출이 반복적으로 이루어져 음성을 정확하고 정밀하게 검출할 수 있으며, 각 신호분리 알고리즘의 장점은 부각시키되, 단점을 서로 상쇄시켜 음성인식의 정확성을 현저히 높일 수 있게 된다.

이때 제1 음성인식모듈(2221) 및 제2 음성인식모듈(2222)은 동일한 신호분리 알고리즘을 이용하여 음향신호로부터 원신호 및 잡음신호를 분리하는 것으로 구성되어도 무방하나, 서로 다른 신호분리 알고리즘이 적용되는 경우 각 신호분리 알고리즘의 단점을 서로 상쇄시킬 수 있기 때문에 음성인식에 있어서 더 효과적이다.

이때 본 발명에서는 설명의 편의를 위해 비상경보장치(500)에 설치되는 마이크로폰들이 3개이고, 음성인식모듈이 2개인 것으로 예를 들어 설명하였으나, 마이크로폰들의 수량은 4개 이상이고, 음성인식부의 수량은 3개 이상인 것으로 구성될 수 있음은 당연하다.

음향신호 입력부(221)는 3개의 마이크로폰(503-1), (503-2), (503-3)들로부터 입력되는 음향신호들을 입력받으며, 입력된 음향신호(H1), (H2), (H3)들을 음성인식부(22)로 입력한다. 이때 마이크로폰(503-1), (503-2), (503-3)들은 서로 다른 음향입력각도들을 갖도록 이격되게 설치되어 음향신호들을 각각 입력받고, 음향신호에는 원신호 및 잡음신호(노이즈)가 포함된다.

이때 마이크로폰(503-1), (503-2), (503-3)들은 어레이 형태로 설치되며, 음향신호를 입력받아 전기 신호로 변환한다.

또한 마이크로폰(503-1), (503-2), (503-3)들은 빔-포밍(Beam forming) 기법이 적용되어 서로 다른 방향의 빔을 갖는다.

이때 빔-포밍 기법은 송신 기기나 수신 기기의 배열을 이용하여 방사 패턴의 방향이나 민감도를 조절하기 위한 목적을 위해 주로 사용되는 신호 처리 기법으로서, 신호를 전송하는 경우, 전송하고자 하는 방향의 신호 강도를 키우고, 이외의 방향으로 전송되는 신호의 강도는 줄일 수 있게 된다.

도 8은 도 7의 마이크로폰에 적용되는 전처리 기술을 설명하기 위한 예시도이다.

본 발명의 마이크로폰(503)은 도 8에 도시된 바와 같이, 마이크로폰(503)으로부터 입력되는 입력신호로부터 잡음회귀현상을 제거할 수 있는 음향반향삭제(AEC, Acoustic Echo Cancellation)가 적용됨으로써 동적 잡음원을 적응적으로 제거함으로써 마이크로폰(503)으로부터 입력되는 입력신호만을 추출하도록 하였다.

또한 음향반향삭제(AEC) 기술은 NLMS(Normalized Least Mean Square)기반의 가변 학습율 잡음제거 알고리즘이 적용되어 스피커 등과 같은 동적 잡음원을 제거함과 동시에 마이크로폰(503)으로부터 입력되는 입력신호는 자연스러운 상태로 유지시킴으로써 입력신호에 대한 전처리 기능을 수행할 수 있게 된다.

즉 본 발명의 음향신호 입력부(221)는 마이크로폰(503-1), (503-2), (503-3)들로부터 음향신호를 입력받되, 마이크로폰(503-1), (503-2), (503-3)들 각각에 음향반향삭제(AEC) 기술이 적용됨으로써 전처리 된 음향신호들을 입력받을 수 있고, 이에 따라 음성인식의 정확성을 높일 수 있게 된다.

도 9는 도 7의 음성인식부를 나타내는 블록도이고, 도 10은 도 9의 제1 음성인식모듈에 적용되는 제1 신호분리 알고리즘을 설명하기 위한 예시도이다.

음성인식부(222)는 도 9에 도시된 바와 같이, 기 설정된 제1 신호분석 알고리즘을 이용하여 음향신호 입력부(221)를 통해 입력된 제1, 2 마이크로폰(503-1), (503-2)들의 입력신호(H1), (H2)들로부터 원신호(S1), (S2)들 및 잡음신호(N1), (N2)들을 분리한 후 원신호(S1), (S2)들을 합산하여 제1 원신호(X1)를 검출하는 제1 음성인식모듈(2221)과, 기 설정된 제2 신호분석 알고리즘을 이용하여 음향신호 입력부(221)를 통해 입력된 제3 마이크로폰(503-3)의 입력신호를 분석하여 원신호(S3) 및 잡음신호(N3)를 분리한 후 분리된 원신호(S3)를 제1 음성인식모듈(2221)로부터 입력된 제1 원신호(X1)와 합산하여 최종 원신호(X2)를 검출하는 제2 음성인식모듈(2222)로 이루어진다.

제1 음성인식모듈(2221)은 음향신호 입력부(221)로부터 제1, 2 마이크로폰(503-1), (503-2)들의 음향신호(H1), (H2)들을 입력받는다.

또한 제1 음성인식모듈(2221)은 기 설정된 제1 신호분리 알고리즘을 이용하여 입력된 음향신호(H1)를 원신호(S1) 및 잡음신호(N1)로 분리하며, 입력된 음향신호(H2)를 원신호(S2) 및 잡음신호(N2)로 분리한다.

또한 제1 음성인식모듈(2221)은 음향신호로부터 신호들이 분리되면, 분리된 원신호(S1), (S2)들을 합산하여 1차 원신호(X1)를 검출한다.

제2 음성인식모듈(2222)은 기 설정된 제2 신호분리 알고리즘을 이용하여 음향신호 입력부(221)를 통해 입력된 제3 마이크로폰(503-3)으로부터 원신호(S3) 및 잡음신호(N3)를 분리한다.

또한 제2 음성인식모듈(2222)은 분리된 원신호(S3)와, 제1 음성인식모듈(2221)로부터 입력된 1차 원신호(X1)를 합산하여 최종 원신호(X2)를 검출한다.

다시 말하면, 본원 발명은 제1 음성인식모듈(2221) 및 제2 음성인식모듈(2222)이 서로 다른 신호분리 알고리즘을 이용하여 음향신호로부터 원신호 및 잡음신호를 분리하도록 구성됨과 동시에 제1 음성인식모듈(2221)은 제1, 2 마이크로폰(503-1), (503-2)들에 대한 원신호들을 합산하여 1차 원신호(X1)를 검출하되, 제2 음성인식모듈(2222)은 분리한 원신호(S3)를 제1 음성인식모듈(2221)에 의해 검출된 1차 원신호(X1)와 합산하여 최종 원신호(X2)를 검출하도록 구성됨으로써 서로 다른 신호분리 알고리즘이 적용되는 두 개의 음성인식모듈(2221), (2222)들을 통해 각 입력신호에 대한 잡음제거 시 원신호가 함께 제거되는 현상을 상쇄시킬 수 있을 뿐만 아니라 원신호의 검출이 반복적으로 이루어져 음성을 정확하고 정밀하게 검출할 수 있으며, 각 음성인식모듈에 적용되는 신호분리 알고리즘의 장점은 부각시키되, 단점을 서로 상쇄시켜 음성인식의 정확성을 현저히 높일 수 있게 된다.

이때 제1 음성인식모듈(2221)에 적용되는 제1 신호분리 알고리즘 및 제2 음성인식모듈(2222)에 적용되는 제2 신호분리 알고리즘은 서로 다른 방식의 연산처리를 갖도록 구성된다.

예를 들어, 제1 음성인식모듈(2221)에 적용되는 제1 신호분리 알고리즘은 도 10에 도시된 바와 같이, 제1, 2 마이크로폰(503-1), (503-2)들로부터 입력된 음향신호(H1), (H2)들을 주파수영역으로 변환(STFT, short-time Fourier transform)한 후 소프트 마스크(IE soft-mask) 알고리즘 및 IVA 알고리즘이 적용되는 다중채널 음원분리(BSS, Blind Source Separation)가 적용될 수 있다.

또한 제2 음성인식모듈(2222)에 적용되는 제2 신호분리 알고리즘은 단일채널 음원분리 방식이 적용될 수 있다.

예를 들어, 제2 신호분리 알고리즘은 우선 제3 마이크로폰(503-3)으로부터 입력된 음향신호(H3)를 주파수영역으로 변환(STFT) 한 후 ICA(Independent Component Analysis)를 통해 신호들을 분리시킨다.

이때 제2 신호분리 알고리즘으로 ICA가 적용되는 경우, 우선 음향신호(H1)의 차원을 음원의 차원으로 줄이기 위한 목적으로 Linear transformation을 수행한 후, Linear transformation 처리된 신호에 단일 행렬(unitary matrix)(B)을 곱해줌으로써 분리된 신호의 주파수 영역의 값을 구하고, 앞서 검출된 분리 행렬(separation matrix)(V*B)을 통해 분리된 신호를 검출한다.

즉 제1 신호분리 알고리즘으로 소프트 마스크(IE soft-mask)및 IVA를 포함하는다중채널 음원분리(BSS, Blind Source Separation)가 적용된다고 가정할 때, 제1 신호분리 알고리즘은 잔향 시간(reverberation time)이 큰 경우 각 채널에 잔여교차성분(residual cross-talk component)이 분리 후에도 존재하여 분리 성능이 저하되는 단점을 갖고, 제2 신호분리 알고리즘으로 ICA가 적용된다고 가정할 때, 제2 신호분리 알고리즘은 주파수 bin 사이가 독립적이지 않아 정적잡음에 취약한 단점을 갖는다.

그러나 본 발명에서는 1)제1 음성인식모듈(2221)이 제1 신호분리 알고리즘을 이용하여 원신호(S1), (S2)들을 분리시키고, 2)제2 음성인식모듈(2222)이 제2 신호분리 알고리즘을 이용하여 원신호(S3)를 분리시키고, 3)최종 원신호(X2)가 제1 음성인식모듈(2221)에 의한 1차 원신호(X1)와 제2 음성인식모듈(2222)에 의한 원신호(S3)를 합산하여 검출되도록 구성됨으로써 제1 신호분리 알고리즘의 단점과 제2 신호분리 알고리즘의 단점을 서로 상쇄시킬 수 있으며, 원신호의 검출이 반복적으로 이루어져 음성을 정확하고 정밀하게 검출할 수 있으며, 각 음성인식모듈에 적용되는 신호분리 알고리즘의 장점은 부각시키되, 단점을 서로 상쇄시켜 음성인식의 정확성을 현저히 높일 수 있게 된다.

또한 음성인식부(222)는 제2 음성인식모듈(2222)에 의해 최종 원신호(X2)가 검출되면, 검출된 원신호의 초성에 기 설정된 모음을 조합하되, 종성이 삭제된 음절로 변환시킨다.

예를 들어 음성인식부(222)는 제2 음성인식모듈(2222)에 의해 ‘홍길동’이 검색되면, 검출된 음성을 ‘하가다’와 같은 음절로 변환시킨다.

이때 본 발명에서는 설명의 편의를 위해 마이크로폰이 3개이고, 음성인식모듈이 2개인 것으로 예를 들어 설명하였으나, 마이크로폰이 4개 이상이고, 음성인식모듈이 3개 이상인 경우, 제1 음성인식모듈은 도 9와 동일한 방식으로 1차 원신호를 검출하되, 제n 음성인식모듈은 (n-1) 마이크로폰으로부터 입력되는 음향신호와 제n-1 음성인식모듈로부터 입력되는 원신호를 이용하여 원신호를 검출하게 된다.

특징파라미터 검출부(223)는 음성인식부(222)에 의해 검출된 원신호를 분석하여 인식에 필요한 특징벡터를 추출한다.

이때 특징파라미터 검출부(223)는 선형 예측 부호화(LPC, Linear Predictive Coding)를 통해 입력된 음성신호로부터 특징벡터를 추출한다.

또한 특징파라미터 검출부(223)는 추출된 특징벡터를 이용하여 입력된 음성신호에 대한 특징파라미터를 생성한다. 이때 특징파라미터는 음성신호를, 참조모델과의 비교 알고리즘 수행이 가능하도록 처리한 데이터이다.

또한 특징파라미터 검출부(223)에 의해 검출되는 특징 파라미터는 비교 및 매칭부(224)로 입력된다.

비교 및 매칭부(224)는 기 설정된 비교 알고리즘을 이용하여 참조모델 데이터베이스부(225)에 저장되는 기 설정된 참조모델과, 입력된 특징 파라미터를 분석하여 특징 파라미터와 가장 유사도가 높은 참조모델에 대한 정보를 음성인식 결과로 출력한다.

다시 말하면, 비교 및 매칭부(224)는 특징파라미터 검출부(223)로부터 입력된 특징파라미터와 기 설정된 참조모델을 음절단위로 생성하여 비교 및 분석한다.

이때 참조모델 데이터베이스부(225)에는 기 설정된 참조모델 정보들이 저장된다.

또한 비교 및 매칭부(224)는 입력된 음성과 참조음성 사이의 발음 속도와 길이의 차이를 보상하기 위하여 입력 특징파라미터와 참조모델을 비선형적으로 정합하여 가장 유사도가 높은 참조모델의 음성을 인식하기 위한 동적시간 워핑(DTW; Dynamic Time Warping) 알고리즘을 이용하여 특징파라미터와 참조모델들 각각의 유클리드 제곱 거리(Squared Euclidean Distance)를 산출한 후 그 거리가 가장 작은 참조모델을 특징파리미터와 가장 유사한 모델로 인식한다.

이때 특정한 입력음성(특징파라미터)에 대하여, 참조모델에는 특징파라미터와의 유사도가 기 설정된 임계치 이내인 참조모델이 한 개이거나 또는 2개 이상일 수 있다. 예를 들어 가'와 '카', '다'와 '타' 등은 발음의 유사성으로 인해 신호 패턴도 어느 정도 유사하기 때문에 입력음성 ‘가’에 대한 유사도가 기 설정된 임계치 이내인 참조모델은 ‘가’, ‘카’와 같이 2개로 검출될 수 있다.

이에 따라 비교 및 매칭부(224)는 만약 특징파라미터와의 유사도가 기 설정된 임계치 이내인 참조모델이 1개인 경우 유사도가 높은 참조모델을 입력음성으로 결정한다.

또한 비교 및 매칭부(224)는 만약 특정파라미터와의 유사도가 기 설정된 임계치 이내인 참조모델이 2개 이상인 경우 동적 시간 워핑 방식 보다 인식률이 우수한 분석을 다시 수행, 상세하게로는 음성신호를 음소단위로 분리한 후 은닉 마르포크 모델(Hidden Markov model)을 통해 패턴 비교 알고리즘을 수행한다. 이때 은닉 마르코프 모델은, 모델링하는 시스템이 미지의 파라미터를 가진 Markov process일 것이라고 가정하여, 그 가정에 기초해서 관측된 파라미터로부터 숨겨진 파라미터를 결정하는 하나의 통계모델이며, 음성인식분야에서 널리 사용되는 방식 중 하나이기 때문에 상세한 설명은 생략하기로 한다.

또한 비교 및 매칭부(224)는 검출된 참조모델에 대한 음성을 단어결정부(226)로 입력한다.

단어결정부(226)는 비교 및 매칭부(224)로부터 입력된 참조모델에 대응되는 문자를 검색어로 하여 단어를 검색하며, 검색된 단어를 최종 출력함으로써 음성인식을 수행하게 된다.

즉 본 발명의 비상경보장치의 제어부(220)는 참조모델 데이터베이스부(225)에 저장되어 특징 파라미터와 비교되는 참조모델의 수가 많을수록 정확한 음성인식이 가능하나, 이 경우 참조모델 데이터베이스부(225)의 용량이 방대해야할 뿐만 아니라 특징 파라미터와 참조모델의 비교 알고리즘 수행 시 연산량이 과도하게 증가하게 되고, 이러한 연산량 증가는 임베디드 시스템에 적용될 경우 시스템 자원이 제한되기 때문에 최소한의 자원으로 정확한 음성인식 결과를 도출하기 위하여 본 발명에서는 초성 기반의 음성인식을 적용하였다.

특히 초성 'ㄱ', 'ㄴ', 'ㄷ' 등을 음성으로 입력함에 있어서, '기역', '니은', '디귿'과 같이 초성의 명칭을 사용하지 않고, '가', '나', '다' 같이 초성에 하나의 통일된 모음을 조합하여 발음하여 입력하도록 하고, 특징파라미터 또한 초성과 통일된 하나의 모음이 조합된 형태의 음성신호에 대응되도록 한다.

도 11은 도 7의 음성처리 및 관리부의 동작과정을 설명하기 위한 플로차트이다.

본 발명의 음성처리 및 관리부(220)의 동작과정(S1)은 도 11에 도시된 바와 같이, 음향신호 입력단계(S10)와, 음성인식단계(S20), 특징파라미터 생성단계(S30), 분석단계(S40), 판단단계(S50), 음소단위 패턴분석 수행단계(S60), 음소결정단계(S70), 단어결정단계(S80)로 이루어진다.

음향신호 입력단계(S10)는 마이크로폰(503-1), (503-2), (503-3)들로부터 음향신호를 입력받는 단계이다.

음성인식단계(S20)는 음향신호 입력단계(S10)를 통해 입력된 음향신호들을 도 4에서 전술하였던 바와 같이, 2개의 음성인식모듈을 이용하여 음성을 인식하는 단계이다.

또한 음성인식단계(S20)는 초성에 공통된 하나의 모음을 조합한 발음을 기초로 생성된 참조모델을 이용하여 음성인식이 수행되므로 '가', '나', '다' 와 같이 공통된 모음을 갖고, 종성을 포함하지 않는 음절들의 조합으로 변환시킨다.

예를 들어, 음성인식단계(S20)는 음성인식모듈들에 의해 '홍길동'이 검출되는 경우, 검출된 음성을 '하가다'와 같은 음성으로 변환시킨다.

또한 음성인식단계(S20)는 변환된 음성신호를 특징파라미터 생성단계(S30)로 입력시킨다.

특징파라미터 생성단계(S30)는 선형 예측 부호화(LPC, Linear Predictive Coding)를 통해 입력된 음성신호로부터 특징벡터를 추출한다.

또한 특징파라미터 검출단계(S30)는 추출된 특징 벡터를 이용하여 입력된 음성신호에 대한 특징파라미터를 생성한다. 이때 특징파라미터는 음성신호를 참조모델과의 비교 알고리즘 수행이 가능하도록 처리한 데이터이다.

또한 특징파라미터 생성단계(S30)에 의해 생성된 특징파라미터는 분석단계(S40)로 입력된다.

분석단계(S40)는 특징파라미터 생성단계(S30)로부터 입력된 특징파라미터와 기 설정된 참조모델을 음절단위로 생성하여 비교 및 분석한다.

또한 분석단계(S40)는 입력된 음성과 참조 음성 사이의 발음 속도와 길이의 차이를 보상하기 위하여 입력 패턴과 참조 패턴을 비선형적으로 정합하여 가장 유사도가 높은 참조 패턴의 음성으로 입력된 음성을 인식하기 위한 동적시간 워핑(DTW; Dynamic Time Warping) 알고리즘을 이용하여 특징파라미터와 참조모델들 각각의 유클리드 제곱 거리(Squared Euclidean Distance)를 산출한 후 그 거리가 가장 작은 참조모델을 특징파리미터와 가장 유사한 모델로 인식한다.

판단단계(S50)는 분석단계(S40)에 의해 특징파라미터와의 유사도가 기 설정된 범위 내인 참조모델이 2개 이상인지를 판단하는 단계이다.

다시 말하면, 판단단계(S50)는 분석단계(S40)에서 특징파라미터와 참조모델들 각각의 유클리드 제곱입력 패턴과 각각의 참조 패턴 사이의 유클리드 제곱 거리를 산출한 결과, 기 설정된 임계값보다 작은 유클리드 제곱 거리를 갖는 참조모델이 2개 이상인지의 여부를 판단한다.

즉 현재 입력된 음성이 2개 이상의 유사한 음성으로 인식될 가능성이 있는 경우에 해당하기 때문에 보다 정확한 패턴 분석이 요구된다.

예를 들어 '가'와 '카', '다'와 '타' 등은 발음의 유사성으로 인해 신호 패턴도 어느 정도 유사하므로 이를 동적 시간 워핑 방식만으로 비교하는 경우, 사용자가 의도한 바와 다르게 인식될 가능성이 있다.

따라서 본 발명에서는 판단단계(S50)에서 분석단계(S40) 시 유사한 참조모델이 2개 이상이 이상인지 여부를 판별하여, 2개 이상인 경우 동적 시간 워핑 방식 보다 인식률이 우수한 패턴 분석을 다시 수행하도록 한다.

즉 판단단계(S50)는 만약 유사한 참조모델이 2개 이상인 경우 음소단위 패턴분석 수행단계(S60)를 진행하고, 만약 유사한 참조모델이 1개인 경우 음소결정단계(S70)를 진행한다.

음소단위 패턴분석 수행단계(S60)는 음성신호를 음소단위로 분리한 후 은닉 마르코프 모델(Hidden Markov model)과 같은 방식에 의하여 음소단위의 패턴 비교 알고리즘을 수행한다.

이때 은닉 마르코프 모델은, 모델링하는 시스템이 미지의 파라미터를 가진 Markov process일 것이라고 가정하여, 그 가정에 기초해서 관측된 파라미터로부터 숨겨진 파라미터를 결정하는 하나의 통계모델이며, 음성인식분야에서 널리 사용되는 방식 중 하나이기 때문에 상세한 설명은 생략하기로 한다.

음소결정단계(S70)는 분석단계(S40) 또는 음소단위 패턴분석 수행단계(S60)에서 수행된 패턴 분석 결과에 따라 음소를 결정한다.

즉 음소결정단계(S70)는 판단단계(S50)에서 유사한 참조모델이 하나인 경우 분석단계(S40)에 의해 해당 참조모델에 해당하는 음성에 대응되는 음소를 입력된 음소로 결정하며, 판단단계(S50)에서 유사한 참조모델이 2개인 경우 음소단위 패턴분석 수행단계(S60)에 의해 가장 유사도가 높은 음소를 입력된 음소로 결정한다.

예를 들어 사용자가 음성 '가'를 입력하여 분석단계(S40)에서 각각 '가'와 '카'에 해당하는 참조모델이 유사하다고 판단한 경우에는 음소단위 패턴분석 수행단계(S60)를 통해 다시 저장된 음성 신호의 음소 부분만을 따로 처리하여 은닉 마르코프 모델을 수행함으로써 사용자가 실질적으로 입력하고자 하였던 초성 'ㄱ'을 인식된 음소로 결정하게 되고, 다른 예를 들자면 사용자가 음성 '나'를 입력하여 분석단계(S40)에서 유사한 참조모델이 '나'로 인식되었다면 음소단위 패턴분석 수행단계(S60)를 거치지 않고 바로 'ㄴ'이 입력된 것으로 결정한다.

단어결정단계(S80)는 음소결정단계(S70)에 의해 검출된 음소들을 이용하여 단어를 검색하며, 검색된 단어 중 최종 결과를 선택하는 단계이다.

이와 같이 본 발명의 비상경보장치의 제어부(220)는 우선 초성 기반의 음성인식을 통해 비교되는 참조패턴의 개수를 절감시킴으로써 메모리를 절약함과 동시에 연산 처리량을 감소시킬 수 있으며, 비교적 계산량이 많지 않은 음절 단위 패턴에 대한 동적 시간 워핑을 기본적으로 사용하되, 정확성이 요구되는 경우에만 음소 단위 패턴에 대한 은닉 마르코프 모델방식을 보조적으로 사용함으로써 시스템에 과도한 부하를 주지 않으면서 음성인식의 정확성 및 신뢰도를 높일 수 있게 된다.

200:다운라이트 211:위급상황 판단부
212:메모리 213:통신 인터페이스부
214:위급관련정보 검출부 215:통화처리부
216:LED 모듈 구동부 217:사운드QR 출력부
218:경보방송 출력부 219:통계정보 생성부
220:음성처리 및 관리부 221:음향신호 입력부
222:음성인식부 223:특징파라미터 검출부
224:비교 및 매칭부 225:참조모델 데이터베이스부
226:단어결정부 227:판단부
228:메모리 229:조명 제어부
230:사운드QR 출력부 500:비상경보장치
600:외부관제서버 2221:제1 음성인식모듈
2222:제2 음성인식모듈

Claims

외면에 제1, 2, 3 마이크로폰들이 설치되는 하우징과, 상기 하우징의 내부에 설치되는 제어부를 포함하는 비상경보 장치에 있어서:
상기 제어부는
통신 인터페이스부;
기 설정된 참조모델들이 저장되는 참조모델 데이터베이스부;
상기 제1, 2, 3 마이크로폰들에 의해 획득된 음향신호들을 입력받는 음향신호 입력부;
상기 음향신호 입력부에 의해 입력되는 음향신호들을 분석하여 원신호(X2)를 검출하는 음성인식부;
상기 음성인식부에 의해 검출된 원신호(X2)의 특징벡터를 추출한 후 추출된 특징벡터를 이용하여 특징파라미터를 생성하는 특징파라미터 생성부;
기 설정된 비교 알고리즘을 이용하여 상기 참조모델 데이터베이스부에 저장된 참조모델들과, 상기 특징파라미터 생성부에 의해 생성된 특징파라미터를 분석하여 특징파라미터와 가장 유사도가 높은 참조모델을 검출하는 비교 및 매칭부;
상기 비교 및 매칭부에 의해 검출된 참조모델에 대응되는 문자를 검색어로 하여 단어를 검색하며, 검색된 단어를 최종 출력하여 음성인식을 수행하는 단어결정부;
위급상황이라고 판단할 수 있는 음성단어로 정의되는 비교대상문자들이 저장되는 메모리;
상기 단어결정부에 의해 결정된 음성단어와 상기 메모리에 저장된 상기 비교대상문자들 각각의 연관관계를 검출한 후 검출된 연관관계가 임계치를 넘어서는 경우 위급상황이 발생하였다고 판단하는 위급상황 판단부를 포함하고,
상기 제어부는 위급상황 판단부에 의해 위급상황이 발생되었다고 판단될 때 상기 통신 인터페이스부를 통해 위급상황이 발생되었다는 위급상황 확인데이터를 외부관제서버로 전송하고,
상기 음성인식부는
제1, 2 마이크로폰들의 음향신호들로부터 원신호(S1), (S2)들 및 잡음신호(N1), (N2)들을 분리한 후 분리된 원신호(S1), (S2)들을 합산하여 1차 원신호(X1)를 검출하는 제1 음성인식모듈;
제3 마이크로폰의 음향신호로부터 원신호(S3) 및 잡음신호(N3)를 분리한 후 분리된 원신호(S3)를 상기 제1 음성인식모듈에 의해 검출된 1차 원신호(X1)에 합산하여 최종 원신호(X2)를 검출하는 제2 음성인식모듈을 더 포함하고,
상기 음성인식부는 최종 원신호(X2)가 검출되면, 검출된 원신호(X2)의 초성에 기 설정된 모음을 조합하되, 종성을 삭제한 음절로 변환시키고,
상기 비교 및 매칭부는
입력된 음성과 참조음성 사이의 발음 속도와 길이의 차이를 보상하기 위하여 입력 특징파라미터와 참조모델을 비선형적으로 정합하여 가장 유사도가 높은 참조모델의 음성을 인식하기 위한 동적시간 워핑(DTW; Dynamic Time Warping) 알고리즘을 이용하여 특징파라미터와 참조모델들 각각의 유클리드 제곱 거리(Squared Euclidean Distance)를 산출한 후 그 거리가 가장 작은 참조모델을 특징파리미터와 가장 유사한 모델로 인식하고,
특징파라미터와의 유사도가 기 설정된 임계치 이내인 참조모델이 한 개인 경우 유사도가 가장 높은 참조모델을 입력음성을 결정하며,
특정파라미터와의 유사도가 기 설정된 임계치 이내인 참조모델이 2개 이상인 경우, 음성신호를 음소단위로 분리한 후 은닉 마르포크 모델(Hidden Markov model)을 통해 패턴 비교 알고리즘을 통해 유사도가 가장 높은 음소를 입력음성을 결정하는 것을 특징으로 하는 비상경보장치.
삭제
청구항 제1항에 있어서, 상기 제1 음성인식모듈과, 상기 제2 음성인식모듈은 서로 다른 방식의 제1 신호분리 알고리즘 및 제2 신호분리 알고리즘을 이용하여 음향신호로부터 원신호 및 잡음신호를 분리시키는 것을 특징으로 하는 비상경보장치.
삭제
청구항 제3항에 있어서, 상기 메모리에는 비교대상문자들 각각에 대한 카테고리 정보가 매칭됨과 동시에 각 카테고리의 위험도가 매칭된 카테고리 테이블이 더 저장되고,
상기 제어부는
상기 위급상황 판단부에 의해 위급상황이 발생되었다고 판단될 때 구동되며, 상기 메모리에 저장된 카테고리 테이블을 탐색하여 상기 위급상황 판단부에 의해 연관관계가 임계치를 넘은 비교대상문자에 대응되는 카테고리 정보와 위험도 정보를 검출하는 위급관련정보 검출부를 더 포함하고,
상기 제어부는 상기 통신 인터페이스부를 제어하여 상기 위급관련정보 검출부에 의해 검출된 카테고리 정보 및 위험도 정보를 상기 외부관제서버로 전송하는 것을 특징으로 하는 비상경보장치.
청구항 제5항에 있어서, 상기 제어부는
기 설정된 주기(T) 동안의 위급상황 확인데이터와, 카테고리정보, 위험도정보를 분석하여 주기(T) 별 위급상황 발생회수, 위급상황 종류, 위험도에 대한 통계데이터를 생성하며, 주기(T) 동안 발생된 위급상황의 위험도를 누적 한산한 후 합산된 값을 임계치에 비교하며, 위험도 합산값이 임계치 이상인 경우 해당 장소를 위험군으로 결정하는 통계정보 생성부를 더 포함하고,
상기 제어부는 일정 주기마다 상기 통신 인터페이스부를 제어하여 상기 통계정보 생성부에 의해 생성된 주기(T) 별 위급상황 발생회수, 위급상황 종류, 위험도에 대한 통계데이터와, 위험군정보를 상기 외부관제서버로 전송하는 것을 특징으로 하는 비상경보장치.
청구항 제6항에 있어서, 상기 비상경보장치는
해당 장소의 진출입로에 설치되어 상기 제어부에 의해 제어되는 디스플레이 수단을 더 포함하고,
상기 제어부는 상기 통계정보 생성부에 의해 해당 장소가 위험군으로 결정되면, 상기 디스플레이 수단에 해당 장소가 위험군이라는 안내문구를 디스플레이 하도록 상기 디스플레이 수단을 제어하는 것을 특징으로 하는 비상경보장치.
청구항 제7항에 있어서, 상기 비상경보장치는
해당 장소에 설치되는 다운라이트들을 더 포함하고,
상기 제어부는
상기 판단부에 의해 위급상황이 발생하였다고 판단될 때 구동되어 스피커를 통해 사운드QR 신호를 출력시키는 사운드QR 출력부를 더 포함하고,
상기 다운라이트들은
LED와, 상기 LED의 점등 및 소등을 제어하는 조명제어부와, 상기 제어부로부터 출력되는 사운드QR을 입력받는 마이크로폰을 더 포함하고,
상기 조명제어부는 상기 마이크로폰을 통해 상기 제어부로부터 사운드QR을입력받으면 상기 LED를 점멸시키는 것을 특징으로 하는 비상경보장치.
청구항 제8항에 있어서, 상기 비상경보장치는 상기 하우징의 외면에 설치되는 비상벨과, 스피커, LED 모듈들을 더 포함하고,
상기 위급상황 판단부는 상기 비상벨이 가압되는 경우 위급상황이 발생하였다고 판단하고,
상기 제어부는
상기 위급상황 판단부에 의해 위급상황이 발생되었다고 판단될 때 구동되며, 상기 LED 모듈들을 점멸시키는 LED 모듈 구동부;
상기 위급상황 판단부에 의해 위급상황이 발생되었다고 판단될 때 구동되며, 상기 스피커를 통해 기 제작된 경보방송을 출력시키는 경보방송 출력부;
상기 위급상황 판단부에 의해 위급상황이 발생되었다고 판단될 때 구동되며, 상기 외부관제서버의 요원과 위급상황이 처한 이용자의 통화를 중계하는 통화처리부를 더 포함하는 것을 특징으로 하는 비상경보장치.