KR101952577B1

KR101952577B1 - 음성인식 기법을 이용한 전관방송시스템

Info

Publication number: KR101952577B1
Application number: KR1020180174168A
Authority: KR
Inventors: 박상보
Original assignee: 박상보
Priority date: 2018-12-31
Filing date: 2018-12-31
Publication date: 2019-02-27

Abstract

본 발명은 음성인식 기법을 이용한 전관방송시스템에 관한 것이다. 본 발명은 음성인식 기법을 이용한 전관방송시스템에 있어서, 키입력부 및 외부입력단자와 LCD화면으로 이루어져 입력 표시되는 표시부와 MP3칩과 저장부로 이루어져 메모리부와 상기 키입력부와 상기 메모리부와 연결되어 전관방송 신호를 처리하고, 중앙집중적 제어를 하는 마이컴과 상기 마이컴과 연결되어 방송 출력을 하는 라디오부와 상기 마이컴과 인터럽트 방식으로 통신하는 UART와 방송신호를 수신할 수 있도록 마련된 둘 이상의 입력 포트를 구비하며, 마이크에서 출력되는 음성신호를 일정하게 증폭시켜 음성증폭 출력신호로 가공하는 유무선 마이크 입력부와 상기 유무선 마이크 입력부와 연결되어 입력단자를 수용할수 있으며, 모드에 따라 선택적으로 작동하는 오디오 스위칭부와 상기 유무선 마이크 입력부를 통해 입력된 방송신호들 중 방송할 방송신호들을 선택하고 상기 선택된 방송신호들을 상기 스위칭부를 통해 증폭시켜 전관방송을 출력하는 출력부를 포함하는 것을 특징으로 하는 것이다.

Description

음성인식 기법을 이용한 전관방송시스템 {Public address system using speech recognition techniques}

본 발명은 음성인식 기법을 이용한 전관방송시스템에 관한 것으로, 더욱 자세하게는 미래 지능형 빌딩시스템에서 요구되는 다양한 상황을 판단하여 적합한 방송을 하도록 하는 음성인식 기법을 이용한 디지털 통합 전관방송시스템에 관한 것이다.

전관 방송이란 학교, 관공서, 대형빌딩, 항만, 공항 등의 구내 방송을 뜻하며, 구내 안내방송은 물론 화재와 같은 긴급 상황 발생 시 비상 방송용으로 사용된다. 이러한 기존의 전관 방송 시스템은 아날로그와 디지털 형식의 제품으로 구분할 수 있다. 현재 많은 전관 방송 시스템이 아날로그 기반으로 방송국과 방송지역을 여러 개의 선으로 연결해야 하며, 음향을 먼 거리로 전송할 때는 잡음 유입, 음질 저하 등의 문제점이 있다.

그러나, 디지털 전관 방송 시스템은 아날로그 전관 방송 시스템에 비해 아날로그 오디오 신호를 디지털로 바꿔 전송하므로 방송 품질이 우수하며 또한, PC와 네트워크 연결 등을 통해 음원이나 배경음악을 설정 할 수 있는 기능 등과 같은 다양한 부가서비스를 제공할 수 있다. 따라서, 아날로그 전관 방송 시스템에서 디지털 전관 방송시스템으로 기술 변화가 이루어지고 있다.

그러나, 기존에 개발된 디지털 제품인 경우도 제공되는 기능들 즉, MP3, Radio, CD player 기능들이 개별적으로 각각 분리된 단품랙으로 개발되어 서로 병합된 형태로 되어 있으며, PC를 통해 이들을 제어하고 있다.

또한, 기존의 전관방송 시스템(Public Address)은 기능 및 구성상 소비전력이 절약 보다는 사용자의 편리성 및 장비들과의 호환성 등을 이유로 시스템이 대형화 되면서 오히려 전력 소비가 증가 하고 있는 문제점이 있다.

또한, 앰프 및 전관방송 장비의 전원이 공급되고 나서 안정화되기까지 소스기기의 오디오 신호가 끊어지며, 스피커마다 개별적으로 음원이나 그 출력, 증폭 등을 제어하기가 쉽지 않다는 단점이 있는 것이다.

또한, 재난상황이 여러가지가 있는데, 그에 따라 일일이 찾아서 재난방송을 내보내야 하는 번거로움도 있었다.

대한민국 특허공개 제2014-0005650호 대한민국 특허공개 제2017-0131916호 대한민국 특허출원 제2009-0017187호

따라서, 본 발명은 기존의 전관방송 시스템을 구성하고 있는 주요 시스템 요소를 고품질의 하나의 단일 시스템으로 통합한 디지털 통합 전관방송 시스템으로서, 관리의 편의성과 방송 품질이 우수한 음성인식 기법을 이용한 전관방송시스템을 제공하고자 하는데 있다.

또한, 화재와 가스 누출과 같은 응급 상황이 발생할 때 울리는 경보음을 인식할 수 있으며, 실내 온도와 습도등과 같은 다양한 센서 출력을 전달받아 지능적으로 상황에 따른 대처 방안이 필요한 곳에 개별적으로 방송할 수 있는 음성인식 기법을 이용한 전관방송시스템을 제공하고자 하는데 있다.

이러한 목적을 달성하기 위하여 본 발명은 음성인식 기법을 이용한 전관방송시스템에 있어서, 키입력부 및 외부입력단자와 LCD화면으로 이루어져 입력 표시되는 표시부와 MP3칩과 저장부로 이루어져 메모리부와 상기 키입력부와 상기 메모리부와 연결되어 전관방송 신호를 처리하고, 중앙집중적 제어를 하는 마이컴과 상기 마이컴과 연결되어 방송 출력을 하는 라디오부와 상기 마이컴과 인터럽트 방식으로 통신하는 UART와 방송신호를 수신할 수 있도록 마련된 둘 이상의 입력 포트를 구비하며, 마이크에서 출력되는 음성신호를 일정하게 증폭시켜 음성증폭 출력신호로 가공하는 유무선 마이크 입력부와 상기 유무선 마이크 입력부와 연결되어 입력단자를 수용할수 있으며, 모드에 따라 선택적으로 작동하는 오디오 스위칭부와 상기 유무선 마이크 입력부를 통해 입력된 방송신호들 중 방송할 방송신호들을 선택하고 상기 선택된 방송신호들을 상기 스위칭부를 통해 증폭시켜 전관방송을 출력하는 출력부를 포함하는 것을 특징으로 하는 것이다.

또한, 상기 마이컴은 mp3 재생과 녹음이 가능하며, 라디오기능이 있는 것을 특징으로 한다.

또한, 상기 라디오부는 다양한 상황에 적합한 방송멘트를 저장한 플레쉬 메모리가 내장되어 임의로 선택할수 있으며, 스테레오 아날로그 출력을 하는 것을 특징으로 하는 것이다.

또한, 상기 유무선마이크 입력부는 네트워크를 통해 전송되는 센싱정보와 음성인식기에서 발생하는 음성입력으로도 입력 가능한 것을 특징으로 한다.

또한, 상기 유무선마이크 입력부는 네트워크를 통해 전송되는 온도, 적외선, 습도와 같은 센서 정보를 입력받아 상황에 맞는 메시지를 출력할 수 있도록 하는 것을 특징으로 한다.

따라서, 본 발명에 의한 전관방송 시스템은 전관 방송 시스템과 네트워크를 연결하여 지능형 빌딩의 센서들로부터 네트워크를 통해 전송되는 다양한 센싱 정보들을 입력 받아, 지능적으로 상황을 인지하여 상황에 적합한 방송 메시지를 내부 상황이 발생한 정확한 지점에 선택적으로 개별 다중 방송을 할 수 있는 효과가 있는 것이다.

또한, 본 발명은 제공되는 디지털 메시지 기능이 MP3, CD player, Radio 기능 및 디지털 음성 녹음기를 내장하여 사용자가 원하는 내용을 발생되는 상황에 맞게 녹음하여 재난이 발생시에 명백하게 방송할 수 있는 편리함을 제공할 수 있을 뿐만 아니라 다양한 미디어가 동시에 송출될 수 있는 기능들을 보유하고 있는 효과도 있는 것이다.

또한, 본 발명은 기존의 전관방송시스템이 있는 시설에서도 추가비용 발생이 최소화될수 있으며, 설치시 시스템이 차지하게 되는 공간도 절약할 수 있는 효과도 있는 것이다.

도 1은 본 발명에 의한 전관방송시스템의 구조도.
도 2는 LCD디스플레이의 사진.
도 3은 플레쉬 메모리의 사진.
도 4는 일반적인 음성인식시스템의 구조도.
도 5는 모델기반 Wiener 필터의 구성도.
도 6은 FIR 필터링 적용 음성의 진폭/진동을 나타낸 사진.
도 7a는 본 발명에서 사용되는 음성인식 시스템의 개요도.
도 7b는 렉시컬 트리와 플렛 렉시콘의 설명도.
도 8은 개별 다중방송을 구현하는 시스템의 블록도.
도 9는 본 발명에 의한 전관방송시스템의 내부를 촬영한 사진.
도 10은 본 발명에 의한 전관방송시스템의 실행방법을 나타낸 흐름도.

이하에서는 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시가 되더라도 가능한 한 동일 부호를 가지도록 하고 있음에 유의하여야 한다.

또한, 하기에서 본 발명을 설명함에 있어 관련된 공지기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

도 1은 본 발명에 의한 전관방송시스템의 구조도이고, 도 2는 LCD디스플레이의 사진이고, 도 3은 플레쉬 메모리의 사진이고, 도 4는 일반적인 음성인식시스템의 구조도이고, 도 5는 모델기반 Wiener 필터의 구성도이고, 도 6은 FIR 필터링 적용 음성의 진폭/진동을 나타낸 사진이고, 도 7a는 본 발명에서 사용되는 음성인식 시스템의 개요도이고, 도 7b는 렉시컬 트리와 플렛 렉시콘의 설명도이고, 도 8은 개별 다중방송을 구현하는 시스템의 블록도이고, 도 9는 본 발명에 의한 전관방송시스템의 내부를 촬영한 사진이고, 도 10은 본 발명의 전관방송시스템의 실행방법을 나타낸 흐름도이다.

도 1을 참조하여 설명하면, 본 발명인 전광방송시스템(100)의 전체 구성은 키입력부(11) 및 외부 입력단자(미도시)와 LCD화면(12: 도 2)으로 이루어져 입력 표시되는 표시부(10)와 MP3칩(21)과 저장부(미도시)로 이루어져 있는 메모리부(20)와 상기 표시부(10)의 키입력부(11)와 상기 메모리부(20)와 연결되어 전관방송 신호를 처리하고, 중앙집중적 제어를 하는 마이컴(30)과 상기 마이컴(30)과 연결되어 방송 출력을 하는 라디오부(40)와 상기 마이컴(30)과 인터럽트 방식으로 통신하는 UART(50)와 방송신호를 수신할 수 있도록 마련된 둘 이상의 입력 포트(미도시)를 구비하며, 마이크(미도시)에서 출력되는 음성이나 음성신호를 인식하여 일정하게 증폭시켜 음성증폭 출력신호로 가공하는 유무선 마이크 입력부(60)와 상기 유무선 마이크 입력부(60)와 연결되어 입력단자를 수용할 수 있으며, 모드에 따라 선택적으로 작동하는 오디오 스위칭부(70)와 상기 유무선 마이크 입력부(60)를 통해 입력된 방송신호들 중 방송할 방송신호들을 선택하고 상기 선택된 방송신호들을 상기 오디오 스위칭부(70)를 통해 증폭시켜 전관방송을 출력하는 출력부(80)로 크게 이루어진다.

상기 표시부(10)는 키 입력부(11) 및 외부입력 단자(도시는 생략)와 IR 센서(도시는 생략)와 LCD화면(12)으로 이루어져서, MCU(30)를 통하여 입력이 이루어지면 그 실행 결과가 상기 LCD화면(12)으로 디스플레이되는 것이다. 따라서, 사용자가 현재 방송중인 디지털 메시지를 상기 상기 LCD화면(12)으로부터 쉽게 확인할수 있으며, 현재의 방송 상태의 파악도 용이한 것이다.

상기 메모리부(20)는 MP3칩(21)과 플레쉬 메모리(flash memory: 도 3)로 이루어져 다양한 상황에 적합한 방송 멘트들을 저장부에 저장하고 있으면서, 방송이 필요한 상황(예를 들어 화재, 가스누출, 지진 등의 비상시) 이 발생하면 신속하게 상황에 대한 정확한 내용을 전달하고 그 상황에 적합한 대처 방안 등을 안내할 수 있는 것이다. 즉, 방송해야 할 내용을 상기 플레쉬 메모리에 저장해두었다가 지정된 시간이나 비상시에 방송할 수 있도록 하는 것이다.

도 1에 도시된대로, 도면의 중앙 부위에 마이컴(30: MICOM)이 도시되었는데, 일반적으로 마이컴은 컴퓨터의 연산 처리부를 1개 또는 수 개의 LSI(Large Scale Integration)로 구성한 마이크로 프로세서에 기억장치 혹은 주변장치와의 인터페이스 회로 등을 붙인 보드에 탑재한 컴퓨터를 의미한다.

본 발명에서의 마이컴(30)은 상기와 같은 기본적인 구성 이외에도 키입력부(11)가 속한 표시부(10)와 상기 메모리부(20)와 연결되어 전관방송 신호를 처리하고, 3계층으로 구성되어 운용된다.

상기 3계층이란 기기의 제어를 할수 있는 제어계층과 음성, 소리 데이터 처리 및 기기의 제어신호 및 상태 정보 처리를 할 처리 계층(Processing Layer) 및 기기 제어와 데이터 처리를 사용하기 쉽고 효율적으로 수행할 수 있기 위한 사용자 인터페이스 계층(User Interface Layer)로 구성된다.

그리고, 상기 마이컴(30)은 제어장치(31)를 운영하여 그 전송되어 출력될 음원을 수신하면 이하에 설명할 메모리부(20)에 저장된 최적 청취 음압(sound presure) 구간 정보의 구간에 상기 음원이 속하는 지 판단하여 구간에 속하면 후술되는 출력부(80)를 통해 출력시키며, 구간을 벗어나면 상기 제어장치(31)를 작동하여 상기 구간에 속하도록 음성증폭 출력신호의 증폭비율을 가감 조절되도록 하는 것이다. 상기 제어장치(31)가 출력신호의 증폭비율을 가감 조절하는 작동에 관한 구체적인 설명은 공지된 기술이므로 생략하기로 한다.

참고로, 상기 최적 청취 음압구간 정보의 구간값은 -18(dBV) ~ 0(dBV)이다. 따라서, 오디오 스위칭부(70)를 통해 변환되는 해당 방송 음원의 음성이 일반인이 들을수 있는 최적의 청취 음압구간의 값으로 증폭되어 출력하도록 하는 것이다.

또한, DSP 칩(미도시)을 사용한 MP3의 재생, 녹음 기능도 있으며, 최상의 음질을 보장하기 위하여 16KHz의 샘플링 주파수를 사용하는 4bit ADPCM 음성 LSI를 채택하며 두 가지의 녹음 입력 라인(MIC/LINE) 설정의 라디오 기능도 가능하다.

뿐만 아니라, 각 메시지별로 반복 방송 횟수 및 시간 간격 설정이 가능하며, 여기에 녹음 또는 저장된 음원의 편집 기능도 제공된다.

또한, CD player(미도시)가 설치되며, 기존의 CD 메커니즘(mechanism)을 이용하여 UART 통신으로 제어 개발한다 기존 전관 방송용 CD player 24bit/192KHz 에 대응하는 DAC(Digital to Analog Converter)칩으로 고 품질 음질의 오디오 실현이 가능한 것이다.

라디오부(40)는 라디오 TUNER(채널선택장치)와 주변 회로를 구성하여 제어 할 수 있도록 하며, 제공되는 기능은 기존 전관 방송용 radio 기능인 FM/AM 스테레오 튜너와 FM/AM 40개의 방송 주파수를 기억할 수 있다.

그리고, 자동 선택기능이 있어 방송국을 자동으로 선택할 수 있으며 이것도 역시 플래시 메모리에 방송국을 저장하여 기억시키는 것이다.

또한, IR(적외선) 원격센서(미도시)를 내장하며 스테레오 아날로그 출력 기능도 제공된다.

UART(50: Universal Asynchronous Receiver Transmitter)는 상기 마이컴(30)과 인터럽트 방식으로 시리얼(serial) 통신을 하는 것인데, 상기 인터럽트(interrupt) 방식이란 메인 작업을 실행하는 도중에 외부에서 정해져 있는 인터럽트 신호가 들어오면 상기 마이컴(30)은 즉각적으로 하고 있는 모든 task를 멈추고 인터럽트 서비스 루틴을 실행하는 것으로, 프로세서에서 우선순위를 정해 놓고 우선순위가 높은 task가 발생하면 현재 실행하는 작업을 중단하고 우선순위가 높은 task를 먼저 실행된다. 상기 UART(50)는 상기 마이컴(30)과 접속하는 직렬 통신 인터페이스로 RS-232 인터페이스가 바람직할 것이다.

상기 유무선마이크 입력부(60)는 오디오 스위칭부(70)와 연결되어 센서, 음성, 자동 녹음된 파일 형태로 이하에 설명할 오디오 스위칭부(70)로 전송된다.

상기 유무선마이크 입력부(60)는 네트워크를 통하여 전송되는 센싱정보와 음성인식기(미도시)에서 발생하는 음성의 입력으로도 입력이 가능한 것이다.

상기 유무선마이크 입력부(60)는 네트워크를 통하여 전송되는 온도, 적외선, 습도와 같은 센서 정보를 입력받아 상황에 맞는 메시지(멘트)를 출력할수 있도록 하는 것이다.

이하에서는 상기 유무선마이크 입력부(60)가 음성 인식을 하는 방식에 대한 설명을 관련된 수식을 들어 상세히 설명하기로 한다.

먼저 기존의 일반적인 음성인식 시스템에 대하여 도 4를 참조하여 설명한다.

기본적으로 음성인식 시스템은 상기 도 4에서와 같이 총 6단계에 걸쳐 구성된다. 1단계는 음성신호를 전기신호로 변환하여 디지털화하여 전송하는 음성입력 단계이며, 2단계는 주위 잡음을 제거하고 음성신호를 분리하여 음성이 있는 구간을 찾아내게 되는 전처리 단계이다. 3단계는 음성인지 모델을 통하여 음성인식에 유용한 특징을 뽑아내는 특징추출단계이며, 4단계는 음성 인식 훈련 과정으로 표준 패턴 DB를 생성하는 단계이다. 5단계는 미리 생성된 기준패턴과 입력되는 음성을 비교하여 가장 비슷한 것을 인식결과로 결정하는 음향모델 단계인 탐색과정이다. 6단계는 이러한 인식결과를 원하는 응용에 적용하여 사용자 인터페이스 기술을 이용하게 되는 단계이다.

상기 도 4에 ②전처리(잡음제거) 과정에서는 CCTV나 기타 장치에 전송되어 오는 아날로그 음성신호를 디지털 음성신호로 변환 후 디지털 필터를 사용한다.

디지털 필터는 신호에 대한 잡음 특성, 성능, 시스템 구성의 용이성 등으로 인하여 널리 사용되고 있다. 디지털 음성신호에서 필터란 들어오는 신호 입력에 대해 특정 주파수 대역에 대해서는 출력으로 내보내지 않고 차단시키는 회로를 의미한다. 즉, 어떤 음성 신호에 대한 스펙트럼을 원하는 주파수 대역만큼 제한시키는 주파수 선택회로를 뜻한다. 여기서 원하는 주파수 대역은 통과대역(passband)이 되고 원치않는 대역은 차단대역(stopband)이 된다.

이러한 필터 중 피드백 과정의 유무에 따라 IIR(infinitie impulse response)와 FIR(finite impulse response)로 구분되며 오차의 영향이 적은 상기 FIR 필터를 선택하였으며 이러한 필터를 거친 후 최종적으로 잡음제거를 위한 필터링으로 Wiener(위너) 필터, 칼만필터 등을 많이 사용하고 있다.

일반적으로 전관방송을 하게 되는 응급상황은 짧은 음성 신호 구간 내에서 상황을 인지해야 하는 상황이 발생하므로, 일반적으로 짧은 구간에서 정상성의 주파수 스펙트럼을 가진다는 가정에서 음성 정보를 추정하는 상기 Wiener 필터를 이용한 시스템을 많이 사용하고 있다. 도 5는 모델기반 Wiener 필터의 구성도이다.

도 5에 나타나 대로, 일반적인 모델기반 Wiener 필터의 구현과정은 구하고자 하는 음성을

라고 하고, s(t)와 n(t)를 각 잡음이 포함된 음성과 잡음이라 하고, Wiener필터를 g(t)라고 하면,

(1)

상기 식(1)처럼

를 구하고자 하는 것이다 이때, s(t)로 부터 N(t)(잡음: 도 5참조)의 추정치를 구하고 이것을 이용해

의 근사치를 얻는다는 것이다. 또한,

에 더 가까운 근사치를 얻기 위해 음성의 보편적인 특성을 나타내는 GMM(Gaussian Mixture Model)을 이용한다.

상기 GMM이란 어떤 데이터의 확률 분포를 여러 개의 가우시안 함수를 기저(Component distribution)로 하여 근사화하는 것을 의마한다.

상기와 같은 GMM 모델 식을 나타내면

으로 표현할 수 있다. 여기서, k개의 가우시안의 가중치 합으로 확률 분포를 나타낼 수 있으며, π_k의 합(∑)은 1이어야 하며 각 π_k는 0보다 크고 1보다 작아야 한다.)

상기 식(1)

을 상기에서 설명한 GMM방식을 이용하면 이하 식(2)로 표현된다.

(2)

여기서, p(k)는 k번째 gaussian distribution이 선택될 확률을 나타낸다. 따라서, 앞에서도 설명했듯이 상기 p(k) 아래 두조건을 만족해야 한다.

0 ≤ p(k) ≤ 1 및

p(k) = 1

상기 식(2)의 가정으로부터 모델기반 Wiener 필터는 아래 순서로 설계된다.

① 입력된 현재의 프레임에서 통계기반 VAD(voice activated dialing)를 이용해 잡음구간을 판별하고 잡음구간이면 잡음모델을 이전 값에서 갱신한다.

② Decision-directed Wiener필터를 이용해 전처리-WF 블록에서 임시적인 깨끗한 음성을 추정한다.

③ 앞의 과정에서 얻어진 추정치를 이용해 가지고 있는 GMM의 각 Gaussian에 대한 사후확률을 계산하고, 이것을 이용해 MMSE 신호 검출방법에 따라 최종 작업 WF 후 깨끗한 음성을 추정한다.

④ 추정된 깨끗한 음성과 ①에서 얻은 잡음 모델을 이용해 최종적인 Wiener 필터를 설계한다.

⑤ 얻어진 Wiener 필터로 현재 프레임을 처리하여 깨끗한 음성을 만들고, 다음 프레임은 단계 ①부터 위의 과정을 반복해서 처리한다.

이러한 과정을 거쳐 나온 음성만을 사용하여 ③특징추출, ④음성 인식 훈련과정, ⑤탐색과정, ⑥인식결과 응용을 거쳐서 음성인식 과정을 거치도록 된다.

본 발명에서의 음성인식은 잡음제거를 할수 있는 잡음제거 필터로 구성된 것이 특징인데, 본 발명에서는 CCTV에서 전송되는 모든 소리를 음성인식에 사용하지 않으며 기본적인 음성에 필요한 에너지를 갖고 있는 소리정보에 대해 감지하여 이를 인식에 사용하는 디지털 신호로 저장하는 과정을 거치도록 설계된다.

그 이유와 동기는, 아날로그 신호인 음성을 음성인식 시스템에 적용하기 전에 불필요한 잡음 등 인식에 필요하지 않는 신호를 제거하기 위해 디지털 필계를 고려하였으며, 성능이 우수한 FIR Wiener 필터를 선택하여 적용한다.

사람의 음성이 300-3400khz에 집중되어 있다는 점에 착안하여 전송되는 음성데이터를 FIR 필터의 특징을 이용하여 통과대역(본 발명에서는 음성 발화 구간), 저지대역, 천이대역을 결정하여, 그 후 과정에서의 소요시간을 줄이며 전반적인 성능향상을 얻고자 한 점이 특징이다.

이하, 식(3)은 기본적인 FIR 필터의 유도식이다.

(3)

상기 식(3)에서 x[n], y[n]은 입력되는 음성 정보 및 필터링 후, 출력 음성정보를 나타내며, h[n]은 필터의 유한 충격응답(Finite Imipulse Response) 특성이며, N은 필터의 차수를 의미한다. 그러나, 위 식으로 FIR 필터가 구현되면 입력되는 정보와 계수들의 곱해진 후 한꺼번에 더해지는 과정을 거쳐야 하므로 잡음제거에 소요되는 처리속도를 만족하기 힘들기 때문에 곱셈을 과정을 제거하기 위하여 상기 식(3)에 bit-serial 알고리즘을 적용하여 이하 식(4)와 같이 표현된다.

(4)

여기서 h_j, N, M은 각 계수 h의 j번째 비트, 탭수, 계수 비트수를 나타낸다 bit-serial 알고리즘은 승수의 LSB(Least Significant Bit)로부터 MSB(Most Significant Bit)로 쉬프트 시키면서 피승수를 곱한 결과에 그전에 계산된 부분곱을 누적시키는 방법이다.

곱셈 연산을 위한 총 계산되는 사이클 수를 줄이기 위해서 상기 식(4)의 짝수 부분과 홀수 부분에 대해서 나누어 bit-serial(비트직렬) 알고리즘을 적용하면 하기의 식(5)과 같이 표현된다.

(5)

상기 식(4)에서 적용된 필터식은 NM사이클을 요구하나 제안되는 상기 식(5)의 알고리즘은 NM/2 사이클이 걸리므로 산술적으로 2배의 속도 향상 효과를 얻을 수 있다. 이러한 FIR 필터의 특성을 고려하여 음성신호와 잡음을 효과적으로 구분하여 예측되는 희망 출력과의 오차를 최소로 하는 Wiener 필터링을 거치게 하였다.

그 이후에 원본 데이터와 추출한 데이터의 차이를 구하여 노이즈 신호를 추출하는 과정을 거친 후, 추출된 노이즈 신호와 원본 데이터를 이용하여 상기 식(1)의 Wiener 필터를 적용하여 노이즈 제거를 위한 필터를 설계하였다.

도 6(FIR 필터링 적용 음성의 진폭/진동을 나타낸 사진)에서 보여주는 바와 같이 입력되는 음형 파형을 음성의 주파수 대역을 구분하여 FIR 필터를 적용하여 음성발화구간 만을 구분하여 전반적으로 Wiener 필터를 거치는 시간을 줄이는 효과를 얻을 수 있다.

일반적인 Wiener 필터도 수학적 표현을 보면 현재와 과거(즉, 시간 지연된)의 데이터와 필터 계수들과의 곱셈과 덧셈으로 이루어져 있으며 이들 소자들의 전달 함수와 수학적 표현식들로 설계가 가능하다.

물리적인 상황들(동작 안정성, 감도, 전송되는 데이터의 안정성)을 1차적으로 차이가 없다고 가정한 상태에서 고려한다면 동작시간이 빠르거나 적은 개수의 소자를 사용하여 필터의 동작 시간을 적게 하는 것이 바람직하다고 할 수 있다.

최종적으로 잡음을 제거하는 Wiener 필터는 아래 식(6)과 같이 수행된다.

?

(6)

상기 식(6)처럼 기본 Wiener필터의 경우, 잡음이 포함된 음성 신호 S(w)와 잡음을 제거한 음성신호 So(w), Wiener 필터의 추정함수 H(w)를 이용하여 얼마나 효과적으로 H(w)를 구하는 것인가가 주요 목표이다. 상기 H(w)의 식은 이하 (7)과 같다.

(7)

상기 식(7)에서 P_s(w)는 원음성 신호의 음성 스펙트럼을 나타내며, P_d(w)는 잡음 신호의 음성 스펙트럼을 뜻한다. 이처럼 필터링 과정을 거치면 원음성 신호의 음성 스펙트럼을 추정하는데 오차가 생기게 되며, 이 오차를 줄이기 위해, 계수를 먼저 곱한 뒤에 시간 지연에 따른 계산을 하는 것을 고려한 아래와 같은 식(8)을 제안하는 것이다.

(8)

파라메터 값 α,β을 이용하여 각 신호들의 평균의 제곱형태로 계산하여 그 오차값을 줄이는 방안을 도입한 것이다.

잡음이 포함된 음성 정보의 처리를 위하여 Wiener 필터 과정을 거치지만, 이러한 과정으로 시간 지연이 발생하여 목적에 부합되지 못하기 때문에, 이러한 문제점을 해결하기 위하여, 본 발명에서는 상기 식(8)에서 제시한 식을 도 5에서 제시된 모델 기반 Wiener 필터의 단계 ①에서 통계 기반의 VAD를 이용시에 최적화를 통하여, 시간 지연과 잡음제거의 성능간의 관계를 고려한 식으로, 이하 식(9)로 수정 제안한 후 설계하고자 한다. 비대칭 윈도우의 적용으로 잡음 제거 시에 소요되는 시간을 최소화하기 위한 것이다.

일반적으로 잡음의 통계량은 그 자체로 정상적이라고 판단이 가능하지만 음성 정보의 통계량과 비교한다면 차이를 알 수 있을정도로 비정상을 확인 할 수 있으므로, 그 차이를 구분하여 Wiener 필터의 최적화를 고려하였다.

(9)

상기 식 (9)에서 P1, P2는 비대칭 창함수의 왼쪽 및 오른쪽 부분을 나타내기 위한 주기값이며, n₀ 및 N은 최대치가 존재하는 위치 및 창함수 전체의 길이를 나타낸다.

이렇게 잡음이 제거된 음성신호를 바탕으로 구축된 음성인식 DB를 바탕으로 응급상황 인식 및 탐지에 사용되게 된다. 이 때, 기본적으로 음소를 기반으로 단어를 인식하고자 DB를 구축하는 것을 기본으로 구축하였다.

도 7a에서는 이전에서 언급에 도 4에 도시된 음성인식 시스템의 기본구조에서 제안하는 방법을 적용한 본 논문에서 구축된 음성인식 시스템의 전반적인 구조를 나타낸다. 제안된 FIR Wiener 필터의 경우는 MATLAB으로 구현하였으며, 그 이후 과정의 경우는 HTK와 ECHOS를 사용되었다.

구축된 음성인식 시스템의 특징은 음향모델을 중심으로 하여 단어(keyword)을 탐지하는 것을 우선으로 선정하였으며, 이러한 단어 중심의 인식 시스템에서는 플랫 렉시콘, 렉시컬 트리를 이용한다.(도 7b 참조)

렉시컬 트리는 메모리 사용은 효율적이지만, 언어모델 확률값의 적용 지연과 단어간 모델링 구현의 복잡성이 존재하기 때문에, 트리 복사 알고리즘을 구현하였다. 이 음성인식 시스템에서는 렉시컬 트리가 가지고 있는 단점을 보완하기 위해 단일 음소로 이루어진 단어에 대해서는 렉시컬 트리를 구성할 때, 별도의 병렬적인 구조를 갖도록 설계하여 문제점을 해결하였다. 이러한 일련의 과정을 통하여 인식된 결과는 사용자 인터페이스로 전송하도록 구축되어 있다.

따라서, 유/무선 마이크 입력부(60)는 이러한 방식으로 방송 녹음된 음원의 음성을 인식하여 전달하는 것이다.

도 8의 블록도를 참조하여 설명하면, 좌측부에 온도센서, 적외선(인체)센서, 연기 센서가 도시되어 있다. (상기 센서들의 각 도면부호는 생략하기로 한다.)

상기 센서들은 빌딩과 같은 건물에서 화재 또는 가스누출 등과 같은 응급상황, 재난이 발생하였을 경우에는 연기센서와 온도센서가 이를 감지하게 되고, 적외선센서나 습도 센서를 통해 사람의 움직임을 파악하게 되는 것이다.

도 8에 나타난 바와 같이, 상기와 같은 센서들은 Ethernet Control을 통해 유무선마이크 입력부(60)를 거쳐 음성인식 신호로 변환하게 된다. 이렇게 변환된 상기 음성인식 신호는 상기 오디오 스위치부(70)를 작동하게 되어 증폭시켜 방송을 출력하는 것이다.

상기 오디오 스위칭부(70)는 방송모드 별로 가동되는 그룹핑(Grouping) 정보와 이들을 연결하기 위한 것으로, 상기 마이컴(30)과 소통하며, 오디오 신호를 전송하는 것이다.

앞에서 설명했지만, 온도 센서 등이 재난상황을 감지하여 상기 Ethernet Control을 통해 상기 유무선마이크 입력부(60)를 통하여 전달되는 신호는 다시 진폭편이방식(ASK) 복조기(미도시)를 거치면서 개별 아이디(ID)와 명령어 정보를 포함하는 디지털 신호로 변환되며, 상기 변환된 디지털 신호가 상기 마이컴(30)에 입력된다.

상기 마이컴(30)에서는 미리 설정된 개별 아이디(ID: 각각의 재난상황에 따라 구별되는 방송멘트)와 입력된 디지털 신호에 포함된 개별 아이디(ID)를 비교하여, 두 정보가 동일하다면 역시 상기 입력된 디지털 신호에 포함된 명령어 정보대로 오디오 스위치(미도시)를 작동시키기 위한 동작신호를 상기 오디오 스위치부(70)에 공급하게 된다.

이것을 예를 들어 설명하면, 동일한 아이디(ID)인 경우에 명령어 정보에 따라 상기 오디오 스위치의 동작을 결정하도록 릴레이 동작신호를 전달하는 것이다. 이와 같이 상기 오디오 스위치의 작동에 따라 출력부(80)가 실행되어 발생한 재난 상황에 맞는 적합한 방송을 하게 되는 것이다.

도 9는 본 발명에 의한 전관방송시스템(100)의 내부를 촬영한 사진으로서, 본 발명의 전관방송시스템(100)은 기존에 설치된 시스템에 고정시키기만 하면 실행이 가능하고 일체형으로 설계되었으므로 설치할 경우에는 소요되는 공간도 대폭 줄일수 있는 효과도 있는 것이다.

이하에서는 도 10을 참조하여 본 발명에 의한 전관방송시스템(100)의 실행방법에 대하여 설명하기로 한다.

첫번째로, 화재, 가스 누출의 재난이 발생하였을 경우, 무선 네트워크를 통하여 온도센서, 연기센서, 적외선(인체)센서를 통하여 들어오는 신호를 유무선 마이크 입력부(60)가 수신하여 음성 인식한다. (제1단계)

상기 수신된 신호를 통해 현재 벌어지는 상황이 어떠한 재난상황인지 (화재인지 아니면 가스 누출인지) 여부를 마이컴(30)이 판단하게 된다. (제2단계)

다음 단계로, 상기 제2단계에서 판단된 상황에 맞는 디지털 음원데이터를 상기 마이컴(30)이 메모리부(20)를 통해 선별하게 된다.(제3단계)

상기 제3단계에서 상기 마이컴(30)이 선별한 디지털 음원데이터를 라디오부(40)는 무선 네트워크를 통해 해당하는 방송멘트를 추출한다.(제4단계)

상기 라디오부(40)에서 추출한 디지털 음원 데이터를 상기 마이컴(30)이 수신하여 오디오스위치부(70)로 전송한다. (제5단계)

그러면, 상기 오디오스위치부(70)는 상기 수신된 디지털 음원 데이터를 증폭하여 출력부(80)를 통해 출력하는 것이다.(제6단계)

이상에서와 같이, 상기 서술한 내용은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능한 것이다.

따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

10 : 표시부 11 : 키 입력부
12 : LCD 표시창 20 : 메모리부
21 : MP3칩
30 : 마이컴 31 : 제어장치
40 : 라디오부
50 : UART 60 : 유/무선 마이크 입력부
70 : 오디오 스위칭부 80 : 출력부
100 : 전관방송 시스템

Claims

음성인식 기법을 이용한 전관방송시스템에 있어서,
키입력부 및 외부입력단자와 LCD화면으로 이루어져 입력 표시되는 표시부(10);
MP3칩과 저장부로 이루어져 상황에 적합한 방송멘트가 저장된 메모리부(20);
상기 키입력부와 상기 메모리부(20)와 연결되어 전관방송 신호를 처리하고, 중앙집중적 제어를 하며, 제어장치(31)를 운영하여 전송되어 출력될 음원을 수신하면 상기 메모리부(20)에 저장된 최적 청취 음압구간정보의 구간(-18 ~ 0dBV)에 상기 음원이 속하는지 판단하여 구간에 속하면 출력부(80)를 통해 출력시키며 상기 구간을 벗어나면 상기 제어장치(31)를 작동하여 상기 구간에 속하도록 음성증폭 출력신호의 증폭비율을 가감조절되도록 하는 마이컴(30);
상기 마이컴(30)과 연결되어 다양한 상황에 적합한 방송멘트를 저장한 플레쉬 메모리가 내장되어 임의로 선택할 수 있으며, 스테레오 아날로그 출력 및 방송 출력을 하는 라디오부(40);
상기 마이컴(30)과 인터럽트 방식으로 통신하는 UART(50);
방송신호를 수신할 수 있도록 마련된 둘 이상의 입력 포트를 구비하며, 마이크에서 출력되는 음성신호를 인식하고 일정하게 증폭시켜 음성증폭 출력신호로 가공하며, 네트워크를 통해 전송되는 온도, 적외선, 습도와 같은 센서 정보를 입력받아 상황에 맞는 메시지를 출력할 수 있도록 하는 유무선 마이크 입력부(60);
상기 유무선 마이크 입력부(60)와 연결되어 입력단자를 수용할수 있으며, 모드에 따라 선택적으로 작동하는 오디오 스위칭부(70);
상기 유무선 마이크 입력부(60)를 통해 입력된 방송신호들 중 방송할 방송신호들을 선택하고 상기 선택된 방송신호들을 상기 스위칭부(70)를 통해 증폭시켜 전관방송을 출력하는 출력부(80)를 포함하되,
상기 유무선마이크 입력부(60)가 잡음을 제거하는 과정에서 사용하는 필터는 위너필터이며, 모델기반 위너필터를 이용하여 음성을 구할 경우에 구하고자 하는 음성이
이며, s(t)와 n(t)를 각 잡음이 포함된 음성과 잡음이라 하고 상기 위너필터를 g(t)라고 하면,
의 식으로 구하는 것을 특징으로 하는 음성인식 기법을 이용한 전관방송시스템.
제1항에 있어서,
상기 마이컴(30)은 mp3 재생과 녹음이 가능하며, 라디오기능이 있는 것을 특징으로 하는 음성인식 기법을 이용한 전관방송시스템.
삭제
제1항에 있어서,
상기 유무선마이크 입력부(60)는 네트워크를 통해 전송되는 센싱정보와 음성인식기에서 발생하는 음성입력으로도 입력 가능한 것을 특징으로 하는 음성인식 기법을 이용한 전관방송시스템.
삭제