KR20110010179A - 음성 인식을 이용한 엘리베이터 내의 자동 보안 시스템 및 그 방법 - Google Patents

음성 인식을 이용한 엘리베이터 내의 자동 보안 시스템 및 그 방법 Download PDF

Info

Publication number
KR20110010179A
KR20110010179A KR1020090067601A KR20090067601A KR20110010179A KR 20110010179 A KR20110010179 A KR 20110010179A KR 1020090067601 A KR1020090067601 A KR 1020090067601A KR 20090067601 A KR20090067601 A KR 20090067601A KR 20110010179 A KR20110010179 A KR 20110010179A
Authority
KR
South Korea
Prior art keywords
signal
power
noise
ratio
reference signal
Prior art date
Application number
KR1020090067601A
Other languages
English (en)
Inventor
조정권
Original Assignee
조정권
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 조정권 filed Critical 조정권
Priority to KR1020090067601A priority Critical patent/KR20110010179A/ko
Publication of KR20110010179A publication Critical patent/KR20110010179A/ko

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B66HOISTING; LIFTING; HAULING
    • B66BELEVATORS; ESCALATORS OR MOVING WALKWAYS
    • B66B3/00Applications of devices for indicating or signalling operating conditions of elevators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • G06F17/142Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Algebra (AREA)
  • Discrete Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

본 발명은 엘리베이터내에서 발생하는 소음 및 환경 잡음을 동시에 제거하고 탑승자의 구조 목소리만을 추출하여 음성 인식 엔진에 통과시켜 사건 인지 모듈에 의하여 강력 사건 발생 여부를 판단한 뒤 경고음 및 관리실 알람을 발생시켜 범죄의 예방 및 시초 단계에서 억제의 효과를 거두게 하는 엘리베이터 보안 시스템 및 그 방법에 관한 것이다. 또한 엘리베이터 내에서 텔레비전이나 라디오 방송의 소리를 제거하기 위하여 스피커에 전달되기전의 라인 입력 신호를 이용하여 마이크로폰에 입력된 스피커 출력 소리를 제거하고, 단채널 음성 강조 기법으로 후처리하여 환경 잡음까지 제거함으로써 구조 목소리에 대한 음성 인식률을 획기적으로 향상시킬 수 있다.
상황의 특성상 피해자의 구조 목소리는 매우 작기 때문에 마이크로폰에 입력되어 음성 인식 엔진에 사용되려면 자동이득 조절기(AGC)를 이용하여 증폭시켜야 하는데 기계적 소음 및 주변 환경 잡음이 함께 증폭되어 음성 인식률이 매우 떨어짐으로써 급박한 상황에서는 사용될수 없다. 따라서 환경 소음 및 방송 소리와 같은 어떤 방해 잡음이 발생되는 상황에서도 구조 목소리를 음성 인식하여 사건 인지 판단 모듈에서 부저 및 관리실 알람을 수행할 수 있게 하는 것이 본 발명의 목적이다.
포락선의 비, 복소수 평활 최소 자승 평균법, 전력비의 비의 분산, 긴평균 전력과 짧은 평균 전력의 비, 잡음 스펙트럼 추정

Description

음성 인식을 이용한 엘리베이터 내의 자동 보안 시스템 및 그 방법{Automatic security system and method in elevator using voice recognition}
본 발명은 마이크로폰에 입력되는 신호중, 기계적인 소음이나 스피커의 출력음, 에어콘에서 발생하는 환경 잡음등을 제거함으로써 화자의 목소리만을 추출, 강조하여 음성 인식 장치등에 전달하는 방법과 시스템에 관한 것이다. 마이크로폰 입력 신호로 부터 스피커 출력의 기준 신호 성분을 음향 에코 제거 방법으로 일정 부분 제거한 뒤, 목적 신호가 없이 기준 신호만 존재하는 구간이라고 판단되는 구간에서는 적응 필터의 계수를 갱신하면서 출력 신호에 대한 감쇄 조절기를 구동하고, 단채널 음성 강조 방법으로 기준 신호와 환경 잡음의 스펙트럼을 마이크로폰 입력 신호의 스펙트럼에서 뺌으로써 화자의 목소리만을 최대한 강조한다. 목적 신호보다 잡음이 더 큰 환경에서 음성 인식률의 향상은 기존 장비의 음성 인식 기능의 적극적인 사용을 가능케 하여 실생활에서의 편리함과 안정성을 제공할 수 있게 된다. 그러나, 기준 신호와 화자의 목소리 그리고, 환경 잡음이 섞여 있는 상태에서 화자 목적 신호의 포함 유무를 정확하게 판단하지 못하면, 엘리베이터내 강력 사건의 피해자가 아주 작은 목소리로 구조를 요청했을때 목적 신호만을 효과적으로 추출해내지 못하게 되어 음성 인식에 실패하게 됨으로써 구조 요청에 응답하지 못하게 되는 치명적인 문제를 야기시킨다.
일반적으로, 음향 에코 제거 기술은 마이크로폰과 스피커 사이에서 출력되는 소리의 되먹임 신호인 에코를 제거함으로써 전화, 보청기등에 널리 사용되고 있다.
음향 에코에 있어서는 기준 신호와 목적 신호 구간을 판단하는 방법이 매우 중요하며 각 신호에 대한 존재 유무를 잘못 판단하는 경우 적응 필터의 계수가 잘못 갱신되어 화자의 목적 신호의 왜곡이 발생하고, 출력 신호의 감쇄 조절기를 잘못 사용하게 되어 목적 신호 구간에서의 신호를 감쇄시킬 수 있다. 전화기와 같이 마이크로폰과 화자와의 거리가 상대적으로 가까운 분야에서는 화자의 말하기 여부를 검출하는 방법이 비교적 정확하지만 만일 화자가 마이크로폰으로 부터 수 m 떨어진 곳에서 말을 하게 된다면 화자가 말하고 있는 구간을 추정하는 정확성이 낮아지고, 엘리베이터와 같은 공간에서는 실내 잔향때문에 음향 에코 제거기의 성능이 저하된다. 따라서, 기준 신호와 화자의 목적 신호, 그리고 환경 잡음에 대한 정확한 구간 판별이 이루어져야만 적응 필터의 계수의 갱신이 적절히 이루어지기 때문에 목적 신호가 왜곡되지 않고, 출력 신호에 대한 이득 조절의 여부를 정확히 결정할 수 있 다. 또한 강력 사건의 피해자가 아주 작은 목소리로 구조 요청했을때 마이크로폰에 함께 입력되는 엘리베이터의 기계적 소음과 환경 잡음, 스피커의 출력음을 대폭 제거해서 피해자의 목소리만을 추출해야 음성 인식률을 높일 수 있다.
본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위하여 안출된 것으로서, 기준 신호와 마이크로폰에 입력되는 화자의 목적 신호 구간을 정확히 추정하기 위한 방법을 제시하고, 목적음의 왜곡과 손실을 최소화하면서 마이크로폰에 입사되는 스피커의 출력인 기준 신호를 제거하고, 후처리로서 환경 잡음의 스펙트럼을 실시간 추정하여 제거하는 방법 및 하드웨어 시스템을 구현하는데 그 목적이 있다. 이 목적을 달성하기 위해서는 목적 신호 구간과 잡음 신호 구간을 정확하게 판별하는 것이 가장 중요하며, 주파수 영역에서의 단채널 음성 강조 기법을 사용하여 환경 잡음 및 잔여 기준 신호의 스펙트럼을 제거하여 구조 요청 목소리만을 추출한 후 음성 인식률을 획기적으로 향상시켜 사건 인지 모듈에서 부저 및 관리실 알람을 실행시킴으로써 강력 사건을 예방하고, 초기에 차단하는 것이 주요 목적이다.
화자의 목적 신호가 없는 구간을 추정하기 위한 디지털 신호처리 기법으로써, 마이크로폰 입력 신호에 대한 포락선(envelop)의 비(ratio)와 주파수 성분의 전력비의 비를 각각 계산한 후 그에 해당하는 실험적 임계치와 비교함으로써 기준 신호만 존 재하는 구간, 기준 신호와 목적 신호가 함께 있는 구간등을 판단하여 마이크로폰으로 입력되는 스피커 출력의 음향 에코 성분을 제거하고, 주파수 영역에서의 단일 채널 음성 강조 기법을 사용하여 엘리베이터의 운행 소음 및 환경 잡음을 제거함으로써, 최종적으로는 탑승자의 구조 요청 신호만을 추출해 내고, 음성 인식을 통하여 사건 인지 모듈에서 부저 및 관리실 알람을 실행하는 신호처리 방법 및 그 시스템을 제공한다.
본 발명에 따르면, 엘리베이터에 설치된 마이크로폰에 입력되는 스피커의 소리, 엘리베이터의 소음 및 환경 잡음을 제거함으로써 강력 범죄의 피해자가 발생시키는 아주 작은 목소리만을 추출, 강조할 수 있게 되어 음성 인식률을 향상시킴으로써 사건 인지 모듈에서 부저 및 관리실 알람을 실행하여 범죄의 예방 및 초기 차단 효과를 기대할 수 있다
엘리베이터이외에도 범죄 발생에 취약한 택시나 화장실, 거실등 사생활 보보호가 필요한 공간에서 사건 발생 인지시에만 녹화를 시작하거나, 경고 알람을 하는 정보를 제공할 수 있을 뿐만 아니라 감시 인력이 필요한 보안 카메라보다 적은 비용과 설치가 간편하다는 장점을 가진, 음성 인식에 의한 자동 보안 시스템으로 사용될 수 있다. 부저나 관리실에 알람을 실행하는 단독 모듈로 사용되거나, 보안 카메라등과 연계하여 사건 인지 정보를 제공할 수 있는 협력 모듈로 사용될 수 있다.
이하, 첨부한 도면들을 참조하여 본 발명의 화자의 목적 신호 검출 및 잡음 제거에 대한 이론과 이를 실현하기 위한 구성 및 작용을 상세히 설명한다.
1. 에코 제거를 위한 적응 모드 제어 방법
도 1과 같이 x(n)은 마이크로폰 입력 신호, r(n)은 기준 신호, v(n)은 환경 부가 잡음, d(n)은 수학식 1로 표현되는 목적 신호와 잡음, 그리고 에코 성분이 더해진 신호,
Figure 112009045222840-PAT00001
은 입력 참조 신호를 주파수 변환 영역에서 추정한 에코 신호, 수학식 2의 e(n)은 입력 신호에서 기준 신호를 이용하여 추정된 에코 신호가 제거되고 환경 부가 잡음이 추가된 에러 성분이다.
수학식 1
Figure 112009045222840-PAT00002
수학식 2
Figure 112009045222840-PAT00003
따라서, 에코 신호를 음향 에코 제거기에서 제거하고, 즉
Figure 112009045222840-PAT00004
=y(n) 이면서 잡음 성분인 v(n)을 음성 강조기에서 효과적으로 제거한다면 수학식 3과 같이 화자의 목적 신호만 남게 된다.
수학식 3
Figure 112009045222840-PAT00005
Figure 112009045222840-PAT00006
은 화자의 목적 신호 x(n)과 환경 잡음 v(n), 그리고 기준 신호인 r(n)의 합으로 표현 되고
Figure 112009045222840-PAT00007
은 라인으로 입력되는 기준 신호이다. 즉, 에러 신호인 e(n)을 최소로 하는 계수 w(k)를 기준 신호만 있는 구간에서 갱신함으로써 기준 신호인
Figure 112009045222840-PAT00008
을 추정한 뒤 마이크로폰 입력 신호에서 제거한다.
적응 최소 평균 자승 알고리즘의 적응 필터의 계수
Figure 112009045222840-PAT00009
는 수학식 4과 같이 주파수 도메인에서 갱신된다.
수학식 4
Figure 112009045222840-PAT00010
여기서
Figure 112009045222840-PAT00011
는 수렴 상수이며
Figure 112009045222840-PAT00012
는 영으로 나누는 경우를 방지하기 위한 임의의 상수,
Figure 112009045222840-PAT00013
은 기준 신호의 전력값, W(k), X(k), E(k) 는 주파수 도메인에서의 적응 필터의 계수, 마이크로폰 입력 신호, 에러 신호이다.
화자의 목적 신호가 없는 구간에서 이 계수를 갱신해야 하는데 목적 신호가 있는 구간인지를 판단하기 위하여 하기 2 가지 방법을 제시하였다.
1.1 포락선의 비를 이용하는 방법
기준 신호를 r(n), 에코 제거기의 출력 신호를 y(n) 라 할 때 각 신호에 대한 포락선(envelop) Er(n)과 Ey(n)의 분산(variance)의 비(ratio)를 실험적 임계치와 비교하여 화자의 목적 신호의 유무를 판정한다.
수학식 5
Er(n)=envelop{r(n)}=
Figure 112009045222840-PAT00014
Er(n-1) + (1-
Figure 112009045222840-PAT00015
)|r(n)|
수학식 6
Ey(n)=envelop{x(n)}=
Figure 112009045222840-PAT00016
Ey(n-1) + (1-
Figure 112009045222840-PAT00017
)|y(n)|
수학식 7
Figure 112009045222840-PAT00018
여기서
Figure 112009045222840-PAT00019
는 기울기(gradient) 상수이며, Er(n), Ex(n) 은 n번째 기울기 포락선 추정치이고, |r(n)|, |y(n)|은 각각 n 번째 기준 신호, 에코 제거기의 출력 신호의 크기,
Figure 112009045222840-PAT00020
는 기준, 에코 제거기 출력 신호에 대한 기울기 포락선의 비,
Figure 112009045222840-PAT00021
는 실험적 임계치(threshold value)이다.
수학식 7 에서
Figure 112009045222840-PAT00022
Figure 112009045222840-PAT00023
보다 큰 구간에서는 화자의 목적 신호가 존재한다고 예측할수 있다. 왜냐하면 기준 신호에는 목적 신호가 없기 때문에 화자가 말하지 않는 구간에서 수학식 7 로 표현되는 포락선의 비가 목적 신호가 존재하는 구 간보다 작기 때문이다.
1.2 주파수 성분의 전력비에 대한 비의 분산을 이용하는 방법
도 6 과 같이 기준 신호의 각 주파수 대역의 파워를
Figure 112009045222840-PAT00024
, 마이크 입력 신호의 각 주파수 대역의 파워를
Figure 112009045222840-PAT00025
, 전체 주파수 대역의 파워를 각각 A 와 B 는 수학식 8 과 같이 표현된다.
수학식 8
Figure 112009045222840-PAT00026
Figure 112009045222840-PAT00027
여기서,
Figure 112009045222840-PAT00028
는 기준(reference) 신호 ,
Figure 112009045222840-PAT00029
는 마이크로폰 입력 신호이고,
Figure 112009045222840-PAT00030
Figure 112009045222840-PAT00031
는 0 ~ 2 KHz 대역의 파워 ,
Figure 112009045222840-PAT00032
Figure 112009045222840-PAT00033
는 2 ~ 4 KHz 대역의 파워,
Figure 112009045222840-PAT00034
Figure 112009045222840-PAT00035
는 4 ~ 6 KHz 대역의 파워 ,
Figure 112009045222840-PAT00036
Figure 112009045222840-PAT00037
는 6 ~ 8 KHz 대역의 파워이다.
전체 파워 A 와 B 에 대한 특정 대역의 전력비는 수학식 9 와 같이 각각 계산된다.
수학식 9
Figure 112009045222840-PAT00038
; 기준신호
Figure 112009045222840-PAT00039
; 마이크로폰신호
수학식 9 에서 계산된 전력비는 입력 신호에 따라 분산이 심하기 때문에 목적 신호 구간으로 판정할 수 있는 실험적 임계치를 설정하기 어려우므로 이에 대한 분산을 구할 필요가 있다.
기준 신호와 마이크 입력 신호 각각의 전력비에 대한 분산
Figure 112009045222840-PAT00040
는 수학식 10과 같이 계산된다.
수학식 10
Figure 112009045222840-PAT00041
여기서,
Figure 112009045222840-PAT00042
는 장비 및 환경적 요소의 전달 함수를 보상하기 위한 정규화된 가중치로서 수학식 11과 같은 조건을 만족하며 실험적으로 미리 구한뒤 사용한다.
수학식 11
Figure 112009045222840-PAT00043
따라서
Figure 112009045222840-PAT00044
가 이상적으로 구해졌다면 목적 신호가 없을때는
Figure 112009045222840-PAT00045
=0 이 된다.
수학식 12 와 같이 전력비 분산의 합
Figure 112009045222840-PAT00046
를 실험적 임계치와 비교하여 목적 신호 구간 여부를 판별할수 있다.
수학식 12
Figure 112009045222840-PAT00047
; 목적 신호 구간
수학식 7,12 에서 실험 임계치와 비교된 후의 결과로 부터 화자의 목적 신호가 존재하는 구간인지를 결정할 수 있으며, 기준 신호만 존재하는 구간에서는 적응 필터의 계수를 갱신시키면서 필터링하고, 잡음 감쇄 조절기에 의해 출력 신호를 감쇄시킨다. 화자의 목적 신호가 존재하는 구간에서는 적응 필터의 계수를 갱신하지 않고 필터링만 실시하여 마이크로폰 입력 신호중의 에코 성분인 기준 신호를 제거한다.
2.단채널 음성 강조 방법
입력 신호를 고속 푸리에 변환(FFT-Fast Fourier Transform)하여 주파수 영역으로 변환한 뒤, 각 주파수 성분의 긴(예-100 프레임) 평균 전력과 짧은(예-10 프레임) 평균 전력의 비를 계산한다. 이때 긴 평균 전력의 일정 배수(예-2.5배)보다 큰 프레임의 전력을 제외시키면서 긴 평균 전력
Figure 112009045222840-PAT00048
을 계산하고, 짧은 평균 전력
Figure 112009045222840-PAT00049
은 주파수 성분 그대로 계산에 참여시켜 그 비
Figure 112009045222840-PAT00050
를 구하면 화자가 말을 할때는 비가 크고 잡음 구간에서는 비가 상대적으로 작기 때문에 비의 실험적 임계치
Figure 112009045222840-PAT00051
와 비교하여 잡음 구간을 추정할수 있다.
수학식 13
Figure 112009045222840-PAT00052
: 잡음 구간
여기서
Figure 112009045222840-PAT00053
는 전력비에 대하여 실험적으로 얻는 상수이다.
또한, 사람의 말소리는 전력의 변화량이 심하다는 통계적 특징을 이용하여 수학식 14와 같이 입력 신호의 i 번째 프레임에 대한 j 번째 주파수 성분의 전력
Figure 112009045222840-PAT00054
에 대하여 특정 프레임(예-40 프레임)동안의 변화량이 실험적 임계치
Figure 112009045222840-PAT00055
보다 작을때 잡음 구간이라고 판단할 수 있다.
수학식 14
Figure 112009045222840-PAT00056
: 잡음 구간
따라서
Figure 112009045222840-PAT00057
또는
Figure 112009045222840-PAT00058
일때 잡음 구간이라고 추정할 수 있다.
상기 추정된 잡음 구간에서는, 로그 스케일로 나뉜 주파수 성분에 수학식 13, 14의
Figure 112009045222840-PAT00059
의 값에 종속된 0에서 1사이의 스무딩된 감쇄 이득을 곱함으로써 일정 전력 이하의 잡음에 대한 감쇄 효과를 얻을 수 있는데 예시적으로 도 4와 같이 잡음 감쇄를 위한 최적 곡선을 실험적으로 찾는다. 가로축은
Figure 112009045222840-PAT00060
이고 세로축은 0~1 사이의 감쇄 이득이다.
3.알고리즘 구현 방법 및 순서도
3.1 알고리즘 구현 블록도
본 발명의 구현 방법을 도 2의 블록도를 기반으로 아래와 같이 서술하였다.
마이크로폰의 디지털 신호는 FFT 를 수행하여 주파수 영역으로 변환되고(11a), 같은 방법으로 라인 입력의 디지털 신호도 FFT 를 수행하여 주파수 영역으로 변환된다.(11b) 주파수 영역으로 변환된 두 신호에 대한 포락선의 비와 주파수 성분의 전력비에 대한 비의 분산을 이용하여 기준 신호만 존재하는 구간을 추정하여 적응 필터의 계수들을 갱신할 것인지를 결정하게 되고(21b), 주파수 영역으로 변환된 라인 입력 신호가 적응 필터를 통과하여(21a) 마이크로폰 입력 신호에서 제거된다. 남아 있는 잔여 기준 신호는 기준 신호 추정부(21b)의 정보를 이용하여 기준 신호가 차감된 마이크로폰 입력 신호에 감쇄 이득을 곱함으로써 기준 신호 구간에서의 전력을 감소시킨다. 잔여 기준 신호까지 제거된 마이크로폰 입력 신호는, 긴 구간 평균 전력과 짧은 구간 전력의 비를 이용한 방법과 특정 프레임 동안의 전력의 분산을 이용한 방법으로 잡음의 스펙트럼을 추정한 뒤(31b) 주파수 성분에 따른 특정 감쇄 이득 곡선에 따라 감쇄 이득이 곱해져서 잡음의 스펙트럼을 제거한다.(31a) 기준 신호와 잡음의 스펙트럼이 제거된 주파수 영역의 목적신호를 음성 인식용 음소의 데이터 베이스와 비교하여 사건 판단 여부를 결정한다.(40)
3.2 소프트웨어 순서도
본 발명의 실시간 소프트웨어를 구현하기 위한 순서도를 도 3을 기반으로 아래와 같이 서술하였다.
하나의 마이크로폰과 하나의 기준 입력 신호를 스테레오 코덱에서 받아들이는 입 력 신호 모듈(S200)에서 입력되는 두 신호의 레벨 차이가 크기 때문에, 마이크로폰의 신호를 라인 입력 신호(보통 1 Vrms) 수준으로 증폭시키기 위한 프리앰프가 필요하며 레벨을 맞추기 어려운 경우에는 신호처리 칩내에서 DSP신호 처리 알고리즘 전처리로서 스케일 노멀라이즈 방법을 사용한다.
두 입력 신호를 N 포인트 FFT 하여 시간 영역에서 주파수 영역으로 변환하여 수렴 속도 및 계산량을 감소시키는 효과를 얻는다.(S210) 1 장에서 제시된 수학식 7의 포락선의 비와 수학식 12의 전력비의 분산을 계산한 뒤, 이에 대한 실험적 임계치 저장 모듈(S215)과 비교하여 기준 신호만 존재하는 구간을 정확히 추정한다.(S220)
기준 신호만이 존재하는 구간으로 판정되면 적응 필터의 계수를 갱신하면서 마이크로폰 입력 신호를 적응 필터에 통과시킴으로써 마이크로폰 입력 신호에 포함된 기준 신호의 성분을 제거하고, 잔여 에코 신호(echo residual component)를 좀더 감쇄시키기 위하여 실험적으로 적절한 감쇄 이득을 곱한다.(S230) 기준 신호 구간으로 판정된 구간에서는 기준 신호를, 기준 신호와 목적 신호가 없는 구간에서는 환경 잡음에 대한 스펙트럼을 추정하기 위하여 입력 신호의 각 주파수 성분에 대하여 장시간 평균 전력과 단시간 평균 전력의 비를 계산한 뒤, 수학식 13의 전력비와 수학식 14의 전력 분산의 임계치 모듈(S235)과 비교하여 잡음 구간이라고 판단되는 부분에 대하여 특정 이득 곡선을 가지는 스펙트럼 감소 파라메타(0~1)를 계산하여 잡음의 스펙트럼을 추정한다.(S240) 추정된 기준 신호 및 환경 잡음에 대한 스펙트럼 감소 파라메타를 S220의 에코 제거 모듈의 출력에 곱하여 목적 음성을 강조한다.(S250) 기준 신호와 환경 잡음 스펙트럼이 제거되어 목적 신호가 강조된 신호를 음성 인식용 음소의 데이터(S255)와 비교하여 사건 판단 여부를 결정한다.(S260)
4.0 실시간 처리를 위한 하드웨어 개발
도 5는 순서도인 도 3을 구현한 소프트웨어 프로그램을 실시간으로 동작시키기 위한 하드웨어 보드에 대한 블록도이다.
마이크로프로세서(504)와 같은 스테레오 코덱(502)을 기반으로 하는 실시간 처리 보드의 동작을 하기에서 상세 기술한다.
1 개의 마이크로폰 입력 신호는 컷오프 주파수 17 KHz의 1 차 저주파 통과회로를 포함한 프리앰프(501)에서 증폭되어 스테레오 코덱(502)으로 입력되고, 1 개의 라인 입력으로서 기준 신호가 코덱으로 입력되어 디지털 신호로 변환된 뒤, 마이크로프로세서(504)로 전달된 후, 도 3에서 제시한 순서도를 정수 연산만으로 시뮬레이션하여, C와 마이크로프로세서의 어셈블리 언어로 구현된 최적화된 프로그램이 마이크로프로세서내에서 에코 성분인 기준 신호를 제거하고, 환경 잡음인 v(n)을 실시간으로 제거한다. 시스템을 외부에서 조정할수 있는 버튼과(503), 기준 신호와 환경 잡음이 제거된 목적 신호를 음성 인식하여 사건 판단 모듈에서 사건으로 판단하면 스테레오 코덱(502)에서 장비내의 아날로그 알람 소리를 출력하거나, 장비 외부의 부저를 동작시키고 관리실의 컨트롤 박스에 알람 신호를 주기 위한 USB 또는 RS232 출력부와(505), 알고리즘을 구현한 실시간 소프트웨어를 탑재한 플래쉬 메모리와(506), 플래쉬 메모리(506)에 탑재된 소프트웨어에 대한 불법 복제를 막기 위한 보안칩과(507), 관리자가 시스템의 동작 상태를 확인하기 위한 패널 보드와(508), 특정 상황의 동작 상태를 저장하기 위한 메모리로(509) 음성 인식 자동 보안 시스템이 구성된다.
기준(에코) 신호 및 환경 잡음를 제거하기 위한 알고리즘과 실시간 처리를 위한 하드웨어에 대한 상기 기술은 예시 및 설명을 위해 제시되었다. 상기 내용을 응용하여 많은 변경들과 변형들이 가능할 수 있고, 일부 수학식이나 실시 예들을 임의로 조합하여 사용할 수도 있다. 본 발명의 범위는 이러한 상세한 설명이나 도면, 또는 수학식에 의해서가 아니라 여기에 첨부된 청구항들에 의해 한정되어야 한다
본 발명은 기준 신호를 얻을 수 있는 네비게이션이나 TV 와 같은 장비에서 발생하는 기준 신호 잡음을 제거함으로써 명료한 목적 신호를 추출하여 음성 인식률을 획기적으로 높일 수 있는 음성 인식 분야에 적용되며, 주파수 영역에서의 단채널 음성 강조 기법은 컬러 잡음을 효과적으로 제거하기 때문에 휴대 전화와 같은 음성 통신 분야에 적용할 수 있다.
도 1은 기준 신호를 제거하는 구조를 도시하는 도면이다.
도 2는 기준 신호와 환경 잡음을 제거를 포함한 전체 알고리즘을 도시하는 도면이다.
도 3은 시스템을 동작시키기 위한 실시간 소프트웨어의 순서도이다.
도 4는 주파수 성분에 대한 감쇄 이득을 도시하는 도면이다.
도 5는 실시간으로 동작하는 하드웨어 시스템을 도시하는 도면이다.
도 6은 전력비의 비의 분산을 이용하여 기준 신호 구간을 판정하는 방법을 도시한 도면이다.
* 도면의 주요부분에 대한 부호의 설명 *
11,11a,11b: 주파수 변환부 21,21a,21b: 기준 신호 제거부
31,31a,31b: 잡음 스펙트럼 제거부 40: 음성 인식 및 사건 판단부
501: 프리앰프 502: 스테레오 CODEC
503: 버튼 504: CPU
505: 연결장치 506: 플래쉬 메모리
507: 보안칩 508: 전면패널부
509: EEPROM

Claims (11)

  1. 엘리베이터, 네비게이션, 노래방 반주기, 셋톱 박스와 같이 기준 라인 입력 신호를 얻을 수 있는 장비의 잡음 제거 방법에 있어서, 마이크로폰에 입력되는 신호와 스피커로 출력되기 전의 기준 신호를 분석하여 기준 신호만 존재하는 구간을 정확히 추정한 후 그 구간에서 적응 필터의 계수를 갱신하면서 마이크로폰 입력 신호를 적응 필터에 통과시키고, 감쇄 이득을 조절하고, 기준 신호와 목적 신호가 존재하지 않는 환경 잡음만이 존재하는 구간으로 추정된 정보를 이용하여 환경 잡음의 스 펙트럼을 추정한 뒤 적응 필터 출력 신호의 스펙트럼에서 환경 잡음의 스펙트럼을 뺌으로써 화자의 목적 신호만을 추출, 강조하는 방법 및 이를 구현한 시스템.
  2. 마이크로폰에 입력되는 신호와 라인 입력에서 얻은 기준 신호를 분석하는 방법에 있어서, 수학식 7에서 설명된 포락선의 비, 수학식 12에서 설명된 주파수 성분 전력비의 비에 대한 분산, 총 2 가지 방법을 이용하여 기준 신호만이 존재하는 구간을 정확히 판정하는 방법.
  3. 하기의 수학식과 같이 기울기 포락선의 비를 계산한 후 실험적 임계치와 비교하여 기준 신호의 유무를 판별하는 방법.
    기준 신호의 기울기 포락선 Er(n) 를
    Er(n)=envelop{r(n)}=
    Figure 112009045222840-PAT00061
    Er(n-1) + (1-
    Figure 112009045222840-PAT00062
    )|r(n)| 라 하고,
    에코 제거기 출력 신호의 기울기 포락선 Ey(n) 를
    Ey(n)=envelop{x(n)}=
    Figure 112009045222840-PAT00063
    Ey(n-1) + (1-
    Figure 112009045222840-PAT00064
    )|y(n)| 라 하면
    하기의 수학식과 같이 기준 신호와 에코 제거기 출력 신호의 기울기 포락선의 비를 실험적 임계치와 비교하여 목적 신호의 유무를 판정한다.
    Figure 112009045222840-PAT00065
    : 목적 신호 구간
  4. 주파수 성분의 전력비에 대한 비의 분산을 계산하여 실험적 임계치와 비교하여 기준 신호의 유무를 판별하는 방법.
    기준 신호의 각 주파수 대역의 파워를
    Figure 112009045222840-PAT00066
    , 마이크로폰 입력 신호의 각 주파수 대역의 파워를
    Figure 112009045222840-PAT00067
    , 전체 주파수 대역의 파워를 각각 A 와 B 라 하면
    Figure 112009045222840-PAT00068
    ,
    Figure 112009045222840-PAT00069
    로 표시되고,
    Figure 112009045222840-PAT00070
    ,
    Figure 112009045222840-PAT00071
    = 0~2KHz 대역의 파워,
    Figure 112009045222840-PAT00072
    ,
    Figure 112009045222840-PAT00073
    = 2~4 KHz 대역의 파워,
    Figure 112009045222840-PAT00074
    ,
    Figure 112009045222840-PAT00075
    = 4~6 KHz 대역의 파워,
    Figure 112009045222840-PAT00076
    ,
    Figure 112009045222840-PAT00077
    = 6~8 KHz 대역의 파워이다. 전체 파워 A 와 B 에 대한 특정 대역의 전력비는
    Figure 112009045222840-PAT00078
    (기준신호),
    Figure 112009045222840-PAT00079
    (마이크로폰 신호)이고, 기준 신호와 마이크로폰 입력 신호 각각의 전력비에 대한 분산은
    Figure 112009045222840-PAT00080
    과 같이 계산된다. 여기서,
    Figure 112009045222840-PAT00081
    는 장비 및 환경적 요소의 전달 함수를 보상하기 위한 정규화된 가중치로서
    Figure 112009045222840-PAT00082
    의 조건을 만족하며
    Figure 112009045222840-PAT00083
    가 이상적으로 구해졌다면 목적 신호가 없을때는
    Figure 112009045222840-PAT00084
    =0 이 된다. 전력비 분산의 합은 하기의 수학식으로 계산되며 실험적 임계치와 비교하여 목적 신호 구간 여부를 판별하는 방법.
    Figure 112009045222840-PAT00085
    ; 목적 신호 구간
  5. 기준 신호 구간 판정 방법에 의한 정보중 목적 신호가 없다고 추정된 구간에서 기준 신호 및 환경 잡음의 스펙트럼 즉, 마이크로폰 입력 신호의 주파수 성분에 대한 가변 감쇄 이득을 보다 정밀히 추정하여 마이크로폰 입력 신호의 스펙트럼에서 곱함으로써 목적 신호만을 강조하는 방법.
  6. 잡음 구간이라고 추정되는 구간에서 마이크로폰 입력 신호의 주파수 성분의 전력비와 주파수 대역에 따라 특정 곡선의 형태를 갖는 가변 비선형 감쇄 이득을 마이크로폰 입력 신호의 각 주파수 성분에 곱하여 잡음의 스펙트럼을 감소시키는 방법. 즉, 고주파 영역에서는 전력비가 상대적으로 작은 구간에서, 저주파 영역에서는 전력비가 상대적으로 큰 구간에서 특정 곡선의 형태를 갖는 감쇄 이득을 마이크로폰 입력 신호의 주파수 성분에 곱함으로써 전력이 상대적으로 작은 고주파 성분을 보호하는 효과를 얻는다.
  7. 잡음 구간을 추정함에 있어서,
    마이크로폰 입력 신호를 FFT 하여 주파수 영역으로 변환한 뒤, 각 주파수 성분의 긴 평균 전력과 짧은 평균 전력의 비를 계산함에 있어서 긴 평균 전력의 일정 배수보다 큰 프레임의 전력을 제외시키면서 긴 평균 전력
    Figure 112009045222840-PAT00086
    을 계산하고, 짧은 평균 전력
    Figure 112009045222840-PAT00087
    은 주파수 성분 그대로 계산에 참여시켜 그 비
    Figure 112009045222840-PAT00088
    를 구하면 화자가 말을 할때는 비가 크고 잡음 구간에서는 비가 상대적으로 작은 통계적 특성을 이용하여 아래의 수학식과 같이 비의 실험적 임계치
    Figure 112009045222840-PAT00089
    와 비교하여 잡음 구간을 추정하는 방법.
    Figure 112009045222840-PAT00090
    : 잡음 구간
  8. 일정한 전력으로 입력되는 잡음 구간을 추정함에 있어서,
    사람의 말소리는 전력의 변화량이 심하다는 통계적 특징을 이용하여 입력 신호를 N 포인트 FFT 하여 i 번째 프레임에 대한 j 번째 주파수 성분의 전력
    Figure 112009045222840-PAT00091
    에 대하여 특정 프레임(예-40 프레임)동안의 변화량이 실험적 임계치
    Figure 112009045222840-PAT00092
    보다 작을때 잡음 구간이라고 추정하는 방법.
    Figure 112009045222840-PAT00093
    : 잡음 구간
  9. 마이크로폰의 입력 신호에서 기준 신호와 환경 잡음을 제거하는 실시간 에코 및 잡음 제거 시스템에 있어서,
    상기 마이크로폰을 통하여 입력되는 신호와 라인 입력으로 얻어지는 기준 신호로부터 화자의 목적 신호가 없는 구간을 정확히 추정하기 위한 기준 신호 구간 추정기와, 마이크로폰 입력 신호에서 기준 신호를 제거하기 위하여 적응 필터로 구성된 에코 제거부와, 잔여 에코 성분을 제거하기 위한 이득 조절부와, 기준 신호와 화자의 목적 신호가 없는 구간에서 환경 잡음의 스펙트럼을 추정하기 위한 환경 잡음 추정부와, 마이크로폰 입력 신호에서 에코 성분이 제거된 적응 필터의 출력 신호에서 환경 잡음의 스펙트럼을 추정하기 위한 환경 잡음 스펙트럼 추정부와 추정된 환경 잡음 스펙트럼을 제거하기 위한 환경 잡음 스펙트럼 제거부를 포함하는 것을 특징으로 하는 에코 및 잡음 제거 시스템.
  10. 마이크로폰 입력 신호와 기준 신호에 대한 포락선 의 비, 전력비의 비에 대한 분산을 실험적 임계치와 비교함으로써 기준 신호 구간인지를 정확히 추정하는 방법을 특징으로 하는 에코 제거 시스템 및 마이크로폰 입력 신호에 대하여 긴 구간의 전력과 짧은 구간 전력의 비와 마이크로폰 입력 신호 전력의 분산을 실험적 임계치와 비교하여 잡음 구간 및 잡음의 스펙트럼을 추정한 뒤, 마이크로폰 입력 신호를 주파수 영역에서 로그 스케일로 분할한 각 주파수 성분에 스무딩된 감쇄 이득을 곱하는 단채널 잡음 제거 시스템.
  11. 엘리베이터내에서 기준 신호와 환경 잡음이 제거된 목적 신호의 음성 인식을 통하 여 사건 인지 모듈에서 사건으로 판단하면 경고 부저를 울리고 관리실에 알람 신호를 줌으로써, 사람이 카메라를 감시할 필요없이 강력 사건을 사전에 예방하고 초기에 조치할 수 있는, 음성 인식에 의한 사건 자동 인지 엘리베이터 보안 시스템.
KR1020090067601A 2009-07-24 2009-07-24 음성 인식을 이용한 엘리베이터 내의 자동 보안 시스템 및 그 방법 KR20110010179A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090067601A KR20110010179A (ko) 2009-07-24 2009-07-24 음성 인식을 이용한 엘리베이터 내의 자동 보안 시스템 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090067601A KR20110010179A (ko) 2009-07-24 2009-07-24 음성 인식을 이용한 엘리베이터 내의 자동 보안 시스템 및 그 방법

Publications (1)

Publication Number Publication Date
KR20110010179A true KR20110010179A (ko) 2011-02-01

Family

ID=43770752

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090067601A KR20110010179A (ko) 2009-07-24 2009-07-24 음성 인식을 이용한 엘리베이터 내의 자동 보안 시스템 및 그 방법

Country Status (1)

Country Link
KR (1) KR20110010179A (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150053621A (ko) * 2013-11-08 2015-05-18 한국전자통신연구원 영상 회의 시스템에서의 음향 반향 제거 장치 및 방법
WO2017052056A1 (en) * 2015-09-23 2017-03-30 Samsung Electronics Co., Ltd. Electronic device and method of audio processing thereof
WO2021138320A1 (en) * 2019-12-31 2021-07-08 Beijing Didi Infinity Technology And Development Co., Ltd. Real-time verbal harassment detection system
CN114229637A (zh) * 2021-12-03 2022-03-25 北京声智科技有限公司 电梯楼层确定方法、装置、设备及计算机可读存储介质
US11620987B2 (en) 2019-12-31 2023-04-04 Beijing Didi Infinity Technology And Development Co., Ltd. Generation of training data for verbal harassment detection
US11670286B2 (en) 2019-12-31 2023-06-06 Beijing Didi Infinity Technology And Development Co., Ltd. Training mechanism of verbal harassment detection systems
CN116405836A (zh) * 2023-06-08 2023-07-07 安徽声讯信息技术有限公司 一种基于互联网的麦克风调音方法及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150053621A (ko) * 2013-11-08 2015-05-18 한국전자통신연구원 영상 회의 시스템에서의 음향 반향 제거 장치 및 방법
WO2017052056A1 (en) * 2015-09-23 2017-03-30 Samsung Electronics Co., Ltd. Electronic device and method of audio processing thereof
WO2021138320A1 (en) * 2019-12-31 2021-07-08 Beijing Didi Infinity Technology And Development Co., Ltd. Real-time verbal harassment detection system
US11620987B2 (en) 2019-12-31 2023-04-04 Beijing Didi Infinity Technology And Development Co., Ltd. Generation of training data for verbal harassment detection
US11664043B2 (en) 2019-12-31 2023-05-30 Beijing Didi Infinity Technology And Development Co., Ltd. Real-time verbal harassment detection system
US11670286B2 (en) 2019-12-31 2023-06-06 Beijing Didi Infinity Technology And Development Co., Ltd. Training mechanism of verbal harassment detection systems
CN114229637A (zh) * 2021-12-03 2022-03-25 北京声智科技有限公司 电梯楼层确定方法、装置、设备及计算机可读存储介质
CN114229637B (zh) * 2021-12-03 2024-02-27 北京声智科技有限公司 电梯楼层确定方法、装置、设备及计算机可读存储介质
CN116405836A (zh) * 2023-06-08 2023-07-07 安徽声讯信息技术有限公司 一种基于互联网的麦克风调音方法及系统
CN116405836B (zh) * 2023-06-08 2023-09-08 安徽声讯信息技术有限公司 一种基于互联网的麦克风调音方法及系统

Similar Documents

Publication Publication Date Title
KR20110010179A (ko) 음성 인식을 이용한 엘리베이터 내의 자동 보안 시스템 및 그 방법
JP5301526B2 (ja) 音響システムにおけるホイッスリングの検出方法
US8644496B2 (en) Echo suppressor, echo suppressing method, and computer readable storage medium
Sadjadi et al. Hilbert envelope based features for robust speaker identification under reverberant mismatched conditions
US9318125B2 (en) Noise reduction devices and noise reduction methods
EP1973104B1 (en) Method and apparatus for estimating noise by using harmonics of a voice signal
CN110853664B (zh) 评估语音增强算法性能的方法及装置、电子设备
US20080317259A1 (en) Method and apparatus for noise suppression in a small array microphone system
JP2014137405A (ja) 音響処理装置及び音響処理方法
KR102409536B1 (ko) 오디오 디바이스에서 재생 관리를 위한 사건 검출
CN111292758B (zh) 语音活动检测方法及装置、可读存储介质
CN106782586B (zh) 一种音频信号处理方法及装置
US8199928B2 (en) System for processing an acoustic input signal to provide an output signal with reduced noise
KR101250668B1 (ko) Gmm을 이용한 응급 단어 인식 방법
GB2498009A (en) Synchronous noise removal for speech recognition systems
CN110914901A (zh) 言语信号调平
US10438606B2 (en) Pop noise control
US20120265526A1 (en) Apparatus and method for voice activity detection
KR101295727B1 (ko) 적응적 잡음추정 장치 및 방법
US11183172B2 (en) Detection of fricatives in speech signals
US8265937B2 (en) Breathing apparatus speech enhancement using reference sensor
WO2019169272A1 (en) Enhanced barge-in detector
EP3830823A1 (en) Forced gap insertion for pervasive listening
KR20100009936A (ko) 음원 검출 시스템에서 돌발잡음 추정/제거 장치 및 방법
Ngo et al. A flexible speech distortion weighted multi-channel Wiener filter for noise reduction in hearing aids

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application