KR100930060B1 - 신호 검출 방법, 장치 및 그 방법을 실행하는 프로그램이기록된 기록매체 - Google Patents

신호 검출 방법, 장치 및 그 방법을 실행하는 프로그램이기록된 기록매체 Download PDF

Info

Publication number
KR100930060B1
KR100930060B1 KR1020080002768A KR20080002768A KR100930060B1 KR 100930060 B1 KR100930060 B1 KR 100930060B1 KR 1020080002768 A KR1020080002768 A KR 1020080002768A KR 20080002768 A KR20080002768 A KR 20080002768A KR 100930060 B1 KR100930060 B1 KR 100930060B1
Authority
KR
South Korea
Prior art keywords
delta
frame
spectrum information
frequency
mel
Prior art date
Application number
KR1020080002768A
Other languages
English (en)
Other versions
KR20090076683A (ko
Inventor
홍광석
노용완
이규범
Original Assignee
성균관대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 성균관대학교산학협력단 filed Critical 성균관대학교산학협력단
Priority to KR1020080002768A priority Critical patent/KR100930060B1/ko
Priority to US12/040,734 priority patent/US8126668B2/en
Publication of KR20090076683A publication Critical patent/KR20090076683A/ko
Application granted granted Critical
Publication of KR100930060B1 publication Critical patent/KR100930060B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R19/00Arrangements for measuring currents or voltages or for indicating presence or sign thereof
    • G01R19/0007Frequency selective voltage or current level measuring
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R23/00Arrangements for measuring frequencies; Arrangements for analysing frequency spectra
    • G01R23/16Spectrum analysis; Fourier analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명의 일 측면에 따르면 신호 검출 방법이 개시된다. 본 발명의 일 실시예에 따른 신호 검출 방법은 수신된 입력 신호를 일정한 프레임 단위로 분할하고, 제1 프레임 및 제2 프레임에 존재하는 각각의 입력 신호를 주파수 신호로 변환하고, 변환된 주파수 신호로부터 제1 파워 스펙트럼 정보 및 제2 파워 스펙트럼 정보를 산출한 후, 산출된 파워 스펙트럼 정보의 차이에 상응하는 델타 스펙트럼 엔트로피값을 획득하는 델타 스펙트럼 엔트로피값을 획득하여, 델타 스펙트럼 엔트로피값과 임계값을 비교하여, 수신된 입력 신호 중 임의의 프레임에 임의의 입력 신호가 포함되는지 여부를 판단한다. 본 발명에 의하면 델타 스펙트럼 엔트로피값을 이용하여 잡음 신호가 존재하는 잡음 환경에서도 원하는 신호의 검출이 가능한 장점이 있다.
델타 스펙트럼, 델타 스펙트럼 엔트로피, 신호 검출

Description

신호 검출 방법, 장치 및 그 방법을 실행하는 프로그램이 기록된 기록매체{Method, Apparatus for detecting signal and computer readable record-medium on which program for executing method thereof}
본 발명은 델타 스펙트럼 엔트로피를 이용하는 신호 검출 방법에 관한 것으로, 상세하게는 입력 신호로부터 주파수 스펙트럼의 시간 변화 정보를 포함하는 델타 스펙트럼 엔트로피값을 획득하고, 획득한 델타 스펙트럼 엔트로피값을 이용하여 입력 신호 중 목적하는 신호를 검출하는 신호 검출 방법, 장치 및 그 방법을 실행하는 프로그램이 기록된 기록매체에 관한 것이다.
근래에 시간 영역의 입력 신호를 주파수 영역의 신호로 변환하여 처리하는 방법이 일반화되어 있다.
이는 시간 영역에서의 신호 처리가 연산량과 처리 시간을 고려하면 더 효율적이지만 신호의 에너지가 낮은 SNR에서는 성능이 급격히 저하되기 때문이다. 주파수 영역의 신호 처리는 시간 영역에서 나타나지 않는 신호의 주파수 특성을 이용하 여 낮은 SNR에서의 더 나은 성능을 보인다.
또한, 최근에 주파수 영역의 신호로 변환한 입력 신호의 엔트로피값을 이용하여 입력 신호를 처리하는 방법은 다양한 정보 처리 및 신호 처리 분야에 사용되고 있다.
예를 들어, 스펙트럼 엔트로피 정보는 네트워크 트래픽 어노멀리(anomaly) 검출, 지문 분류 및 인식 장치 및 방법, 엔트로피 부호화 복호화, 음성 신호 검출, 신호의 목표 탐지 방법 등 여러 가지 분야에서 사용되고 있다.
예를 들어, 종래 기술의 경우 입력 신호를 이용하여 주파수 영역에서 스펙트럼 추정 정보를 산출한다. 그리고 산출한 스펙트럼 산출 정보에 따라 입력 신호가 사용자가 원하는 신호인지 원치 않는 신호인지 판단하다. 이러한 판단방법이 신호 검출 관련 분야에서 많이 사용되고 있다. 여기서, 정상신호는 사용자가 원하는 신호이며, 비정상 신호는 사용자가 원치 않는 신호(예를 들어, 잡음)이다.
특히, 음성 신호를 사용하는 대다수의 시스템은 주파수 영역에서 음성 신호를 처리한다.
여기서, 종래 기술에 의하면 음성 신호의 주파수 영역에서의 음성 신호 처리에 있어서 통계적 성질과 인간의 청각특성을 이용하여 신호를 검출하는 방법이 제안되어 있다.
이와 같이 주파수 영역에서 수행되는 방법은 음성 신호의 저주파수 성분과 고주파수 성분에 대한 정보를 이용하거나 피치(Pitch) 정보 및 기본 주파수의 정수배의 주파수에 관한 하모닉(Hamonic) 정보를 이용한다.
그러나 이와 같은 방법은 이동통신 기술 등의 발달로 인한 개인용 컴퓨터 이외의 소형화가 가능하고, 이동성 보장이 보장되어야 하는 네비게이션, PDA, 휴대폰 등의 임베디드 환경에서 실시간 처리가 가능해야 하는 기기에는 적용이 어려운 문제점이 있었다.
또한, 입력 신호가 음성 신호인 경우, 종래의 신호 검출 방법은 잡음이 없는 클린 환경에서 검출 성능이 보장되었으나, 백색 잡음이 존재하는 환경에서 종래의 신호 검출 방법은 검출 성능이 현저이 떨어지는 문제점이 있다.
따라서 본 발명은 상술한 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 델타 스펙트럼 엔트로피값을 이용하여 신호 검출이 가능한 신호 검출 방법을 제안하는 것이다.
본 발명의 다른 목적은 임베디드 환경에서 음성 신호를 검출할 수 있는 신호 검출 방법을 제안하는 것이다.
본 발명의 또 다른 목적은 음성 신호에 대하여 백색 잡음 등이 존재하는 잡음 환경에서도 주파수 분석을 통한 효율적인 신호 검출 방법을 제안하는 것이다.
본 발명의 일 측면에 따르면, 신호 검출 방법이 개시된다. 본 발명의 일 실시예에 따른 신호 검출 방법은 (a) 수신된 입력 신호를 프레임 단위로 분할하는 단 계; (b) 제1 프레임 및 제2 프레임에 존재하는 각각의 입력 신호를 주파수 신호로 변환하는 단계; (c) 상기 변환된 주파수 신호를 이용하여 제1 파워 스펙트럼 및 제2 파워 스펙트럼 정보를 산출하는 단계; (d) 상기 산출된 파워 스펙트럼 정보의 차이에 상응하는 델타 스펙트럼 엔트로피값을 획득하는 단계; 및 (e) 상기 델타 스펙트럼 엔트로피값과 임계값을 비교하여, 상기 입력 신호 중 임의의 프레임에 임의의 입력 신호가 포함되는지 여부를 판단하는 단계를 포함한다.
상기 (a) 단계는, (a-1) 상기 입력 신호를 윈도우(Window) 처리를 통해 프레임 단위로 분할하는 단계인 것을 특징으로 할 수 있다.
상기 (b) 단계에서, 상기 변환은 고속 푸리에 변환(Fast Fourier Transform)을 이용하는 것을 특징으로 할 수 있다.
상기 (d) 단계는, (d-1) 상기 제1 파워 스펙트럼 정보 및 상기 제2 파워 스펙트럼 정보 간의 차이값인 델타 스펙트럼 정보를 산출하는 단계; (d-2) 상기 산출된 델타 스펙트럼 정보를 정규화하는 단계; 및 (d-3) 상기 정규화된 델타 스펙트럼 정보로부터 상기 델타 스펙트럼 엔트로피값을 획득하는 단계인 것을 특징으로 할 수 있다.
상기 델타 스펙트럼 정보는,
Figure 112008001951660-pat00001
을 통하여 산출되는 것을 특징으로 하되, 상기
Figure 112008001951660-pat00002
는 n번째 프레임의 i번째 주파수 성분에 해당하는 델타 스펙트럼 정보이고, 상기
Figure 112008001951660-pat00003
는 n번째 프레임의 i번째 주파수 성분에 해당하는 파워 스펙트럼 정보이며, 상기
Figure 112008001951660-pat00004
는 n+1번째 프레임의 i번째 주파수 성분에 해당하는 파워 스펙트럼 정보인 것을 특징으로 할 수 있다.
상기 (d-2) 단계에서, 상기 산출된 델타 스펙트럼은
Figure 112008001951660-pat00005
을 통하여 정규화되는 것을 특징으로 하되, 상기
Figure 112008001951660-pat00006
는 n번째 프레임의 i번째 주파수 성분에 해당하는 정규화된 델타 스펙트럼 정보이고, 상기
Figure 112008001951660-pat00007
은 n번째 프레임의 i번째 주파수 성분에 해당하는 델타 스펙트럼 정보이고, 상기
Figure 112008001951660-pat00008
은 n번째 프레임의 m번째 샘플에 해당하는 델타 스펙트럼 정보이며, 상기 M은 하나의 프레임에 포함되는 샘플 개수인 것을 특징으로 할 수 있다.
상기 델타 스펙트럼 엔트로피값은,
Figure 112008001951660-pat00009
을 통하여 획득되는 것을 특징으로 하되, 상기
Figure 112008001951660-pat00010
는 n번째 프레임의 델타 스펙트럼 엔트로피값이고, 상기
Figure 112008001951660-pat00011
는 n번째 프레임의 i번째 주파수 성분에 해당하는 정규화된 델타 스펙트럼 정보이고, 상기 M은 하나의 프레임에 포함되는 샘플 개수인 것을 특징으로 할 수 있다.
상기 (e) 단계는, e-1) 상기 산출된 델타 스펙트럼 엔트로피값 및 상기 임계값을 비교하는 단계; 및 (e-2) 상기 비교 결과, 상기 산출된 델타 스펙트럼 엔트로피값이 상기 임계값을 초과하는 경우, 상기 제1 프레임에 상응하는 입력 신호를 검출 신호로 판단하는 단계를 포함하는 것을 특징으로 할 수 있다.
상기 제1 프레임 및 상기 제2 프레임은, 상기 분할된 프레임 중 시간 순서에 따라 순차적으로 선정되고, 상기 (b) 단계 내지 (e) 단계는 선정된 제1 프레임 및 제2 프레임마다 반복적으로 수행되는 것을 특징으로 할 수 있다.
상기 (d) 단계는, (d-4) 상기 델타 스펙트럼 엔트로피값과 미리 설정된 기준값을 비교하는 단계를 더 포함하되, 상기 (e) 단계는 상기 비교 결과, 상기 델타 스펙트럼 엔트로피값이 상기 기준값을 초과하는 경우에만 수행되는 것을 특징으로 할 수 있다.
상기 (d) 단계는, (d-5) 상기 제1 파워 스펙트럼 정보 및 제2 파워 스펙트럼 정보로부터 제1 멜-주파수 필터뱅크(Mel-Frequency FilterBank; MFB) 스펙트럼 정보 및 제2 멜-주파수 필터뱅크 스펙트럼 정보를 생성하는 단계; (d-6) 상기 생성된 제1 멜-주파수 필터뱅크 스펙트럼 정보 및 제2 멜-주파수 필터뱅크 스펙트럼 정보로부터 델타 스펙트럼 엔트로피값을 획득하는 단계를 포함하되, 상기 입력 신호는 음성 입력 신호인 것을 특징으로 할 수 있다.
상기 (a) 단계는, (a-3) 상기 입력 신호를 고주파 영역을 강조하는 프리엠퍼시스 필터(Preemphasis Filter)를 통하여 필터링하는 단계; 및 (a-4) 상기 필터링된 입력 신호를 해밍 윈도우(Hamming Window) 처리를 통해 일정한 프레임 단위로 분할하는 단계를 포함하는 것을 특징으로 할 수 있다.
상기 (d-5) 단계에서, 상기 멜-주파수 필터뱅크 스펙트럼 정보는
Figure 112008001951660-pat00012
를 통하여 생성되는 것을 특징으로 하되, 상기
Figure 112008001951660-pat00013
는 n번째 프레임의 b번째 멜-주파수 필터에 해당하는 델타 멜-주파수 필터뱅크 스펙트럼 정 보이고, 상기
Figure 112008001951660-pat00014
는 b번째 멜-주파수 필터의 i번째 주파수 성분에 적용되는 가중치이고, 상기
Figure 112008001951660-pat00015
는 n번째 프레임의 i번째 주파수 성분에 해당하는 파워 스펙트럼 정보이며, 상기
Figure 112008001951660-pat00016
는 b번째 멜-주파수 필터의 시작(start)-주파수이고, 상기
Figure 112008001951660-pat00017
는 b번째 멜-주파수 필터의 끝(end)-주파수인 것을 특징으로 할 수 있다.
상기 (d-6) 단계는, (d-7) 상기 제1 멜-주파수 필터뱅크 스펙트럼 정보 및 상기 제2 멜-주파수 필터뱅크 정보를 이용하여 델타 스펙트럼 정보를 산출하는 단계; (d-8) 상기 산출된 델타 스펙트럼 정보를 정규화하는 단계; 및 (d-9) 상기 정규화된 델타 스펙트럼 정보로부터 상기 델타 스펙트럼 엔트로피값을 획득하는 단계를 포함하는 것을 특징으로 할 수 있다.
상기 (d-7) 단계에서, 상기 델타 스펙트럼 정보는
Figure 112008001951660-pat00018
을 통하여 산출되는 것을 특징으로 하되, 상기
Figure 112008001951660-pat00019
는 b번째 멜-주파수 필터의 i번째 주파수 성분에 해당하는 델타 스펙트럼 정보이고, 상기
Figure 112008001951660-pat00020
는 n번째 프레임에 b번째 멜-주파수 필터에 따른 멜-주파수 필터뱅크 스펙트럼 정보이며, 상기
Figure 112008001951660-pat00021
는 n+1번째 프레임에 b번째 멜-주파수 필터에 따른 해당하는 멜-주파수 필터뱅크 스펙트럼 정보인 것을 특징으로 할 수 있다.
상기 (d-8) 단계에서, 상기 산출된 델타 스펙트럼 정보는
Figure 112008001951660-pat00022
을 통하여 정규화되는 것을 특징으로 하되, 상기
Figure 112008001951660-pat00023
는 n번째 프레임에 b번째 멜-주파수 필터에 따른 상기 정규화된 델타 스펙트럼 정보이고, 상기
Figure 112008001951660-pat00024
는 n+1번째 프레임에 b번째 멜-주파수 필터에 따른 해당하는 멜- 주파수 필터뱅크 스펙트럼 정보이고, 상기
Figure 112008001951660-pat00025
는 n번째 프레임의 m번째 샘플에 해당하는 델타 스펙트럼 정보이며, 상기
Figure 112008001951660-pat00026
는 멜-주파수 필터의 개수인 것을 특징으로 할 수 있다.
상기 (d-9) 단계에서, 상기 델타 스펙트럼 엔트로피값은
Figure 112008001951660-pat00027
을 통하여 획득되는 것을 특징으로 하되, 상기
Figure 112008001951660-pat00028
는 n번째 프레임에 해당하는 상기 델타 스펙트럼 엔트로피값이고, 상기
Figure 112008001951660-pat00029
는 n번째 프레임에 b번째 멜-주파수 필터에 따른 상기 정규화된 델타 스펙트럼 정보이고, 상기
Figure 112008001951660-pat00030
는 멜-주파수 필터의 개수인 것을 특징으로 할 수 있다.
상기 (e) 단계는, (e-1) 상기 산출된 델타 스펙트럼 엔트로피값 및 상기 미리 설정된 임계값을 비교하는 단계; 및 (e-2) 상기 비교 결과, 상기 산출된 델타 스펙트럼 엔트로피값이 상기 임계값을 초과하는 경우, 상기 제1 프레임에 존재하는 입력 신호를 음성 신호로 판단하는 단계를 포함하는 것을 특징으로 할 수 있다.
상기 제1 프레임 및 상기 제2 프레임은, 상기 분할된 프레임 중 시간 순서에 따라 순차적으로 선정되고, 상기 (b) 단계 내지 (e) 단계는 선정된 제1 프레임 및 제2 프레임마다 반복적으로 수행되는 것을 특징으로 할 수 있다.
상기 (d) 단계는, (d-10) 상기 델타 스펙트럼 엔트로피값과 미리 설정된 기준값을 비교하는 단계를 더 포함하되, 상기 (e) 단계는 상기 비교 결과, 상기 델타 스펙트럼 엔트로피값이 상기 기준값을 초과하는 경우에만 수행되는 것을 특징으로 할 수 있다.
본 발명의 다른 측면에 따르면 신호 검출 장치가 개시된다. 본 발명의 다른 일 실시예에 따른 신호 검출 장치는 수신된 입력 신호를 프레임 단위로 분할하는 분할부; 제1 프레임 및 제2 프레임에 존재하는 입력 신호를 주파수 신호로 변환하는 변환부; 상기 변환된 주파수 신호를 이용하여 제1 파워 스펙트럼 및 제2 파워 스펙트럼 정보를 산출하는 산출부; 상기 산출된 파워 스펙트럼 정보의 차이에 상응하는 델타 스펙트럼 엔트로피값을 획득하는 획득부; 및 상기 델타 스펙트럼 엔트로피값과 임계값을 비교하여, 상기 입력 신호 중 임의의 프레임에 임의의 입력 신호가 포함되는지 여부를 판단하는 판단부를 포함한다.
상기 획득부는, 상기 제1 파워 스펙트럼 정보 및 상기 제2 파워 스펙트럼 정보 간의 차이값인 델타 스펙트럼 정보를 산출하고, 상기 산출된 델타 스펙트럼 정보를 정규화하며, 상기 정규화된 델타 스펙트럼 정보로부터 상기 델타 스펙트럼 엔트로피값을 획득하는 것을 특징으로 할 수 있다.
상기 판단부는, 상기 산출된 델타 스펙트럼 엔트로피값 및 상기 미리 설정된 임계값을 비교하고, 상기 비교 결과, 상기 산출된 델타 스펙트럼 엔트로피값이 상기 임계값을 초과하는 경우, 상기 제1 프레임에 상응하는 입력 신호를 검출 신호로 판단하는 것을 특징으로 할 수 있다.
상기 획득부는, 상기 제1 파워 스펙트럼 정보 및 제2 파워 스펙트럼 정보로부터 제1 멜-주파수 필터뱅크(Mel-Frequency FilterBank; MFB) 스펙트럼 정보 및 제2 멜-주파수 필터뱅크 스펙트럼 정보를 생성하는 멜-주파수 필터뱅크부; 및 상기 생성된 제1 멜-주파수 필터뱅크 스펙트럼 정보 및 제2 멜-주파수 필터뱅크 스펙트럼 정보로부터 델타 스펙트럼 엔트로피값을 획득하는 델타 스펙트럼 엔트로피부를 포함하되, 상기 입력 신호는 음성 입력 신호인 것을 특징으로 할 수 있다.
제24항에 있어서, 상기 델타 스펙트럼 엔트로피부는, 상기 제1 멜-주파수 필터뱅크 스펙트럼 정보 및 상기 제2 멜-주파수 필터뱅크 정보를 이용하여 델타 스펙트럼 정보를 산출하고, 상기 산출된 델타 스펙트럼 정보를 정규화하여, 상기 정규화된 델타 스펙트럼 정보로부터 상기 델타 스펙트럼 엔트로피값을 획득하는 것을 특징으로 할 수 있다.
상기 판단부는, 상기 산출된 델타 스펙트럼 엔트로피값 및 상기 미리 설정된 임계값을 비교하고, 비교 결과, 상기 산출된 델타 스펙트럼 엔트로피값이 상기 임계값을 초과하는 경우, 상기 제1 프레임에 존재하는 입력 신호를 음성 신호로 판단하는 것을 특징으로 할 수 있다.
본 발명의 또 다른 측면에 따르면, 신호 검출 방법을 실행하는 프로그램이 기록된 기록매체가 개시된다. 본 발명의 다른 일 실시예에 따른 신호 검출 방법을 실행하는 프로그램이 기록된 기록매체는 (a) 수신된 입력 신호를 프레임 단위로 분할하는 단계; (b) 제1 프레임 및 제2 프레임에 존재하는 각각의 입력 신호를 주파수 신호로 변환하는 단계; (c) 상기 변환된 주파수 신호를 이용하여 제1 파워 스펙트럼 및 제2 파워 스펙트럼 정보를 산출하는 단계; (d) 상기 산출된 파워 스펙트럼 정보의 차이에 상응하는 델타 스펙트럼 엔트로피값을 획득하는 델타 스펙트럼 엔트 로피값을 획득하는 단계; 및 (e) 상기 델타 스펙트럼 엔트로피값과 임계값을 비교하여, 상기 입력 신호 중 임의의 프레임에 임의의 입력 신호가 포함되는지 여부를 판단하는 단계를 포함하는 신호 검출 방법을 수행하기 위해 디지털 처리 장치에 의해 실행될 수 있는 명령어들의 프로그램이 유형적으로 구현되어 있으며, 상기 디지털 처리 장치에 의해 판독될 수 있는 프로그램이 기록된 기록매체이다.
따라서 본 발명은 델타 스펙트럼 엔트로피값을 이용하여 적은 연산량으로 신호 검출이 가능한 효과가 있다.
또한, 본 발명은 음성 신호의 경우, 임베디드 환경에서도 적용이 가능하며, 백색 잡음 등의 잡음을 효과적으로 제거할 수 있는 효과도 있다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제2, 제1 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제2 구성요소는 제1 구성요소로 명명될 수 있고, 유사하게 제1 구성요소도 제2 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 대응하는 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
우선, 도 1을 참조하여, 본 발명의 일 실시예에 따른 신호 검출 장치의 구성을 살펴보기로 한다.
도 1은 본 발명의 일 실시예에 따른 신호 검출 장치(110)의 구성을 설명하기 위한 블록도이다.
도 1을 참조하면 신호 검출 장치(110)는 통신부(120), 분할부(130), 변환부(140), 산출부(150), 획득부(160), 판단부(170) 및 저장부(180)를 포함할 수 있다.
통신부(120)는 신호 검출 장치와 외부의 장치간 데이터 송수신 등의 통신을 수행한다. 본 발명에서 통신부(120)는 입력 신호를 수신한다. 또한, 통신부(120)는 검출된 신호를 다른 외부 장치로 전송할 수 있으며, 데이터 송수신 및 관련 제어 신호의 송수신을 수행할 수 있다.
분할부(130)는 수신된 입력 신호를 일정한 프레임 단위로 분할한다.
보다 상세하게는, 분할부(130)는 윈도우 처리를 통하여 수신된 입력 신호를 소정의 단위시간으로 분할할 수 있다. 여기서, 분할부(130)는 분할된 각각의 입력 신호를 프레임 단위로 구성할 수 있다. 윈도우 처리에 대해서는 이후 상세히 설명한다.
예를 들어, 입력 신호가 음성 신호인 경우, 분할부(130)는 입력 신호를 프리엠퍼시스 필터(Preemphasis Filter)를 통하여 필터링(Filtering)하고, 필터링된 입력 신호를 해밍 윈도우(Hamming Window) 처리를 통해 일정한 프레임 단위로 분할할 수 있다.
여기서, 프리엠퍼시스 필터는 (S/N), , 일그러짐 특성을 개선하기 위해 전송 에서 소정의 부분을 송신 측에서 사전에 강조하는 것이다.
본 발명의 실시예에 따르면 프리엠퍼시스 필터는 수신된 음성 입력 신호의 고주파 영역을 강조하기 위하여 이용될 수 있다. 예를 들어, 인간 음성 신호는 옥타브당 6dB의 손실이 있다. 프리엠퍼시스 필터는 손실된 6dB를 보상한다.
해밍 윈도우 처리는 입력 신호를 소정의 단위로 분할하는 윈도우 처리의 일종이다. 특히, 해밍 윈도우 처리 방법은 미리 설정된 해밍 계수를 입력 신호의 각각의 함수값에 곱하고 그 후에 윈도우 처리를 수행하는 방법이다. 여기서, 해밍 윈도우 처리 방법은 입력 신호를 일정한 프레임으로 분할함으로써 생기는 불연속을 보완할 수 있는 방법이다. 보다 상세하게는 입력 신호는 다수의 프레임으로 나뉜다. 여기서, 프레임의 양끝값은 연속하는 프레임의 끝값과 불연속일 수 있다. 해밍 윈도우는 발생한 불연속을 줄이기 위해 각 프레임의 양끝값이 0에 가까운 값이 되 도록 윈도우 처리를 수행하는 것이다.
변환부(140)는 윈도우 처리에 의하여 분할된 프레임에 존재하는 각각의 입력 신호를 주파수 영역의 신호로 변환할 수 있다. 여기서, 변환부(140)는 고속 푸리에 변환(Fast Fourier Transform; FFT)를 이용하여 시간 영역의 입력 신호를 주파수 영역으로 변환할 수 있다.
이때, 고속 푸리에 변환은 시간 영역의 신호를 주파수 영역의 신호로 변환하는 방법으로 구체적인 알고리즘은 당업자에게 널리 알려진 것이므로 본 발명의 이해의 명확성과 설명의 편의를 위해 본 명세서에서 상세한 생략하기로 한다.
산출부(150)는 변환된 주파수 신호(즉, 시간 영역의 입력신호가 주파수 영역의 신호로 변환된 신호)로부터 각각의 프레임에 대한 파워 스펙트럼 정보를 산출한다.
본 발명의 실시예에 따르면, 하나의 프레임에는 여러 개의 주파수 성분의 신호가 포함될 수 있다. 이때, 산출부(150)는 각각의 주파수 성분에 해당하는 크기값(즉 절대값)의 제곱을 통해 파워 스펙트럼 정보를 산출할 수 있다.
획득부(160)는 산출된 파워 스펙트럼 정보로부터 델타 스펙트럼 엔트로피값을 획득한다. 상세하게는 획득부(160)는 산출부(150)에 의하여 산출된 각각의 프레임에 해당하는 파워 스펙트럼 정보 중 2개의 프레임에 해당하는 파워 스펙트럼 정보를 선정한다.
획득부(160)는 선정된 2개의 파워 스펙트럼 정보(즉 제1 파워 스펙트럼 정보 및 제2 파워 스펙트럼 정보)의 차이를 이용하여 델타 스펙트럼 엔트로피값을 획득 할 수 있다.
여기서, 선정된 2개의 파워 스펙트럼은 신호 검출을 위한 프레임(제1 프레임)과 제1 프레임의 이전 프렘임일 수 있다. 예를 들어, 획득부(160)는 n번째 프레임을 선정하고, n+1번째 프레임을 제1 프레임 및 제2 프레임으로 선정할 수 있다.
이와 같이, 획득부(160)는 선정된 연속하는 두개의 프레임의 파워 스펙트럼 차이를 이용하여 델타 스펙트럼 엔트로피를 획득할 수 있다.
이후 획득부(160)는 산출된 델타 스펙트럼 정보를 정규화하고, 정규화된 델타 스펙트럼 정보로부터 델타 스펙트럼 엔트로피값을 획득할 수 있다.
또한, 본 발명의 또 다른 일 실시예(입력 신호가 음성 입력 신호인 경우)에 따르면, 획득부(160)는 멜-주파수 필터뱅크부(161) 및 델타 스펙트럼 엔트로피부(162)를 포함할 수 있다.
멜-주파수 필터뱅크부(161)는 하나 이상의 멜-주파수 필터를 포함하는 멜-주파수 필터뱅크를 이용하여 각각의 프레임(예를 들어, 제1 및 제2 프레임)에서 산출된 제1 및 제2 파워 스펙트럼 정보 각각에 해당하는 멜-주파수 필터뱅크 스펙트럼 정보를 생성할 수 있다.
여기서, 멜-주파수 필터뱅크 스펙트럼은 산출된 파워 스펙트럼 정보를 하나 이상의 멜-주파수 필터를 적용하여 생성된 결과 정보이다. 멜-주파수 필터뱅크에 관한 구체적인 내용은 도 4의 설명에서 예를 들어 더 자세히 살펴보기로 한다.
델타 스펙트럼 엔트로피부(162)는 생성된 멜-주파수 필터뱅크 스펙트럼 정보들로부터 델타 스펙트럼 엔트로피값을 획득할 수 있다.
판단부(170)는 획득된 델타 스펙트럼 엔트로피값과 미리 설정된 임계값을 비교하여, 해당 프레임에 상응하는 입력 신호가 검출 신호인지 여부를 판단할 수 있다.
여기서, 검출 신호는 입력 신호의 종류에 따라 다르게 판단될 수 있다.
예를 들어, 입력 신호가 음성 신호인 경우를 가정하자. 수신되는 입력 신호는 실제 음성 신호와 잡음 신호가 혼재되어 있을 수 있다. 여기서, 본 발명의 실시예에 따르면, 특정 정보를 포함하지 않은 신호(잡음 신호만 존재하는 신호)가 수신되는 경우에는 델타 스펙트럼 엔트로피값이 크지 않을 것이며, 실제 음성 신호가 수신되는 경우에는 델타 스펙트럼 엔트로피값이 증가한다.
따라서, 음성 신호가 수신되는 경우, 판단부(170)는 델타 스펙트럼 엔트로피값이 임계값을 초과하면 해당 프레임에 존재하는 신호는 잡음 신호가 아닌 음성 신호로 판단할 수 있다.
또 다른 예를 들면, 입력 신호가 네트워크 트래픽 신호인 경우를 가정하자. 판단부(170)는 정상적인 상태(트래픽이 과도하지 않은 상태)에는 델타 스펙트럼 엔트로피값이 낮고, 비정상적인 상태(트래픽이 급격히 증가하는 상태)에는 델타 스펙트럼 엔트로피값이 높다.
따라서 판단부(170)는 델타 스펙트럼 엔트로피값이 임계값을 초과하면 해당 네트워크로부터 수신하는 신호는 과도한 트래픽 상태의 신호임을 판단할 수 있다.
저장부(180)는 신호 검출 장치(110)의 구현을 위한 모든 정보 및 입력 신호 정보를 저장할 수 있다. 특히, 본 발명에서는 미리 설정된 임계값 및/또는 윈도우 정보(해밍 윈도우 정보 포함) 등을 포함할 수 있다.
본 명세서에서는 각각의 구성부(통신부, 분할부 등)가 구분되는 것으로 설명하였으나, 본 발명은 이에 한정되지 아니하고, 본 발명이 구현됨에 있어서 모든 또는 일부 구성부가 하나의 프로그램이 저장 및 실행되는 모듈로 구현될 수 있음은 당업자에게 자명하다.
지금까지 도 1을 참조하여 본 발명의 일 실시예에 따른 신호 검출 장치(110)의 구성과 각 구성부의 기능에 대해 설명하였다. 이하, 도 2 및 도 3을 참조하여 본 발명의 제1 및 제2 실시예에 따른 신호 검출 방법에 관하여 설명하기로 한다.
도 2는 본 발명의 제1 실시예에 따른 신호 검출 방법을 설명하기 위한 순서도이다.
신호 검출 장치(110)는 입력 신호를 수신하고, 수신된 입력 신호 중에서 잡음을 제거하고 음성 신호를 검출하거나, 입력 신호의 상태가 변화하는 신호(과도한 트래픽이 발생하는 신호)를 감지하는 등 목적하는 신호를 검출할 수 있다.
단계 S210에서, 신호 검출 장치(110)는 수신된 입력 신호를 일정한 프레임 단위로 분할한다.
이때, 신호 검출 장치(110)는 입력 신호를 윈도우 처리를 통하여 분할할 수 있다. 여기서, 윈도우 처리는 입력 신호를 일정한 크기의 프레임 단위로 나누는 것이다. 예를 들어, 입력 신호가 하나의 시간에 대한 함수로 정의된다고 가정하자. 윈도우 처리는 입력 신호의 함수값에 시간이 1부터 4까지는 1을 곱하고, 나머지 구 간에 0을 곱하여 하나의 프레임을 생성할 수 있다. 윈도우 처리는 이러한 과정(1과 0을 곱하는 과정)을 다양한 구간에 적용함으로써, 입력 신호를 복수 개의 프레임으로 분할 할 수 있다.
이어서, 단계 S220에서 신호 검출 장치(110)는 생성된 프레임에 존재하는 입력 신호를 주파수 신호로 변환한다. 이때, 생성된 프레임은 하나 이상이며, 신호 검출 장치(110)는 각각의 프레임에 존재하는 입력 신호를 주파수 신호로 변환할 수 있다. 이 때, 신호 검출 장치(110)는 고속 푸리에 변환(Fast Fourier Transform)을 이용하여 주파수 신호로의 변환을 수행할 수 있다.
이에 대해 보다 세부적으로 설명하면, 고속 푸리에 변환이 수행된 주파수 신호는 하기의 수학식 1을 통하여 얻어질 수 있다.
[수학식 1]
Figure 112008001951660-pat00031
여기서,
Figure 112008001951660-pat00032
은 n번째 프레임의 i번째 주파수 성분에 해당하는 고속 푸리에 변환이 수행된 주파수 신호이며,
Figure 112008001951660-pat00033
은 n번째 프레임의 m번째 샘플에 해당하는 입력 신호이다. 또한, M은 시간 영역의 한 프레임의 샘플 개수를 나타내며, N은 입력 신호의 주기를 의미한다. k는 상수로서 여러 개의 각속도가 필요하다는 의미이다.
이어서, 단계 S230에서 신호 검출 장치(110)는 고속 푸리에 변환을 통해 얻어진 주파수 신호로부터 파워 스펙트럼(각각의 프레임별로)을 산출한다.
신호 검출 장치(110)는 제1 프레임의 입력 신호를 변환하여 얻어진 주파수 신호로부터 제1 파워 스펙트럼 정보를 산출하고, 제2 프레임의 입력 신호를 변환하여 얻어진 주파수 신호로부터 제2 파워 스펙트럼 정보를 산출할 수 있다.
보다 상세하게는, 하기의 수학식 2를 통하여 파워 스펙트럼 정보를 산출하는 방법을 설명하도록 한다.
[수학식 2]
Figure 112008001951660-pat00034
=
Figure 112008001951660-pat00035
여기서,
Figure 112008001951660-pat00036
는 n번째 프레임의 i번째 주파수 성분에 해당하는 파워 스펙트럼 정보이고,
Figure 112008001951660-pat00037
는 상술한 바와 같이, n번째 프레임의 i번째 주파수 성분에 해당하는 고속 푸리에 변환이 수행된 주파수 신호이다.
따라서, 본 발명의 실시예에 따르면 파워 스펙트럼 정보는 해당 주파수 신호의 절대값을 제곱하여 산출될 수 있다.
단계 S240에서, 신호 검출 장치(110)는 산출된 제1 파워 스펙트럼 정보 및 제2 파워 스펙트럼 정보를 이용하여 델타 스펙트럼 정보를 산출할 수 있다. 여기서, 델타 스펙트럼 정보는 시간 변화(시간차) 정보가 반영된 정보이다.
델타 스펙트럼 정보는 하기의 수학식 3을 통하여 산출될 수 있다.
[수학식 3]
Figure 112008001951660-pat00038
여기서,
Figure 112008001951660-pat00039
는 n번째 프레임의 i번째 주파수 성분에 해당하는 델타 스펙 트럼 정보이고,
Figure 112008001951660-pat00040
는 n번째 프레임의 i번째 주파수 성분에 해당하는 파워 스펙트럼 정보이며,
Figure 112008001951660-pat00041
는 n+1번째 프레임의 i번째 주파수 성분에 해당하는 파워 스펙트럼 정보이다.
상기의 수학식 3에 따르면, 델타 스펙트럼 정보는 제1 파워 스펙트럼 정보에서 제2 파워 스펙트럼 정보를 뺄셈을 하여 산출될 수 있다. 여기서, 제2 파워 스펙트럼 정보는 제1 파워 스펙트럼 정보의 이후 프레임에 해당하는 파워 스펙트럼 정보일 수 있다.
이어서, 단계 S250에서 신호 검출 장치(110)는 산출된 델타 스펙트럼 정보를 정규화할 수 있다.
신호 검출 장치(110)는 델타 스펙트럼 정보를 하기의 수학식 4에 따라 정규화할 수 있다.
[수학식 4]
Figure 112008001951660-pat00042
Figure 112008001951660-pat00043
는 n번째 프레임의 i번째 주파수 성분에 해당하는 정규화된 델타 스펙트럼 정보이고,
Figure 112008001951660-pat00044
은 상술한 바와 같이, n번째 프레임의 i번째 주파수 성분에 해당하는 델타 스펙트럼 정보이고,
Figure 112008001951660-pat00045
은 n번째 프레임의 m번째 샘플에 해당하는 델타 스펙트럼 정보이며, 상기 M은 하나의 프레임에 포함되는 샘플 개수이다.
이어서, 단계 S260에서 신호 검출 장치(110)는 정규화된 델타 스펙트럼 정보 로부터 델타 스펙트럼 엔트로피값을 획득할 수 있다.
본 발명은 상술한 바와 같이, 실시간 처리와 임베디드 시스템에 적용 가능한 신호 검출을 위하여 시간 변화 정보를 이용한다. 따라서 파워 스펙트럼 정보로부터 획득된 엔트로피값이 아닌 델타 스펙트럼 정보로부터 획득된 델타 스펙트럼 엔트로피값을 이용하여 신호를 검출한다.
여기서, 델타 스펙트럼 엔트로피값은 하기의 수학식 5를 통하여 획득될 수 있다.
[수학식 5]
Figure 112008001951660-pat00046
Figure 112008001951660-pat00047
는 n번째 프레임의 델타 스펙트럼 엔트로피값이고,
Figure 112008001951660-pat00048
는 상술한 바와 같이, n번째 프레임의 i번째 주파수 성분에 해당하는 정규화된 델타 스펙트럼 정보이고, M은 하나의 프레임에 포함되는 샘플 개수이다.
이어서, 단계 S270 및 단계 S280에서, 신호 검출 장치(110)는 획득된 델타 스펙트럼 엔트로피값과 미리 설정된 임계값을 비교한다. 신호 검출 장치(110)는 비교 결과, 획득된 델타 스펙트럼 엔트로피값이 미리 설정된 임계값을 초과하는 경우에, 초과된 델타 스펙트럼 엔트로피값에 해당하는 프레임에 존재하는 이상 신호 또는 음성 신호 등을 검출할 수 있다.
예를 들어, 입력 신호가 네트워크 트래픽 신호인 경우를 가정하면, 델타 스펙트럼 엔트로피값이 미리 설정된 임계값을 초과하는 경우에 신호 검출 장치(110) 는 해당 프레임에 존재하는 입력 신호가 과도한 트래픽을 나타내는 신호로 판단하고, 해당 입력 신호를 검출할 수 있다.
신호 검출 장치(110)는 델타 스펙트럼 엔트로피값이 미리 설정된 임계값 이하인 경우에는 해당 프레임에 잡음이 많다고 판단하고, 소정의 입력 신호를 검출하지 않을 수 있다.
또한, 신호 검출 장치(110)는 분할된 모든 프레임에 존재하는 입력 신호마다 상술한 단계 S220 내지 단계 S280을 반복적으로 수행할 수 있다. 신호 검출 장치(110)는 모든 프레임마다 상술한 단계를 반복적으로 수행하여 수신된 입력 신호에서 필요한 모든 신호를 검출할 수 있다.
예를 들어, 신호 검출 장치(110)는 입력 신호를 100개의 프레임으로 분할한 경우를 가정하자. 신호 검출 장치(110)는 모든 프레임의 입력 신호를 주파수 신호로 변환할 수 있다. 이후, 신호 검출 장치(110)는 첫번째 프레임과 두번째 프레임에 대하여, 단계 S230 내지 단계 S280을 수행할 수 있다. 따라서, 신호 검출 장치(110)는 첫번째 프레임에 존재하는 입력 신호가 원하는 신호인지 여부를 판단할 수 있다.
그리고 신호 검출 장치(110)는 두번째 프레임과 세번째 프레임에 대하여 단계 S230 내지 단계 S280을 수행할 수 있다. 따라서, 신호 검출 장치(110)는 두번째 프레임에 존재하는 입력 신호가 원하는 신호인지 여부를 판단할 수 있다.
이와 같이, 신호 검출 장치(110)는 100개의 프레임에 대하여 99번의 델타 스펙트럼 엔트로피를 산출할 수 있다. 따라서 신호 검출 장치(110)는 수신된 입력 신 호가 사용자가 원하는 입력 신호인지 여부를 판단하고, 사용자가 원하는 입력 신호를 검출할 수 있다.
하지만, 신호 검출 장치(110)는 일부 주파수 계수나 일부 멜-주파수 필터 대역을 선정하여 선정된 주파수 계수나 멜-주파수 필터 대역에 대해서만 단계 S220 내지 단계 S280을 반복적으로 수행할 수도 있다. 신호 검출 장치(110)는 일부 주파수 계수나 일부 멜-주파수 필터 대역에 대해서만 상술한 단계들을 수행하여 연산량을 최소화하고, 신호 검출 효율을 높일 수 있다. 이에 따라 본 발명의 신호 검출 장치(110)는 실시간 신호 검출이 가능하다.
이 경우, 신호 검출 장치(110)는 임의의 프레임을 선정할 수도 있고, 혹은 델타 스펙트럼 정보가 일정 기준치에 해당하는 프레임만 선정할 수 있다.
일부 프레임의 선정은 수신된 입력 신호에 적합한 방법을 다양하게 설정될 수 있다.
도 3은 본 발명의 제2 실시예에 따른 신호 검출 방법을 설명하기 위한 순서도이다.
본 발명의 제2 실시예는 입력 신호가 음성 입력 신호인 경우이며, 여기서, 음성 입력 신호는 음성 신호 및 잡음 신호를 포함할 수 있다. 신호 검출 장치(110)는 잡음 제거를 위해 수신된 음성 입력 신호에서 음성 신호를 검출할 수 있다.
단계 S301에서, 신호 검출 장치(110)는 수신된 음성 입력 신호를 프리엠퍼시스 필터(Preemphasis Filter)로 필터링(Filterimg)을 수행할 수 있다. 여기서, 프 리엠퍼시스 필터는 고주파 영역을 강조하는 필터이다. 인간 음성 신호는 발성시 옥타브당 6dB의 손실이 있다. 신호 검출 장치(110)는 손실된 6dB를 보상하기 위해 프리엠퍼시스 필터를 이용할 수 있다.
이어서, 단계 S302에서 신호 검출 장치(110)는 프리엠퍼시스 필터를 이용하여 필터링된 입력 신호를 해밍 윈도우(Hamming Window) 처리를 통해 일정한 프레임 단위로 분할할 수 있다.
해밍 윈도우 처리는 상술한 윈도우 처리 중 하나로서, 윈도우 처리 수행 전에 해밍 계수를 곱하는 것이다.
해밍 윈도우 처리는 윈도우 처리 이전에 해밍 계수를 프리엠퍼시스 필터로 필터링된 입력 신호에 곱함으로써, 윈도우 처리로 인한 프레임 사이의 불연속을 완화할 수 있다.
이어서, 단계 S303 및 단계 S304에서 신호 검출 장치(110)는 해당 프레임에 존재하는 음성 입력 신호를 주파수 신호로 변환하고(도 2의 단계 220참조), 변환된 주파수 신호의 파워 스펙트럼 정보를 산출한다.
파워 스펙트럼 정보를 산출하는 단계(단계 S304)까지는 도 2에서 상술한 단계 S220 및 단계 S230과 유사하므로 본 발명의 이해의 명확성과 편의를 위해 자세한 설명은 생략하기로 한다.
이어서, 단계 S305에서 신호 검출 장치(110)는 산출된 파워 스펙트럼 정보를 이용하여 멜-주파수 필터뱅크(Mel-Frequency FilterBank; MFB) 스펙트럼 정보를 생성할 수 있다.
여기서, 멜-주파수 필터뱅크는 파워 스펙트럼 정보를 멜-스케일로 변환하는 것이며, 멜-주파수 필터뱅크 스펙트럼 정보를 멜-스케일로 변환된 파워 스펙트럼 정보일 수 있다.
신호 검출 장치(110)는 산출된 제1 파워 스펙트럼 정보로부터 제1 멜-주파수 필터뱅크 스펙트럼 정보를 생성할 수 있고, 산출된 제2 파워 스펙트럼 정보로부터 제2 멜-주파수 필터뱅크 스펙트럼 정보를 생성할 수 있다.
여기서, 멜-주파수 필터뱅크는 음성 인식의 특징 추출 방식에서 사용된다. 왜냐하면 사람이 주관적으로 인지하는 주파수 특성은 멜-스케일에 적합하기 때문이다. 여기서, 인간의 음성 인지 특성은 일반적으로 낮은 주파수에서 민감하게 반응을 하고 높은 주파수에서 둔한 반응을 보이는 것을 말한다.
이를 반영하여 주파수를 멜-스케일로 변환하여 필터 뱅크를 비선형적으로 분포하게 하는 멜-주파수 필터뱅크를 이용한 음성 인식 방식이 주로 이용되고 있다.
멜-주파수 필터뱅크의 동작에 대해서는 도 4의 설명에서 더 자세히 살펴보기로 한다.
멜-주파수 필터뱅크 스펙트럼 정보는 하기의 수학식 6을 통하여 생성될 수 있다.
[수학식 6]
Figure 112008001951660-pat00049
여기서,
Figure 112008001951660-pat00050
는 n번째 프레임의 b번째 멜-주파수 필터에 해당하는 델타 멜-주파수 필터뱅크 스펙트럼 정보이고,
Figure 112008001951660-pat00051
는 b번째 멜-주파수 필터의 i번째 주파수 성분에 적용되는 가중치이다. 또한,
Figure 112008001951660-pat00052
는 n번째 프레임의 i번째 주파수 성분에 해당하는 파워 스펙트럼 정보이며,
Figure 112008001951660-pat00053
는 b번째 멜-주파수 필터의 시작(start)-주파수이고,
Figure 112008001951660-pat00054
는 b번째 멜-주파수 필터의 끝(end)-주파수이다.
이어서, 단계 S306에서 신호 검출 장치(110)는 멜-주파수 필터뱅크 스펙트럼 정보를 이용하여 델타 스펙트럼 정보를 산출할 수 있다.
본 발명은 시간 변화 정보를 포함하는 델타 스펙트럼 정보를 이용하여 신호 검출을 수행한다. 따라서 본 발명은 적은 연산량으로 신호를 검출할 수 있는 효과가 있음은 상술한 바와 같다.
여기서, 델타 스펙트럼 정보는 하기의 수학식 7을 통하여 산출될 수 있다.
[수학식 7]
Figure 112008001951660-pat00055
여기서,
Figure 112008001951660-pat00056
는 b번째 멜-주파수 필터의 n번째 주파수 성분에 해당하는 델타 스펙트럼 정보이고,
Figure 112008001951660-pat00057
는 n번째 프레임에 b번째 멜-주파수 필터에 따른 멜-주파수 필터뱅크 스펙트럼 정보이며,
Figure 112008001951660-pat00058
는 n+1번째 프레임에 b번째 멜-주파수 필터에 따른 해당하는 멜-주파수 필터뱅크 스펙트럼 정보이다.
상기 수학식에 따르면, 본 발명의 제2 실시예에 따른 델타 스펙트럼 정보는 제1 멜-주파수 필터뱅크 스펙트럼 정보와 제2 멜-주파수 필터뱅크 스펙트럼 정보의 차이에 의해 산출될 수 있다.
이어서, 단계 S307 및 단계 S308에서 신호 검출 장치(110)는 델타 스펙트럼 정보를 정규화하고, 정규화된 델타 스펙트럼 정보로부터 델타 스펙트럼 엔트로피값을 획득할 수 있다.
여기서, 델타 스펙트럼의 정규화 및 델타 스펙트럼 엔트로피값의 획득은 하기의 수학식 8 및 수학식 9에 따라 수행될 수 있다.
[수학식 8]
Figure 112008001951660-pat00059
[수학식 9]
Figure 112008001951660-pat00060
수학식 8 및 9에서,
Figure 112008001951660-pat00061
는 n번째 프레임에 b번째 멜-주파수 필터에 따른 정규화된 델타 스펙트럼 정보이다. 또한,
Figure 112008001951660-pat00062
는 n+1번째 프레임에 b번째 멜-주파수 필터에 따른 해당하는 멜-주파수 필터뱅크 스펙트럼 정보이고,
Figure 112008001951660-pat00063
는 n번째 프레임의 m번째 샘플에 해당하는 델타 스펙트럼 정보이다. 그리고
Figure 112008001951660-pat00064
는 멜-주파수 필터의 개수이다.
또한,
Figure 112008001951660-pat00065
는 n번째 프레임에 해당하는 상기 델타 스펙트럼 엔트로피값이다.
신호 검출 장치(110)는 상기의 수학식을 통하여 시간 변화 정보를 포함하는 델타 스펙트럼 엔트로피값을 획득할 수 있다.
이어서, 단계 S309에서 신호 검출 장치(110)는 획득된 델타 스펙트럼 엔트로피값과 미리 설정된 임계값을 비교한다. 그리고, 단계 S310에서, 신호 검출 장치(110)는 비교 결과, 획득된 델타 스펙트럼 엔트로피값이 미리 설정된 임계값을 초과하는 경우에, 델타 스펙트럼 엔트로피값에 해당하는 프레임에 존재하는 입력 신호를 음성 신호로 판단할 수 있다. 이때, 사용자가 음성 신호 검출을 원하는 경우, 사용자는 해당 입력 신호를 검출할 수 있다.
단계 S311에서, 신호 검출 장치(110)는 비교 결과, 획득된 델타 스펙트럼 엔트로피값이 미리 설정된 임계값 이하인 경우에, 델타 스펙트럼 엔트로피값에 해당하는 프레임에 존재하는 입력 신호를 잡음 신호로 판단할 수 있다.
또한, 상술한 바와 같이, 신호 검출 장치(110)는 분할된 모든 프레임에 존재하는 입력 신호마다 상술한 단계 S303 내지 단계 S311을 반복적으로 수행할 수 있다. 신호 검출 장치(110)는 모든 프레임마다 상술한 단계를 반복적으로 수행하여 수신된 입력 신호에서 모든 음성 신호를 검출할 수 있다.
상술한 예와 같이, 입력 신호가 100개의 프레임으로 분할된 경우, 신호 검출 장치(110)는 연속하는 두 개의 프레임을 제1 프레임 및 제2 프레임으로 선정할 수 있다.
그 후, 신호 검출 장치(110)는 99개의 쌍으로 이뤄진 프레임에 대하여 상술한 단계 S304 내지 단계 S308을 반복적으로 수행할 수 있다.
이에 따라, 신호 검출 장치(110)는 99개의 델타 스펙트럼 엔트로피값을 산출할 수 있다. 따라서, 신호 검출 장치(110)는 산출된 99개의 델타 스펙트럼 엔트로피값을 각각 임계값과 비교할 수 있다. 신호 검출 장치(110)는 각각의 비교 결과에 따라 수신된 입력 신호 중에서 사용자가 원하는 입력 신호(예를 들어, 음성 신호)를 검출할 수 있다.
하지만, 신호 검출 장치(110)는 일부 프레임만 선정하여 선정된 프레임만 단계 S303 내지 단계 S311을 반복적으로 수행할 수도 있다. 신호 검출 장치(110)는 일부 프레임에 대해서만 상술한 단계들을 수행하여 연산량을 최소화하고, 음성 신호 검출 효율을 높일 수 있다. 이에 따라 본 발명의 신호 검출 장치(110)는 실시간 음성 신호 검출이 가능하다.
이 경우, 신호 검출 장치(110)는 임의의 프레임을 선정할 수도 있고, 혹은 델타 스펙트럼 정보가 일정 기준치에 해당하는 프레임만 선정할 수 있다.
일부 프레임의 선정은 수신된 입력 신호에 적합한 방법을 다양하게 설정될 수 있다.
지금까지 도 2 및 도 3을 참조하여 본 발명의 일 실시예에 따른 신호 검출 방법에 대하여 설명하였다. 이하, 도 4를 참조하여 본 발명의 일 실시예에 따른 멜-주파수 필터뱅크에 관하여 설명하기로 한다.
도 4는 본 발명의 일 실시예에 따른 멜-주파수 필터뱅크에 대해 설명하기 위한 도면이다.
멜-주파수 필터뱅크는 음성 인식의 특징 추출을 위해 이용된다. 사람의 청각은 주파수에 선형적으로 반응하지 않고, 특정 주파수에는 민감하고, 특정 주파수에는 둔감하다.
이와 같이, 멜-스케일은 비선형적인 인간의 청각이 느끼는, 인간의 청각에 적합한 주파수 스케일이다.
하기의 수학식 10은 실제 주파수인 선형 주파수(Linear frequency)을 멜-스케일 주파수 신호로 변환하는 함수식이다.
[수학식 10]
Figure 112008001951660-pat00066
여기서,
Figure 112008001951660-pat00067
은 멜-스케일로 표현된 주파수 신호이고, f는 선형 주파수 신호이다.
상기의 수학식 10을 통하여 실제 선형 주파수를 인간의 청각에 적합한 멜-스케일 주파수 신호로 변환할 수 있다.
도 4를 참조하면, 멜-주파수 필터뱅크의 시작점, 끝점, 중심 주파수를 포함하는 테이블(410)이 예시되어 있다.
예를 들어, fc[1]로 명칭된 필터는 중심 주파수가 65.9219이고, 시작점은 0, 끝점은 125이다. 또한, fc[5]로 명칭된 필터는 중심 주파수가 397.818이고, 시작점은 281.25, 끝점은 500이다.
이와 같이, 멜-주파수 필터뱅크는 비선형적 주파수 스케일로서, 인간의 청각 에 적합한 주파수 스케일이다.
따라서, 수신된 입력 신호가 음성 입력 신호인 경우인 본 발명의 제2 실시예는 멜-주파수 필터뱅크를 이용하여 정확하고 효율으로 음성 신호를 검출할 수 있다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.
예를 들어, 컴퓨터가 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등을 포함할 수 있다.
또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함할 수 있다.
또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
<도면의 주요부분에 대한 부호의 설명>
110: 신호 검출 장치 120: 통신부
130: 분할부 140: 변환부
150: 산출부 160: 획득부
161: 멜주파수 필터뱅크부 162: 델타 스펙트럼 엔트로피부
170: 판단부 180: 저장부
410: 멜-주파수 필터뱅크 관련 테이블

Claims (27)

  1. 신호 검출 장치가 주파수 스펙트럼 정보를 이용하여 신호를 검출하는 방법에 있어서,
    (a) 수신된 입력 신호를 프레임 단위로 분할하는 단계;
    (b) 제1 프레임 및 제2 프레임에 존재하는 각각의 입력 신호를 주파수 신호로 변환하는 단계;
    (c) 상기 변환된 주파수 신호를 이용하여 제1 파워 스펙트럼 및 제2 파워 스펙트럼 정보를 산출하는 단계;
    (d) 상기 산출된 파워 스펙트럼 정보의 차이에 상응하는 델타 스펙트럼 엔트로피값을 획득하는 단계; 및
    (e) 상기 델타 스펙트럼 엔트로피값과 임계값을 비교하여, 상기 입력 신호 중 임의의 프레임에 임의의 입력 신호가 포함되는지 여부를 판단하는 단계를 포함하는 신호 검출 방법.
  2. 제1항에 있어서,
    상기 (a) 단계는,
    (a-1) 상기 입력 신호를 윈도우(Window) 처리를 통해 프레임 단위로 분할하는 단계인 것을 특징으로 하는 신호 검출 방법.
  3. 제1항에 있어서,
    상기 (b) 단계에서,
    상기 변환은 고속 푸리에 변환(Fast Fourier Transform)을 이용하는 것을 특징으로 하는 신호 검출 방법.
  4. 제1항에 있어서,
    상기 (d) 단계는,
    (d-1) 상기 제1 파워 스펙트럼 정보 및 상기 제2 파워 스펙트럼 정보 간의 차이값인 델타 스펙트럼 정보를 산출하는 단계;
    (d-2) 상기 산출된 델타 스펙트럼 정보를 정규화하는 단계; 및
    (d-3) 상기 정규화된 델타 스펙트럼 정보로부터 상기 델타 스펙트럼 엔트로피값을 획득하는 단계인 것을 특징으로 하는 신호 검출 방법.
  5. 제4항에 있어서,
    상기 델타 스펙트럼 정보는,
    Figure 112008001951660-pat00068
    을 통하여 산출되는 것을 특징으로 하되,
    상기
    Figure 112008001951660-pat00069
    는 n번째 프레임의 i번째 주파수 성분에 해당하는 델타 스펙트럼 정보이고, 상기
    Figure 112008001951660-pat00070
    는 n번째 프레임의 i번째 주파수 성분에 해당하는 파워 스펙트럼 정보이며, 상기
    Figure 112008001951660-pat00071
    는 n+1번째 프레임의 i번째 주파수 성분에 해당하는 파워 스펙트럼 정보인 것을 특징으로 하는 신호 검출 방법.
  6. 제4항에 있어서,
    상기 (d-2) 단계에서,
    상기 산출된 델타 스펙트럼은
    Figure 112008001951660-pat00072
    을 통하여 정규화되는 것을 특징으로 하되,
    상기
    Figure 112008001951660-pat00073
    는 n번째 프레임의 i번째 주파수 성분에 해당하는 정규화된 델타 스펙트럼 정보이고, 상기
    Figure 112008001951660-pat00074
    은 n번째 프레임의 i번째 주파수 성분에 해당하는 델타 스펙트럼 정보이고, 상기
    Figure 112008001951660-pat00075
    은 n번째 프레임의 m번째 샘플에 해당하는 델타 스펙트럼 정보이며, 상기 M은 하나의 프레임에 포함되는 샘플 개수인 것을 특징으로 하는 신호 검출 방법.
  7. 제4항에 있어서,
    상기 델타 스펙트럼 엔트로피값은,
    Figure 112008001951660-pat00076
    을 통하여 획득되는 것을 특징으로 하되,
    상기
    Figure 112008001951660-pat00077
    는 n번째 프레임의 델타 스펙트럼 엔트로피값이고, 상기
    Figure 112008001951660-pat00078
    는 n번째 프레임의 i번째 주파수 성분에 해당하는 정규화된 델타 스펙트럼 정보이고, 상기 M은 하나의 프레임에 포함되는 샘플 개수인 것을 특징으로 하는 신호 검출 방법.
  8. 제1항에 있어서,
    상기 (e) 단계는,
    (e-1) 상기 산출된 델타 스펙트럼 엔트로피값 및 상기 임계값을 비교하는 단계; 및
    (e-2) 상기 비교 결과, 상기 산출된 델타 스펙트럼 엔트로피값이 상기 임계값을 초과하는 경우, 상기 제1 프레임에 상응하는 입력 신호를 검출 신호로 판단하는 단계를 포함하는 것을 특징으로 하는 신호 검출 방법.
  9. 제1항에 있어서,
    상기 제1 프레임 및 상기 제2 프레임은,
    상기 분할된 프레임 중 시간 순서에 따라 순차적으로 선정되고,
    상기 (b) 단계 내지 (e) 단계는 선정된 제1 프레임 및 제2 프레임마다 반복적으로 수행되는 것을 특징으로 하는 신호 검출 방법.
  10. 제9항에 있어서,
    상기 (d) 단계는,
    (d-4) 상기 델타 스펙트럼 엔트로피값과 상기 임계값을 비교하는 단계를 더 포함하되,
    상기 (e) 단계는 상기 비교 결과, 상기 델타 스펙트럼 엔트로피값이 상기 임계값을 초과하는 경우에만 수행되는 것을 특징으로 하는 신호 검출 방법.
  11. 제1항에 있어서,
    상기 (d) 단계는,
    (d-5) 상기 제1 파워 스펙트럼 정보 및 제2 파워 스펙트럼 정보로부터 제1 멜-주파수 필터뱅크(Mel-Frequency FilterBank; MFB) 스펙트럼 정보 및 제2 멜-주파수 필터뱅크 스펙트럼 정보를 생성하는 단계;
    (d-6) 상기 생성된 제1 멜-주파수 필터뱅크 스펙트럼 정보 및 제2 멜-주파수 필터뱅크 스펙트럼 정보로부터 델타 스펙트럼 엔트로피값을 획득하는 단계를 포함하되,
    상기 입력 신호는 음성 입력 신호인 것을 특징으로 하는 신호 검출 방법.
  12. 제11항에 있어서,
    상기 (a) 단계는,
    (a-3) 상기 입력 신호를 고주파 영역을 강조하는 프리엠퍼시스 필터(Preemphasis Filter)를 통하여 필터링하는 단계; 및
    (a-4) 상기 필터링된 입력 신호를 해밍 윈도우(Hamming Window) 처리를 통해 일정한 프레임 단위로 분할하는 단계를 포함하는 것을 특징으로 하는 신호 검출 방법.
  13. 제11항에 있어서,
    상기 (d-5) 단계에서,
    상기 멜-주파수 필터뱅크 스펙트럼 정보는
    Figure 112008001951660-pat00079
    를 통하여 생성되는 것을 특징으로 하되,
    상기
    Figure 112008001951660-pat00080
    는 n번째 프레임의 b번째 멜-주파수 필터에 해당하는 델타 멜-주파수 필터뱅크 스펙트럼 정보이고, 상기
    Figure 112008001951660-pat00081
    는 b번째 멜-주파수 필터의 i번째 주파수 성분에 적용되는 가중치이고, 상기
    Figure 112008001951660-pat00082
    는 n번째 프레임의 i번째 주파수 성분에 해당하는 파워 스펙트럼 정보이며, 상기
    Figure 112008001951660-pat00083
    는 b번째 멜-주파수 필터의 시작(start)-주파수이고, 상기
    Figure 112008001951660-pat00084
    는 b번째 멜-주파수 필터의 끝(end)-주파수인 것을 특징으로 하는 신호 검출 방법.
  14. 제11항에 있어서,
    상기 (d-6) 단계는,
    (d-7) 상기 제1 멜-주파수 필터뱅크 스펙트럼 정보 및 상기 제2 멜-주파수 필터뱅크 정보를 이용하여 델타 스펙트럼 정보를 산출하는 단계;
    (d-8) 상기 산출된 델타 스펙트럼 정보를 정규화하는 단계; 및
    (d-9) 상기 정규화된 델타 스펙트럼 정보로부터 상기 델타 스펙트럼 엔트로피값을 획득하는 단계를 포함하는 것을 특징으로 하는 신호 검출 방법.
  15. 제14항에 있어서,
    상기 (d-7) 단계에서,
    상기 델타 스펙트럼 정보는
    Figure 112008001951660-pat00085
    을 통하여 산출되는 것을 특징으로 하되,
    상기
    Figure 112008001951660-pat00086
    는 b번째 멜-주파수 필터의 i번째 주파수 성분에 해당하는 델타 스펙트럼 정보이고, 상기
    Figure 112008001951660-pat00087
    는 n번째 프레임에 b번째 멜-주파수 필터에 따른 멜-주파수 필터뱅크 스펙트럼 정보이며, 상기
    Figure 112008001951660-pat00088
    는 n+1번째 프레임에 b번째 멜-주파수 필터에 따른 해당하는 멜-주파수 필터뱅크 스펙트럼 정보인 것을 특징으로 하는 신호 검출 방법.
  16. 제14항에 있어서,
    상기 (d-8) 단계에서,
    상기 산출된 델타 스펙트럼 정보는
    Figure 112008001951660-pat00089
    을 통하여 정규화되는 것을 특징으로 하되,
    상기
    Figure 112008001951660-pat00090
    는 n번째 프레임에 b번째 멜-주파수 필터에 따른 상기 정규화된 델타 스펙트럼 정보이고, 상기
    Figure 112008001951660-pat00091
    는 n+1번째 프레임에 b번째 멜-주파수 필터에 따른 해당하는 멜-주파수 필터뱅크 스펙트럼 정보이고, 상기
    Figure 112008001951660-pat00092
    는 n번째 프레임의 m번째 샘플에 해당하는 델타 스펙트럼 정보이며, 상기
    Figure 112008001951660-pat00093
    는 멜-주파수 필터의 개수인 것을 특징으로 하는 신호 검출 방법.
  17. 제14항에 있어서,
    상기 (d-9) 단계에서,
    상기 델타 스펙트럼 엔트로피값은
    Figure 112008001951660-pat00094
    을 통하여 획득되는 것을 특징으로 하되,
    상기
    Figure 112008001951660-pat00095
    는 n번째 프레임에 해당하는 상기 델타 스펙트럼 엔트로피값이고, 상기
    Figure 112008001951660-pat00096
    는 n번째 프레임에 b번째 멜-주파수 필터에 따른 상기 정규화된 델타 스펙트럼 정보이고, 상기
    Figure 112008001951660-pat00097
    는 멜-주파수 필터의 개수인 것을 특징으로 하는 신호 검출 방법.
  18. 제11항에 있어서,
    상기 (e) 단계는,
    (e-1) 상기 산출된 델타 스펙트럼 엔트로피값 및 상기 미리 설정된 임계값을 비교하는 단계; 및
    (e-2) 상기 비교 결과, 상기 산출된 델타 스펙트럼 엔트로피값이 상기 임계값을 초과하는 경우, 상기 제1 프레임에 존재하는 입력 신호를 음성 신호로 판단하는 단계를 포함하는 것을 특징으로 하는 신호 검출 방법.
  19. 제11항에 있어서,
    상기 제1 프레임 및 상기 제2 프레임은,
    상기 분할된 프레임 중 시간 순서에 따라 순차적으로 선정되고,
    상기 (b) 단계 내지 (e) 단계는 선정된 제1 프레임 및 제2 프레임마다 반복적으로 수행되는 것을 특징으로 하는 신호 검출 방법.
  20. 제19항에 있어서,
    상기 (d) 단계는,
    (d-10) 상기 델타 스펙트럼 엔트로피값과 상기 임계값을 비교하는 단계를 더 포함하되,
    상기 (e) 단계는 상기 비교 결과, 상기 델타 스펙트럼 엔트로피값이 상기 임계값을 초과하는 경우에만 수행되는 것을 특징으로 하는 신호 검출 방법.
  21. 주파수 스펙트럼 정보를 이용하여 신호를 검출하는 신호 검출 장치에 있어서,
    수신된 입력 신호를 프레임 단위로 분할하는 분할부;
    제1 프레임 및 제2 프레임에 존재하는 입력 신호를 주파수 신호로 변환하는 변환부;
    상기 변환된 주파수 신호를 이용하여 제1 파워 스펙트럼 및 제2 파워 스펙트럼 정보를 산출하는 산출부;
    상기 산출된 파워 스펙트럼 정보의 차이에 상응하는 델타 스펙트럼 엔트로피값을 획득하는 획득부; 및
    상기 델타 스펙트럼 엔트로피값과 임계값을 비교하여, 상기 입력 신호 중 임의의 프레임에 임의의 입력 신호가 포함되는지 여부를 판단하는 판단부를 포함하는 신호 검출 장치.
  22. 제21항에 있어서,
    상기 획득부는,
    상기 제1 파워 스펙트럼 정보 및 상기 제2 파워 스펙트럼 정보 간의 차이값 인 델타 스펙트럼 정보를 산출하고,
    상기 산출된 델타 스펙트럼 정보를 정규화하며,
    상기 정규화된 델타 스펙트럼 정보로부터 상기 델타 스펙트럼 엔트로피값을 획득하는 것을 특징으로 하는 신호 검출 장치.
  23. 제21항에 있어서,
    상기 판단부는,
    상기 산출된 델타 스펙트럼 엔트로피값 및 상기 미리 설정된 임계값을 비교하고, 상기 비교 결과, 상기 산출된 델타 스펙트럼 엔트로피값이 상기 임계값을 초과하는 경우, 상기 제1 프레임에 상응하는 입력 신호를 검출 신호로 판단하는 것을 특징으로 하는 신호 검출 장치.
  24. 제21항에 있어서,
    상기 획득부는,
    상기 제1 파워 스펙트럼 정보 및 제2 파워 스펙트럼 정보로부터 제1 멜-주파수 필터뱅크(Mel-Frequency FilterBank; MFB) 스펙트럼 정보 및 제2 멜-주파수 필터뱅크 스펙트럼 정보를 생성하는 멜-주파수 필터뱅크부; 및
    상기 생성된 제1 멜-주파수 필터뱅크 스펙트럼 정보 및 제2 멜-주파수 필터 뱅크 스펙트럼 정보로부터 델타 스펙트럼 엔트로피값을 획득하는 델타 스펙트럼 엔트로피부를 포함하되,
    상기 입력 신호는 음성 입력 신호인 것을 특징으로 하는 신호 검출 장치.
  25. 제24항에 있어서,
    상기 델타 스펙트럼 엔트로피부는,
    상기 제1 멜-주파수 필터뱅크 스펙트럼 정보 및 상기 제2 멜-주파수 필터뱅크 정보를 이용하여 델타 스펙트럼 정보를 산출하고,
    상기 산출된 델타 스펙트럼 정보를 정규화하여, 상기 정규화된 델타 스펙트럼 정보로부터 상기 델타 스펙트럼 엔트로피값을 획득하는 것을 특징으로 하는 신호 검출 장치.
  26. 제24항에 있어서,
    상기 판단부는,
    상기 산출된 델타 스펙트럼 엔트로피값 및 상기 미리 설정된 임계값을 비교하고, 비교 결과, 상기 산출된 델타 스펙트럼 엔트로피값이 상기 임계값을 초과하는 경우, 상기 제1 프레임에 존재하는 입력 신호를 음성 신호로 판단하는 것을 특징으로 하는 신호 검출 장치.
  27. 제 1항 내지 제 20항 중 어느 한 항에 기재된 상호 인증 방법을 수행하기 위해 디지털 처리 장치에 의해 실행될 수 있는 명령어들의 프로그램이 유형적으로 구현되어 있으며, 상기 디지털 처리 장치에 의해 판독될 수 있는 프로그램이 기록된 기록매체.
KR1020080002768A 2008-01-09 2008-01-09 신호 검출 방법, 장치 및 그 방법을 실행하는 프로그램이기록된 기록매체 KR100930060B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020080002768A KR100930060B1 (ko) 2008-01-09 2008-01-09 신호 검출 방법, 장치 및 그 방법을 실행하는 프로그램이기록된 기록매체
US12/040,734 US8126668B2 (en) 2008-01-09 2008-02-29 Signal detection using delta spectrum entropy

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080002768A KR100930060B1 (ko) 2008-01-09 2008-01-09 신호 검출 방법, 장치 및 그 방법을 실행하는 프로그램이기록된 기록매체

Publications (2)

Publication Number Publication Date
KR20090076683A KR20090076683A (ko) 2009-07-13
KR100930060B1 true KR100930060B1 (ko) 2009-12-08

Family

ID=40845263

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080002768A KR100930060B1 (ko) 2008-01-09 2008-01-09 신호 검출 방법, 장치 및 그 방법을 실행하는 프로그램이기록된 기록매체

Country Status (2)

Country Link
US (1) US8126668B2 (ko)
KR (1) KR100930060B1 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8930185B2 (en) * 2009-08-28 2015-01-06 International Business Machines Corporation Speech feature extraction apparatus, speech feature extraction method, and speech feature extraction program
JP5732976B2 (ja) 2011-03-31 2015-06-10 沖電気工業株式会社 音声区間判定装置、音声区間判定方法、及びプログラム
KR101287613B1 (ko) * 2012-05-31 2013-07-19 서강대학교산학협력단 식별코드 스캔 확인 시스템 및 그 제어 방법
US20140170574A1 (en) * 2012-12-17 2014-06-19 Exxonmobil Research And Engineering Company Flame instability detector
CN106645856B (zh) * 2017-01-03 2019-04-05 电子科技大学 基于奇异谱熵的数字示波器异常信号检测方法及系统
CN107369458B (zh) * 2017-07-07 2019-09-24 西南交通大学 一种基于熵吸引的最大熵子带回声消除方法
CN107527622B (zh) * 2017-07-07 2019-09-24 西南交通大学 一种基于最大熵的变步长符号子带回声消除方法
CN107871510B (zh) * 2017-07-07 2019-11-26 西南交通大学 一种零吸引变核宽度的最大熵回声消除方法
CN107578782B (zh) * 2017-07-07 2019-09-24 西南交通大学 一种变核宽度的最大熵子带回声消除方法
CN108877830B (zh) * 2018-05-31 2019-09-24 西南交通大学 基于连续混合最大熵的回声消除方法
IT201900016328A1 (it) * 2019-09-13 2021-03-13 Elenos S R L Metodo per la misurazione e la visualizzazione del rapporto segnale/rumore audio
CN113409806B (zh) * 2021-01-28 2023-12-22 合肥工业大学 一种基于反正切函数的零吸引回声消除方法
CN113866705A (zh) * 2021-08-27 2021-12-31 威胜集团有限公司 谐波校正方法、装置、电能计量设备及可读存储介质
CN115854269A (zh) * 2021-09-24 2023-03-28 中国石油化工股份有限公司 泄漏孔喷流噪声识别方法、装置、电子设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3452443B2 (ja) * 1996-03-25 2003-09-29 三菱電機株式会社 騒音下音声認識装置及び騒音下音声認識方法
JP4201470B2 (ja) * 2000-09-12 2008-12-24 パイオニア株式会社 音声認識システム
US7146316B2 (en) * 2002-10-17 2006-12-05 Clarity Technologies, Inc. Noise reduction in subbanded speech signals
JP3913771B2 (ja) * 2004-07-23 2007-05-09 松下電器産業株式会社 音声識別装置、音声識別方法、及びプログラム
US20060100866A1 (en) * 2004-10-28 2006-05-11 International Business Machines Corporation Influencing automatic speech recognition signal-to-noise levels
US7680657B2 (en) * 2006-08-15 2010-03-16 Microsoft Corporation Auto segmentation based partitioning and clustering approach to robust endpointing
US7812241B2 (en) * 2006-09-27 2010-10-12 The Trustees Of Columbia University In The City Of New York Methods and systems for identifying similar songs

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Renevey et al. "Entropy based voice activity detection in very noisy conditions", In: EUROSPEECH 2001, pp.1887-1890

Also Published As

Publication number Publication date
US20090177423A1 (en) 2009-07-09
KR20090076683A (ko) 2009-07-13
US8126668B2 (en) 2012-02-28

Similar Documents

Publication Publication Date Title
KR100930060B1 (ko) 신호 검출 방법, 장치 및 그 방법을 실행하는 프로그램이기록된 기록매체
US9047878B2 (en) Speech determination apparatus and speech determination method
CA2786803C (en) Method and apparatus for multi-sensory speech enhancement
US20240233739A1 (en) Linear prediction analysis device, method, program, and storage medium
US20120136655A1 (en) Speech processing apparatus and speech processing method
US8392176B2 (en) Processing of excitation in audio coding and decoding
CN1997988B (zh) 在音频编码过程中根据mdct数据进行视窗类型判定的方法
KR100930061B1 (ko) 신호 검출 방법 및 장치
CN101460998A (zh) 音频信号的线性预测编码
US9076446B2 (en) Method and apparatus for robust speaker and speech recognition
US11335355B2 (en) Estimating noise of an audio signal in the log2-domain
US20230267947A1 (en) Noise reduction using machine learning
KR102204975B1 (ko) 심층 신경망 기반 음성인식 방법 및 그 장치
US7305339B2 (en) Restoration of high-order Mel Frequency Cepstral Coefficients
US10083705B2 (en) Discrimination and attenuation of pre echoes in a digital audio signal
US20060178881A1 (en) Method and apparatus for detecting voice region
CN102169694A (zh) 生成心理声学模型的方法及装置
KR100766170B1 (ko) 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법
JP4760179B2 (ja) 音声特徴量算出装置およびプログラム
JP7152112B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
WO2013140733A1 (ja) 帯域パワー算出装置及び帯域パワー算出方法
Cao et al. Voice activity detection algorithm based on entropy in noisy environment
JP2006113298A (ja) オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体
CN118098255A (zh) 基于神经网络检测的语音增强方法及其相关装置
KR0171004B1 (ko) Samdf를 이용한 기본 주파수와 제1포만트의 비율 측정방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120917

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20131007

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee