KR101800425B1 - 비명 검출 방법 및 이를 위한 장치 - Google Patents

비명 검출 방법 및 이를 위한 장치 Download PDF

Info

Publication number
KR101800425B1
KR101800425B1 KR1020160013423A KR20160013423A KR101800425B1 KR 101800425 B1 KR101800425 B1 KR 101800425B1 KR 1020160013423 A KR1020160013423 A KR 1020160013423A KR 20160013423 A KR20160013423 A KR 20160013423A KR 101800425 B1 KR101800425 B1 KR 101800425B1
Authority
KR
South Korea
Prior art keywords
section
signal
predetermined
screaming
fft
Prior art date
Application number
KR1020160013423A
Other languages
English (en)
Other versions
KR20170092280A (ko
Inventor
이선정
Original Assignee
세이퍼웨이 모바일, 인코퍼레이트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 세이퍼웨이 모바일, 인코퍼레이트 filed Critical 세이퍼웨이 모바일, 인코퍼레이트
Priority to KR1020160013423A priority Critical patent/KR101800425B1/ko
Priority to US16/075,169 priority patent/US10468049B2/en
Priority to PCT/KR2016/003006 priority patent/WO2017135507A1/ko
Publication of KR20170092280A publication Critical patent/KR20170092280A/ko
Application granted granted Critical
Publication of KR101800425B1 publication Critical patent/KR101800425B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • G06Q50/265Personal security, identity or safety
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • G06F17/142Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/937Signal energy in various frequency bands
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Discrete Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Alarm Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Development Economics (AREA)
  • Computer Security & Cryptography (AREA)

Abstract

수집된 오디오신호 중 미리 결정된 시간 길이를 갖는 윈도우에 의해 선택된 윈도우신호가 사람의 비명에 해당하는 신호를 포함하는지 여부를 결정하는 비명여부 판단방법으로서, 'FFT신호' 및 'S-FFT신호'를 생성하는 단계, 상기 S-FFT신호 중 미리 결정된 제5기준값을 갖는 지점의 개수가 미리 결정된 제3조건을 만족하는지 여부를 판단하는 단계, 및 미리 결정된 특정 주파수 대역들의 에너지 패턴이 미리 결정된 제5조건을 만족하는지 여부를 판단하는 단계를 포함하는 섹션별 프로세스를 수행하도록 되어 있다.

Description

비명 검출 방법 및 이를 위한 장치{Scream detection method and device for the same}
본 발명은 전자분야에서의 신호처리기술에 관한 것으로서, 특히 오디오 신호 중 사람의 비명을 검출할 수 있는 기술에 관한 것이다.
번화가, 차도주변, 및 골목길 공원 등과 같은 공공장소에서의 소매치기, 강도, 및 성범죄 등 위험 상황 발생에 따른 안전에 대한 문제가 대두되고 있다. 이러한 위험 상황 발생을 방지하기 위한 하나의 수단으로서 소위 '안심귀가서비스'와 같은 서비스를 제공할 수 있다. 안심귀가서비스는 위급상황 발생 시, 이동무선단말에서 제공하는 기능을 이용하여 상기 위급상황을 수동으로 또는 자동으로 다른 사람들에게 알리는 과정을 포함할 수 있다. 위급상황을 자동으로 알리기 위해서는 위급상황을 자동으로 인식할 수 있어야 한다.
위급상황의 경우 비명이 발생할 수 있다. 이러한 비명을 비명이 아닌 소리로부터 구분할 수 있다면 위급상황을 자동으로 인식할 수 있다. 마이크로폰으로 획득한 신호가 비명에 해당하는지 여부를 판단하기 위해서는 신호에 대한 주파수분석을 수행하는 과정이 필요하다. 주파수분석을 하기 위해서는 상당히 큰 계산량이 요구될 수 있다. 따라서 스마트폰과 같은 이동무선단말과 같이 배터리로 동작하는 장치에서, 종래 기술에 따른 주파수분석 방법을 이용하여 계속하여 비명 여부를 판단하는 경우 스마트폰의 사용시간을 크게 단축하게 될 수 있다. 이 경우 비명 여부를 판단하는 어플리케이션이 제공되더라도 사용자들로부터 외면당할 수 있다.
따라서 비명 여부를 인식하기 위한 계산량을 줄임으로써 배터리 소모량을 낮추는 기술이 필요하다.
상술한 문제를 해결하기 위해, 본 발명에서는 위험 상황 발생 시 사람이 소리를 질렀을 때 비명인지 아닌지를 신속하게 판단하는 방법을 제공하고자 한다. 이러한 방법을 통해, 예컨대 스마트폰의 애플리케이션에서 신속하게 경찰 및/또는 미리 지정된 사람에게 연락이 취해질 수 있다.
본 발명의 일 관점에 따라, 수집된 오디오신호 중 미리 결정된 시간 길이(time length)를 갖는 윈도우에 의해 선택된 윈도우신호가 사람의 비명에 해당하는 신호를 포함하는지 여부를 결정하는 비명여부 판단방법을 제공할 수 있다. 이때, 상기 윈도우신호에 포함되어 정의되는 섹션신호에 대하여 푸리에 변환을 수행하고, 상기 푸리에 변환에 의해 얻은 주파수 영역신호인 'FFT신호'를 생성하는 단계(S19), 상기 FFT신호의 모양을 스무딩(smoothing)하고, 상기 스무딩에 의해 얻은 주파수 영역신호인 'S-FFT신호'를 생성하며, 상기 S-FFT신호 중 미리 결정된 제5기준값을 갖는 지점(point)의 개수가 미리 결정된 제3조건을 만족하는지 여부를 판단하는 단계(S26 ~ S29), 및 미리 결정된 특정 주파수 대역들의 에너지 패턴이 미리 결정된 제5조건을 만족하는지 여부를 판단하는 단계(S34, S35, S35-1)를 포함하는 섹션별 프로세스를 수행하도록 되어 있을 수 있다. 그리고 상기 제5조건을 만족하는지 여부를 판단하는 단계는 상기 제3조건을 만족하는 경우에만 수행하도록 되어 있고, 상기 제5조건을 만족하는 경우에만 상기 섹션신호가 비명에 해당하는 신호를 포함한다고 결정하고, 그렇지 않으면 상기 섹션신호가 비명에 해당하는 신호를 포함하지 않는다고 결정하는 것을 특징으로 할 수 있다.
이때, 상기 'FFT신호'를 생성하는 단계 이전에, 상기 섹션신호의 통계값이 미리 결정된 제1조건을 만족하는지 여부를 결정하는 단계(S15, S17)를 더 포함하며, 상기 'FFT신호'를 생성하는 단계는 상기 섹션신호가 상기 제1조건을 만족하는 경우에만 수행되도록 되어 있을 수 있다.
이때, 상기 'FFT신호'를 생성하는 단계와 상기 'S-FFT신호'를 생성하는 단계 사이에, 상기 FFT신호의 크기를 정규화하는 단계(S22)를 더 포함할 수 있다.
이때, 상기 'FFT신호'를 생성하는 단계와 상기 정규화하는 단계 사이에, 상기 FFT신호의 최대값이 미리 결정된 제1기준값 이하인지 여부를 결정하는 단계(S21)를 더 포함하고, 상기 정규화하는 단계는 상기 FFT신호의 최대값이 상기 제1기준값 이하인 경우에만 실행되도록 되어 있을 수 있다.
이때, 시간영역에서 연속적으로 정의되는 N개의 상기 섹션신호들에 대하여 상기 섹션별 프로세스를 실행하여, 상기 N개의 섹션신호들 각각이 비명에 해당하는 신호를 포함하는지 여부를 결정하도록 되어 있을 수 있다. 이때, 상기 N개의 섹션신호들 중 에너지가 집중되어 있는 기본주파수 대역의 중심주파수가 과거로부터 현재까지 증가하다가 감소하는 것으로 판단된 경우에는, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단하는 단계(S40)를 포함하는 비명인식 프로세스를 수행하도록 되어 있으며, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴 경우에만 비명이 발생한 것으로 결정하는 것을 특징으로 할 수 있다.
이때, 상기 비명인식 프로세스는, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단하는 단계 이전에, 상기 N개의 섹션신호들 중 사람의 비명에 관한 정보가 포함된 섹션신호들이 M개 이상 존재하는지 여부를 판단하는 단계(단, N>M)(S37), 및 상기 M개 이상 존재하는 것으로 판단된 경우에는, 상기 N개의 섹션신호들 중 사람의 비명에 관한 정보가 포함되어 있지 않은 것으로 결정된 섹션신호들이 시간축 상에서 P개 이상 연속하여 존재하는지 여부를 판단하는 단계(S38)를 더 포함할 수 있다. 이때, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단하는 단계는, 상기 N개의 섹션신호들 중 사람의 비명에 관한 정보가 포함되어 있지 않은 것으로 결정된 섹션신호들이 시간축 상에서 P개 이상 연속하여 존재하지 않는다고 판단된 경우에만 실행될 수 있다.
본 발명의 일 관점에 따라, 수집된 오디오신호 중 미리 결정된 시간 길이(time length)를 갖는 윈도우에 의해 선택된 윈도우신호가 사람의 비명에 해당하는 신호를 포함하는지 여부를 결정하도록 되어 있는 처리부를 포함하는 비명여부 판단장치를 제공할 수 있다. 이때, 상기 처리부는, 상기 윈도우신호에 포함되어 정의되는 섹션신호에 대하여 푸리에 변환을 수행하고, 상기 푸리에 변환에 의해 얻은 주파수 영역신호인 'FFT신호'를 생성하는 단계(S19), 상기 FFT신호의 모양을 스무딩(smoothing)하고, 상기 스무딩에 의해 얻은 주파수 영역신호인 'S-FFT신호'를 생성하며, 상기 S-FFT신호 중 미리 결정된 제5기준값을 갖는 지점(point)의 개수가 미리 결정된 제3조건을 만족하는지 여부를 판단하는 단계(S26 ~ S29), 및 미리 결정된 특정 주파수 대역들의 에너지 패턴이 미리 결정된 제5조건을 만족하는지 여부를 판단하는 단계(S34, S35, S35-1)를 포함하는 섹션별 프로세스를 수행하도록 되어 있을 수 있다. 이때, 상기 제5조건을 만족하는지 여부를 판단하는 단계는 상기 제3조건을 만족하는 경우에만 수행하도록 되어 있고, 상기 제5조건을 만족하는 경우에만 상기 섹션신호가 비명에 해당하는 신호를 포함한다고 결정하고, 그렇지 않으면 상기 섹션신호가 비명에 해당하는 신호를 포함하지 않는다고 결정하는 것을 특징으로 할 수 있다.
이때, 상기 처리부는, 상기 'FFT신호'를 생성하는 단계 이전에, 상기 섹션신호의 통계값이 미리 결정된 제1조건을 만족하는 여부를 결정하는 단계(S15, S17)를 더 처리하도록 되어 있으며, 상기 'FFT신호'를 생성하는 단계는 상기 섹션신호가 상기 제1조건을 만족하는 경우에만 수행되도록 되어 있을 수 있다.
이때, 상기 처리부는, 상기 'FFT신호'를 생성하는 단계 이후에, 상기 FFT신호의 크기를 정규화하는 단계, 및 상기 FFT신호의 최대값이 미리 결정된 제1기준값 이하인지 여부를 결정하는 단계(S21)를 더 처리하도록 되어 있으며, 상기 정규화하는 단계는 상기 FFT신호의 최대값이 상기 제1기준값 이하인 경우에만 실행되도록 되어 있을 수 있다.
이때, 상기 처리부는, 시간영역에서 연속적으로 정의되는 N개의 상기 섹션신호들에 대하여 상기 섹션별 프로세스를 실행하여, 상기 N개의 섹션신호들 각각이 비명에 해당하는 신호를 포함하는지 여부를 결정하도록 되어 있을 수 있다. 그리고 상기 N개의 섹션신호들 중 에너지가 집중되어 있는 기본주파수 대역의 중심주파수가 과거로부터 현재까지 증가하다가 감소하는 것으로 판단된 경우에는, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단하는 단계(S40)를 포함하는 비명인식 프로세스를 수행하도록 되어 있으며, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴 경우에만 비명이 발생한 것으로 결정하는 것을 특징으로 할 수 있다.
본 발명의 다른 관점에 따라 제공되는 비명여부 판단방법은, 시간영역에서 연속적으로 정의되는 N개의 상기 섹션신호들 각각이 비명에 해당하는 신호를 포함하는지 여부를 결정하는 섹션별 프로세스를 복수 회 수행하도록 되어 있을 수 있다. 또한, 상기 N개의 섹션신호들 중 에너지가 집중되어 있는 기본주파수 대역의 중심주파수가 과거로부터 현재까지 증가하다가 감소하는 것으로 판단된 경우에는, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단하는 단계(S40)를 포함하는 비명인식 프로세스를 수행하도록 되어 있고, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴 경우에만 비명이 발생한 것으로 결정하는 것을 특징으로 할 수 있다.
이때, 상기 비명인식 프로세스는, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단하는 단계 이전에, 상기 N개의 섹션신호들 중 사람의 비명에 관한 정보가 포함된 섹션신호들이 M개 이상 존재하는지 여부를 판단하는 단계(단, N>M)(S37), 및 상기 M개 이상 존재하는 것으로 판단된 경우에는, 상기 N개의 섹션신호들 중 사람의 비명에 관한 정보가 포함되어 있지 않은 것으로 결정된 섹션신호들이 시간축 상에서 P개 이상 연속하여 존재하는지 여부를 판단하는 단계(S38)를 더 포함할 수 있다. 그리고 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단하는 단계는, 상기 N개의 섹션신호들 중 사람의 비명에 관한 정보가 포함되어 있지 않은 것으로 결정된 섹션신호들이 시간축 상에서 P개 이상 연속하여 존재하지 않는다고 판단된 경우에만 실행될 수 있다.
본 발명의 다른 관점에 따라 제공되는 비명여부 판단장치는, 시간영역에서 연속적으로 정의되는 N개의 상기 섹션신호들 각각이 비명에 해당하는 신호를 포함하는지 여부를 결정하는 섹션별 프로세스를 복수 회 수행하도록 되어 있는 처리부를 포함할 수 있다. 이때, 상기 처리부는, 상기 N개의 섹션신호들 중 에너지가 집중되어 있는 기본주파수 대역의 중심주파수가 과거로부터 현재까지 증가하다가 감소하는 것으로 판단된 경우에는, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단하는 단계(S40)를 포함하는 비명인식 프로세스를 수행하도록 되어 있고, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴 경우에만 비명이 발생한 것으로 결정하는 것을 특징으로 할 수 있다.
이때, 상기 비명인식 프로세스는, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단하는 단계 이전에, 상기 N개의 섹션신호들 중 사람의 비명에 관한 정보가 포함된 섹션신호들이 M개 이상 존재하는지 여부를 판단하는 단계(단, N>M)(S37), 및 상기 M개 이상 존재하는 것으로 판단된 경우에는, 상기 N개의 섹션신호들 중 사람의 비명에 관한 정보가 포함되어 있지 않은 것으로 결정된 섹션신호들이 시간축 상에서 P개 이상 연속하여 존재하는지 여부를 판단하는 단계(S38)를 더 포함할 수 있다. 그리고 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단하는 단계는, 상기 N개의 섹션신호들 중 사람의 비명에 관한 정보가 포함되어 있지 않은 것으로 결정된 섹션신호들이 시간축 상에서 P개 이상 연속하여 존재하지 않는다고 판단된 경우에만 실행될 수 있다.
본 발명의 또 다른 관점에 따라, (1)두 개의 섹션신호들로 분할되는 윈도우신호가 사람의 음성인지 여부를 판단하는 단계; (2)상기 윈도우신호가 사람의 음성이라고 판단된 경우, 상기 각 섹션신호의 통계값을 기초로 상기 각 섹션신호를 미리 결정된 제1조건에 따라 테스트하는 단계; (3)상기 두 개의 섹션신호 중 상기 테스트를 통과한 섹션신호에 대하여 푸리에 변환을 수행하는 단계; 및 (4)상기 푸리에 변환이 수행된 섹션신호의 주파수 대역들 중 사람의 비명에 연관된 주파수 대역에 미리 결정된 제6수준 이상의 에너지가 존재하는지를 판단하는 단계를 포함하는 섹션별 프로세스, 및 비명인식 프로세스를 이용하여 비명을 검출하는 비명검출방법을 제공할 수 있다. 이때, 상기 섹션별 프로세스는, 상기 윈도우신호가 사람의 음성이 아니라고 판단되면 상기 두 개의 섹션신호에는 사람의 비명에 관한 정보가 포함되지 않은 것으로 결정하고, 상기 두 개의 섹션신호들 중 상기 미리 결정된 제1조건에 따른 테스트를 통과하지 못한 섹션신호에는 사람의 비명에 관한 정보가 포함되지 않은 것으로 결정하고, 상기 사람의 비명에 연관된 주파수 대역에 상기 미리 결정된 제6수준 이상의 에너지가 존재하지 않는 섹션신호에는 사람의 비명에 관한 정보가 포함되지 않은 것으로 결정하고, 상기 사람의 비명에 연관된 주파수 대역에 상기 미리 결정된 제6수준 이상의 에너지가 존재하는 섹션신호에는 사람의 비명에 관한 정보가 포함된 것으로 결정하는 것을 특징으로 할 수 있다. 그리고 상기 비명인식 프로세스는, 마이크로폰에서 검출된 소정의 길이의 오디오 신호에 대하여, 상기 섹션별 프로세스를 복수 회 수행함으로써 상기 오디오 신호에 대하여 정의되는 복수 개의 상기 섹션신호들 각각에 사람의 비명에 관한 정보가 포함되어 있는지를 판단하는 단계, 및 상기 복수 개의 섹션신호들 중 사람의 비명에 관한 정보가 포함된 섹션신호들이 미리 결정된 제4횟수 이상 존재하며, 그리고 상기 복수 개의 섹션신호들 중 사람의 비명에 관한 정보가 포함되어 있지 않은 것으로 결정된 섹션신호들이 시간축 상에서 상기 미리 결정된 제4횟수 이상 연속하여 존재하지 않는 경우에는 상기 오디오 신호에 사람의 비명소리가 포함된 것으로 결정하는 단계를 포함할 수 있다.
이때, 상기 윈도우신호가 사람의 음성인지 여부를 판단하는 단계는 상기 윈도우신호 중 사일런스 구간의 신호 값을 '0'으로 변경하는 단계, 및 상기 윈도우신호가 갖는 에너지가 음성에너지에 대응하는지 판단하는 단계를 포함하며, 상기 윈도우신호가 갖는 에너지가 음성에너지에 대응하지 않는다고 판단된 경우, 상기 섹션별 프로세스를 종료하도록 되어 있을 수 있다.
이때, 상기 각 섹션신호의 통계값을 기초로 상기 각 섹션신호를 미리 결정된 제1조건에 따라 테스트하는 단계는, 상기 테스트에 통과한 섹션신호를 후보섹션신호로 선택하는 단계, 상기 후보섹션신호의 후보섹션구간을 시간 축에서 서로 오버랩되며 동일한 시간 길이를 갖는 미리 결정된 제5개수의 파트들로 분할하는 단계, 상기 파트들 각각의 에너지값 및 통계값이 미리 결정된 제2조건을 만족하는지 판단하는 단계, 및 상기 각 후보섹션에 포함된 상기 미리 결정된 제5개수의 파트들 중 음성이 아니라고 판단되는 파트들이 미리 결정된 제1개수 이상 연속적으로 나타나는지 판단하는 단계를 포함할 수 있다. 그리고 상기 각 후보섹션에 포함된 상기 미리 결정된 제5개수의 파트들 중 음성이 아니라고 판단되는 파트들이 미리 결정된 제1개수 이상 연속적으로 나타난 경우, 상기 섹션별 프로세스를 종료하도록 되어 있을 수 있다.
이때, 상기 푸리에 변환을 수행하는 단계 이후에, 상기 푸리에 변환이 수행된 제1신호(SS1)에 대하여 제1최대값(MAX) 및 제1최소값(MIN)을 검출하여, 상기 제1최대값이 미리 결정된 제1기준치 이상인지의 여부를 판단하는 단계, 및 상기 제1최대값이 상기 미리 결정된 제1기준치 이상이라고 판단된 경우, 상기 섹션별 프로세스를 종료하고, 상기 제1최대값이 상기 미리 결정된 제1기준치 이상이 아니라고 판단된 경우, 상기 제1최대값과 상기 제1최소값이 각각 미리 결정된 제1정규화구간의 제2최대값(1) 및 제2최대값(0)이 되도록 제1정규화를 수행하는 단계를 더 수행하도록 되어 있을 수 있다.
이때, 상기 제1신호(SS1)를 주파수축을 기준으로 미리 결정된 제6개수(160개) 만큼의 P구간으로 분할하는 단계, 상기 제1신호의 변곡점을 검색하여 상기 변곡점의 주파수값 및 크기를 키포인트로 정의하여 제1키포인트 어레이에 저장하는 단계, 상기 주파수축을 기준으로 연속된 두 개의 키포인트들 간의 크기의 차이를 깊이로 정의하여 제1깊이 어레이에 저장하는 단계, 및 상기 깊이의 절대값이 미리 결정된 제2기준값보다 작은 한 쌍의 키포인트들을 상기 제1깊이 어레이에서 제거하여 상기 제1깊이 어레이를 갱신하는 단계를 더 포함할 수 있다.
이때, 상기 깊이의 절대값이 미리 결정된 제3기준값 이상이 되는 두 개의 연속된 키포인트들 사이의 P구간들을 유효한 유효P구간들로 결정하는 단계, 상기 유효P구간들 중 상기 깊이가 미리 결정된 제4기준값보다 작은 유효P구간은 상기 유효P구간 내에서의 제1신호의 최대값(M1) 및 최소값(m1)이 각각 미리 결정된 제2정규화 구간의 최대값(MAX1) 및 최소값(MIN1)을 갖도록 제2정규화를 수행하는 단계, 상기 제1키포인트 어레이에서, 상기 제2정규화가 수행된 유효P구간에 포함된 키포인트들의 크기를 정규화된 값으로 갱신하여 제2키포인트 어레이에 저장하는 단계, 상기 제2키포인트 어레이에 저장된 키포인트들을 연결하여 제2신호(SS2)를 생성하는 단계, 상기 제2신호 중 미리 결정된 제5기준값을 갖는 R-크로싱 포인트의 개수를 확인하는 단계, 및 상기 R-크로싱 포인트의 개수가 미리 결정된 제3조건을 만족하는지 판단하는 단계를 포함할 수 있다. 그리고 상기 R-크로싱 포인트의 개수가 상기 미리 결정된 제3조건을 만족하지 않으면, 상기 섹션별 프로세스를 종료하도록 되어 있을 수 있다.
이때, 상기 푸리에 변환이 수행된 섹션신호의 주파수 대역들 중 사람의 비명에 연관된 주파수 대역에 미리 결정된 제6수준 이상의 에너지가 존재하는지를 판단하는 단계는, 상기 제1신호의 상기 미리 결정된 제6개수(160개)의 P구간 각각을 sub-P구간으로 세부분할하는 단계, 상기 sub-P구간에서, 상기 제1신호의 최소주파수(fmi)에서의 값과 상기 제1신호의 최대주파수(fma)에서의 값을 이용하여 벡터를 생성하는 단계, 미리 결정된 제1주파수 대역의 에너지를 상기 미리 결정된 제1주파수 대역에 포함된 벡터들의 절대값들을 이용하여 계산하는 단계, 상기 제1신호에서, 특정 주파수 대역들 간의 에너지 패턴이 미리 결정된 제4조건을 만족하는지 판단하는 단계, 및 상기 후보섹션(NS1)에서의 주파수 별 에너지 패턴이 상기 후보섹션 바로 직전에 정의되어 있는 바로 이전 섹션(NS2)에서의 주파수 별 에너지 패턴과 비교하여 시간 축 상에서 연속적인지 판단하는 단계를 포함하며, 상기 시간 축 상에서 연속적이지 않다고 판단된 경우, 상기 섹션별 프로세스를 종료하도록 되어 있을 수 있다.
이때, 상기 후보섹션(NS1)에서의 주파수 별 에너지 패턴이 상기 후보섹션 바로 직전에 정의되어 있는 바로 이전 섹션(NS2)에서의 주파수 별 에너지 패턴과 비교하여 시간 축 상에서 연속적인지 판단하는 단계는, 상기 바로 이전 섹션(NS2)에서 상기 미리 결정된 제6수준 이상의 에너지를 갖는 대역의 제1중심주파수(cf11)와 상기 후보섹션에서 상기 미리 결정된 제6수준 이상의 에너지를 갖는 대역의 제2중심주파수(cf12)의 차가 미리 결정된 제7기준값보다 작은지의 여부를 판단하는 단계를 포함하며, 상기 제1중심주파수(cf11)와 상기 제2중심주파수(cf12)의 차가 상기 미리 결정된 제7기준값보다 작으면 상기 섹션별 프로세스를 종료하도록 되어 있을 수 있다.
이때, 상기 후보섹션(NS1)에서의 주파수 별 에너지 패턴이 상기 후보섹션 바로 직전에 정의되어 있는 바로 이전 섹션(NS2)에서의 주파수 별 에너지 패턴과 비교하여 시간 축 상에서 연속적인지 판단하는 단계는, 상기 바로 이전 섹션(NS2)에서 상기 미리 결정된 제6수준 이상의 에너지를 갖는 대역들 간의 제1에너지 비율(E1)과 상기 후보섹션에서 상기 미리 결정된 제6수준 이상의 에너지를 갖는 대역들 간의 제2에너지 비율(E2)의 차가 미리 결정된 제8기준값보다 작은지의 여부를 판단하는 단계를 더 포함하며, 상기 제1에너지 비율(E1)과 제2에너지 비율(E2)의 차가 상기 미리 결정된 제8기준값보다 작으면 상기 섹션별 프로세스를 종료하도록 되어 있을 수 있다.
본 발명에 따르면, 본 발명에서는 위험 상황 발생 시 사람이 소리를 질렀을 때 비명인지 아닌지를 신속하게 판단하는 방법을 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 스마트폰의 구성도를 나타낸 것이다.
도 2a 내지 도 2c는 본 발명의 일 실시예에 따른 '섹션별 프로세스'를 위한 일련의 실행 과정을 순서도로 나타낸 것이고, 도 2d는 본 발명의 일 실시예에 따른 '비명인식 프로세스'를 위한 일련의 실행 과정을 순서도로 나타낸 것이다.
도 3은 본 발명의 일 실시예에 따른 비명검출을 위한 섹션별 프로세스 실행 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따라 정의되는 '섹션'을 설명하기 위한 도면이다.
도 5a는 본 발명의 일 실시예에 따른 'FFT후보섹션'에 대하여 FFT를 수행하여 얻은 'FFT신호'를 그래프로 나타낸 것이고, 도 5b는 본 발명의 일 실시예에 따라 상기 'FFT신호'를 정규화하여 얻은 정규화된 주파수신호인 'N-FFT신호'를 그래프로 나타낸 것이며, 도 5c는 상기 'N-FFT신호'의 일부를 나타낸 것이다.
도 6은 본 발명의 일 실시예에 따른 재구성된 'S-FFT신호(SS2)'를 그래프로 나타낸 것이다.
도 7a은 도 5b의 그래프에서, 각각의 P구간을 10개의 'sub-P구간'으로 분할하여 구분한 그래프의 일 부분을 나타낸 것이다. 도 7b는 본 발명의 일 실시예에 따라 도 7a의 H부분을 확대한 확대도이다.
도 8은 비명이 발생한 경우 시간의 흐름에 따라 검출할 수 있는 주파수 성분 값을 시간-주파수 평면 상에 나타낸 예이다.
도 9는 본 발명의 일 실시예에 따른 섹션별 프로세스를 나타낸 것이다.
도 10은 본 발명의 일 실시예에 따른 비명 검출 시스템을 나타낸 것이다.
이하, 본 발명의 실시예를 첨부한 도면을 참고하여 설명한다. 그러나 본 발명은 본 명세서에서 설명하는 실시예에 한정되지 않으며 여러 가지 다른 형태로 구현될 수 있다. 본 명세서에서 사용되는 용어는 실시예의 이해를 돕기 위한 것이며, 본 발명의 범위를 한정하고자 의도된 것이 아니다. 또한, 이하에서 사용되는 단수 형태들은 문구들이 이와 명백히 반대의 의미를 나타내지 않는 한 복수 형태들도 포함한다.
도 1은 본 발명의 일 실시예에 따른 스마트폰(단말기)의 구성도를 나타낸 것이다.
스마트폰(단말기)(200)은 마이크로폰(210), 처리부(220), 저장부(230), 및 통신부(240)를 포함할 수 있다. 스마트폰 내에서 비명검출 전용 애플리케이션(이하, 앱)을 실행하면, 상기 앱은 백그라운드에서 동작하도록 되어 있을 수 있다. 마이크로폰(210)에서 소리를 수집하도록 되어 있으며, 마이크로폰(210)에서 수집된 소리는 처리부(220)로 입력되도록 되어 있을 수 있다. 이때, 처리부(220)에서 후술할 도 2a 내지 도 2d의 단계들이 실행되도록 되어 있을 수 있다. 저장부(230)에서는 처리부(220)의 실행 결과가 저장될 수 있으며, 처리부(220)에서 비명이 검출된 경우 통신부(240)에 그 결과를 송신하도록 되어 있을 수 있다. 통신부(240)에서는 비명검출여부를 서버(300)로 송신하도록 되어 있을 수 있다.
도 2a 내지 도 2c는 본 발명의 일 실시예에 따른 '섹션별 프로세스'를 위한 일련의 실행 과정을 순서도로 나타낸 것이다.
도 2d는 본 발명의 일 실시예에 따른 '비명인식 프로세스'를 위한 일련의 실행 과정을 순서도로 나타낸 것이다.
<섹셜별 프로세스>
도 2a는 본 발명의 일 실시예에 따른 섹션별 프로세스를 위한 제1실행단계를 나타낸 것이다.
도 3은 본 발명의 일 실시예에 따른 비명검출을 위한 섹션별 프로세스 실행 과정을 설명하기 위한 도면이다.
이하 설명되는 각 단계들은, 스마트폰과 같은 이동무선단말의 처리장치(예컨대, 처리부(220))에서 디지털 프로세싱에 의해 실행될 수 있다는 점은 쉽게 이해될 수 있다.
이하 설명하는 상기 섹션별 프로세스에서 정의하는 각각의 섹션에 대하여는 F 또는 S의 값을 매칭시킬 수 있다. 이를 위하여 예컨대, k개의 섹션이 정의되는 경우 k개의 요소(element)를 갖는 어레이를 정의할 수도 있다. 각각의 상기 섹션에 대하여 상기 섹션별 프로세스가 수행되면 상기 어레이의 해당 요소에는 F 또는 S가 저장될 수 있다.
단계(S10)에서, 시간 축에서 샘플링된 타임 시리즈 '오디오 신호(1)'를 획득할 수 있다. 도 3의 가로축 및 세로축은 모두 이산값(discrete value)을 가질 수 있다.
단계(S11)에서, 미리 결정된 시간 길이(T)를 갖는 윈도우(10)를 이용하여 상기 오디오 신호(1) 중 일부의 신호를 선택할 수 있다. 상기 선택된 신호를 '윈도우 신호(11)'라고 지칭할 수 있다.
단계(S12)에서, '윈도우 신호(11)' 중 사일런스 구간(T_S, S1~S3)으로 판단되는 구간의 신호 값을 '0'으로 변경할 수 있다.
단계(S13)에서, '윈도우 신호(11)'가 갖는 에너지가 음성의 에너지에 대응하는지 판단할 수 있다.
이때, '윈도우 신호(11)'가 갖는 에너지가 음성의 에너지에 대응하지 않는다면, 비명정보가 없는 것으로 간주하며, 'F(=false)'를 출력하고 섹션별 프로세스를 종료할 수 있다. 여기서 'F'는 상기 윈도우 신호가 비명과 관련 없음을 나타내는 기호이다.
이와 달리, '윈도우 신호(11)'가 갖는 에너지가 음성의 에너지에 대응한다면, 단계(S14)를 실행할 수 있으며, '윈도우 신호(11)'가 단계(S13)을 통과한 것으로 간주할 수 있다. 그리고 단계(S13)을 통과한 '윈도우 신호(11)'를 '후보 윈도우 신호'라고 지칭할 수 있다.
단계(S14)에서, 상기 '후보 윈도우 신호'를 '윈도우 신호'의 길이(T)의 절반의 길이(T/2)를 갖는 서로 구분되는 두 개의 섹션(A1, B1)으로 구분할 수 있다.
도 4는 본 발명의 일 실시예에 따라 정의되는 '섹션'을 설명하기 위한 도면이다.
단계(S15)에서, 단계(S14)에서 구분된 '후보 윈도우 신호'의 각 섹션(예컨대, A1)에 포함된 신호의 통계값이 미리 결정된 제1조건을 만족하는지 판단할 수 있다. 이때, 상기 통계값은 평균, 분산, 및 표준편차를 포함하는 개념일 수 있다.
이때, 상기 통계값이 상기 미리 결정된 제1조건을 만족하지 않으면, 만족하지 않는 상기 각 섹션에 대하여 'F'를 출력하고 섹션별 프로세스를 종료할 수 있다. 여기서 'F'는, 여기에 대응되는 상기 섹션이 비명과 관련 없음을 나타내는 기호이다.
이와 달리, 판단 대상이 되는 섹션에 대하여, 상기 통계값이 상기 미리 결정된 제1조건을 만족하면 단계(S16)을 실행할 수 있으며, 상기 섹션은 단계(S15)를 통과한 것으로 간주할 수 있다. 그리고 단계(S15)를 통과한 섹션을 '후보섹션(20)'이라고 지칭할 수 있다.
단계(S16)에서, 상기 '후보섹션(20)'을, 시간 축에서 서로 오버랩되며 동일한 시간 길이를 갖는 12개의 구간들로 분할 수 있으며, 분할된 상기 각 구간을 '파트(30)'라고 정의할 수 있다. 도 4는, 편의를 위하여 오버랩 길이가 0인 예를 나타낸 것이다.
단계(S17)에서, 상기 각 '파트'의 에너지 및 통계값이 미리 결정된 제2조건을 만족하는지 판단할 수 있다.
이때, 상기 각 '파트'의 에너지 및 통계값이 상기 미리 결정된 제2조건을 만족하지 않으면, 각 '파트'가 비명과 관련 없는 것으로 판단할 수 있다.
이와 달리, 상기 각 '파트'의 에너지 및 통계값이 상기 미리 결정된 제2조건을 만족하면, 상기 각 '파트'가 음성과 관련된 것으로 판단할 수 있다. 이때, 각 파트별로 음성에 관련되었는지의 여부를 (Y, N)로 출력할 수 있다. 음성에 관련된 '파트'는 'Y'라는 기호에 대응시키고, 그렇지 않은 파트는 'N'이라는 기호에 대응시킬 수 있다.
단계(S18)에서, 각 '후보섹션(20)'에 포함된 12개의 '파트(30)' 중 음성이 아니라고 판단되는 파트(N)들이 미리 결정된 제1개수(예컨대, 3개) 이상 연속적으로 나타나는지 판단할 수 있다.
이때, 상기 각 후보섹션에 포함된 12개의 파트 중 음성이 아니라고 판단되는 파트(N)들이 상기 미리 결정된 제1개수 이상 연속적으로 나타난다면, 'F'를 출력하고 섹션별 프로세스를 종료할 수 있다. 여기서 'F'는, 대응되는 상기 섹션이 비명과 관련 없음을 나타내는 기호이다.
이와 달리, 음성이 아니라고 판단되는 파트(N)들이 상기 미리 결정된 제1개수 이상 연속적으로 나타나지 않는 '후보섹션'은, 비명이 포함되어 있을 수 있는 음성을 포함한다고 판단할 수 있으며, 단계(S18)를 통과할 것으로 간주할 수 있다. 상기 통과한 '후보섹션'은 이하 'FFT후보섹션'이라고 지칭할 수 있다. 상기 'FFT후보섹션'에 대해서는 단계(S19)를 실행할 수 있다. 상기 'FFT후보섹션'은 상술한 단계(S10) 내지 단계(S18)을 모두 통과한 음성신호를 의미할 수 있다.
도 4에 나타낸 예에서, 상기 미리 결정된 제1개수가 3으로 정의된 경우, 음성이 아니라고 판단되는 파트(N)의 개수가 3개가 넘으므로 'F'를 출력하고 섹션별 프로세스를 종료할 수 있다.
도 2b는 본 발명의 일 실시예에 따른 제2실행단계를 나타낸 것이다.
도 5a는 본 발명의 일 실시예에 따른 'FFT후보섹션'에 대하여 FFT를 수행하여 얻은 'FFT신호'를 그래프로 나타낸 것이고, 도 5b는 본 발명의 일 실시예에 따라 상기 'FFT신호'를 정규화하여 얻은 정규화된 주파수신호인 'N- FFT신호 '를 그래프로 나타낸 것이며, 도 5c는 상기 'N-FFT신호'의 일부를 나타낸 것이다. 각 그래프의 가로축은 주파수(f)를 나타내고, 세로축은 진폭(A)을 나타낸다.
단계(S19)에서, 상기 FFT후보섹션에 대하여 FFT를 수행하여 얻은 주파수 도메인에서의 신호인 FFT신호(SS1)를 산출할 수 있다.
단계(S20)에서, FFT신호(SS1)에 대하여, 최대값(MAX) 및 최소값(MIN)을 검출할 수 있다.
단계(S21)에서, 상기 최대값이 미리 결정된 제1기준치 이상인지의 여부를 판단할 수 있다.
이때, 상기 최대값이 상기 미리 결정된 제1기준치 이상인 경우에는, 'F'를 출력하고 섹션별 프로세스를 종료할 수 있다. 여기서 'F'는 상기 'FFT후보섹션'이 비명과 무관함을 나타내는 기호이다.
이와 달리, 상기 최대값이 상기 미리 결정된 제1기준치 이하인 경우에는 단계(S22)로 진행할 수 있다.
단계(S21)은 상기 최대값이 비명 시에 나올 수 있는 값보다 큰 경우를 배제하기 위하여 수행될 수 있다.
단계(S22)에서, 상기 최대값과 최소값이 각각 미리 결정된 제1정규화구간(50)의 최대값(ex: 1) 및 최소값(ex: 0)이 되도록 상기 FFT신호(SS1)의 크기를 정규화할 수 있다. 단계(S22)는 상황 별로 다른 배경소음 환경에 따른 영향을 제거하기 위한 단계일 수 있다.
단계(S23)에서, 주파수 축(f)을 따라 FFT신호(SS1)를 160개의 'P구간(60)'으로 분할할 수 있다. 이때, 각 'P구간'을 나타내는 160개의 요소를 갖는 어레이를 정의할 수 있다.
단계(S24)에서, 'FFT신호(SS1)'의 변곡점(70)을 검색하여 상기 변곡점(70)의 주파수 값 및 크기를 '키포인트 (key point)'로 정의하여 '제1키포인트 어레이(first key point array)'에 저장할 수 있다.
단계(S25)에서, 주파수 축(f)에서 연속된 두 개의 '키포인트(key point)'들 간의 크기의 차이를 깊이(80)로 정의하여 '제1깊이 어레이(first depth array)'에 저장할 수 있다.
이때, 만일 상기 미리 결정된 제1정규화구간(50)의 최대값 및 최소값이 각각 1 및 0으로 정의된 경우, '깊이'는 -1부터 1까지의 값을 가질 수 있다. 그리고 '깊이'는 해당 주파수에서의 에너지의 크기와 연관되어 있을 수 있다.
단계(S26)에서, 깊이의 절대값(예컨대, d2)이 미리 결정된 제2기준값보다 작은 한 쌍의 '키포인트(key point)'들을 상기 '제1깊이 어레이'로부터 제거하여, 상기 '제1깊이 어레이'를 갱신할 수 있다.
이때, 갱신된 상기 '제1깊이 어레이'에 속한 요소들로부터 깊이(d4)를 다시 정의할 수 있으며, 상기 다시 정의된 깊이를 '제2깊이 어레이(second depth array)'에 저장할 수 있다.
단계(S27)에서, 깊이의 절대값이 미리 결정된 제3기준값 이상을 갖는 두 개의 연속된 '키포인트(key point)'들 사이에 존재하는 상기 'P구간'들을 유효한 '유효 P구간(90)'이라고 정의할 수 있다. 이때, 복수 개의 유효 P구간들이 정의될 수 있다. 상기 각 '유효 P구간(90)'은 한 개 이상의 상기 'P구간'을 포함할 수 있다. 예컨대, 인덱스 2를 갖는 P구간(60b), 및 인덱스 6을 갖는 P구간(60c)에 존재하는 두 개의 키포인트(key point) 간의 깊이가 상기 제3기준값 이상이면, 인덱스 2~6의 P구간들이 한 개의 '유효 P구간'에 속하는 것으로 간주할 수 있다. 이때, 인덱스 2, 및 인덱스 6은 각각 'FFT신호(SS1)'의 2번째 P구간, 6번째 P구간을 의미할 수 있다.
단계(S28)에서, 복수 개의 '유효 P구간(90)' 중 상기 깊이가 미리 결정된 제4기준값보다 작은 '유효 P구간'(예컨대, 90a 구간)은, 그 구간 내에서의 'N-FFT신호'의 최대값(M1)과 최소값(m1)이 각각 미리 결정된 부분정규화 구간의 최대값(MAX1) 및 최소값(MIN1)을 갖도록 부분정규화할 수 있다.
이때, 상기 '부분정규화된 유효 P구간'에 포함된 키포인트(key point)의 크기를 상기 부분정규화된 값으로 갱신하여 상기 '제2키포인트 어레이'에 저장하고, 상기 부분정규화된 유효 P구간을 제외한 나머지 P구간에 포함된 키포인트들은 그 값을 갱신하지 않은 상태로 상기 '제2키포인트 어레이'에 저장할 수 있다.
이때, 상기 미리 결정된 부분정규화 구간의 최소값(MIN1) 및 최대값(MAX1)은 0 및 1이 아닌 다른 값을 가질 수 있다. 예컨대, 상기 미리 결정된 부분정규화 구간의 최소값(MIN1) 및 최대값(MAX1)은 각각 0.2 및 0.8일 수 있다. 상기 부분정규화를 수행하는 이유는, 이하 설명하는 분석을 수행하기 위함이다.
단계(S29)에서, 상기 '제2키포인트 어레이'에 저장된 '키포인트'(key point)들을 연결하여 재구성된 'S- FFT신호(SS2)'를 생성할 수 있다. 도 6은 본 발명의 일 실시예에 따른 재구성된 'S-FFT신호(SS2)'를 그래프로 나타낸 것이다. 이때, 상기 재구성된 S-FFT신호(SS2) 그래프의 가로축은 주파수(f)를 나타내며, 세로축은 진폭(A)을 나타낸다. 도 6에서는 편의상 각 '키포인트(key point)'들 사이를 직선으로 연결하였으나 곡선으로 연결할 수도 있다.
상기 단계(S26) 내지 단계(S29)를 수행하면 상기 FFT신호의 그래프가 스무딩(smoothing)되어 더 단순한 형태의 그래프로 변경될 수 있으며, 이렇게 단순하게 변경된 그래프의 예가 상술한 S-FFT신호(SS2)이다.
단계(S30)에서, 상기 재구성된 'S-FFT신호(SS2)' 중 미리 결정된 제5기준값을 갖는 포인트를 'R- 크로싱 포인트(Reference amplitude crossing point)'라고 지칭할 수 있다. 그리고 'R-크로싱 포인트'의 개수를 체크할 수 있다. 이때, 상기 미리 결정된 제5기준값은 상기 'S-FFT 신호(SS2)'가 가질 수 있는 범위의 값 중 선택된 어느 하나의 값을 의미할 수 있다. 예컨대, 도 6에서 상기 미리 결정된 제5기준값은 Ry일 수 있으며, 'R-크로싱 포인트'는 R1~R10을 포함할 수 있다.
단계(S31)에서, 'R-크로싱 포인트'의 개수가 미리 결정된 제3조건을 만족하는지 판단할 수 있다. 즉, 'R-크로싱 포인트'의 개수가 미리 결정된 제2개수보다 작으면, 'F'를 출력하고, 섹션별 프로세스를 종료할 수 있다. 여기서 'F'는 상기 'FFT후보섹션'이 비명과 무관함을 나타내는 기호이다.
이와 달리, 'R-크로싱 포인트'의 개수가 상기 미리 결정된 제2개수보다 크면, 단계(S32)을 실행할 수 있다.
도 2c는 본 발명의 일 실시예에 따른 제3실행단계를 나타낸 것이다.
단계(S32)에서, 'FFT신호(SS1)'에서 정의한 160개의 'P구간(60)'을 각각, 주파수축(f)을 따라서 10개의 구간으로 분할한다. 이렇게 하면 'FFT신호(SS1)'는 총 1600개의 'sub- P구간(120)'으로 나뉠 수 있다.
도 7a은 도 5b의 그래프에서, 각각의 P구간을 10개의 'sub-P구간'으로 분할하여 구분한 그래프의 일 부분을 나타낸 것이다. 도 7b는 본 발명의 일 실시예에 따라 도 7a의 H부분을 확대한 확대도이다. 도 7a의 그래프의 가로축과 세로축의 정의는 도 5b와 동일하다.
각 'sub-P구간(120)'에 대하여, 최소주파수(fmi) 및 최대주파수(fma)를 정의할 수 있다. 이때, 최소주파수(fmi)는 각 'sub-P구간'에서의 sub-P구간 시작점의 주파수를 의미하고, 최대주파수(fma)는 각 'sub-P구간(120)'에서의 sub-P구간 종료점의 주파수를 의미할 수 있다.
단계(S33)에서, 각 'sub-P구간(120)'에 대하여, 상기 최소주파수(fmi)에서의 FFT신호(SS1)의 값과 상기 최대주파수(fma)에서의 FFT신호(SS1)의 값을 이용하여 벡터(b1~b4)를 생성할 수 있다. 'sub-P구간'은 총 1,600개이므로 상기 벡터는 총 1,600개가 생성될 수 있다.
본 발명에서 벡터를 사용하는 이유는 비명검출을 위한 연산시간을 단축시킬 수 있기 때문이다.
이때, 임의의 제1주파수 대역(fa)의 에너지를, 1,600개의 벡터 중 상기 임의의 제1주파수 대역에 포함된 벡터들의 세로축 값의 절대값을 더함으로써 계산할 수 있다.
단계(S34)에서, '특정 주파수 대역들 간의 에너지 패턴'이 미리 결정된 제4조건을 만족하는지 판단할 수 있다. 예컨대, '특정 주파수 대역들 간의 에너지 비율'이 상기 미리 결정된 제4조건을 만족하는지 판단할 수 있다. 이때, 상기 특정 주파수 대역들은 예컨대, [2Khz - Δf1, 2Khz - Δf1] 및 [6Khz - Δf2, 6Khz + Δf2]를 의미할 수 있다.
도 8은 비명이 발생한 경우 시간의 흐름에 따라 검출할 수 있는 주파수 성분 값을 시간-주파수 평면 상에 나타낸 예이다. 그래프의 가로축은 시간(t)을 나타내며, 세로축은 주파수(f)를 나타낸다. 발생한 비명은, 기본주파수 대역(H0), 제1하모닉 대역(H1), 제2하모닉 대역(H2), 제3하모닉 대역(H3), 제4하모닉 대역(H4)에서 강한 에너지를 포함할 수 있다.
이때, 도 8에서 실선으로 표시된 주파수 성분은 미리 결정된 제6수준 이상의 에너지를 갖는 대역을 나타낸 것이며, 그 밖의 영역은 상기 미리 결정된 제6수준 이하의 에너지를 갖는 대역을 나타낸 것이다. 그러나 도 8과 달리, 가로축의 특정 시간에서 세로축의 특정 주파수에 포함된 에너지의 크기에 비례하는 농도를 갖는 점을, 상기 특정 시간 및 상기 특정 주파수가 교차하는 지점에 표시할 수도 있다.
단계(S35)에서, 현재 판단대상인 섹션(NS1)에서의 주파수 대역들의 에너지 패턴이 바로 이전에 정의되어 있는 바로 이전 섹션(NS2)에서의 주파수 대역들의 에너지 패턴에 대하여 시간 축 상에서 연속적인지 판단할 수 있다.
예컨대, 바로 이전 섹션(NS2)에서 상기 미리 결정된 제6수준 이상의 에너지를 갖는 대역의 중심주파수를 cf11이라고 하고, 현재 판단대상인 섹션에서 상기 미리 결정된 제6수준 이상의 에너지를 갖는 대역의 중심주파수를 cf12라고 할 때에, cf11-cf12가 미리 결정된 제7기준값보다 작은지의 여부를 판단할 수 있다. 이때, 상기 cf11-cf12가 상기 미리 결정된 제7기준값보다 크면 'F'를 출력하고 섹션별 프로세스를 종료할 수 있다. 여기서 'F'는 상기 현재 판단대상이 섹션이 비명과 무관함을 나타내는 기호이다.
이와 달리, 상기 cf11-cf12가 상기 미리 결정된 제7기준값보다 작으면 섹션(NS1)에서의 주파수 대역들의 에너지 패턴이 섹션(NS2)에서의 주파수 대역들의 에너지 패턴에 대하여 연속적으로 변화한 것이라고 판단할 수 있으며, 그 다음 단계를 실행할 수 있다.
그 다음, 단계(S35_1)을 다음과 같은 조건에 의해 실행할 수 있다. 즉, 바로 이전 섹션(NS2)에서 상기 미리 결정된 제6수준 이상의 에너지를 갖는 대역들(r11, r12) 간의 에너지 비율을 E1이라고 정의할 수 있다. 그리고 현재 판단대상인 섹션(NS1)에서 상기 미리 결정된 제6수준 이상의 에너지를 갖는 대역들(r21, r22) 간의 에너지 비율을 E2라고 정의할 수 있다. 이 때에, E1-E2가 미리 결정된 제8기준값보다 작은지의 여부를 판단할 수 있다. 이때, E1-E2가 상기 미리 결정된 제8기준값보다 크면, 해당 섹션을 F로 판정하고 섹션별 프로세스를 종료할 수 있다. 여기서 'F' 상기 현재 판단대상인 섹션(NS1)이 비명과 무관함을 나타내는 기호이다.
이와 달리, 상기 E1-E2가 상기 미리 결정된 제8기준값보다 작으면 'S(Scream)'로 판정할 수 있다. 여기서 'S'는 상기 현재 판단대상인 섹션(NS1)에 '비명정보가 포함'되어 있음을 나타내는 기호이다.
상술한 단계(S34), 단계(S35), 및 단계(S35-1)을 통틀어, 미리 결정된 특정 주파수 대역들의 에너지 패턴이 미리 결정된 제5조건을 만족하는지 여부를 판단하는 단계로 정의할 수 있다.
지금까지의 과정을 통하여, 판단대상이 되는 각 섹션에는 'F' 또는 'S'의 값이 할당될 수 있다. 즉, 판단대상이 되는 섹션에 비명정보가 포함되어 있는 것(S)으로 판단되려면 단계(S10) 내지 단계(S36)을 통과해야 하며, 이 중 어느 하나의 단계에서라도 탈락하는 경우에는 상기 판단대상이 되는 섹션은 비명과는 관련이 없는 것(F)으로 판단될 수 있다.
<비명인식 프로세스>
도 2d는 본 발명의 일 실시예에 따른 제4실행단계인 비명인식 프로세스를 나타낸 것이다.
단계(S36)에서, 현재 판단대상 섹션(NS1)을 기준으로, 미리 결정된 제3개수인 N개의 과거 섹션들 각각에 대하여 비명정보가 포함되어 있는지 여부를 확인할 수 있다. 이때, 상기 N은 일반적으로 비명이 발생한 경우 상기 비명이 유지되는 시간 동안 포함되는 섹션의 평균적인 개수를 의미할 수 있다. N은 사용자에 의해 미리 설정될 수 있다.
단계(S37)에서, N개의 과거 섹션들 중 비명정보가 포함되어 있는 섹션들의 개수가 M개 이하인지 판단할 수 있다. 이때, M은 N보다 작거나 같다. 상기 비명정보가 포함되어 있는 섹션들의 개수가 M개 이하이면, 상기 N개의 과거 섹션들에는 비명이 존재하지 않는다고 최종적으로 판단하고 상기 비명인식 프로세스를 종료할 수 있다.
이와 달리, 상기 비명정보가 포함되어 있는 섹션들의 개수가 M개 이하가 아니라면, 단계(S39)을 실행할 수 있다.
단계(S38)에서, N개의 과거 섹션들 중 비명정보가 포함되어 있지 않은 섹션들이 P개 이상 연속되어 있는지 판단할 수 있다. 이때, N개의 과거 섹션들 중 비명정보가 포함되어 있지 않은 섹션들이 P개 이상 연속되어 있다면, 상기 N개의 과거 섹션들에는 비명이 존재하지 않는다고 최종적으로 판단할 수 있으며, 상기 비명인식 프로세스를 종료할 수 있다.
예컨대, 'S(scream)'가 비명이라고 판단된 섹션을 나타내는 것으로 정의하고, 'F(false)'가 비명이 아니라고 판단된 섹션을 나타내는 것으로 정의한 경우, N=11 이고 P=4라면, 11개의 섹션들 중 비명정보가 포함되어 있지 않은 섹션(F)들이 4개 이상 연속되어 있으므로 비명정보가 포함되어 있지 않다고 판단할 수 있어, 비명인식 프로세스는 종료될 수 있다.
이와 달리, N개의 과거 섹션들 중 비명정보가 포함되어 있지 않은 섹션들이 P개 이상 연속되어 있지 않다면, 단계(S40)을 실행할 수 있다.
단계(S39)에서, N개의 과거 섹션들 중 에너지가 집중되어 있는 기본주파수 대역(H0)의 중심주파수(cf1~cf12)가 과거에서부터 현재까지 증가하다가 감소하는지 판단할 수 있다. 이때, 기본주파수 대역(H0)의 중심주파수가 과거에서부터 현재까지 증가하다가 감소하는 형태를 취하지 않는다고 판단되면, 상기 N개의 과거 섹션들에는 비명이 존재하지 않는다고 최종적으로 판단할 수 있으며, 상기 비명인식 프로세스를 종료할 수 있다.
이와 달리, 상기 기본주파수 대역의 중심주파수가 과거에서부터 현재까지 증가하다가 감소하는 형태를 취하는 경우, 단계(S40)를 실행할 수 있다.
단계(S40)에서, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴지 여부를 판단할 수 있다. 이때, 상기 중심주파수가 증가한 시간보다 감소한 시간이 짧다고 판단된 경우, 상기 N개의 과거 섹션들에는 비명이 존재하지 않는다고 최종적으로 판단할 수 있으며, 상기 비명인식 프로세스를 종료할 수 있다.
이와 달리, 상기 중심주파수가 증가한 시간보다 감소한 시간이 길다고 판단된 경우, 비명이 발생했다고 최종적으로 결정할 수 있다(단계(S41)).
지금까지의 과정을 통하여, 판단대상이 되는 각 섹션이 분석되는 매 순간마다 비명발생여부가 최종적으로 결정될 수 있다. 즉, 비명이 발생했는지를 최종적으로 판단하기 위해서는 단계(S37) 내지 단계(S42)을 통과해야 하며, 이 중 어느 하나의 단계에서라도 탈락하는 경우에는 비명이 발생했다고 판단하지 않는다.
도 9는 본 발명의 일 실시예에 따른 섹션별 프로세스를 나타낸 것이다.
단계(S100)에서, 윈도우신호에 포함되어 정의되는 섹션신호에 대하여 푸리에 변환을 수행하고, 상기 푸리에 변환에 의해 얻은 주파수 영역신호인 'FFT신호'를 생성할 수 있다.
단계(S110)에서, 상기 FFT신호의 모양을 스무딩(smoothing)하고, 상기 스무딩에 의해 얻은 주파수 영역신호인 'S-FFT신호'를 생성하며, 상기 S-FFT신호 중 미리 결정된 제5기준값을 갖는 지점(point)의 개수가 미리 결정된 제3조건을 만족하는지 여부를 판단할 수 있다.
단계(S120)에서, 미리 결정된 특정 주파수 대역들의 에너지 패턴이 미리 결정된 제5조건을 만족하는지 여부를 판단할 수 있다.
이때, 상기 제5조건을 만족하는지 여부를 판단하는 단계는 상기 제3조건을 만족하는 경우에만 수행하도록 되어 있고, 상기 제5조건을 만족하는 경우에만 상기 섹션신호가 비명에 해당하는 신호를 포함한다고 결정하고, 그렇지 않으면 상기 섹션신호가 비명에 해당하는 신호를 포함하지 않는다고 결정할 수 있다.
도 10은 본 발명의 일 실시예에 따른 비명 검출 시스템을 나타낸 것이다.
비명검출 전용 앱의 가입자는 단말기(200)에서 비명검출 전용 앱을 실행시킬 수 있다. 단말기(200)에서는 단말기의 마이크로폰을 통해 소리를 수집한 후 비명검출 여부를 실시간 파악할 수 있다. 이때, 비명이 검출되면 서버(300)로 비명검출정보를 송신할 수 있다. 서버(300)에는 상기 가입자가 위험한 상황에 처해 있을 경우, 연락되도록 되어 있는 미리 지정되어 있는 특정 사람의 정보, 또는 119, 경찰서와 같은 정보가 등록되어 있을 수 있다. 서버(300)에서, 단말기(200)로부터 비명검출이 되었다는 정보를 수신받으면, 제3단말기(400)로 그 사실을 송신하도록 되어 있을 수 있다. 제3단말기(400)는 상술한 바와 같이 미리 지정되어 있는 특정 사람의 단말기일 수도 있고, 안전신고센터, 경찰서 등의 단말기 또는 전화기에 해당할 수도 있다.
상술한 본 발명의 실시예들을 이용하여, 본 발명의 기술 분야에 속하는 자들은 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에 다양한 변경 및 수정을 용이하게 실시할 수 있을 것이다. 특허청구범위의 각 청구항의 내용은 본 명세서를 통해 이해할 수 있는 범위 내에서 인용관계가 없는 다른 청구항에 결합될 수 있다.

Claims (10)

  1. 수집된 오디오신호 중 미리 결정된 시간 길이(time length)를 갖는 윈도우에 의해 선택된 윈도우신호가 사람의 비명에 해당하는 신호를 포함하는지 여부를 결정하는 비명여부 판단방법으로서,
    상기 윈도우신호에 포함되어 정의되는 섹션신호 중, 미리 결정된 특정 주파수 대역들의 에너지 패턴이 미리 결정된 조건을 만족하는 경우에만 상기 섹션신호가 비명에 해당하는 신호를 포함한다고 결정하고, 그렇지 않으면 상기 섹션신호가 비명에 해당하는 신호를 포함하지 않는다고 결정하도록 되어 있는 섹션별 프로세스를 실행하도록 되어 있으며,
    시간영역에서 연속적으로 정의되는 N개의 상기 섹션신호들에 각각에 대하여 상기 섹션별 프로세스를 실행하여, 상기 N개의 섹션신호들 각각이 비명에 해당하는 신호를 포함하는지 여부를 결정하도록 되어 있고,
    ① 상기 N개의 섹션신호들 중 사람의 비명에 관한 정보가 포함된 섹션신호들이 M개 이상 존재하며(단, N>M), ② 상기 N개의 섹션신호들 중 사람의 비명에 관한 정보가 포함되어 있지 않은 것으로 결정된 섹션신호들이 시간축 상에서 P개 이상 연속하여 존재하지 않고, 그리고 ③ 상기 N개의 섹션신호들 중 에너지가 집중되어 있는 기본주파수 대역의 중심주파수가 과거로부터 현재까지 증가하다가 감소하는 것으로 판단된 경우에는, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴 경우에만 비명이 발생한 것으로 결정하는,
    비명여부 판단방법.
  2. 제1항에 있어서, 상기 섹션별 프로세스는, 상기 섹션신호의 통계값이 미리 결정된 제1조건을 만족하는 경우에만, 상기 윈도우신호에 포함되어 정의되는 섹션신호에 대하여 푸리에 변환을 수행하고 상기 푸리에 변환에 의해 얻은 주파수 영역신호인 FFT신호를 생성하는 단계;를 포함하는, 비명여부 판단방법.
  3. 제2항에 있어서, 상기 섹션별 프로세스는, 상기 FFT신호의 크기를 정규화하는 단계; 및 상기 FFT신호의 모양을 스무딩(smoothing)하고, 상기 스무딩에 의해 얻은 주파수 영역신호인 S-FFT신호를 생성하는 단계를 더 포함하는, 비명여부 판단방법.
  4. 제3항에 있어서, 상기 정규화하는 단계는 상기 FFT신호의 최대값이 미리 결정된 제1기준값 이하인 경우에만 실행되도록 되어 있는, 비명여부 판단방법.
  5. 삭제
  6. 삭제
  7. 수집된 오디오신호 중 미리 결정된 시간 길이(time length)를 갖는 윈도우에 의해 선택된 윈도우신호가 사람의 비명에 해당하는 신호를 포함하는지 여부를 결정하도록 되어 있는 처리부를 포함하는 비명여부 판단장치로서,
    상기 처리부는,
    상기 윈도우신호에 포함되어 정의되는 섹션신호 중, 미리 결정된 특정 주파수 대역들의 에너지 패턴이 미리 결정된 조건을 만족하는 경우에만 상기 섹션신호가 비명에 해당하는 신호를 포함한다고 결정하고, 그렇지 않으면 상기 섹션신호가 비명에 해당하는 신호를 포함하지 않는다고 결정하도록 되어 있는 섹션별 프로세스를 실행하도록 되어 있으며,
    시간영역에서 연속적으로 정의되는 N개의 상기 섹션신호들에 각각에 대하여 상기 섹션별 프로세스를 실행하여, 상기 N개의 섹션신호들 각각이 비명에 해당하는 신호를 포함하는지 여부를 결정하도록 되어 있고, 그리고
    ① 상기 N개의 섹션신호들 중 사람의 비명에 관한 정보가 포함된 섹션신호들이 M개 이상 존재하며(단, N>M), ② 상기 N개의 섹션신호들 중 사람의 비명에 관한 정보가 포함되어 있지 않은 것으로 결정된 섹션신호들이 시간축 상에서 P개 이상 연속하여 존재하지 않고, 그리고 ③ 상기 N개의 섹션신호들 중 에너지가 집중되어 있는 기본주파수 대역의 중심주파수가 과거로부터 현재까지 증가하다가 감소하는 것으로 판단된 경우에는, 상기 중심주파수가 증가한 시간보다 감소한 시간이 더 긴 경우에만 비명이 발생한 것으로 결정하도록 되어 있는,
    비명여부 판단장치.
  8. 제7항에 있어서, 상기 섹션별 프로세스는, 상기 섹션신호의 통계값이 미리 결정된 제1조건을 만족하는 경우에만, 상기 윈도우신호에 포함되어 정의되는 섹션신호에 대하여 푸리에 변환을 수행하고 상기 푸리에 변환에 의해 얻은 주파수 영역신호인 FFT신호를 생성하는 단계;를 포함하는, 비명여부 판단장치.
  9. 제8항에 있어서, 상기 섹션별 프로세스는, 상기 FFT신호의 최대값이 미리 결정된 제1기준값 이하인 경우에만 상기 FFT신호의 크기를 정규화하는 단계;를 더 포함하는, 비명여부 판단장치.
  10. 삭제
KR1020160013423A 2016-02-03 2016-02-03 비명 검출 방법 및 이를 위한 장치 KR101800425B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020160013423A KR101800425B1 (ko) 2016-02-03 2016-02-03 비명 검출 방법 및 이를 위한 장치
US16/075,169 US10468049B2 (en) 2016-02-03 2016-03-24 Scream detection method and apparatus therefor
PCT/KR2016/003006 WO2017135507A1 (ko) 2016-02-03 2016-03-24 비명 검출 방법 및 이를 위한 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160013423A KR101800425B1 (ko) 2016-02-03 2016-02-03 비명 검출 방법 및 이를 위한 장치

Publications (2)

Publication Number Publication Date
KR20170092280A KR20170092280A (ko) 2017-08-11
KR101800425B1 true KR101800425B1 (ko) 2017-12-20

Family

ID=59499909

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160013423A KR101800425B1 (ko) 2016-02-03 2016-02-03 비명 검출 방법 및 이를 위한 장치

Country Status (3)

Country Link
US (1) US10468049B2 (ko)
KR (1) KR101800425B1 (ko)
WO (1) WO2017135507A1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011053557A (ja) * 2009-09-03 2011-03-17 Raytron:Kk 悲鳴検出装置および悲鳴検出方法
KR101578108B1 (ko) * 2014-09-01 2015-12-16 상명대학교서울산학협력단 오디오 데이터 기반의 감시 시스템을 위한 비명 검출 장치 및 그 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100703593B1 (ko) 2005-08-08 2007-04-06 경북대학교 산학협력단 Dtpa-비스(피콜린아미드)리간드,이를 포함하는가돌리늄 착물 및 이들의 제조 방법
JP4817312B2 (ja) * 2006-08-28 2011-11-16 独立行政法人産業技術総合研究所 叫び声を用いたロボットの緊急停止方法及びシステム
JP4854533B2 (ja) 2007-01-30 2012-01-18 富士通株式会社 音響判定方法、音響判定装置及びコンピュータプログラム
KR100897555B1 (ko) * 2007-02-21 2009-05-15 삼성전자주식회사 음성 특징벡터 추출장치 및 방법과 이를 채용하는음성인식시스템 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011053557A (ja) * 2009-09-03 2011-03-17 Raytron:Kk 悲鳴検出装置および悲鳴検出方法
KR101578108B1 (ko) * 2014-09-01 2015-12-16 상명대학교서울산학협력단 오디오 데이터 기반의 감시 시스템을 위한 비명 검출 장치 및 그 방법

Also Published As

Publication number Publication date
US10468049B2 (en) 2019-11-05
WO2017135507A1 (ko) 2017-08-10
US20190035419A1 (en) 2019-01-31
KR20170092280A (ko) 2017-08-11

Similar Documents

Publication Publication Date Title
KR101610151B1 (ko) 개인음향모델을 이용한 음성 인식장치 및 방법
KR100636317B1 (ko) 분산 음성 인식 시스템 및 그 방법
EP3998557B1 (en) Audio signal processing method and related apparatus
EP0909442B1 (en) Voice activity detector
US7783479B2 (en) System for generating a wideband signal from a received narrowband signal
KR20180063282A (ko) 음성 검측 방법, 장치 및 기억 매체
CN102959625B9 (zh) 自适应地检测输入音频信号中的话音活动的方法和设备
US8340964B2 (en) Speech and music discriminator for multi-media application
CN102687196A (zh) 用于检测语音段的方法
KR101863097B1 (ko) 키워드 인식 장치 및 방법
JP2007033754A (ja) 音声監視システムと方法並びにプログラム
US20080215318A1 (en) Event recognition
CN105529038A (zh) 对用户语音信号进行处理的方法及其系统
KR101496876B1 (ko) 휴대 단말기의 소리 인식 방법 및 장치
CN116490920A (zh) 用于针对由自动语音识别系统处理的语音输入检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质
CN109309763B (zh) 一种基于声纹的外呼检测方法以及系统
US9026440B1 (en) Method for identifying speech and music components of a sound signal
US8606569B2 (en) Automatic determination of multimedia and voice signals
CN111341333A (zh) 噪声检测方法、噪声检测装置、介质及电子设备
KR101800425B1 (ko) 비명 검출 방법 및 이를 위한 장치
CN110556114B (zh) 基于注意力机制的通话人识别方法及装置
CN111210827A (zh) 响应报警的方法、装置、电子设备及可读存储介质
CN115762500A (zh) 语音处理方法、装置、设备及存储介质
CN107154996B (zh) 来电拦截方法、装置、存储介质及终端
CN104599682A (zh) 电话线质量语音的基音周期提取方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant