KR20150125546A - 분리된 객체 및 음원에서 목적음과 환경음을 인식하는 방법 - Google Patents

분리된 객체 및 음원에서 목적음과 환경음을 인식하는 방법 Download PDF

Info

Publication number
KR20150125546A
KR20150125546A KR1020150020216A KR20150020216A KR20150125546A KR 20150125546 A KR20150125546 A KR 20150125546A KR 1020150020216 A KR1020150020216 A KR 1020150020216A KR 20150020216 A KR20150020216 A KR 20150020216A KR 20150125546 A KR20150125546 A KR 20150125546A
Authority
KR
South Korea
Prior art keywords
scene
sound
event
characteristic
sound source
Prior art date
Application number
KR1020150020216A
Other languages
English (en)
Inventor
김풍민
신동선
조연수
남득기
Original Assignee
주식회사 이머시스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 이머시스 filed Critical 주식회사 이머시스
Publication of KR20150125546A publication Critical patent/KR20150125546A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Emergency Alarm Devices (AREA)

Abstract

본 발명은 목적음과 환경음이 혼합된 혼합음원으로부터 사건음과 장면음을 분리하고 그 특성을 사전에 준비된 DB와 비교분석함으로써 혼합음원이 발생된 현장의 상황을 파악할 수 있도록 하는, 사건을 인지하거나 장면을 인지하는 방법에 관한 것으로, 보다 상세하게는 (A) 발생 가능한 사건음 및/또는 장면음을 수집하고 사건 및/또는 장면별로 사건음신호 및/또는 장면음신호의 주파수특성을 분석하여 사건음특성DB 및/또는 장면음특성DB로 저장하는 DB구축단계; (B) 상기 혼합음원 신호로부터 사건음신호 및/또는 장면음신호를 분리하고 이들의 주파수특성을 분석하여 사건음주파수특성 및/또는 장면음주파수특성을 추출하는 음원특성분석단계; (C) 사건음특성DB 및/또는 장면음특성DB를 참조하여 상기 사건음주파수특성 및/또는 장면음주파수특성과 동일 또는 유사한 주파수특성을 가지는 사건 및/또는 장면이 존재하는지 조회하는 특성비교단계;를 포함하는 혼합음원 발생현장의 사건을 인지하거나 장면을 인지하는 방법에 관한 것이다.

Description

분리된 객체 및 음원에서 목적음과 환경음을 인식하는 방법{Method for Recognizing Event and Background from Separated Object and Sound Sources}
본 발명은 혼합음원 발생현장의 사건을 인지하거나 장면을 인지하는 방법에 관한 것으로서, 보다 상세하게는 목적음과 환경음이 혼합된 혼합음원으로부터 사건음과 장면음을 분리하고 그 특성을 사전에 준비된 DB와 비교분석함으로써 혼합음원이 발생된 현장의 상황을 파악할 수 있도록 하는, 사건을 인지하거나 장면을 인지하는 방법에 관한 것이다.
소리 또는 음(音; 넓은 의미의 Sound)은, 사람의 청각기관을 자극하여 뇌에서 해석되는 매질의 움직임을 말하는 것으로, 단순하게는 '공기(매질)의 진동'이다. 이러한 소리를 사람의 심리적 관점에서 보면 사람의 목소리(음성, voice 또는 speech)와 그 이외의 소리인 음향(좁은 의미의 sound 또는 acoustics)로 구분할 수 있다. 또 음향은 다시 청자 주관에 기초하여 관심의 대상이 되는 사건음(event)과 그 이외의 장면음(background)으로 구분되거나, 음원(sound source)의 종류에 따라 자연음, 의미전달을 위해 제작된 신호음 및 인공물의 진동과 마찰, 충돌, 폭발 등에 의한 기계음으로 구분될 수 있다.
소방방재청이 운영하고 있는 119안전신고센터에는 하루 70여건(연간 2만여 건)의 장난전화로 행정력이 낭비되고 있으며, 장난전화에 의한 긴급출동에 의해 정작 긴급출동이 필요한 곳에서 출동이 지연되는 부작용을 초래하고 있다. 소방방재청 통계에 따르면 119 구급차량 출동 후 미이송 건수(응급상황이 아닌 경우) 비율은 30% 정도로 매우 높은 것으로 알려져 있다.
따라서, 실시간으로 119 신고전화를 통한 신고자의 말에 의한 정보 이외에, 통화과정에서 입수되는 소리의 음성과 음향을 분석하여 신고내용의 진실성 여부와 급박의 정도에 대한 보조적인 정보를 추론해 냄으로써 장난전화나 비긴급전화에 의한 긴급출동으로 발생하는 행정력의 낭비와 긴급출동 지연을 방지할 필요성이 있다.
한편, 유괴, 공공물 폭파협박, 독극물 투입협박, 전화폭력, 사기사건 등 다양한 범죄사건 뿐만 아니라 항공기 사고, 교통사고 등에서 녹음된 소리에는 다양한 정보가 담겨있다. 따라서 사건사고에서 녹음된 소리로부터 사람의 음성이나 그 이외의 각종 음향을 분석함으로써 사건해결이나 사고원인 조사를 위한 과학적인 증거나 단서를 제공하는 것이 중요하다.
최근 스마트폰이 광범위하게 보급됨에 따라 많은 사용자들이 이동 중에 음악을 듣거나 영화, 드라마 등의 동영상을 보는 일이 빈번하다. 이때 주변의 소음이나 집중력 감소로 인해 위험상황을 인식하지 못하여 사고가 발생하는 경우가 종종 발생한다. 또한 청각장애인의 경우에도 초인종 소리, 전화벨 소리, 물 끓는 소리, 화재경보 소리, 자동차 경적 소리 등을 인지하기 매우 곤란하기 때문에 정확한 상황 판단과 적절한 대응을 할 수 없어 위험한 상황을 맞을 수도 있다. 따라서 주변의 소리로부터 사람의 음성이나 그 이외의 각종 음향을 분석하여 위험상황임이 확인되면 스마트폰 사용자 또는 청각장애인에게 경고할 수 있는 방안이 필요하다.
이렇듯 다양한 분야에서 음향정보를 이용한 상황인지 기술인 음향인식(sound recognition, acoustic recognition)에 대한 연구 및 개발이 절실히 요구되고 있다. 이러한 음향인식은 발자국 소리, 경적 소리, 사이렌 소리, 물끓는 소리, 총소리 등 일상생활에서 음향적으로 발생 가능한 사건(event)들을 인지하는 음향사건인지기술(Acoustic event detection/recognition)과 길거리, 버스 안, 지하철 역, 집 안, 사무실 등 음향을 이용한 현장의 유형과 상황을 인지하는 할 수 있는 음향장면인지기술(Acoustic Context Recognition)로 분류될 수 있다.
본 발명은 사건음과 장면음이 혼합된 혼합음원을 분석하여 혼합음원 발생현장에 어떤 사건이 발생하였는지, 혼합음원 발생현장이 어떤 환경인지를 인지하는 방법을 제공하고 인지된 내용에 따라 판별을 해서 사건이나 장면의 핵심정보를 필요한 목적에 사용하기 위함이다.
전술한 목적을 달성하기 위한 본 발명은 혼합음원을 분석하여 혼합음원 발생현장의 사건을 인지하거나 장면을 인지하는 방법으로서, (A) 발생 가능한 사건음 및/또는 장면음을 수집하고 사건 및/또는 장면별로 사건음신호 및/또는 장면음신호의 주파수특성을 분석하여 사건음특성DB 및/또는 장면음특성DB로 저장하는 DB구축단계; (B) 상기 혼합음원 신호로부터 사건음신호 및/또는 장면음신호를 분리하고 이들의 주파수특성을 분석하여 사건음주파수특성 및/또는 장면음주파수특성을 추출하는 음원특성분석단계; (C) 사건음특성DB 및/또는 장면음특성DB를 참조하여 상기 사건음주파수특성 및/또는 장면음주파수특성과 동일 또는 유사한 주파수특성을 가지는 사건 및/또는 장면이 존재하는지 조회하는 특성비교단계;를 포함하는 혼합음원 발생현장의 사건을 인지하거나 장면을 인지하는 방법에 관한 것이다.
이상과 같이 본 발명에 의하면 혼합음원만으로도 음원발생현장의 상황을 빠르고 신뢰성 있게 추론할 수 있게 되어 사건사고에 적절한 대처가 가능하게 된다.
또한 본 발명에 의한 사건을 인지하거나 장면을 인지하는 방법을 예를 들면 119안전신고센터의 신고전화에 적용함으로써 실제로 급박한 상황인지, 장난전화나 비긴급전화인지를 보다 정확히 판단할 수 있게 된다.
또한 본 발명에 의하면 각종 사건사고에서 녹음된 혼합음원을 분석함으로써 사건이나 사고의 정황이나 증거를 제공할 수 있게 된다.
또한 본 발명에 의하면 실시간 음향을 분석하여 주의력이 저하된 상황의 사람들이나 청각장애인에게 대응할 수 있도록 정보를 제공하거나 경고를 할 수 있게 된다.
또한 본 발명에 의하면 실시간으로 환경음(주방의 물 끊는 소리)을 인식하여 화재예방의 센서로 활용할 수 있고, 화재경보의 소리를 인식하여 비상구의 가동여부의 센서로도 제공하여 센서의 기능을 다각화할 수 있게 된다.
도 1a, 1b는 본 발명에 의한 혼함음원 분석을 통한 사건/장면 인지방법의 개념적 흐름도의 서로 다른 예.
도 2는 본 발명에 의한 사건인지 또는 장면인지 방법을 119신고전화서비스에 적용한 개념적 예시도.
이하 첨부된 도면을 참조하여 본 발명을 보다 상세히 설명한다. 그러나 첨부된 도면은 본 발명의 기술적 사상의 내용과 범위를 쉽게 설명하기 위한 예시일 뿐, 이에 의해 본 발명의 기술적 범위가 한정되거나 변경되는 것은 아니다. 또한 이러한 예시에 기초하여 본 발명의 기술적 사상의 범위 안에서 다양한 변형과 변경이 가능함은 당업자에게는 당연할 것이다.
본 발명에서 상기 혼합음원은 사건음과 장면음이 혼합된 음원(audio source, sound source, acoustic source)을 의미하며 제작(녹음)방식에 따라 하나의 마이크로폰에서 입력된 모노음원이거나, 두 개의 마이크로폰에서 입력된 스테레오음원이거나, 3개 이상의 마이크로폰에서 입력된 멀티채널음원이거나, 멀티트랙음원일 수 있다. 그러나 본 발명이 일상생활에서 발생하는 생활음원이거나 돌발적으로 일어나는 사건사고의 음원을 대상으로 하는 경우가 대부분이므로 모노음원이거나 스테레오음원이 많을 것이다.
혼합음원은 실시간으로 입수되는 음원일 수도 있고 사전에 녹음된 음원일 수도 있는데, 이하에서는 설명의 편의를 위해 '녹음'된 음원인 것으로 가정한다.
단일음원(pure sound)은 무반사음향실처럼 극적으로 제한된 환경에서만 가능하며, 현실세계에서는 수개~수십 개 이상의 음원들이 하나의 '혼합음원'을 이룬다. 이하에서는 설명의 편의를 위해 혼합음원을 구성하는 하나 또는 두 개 이상의 복합음원을 '하부음원'이라 칭하기로 한다. 따라서 본 발명에서 사건음과 장면음은 혼합음원의 하부음원이 된다.
또한 본 발명에서는 혼합음원이 발생한 장소 즉 혼합음원을 센싱하는 마이크로폰이 존재하는 장소, 예를 들어 119신고전화라면 신고자가 사용하고 있는 전화 또는 휴대폰이 있는 장소를 '현장'이라 표현하기로 한다.
본 발명에서 '사건음(event)'이란 혼합음원을 구성하는 음원들 중에서 사용자의 관심을 초래할 수 있는 사건을 인식하게 하는 음원 또는 사용자가 관심을 가지고 있는 음원을 의미하며, 장면음(background)은 혼합음원에서 사건음이 제거된 잔류음원으로서 혼합음원이 발생한 현장과 현장의 분위기를 추론할 수 있게 하는 음원을 의미한다. 예를 들면 사람 목소리, 총소리(권총, 소총, M16, 기관총 등), 물 끓는 소리, 못질 소리, 헬기소리, 싸이렌소리 등이 사건음에 해당될 수 있고, 지하철분위기, 운동장분위기, 콘센트홀 분위기, 넓은 벌판 분위기, 싸우는 분위기 등 주변 공간특성에 따라 반사음적인 특성이 많은 소리들이 장면음에 해당될 수 있다. 그러나 사건음과 장면음이 반드시 명확하게 기계적으로 분리되는 것은 아니며, 혼합음원이 발생한 장소의 공간적 환경(지하철, 운동장 등)이나 비교적 지속되는 상황분위기(지하철이 진입하고 있는 상황, 골인되어 환성이 터져나오는 상황 등)를 음향적 측면에서 표현해주는 음원들 또는 그들이 합쳐진 음을 장면음으로, 음향학적 측면에서 돌발적이고 단발적인 음향(총소리, 목소리, 비명소리 등)을 사건음으로 파악할 수 있다. 예를 들면 행인과 차량이 많이 다니는 길가에서 두 명이 대화하는 상황이 녹음된 혼합음원에서 사용자가 두 대화자의 대화소리를 선택하면 두 사람의 대화소리 각각이 사건음이 되고 나머지 소음이 장면음이 된다. 같은 상황에서 경찰차가 싸이렌을 울리면서 지나가는 소리가 녹음되어 있고, 사용자가 싸이렌소리을 선택하면 싸이렌소리가 사건음이 되고 대화소리나 차량소리 등은 장면음이 된다.
본 발명은 혼합음원을 그대로, 또는 사건음과 장면음으로 분리한 후에 혼합음원 발생현장에 어떤 사건이 발생하였는지, 혼합음원 발생현장이 어떤 환경인지를 인지하는 방법을 제공하고자 한다. 이를 위해 본 발명은 ① 혼합음원으로부터 현장에 무슨 사건이나 장면이 있는지 확인하는 방법(불특정 사건 인식방법)과 ② 혼합음원으로부터 현장에 어떤 특정 사건이나 장면이 있는지 확인하는 방법(특정 사건 인식방법)을 제시한다.
(1) 불특정 사건/장면 인식방법
전술하였듯이, 본 발명은 DB구축단계, 음원특성분석단계, 특성비교단계를 포함하는 단계들로 이루어지는 혼합음원을 분석하여 혼합음원 발생현장의 사건을 인지하거나 장면을 인지하는 방법에 관한 것이다. 도 1a에 본 발명에 의한 인지방법의 흐름도를 개념적으로 도시하였다. [이하 혼동을 방지하기 위해 아래 표에서처럼, 혼합음원에서 추출한 특성에 sound에서 유래한다는 의미에서 (s)를 붙이고, 사건음특성DB 및/또는 장면음특성DB에서 추출한 목표 특성에 DB에서 유래한다는 의미에서 (d)를 붙여 표시함]
Figure pat00001
본 발명에서 상기 DB구축단계는, 발생 가능한 사건음 및/또는 장면음을 수집하고 사건 및/또는 장면별로 사건음신호 및/또는 장면음신호의 주파수특성(d)을 분석하여 사건음특성DB 및/또는 장면음특성DB로 저장하는 단계이다. 본 발명의 취지상 혼합음에서 사건음만이나 장면음만을 분석할 수도 있고 사건음과 장면음을 동시에 분석할 수도 있다. [따라서 '및/또는'이란 어휘의 사용은 본 발명의 내용을 분명하고 단순하게 표현하기 위한 것으로서 불명료한 표현이 아님. 이하에서 "A 또는 B, 또는 A와 B"를 단순하게 "A 및/또는 B"라 표현함.]
사건음 및/또는 장면음을 수집한다는 것은 녹음하여 신호화한다는 의미이다. 사건음의 경우 무반사음향실에서 녹음할 수도 있고, 일반적 환경에서 녹음한 후에 객체음원분리방법에 의해 사건음만을 분리할 수도 있다. 예를 들어 물 끓는 소리를 사건음으로 하는 경우, 용기의 재질과 크기, 형상, 물의 양, 뚜껑의 존재유무 등에 따라 다양한 물 끓는 소리를 무반사음향실에서 또는 일반 주방환경에서 녹음하게 된다. 장면음의 경우 전형적인 상태의 현장에서 녹음하고 혹시 사건음에 해당하는 것이 있다면 이를 객체음원분리방법에 의해 제거할 수도 있다. 예를 들면 웅성웅성한 대합실에서의 녹음이나 차량 스치는 소리와 바람부는 소리와 물흐르는 소리가 주가 되는 다리위에서의 녹음을 통해 수집할 수 있다. 사건음과 장면음의 종류와 샘플링수는 가능하면 많은 것이 바람직할 것이다.
이어서 수집된 사건음신호 및/또는 장면음신호의 주파수특성(d)을 분석하여 사건음특성DB 및/또는 장면음특성DB를 작성한다. 이때 상기 주파수특성(d)은 기본주파수, 기본주파수와 고조파 사이의 진폭차이, 주파수대역 분포, 주파수대역의 중심 에너지위치, 파형의 특성 중 적어도 하나를 포함하는 것이 바람직하다.
본 발명에서 사건음특성DB 및/또는 장면음특성DB는 카테고리별로 작성할 수 있다. 예를 들면, 총포류-, 화재-, 교통-, 해양-, 비명- 분야에 특화된 사건음특성DB 및/또는 장면음특성DB를 별도로 작성할 수 있다.
상기 음원특성분석단계에서는, 분석대상인 혼합음원 신호로부터 사건음신호 및/또는 장면음신호를, 객체음원분리방법에 의해 분리하고 이들의 주파수특성을 분석하여 혼합음원의 사건음주파수특성(s) 및/또는 장면음주파수특성(s)을 추출한다. 이때 분석되는 주파수특성의 종류와 수는 사건음특성DB 및/또는 장면음특성DB 구축시의 그것과 같은 것이 바람직하다.
상기 음원특성분석단계의 초기에, 상기 혼합음원신호에서 사건음의 주파수대역을 추출하여 사건음신호를 분리하고, 상기 혼합음원신호에서 상기 분리된 사건음신호를 제거하여 장면음신호를 분리한다. 음원분리는 주파수 영역에서 임계대역으로 나누며 임계대역 내에는 하나의 기본주파수(fundamental frequency) 성분만 존재한다는 가정 하에서 진행된다. 예를 들면, 실제 신호의 분석은 소정 프레임 단위로 단구간 푸리에 변환(Short-Time Fourier Transform, STFT)하여 주파수 영역으로 변환하게 된다. 구체적인 음원분리 방법론에 대한 것은 종래 널리 알려져 있는데, 예를 들면 NMF 기반의 모델링을 이용한 모델 기반의 객체음원(사건음) 분리방법을 선택할 수 있다. 이를 위해 분리하고자 하는 객체음원 입력 시 생성된 모델을 입력된 데이터에 맞게 최적화 하는 작업을 수행 후 얻은 시스템 정보를 객체음원 분리에 사용하는 다중 단계 NMF 기반의 알고리듬을 사용할 수 있다. 이외에도 본 발명의 발명자가 발명한 특허출원 제10-2014-0049146호(발명의 명칭 : 가상스피커 적용을 위한 혼합음원 객체 분리 및 음원 위치 파악 방법)에 언급되고 제시된 객체분리 방법을 적용하는 것도 가능할 것이다.
기타 다양한 음원분리 방법론이 있는데, 본 발명은 '음원분리' 자체에 관한 것이 아니므로 그에 대한 상세한 설명은 생략한다.
상기 특성비교단계에서, 사건음특성DB 및/또는 장면음특성DB를 참조하여 상기 혼합음원의 사건음주파수특성(s) 및/또는 장면음주파수특성(s)과 동일 또는 유사한 주파수특성(d)을 가지는 사건 및/또는 장면이 존재하는지 조회한다.
특성비교단계에서, 동일 또는 유사한 주파수특성(d)을 가지는 사건 및/또는 장면이 존재하는 것으로 확인되면, 이어서 현장에 그러한 사건 및/또는 장면(상황)이 발생하였음을 사용자에게 통지하여 경고하는 통지단계를 추가할 수 있다.
한편, 상기 DB구축단계에서, 발생 가능한 사건음 및/또는 장면음을 수집할 때 표준거리에서 수집하며, 상기 주파수특성(d)에는 사건음 및/또는 장면음의 진폭(강도)정보가 포함되는 것이 좋다. 예를 들면 사건음 및/또는 장면음을 수집할 때 사건음 발생원에서 소정의 표준거리(예를 들면 5m)에 소정의 표준마이크폰을 사용하여 녹음하여 음의 세기(주파수의 진폭) 정보를 추가하거나, 임의의 거리에서 녹음한 후 표준거리의 음의 세기로 보정하여 정보를 추가하는 것이다. 추후 혼합음원에서 사건음 및/또는 장면음의 세기와 비교함으로써 현장의 상황을 보다 정확하게 추론할 수 있도록 하기 위한 것이다.
이러한 불특정 사건/장면 인식방법에 의하면 예를 들면 119신고전화로 신고되고 있는 혼합음원으로부터 현장에서 어떤 일이 벌어지고 있는지를 추론할 수 있는 자료를 제공할 수 있게 된다.
한편, 이러한 불특정 사건/장면 인식방법에 의하면 혼합음원에서 분리한 사건음 및 또는 장면음 신호의 주파수특성(s)을 사건음특성DB 및/또는 장면음특성DB의 모든 레코드의 주파수특성(d)과 비교해야 하기 때문에 본 발명의 방법을 운용하는 장치(예를 들면, 서버)의 계산용량이 커야하고, 사건 또는 장면을 인식하기까지 시간이 많이 소요될 우려가 있다. 따라서 하기에서처럼 사건 또는 장면의 카테고리를 사전에 설정해 두는 방법을 선택하는 것도 바람직하다.
(2) 특정 사건/장면 인식방법
또한 본 발명은 DB구축단계, 목표결정단계, 비교검출단계를 포함하는 단계들로 이루어지는 혼합음원을 분석하여 혼합음원 발생현장의 사건을 인지하거나 장면을 인지하는 방법에 관한 것이다. 도 1b에 본 발명에 의한 혼함음원 분석을 통한 사건/장면 인지방법의 흐름도를 개념적으로 도시하였다.
상기 DB구축단계음원특성분석단계는 위 (1)과 동일하다.
목표결정단계는 사용자가 확인하고자하는 사건 및/또는 장면을 결정하고 상기 사건음특성DB 및/또는 장면음특성DB를 조회하여 상기 목표사건 및/또는 목표장면에 대응하는 사건음주파수특성(d) 및/또는 장면음주파수특성(d)을 추출하는 단계이다. 즉, 목표결정단계는 사용자가 사전에 사건 및/또는 장면의 카테고리를 결정하는 것이다. 예를 들면, 119신고전화에서는 화재-, 비명-, 총포류- 등에 관한 사건음 및/또는 장면음으로 한정하는 것이다. 카테고리가 결정되면 그에 대응되는 사건음주파수특성(d) 및/또는 장면음주파수특성(d)을 사건음특성DB 및/또는 장면음특성DB에서 추출한다.
상기 비교검출단계에서는, 상기 혼합음원에서 추출된 주파수특성(s) 중에서 사건음주파수특성(d) 및/또는 장면음주파수특성(d)과 동일하거나 유사한 것이 포함되어 있는지를 분석하게 된다.
비교검출단계에서, 동일 또는 유사한 주파수특성(d)을 가지는 사건 및/또는 장면이 존재하는 것으로 확인되면, 이어서 '현장에 그러한 사건 및/또는 장면(상황)이 발생하였음을 사용자에게 통지하여 경고하는 통지단계를 추가할 수 있다.
이상과 같은 본 발명에 의한 사건인지 또는 장면인지 방법을 119신고전화서비스에 적용한 개념적 예시도를 도 2에 도시하였다.
먼저 소방방재청 신고전화 DB(약 2천만 콜)에 축적되어 있는 음향 빅데이터(음성 및 주변 환경음을 모두 포함)를 기반으로 음성과 음향을 분석하여 발생 가능한 사건음 및/또는 장면음을 수집하고 사건 및/또는 장면별로 사건음신호 및/또는 장면음신호의 주파수특성(d)을 분석하여 사건음특성DB 및/또는 장면음특성DB로 저장한다(DB구축단계).
119신고전화가 수신되면 상담원이 대화내용과 분위기를 분석하여 긴급/비긴급을 매뉴얼과 경험에 의해 분류한다.
한편, 본 발명에 의한 방법이 적용된 장치에서 실시간으로 수신되는 혼합음원을 객체음원분리방법에 의해 분리하고 이들의 주파수특성을 분석하여 혼합음원의 사건음주파수특성(s) 및/또는 장면음주파수특성(s)을 추출하고(음원특성분석단계), 이를 사건음특성DB 및/또는 장면음특성DB와 비교하여 동일 또는 유사한 주파수특성(d)을 가지는 사건 및/또는 장면이 존재하는지 조회하여(특성비교단계) 상담원의 모니터에 그 내역을 표시한다.
상담원은 상기 표시된 내역을 참고하여 긴급/비긴급 여부를 더욱 정교하게 판단하여 만일 자원이 한정되어 있는 경우 긴급전화에 먼저 대응하도록 조치를 취한다.
이상과 같은 본 발명에 의하면, 음향 사건/장면 인지 기술을 활용하여 사건/사고 발생 시에 신고자의 언어적 표현 이외에 비언어적인 음향을 분석함으로써 현장의 상황을 예측할 수 있는 정보를 부가적으로 제공할 수 있는 것이다.

Claims (9)

  1. 혼합음원을 분석하여 혼합음원 발생현장의 사건을 인지하거나 장면을 인지하는 방법으로서,
    (A) 발생 가능한 사건음 및/또는 장면음을 수집하고 사건 및/또는 장면별로 사건음신호 및/또는 장면음신호의 주파수특성(d)을 분석하여 사건음특성DB 및/또는 장면음특성DB로 저장하는 DB구축단계;
    (B) 상기 혼합음원 신호로부터 사건음신호 및/또는 장면음신호를 분리하고 이들의 주파수특성을 분석하여 사건음주파수특성(s) 및/또는 장면음주파수특성(s)을 추출하는 음원특성분석단계;
    (C) 사건음특성DB 및/또는 장면음특성DB를 참조하여 상기 사건음주파수특성(s) 및/또는 장면음주파수특성(s)과 동일 또는 유사한 주파수특성(d)을 가지는 사건 및/또는 장면이 존재하는지 조회하는 특성비교단계;
    를 포함하는 것을 특징으로 하는 혼합음원 발생현장의 사건을 인지하거나 장면을 인지하는 방법.
  2. 제 1 항에 있어서,
    상기 주파수특성은 기본주파수, 기본주파수와 고조파 사이의 진폭차이, 주파수대역 분포, 주파수대역의 중심 에너지위치, 파형의 특성 중 적어도 하나를 포함하는 것을 특징으로 하는 혼합음원 발생현장의 사건을 인지하거나 장면을 인지하는 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 DB구축단계에서, 발생 가능한 사건음 및/또는 장면음을 수집할 때 표준거리에서 수집하며, 상기 주파수특성에는 사건음 및/또는 장면음의 진폭(강도)정보가 포함되는 것을 특징으로 하는 혼합음원 발생현장의 사건을 인지하거나 장면을 인지하는 방법.
  4. 제 1 항 또는 제 2 항에 있어서,
    상기 음원특성분석단계에서,
    상기 혼합음원신호에서 사건음의 주파수대역을 추출하여 사건음신호를 분리하고, 상기 혼합음원신호에서 상기 분리된 사건음신호를 제거하여 장면음신호를 분리하는 것을 특징으로 하는 혼합음원 발생현장의 사건을 인지하거나 장면을 인지하는 방법.
  5. 혼합음원을 분석하여 혼합음원 발생현장의 사건을 인지하거나 장면을 인지하는 방법으로서,
    (A) 발생 가능한 사건음 및/또는 장면음을 수집하고 사건 및/또는 장면별로 사건음신호 및/또는 장면음신호의 주파수특성(d)을 분석하여 사건음특성DB 및/또는 장면음특성DB로 저장하는 DB구축단계;
    (B) 상기 혼합음원 신호로부터 사건음신호 및/또는 장면음신호를 분리하고 이들의 주파수특성을 분석하여 사건음주파수특성(s) 및/또는 장면음주파수특성(s)을 추출하는 음원특성분석단계;
    (C) 확인하고자하는 사건 및/또는 장면을 결정하고 상기 사건음특성DB 및/또는 장면음특성DB를 조회하여 상기 사건 및/또는 장면에 대응하는 사건음주파수특성(d) 및/또는 장면음주파수특성(d)을 추출하는 목표결정단계;
    (D) 상기 혼합음원에서 추출된 주파수특성(s) 중에서 사건음주파수특성(d) 및/또는 장면음주파수특성(d)과 동일하거나 유사한 것이 포함되어 있는지를 분석하는 비교검출단계;
    를 포함하는 것을 특징으로 하는 혼합음원 발생현장의 사건을 인지하거나 장면을 인지하는 방법.
  6. 제 5 항에 있어서,
    수집되는 발생 가능한 사건음 및/또는 장면음은 하나 또는 복수개의 카테고리에 해당하는 것을 특징으로 하는 혼합음원 발생현장의 사건을 인지하거나 장면을 인지하는 방법.
  7. 제 5 항 또는 제 6 항에 있어서,
    상기 주파수특성은 기본주파수, 기본주파수와 고조파 사이의 진폭차이, 주파수대역 분포, 주파수대역의 중심 에너지위치, 파형의 특성 중 적어도 하나를 포함하는 것을 특징으로 하는 혼합음원 발생현장의 사건을 인지하거나 장면을 인지하는 방법.
  8. 제 5 항 또는 제 6 항에 있어서,
    상기 DB구축단계에서, 발생 가능한 사건음 및/또는 장면음을 수집할 때 표준거리에서 수집하며, 상기 주파수특성에는 사건음 및/또는 장면음의 진폭(강도)정보가 포함되는 것을 특징으로 하는 혼합음원 발생현장의 사건을 인지하거나 장면을 인지하는 방법.
  9. 제 5 항 또는 제 6 항에 있어서,
    상기 음원특성분석단계에서,
    상기 혼합음원신호에서 사건음의 주파수대역을 추출하여 사건음신호를 분리하고, 상기 혼합음원신호에서 상기 분리된 사건음신호를 제거하여 장면음신호를 분리하는 것을 특징으로 하는 혼합음원 발생현장의 사건을 인지하거나 장면을 인지하는 방법.
KR1020150020216A 2014-04-29 2015-02-10 분리된 객체 및 음원에서 목적음과 환경음을 인식하는 방법 KR20150125546A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20140051304 2014-04-29
KR1020140051304 2014-04-29

Publications (1)

Publication Number Publication Date
KR20150125546A true KR20150125546A (ko) 2015-11-09

Family

ID=54605031

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150020216A KR20150125546A (ko) 2014-04-29 2015-02-10 분리된 객체 및 음원에서 목적음과 환경음을 인식하는 방법

Country Status (1)

Country Link
KR (1) KR20150125546A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180125393A (ko) * 2017-05-15 2018-11-23 한국전기연구원 환경 특징 추출 방법 및 이를 이용한 보청기 작동 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180125393A (ko) * 2017-05-15 2018-11-23 한국전기연구원 환경 특징 추출 방법 및 이를 이용한 보청기 작동 방법

Similar Documents

Publication Publication Date Title
US9602938B2 (en) Sound library and method
EP3591633B1 (en) Surveillance system and surveillance method using multi-dimensional sensor data
CN102737480B (zh) 一种基于智能视频的异常语音监控系统及方法
KR101994291B1 (ko) 통합써머리를 제공하는 영상재생장치 및 방법
Huang et al. Scream detection for home applications
Ntalampiras et al. An adaptive framework for acoustic monitoring of potential hazards
CN104349133A (zh) 智能监测装置和方法
CN203206395U (zh) 一种智能犯罪监控系统
KR101899436B1 (ko) 비명인식 기반 안전감지센서
JP2012048689A (ja) 異常検知装置
CN104040480A (zh) 利用声学语境进行搜索的方法和系统
CN102521945A (zh) 一种呼叫探测报警方法与装置
CN102945675A (zh) 检测户外呼救声音的智能传感网络系统
CN111275909B (zh) 一种安防预警方法及装置
Pleva et al. The joint database of audio events and backgrounds for monitoring of urban areas
KR101250668B1 (ko) Gmm을 이용한 응급 단어 인식 방법
KR20210042860A (ko) 정보 출력 방법, 장치 및 시스템
KR101736466B1 (ko) 음향 정보 기반 상황 인식 장치 및 방법
JP5627962B2 (ja) 異常検知装置
KR20150125546A (ko) 분리된 객체 및 음원에서 목적음과 환경음을 인식하는 방법
CN113222221A (zh) 公共安全风险预警系统和方法
CN111179969A (zh) 一种基于音频信息的报警方法、装置、系统及存储介质
Spadini et al. Sound event recognition in a smart city surveillance context
WO2019210713A1 (zh) 警示音离线识别方法及装置
KR101670801B1 (ko) 이상 음원 감지 방법 및 시스템

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application