KR101842612B1 - 딥러닝을 이용한 관심 음향 인식 방법 및 장치 - Google Patents

딥러닝을 이용한 관심 음향 인식 방법 및 장치 Download PDF

Info

Publication number
KR101842612B1
KR101842612B1 KR1020160132071A KR20160132071A KR101842612B1 KR 101842612 B1 KR101842612 B1 KR 101842612B1 KR 1020160132071 A KR1020160132071 A KR 1020160132071A KR 20160132071 A KR20160132071 A KR 20160132071A KR 101842612 B1 KR101842612 B1 KR 101842612B1
Authority
KR
South Korea
Prior art keywords
sound
interest
acoustic
data
score
Prior art date
Application number
KR1020160132071A
Other languages
English (en)
Inventor
고한석
문성규
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020160132071A priority Critical patent/KR101842612B1/ko
Application granted granted Critical
Publication of KR101842612B1 publication Critical patent/KR101842612B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

모델 생성부가, 미리 저장된 복수의 관심 음향 데이터 및 복수의 비관심 음향 데이터를 딥러닝(Deep Learning)에 기초해 학습하여 관심 음향 인식 모델을 생성하는 단계, 유사도 점수 산출부가, 외부로부터 수집된 음향 데이터인 수집 음향 데이터를 관심 음향 인식 모델에 입력하여 수집 음향 데이터에 대한 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 각각 산출하는 단계 및 관심 음향 판단부가, 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 비교하여, 수집 음향 데이터가 관심 음향인지 여부를 판단하는 단계를 포함하는 것을 특징으로 하는, 딥러닝을 이용한 관심 음향 인식 방법 및 장치에 관한 것이다.

Description

딥러닝을 이용한 관심 음향 인식 방법 및 장치{METHOD AND APPARATUS FOR RECOGNIZING TARGET SOUND USING DEEP LEARNING}
본 발명은 딥러닝을 이용하여 관심 음향을 인식하기 위한 딥러닝을 이용한 관심 음향 인식 방법 및 장치에 관한 것이다.
현재 많은 사람들은 각종 음향에 지속적으로 노출되게 되며, 이러한 각종 음향들 중 특히나 차량의 경적음, 소화전의 비상벨소리, 아기의 울음소리를 비롯하여 사람들에게 위험한 상황을 알리는 음향인 관심 음향에 대해서 많은 사람들은 특별히 주의를 기울일 것이 요구된다.
그러나, 최근 스마트폰 등 각종 시청각 기기들이 발달함에 따라서, 사용자들은 이어폰을 꼽고 있거나, 스마트폰의 화면 등에 집중하기 때문에 상술한 바와 같은 위험한 상황을 알리는 관심 음향에 대해 항상 주의를 집중할 수 없는 문제가 있다.
심지어, 청각장애인의 경우에는 스마트폰의 화면 등에 집중하고 있지 않더라도, 소리를 들을 수 없기 때문에 상술한 바와 같은 위험한 상황을 알리는 관심 음향을 들을 수가 없는 문제가 있다.
이러한 문제를 해결하기 위하여, 차량의 경적음 등에 대하여 주파수 영역에서 주파수 파워의 크기가 특정 임계값을 초과하는 경우, 해당되는 음향이 차량 경적음임을 판단하는 방법 등이 제기되었으나, 이러한 방법들은 주파수 영역에서 수행 되기 때문에 시간 영역에서 수집된 음향을 주파수 영역에서의 음향으로 도메인 변환을 하기 위해 연산량이 늘어나는 문제가 있다.
나아가, 종래의 방법에서는 시간 영역에서 수집된 음향에 다양한 잡음이 포함되기 때문에, 시간 영역에서 수집된 음향을 주파수 영역으로 도메인 변환을 하더라도 잡음의 영향으로 수집된 음향이 차량의 경적음 등 위험한 상황을 알리는 음향으로 정확하게 인식될 수 없는 문제가 있다.
한국 공개특허공보 제10-1999-0083808호(1999.12.06.)
본 발명의 목적은, 상기 문제점을 해결하기 위한 것으로, 딥러닝(Deep Learning)에 기초하여, 관심 음향 데이터 및 비관심 음향 데이터를 학습하여, 외부로부터 수집된 음향 데이터에 대한 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 산출하여, 외부로부터 수집된 음향 데이터가 관심 음향인지 여부를 판단하기 위함이다.
나아가, 본 발명의 목적은, 상기 문제점을 해결하기 위한 것으로, 관심 음향 데이터 및 비관심 음향 데이터를 시간 영역에서 학습하여, 주파수 영역으로 변환하는 연산을 거치지 않을 수 있도록 하기 위함이다.
본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제(들)로 제한되지 않으며, 언급되지 않은 또 다른 과제(들)은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 딥러닝을 이용한 관심 음향 인식 방법은, 모델 생성부가, 미리 저장된 복수의 관심 음향 데이터 및 복수의 비관심 음향 데이터를 딥러닝(Deep Learning)에 기초해 학습하여 관심 음향 인식 모델을 생성하는 단계, 유사도 점수 산출부가, 외부로부터 수집된 음향 데이터인 수집 음향 데이터를 관심 음향 인식 모델에 입력하여 수집 음향 데이터에 대한 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 각각 산출하는 단계 및 관심 음향 판단부가, 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 비교하여, 수집 음향 데이터가 관심 음향인지 여부를 판단하는 단계를 포함한다.
예컨대, 관심 음향 인식 모델을 생성하는 단계에서, 모델 생성부는, 복수의 관심 음향 데이터 및 복수의 비관심 음향 데이터를 관심 음향 레퍼런스 데이터 및 비관심 음향 레퍼런스 데이터와 비교하여 관심 음향 인식 모델을 생성한다.
예를 들어, 관심 음향인지 여부를 판단하는 단계에서, 관심 음향 유사도 점수가 비관심 음향 유사도 점수보다 큰 경우, 관심 음향 판단부는, 수집 음향 데이터를 관심 음향으로 판단하고, 비관심 음향 유사도 점수가 관심 음향 유사도 점수보다 큰 경우, 관심 음향 판단부는, 수집 음향 데이터를 비관심 음향으로 판단한다.
예컨대, 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 각각 산출하는 단계에서, 유사도 점수 산출부는, 관심 음향 유사도 점수 및 비관심 음향 유사도 점수 각각을 정규화하여 정규화 관심 음향 유사도 점수 및 정규화 비관심 음향 유사도 점수를 각각 산출하며, 관심 음향인지 여부를 판단하는 단계는, 정규화 관심 음향 유사도 점수 및 정규화 비관심 음향 유사도 점수에 기초하여 수행된다.
예컨대, 정규화 관심 음향 유사도 점수 및 정규화 비관심 음향 유사도 점수의 합은 1인 것을 특징으로 한다.
일 실시예에 따르면, 복수의 관심 음향 데이터, 복수의 비관심 음향 데이터 및 수집 음향 데이터는 모두 시간 영역에서의 음향 데이터인 것을 특징으로 한다.
예컨대, 관심 음향이 차량의 경적음인 경우, 미리 저장된 복수의 관심 음향 데이터는, 복수의 차종별 경적음 데이터 및 복수의 환경별 경적음 데이터 중 선택된 복수의 경적음 데이터를 포함하는 것을 특징으로 한다.
예컨대, 본 발명의 실시예에 따른 딥러닝을 이용한 관심 음향 인식 방법은 수집 음향 데이터가 관심 음향으로 판단된 경우, 알림부가, 관심 음향이 감지되었음을 외부로 알리는 단계를 더 포함한다.
상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 딥러닝을 이용한 관심 음향 인식 장치는 미리 저장된 복수의 관심 음향 데이터 및 복수의 비관심 음향 데이터를 딥러닝(Deep Learning)에 기초해 학습하여 관심 음향 인식 모델을 생성하는 모델 생성부, 외부로부터 수집된 음향 데이터인 수집 음향 데이터를 관심 음향 인식 모델에 입력하여 수집 음향 데이터에 대한 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 각각 산출하는 유사도 점수 산출부 및 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 비교하여, 수집 음향 데이터가 관심 음향인지 여부를 판단하는 관심 음향 판단부를 포함하는 것을 특징으로 한다.
본 발명의 일 실시예에 따르면, 딥러닝(Deep Learning)에 기초하여, 관심 음향 데이터 및 비관심 음향 데이터를 학습하여, 외부로부터 수집된 음향 데이터가 관심 음향인지 여부를 판단하여, 관심 음향이 감지되었음을 외부로 알려 사용자가 해당 관심 음향에 주의를 기울이지 못하는 상황에서도, 해당 사용자는 주변에서 관심 음향이 발생하였음을 확인할 수 있다.
나아가, 본 발명의 일 실시예에 따르면, 딥러닝(Deep Learning)에 기초하여, 관심 음향 데이터 및 비관심 음향 데이터를 시간 영역에서 학습하여, 주파수 영역으로 변환하는 연산을 거치지 않을 수 있어, 연산량을 대폭 감소시키는 효과가 있다.
도 1은 본 발명의 실시예에 따른, 딥러닝을 이용한 관심 음향 인식 장치를 설명하기 위한 구성도이다.
도 2는 본 발명의 실시예에 따른, 딥러닝을 이용한 관심 음향 인식 방법을 설명하기 위한 순서도이다.
도 3은 본 발명의 실시예에 따른, 딥러닝을 이용한 관심 음향 인식 방법 및 장치에서, 시간 영역에서의 음향 데이터를 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따른, 딥러닝을 이용한 관심 음향 인식 방법 및 장치에서 관심 음향 인식 모델을 설명하기 위한 도면이다.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시예를 첨부 도면을 참조하여 설명하기로 한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
이하, 본 발명의 실시예에 따른 딥러닝을 이용한 관심 음향 인식 방법 및 장치를 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다.
도 1은 본 발명의 실시예에 따른, 딥러닝을 이용한 관심 음향 인식 장치를 설명하기 위한 구성도이다.
도 1에 도시된 바와 같이, 본 발명의 실시예에 따른, 딥러닝(Deep Learning)을 이용한 관심 음향 인식 장치(100)는 모델 생성부(110), 유사도 점수 산출부(120) 및 관심 음향 판단부(130)를 포함한다.
나아가, 도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 딥러닝(Deep Learning)을 이용한 관심 음향 인식 장치(100)는 데이터베이스(140), 마이크(150) 및 알림부(160)를 더 포함할 수 있으나, 본 발명은 이에 한정되지 않는다.
모델 생성부(110)는 미리 저장된 복수의 관심 음향 데이터 및 복수의 비관심 음향 데이터를 딥러닝(Deep Learning)에 기초해 학습하여 관심 음향 인식 모델을 생성한다.
유사도 점수 산출부(120)는 외부로부터 수집된 음향 데이터인 수집 음향 데이터를 관심 음향 인식 모델에 입력하여 수집 음향 데이터에 대한 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 각각 산출한다.
관심 음향 판단부(130)는 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 비교하여, 수집 음향 데이터가 관심 음향인지 여부를 판단한다.
데이터베이스(140)는 모델 생성부(110)가 관심 음향 인식 모델을 생성하기 위하여, 복수의 관심 음향 데이터, 복수의 비관심 음향 데이터, 관심 음향 레퍼런스 데이터 및 비관심 음향 레퍼런스 데이터를 각각 저장할 수 있다.
마이크(150)는 유사도 점수 산출부(120)가 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 산출하는 대상이 되는 음향 데이터인 수집 음향 데이터를 수집한다.
알림부(160)는 수집 음향 데이터가 관심 음향으로 판단된 경우, 관심 음향이 감지되었음을 외부로 알린다.
예컨대, 알림부(160)는 외부로 빛을 발산하는 발광 소자, 진동을 발생시키는 진동 소자, 소리를 외부로 발산하는 스피커를 비롯하여, 관심 음향이 감지되었음을 외부로 알리기 위한 각종 소자를 포함할 수 있다.
예를 들어, 알림부(160)가 발광 소자인 경우, 알림부(160)는 마이크(150)가 수집한 수집 음향 데이터가 유사도 점수 산출부(120) 및 관심 음향 판단부(130)의 처리를 거쳐 관심 음향으로 판단된 때, 외부로 빛을 발산하여 사용자가 주변에서 관심 음향이 감지되었음을 시각적으로 인식하도록 할 수 있다.
예를 들어, 알림부(160)가 진동 소자인 경우, 알림부(160)는 마이크(150)가 수집한 수집 음향 데이터가 유사도 점수 산출부(120) 및 관심 음향 판단부(130)의 처리를 거쳐 관심 음향으로 판단된 때, 진동을 발생하여 사용자가 주변에서 관심 음향이 감지되었음을 촉각으로 인식하도록 할 수 있다.
예를 들어, 알림부(160)가 스피커인 경우, 알림부(160)는 마이크(150)가 수집한 수집 음향 데이터가 유사도 점수 산출부(120) 및 관심 음향 판단부(130)의 처리를 거쳐 관심 음향으로 판단된 때, 관심 음향보다 더 큰 소리를 발생하거나 반복적인 경고음을 발생하여, 사용자가 관심 음향에 대해 주의를 기울이도록 할 수 있다.
본 발명의 실시예에 따른, 딥러닝(Deep Learning)을 이용한 관심 음향 인식 장치(100)의 각각의 구성에 대한 보다 상세한 설명은 이하 도 2 내지 도 4를 참조하여 후술하도록 하며, 중복되는 설명은 생략한다.
이제, 도 2 내지 도 4를 동시에 참조하여, 본 발명의 실시예에 따른, 딥러닝을 이용한 관심 음향 인식 방법을 설명한다.
도 2는 본 발명의 실시예에 따른, 딥러닝을 이용한 관심 음향 인식 방법을 설명하기 위한 순서도이고, 도 3은 본 발명의 실시예에 따른, 딥러닝을 이용한 관심 음향 인식 방법 및 장치에서, 시간 영역에서의 음향 데이터를 설명하기 위한 도면이며, 도 4는 본 발명의 실시예에 따른, 딥러닝을 이용한 관심 음향 인식 방법 및 장치에서 관심 음향 인식 모델을 설명하기 위한 도면이다.
도 2에 도시된 바와 같이, 본 발명의 실시예에 따른 딥러닝을 이용한 관심 음향 인식 방법은 딥러닝에 기초하여 관심 음향 인식 모델을 생성하는 단계(S210), 수집 음향 데이터에 대한 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 각각 산출하는 단계(S230) 및 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 비교하여, 수집 음향 데이터가 관심 음향인지 여부를 판단하는 단계(S250)를 포함한다.
S210 단계에서, 모델 생성부(110)는, 미리 저장된 복수의 관심 음향 데이터 및 복수의 비관심 음향 데이터를 딥러닝(Deep Learning)에 기초해 학습하여 관심 음향 인식 모델을 생성한다.
예컨대, 복수의 관심 음향 데이터 및 복수의 비관심 음향 데이터는 각각 데이터베이스(140)에 미리 저장되어 있을 수 있다.
일 실시예에 따라, 복수의 관심 음향 데이터는 특정 장소 또는 특정 상황에서 사용자가 관심을 가져야 하는 음향인 관심 음향에 대한 복수의 시간 영역 데이터를 의미할 수 있다.
예컨대, 관심 음향이 차량의 경적음인 경우, 복수의 관심 음향 데이터는 복수의 차종별 경적음 데이터 및 복수의 환경별 경적음 데이터 중 선택된 복수의 경적음 데이터를 포함할 수 있다.
이 경우, 차종별 경적음 데이터는 경차, 소형차, 중형차, 대형차, 트럭, 버스 등 차량의 종류에 따라 수집된 각종 경적음 데이터를 의미할 수 있고, 환경별 경적음 데이터는 비오는 날, 맑은 날, 낮, 밤, 소음이 많은 주변 환경, 소음이 적은 주변 환경을 비롯하여, 경적음 데이터가 수집된 각종 환경에 따른 각종 경적음 데이터를 의미할 수 있다.
예컨대, 관심 음향이 아기의 울음소리인 경우, 복수의 관심 음향 데이터는 복수의 연령대별 울음소리 데이터 및 복수의 환경별 울음소리 데이터 중 선택된 복수의 울음소리 데이터를 포함할 수 있다.
이 경우, 연령대별 울음소리 데이터는 아기에 나이에 따라 수집된 각종 울음소리 데이터를 의미할 수 있고, 환경별 울음소리 데이터는 비오는 날, 맑은 날, 낮, 밤, 소음이 많은 주변 환경, 소음이 적은 주변 환경을 비롯하여, 울음소리 데이터가 수집된 각종 환경에 따른 각종 울음소리 데이터를 의미할 수 있다.
상술한 바와 같이, 본 발명의 실시예에 따른 딥러닝을 이용한 관심 음향 인식 방법에서, S250 단계에서 판단하는 대상이 되는 관심 음향은 사용자가 운전자인 경우 주변 차량의 경적음, 사용자가 아기의 부모인 경우 아기의 울음소리, 사용자가 소방관인 경우 사이렌 소리 등으로 다양하게 선택될 수 있으며, 본 발명은 특정 관심 음향을 인식하기 위한 것으로 한정되지 않는다.
일 실시예에 따라, 복수의 비관심 음향 데이터는 특정 장소 또는 특정 상황에서 사용자가 관심을 가져야 하는 음향인 관심 음향을 제외한 다른 음향인 비관심 음향에 대한 복수의 시간 영역 데이터를 의미할 수 있다.
예를 들어, 관심 음향이 차량의 경적음인 경우, 복수의 비관심 음향 데이터는 차량의 경적음 데이터를 제외한 각종 다른 음향 데이터를 의미할 수 있다.
상술한 예시의 경우, 관심 음향이 차량의 경적음이기 때문에, 발자국 소리 데이터, 울음소리 데이터, 박수 소리 데이터 등 차량의 경적음을 제외한 각종 다른 음향 데이터들은 비관심 음향 데이터로 선정될 수 있다.
예를 들어, 복수의 관심 음향 데이터 및 복수의 비관심 음향 데이터 각각은 도 3에 도시된 바와 같은 형태를 가지는 시간에 대한 음향의 크기를 나타내는 시간 영역 데이터를 의미할 수 있다.
예를 들어, S210 단계에서, 모델 생성부(110)는 복수의 관심 음향 데이터 및 상기 복수의 비관심 음향 데이터를 관심 음향 레퍼런스 데이터 및 비관심 음향 레퍼런스 데이터와 비교하여 관심 음향 인식 모델을 생성할 수 있다.
예를 들어, 관심 음향 레퍼런스 데이터는 관심 음향에 대한 데이터임이 미리 저장된 음향 데이터를 의미할 수 있고, 비관심 음향 레퍼런스 데이터는 비관심 음향에 대한 데이터임이 미리 저장된 음향 데이터를 의미할 수 있다.
예를 들어, S210 단계에서, 모델 생성부(110)는 복수의 관심 음향 데이터 각각과 관심 음향 레퍼런스 데이터 간의 유사도를 각각 산출하여, 복수의 관심 음향 데이터에 대한 관심 음향 유사도 점수를 산출하는 학습을 반복할 수 있다.
예컨대, S210 단계에서, 모델 생성부(110)는 복수의 관심 음향 데이터 각각과 비관심 음향 레퍼런스 데이터 간의 유사도를 각각 산출하여, 복수의 관심 음향 데이터에 대한 비관심 음향 유사도 점수를 산출하는 학습을 반복할 수 있다.
일 실시예에 따르면, S210 단계에서, 모델 생성부(110)는 복수의 비관심 음향 데이터 각각과 관심 음향 레퍼런스 데이터 간의 유사도를 각각 산출하여, 복수의 비관심 음향 데이터에 대한 관심 음향 유사도 점수를 산출하는 학습을 반복할 수 있다.
예컨대, S210 단계에서, 모델 생성부(110)는 복수의 비관심 음향 데이터 각각과 비관심 음향 레퍼런스 데이터 간의 유사도를 각각 산출하여, 복수의 비관심 음향 데이터에 대한 비관심 음향 유사도 점수를 산출하는 학습을 반복할 수 있다.
상술한 학습의 결과로, S210 단계에서, 모델 생성부(110)는 특정 음향 데이터를 입력하면, 특정 음향 데이터와 관심 음향 간의 유사도를 나타내는 점수인 관심 음향 유사도 점수와 특정 음향 데이터와 비관심 음향 간의 유사도를 나타내는 점수인 비관심 음향 유사도 점수를 출력하는 모델인 관심 음향 인식 모델을 생성할 수 있다.
이 때, S210 단계에서, 모델 생성부(110)는 상호 상관(Cross Correlation), 코사인 유사도 등 각종 유사도 산출 알고리즘을 활용할 수 있으며, 본 발명의 실시예에 따른 딥러닝을 이용한 관심 음향 인식 방법은 특정 유사도 산출 알고리즘에 한정되지 않는다.
일 실시예에 따르면, S210 단계에서 모델 생성부(110)는 딥러닝의 알고리즘 중 하나인 심층 신경망(Deep Neural Network, DNN)을 통해 관심 음향 인식 모델을 생성할 수 있다.
이제 도 4를 참조하여, 심층 신경망을 이용하여 관심 음향 인식 모델을 생성하는 방법을 설명한다.
심층 신경망은 입력 레이어, 하나 이상의 히든 레이어(hidden layers) 및 출력 레이어를 포함한다.
이때, S210 단계에서 모델 생성부(110)가 심층 신경망을 이용하여 생성한 관심 음향 인식 모델은 입력 레이어에 특정 음향 데이터가 입력되면, 히든 레이어의 연산을 거쳐, 출력 레이어를 통해 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 출력하는 모델을 의미할 수 있다.
예컨대, S210 단계에서 모델 생성부(110)는 출력 레이어의 레이블 된 데이터(labeled data)를 이용하여 신경망의 가중치(weight)를 업데이트하는 알고리즘인 백 프로파게이션(Back Propagation) 알고리즘을 이용하여, 관심 음향 인식 모델을 생성할 수 있다.
이때, 심층 신경망 및 백 프로파게이션(Back Propagation) 알고리즘은 종래에 공지된 바와 같으므로, 그 구체적인 설명은 생략한다.
도 2를 계속 참조하여, S230 단계에 대해 설명한다.
S230 단계에서, 유사도 점수 산출부(120)는, 외부로부터 수집된 음향 데이터인 수집 음향 데이터를 관심 음향 인식 모델에 입력하여 수집 음향 데이터에 대한 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 각각 산출한다.
일 실시예에 따르면, 수집 음향 데이터는 마이크(150)가 수집한 각종 음향 데이터 중 어느 하나를 의미할 수 있다.
예컨대, S210 단계에서 생성된 관심 음향 인식 모델은 특정 음향 데이터를 입력하면, 특정 음향 데이터와 관심 음향 간의 유사도를 나타내는 점수인 관심 음향 유사도 점수와 특정 음향 데이터와 비관심 음향 간의 유사도를 나타내는 점수인 비관심 음향 유사도 점수를 산출하도록 학습되었기 때문에, S230 단계에서, 유사도 점수 산출부(120)가 수집 음향 데이터를 관심 음향 인식 모델에 입력하게 되면, 수집 음향 데이터와 관심 음향 간의 유사도를 나타내는 점수인 관심 음향 유사도 점수 및 수집 음향 데이터와 비관심 음향 간의 유사도를 나타내는 점수인 비관심 음향 유사도 점수가 각각 산출될 수 있다.
예컨대, 관심 음향 인식 모델이 도 4에 도시된 바와 같이, 심층 신경망을 통해 생성된 모델인 경우, 입력 벡터(input vector) 값으로 수집 음향 데이터가 입력되면, 히든 레이어의 연산을 거쳐, 출력 레이어를 통해 수집 음향 데이터에 대한 관심 음향 유사도 점수 및 비관심 음향 유사도 점수가 각각 출력될 수 있다.
예를 들어, 수집 음향 데이터는 도 3에 도시된 바와 같은 형태를 가지는 시간에 대한 음향의 크기를 나타내는 시간 영역 데이터를 의미할 수 있다.
이 경우, 복수의 관심 음향 데이터, 복수의 비관심 음향 데이터 및 수집 음향 데이터는 모두 시간 영역에서의 음향 데이터일 수 있다.
본 발명의 실시예에 따른, 딥러닝을 이용한 관심 음향 인식 방법 및 장치는 상술한 바와 같이 시간 영역에서의 음향 데이터를 이용하여, 수집 음향 데이터가 관심 음향인지 여부를 판단할 수 있기 때문에, 푸리에 변환(Fourier Transform)을 비롯한 각종 주파수 변환 과정을 배제할 수 있어 연산량이 감소되는 효과가 생길 수 있다.
이제, 도 2를 계속 참조하여, S250 단계에 대해 설명한다.
S250 단계에서, 관심 음향 판단부(130)는, 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 비교하여, 수집 음향 데이터가 관심 음향인지 여부를 판단한다.
예를 들어, S250 단계에서, 관심 음향 유사도 점수가 비관심 음향 유사도 점수보다 큰 경우, 관심 음향 판단부(130)는, 수집 음향 데이터를 관심 음향으로 판단하고, 비관심 음향 유사도 점수가 관심 음향 유사도 점수보다 큰 경우, 관심 음향 판단부는, 수집 음향 데이터를 비관심 음향으로 판단할 수 있다.
이제, 수집 음향 데이터에 대해 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 모두 산출하여 관심 음향을 판단하는 방법이 관심 음향 유사도 점수만을 산출하는 방법에 비해 관심 음향을 인식함에 있어서, 더 우수한 인식률을 보일 수 있는 이유를 설명한다.
S230 단계를 통해, 수집 음향 데이터에 대한 관심 음향 유사도 점수가 100점 만점에 85점으로 산출되고, 비관심 음향 유사도 점수가 100점 만점에 90점으로 산출된 경우를 예로 든다.
상술한 예시에서, 본 발명의 실시예에 따른 딥러닝을 이용한 관심 음향 인식 방법 및 장치에 따르면, 비관심 음향 유사도 점수가 관심 음향 유사도 점수보다 크기 때문에, 수집 음향 데이터는 비관심 음향으로 판단될 수 있다.
반면에, 관심 음향 유사도 점수만을 산출하여 임계값을 적용하는 방법에 따르면, 임계값의 크기에 따라, 수집 음향 데이터는 관심 음향 또는 비관심 음향으로 분류되기 때문에, 상술한 예시에서와 같이, 수집 음향 데이터가 관심 음향 및 비관심 음향 모두와 높은 유사도 점수를 갖는 경우 또는 수집 음향 데이터가 관심 음향 및 비관심 음향 모두와 낮은 유사도 점수를 갖는 경우에서는 관심 음향을 인식하는 인식률이 떨어질 수 있으며, 상술한 예시에서, 관심 음향 유사도 점수에 임계값을 적용하는 방법을 이용하는 경우, 임계값이 80점이라면 수집 음향 데이터는 비관심 음향 유사도 점수가 90점 관심 음향 유사도 점수가 85점으로, 비관심 음향과 더 유사한 음향임에도 관심 음향으로 판단되게 된다.
이제, 도 2를 계속 참조하여, S230 단계에서 유사도 점수 산출부가 정규화 관심 음향 유사도 점수 및 정규화 비관심 음향 유사도 점수를 산출하는 다른 실시예에 대해 설명한다.
이 경우, 유사도 점수 산출부(120)는, 관심 음향 유사도 점수 및 비관심 음향 유사도 점수 각각을 정규화하여 정규화 관심 음향 유사도 점수 및 정규화 비관심 음향 유사도 점수를 각각 산출하며, S250 단계는, 정규화 관심 음향 유사도 점수 및 정규화 비관심 음향 유사도 점수에 기초하여 수행될 수 있다.
예를 들어, S230 단계에서 유사도 점수 산출부(120)가 정규화 관심 음향 유사도 점수 및 정규화 비관심 음향 유사도 점수를 산출하는 다른 실시예의 경우, 유사도 점수 산출부(120)는 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 서로 합하여, 음향 유사도 점수합을 산출할 수 있다.
그 뒤, 유사도 점수 산출부(120)는 관심 음향 유사도 점수를 음향 유사도 점수합으로 나눠 정규화 관심 음향 유사도 점수를 산출하고, 비관심 음향 유사도 점수를 음향 유사도 점수합으로 나눠 정규화 비관심 음향 유사도 점수를 산출할 수 있다.
이 경우, 정규화 관심 음향 유사도 점수 및 정규화 비관심 음향 유사도 점수의 합은 1일 수 있다.
예를 들어, 본 발명의 실시예에 따른 딥러닝을 이용한 관심 음향 인식 방법은 S250 단계에서, 수집 음향 데이터가 관심 음향으로 판단된 경우, 알림부(160)가, 관심 음향이 감지되었음을 외부로 알리는 단계를 더 포함할 수 있다.
예컨대, 알림부(160)는 외부로 빛을 발산하는 발광 소자, 진동을 발생시키는 진동 소자, 소리를 외부로 발산하는 스피커를 비롯하여, 관심 음향이 감지되었음을 외부로 알리기 위한 각종 소자를 포함할 수 있으며, 알림부(160)에 대한 보다 구체적인 설명은 도 1에서 설명한 바와 같으므로 중복되는 설명은 생략한다.
관심 음향을 경적음으로 하여, 특정 도로에서 3시간 동안 복수의 관심 음향 데이터를 수집한 뒤, 본 발명의 실시예에 따른, 딥러닝을 이용한 관심 음향 인식 방법 및 장치를 통해 경적음을 인식하고, 종래의 기술을 통해 경적음을 인식하는 실험을 수행한 결과, 종래의 기술의 인식 성공률은 91.4%로 나타나고, 본 발명의 실시예에 따른, 딥러닝을 이용한 관심 음향 인식 방법 및 장치의 인식 성공률은 95.4%로 나타남을 확인할 수 있다.
이상에서 본 발명에 따른 바람직한 실시예에 대해 설명하였으나, 다양한 형태로 변형이 가능하며, 본 기술분야에서 통상의 지식을 가진 자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형예 및 수정예를 실시할 수 있을 것으로 이해된다.
100: 딥러닝을 이용한 관심 음향 인식 장치
110: 모델 생성부
120: 유사도 점수 산출부
130: 관심 음향 판단부
140: 데이터베이스
150: 마이크
160: 알림부

Claims (9)

  1. 모델 생성부가, 미리 저장된 복수의 관심 음향 데이터 및 복수의 비관심 음향 데이터를 딥러닝(Deep Learning)에 기초해 학습하여 관심 음향 인식 모델을 생성하는 단계;
    유사도 점수 산출부가, 외부로부터 수집된 음향 데이터인 수집 음향 데이터를 상기 관심 음향 인식 모델에 입력하여 상기 수집 음향 데이터에 대한 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 각각 산출하는 단계; 및
    관심 음향 판단부가, 상기 관심 음향 유사도 점수 및 상기 비관심 음향 유사도 점수를 비교하여, 상기 수집 음향 데이터가 관심 음향인지 여부를 판단하는 단계를 포함하며,
    상기 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 각각 산출하는 단계에서,
    상기 유사도 점수 산출부는, 상기 관심 음향 유사도 점수 및 상기 비관심 음향 유사도 점수 각각을 정규화하여 정규화 관심 음향 유사도 점수 및 정규화 비관심 음향 유사도 점수를 각각 산출하며,
    상기 관심 음향인지 여부를 판단하는 단계는, 상기 정규화 관심 음향 유사도 점수 및 상기 정규화 비관심 음향 유사도 점수에 기초하여 수행되는 것을 특징으로 하는, 딥러닝을 이용한 관심 음향 인식 방법.
  2. 제1항에 있어서,
    상기 관심 음향 인식 모델을 생성하는 단계에서,
    상기 모델 생성부는, 상기 복수의 관심 음향 데이터 및 상기 복수의 비관심 음향 데이터를 관심 음향 레퍼런스 데이터 및 비관심 음향 레퍼런스 데이터와 비교하여 상기 관심 음향 인식 모델을 생성하는 것을 특징으로 하는, 딥러닝을 이용한 관심 음향 인식 방법.
  3. 제1항에 있어서,
    상기 관심 음향인지 여부를 판단하는 단계에서,
    상기 관심 음향 유사도 점수가 상기 비관심 음향 유사도 점수보다 큰 경우,
    상기 관심 음향 판단부는, 상기 수집 음향 데이터를 상기 관심 음향으로 판단하고,
    상기 비관심 음향 유사도 점수가 상기 관심 음향 유사도 점수보다 큰 경우,
    상기 관심 음향 판단부는, 상기 수집 음향 데이터를 비관심 음향으로 판단하는 것을 특징으로 하는, 딥러닝을 이용한 관심 음향 인식 방법.
  4. 삭제
  5. 제1항에 있어서,
    상기 정규화 관심 음향 유사도 점수 및 상기 정규화 비관심 음향 유사도 점수의 합은 1인 것을 특징으로 하는, 딥러닝을 이용한 관심 음향 인식 방법.
  6. 제1항에 있어서,
    상기 복수의 관심 음향 데이터, 상기 복수의 비관심 음향 데이터 및 상기 수집 음향 데이터는 모두 시간 영역에서의 음향 데이터인 것을 특징으로 하는, 딥러닝을 이용한 관심 음향 인식 방법.
  7. 제1항에 있어서,
    상기 관심 음향이 차량의 경적음인 경우,
    상기 미리 저장된 복수의 관심 음향 데이터는,
    복수의 차종별 경적음 데이터 및 복수의 환경별 경적음 데이터 중 선택된 복수의 경적음 데이터를 포함하는 것을 특징으로 하는, 딥러닝을 이용한 관심 음향 인식 방법.
  8. 제1항에 있어서,
    상기 수집 음향 데이터가 관심 음향으로 판단된 경우,
    알림부가, 상기 관심 음향이 감지되었음을 외부로 알리는 단계를 더 포함하는 것을 특징으로 하는, 딥러닝을 이용한 관심 음향 인식 방법.
  9. 미리 저장된 복수의 관심 음향 데이터 및 복수의 비관심 음향 데이터를 딥러닝(Deep Learning)에 기초해 학습하여 관심 음향 인식 모델을 생성하는 모델 생성부;
    외부로부터 수집된 음향 데이터인 수집 음향 데이터를 상기 관심 음향 인식 모델에 입력하여 상기 수집 음향 데이터에 대한 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 각각 산출하는 유사도 점수 산출부; 및
    상기 관심 음향 유사도 점수 및 상기 비관심 음향 유사도 점수를 비교하여, 상기 수집 음향 데이터가 관심 음향인지 여부를 판단하는 관심 음향 판단부를 포함하며,
    상기 유사도 점수 산출부는,
    상기 관심 음향 유사도 점수 및 상기 비관심 음향 유사도 점수 각각을 정규화하여 정규화 관심 음향 유사도 점수 및 정규화 비관심 음향 유사도 점수를 각각 산출하며,
    상기 관심 음향 판단부는,
    상기 정규화 관심 음향 유사도 점수 및 상기 정규화 비관심 음향 유사도 점수에 기초하여 상기 수집 음향 데이터가 상기 관심 음향인지 여부를 판단하는 것을 특징으로 하는, 딥러닝을 이용한 관심 음향 인식 장치.
KR1020160132071A 2016-10-12 2016-10-12 딥러닝을 이용한 관심 음향 인식 방법 및 장치 KR101842612B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160132071A KR101842612B1 (ko) 2016-10-12 2016-10-12 딥러닝을 이용한 관심 음향 인식 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160132071A KR101842612B1 (ko) 2016-10-12 2016-10-12 딥러닝을 이용한 관심 음향 인식 방법 및 장치

Publications (1)

Publication Number Publication Date
KR101842612B1 true KR101842612B1 (ko) 2018-03-27

Family

ID=61874519

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160132071A KR101842612B1 (ko) 2016-10-12 2016-10-12 딥러닝을 이용한 관심 음향 인식 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101842612B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022075702A1 (ko) * 2020-10-06 2022-04-14 주식회사 카카오뱅크 음성을 이용한 안면 검출 방법
GB2620817A (en) * 2022-05-19 2024-01-24 Samsung Electronics Co Ltd Method and apparatus for on-device personalised analysis using a machine learning model

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015057630A (ja) * 2013-08-13 2015-03-26 日本電信電話株式会社 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015057630A (ja) * 2013-08-13 2015-03-26 日本電信電話株式会社 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Seongkyu Mun et al., ‘Deep neural network bottleneck feature for acoustic scene classification’, Detection and Classification of Acoustic Scenes and Events 2016, September 2016.*
임민규 외 3명, ‘깊은 신경망을 이용한 오디오 이벤트 분류’, 말소리와 음성과학, 제7권 제4호, pp.27~33, 2015년 12월.*

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022075702A1 (ko) * 2020-10-06 2022-04-14 주식회사 카카오뱅크 음성을 이용한 안면 검출 방법
GB2620817A (en) * 2022-05-19 2024-01-24 Samsung Electronics Co Ltd Method and apparatus for on-device personalised analysis using a machine learning model

Similar Documents

Publication Publication Date Title
US10373609B2 (en) Voice recognition method and apparatus
KR101892028B1 (ko) 음향 추적 정보 제공 방법, 차량용 음향 추적 장치, 및 이를 포함하는 차량
EP3591633B1 (en) Surveillance system and surveillance method using multi-dimensional sensor data
KR101759143B1 (ko) 음향 추적 정보 제공 방법, 차량용 음향 추적 장치, 및 이를 포함하는 차량
CN108058663B (zh) 车辆声音处理系统
US10614693B2 (en) Dangerous situation notification apparatus and method
CN105452822A (zh) 声事件检测装置和操作其的方法
US20130070928A1 (en) Methods, systems, and media for mobile audio event recognition
US10607488B2 (en) Apparatus and method of providing visualization information of rear vehicle
CN107176123B (zh) 声音检测信息提供方法、车辆周围声音检测装置及车辆
US20200051566A1 (en) Artificial intelligence device for providing notification to user using audio data and method for the same
KR102148378B1 (ko) 기계 학습 모델을 이용한 관심 이벤트의 알림 제공 장치 및 방법
Nandwana et al. Towards Smart-Cars That Can Listen: Abnormal Acoustic Event Detection on the Road.
KR102374144B1 (ko) 인공지능 기반의 이상음원 인식 장치, 그 방법 및 이를 이용한 관제시스템
KR101842612B1 (ko) 딥러닝을 이용한 관심 음향 인식 방법 및 장치
CN111081244B (zh) 一种语音交互方法和装置
EP3673668B1 (en) Systems and methods for selectively providing audio alerts
US11021147B2 (en) Vehicles and methods for determining objects of driver focus
US20170270782A1 (en) Event detecting method and electronic system applying the event detecting method and related accessory
Lisov et al. Using convolutional neural networks for acoustic-based emergency vehicle detection
US20210097727A1 (en) Computer apparatus and method implementing sound detection and responses thereto
Chen et al. Audio-based early warning system of sound events on the road for improving the safety of hearing-impaired people
Suh et al. Deep Learning-Based Hazardous Sound Classification for the Hard of Hearing and Deaf
KR101748270B1 (ko) 음향 추적 정보 제공 방법, 차량용 음향 추적 장치, 및 이를 포함하는 차량
KR101901800B1 (ko) 음향 추적 정보 제공 방법, 차량용 음향 추적 장치, 및 이를 포함하는 차량

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant