KR101842612B1

KR101842612B1 - 딥러닝을 이용한 관심 음향 인식 방법 및 장치

Info

Publication number: KR101842612B1
Application number: KR1020160132071A
Authority: KR
Inventors: 고한석; 문성규
Original assignee: 고려대학교 산학협력단
Priority date: 2016-10-12
Filing date: 2016-10-12
Publication date: 2018-03-27

Abstract

모델 생성부가, 미리 저장된 복수의 관심 음향 데이터 및 복수의 비관심 음향 데이터를 딥러닝(Deep Learning)에 기초해 학습하여 관심 음향 인식 모델을 생성하는 단계, 유사도 점수 산출부가, 외부로부터 수집된 음향 데이터인 수집 음향 데이터를 관심 음향 인식 모델에 입력하여 수집 음향 데이터에 대한 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 각각 산출하는 단계 및 관심 음향 판단부가, 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 비교하여, 수집 음향 데이터가 관심 음향인지 여부를 판단하는 단계를 포함하는 것을 특징으로 하는, 딥러닝을 이용한 관심 음향 인식 방법 및 장치에 관한 것이다.

Description

딥러닝을 이용한 관심 음향 인식 방법 및 장치{METHOD AND APPARATUS FOR RECOGNIZING TARGET SOUND USING DEEP LEARNING}

본 발명은 딥러닝을 이용하여 관심 음향을 인식하기 위한 딥러닝을 이용한 관심 음향 인식 방법 및 장치에 관한 것이다.

현재 많은 사람들은 각종 음향에 지속적으로 노출되게 되며, 이러한 각종 음향들 중 특히나 차량의 경적음, 소화전의 비상벨소리, 아기의 울음소리를 비롯하여 사람들에게 위험한 상황을 알리는 음향인 관심 음향에 대해서 많은 사람들은 특별히 주의를 기울일 것이 요구된다.

그러나, 최근 스마트폰 등 각종 시청각 기기들이 발달함에 따라서, 사용자들은 이어폰을 꼽고 있거나, 스마트폰의 화면 등에 집중하기 때문에 상술한 바와 같은 위험한 상황을 알리는 관심 음향에 대해 항상 주의를 집중할 수 없는 문제가 있다.

심지어, 청각장애인의 경우에는 스마트폰의 화면 등에 집중하고 있지 않더라도, 소리를 들을 수 없기 때문에 상술한 바와 같은 위험한 상황을 알리는 관심 음향을 들을 수가 없는 문제가 있다.

이러한 문제를 해결하기 위하여, 차량의 경적음 등에 대하여 주파수 영역에서 주파수 파워의 크기가 특정 임계값을 초과하는 경우, 해당되는 음향이 차량 경적음임을 판단하는 방법 등이 제기되었으나, 이러한 방법들은 주파수 영역에서 수행 되기 때문에 시간 영역에서 수집된 음향을 주파수 영역에서의 음향으로 도메인 변환을 하기 위해 연산량이 늘어나는 문제가 있다.

나아가, 종래의 방법에서는 시간 영역에서 수집된 음향에 다양한 잡음이 포함되기 때문에, 시간 영역에서 수집된 음향을 주파수 영역으로 도메인 변환을 하더라도 잡음의 영향으로 수집된 음향이 차량의 경적음 등 위험한 상황을 알리는 음향으로 정확하게 인식될 수 없는 문제가 있다.

한국 공개특허공보 제10-1999-0083808호(1999.12.06.)

본 발명의 목적은, 상기 문제점을 해결하기 위한 것으로, 딥러닝(Deep Learning)에 기초하여, 관심 음향 데이터 및 비관심 음향 데이터를 학습하여, 외부로부터 수집된 음향 데이터에 대한 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 산출하여, 외부로부터 수집된 음향 데이터가 관심 음향인지 여부를 판단하기 위함이다.

나아가, 본 발명의 목적은, 상기 문제점을 해결하기 위한 것으로, 관심 음향 데이터 및 비관심 음향 데이터를 시간 영역에서 학습하여, 주파수 영역으로 변환하는 연산을 거치지 않을 수 있도록 하기 위함이다.

본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제(들)로 제한되지 않으며, 언급되지 않은 또 다른 과제(들)은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 딥러닝을 이용한 관심 음향 인식 방법은, 모델 생성부가, 미리 저장된 복수의 관심 음향 데이터 및 복수의 비관심 음향 데이터를 딥러닝(Deep Learning)에 기초해 학습하여 관심 음향 인식 모델을 생성하는 단계, 유사도 점수 산출부가, 외부로부터 수집된 음향 데이터인 수집 음향 데이터를 관심 음향 인식 모델에 입력하여 수집 음향 데이터에 대한 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 각각 산출하는 단계 및 관심 음향 판단부가, 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 비교하여, 수집 음향 데이터가 관심 음향인지 여부를 판단하는 단계를 포함한다.

예컨대, 관심 음향 인식 모델을 생성하는 단계에서, 모델 생성부는, 복수의 관심 음향 데이터 및 복수의 비관심 음향 데이터를 관심 음향 레퍼런스 데이터 및 비관심 음향 레퍼런스 데이터와 비교하여 관심 음향 인식 모델을 생성한다.

예를 들어, 관심 음향인지 여부를 판단하는 단계에서, 관심 음향 유사도 점수가 비관심 음향 유사도 점수보다 큰 경우, 관심 음향 판단부는, 수집 음향 데이터를 관심 음향으로 판단하고, 비관심 음향 유사도 점수가 관심 음향 유사도 점수보다 큰 경우, 관심 음향 판단부는, 수집 음향 데이터를 비관심 음향으로 판단한다.

예컨대, 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 각각 산출하는 단계에서, 유사도 점수 산출부는, 관심 음향 유사도 점수 및 비관심 음향 유사도 점수 각각을 정규화하여 정규화 관심 음향 유사도 점수 및 정규화 비관심 음향 유사도 점수를 각각 산출하며, 관심 음향인지 여부를 판단하는 단계는, 정규화 관심 음향 유사도 점수 및 정규화 비관심 음향 유사도 점수에 기초하여 수행된다.

예컨대, 정규화 관심 음향 유사도 점수 및 정규화 비관심 음향 유사도 점수의 합은 1인 것을 특징으로 한다.

일 실시예에 따르면, 복수의 관심 음향 데이터, 복수의 비관심 음향 데이터 및 수집 음향 데이터는 모두 시간 영역에서의 음향 데이터인 것을 특징으로 한다.

예컨대, 관심 음향이 차량의 경적음인 경우, 미리 저장된 복수의 관심 음향 데이터는, 복수의 차종별 경적음 데이터 및 복수의 환경별 경적음 데이터 중 선택된 복수의 경적음 데이터를 포함하는 것을 특징으로 한다.

예컨대, 본 발명의 실시예에 따른 딥러닝을 이용한 관심 음향 인식 방법은 수집 음향 데이터가 관심 음향으로 판단된 경우, 알림부가, 관심 음향이 감지되었음을 외부로 알리는 단계를 더 포함한다.

상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 딥러닝을 이용한 관심 음향 인식 장치는 미리 저장된 복수의 관심 음향 데이터 및 복수의 비관심 음향 데이터를 딥러닝(Deep Learning)에 기초해 학습하여 관심 음향 인식 모델을 생성하는 모델 생성부, 외부로부터 수집된 음향 데이터인 수집 음향 데이터를 관심 음향 인식 모델에 입력하여 수집 음향 데이터에 대한 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 각각 산출하는 유사도 점수 산출부 및 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 비교하여, 수집 음향 데이터가 관심 음향인지 여부를 판단하는 관심 음향 판단부를 포함하는 것을 특징으로 한다.

본 발명의 일 실시예에 따르면, 딥러닝(Deep Learning)에 기초하여, 관심 음향 데이터 및 비관심 음향 데이터를 학습하여, 외부로부터 수집된 음향 데이터가 관심 음향인지 여부를 판단하여, 관심 음향이 감지되었음을 외부로 알려 사용자가 해당 관심 음향에 주의를 기울이지 못하는 상황에서도, 해당 사용자는 주변에서 관심 음향이 발생하였음을 확인할 수 있다.

나아가, 본 발명의 일 실시예에 따르면, 딥러닝(Deep Learning)에 기초하여, 관심 음향 데이터 및 비관심 음향 데이터를 시간 영역에서 학습하여, 주파수 영역으로 변환하는 연산을 거치지 않을 수 있어, 연산량을 대폭 감소시키는 효과가 있다.

도 1은 본 발명의 실시예에 따른, 딥러닝을 이용한 관심 음향 인식 장치를 설명하기 위한 구성도이다.
도 2는 본 발명의 실시예에 따른, 딥러닝을 이용한 관심 음향 인식 방법을 설명하기 위한 순서도이다.
도 3은 본 발명의 실시예에 따른, 딥러닝을 이용한 관심 음향 인식 방법 및 장치에서, 시간 영역에서의 음향 데이터를 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따른, 딥러닝을 이용한 관심 음향 인식 방법 및 장치에서 관심 음향 인식 모델을 설명하기 위한 도면이다.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시예를 첨부 도면을 참조하여 설명하기로 한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

이하, 본 발명의 실시예에 따른 딥러닝을 이용한 관심 음향 인식 방법 및 장치를 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다.

도 1은 본 발명의 실시예에 따른, 딥러닝을 이용한 관심 음향 인식 장치를 설명하기 위한 구성도이다.

도 1에 도시된 바와 같이, 본 발명의 실시예에 따른, 딥러닝(Deep Learning)을 이용한 관심 음향 인식 장치(100)는 모델 생성부(110), 유사도 점수 산출부(120) 및 관심 음향 판단부(130)를 포함한다.

나아가, 도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 딥러닝(Deep Learning)을 이용한 관심 음향 인식 장치(100)는 데이터베이스(140), 마이크(150) 및 알림부(160)를 더 포함할 수 있으나, 본 발명은 이에 한정되지 않는다.

모델 생성부(110)는 미리 저장된 복수의 관심 음향 데이터 및 복수의 비관심 음향 데이터를 딥러닝(Deep Learning)에 기초해 학습하여 관심 음향 인식 모델을 생성한다.

유사도 점수 산출부(120)는 외부로부터 수집된 음향 데이터인 수집 음향 데이터를 관심 음향 인식 모델에 입력하여 수집 음향 데이터에 대한 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 각각 산출한다.

관심 음향 판단부(130)는 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 비교하여, 수집 음향 데이터가 관심 음향인지 여부를 판단한다.

데이터베이스(140)는 모델 생성부(110)가 관심 음향 인식 모델을 생성하기 위하여, 복수의 관심 음향 데이터, 복수의 비관심 음향 데이터, 관심 음향 레퍼런스 데이터 및 비관심 음향 레퍼런스 데이터를 각각 저장할 수 있다.

마이크(150)는 유사도 점수 산출부(120)가 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 산출하는 대상이 되는 음향 데이터인 수집 음향 데이터를 수집한다.

알림부(160)는 수집 음향 데이터가 관심 음향으로 판단된 경우, 관심 음향이 감지되었음을 외부로 알린다.

예컨대, 알림부(160)는 외부로 빛을 발산하는 발광 소자, 진동을 발생시키는 진동 소자, 소리를 외부로 발산하는 스피커를 비롯하여, 관심 음향이 감지되었음을 외부로 알리기 위한 각종 소자를 포함할 수 있다.

예를 들어, 알림부(160)가 발광 소자인 경우, 알림부(160)는 마이크(150)가 수집한 수집 음향 데이터가 유사도 점수 산출부(120) 및 관심 음향 판단부(130)의 처리를 거쳐 관심 음향으로 판단된 때, 외부로 빛을 발산하여 사용자가 주변에서 관심 음향이 감지되었음을 시각적으로 인식하도록 할 수 있다.

예를 들어, 알림부(160)가 진동 소자인 경우, 알림부(160)는 마이크(150)가 수집한 수집 음향 데이터가 유사도 점수 산출부(120) 및 관심 음향 판단부(130)의 처리를 거쳐 관심 음향으로 판단된 때, 진동을 발생하여 사용자가 주변에서 관심 음향이 감지되었음을 촉각으로 인식하도록 할 수 있다.

예를 들어, 알림부(160)가 스피커인 경우, 알림부(160)는 마이크(150)가 수집한 수집 음향 데이터가 유사도 점수 산출부(120) 및 관심 음향 판단부(130)의 처리를 거쳐 관심 음향으로 판단된 때, 관심 음향보다 더 큰 소리를 발생하거나 반복적인 경고음을 발생하여, 사용자가 관심 음향에 대해 주의를 기울이도록 할 수 있다.

본 발명의 실시예에 따른, 딥러닝(Deep Learning)을 이용한 관심 음향 인식 장치(100)의 각각의 구성에 대한 보다 상세한 설명은 이하 도 2 내지 도 4를 참조하여 후술하도록 하며, 중복되는 설명은 생략한다.

이제, 도 2 내지 도 4를 동시에 참조하여, 본 발명의 실시예에 따른, 딥러닝을 이용한 관심 음향 인식 방법을 설명한다.

도 2는 본 발명의 실시예에 따른, 딥러닝을 이용한 관심 음향 인식 방법을 설명하기 위한 순서도이고, 도 3은 본 발명의 실시예에 따른, 딥러닝을 이용한 관심 음향 인식 방법 및 장치에서, 시간 영역에서의 음향 데이터를 설명하기 위한 도면이며, 도 4는 본 발명의 실시예에 따른, 딥러닝을 이용한 관심 음향 인식 방법 및 장치에서 관심 음향 인식 모델을 설명하기 위한 도면이다.

도 2에 도시된 바와 같이, 본 발명의 실시예에 따른 딥러닝을 이용한 관심 음향 인식 방법은 딥러닝에 기초하여 관심 음향 인식 모델을 생성하는 단계(S210), 수집 음향 데이터에 대한 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 각각 산출하는 단계(S230) 및 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 비교하여, 수집 음향 데이터가 관심 음향인지 여부를 판단하는 단계(S250)를 포함한다.

S210 단계에서, 모델 생성부(110)는, 미리 저장된 복수의 관심 음향 데이터 및 복수의 비관심 음향 데이터를 딥러닝(Deep Learning)에 기초해 학습하여 관심 음향 인식 모델을 생성한다.

예컨대, 복수의 관심 음향 데이터 및 복수의 비관심 음향 데이터는 각각 데이터베이스(140)에 미리 저장되어 있을 수 있다.

일 실시예에 따라, 복수의 관심 음향 데이터는 특정 장소 또는 특정 상황에서 사용자가 관심을 가져야 하는 음향인 관심 음향에 대한 복수의 시간 영역 데이터를 의미할 수 있다.

예컨대, 관심 음향이 차량의 경적음인 경우, 복수의 관심 음향 데이터는 복수의 차종별 경적음 데이터 및 복수의 환경별 경적음 데이터 중 선택된 복수의 경적음 데이터를 포함할 수 있다.

이 경우, 차종별 경적음 데이터는 경차, 소형차, 중형차, 대형차, 트럭, 버스 등 차량의 종류에 따라 수집된 각종 경적음 데이터를 의미할 수 있고, 환경별 경적음 데이터는 비오는 날, 맑은 날, 낮, 밤, 소음이 많은 주변 환경, 소음이 적은 주변 환경을 비롯하여, 경적음 데이터가 수집된 각종 환경에 따른 각종 경적음 데이터를 의미할 수 있다.

예컨대, 관심 음향이 아기의 울음소리인 경우, 복수의 관심 음향 데이터는 복수의 연령대별 울음소리 데이터 및 복수의 환경별 울음소리 데이터 중 선택된 복수의 울음소리 데이터를 포함할 수 있다.

이 경우, 연령대별 울음소리 데이터는 아기에 나이에 따라 수집된 각종 울음소리 데이터를 의미할 수 있고, 환경별 울음소리 데이터는 비오는 날, 맑은 날, 낮, 밤, 소음이 많은 주변 환경, 소음이 적은 주변 환경을 비롯하여, 울음소리 데이터가 수집된 각종 환경에 따른 각종 울음소리 데이터를 의미할 수 있다.

상술한 바와 같이, 본 발명의 실시예에 따른 딥러닝을 이용한 관심 음향 인식 방법에서, S250 단계에서 판단하는 대상이 되는 관심 음향은 사용자가 운전자인 경우 주변 차량의 경적음, 사용자가 아기의 부모인 경우 아기의 울음소리, 사용자가 소방관인 경우 사이렌 소리 등으로 다양하게 선택될 수 있으며, 본 발명은 특정 관심 음향을 인식하기 위한 것으로 한정되지 않는다.

일 실시예에 따라, 복수의 비관심 음향 데이터는 특정 장소 또는 특정 상황에서 사용자가 관심을 가져야 하는 음향인 관심 음향을 제외한 다른 음향인 비관심 음향에 대한 복수의 시간 영역 데이터를 의미할 수 있다.

예를 들어, 관심 음향이 차량의 경적음인 경우, 복수의 비관심 음향 데이터는 차량의 경적음 데이터를 제외한 각종 다른 음향 데이터를 의미할 수 있다.

상술한 예시의 경우, 관심 음향이 차량의 경적음이기 때문에, 발자국 소리 데이터, 울음소리 데이터, 박수 소리 데이터 등 차량의 경적음을 제외한 각종 다른 음향 데이터들은 비관심 음향 데이터로 선정될 수 있다.

예를 들어, 복수의 관심 음향 데이터 및 복수의 비관심 음향 데이터 각각은 도 3에 도시된 바와 같은 형태를 가지는 시간에 대한 음향의 크기를 나타내는 시간 영역 데이터를 의미할 수 있다.

예를 들어, S210 단계에서, 모델 생성부(110)는 복수의 관심 음향 데이터 및 상기 복수의 비관심 음향 데이터를 관심 음향 레퍼런스 데이터 및 비관심 음향 레퍼런스 데이터와 비교하여 관심 음향 인식 모델을 생성할 수 있다.

예를 들어, 관심 음향 레퍼런스 데이터는 관심 음향에 대한 데이터임이 미리 저장된 음향 데이터를 의미할 수 있고, 비관심 음향 레퍼런스 데이터는 비관심 음향에 대한 데이터임이 미리 저장된 음향 데이터를 의미할 수 있다.

예를 들어, S210 단계에서, 모델 생성부(110)는 복수의 관심 음향 데이터 각각과 관심 음향 레퍼런스 데이터 간의 유사도를 각각 산출하여, 복수의 관심 음향 데이터에 대한 관심 음향 유사도 점수를 산출하는 학습을 반복할 수 있다.

예컨대, S210 단계에서, 모델 생성부(110)는 복수의 관심 음향 데이터 각각과 비관심 음향 레퍼런스 데이터 간의 유사도를 각각 산출하여, 복수의 관심 음향 데이터에 대한 비관심 음향 유사도 점수를 산출하는 학습을 반복할 수 있다.

일 실시예에 따르면, S210 단계에서, 모델 생성부(110)는 복수의 비관심 음향 데이터 각각과 관심 음향 레퍼런스 데이터 간의 유사도를 각각 산출하여, 복수의 비관심 음향 데이터에 대한 관심 음향 유사도 점수를 산출하는 학습을 반복할 수 있다.

예컨대, S210 단계에서, 모델 생성부(110)는 복수의 비관심 음향 데이터 각각과 비관심 음향 레퍼런스 데이터 간의 유사도를 각각 산출하여, 복수의 비관심 음향 데이터에 대한 비관심 음향 유사도 점수를 산출하는 학습을 반복할 수 있다.

상술한 학습의 결과로, S210 단계에서, 모델 생성부(110)는 특정 음향 데이터를 입력하면, 특정 음향 데이터와 관심 음향 간의 유사도를 나타내는 점수인 관심 음향 유사도 점수와 특정 음향 데이터와 비관심 음향 간의 유사도를 나타내는 점수인 비관심 음향 유사도 점수를 출력하는 모델인 관심 음향 인식 모델을 생성할 수 있다.

이 때, S210 단계에서, 모델 생성부(110)는 상호 상관(Cross Correlation), 코사인 유사도 등 각종 유사도 산출 알고리즘을 활용할 수 있으며, 본 발명의 실시예에 따른 딥러닝을 이용한 관심 음향 인식 방법은 특정 유사도 산출 알고리즘에 한정되지 않는다.

일 실시예에 따르면, S210 단계에서 모델 생성부(110)는 딥러닝의 알고리즘 중 하나인 심층 신경망(Deep Neural Network, DNN)을 통해 관심 음향 인식 모델을 생성할 수 있다.

이제 도 4를 참조하여, 심층 신경망을 이용하여 관심 음향 인식 모델을 생성하는 방법을 설명한다.

심층 신경망은 입력 레이어, 하나 이상의 히든 레이어(hidden layers) 및 출력 레이어를 포함한다.

이때, S210 단계에서 모델 생성부(110)가 심층 신경망을 이용하여 생성한 관심 음향 인식 모델은 입력 레이어에 특정 음향 데이터가 입력되면, 히든 레이어의 연산을 거쳐, 출력 레이어를 통해 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 출력하는 모델을 의미할 수 있다.

예컨대, S210 단계에서 모델 생성부(110)는 출력 레이어의 레이블 된 데이터(labeled data)를 이용하여 신경망의 가중치(weight)를 업데이트하는 알고리즘인 백 프로파게이션(Back Propagation) 알고리즘을 이용하여, 관심 음향 인식 모델을 생성할 수 있다.

이때, 심층 신경망 및 백 프로파게이션(Back Propagation) 알고리즘은 종래에 공지된 바와 같으므로, 그 구체적인 설명은 생략한다.

도 2를 계속 참조하여, S230 단계에 대해 설명한다.

S230 단계에서, 유사도 점수 산출부(120)는, 외부로부터 수집된 음향 데이터인 수집 음향 데이터를 관심 음향 인식 모델에 입력하여 수집 음향 데이터에 대한 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 각각 산출한다.

일 실시예에 따르면, 수집 음향 데이터는 마이크(150)가 수집한 각종 음향 데이터 중 어느 하나를 의미할 수 있다.

예컨대, S210 단계에서 생성된 관심 음향 인식 모델은 특정 음향 데이터를 입력하면, 특정 음향 데이터와 관심 음향 간의 유사도를 나타내는 점수인 관심 음향 유사도 점수와 특정 음향 데이터와 비관심 음향 간의 유사도를 나타내는 점수인 비관심 음향 유사도 점수를 산출하도록 학습되었기 때문에, S230 단계에서, 유사도 점수 산출부(120)가 수집 음향 데이터를 관심 음향 인식 모델에 입력하게 되면, 수집 음향 데이터와 관심 음향 간의 유사도를 나타내는 점수인 관심 음향 유사도 점수 및 수집 음향 데이터와 비관심 음향 간의 유사도를 나타내는 점수인 비관심 음향 유사도 점수가 각각 산출될 수 있다.

예컨대, 관심 음향 인식 모델이 도 4에 도시된 바와 같이, 심층 신경망을 통해 생성된 모델인 경우, 입력 벡터(input vector) 값으로 수집 음향 데이터가 입력되면, 히든 레이어의 연산을 거쳐, 출력 레이어를 통해 수집 음향 데이터에 대한 관심 음향 유사도 점수 및 비관심 음향 유사도 점수가 각각 출력될 수 있다.

예를 들어, 수집 음향 데이터는 도 3에 도시된 바와 같은 형태를 가지는 시간에 대한 음향의 크기를 나타내는 시간 영역 데이터를 의미할 수 있다.

이 경우, 복수의 관심 음향 데이터, 복수의 비관심 음향 데이터 및 수집 음향 데이터는 모두 시간 영역에서의 음향 데이터일 수 있다.

본 발명의 실시예에 따른, 딥러닝을 이용한 관심 음향 인식 방법 및 장치는 상술한 바와 같이 시간 영역에서의 음향 데이터를 이용하여, 수집 음향 데이터가 관심 음향인지 여부를 판단할 수 있기 때문에, 푸리에 변환(Fourier Transform)을 비롯한 각종 주파수 변환 과정을 배제할 수 있어 연산량이 감소되는 효과가 생길 수 있다.

이제, 도 2를 계속 참조하여, S250 단계에 대해 설명한다.

S250 단계에서, 관심 음향 판단부(130)는, 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 비교하여, 수집 음향 데이터가 관심 음향인지 여부를 판단한다.

예를 들어, S250 단계에서, 관심 음향 유사도 점수가 비관심 음향 유사도 점수보다 큰 경우, 관심 음향 판단부(130)는, 수집 음향 데이터를 관심 음향으로 판단하고, 비관심 음향 유사도 점수가 관심 음향 유사도 점수보다 큰 경우, 관심 음향 판단부는, 수집 음향 데이터를 비관심 음향으로 판단할 수 있다.

이제, 수집 음향 데이터에 대해 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 모두 산출하여 관심 음향을 판단하는 방법이 관심 음향 유사도 점수만을 산출하는 방법에 비해 관심 음향을 인식함에 있어서, 더 우수한 인식률을 보일 수 있는 이유를 설명한다.

S230 단계를 통해, 수집 음향 데이터에 대한 관심 음향 유사도 점수가 100점 만점에 85점으로 산출되고, 비관심 음향 유사도 점수가 100점 만점에 90점으로 산출된 경우를 예로 든다.

상술한 예시에서, 본 발명의 실시예에 따른 딥러닝을 이용한 관심 음향 인식 방법 및 장치에 따르면, 비관심 음향 유사도 점수가 관심 음향 유사도 점수보다 크기 때문에, 수집 음향 데이터는 비관심 음향으로 판단될 수 있다.

반면에, 관심 음향 유사도 점수만을 산출하여 임계값을 적용하는 방법에 따르면, 임계값의 크기에 따라, 수집 음향 데이터는 관심 음향 또는 비관심 음향으로 분류되기 때문에, 상술한 예시에서와 같이, 수집 음향 데이터가 관심 음향 및 비관심 음향 모두와 높은 유사도 점수를 갖는 경우 또는 수집 음향 데이터가 관심 음향 및 비관심 음향 모두와 낮은 유사도 점수를 갖는 경우에서는 관심 음향을 인식하는 인식률이 떨어질 수 있으며, 상술한 예시에서, 관심 음향 유사도 점수에 임계값을 적용하는 방법을 이용하는 경우, 임계값이 80점이라면 수집 음향 데이터는 비관심 음향 유사도 점수가 90점 관심 음향 유사도 점수가 85점으로, 비관심 음향과 더 유사한 음향임에도 관심 음향으로 판단되게 된다.

이제, 도 2를 계속 참조하여, S230 단계에서 유사도 점수 산출부가 정규화 관심 음향 유사도 점수 및 정규화 비관심 음향 유사도 점수를 산출하는 다른 실시예에 대해 설명한다.

이 경우, 유사도 점수 산출부(120)는, 관심 음향 유사도 점수 및 비관심 음향 유사도 점수 각각을 정규화하여 정규화 관심 음향 유사도 점수 및 정규화 비관심 음향 유사도 점수를 각각 산출하며, S250 단계는, 정규화 관심 음향 유사도 점수 및 정규화 비관심 음향 유사도 점수에 기초하여 수행될 수 있다.

예를 들어, S230 단계에서 유사도 점수 산출부(120)가 정규화 관심 음향 유사도 점수 및 정규화 비관심 음향 유사도 점수를 산출하는 다른 실시예의 경우, 유사도 점수 산출부(120)는 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 서로 합하여, 음향 유사도 점수합을 산출할 수 있다.

그 뒤, 유사도 점수 산출부(120)는 관심 음향 유사도 점수를 음향 유사도 점수합으로 나눠 정규화 관심 음향 유사도 점수를 산출하고, 비관심 음향 유사도 점수를 음향 유사도 점수합으로 나눠 정규화 비관심 음향 유사도 점수를 산출할 수 있다.

이 경우, 정규화 관심 음향 유사도 점수 및 정규화 비관심 음향 유사도 점수의 합은 1일 수 있다.

예를 들어, 본 발명의 실시예에 따른 딥러닝을 이용한 관심 음향 인식 방법은 S250 단계에서, 수집 음향 데이터가 관심 음향으로 판단된 경우, 알림부(160)가, 관심 음향이 감지되었음을 외부로 알리는 단계를 더 포함할 수 있다.

예컨대, 알림부(160)는 외부로 빛을 발산하는 발광 소자, 진동을 발생시키는 진동 소자, 소리를 외부로 발산하는 스피커를 비롯하여, 관심 음향이 감지되었음을 외부로 알리기 위한 각종 소자를 포함할 수 있으며, 알림부(160)에 대한 보다 구체적인 설명은 도 1에서 설명한 바와 같으므로 중복되는 설명은 생략한다.

관심 음향을 경적음으로 하여, 특정 도로에서 3시간 동안 복수의 관심 음향 데이터를 수집한 뒤, 본 발명의 실시예에 따른, 딥러닝을 이용한 관심 음향 인식 방법 및 장치를 통해 경적음을 인식하고, 종래의 기술을 통해 경적음을 인식하는 실험을 수행한 결과, 종래의 기술의 인식 성공률은 91.4%로 나타나고, 본 발명의 실시예에 따른, 딥러닝을 이용한 관심 음향 인식 방법 및 장치의 인식 성공률은 95.4%로 나타남을 확인할 수 있다.

이상에서 본 발명에 따른 바람직한 실시예에 대해 설명하였으나, 다양한 형태로 변형이 가능하며, 본 기술분야에서 통상의 지식을 가진 자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형예 및 수정예를 실시할 수 있을 것으로 이해된다.

100: 딥러닝을 이용한 관심 음향 인식 장치
110: 모델 생성부
120: 유사도 점수 산출부
130: 관심 음향 판단부
140: 데이터베이스
150: 마이크
160: 알림부

Claims

모델 생성부가, 미리 저장된 복수의 관심 음향 데이터 및 복수의 비관심 음향 데이터를 딥러닝(Deep Learning)에 기초해 학습하여 관심 음향 인식 모델을 생성하는 단계;
유사도 점수 산출부가, 외부로부터 수집된 음향 데이터인 수집 음향 데이터를 상기 관심 음향 인식 모델에 입력하여 상기 수집 음향 데이터에 대한 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 각각 산출하는 단계; 및
관심 음향 판단부가, 상기 관심 음향 유사도 점수 및 상기 비관심 음향 유사도 점수를 비교하여, 상기 수집 음향 데이터가 관심 음향인지 여부를 판단하는 단계를 포함하며,
상기 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 각각 산출하는 단계에서,
상기 유사도 점수 산출부는, 상기 관심 음향 유사도 점수 및 상기 비관심 음향 유사도 점수 각각을 정규화하여 정규화 관심 음향 유사도 점수 및 정규화 비관심 음향 유사도 점수를 각각 산출하며,
상기 관심 음향인지 여부를 판단하는 단계는, 상기 정규화 관심 음향 유사도 점수 및 상기 정규화 비관심 음향 유사도 점수에 기초하여 수행되는 것을 특징으로 하는, 딥러닝을 이용한 관심 음향 인식 방법.
제1항에 있어서,
상기 관심 음향 인식 모델을 생성하는 단계에서,
상기 모델 생성부는, 상기 복수의 관심 음향 데이터 및 상기 복수의 비관심 음향 데이터를 관심 음향 레퍼런스 데이터 및 비관심 음향 레퍼런스 데이터와 비교하여 상기 관심 음향 인식 모델을 생성하는 것을 특징으로 하는, 딥러닝을 이용한 관심 음향 인식 방법.
제1항에 있어서,
상기 관심 음향인지 여부를 판단하는 단계에서,
상기 관심 음향 유사도 점수가 상기 비관심 음향 유사도 점수보다 큰 경우,
상기 관심 음향 판단부는, 상기 수집 음향 데이터를 상기 관심 음향으로 판단하고,
상기 비관심 음향 유사도 점수가 상기 관심 음향 유사도 점수보다 큰 경우,
상기 관심 음향 판단부는, 상기 수집 음향 데이터를 비관심 음향으로 판단하는 것을 특징으로 하는, 딥러닝을 이용한 관심 음향 인식 방법.
삭제
제1항에 있어서,
상기 정규화 관심 음향 유사도 점수 및 상기 정규화 비관심 음향 유사도 점수의 합은 1인 것을 특징으로 하는, 딥러닝을 이용한 관심 음향 인식 방법.
제1항에 있어서,
상기 복수의 관심 음향 데이터, 상기 복수의 비관심 음향 데이터 및 상기 수집 음향 데이터는 모두 시간 영역에서의 음향 데이터인 것을 특징으로 하는, 딥러닝을 이용한 관심 음향 인식 방법.
제1항에 있어서,
상기 관심 음향이 차량의 경적음인 경우,
상기 미리 저장된 복수의 관심 음향 데이터는,
복수의 차종별 경적음 데이터 및 복수의 환경별 경적음 데이터 중 선택된 복수의 경적음 데이터를 포함하는 것을 특징으로 하는, 딥러닝을 이용한 관심 음향 인식 방법.
제1항에 있어서,
상기 수집 음향 데이터가 관심 음향으로 판단된 경우,
알림부가, 상기 관심 음향이 감지되었음을 외부로 알리는 단계를 더 포함하는 것을 특징으로 하는, 딥러닝을 이용한 관심 음향 인식 방법.
미리 저장된 복수의 관심 음향 데이터 및 복수의 비관심 음향 데이터를 딥러닝(Deep Learning)에 기초해 학습하여 관심 음향 인식 모델을 생성하는 모델 생성부;
외부로부터 수집된 음향 데이터인 수집 음향 데이터를 상기 관심 음향 인식 모델에 입력하여 상기 수집 음향 데이터에 대한 관심 음향 유사도 점수 및 비관심 음향 유사도 점수를 각각 산출하는 유사도 점수 산출부; 및
상기 관심 음향 유사도 점수 및 상기 비관심 음향 유사도 점수를 비교하여, 상기 수집 음향 데이터가 관심 음향인지 여부를 판단하는 관심 음향 판단부를 포함하며,
상기 유사도 점수 산출부는,
상기 관심 음향 유사도 점수 및 상기 비관심 음향 유사도 점수 각각을 정규화하여 정규화 관심 음향 유사도 점수 및 정규화 비관심 음향 유사도 점수를 각각 산출하며,
상기 관심 음향 판단부는,
상기 정규화 관심 음향 유사도 점수 및 상기 정규화 비관심 음향 유사도 점수에 기초하여 상기 수집 음향 데이터가 상기 관심 음향인지 여부를 판단하는 것을 특징으로 하는, 딥러닝을 이용한 관심 음향 인식 장치.