KR20210080759A

KR20210080759A - 기계 학습 기반의 실내 복도에서의 음원 위치 탐색 방법

Info

Publication number: KR20210080759A
Application number: KR1020190172645A
Authority: KR
Inventors: 서지원; 한승재; 김상현
Original assignee: 연세대학교 산학협력단
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2021-07-01

Abstract

기계 학습 기반의 실내 복도에서의 음원 위치 탐색 방법이 개시된다. 개시된 방법은, 스피커에서 출력된 음성 신호 데이터를 두 개의 마이크로 수집하는 단계; 수집한 두 개의 데이터를 하나의 데이터로 가공하는 단계; 및 주어진 실내 정보를 나타내는 파라미터를 추출하여 가공된 데이터와 함께 기계 학습 모델에 입력하여 최종적으로 음원의 x,y 좌표를 출력하는 단계를 포함한다. 개시된 방법에 의하면, 주변 환경을 고려하여 정확한 음원 위치 탐색이 가능한 장점이 있다.

Description

기계 학습 기반의 실내 복도에서의 음원 위치 탐색 방법{Method for Investigating Sound Source in Indoor Passage Way Based on Machine Learning}

본 발명은 음원 위치 탐색 방법에 관한 것으로서, 더욱 상세하게는 기계 학습 기반의 실내 복도에서의 음원 위치 탐색 방법에 관한 것이다.

음원 위치 탐색은 사운드를 발생시키는 소스의 위치를 탐색하는 기술이다. 음원 위치 탐색과 관련된 선행문헌으로 10-2017-0107098호(발명의 명칭: 오차 신호를 기반으로 한 음원 위치 탐색 방법 및 음원 위치 탐색 장치)가 있다.

해당 선행문헌의 주요 기술은 다음과 같다. 두 개의 마이크에 입력되는 신호 사이의 오차 신호를 검출하여 샘플 차, 경로 차, 지연 시간 등을 검출함으로써 최종적으로 음원의 방향을 검출하여 음원의 위치를 탐색한다. 해당 선행문헌은 주변 장애물이 없는 환경에서는 효과적으로 음원의 위치를 찾을 수 있으나, 장애물이 존재하여 소리의 잔향이 발생하는 경우에는 적용이 불가능하다는 단점이 있다. 또한 음원의 정확한 위치가 아닌, 음원의 방향을 탐색하는 것이므로 한계가 있다.

음원 위치 탐색과 관련된 다른 선행문헌으로 10-2018-0030080호(발명의 명칭: 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치)가 있다.

해당 선행문헌은 잔향 환경의 음성 데이터에서 특징 벡터들을 추출하고, 이에 따라 잔향 확률을 추정하고, 이를 통해 심화 신경망을 거쳐 음원 방향을 추정하는 방법 및 장치를 제안한다. 해당 선행문헌은 잔향 환경에서도 음원 방향을 추정할 수 있다는 장점이 있으나 이 역시 실내 환경에서 내벽의 위치 등을 고려한 정확한 음원의 위치 추정은 불가능하다.

종래의 음원 위치 탐색 기술의 문제점은 음원의 방향만을 탐색할 뿐, 주변 환경을 고려한 정확한 위치 탐색이 불가능하다는 것이다.

본 발명은 주변 환경을 고려하여 정확한 위치 탐색이 음원 위치 탐색 방법을 제안한다.

상기와 같은 목적을 달성하기 위해, 본 발명의 일 측면에 따르면, 스피커에서 출력된 음성 신호 데이터를 두 개의 마이크로 수집하는 단계; 수집한 두 개의 데이터를 하나의 데이터로 가공하는 단계; 및 주어진 실내 정보를 나타내는 파라미터를 추출하여 가공된 데이터와 함께 기계 학습 모델에 입력하여 최종적으로 음원의 x,y 좌표를 출력하는 단계를 포함하는 실내 복도에서의 음원 위치 탐색 방법이 제공된다.

본 발명에 의하면, 주변 환경을 고려하여 정확한 음원 위치 탐색이 가능한 장점이 있다.

도 1은 본 발명의 음원 위치 탐색이 적용되는 실내 복도 환경의 일례를 나타낸 도면.
도 2는 본 발명의 일 실시예에 따른 음원 위치 탐색 방법의 전체적인 흐름을 나타낸 도면.
도 3은 본 발명의 일 실시예에 따른 실내 복도 환경 변수를 나타낸 도면.
도 4는 본 발명의 일 실시예에 따른 기게학습 구조를 나타낸 도면.

이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다.

그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다.

또한 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 구비할 수 있다는 것을 의미한다.

이하 첨부된 도면을 참고하여 본 발명의 실시예를 상세히 설명하기로 한다.

본 발명은 두 마이크를 통해 음향의 잔향이 발생하는 여러 실내 복도 환경에서 음향 데이터를 얻고, 이를 이용하여 기계학습 모델을 학습시킨다. 이로써 음향 데이터를 입력해주면 음원의 정확한 x, y 좌표 위치를 출력하는 모델을 만들 수 있다. 하지만 이 과정만으로는 만들어진 모델을 다양한 실내 환경에 적용할 수 없다. 따라서 학습 과정에서, 주어진 실내 지도 정보에서 파라미터를 추출하여 함께 학습시킴으로써 보다 정확한 음원 위치 탐색이 가눙해진다.

도 1은 본 발명의 음원 위치 탐색이 적용되는 실내 복도 환경의 일례를 나타낸 도면이다.

같은 실내 복도 환경에서 일정한 주파수, 일정한 크기의 소리를 듣고 소리가 발생한 지점을 찾는다. 검은 실선이 실내 복도의 벽이고, 검정색 점이 마이크의 위치이다. 소리를 발생하는 스피커의 위치는 검은 점선의 임의의 점에 존재하고 그 위치를 두 개의 마이크를 이용하여 알아내는 시스템이다.

도 2는 본 발명의 일 실시예에 따른 음원 위치 탐색 방법의 전체적인 흐름을 나타낸 도면이다.

도 2를 참조하면, 우선 스피커에서 출력된 음성 신호 데이터를 두 개의 마이크로 수집한다. 수집한 두 개의 데이터는 하나의 데이터로 가공된다. 주어진 실내 정보를 나타내는 파라미터를 추출하여 가공된 데이터와 함께 기계 학습 모델에 입력한다. 기계 학습 모델을 통과하면 최종적으로 음원의 x,y 좌표가 출력된다.

본 발명은 두 개의 마이크를 통해 수집된 음성 신호와 실내 지도 정보를 기계 학습 모델에 입력하여 음원의 위치 정보를 추출하는 방법이다.

스피커에서 발생한 소리를 마이크를 통해 듣는다고 생각했을 때, 인간의 귀와 같이 두 개의 마이크(귀)가 있다면 소리가 어디서 발생했는지 '방향'을 알 수 있다. '방향'을 넘어서 '위치'를 알아내고 싶다면 추가적인 요인이 필요하다. 인간의 경우 귓바퀴가 이에 해당하고 만약 스피커의 크기를 알고 있다면 마이크로 들어온 소리의 크기를 이용하여 위치를 어느 정도 알아낼 수 있을 것이다.

본 발명은 여러 실내 복도 환경에서 학습된 기계학습 모델을 기반으로 실내 지도 정보 및 두 개의 마이크에 들어오는 음성 신호를 입력 받으면 음원의 2차원 위치 좌표를 출력하는 시스템이다.

여러 크기의 실내 복도 환경에서 임의의 지점에 스피커(음원)을 놓고 얻은 데이터를 바탕으로 기계 학습을 진행하였다. 학습이 진행된 이후에는 학습에 사용되지 않은 다른 실내 복도 환경과 다른 스피커(음원)의 위치에서도 높은 정확도로 음원의 위치를 찾아낸다.

임의의 환경에서 소리가 발생했을 때 두 개의 마이크로 들어온 소리를 이용하여 음원의 2차원 위치 좌표를 예상하여 찾아낸다.

도 3은 본 발명의 일 실시예에 따른 실내 복도 환경 변수를 나타낸 도면이고, 도 4는 본 발명의 일 실시예에 따른 기게학습 구조를 나타낸 도면이다.

기계 학습에는 2개의 마이크로 들어온 2개의 음성 신호와 실내 복도 환경에 대한 정보가 필요하다. 실내 복도 환경을 학습하기 위하여 실내 복도 환경을 몇 개의 변수로 추출해내는 작업이 필요하다. 도 3과 같이 실내 복도 환경에서 3개의 길이(화살표)를 변수로 사용하여 다양한 실내 환경을 3개의 숫자로 바꾸어 학습에 사용한다.

두 개의 음성 신호는 신호 그 자체를 이용하여 학습에 사용하며, 음성 신호와 실내 환경 각각을 고르게 학습시키기 위하여 각각의 parameter 개수를 비슷하게 맞춰주는 것이 필요하다.

이를 위해 도 4와 같은 구조를 만들었다. 우선 두 개의 소리에서 잡음을 제거하고 기계 학습 모델의 입력 인자로 사용한다. 몇 개의 Dense Layer를 통해 264,600개의 parameter를 가진 음성 신호를 128개의 인수로 줄인다. 실내 정보의 경우 3개의 parameter를 Dense Layer를 통하여 96개의 인수로 늘린다. 음성 신호, 실내 복도의 정보가 128개와 96개로 비슷한 수의 인수를 가지고 있기 때문에 고르게 학습이 가능하다. 또한, Layer를 너무 여러 개 사용하면 Vanishing Gradient Problem이 발생할 수 있기 때문에 적당한 수의 Layer를 사용하였다.

이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

스피커에서 출력된 음성 신호 데이터를 두 개의 마이크로 수집하는 단계;
수집한 두 개의 데이터를 하나의 데이터로 가공하는 단계; 및
주어진 실내 정보를 나타내는 파라미터를 추출하여 가공된 데이터와 함께 기계 학습 모델에 입력하여 최종적으로 음원의 x,y 좌표를 출력하는 단계를 포함하는 것을 특징으로 하는 실내 복도에서의 음원 위치 탐색 방법.