WO2024101730A1

WO2024101730A1 - 인공지능 신경망 학습방법 및 학습 시스템

Info

Publication number: WO2024101730A1
Application number: PCT/KR2023/016764
Authority: WO
Inventors: 장지호; 조완호
Original assignee: 한국표준과학연구원; 비즈웨이브 주식회사
Priority date: 2022-11-08
Filing date: 2023-10-26
Publication date: 2024-05-16
Also published as: KR20240066662A

Abstract

본 발명은 인공지능 신경망 학습방법 및 시스템에 관한 것으로, 더욱 상세하게는 서로 다른 경우에서 생성되는 입력지도와 목표지도를 이용하여 인공지능 신경망을 학습시킴으로써 음원지도에서 배경소음의 영향을 저감시킬 수 있는 인공지능 신경망 학습방법 및 시스템에 관한 것이다. 본 발명의 일 실시 예에 따른 인공지능 신경망 학습방법은, 배경소음 획득부에 의해 특정 장소에 존재하는 배경소음이 획득되는 배경소음 획득단계, 입력지도 생성부에 의해 상기 특정 장소에 가상의 목표음이 존재하는 것으로 가정되고, 상기 가상의 목표음이 존재하는 것으로 가정한 특정 장소에 대한 입력지도가 생성되는 입력지도 생성단계, 목표지도 생성부에 의해 상기 특정 장소에 상기 가상의 목표음만 존재하는 경우에 대한 목표지도가 생성되는 목표지도 생성단계 및 신경망 학습부에 의해 상기 입력지도가 입력되는 경우, 상기 목표지도를 출력하도록 인공지능 신경망이 학습되는 신경망 학습단계를 포함할 수 있다. 본 발명에 따르면, 배경소음이 음원지도에 미치는 영향을 줄여 음원지도의 활용범위를 넓힐 수 있다.

Description

인공지능 신경망 학습방법 및 학습 시스템

본 발명은 인공지능 신경망 학습방법 및 시스템에 관한 것으로, 더욱 상세하게는 실제 산업현장에서 획득된 배경소음과 가상의 목표음을 이용하여 생성되는 입력지도와 가상의 목표음을 이용하여 생성된 목표지도를 이용하여 인공지능 신경망을 학습시키는 인공지능 신경망 학습방법 및 시스템에 관한 것이다.

음원지도란 특정 영역에 존재하는 임의의 음원들의 위치 및 세기를 표시한 이미지를 의미한다. 음원지도의 대표적인 예시로는 빔포밍(Beamforming) 방 법을 통해 형성되는 빔포밍 지도(Beamforming map)가 있다. 이때, 음원들의 위치 및 세기는 마이크로폰 어레이를 이용하여 취득한 음압값으로부터 산출될 수 있다.

음원지도를 획득하는 종래기술로서, 빔형성 방법(예; 시간지연-합 빔형성(delay-and-sum beamforming) 등)을 사용하여 음원 지도를 얻는 방법 및 point spread function(PSF)를 이용한 반복적인 계산을 통해 공간 분해능을 향상시 킨 디컨볼루션 방법 등이 있다.

특히, 최근에는 음원지도 획득방법에 있어서 딥러닝을 이용한 기술 들이 제안되고 있으며, 이러한 딥러닝 기반 음원지도 획득 기술은, Grid-based, Grid-free 및 목표 지도 기반 방법 등 3가지 부류로 분류된다.

그러나, 실제로 많은 산업 현장은 배경 소음이 심하여, 기존의 방법으로는 원하는 음원의 위치를 찾지 못하는 경우가 많다. 이는 배경소음에 의한 영향이 음원지도에 나타나고, 찾고자 하는 목표음의 위치가 배경소음에 의한 영향에 의해 가려져 잘 보이지 않기 때문이다. 이로 인해 음원지도는 제한적인 상황에서 사용된다.

이에, 배경소음이 음원지도에 미지는 영향을 줄이기 위한 기술 개발이 필요한 실정이다.

(특허문헌 1) KR 10-2414021 B1

상기 전술한 문제점을 해결하기 위하여 본 발명은 배경소음이 존재하는 특정 장소에서 가상의 목표음이 존재하는 것으로 가정한 경우의 입력지도와 위 특정 장소에서 가상의 목표음만 존재하는 경우의 목표지도를 이용하여 인공지능 신경망을 학습시킴으로써 음원지도에서 배경소음의 영향을 저감시킬 수 있는 인공지능 신경망 학습방법 및 시스템을 제공하는 것을 목적으로 한다.

본 발명의 일 실시 예로써, 인공지능 신경망 학습방법이 제공된다.

본 발명의 일 실시 예에 따른 인공지능 신경망 학습방법은, 배경소음 획득부에 의해 특정 장소에 존재하는 배경소음이 획득되는 배경소음 획득단계, 입력지도 생성부에 의해 상기 특정 장소에 상기 배경소음과 가상의 목표음이 존재하는 경우에 대한 입력지도가 생성되는 입력지도 생성단계, 목표지도 생성부에 의해 상기 특정 장소에 상기 가상의 목표음만 존재하는 경우에 대한 목표지도가 생성되는 목표지도 생성단계 및 신경망 학습부에 의해 상기 입력지도가 입력되는 경우, 상기 목표지도를 출력하도록 인공지능 신경망이 학습되는 신경망 학습단계를 포함할 수 있다.

본 발명의 일 실시 예에 따른 인공지능 신경망 학습방법에서, 상기 배경소음 획득단계는, 상기 배경소음을 마이크로폰 어레이를 이용하여 수신하고, 전기적인 음향신호로 전환하는 것을 특징으로 할 수 있다.

본 발명의 일 실시 예에 따른 인공지능 신경망 학습방법에서, 상기 입력지도 및 목표지도는, 마이크로폰 어레이를 통해 수신된 음향신호에 포함된 음원의 위치와 세기를 나타내는 이미지이며, 상기 이미지의 픽셀값은, 상기 음원과의 거리에 따라 감소하는 것을 특징으로 할 수 있다.

본 발명의 일 실시 예로써, 인공지능 신경망 학습시스템이 제공된다.

본 발명의 일 실시 예에 따른 인공지능 신경망 학습시스템은, 특정 장소에 존재하는 배경소음을 획득하는 배경소음 획득부, 상기 특정 장소에 상기 배경소음과 가상의 목표음이 존재하는 경우에 대한 입력지도를 생성하는 입력지도 생성부, 상기 특정 장소에 상기 가상의 목표음만 존재하는 경우에 대한 목표지도를 생성하는 목표지도 생성부 및 상기 입력지도가 입력되는 경우, 상기 목표지도를 출력하도록 인공지능 신경망을 학습시키는 신경망 학습부를 포함할 수 있다.

본 발명의 일 실시 예에 따른 인공지능 신경망 학습시스템에서, 상기 배경소음 획득부는, 상기 배경소음을 마이크로폰 어레이를 이용하여 수신하고, 전기적인 음향신호로 전환하는 것을 특징으로 할 수 있다.

본 발명의 일 실시 예에 따른 인공지능 신경망 학습시스템에서, 상기 입력지도 및 목표지도는, 마이크로폰 어레이를 통해 수신된 음향신호에 포함된 음원의 위치와 세기를 나타내는 이미지이며, 상기 이미지의 픽셀값은, 상기 음원과의 거리에 따라 감소하는 것을 특징으로 할 수 있다.

본 발명의 일 실시 예로써, 전술한 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록매체가 제공된다.

본 발명에 따르면, 배경소음이 음원지도에 미치는 영향을 줄여 음원지도의 활용범위를 넓힐 수 있다.

또한, 본 발명에 따르면 배경소음뿐만 아니라, 음원지도에서 제거하고 싶은 음원을 손쉽게 제거할 수 있다는 이점이 있다.

본 개시에서 얻을 수 있는 효과는 이상에서 언급된 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시 예에 따른 인공지능 신경망 학습방법의 순서도이다.

도 2는 빔포밍 지도의 예이다.

도 3는 가상의 목표음이 존재하는 것으로 가정되는 특정 장소의 예시도이다.

도 4는 본 발명의 일 실시 예에 따른 입력지도와 목표지도의 예이다.

도 5 는 본 발명의 일 실시예에 따른 입력지도 및 목표지도를 생성하는 방법을 모식화한 도면이다.

도 6은 본 발명의 일 실시 예에 따른 인공지능 신경망의 구조이다.

도 7은 본 발명의 일 실시 예에 따른 인공지능 신경망 학습시스템의 블록도이다.

도 1은 본 발명의 일 실시 예에 따른 인공지능 신경망 학습방법의 순서도이고, 도 2는 빔포밍 지도의 예이다.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 인공지능 신경망 학습방법은 배경소음 획득단계(S100), 입력지도 생성단계(S200), 목표지도 생성단계(S300) 및 신경망 학습단계(S400)를 포함할 수 있다.

상기 배경소음 획득단계(S100)에서는 배경소음 획득부(100)에 의해 특정 장소에 존재하는 배경소음이 획득될 수 있다.

여기서, 배경소음은 버스 승강장, 놀이공원, 어린이대공원 등과 같은 장소에서 발생하는 다양한 종류의 배경소음, 비상 상태에서 일어날 수 있는 피해자의 비명 소리, 재난 및 재해 소리 등과 같이 비상상황을 나타내는 비상상황 암시소음일 수 있다.

실시예에 따라, 상기 배경소음은 사용자에 의해 특정되는 것으로, 음원지도에서 제거하고 싶은 음원일 수 있다.

실시예에 따라, 상기 배경소음 획득단계(S100)에서 상기 배경소음 획득부(100)는, 상기 배경소음을 마이크로폰 어레이를 이용하여 수신하고, 전기적인 음향신호로 전환하는 것을 특징으로 할 수 있다.

예를 들어, 상기 배경소음은 측정장치의 측정면 (Measurement plane)에 다수의 마이크로폰(microphone)을 배열하여 마이크로폰 어레이를 형성하고, 마이크로폰 어레이가 x, y, z 방향에서 수신한 측정신호로부터 음원면상의 각 음원들의 위치 및 세기를 예측함으로써 생성되는 것으로 도 2에 도시된 바와 같은 빔포밍 지도일 수 있다.

이때, 빔포밍 지도란, 빔형성(beamforming) 방법을 통해 형성된 음 원지도로서, 음원에 대한 다양한 음장정보를 갖는 것을 의미할 수 있다.

도 3는 가상의 목표음이 존재하는 것으로 가정되는 특정 장소의 예시도이고, 도 4(a)는 본 발명의 일 실시 예에 따른 입력지도의 예, 도 4(b)는 목표지도의 예이다.

실시예에 따라, 입력지도 생성단계(S200)에서는 입력지도 생성부(200)에 의해 배경소음과 가상의 목표음이 존재하는 특정 장소에 대한 입력지도가 생성될 수 있다.

도 3을 참조하면, 입력지도 생성단계(S200)에서 입력지도 생성부(200)는 배경소음 획득단계에서 획득한 배경소음(A,B)이 존재하는 특정 장소에 가상의 목표음(X)이 존재하는 것으로 가정하고, 상기 가상의 목표음(X)이 존재하는 것으로 가정된 특정 장소에 대한 입력지도를 생성할 수 있다.이때, 목표음이란 배경소음이 존재하는 특정 장소에서 추출하고 싶은 음원을 의미할 수 있으며, 가상의 목표음이 존재하는 것으로 가정되는 특정 장소에는 배경소음이 존재하고 있을 수 있다.

실시 예에 따라, 본 발명의 일 실시예에 따른 목표지도 생성단계(S300)에서는 목표지도 생성부(300)에 의해 특정 장소에 가상의 목표음만 존재하는 경우에 대한 목표지도가 생성될 수 있다.

즉, 입력지도는 배경소음과 가상의 목표음이 모두 존재하는 경우의 특정 장소에 대한 음원지도이고, 목표지도는 가상의 목표음 만이 존재하는 경우의 특정 장소에 대한 음원지도이다.

도 5를 참조하면, 본 발명의 일 실시예에 따른 입력지도 및 목표지도는 마이크로폰 어레이를 통해 수신된 음향신호에 포함된 음원의 위치와 세기를 나타내는 이미지일 수 있다. 이때, 상기 이미지의 픽셀값은, 상기 음원과의 거리에 따라 감소하는 것을 특징으로 할 수 있다.

즉, 본 발명에 따른 입력지도 및 목표지도는 음원이 존재하는 특정 영역에 대하여 임의로 생성된 격자 내의 각 좌표와 음원 사이의 거리를 입력값으로 하는 함수를 이용하여 생성될 수 있다. 이때, 상기 함수는 하기의 [수학식 1]과 같이 표현될 수 있다.

(여기서, R은 좌표와 음원 사이의 거리, A는 음원의 세기, N 및

은 상수이다.)

예를 들어, 입력지도와 목표지도는 임의의 음원이 존재하는 특정 영역에 대하여 소정 범위의 간격(K)을 갖는 격자를 생성하는 과정, 상기 격자의 각 좌표((1,1), (1,2), (1,3)등)들과 해당 음원(A, B, C) 사이의 거리(R)를 산출하는 과정 및 상기 격자의 각 좌표들과 해당 음원 사이의 거리(R)를 상기 [수학식 1]에 대입하여 결과 값(f)을 산출하고, 상기 결과값을 목표지도를 구성하는 각 픽셀 값으로 지정하는 과정을 통해 생성될 수 있다.

그러나, 입력지도와 목표지도를 생성하는 과정 및 이에 사용되는 함수는 전술한 과정과 [수학식 1]에 한정되는 것은 아니며, 음원의 위치에서 결과값이 최대이고 음원과의 거리에 따라 결과값이 감소하는 경향을 갖는 것이라면 어느 것이든 적용이 가능할 것이다.

실시 예에 따라, 신경망 학습단계(S400)에서는 신경망 학습부(400)에 의해 상기 입력지도가 입력되는 경우, 상기 목표지도를 출력하도록 인공지능 신경망이 학습되는 신경망 학습단계(S400)를 포함할 수 있다.

도 6을 참조하면, 본 발명의 일 실시 예에 따라 학습된 인공지능 신 경망은 인코더 네트워크(Encoder Network)(도 6(a))와 디코더 네트워크 (Decoder network)(도 6(b))를 포함하고, 상기 인코더 네트워크에서 추출한 특징을 상기 디코더 네트워크로 전송 하는 구조를 가질 수 있다.

그러나, 인코더 네트워크에 입력된 데이터로부터 특징을 추출하여 학습에 사용된 데이터와 입력 데이터를 비교하여 결과 값을 출력하는 구조라면 도 6에 도시된 구조의 모델 외에 다양한 구조의 인공지능 신경망 모델이 적용될 수 있을 것이다.

한편, 상술한 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 방법에서 사용된 데이터 의 구조는 컴퓨터로 읽을 수 있는 기록매체에 여러 수단을 통하여 기록될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 램, USB, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브 이디 등)와 같은 저장매체를 포함한다.

본 발명의 일 실시 예에 따른 시스템과 관련하여서는 전술한 방법에 대한 내용이 적용될 수 있다. 따라서, 시스템과 관련하여 전술한 방법에 대한 내용과 동일한 내용에 대하여는 설명을 생략한다.

도 7을 참조하면, 본 발명의 일 실시 예에 따른 인공지능 신경망 학습시스템은 배경소음 획득부(100), 입력지도 생성부(200), 목표지도 생성부(300) 및 신경망 학습부(400)를 포함할 수 있다.

배경소음 획득부(100)는 특정 장소에 존재하는 배경소음을 획득할 수 있다.

실시예에 따라, 상기 배경소음 획득부(100)는, 상기 배경소음을 마이크로폰 어레이를 이용하여 수신하고, 전기적인 음향신호로 전환하는 것을 특징으로 할 수 있다.

입력지도 생성부(200)는 특정 장소에 배경소음과 가상의 목표음이 존재하는 경우에 대한 입력지도를 생성할 수 있다.

목표지도 생성부(300)는 특정 장소에 상기 가상의 목표음만 존재하는 경우에 대한 목표지도를 생성할 수 있다.

실시예에 따라, 상기 입력지도 및 목표지도는, 마이크로폰 어레이를 통해 수신된 음향신호에 포함된 음원의 위치와 세기를 나타내는 이미지이며, 상기 이미지의 픽셀값은, 상기 음원과의 거리에 따라 감소하는 것을 특징으로 할 수 있다.

신경망 학습부(400)는 입력지도가 입력되는 경우, 상기 목표지도를 출력하도록 인공지능 신경망을 학습시킬 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며, 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

배경소음 획득부에 의해 특정 장소에 존재하는 배경소음이 획득되는 배경소음 획득단계;

입력지도 생성부에 의해 상기 특정 장소에 상기 배경소음과 가상의 목표음이 존재하는 경우에 대한 입력지도가 생성되는 입력지도 생성단계;

목표지도 생성부에 의해 상기 특정 장소에 상기 가상의 목표음만 존재하는 경우에 대한 목표지도가 생성되는 목표지도 생성단계; 및

신경망 학습부에 의해 상기 입력지도가 입력되는 경우, 상기 목표지도를 출력하도록 인공지능 신경망이 학습되는 신경망 학습단계를 포함하는, 인공지능 신경망 학습방법.
제 1 항에 있어서,

상기 배경소음 획득단계는,

상기 배경소음을 마이크로폰 어레이를 이용하여 수신하고, 전기적인 음향신호로 전환하는 것을 특징으로 하는, 인공지능 신경망 학습방법.
제 1 항에 있어서,

상기 입력지도 및 목표지도는,

마이크로폰 어레이를 통해 수신된 음향신호에 포함된 음원의 위치와 세기를 나타내는 이미지이며,

상기 이미지의 픽셀값은, 상기 음원과의 거리에 따라 감소하는 것을 특징으로 하는, 인공지능 신경망 학습방법.
특정 장소에 존재하는 배경소음을 획득하는 배경소음 획득부;

상기 특정 장소에 상기 배경소음과 가상의 목표음이 존재하는 경우에 대한 입력지도를 생성하는 입력지도 생성부;

상기 특정 장소에 상기 가상의 목표음만 존재하는 경우에 대한 목표지도를 생성하는 목표지도 생성부; 및

상기 입력지도가 입력되는 경우, 상기 목표지도를 출력하도록 인공지능 신경망을 학습시키는 신경망 학습부를 포함하는, 인공지능 신경망 학습시스템.
제 4 항에 있어서,

상기 배경소음 획득부는,

상기 배경소음을 마이크로폰 어레이를 이용하여 수신하고, 전기적인 음향신호로 전환하는 것을 특징으로 하는, 인공지능 신경망 학습시스템.
제 4 항에 있어서,

상기 입력지도 및 목표지도는,

마이크로폰 어레이를 통해 수신된 음향신호에 포함된 음원의 위치와 세기를 나타내는 이미지이며,

상기 이미지의 픽셀값은, 상기 음원과의 거리에 따라 감소하는 것을 특징으로 하는, 인공지능 신경망 학습시스템.
제 1 항 내지 제 3 항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록매체.