KR102199158B1 - 방위각-주파수 표현법과 합성곱 신경망 모델을 이용한 음원 위치 추정 방법 및 시스템 - Google Patents

방위각-주파수 표현법과 합성곱 신경망 모델을 이용한 음원 위치 추정 방법 및 시스템 Download PDF

Info

Publication number
KR102199158B1
KR102199158B1 KR1020200074845A KR20200074845A KR102199158B1 KR 102199158 B1 KR102199158 B1 KR 102199158B1 KR 1020200074845 A KR1020200074845 A KR 1020200074845A KR 20200074845 A KR20200074845 A KR 20200074845A KR 102199158 B1 KR102199158 B1 KR 102199158B1
Authority
KR
South Korea
Prior art keywords
sound source
microphone
neural network
network model
azimuth
Prior art date
Application number
KR1020200074845A
Other languages
English (en)
Inventor
전찬준
Original Assignee
한국건설기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국건설기술연구원 filed Critical 한국건설기술연구원
Priority to KR1020200074845A priority Critical patent/KR102199158B1/ko
Application granted granted Critical
Publication of KR102199158B1 publication Critical patent/KR102199158B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Otolaryngology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

합성곱 신경망(CNN) 모델을 이용한 음원 위치 추정 방법 및 시스템이 제공된다. 기존의 딥러닝을 이용한 음원 위치 추정 기술에서는 마이크로폰의 배치 등에 따라 매번 재학습이 필요한 문제를 해결하기 위해 소리 신호를 방위각-주파수 표현으로 변환하여 이를 CNN 모델에 학습시켜 입력함으로써 마이크로폰의 배치 변경에도 재학습이 필요하지 않도록 하여 보다 효율적인 음원 위치 추정이 가능하도록 한다.

Description

방위각-주파수 표현법과 합성곱 신경망 모델을 이용한 음원 위치 추정 방법 및 시스템{Methods and systems for estimating the location of sound sources using azimuth-frequency expression and convolution neural network model}
본 발명은 방위각-주파수 표현법과 합성곱 신경망 모델을 이용한 음원 위치 추정 방법 및 시스템에 관한 것으로서, 더욱 상세하게는 선형 마이크 어레이 환경에서 음원으로부터 발생하는 소리 신호를 복수 개의 마이크를 통해 입력 받아 소리 신호를 방위각-주파수 표현법으로 변환한 후에 합성곱 신경망 모델을 이용하여 인공지능 학습시키고 음원의 위치를 찾는 방법 및 시스템에 관한 것이다.
본 발명은 선형 마이크 어레이 환경에서 음원의 발원 방향을 딥러닝 기반으로 찾는 방법에 관한 것으로 선형 마이크 어레이의 배치에 독립적인 합성곱 신경망 모델을 만드는 방법 및 시스템에 관한 것이다.
종래 스테레오 마이크 환경에서, 음원의 발원방향에 따라서 채널간 강도차(inter-channel Level Difference, ILD) 및 시간차(Inter=channel Time Difference, ITD)가 발생하게 된다. 이러한 시간차와 강도차를 활용하여 음원의 위치를 추정하는 여러 기술이 제시되었다.
그 중에서 DNN(Deep Neural Network)은 음성 처리 분야에서 상당한 발전을 이루었으며, 음원 위치 추정에 있어 DNN 모델을 활용할 때는 고정된 입력 크기가 필요하다. 이것은 일반적으로 마이크 수, 빠른 퓨리에 변환 크기, 프레임 크기에 의해 결정된다. 마이크의 숫자나 구성이 변경되면 입력 기능의 크기가 변경되므로 DNN 모델의 재학습이 필요하다.
전술한 문제점을 해결하기 위하여 본 발명이 이루고자 하는 과제는, 방위각-주파수 표현과 CNN(Convolutional Neural Network)을 활용하여 음원의 위치를 측정함으로서 마이크 숫자나 구성의 변경에도 불구하고 추가적인 재학습 과정 없이 보다 정확한 음원의 위치 측정이 가능하도록 하는 데 있다.
본 발명의 해결 과제는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 과제들은 아래의 기재로부터 당업자가 명확하게 이해될 수 있을 것이다.
전술한 기술적 과제를 해결하기 위한 수단으로서, 본 발명의 실시예에 따르면, 합성곱 신경망 모델을 이용한 음원 위치 추정 방법은, (a) 음원으로부터 발생하는 소리 신호가 발생하는 위치를 추정하기 위하여 하나 이상의 마이크를 배치하여 소리 신호를 입력 받는 단계; (b) 입력된 소리 신호를 방위각-주파수 변경하여 표현하는 단계; 및 (c) 방위각-주파수 표현으로 나타낸 소리 신호를 합성곱 신경망 모델을 이용하여 인공지능 학습 하여 음원의 위치를 찾는 단계;를 포함하되, 상기 (b)에서 입력된 소리 신호는, 하기의 수학식 1의 형태로 나타낼 수 있다.
(수학식 1)
Figure 112020063259663-pat00001
이 때,
Figure 112020063259663-pat00002
는 감쇠 지수,
Figure 112020063259663-pat00003
는 음원과
Figure 112020063259663-pat00004
번째 마이크 사이의 지연 시간,
Figure 112020063259663-pat00005
은 마이크 개수,
Figure 112020063259663-pat00006
Figure 112020063259663-pat00007
번째 마이크에 녹음된 주변 소음이다.
상기 변경하여 표현하는 단계는, 상기 수학식 1의 형태로 나타낸 소리 신호를 K-포인트 단시간 퓨리에 변환하면 하기 수학식 2의 형태로 나타낼 수 있다.
(수학식 2)
Figure 112020063259663-pat00008
이 때,
Figure 112020063259663-pat00009
,
Figure 112020063259663-pat00010
,
Figure 112020063259663-pat00011
Figure 112020063259663-pat00012
Figure 112020063259663-pat00013
번째 스펙트럼 성분,
Figure 112020063259663-pat00014
, c는 음속,
Figure 112020063259663-pat00015
는 음원과 i번째 마이크 사이의 간격,
Figure 112020063259663-pat00016
는 샘플링 주파수이다.
상기 변경하여 표현하는 단계는, 상기 수학식 2의 형태로 나타낸 소리 신호를 방위각-주파수 표현으로 변환하여 하기 수학식 3의 형태로 나타낼 수 있다.
(수학식 3)
Figure 112020063259663-pat00017
이 때,
Figure 112020063259663-pat00018
이다.
상기 음원의 위치를 추정하는 단계는, 하나 이상의 서로 다른 마이크 배치를 가지고 있는 데이터셋을 구성하는 단계; 상기 데이터셋을 이용하여 합성곱 신경망 모델의 학습을 진행하는 단계; 및 방위각-주파수 표현으로 표현된 소리 신호를 상기 합성곱 신경망 모델에 적용하여 음원의 각도를 추정하는 단계;를 포함한다.
상기 합성곱 신경망 모델의 학습을 진행하는 단계는, 마이크의 수, 각각의 마이크의 간격, 음원에서 마이크까지의 거리, 마이크 원점의 위치, 방의 사이즈, 반사계수, 이미지의 개수 등을 달리하여 합성곱 신경망 모델을 통해 방위각-주파수 데이터를 학습 및 평가한다.
한편, 본 발명의 다른 실시예에 따르면, 합성곱 신경망 모델을 이용한 음원 위치 추정 시스템은, 음원으로부터 발생하는 소리 신호가 발생하는 위치를 추정하기 위하여 소리 신호를 입력 받는 하나 이상의 마이크; 상기 하나 이상의 마이크로부터 인식된 복수의 소리 신호들을 수신하는 통신 모듈; 수신한 소리 신호를 방위각-주파수 변경하는 변환 모듈; 및 상기 변환 모듈의 결과값을 합성곱 신경망 모델을 이용하여 인공지능 학습하여 음원의 위치를 찾는 인공지능 모듈;을 포함하되, 상기 마이크에서 입력된 소리 신호는, 하기의 수학식 1의 형태로 나타낼 수 있다.
(수학식 1)
Figure 112020063259663-pat00019
이 때,
Figure 112020063259663-pat00020
는 감쇠 지수,
Figure 112020063259663-pat00021
는 음원과
Figure 112020063259663-pat00022
번째 마이크 사이의 지연 시간,
Figure 112020063259663-pat00023
은 마이크 개수,
Figure 112020063259663-pat00024
Figure 112020063259663-pat00025
번째 마이크에 녹음된 주변 소음이다.
상기 변환 모듈은, 상기 수학식 1의 형태로 나타낸 소리 신호를 K 포인트 단시간 퓨리에 변환하면 하기 수학식 2의 형태로 나타낼 수 있다.
(수학식 2)
Figure 112020063259663-pat00026
이 때,
Figure 112020063259663-pat00027
,
Figure 112020063259663-pat00028
,
Figure 112020063259663-pat00029
Figure 112020063259663-pat00030
Figure 112020063259663-pat00031
번째 스펙트럼 성분,
Figure 112020063259663-pat00032
, c는 음속,
Figure 112020063259663-pat00033
는 음원과 i번째 마이크 사이의 간격,
Figure 112020063259663-pat00034
는 샘플링 주파수이다.
상기 변환 모듈은, 상기 수학식 2의 형태로 나타낸 소리 신호를 방위각-주파수 표현으로 변환하여 하기 수학식 3의 형태로 나타낼 수 있다.
(수학식 3)
Figure 112020063259663-pat00035
이 때,
Figure 112020063259663-pat00036
이다.
상기 인공지능 모듈은, 하나 이상의 서로 다른 마이크 배치를 가지고 있는 데이터셋을 구성하고, 상기 데이터셋을 이용하여 합성곱 신경망 모델의 학습을 진행하며, 방위각-주파수 표현으로 표현된 소리 신호를 상기 합성곱 신경망 모델에 적용하여 음원의 각도를 추정한다.
상기 인공지능 모듈은, 마이크의 수, 각각의 마이크의 간격, 음원에서 마이크까지의 거리, 마이크 원점의 위치, 방의 사이즈, 반사 계수, 이미지의 개수 등을 달리하여 합성곱 신경망 모델을 통해 방위각-주파수 데이터를 학습 및 평가한다.
본 발명에 따르면,
방위각-주파수 표현과 CNN(Convolutional Neural Network)을 활용하여 음원의 위치를 측정함으로서 마이크 숫자나 구성의 변경에도 불구하고 추가적인 재학습 과정 없이 보다 정확한 음원의 위치 측정이 가능하다.
본 발명의 효과는 이상에서 언급된 것들에 한정되지 않으며, 언급되지 아니한 다른 효과들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
도 1은 음원의 방향에 다른 ILD 및 ITD를 나타낸 설명도,
도 2는 다양한 마이크의 방향 별 방사 패턴,
도 3은 본 발명의 실시예에 의한 음원 위치 추정 방법의 순서도,
도 4는 방위각 함수로서 백색 소음의 방위각-주파수 표현의 예시도,
도 5는 방위각 함수로서 음성 신호의 방위각-주파수 표현의 예시도,
도 6는 본 발명의 실시예에 의한 음원 위치 찾기를 위한 CNN 아키텍처의 예시도,
도 7은 도 3의 CNN 모델을 이용하여 음원 위치 측정하는 단계를 나타내는 순서도,
도 8은 본 발명의 실시예에 의한 음원 위치 추정 시스템의 구성도이다.
이상의 본 발명의 목적들, 다른 목적들, 특징들 및 이점들은 첨부된 도면과 관련된 이하의 바람직한 실시 예들을 통해서 쉽게 이해될 것이다. 그러나 본 발명은 여기서 설명되는 실시 예들에 한정되지 않고 다른 형태로 구체화될 수도 있다. 오히려 여기서 소개되는 실시 예들은 개시된 내용이 철저하고 완전해질 수 있도록, 그리고 당업자에게 본 발명의 사상이 충분히 전달될 수 있도록 하기 위해 제공되는 것이다.
본 명세서에서 제1, 제2 등의 용어가 구성요소들을 기술하기 위해서 사용된 경우, 이들 구성요소들이 이 같은 용어들에 의해서 한정되어서는 안 된다. 이들 용어들은 단지 어느 구성요소를 다른 구성요소와 구별시키기 위해서 사용되었을 뿐이다. 여기에 설명되고 예시되는 실시 예들은 그것의 상보적인 실시 예들도 포함한다.
또한, 어떤 엘리먼트, 구성요소, 장치, 또는 시스템이 프로그램 또는 소프트웨어로 이루어진 구성요소를 포함한다고 언급되는 경우, 명시적인 언급이 없더라도, 그 엘리먼트, 구성요소, 장치, 또는 시스템은 그 프로그램 또는 소프트웨어가 실행 또는 동작하는데 필요한 하드웨어(예를 들면, 메모리, CPU 등)나 다른 프로그램 또는 소프트웨어(예를 들면 운영체제나 하드웨어를 구동하는데 필요한 드라이버 등)를 포함하는 것으로 이해되어야 할 것이다.
또한 본 명세서에서 사용된 용어는 실시 예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 '포함한다(comprises)' 및/또는 '포함하는(comprising)'은 언급된 구성요소는 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.
또한, 본 명세서에 기재된 'OO부', 'OO기', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, '일', '하나' 및 '그' 등의 관사는 본 발명을 기술하는 문맥에 있어서 본 명세서에 달리 지시되거나 문맥에 의해 분명하게 반박되지 않는 한, 단수 및 복수 모두를 포함하는 의미로 사용될 수 있다.
아래의 특정 실시 예들을 기술하는 데 있어서, 여러 가지의 특정적인 내용들은 발명을 더 구체적으로 설명하고 이해를 돕기 위해 작성되었다. 하지만 본 발명을 이해할 수 있을 정도로 이 분야의 지식을 갖고 있는 독자는 이러한 여러 가지의 특정적인 내용이 없어도 사용될 수 있다는 것을 인지할 수 있다.
어떤 경우에는, 발명을 기술하는 데 있어서 흔히 알려졌으면서 발명과 크게 관련 없는 부분들은 본 발명을 설명하는 데 있어 별 이유 없이 혼돈이 오는 것을 막기 위해 기술하지 않음을 미리 언급해 둔다.
이하, 본 발명에서 실시하고자 하는 구체적인 기술 내용에 대해 첨부도면을 참조하여 상세하게 설명하기로 한다.
도 1은 음원의 방향에 다른 ILD 및 ITD를 나타낸 설명도이다.
도 1을 참조하면, 스테레오 마이크 환경에서 음원의 발원방향에 따라서 채널 간 시간차(ITD)(도 1-(b)) 및 강도차(ILD)(도 1-(c)) 가 발생하게 되며, 이를 분석하여 음원의 방향을 추정할 수 있다.
방향에 따른 강도차를 활용할 경우에는 마이크의 스펙에 따라서 강도차가 다르게 나타나는 특징이 있다.
도 2는 다양한 마이크의 방향 별 방사 패턴이다.
도 2를 참조하면, 다양한 마이크의 방향 별 방사 패턴(directivity pattern)이 나타나며, Empty, 무지향성(Omnidirectiomal), 부분지향성(Subcardioid), 단일지향성(Cardioid), 고지향성(Supercardioid), 하이퍼지향성(Hypercardioid), 양지향성(Figure 8), 샷건(Shotgun) 등의 모양으로 나타날 수 있다.
이러한 시간차와 강도차를 활용하여 음원의 위치를 추정하는 기술이 많다. 상관분석 기반으로 이루어지는 GCC-PHAT(generalized cross correlation phase transform), 여러 방향으로 빔을 형성하여 최대치가 나타나는 곳을 찾는 SRP-PHAT(steered response power phase transform), 그리고 마이크 어레이 신호의 공분산 행렬(Convariance Matrix)을 구해서 고유값(eigenvalue) 기반으로 분해(decomposition)하는 MUSIC(multiple signal classification) 등이 대표적이다.
최근에는 딥러닝 기반으로 음원 위치를 추정하는 기술이 개발되고 있다.
MUSIC에서 활용되는 고유값(eigen vectors)를 전결합 레이어(fully connected layer)의 입력으로 받아서 음원의 위치를 추정하며, 합성곱 신경망(CNN)을 활용하는 기술, 합성곱 순환 신경망(Convolutional Recurrent Neural Network, CRNN)을 활용하는 기술 등이 대표적이다.
이러한 딥러닝 기반의 음원위치 추정 기술은 기존의 고전적인 음원위치 추정 기술에 비하여 성능이 좋은 것으로 알려져 있다.
다만 기존의 딥러닝 기반의 음원위치 추정 기술들은 마이크의 배치가 바뀌게 될 경우에는 다시 재학습을 해줘야 하는 불편함을 가지고 있다.
기존의 고전적인 음원위치 알고리즘들은 마이크의 배치가 바뀌게 될 경우에는 그에 상응하는 파라메타들만 조정하면 되었지만, 딥러닝 기반의 경우 입력의 텐서 크기가 바뀌고 위상차 정보에 따른 방위각 정보도 바뀌게 됨에 따라서 재학습이 필요하게 된다.
딥러닝 모델의 재학습은 일반적으로 빠르게 끝나는 것이 아니며, 충분한 시간 동안 GPU가 탑재된 컴퓨터를 활용해야 한다.
최근에, 음원 위치를 추정하기 위해 DNN(deep neural network)이 활용되고 있다.
다만 DNN 기반의 음원 위치 추정 기술은 주로 지도학습(supervised learning)을 기반으로 한다.
소리 신호는 방위각에 따른 훈련에 사용되는 이미지 방법을 사용하여 기록 또는 시뮬레이션 되며, 이후 DNN 모델은 채널 간 스펙트럼 기능을 사용하여 학습된다.
이러한 교육 과정은 하이퍼 파라미터(hyperparameters)를 조정해야 하므로 상당한 시간이 요구된다.
여기에서 마이크의 수 또는 구성이 변경되면 DNN 모델을 재학습 해야 하며, 이 경우 하이퍼 파라미터를 다시 조정해야 하기 때문이다.
또한 위상 스펙트럼을 사용한 CNN을 기반으로 한 음원 위치 추정 기술에서 CNN의 입력은 M * K 크기의 행렬이며, 여기서 M과 K는 각각 마이크 수와 주파수 빈(frequency bins) 수를 나타낸다.
마이크 수가 변경되면 CNN이 수신 한 입력 크기가 일치하지 않기 때문에 모델 재학습이 필요하며, 또한 마이크 사이의 거리가 변경되면, 각 방위 방향으로 나타날 수 있는 위상 정보가 다르기 때문에 재학습이 필요하다.
본 발명의 실시예에 따른 음원 위치 추정 시스템 및 방법에서는 모든 선형 마이크 어레이에서 작동 할 수 있는 구성 불변의 사운드 로컬라이제이션(Sound Localization) 기법이 활용된다.
본 발명에서는 CNN 모델의 입력 주파수 특성으로 시간 주파수 특성 대신 방위각-주파수 표현(azimuth-frequency representation)이 활용된다.
도 3은 본 발명의 실시예에 의한 음원 위치 추정 방법의 순서도이다.
도 3을 참조하면, 본 발명의 실시예에 의한 음원 위치 추정 방법은 음원으로부터 발생하는 소리 신호를 입력 받는 단계(S100), 입력 받은 소리 신호를 방위각-주파수 표현으로 변경하는 단계(S200), CNN 모델을 이용하여 음원의 위치를 측정하는 단계(S300)로 이루어진다.
여기서 음원으로부터 발생하는 소리 신호를 입력 받는 단계(S100)는, 선형 마이크를 통해 음원으로부터 발생하는 소리 신호를 동시에 입력받을 수 있다.
여기서 하나의 마이크 어레이에서 획득된 소리 신호는 특정 음원 신호 s(n)가 지연되고 감쇠된 버전인 하기 [수학식 1]으로 표현할 수 있다.
Figure 112020063259663-pat00037
이 때,
Figure 112020063259663-pat00038
는 감쇠 지수,
Figure 112020063259663-pat00039
는 음원과
Figure 112020063259663-pat00040
번째 선형 마이크 사이의 지연 시간,
Figure 112020063259663-pat00041
은 선형 마이크 개수,
Figure 112020063259663-pat00042
Figure 112020063259663-pat00043
번째 선형 마이크에 녹음된 주변 소음이다.
여기서 s(n)은 음원에서 발생하는 소리로, 음성이나 악기 소리, 백색 소음 등 모든 종류의 소리일 수 있다.
여기서 연속적인 복수 개의 선형 마이크간의 거리가 가깝다면
Figure 112020063259663-pat00044
는 1로 추정할 수 있다.
여기서 음원은 마이크 어레이와 거리가 먼 것을 가정하며, 따라서 원거리장 모델(far-field model)에 따라 음원이 모든 마이크에 병렬로 전파된다.
또한 여기서 지연 시간
Figure 112020063259663-pat00045
은 음속 c, 음원과 i번째 마이크 사이의 간격
Figure 112020063259663-pat00046
, 소리 방향
Figure 112020063259663-pat00047
에 의해 결정될 수 있다.
여기서
Figure 112020063259663-pat00048
는 마이크 어레이에서 음원을 가리리키는 각도로, 기준은 정면을 90도로 하여 가장 좌측을 0도, 가장 우측을 180도로 하거나, 정면을 0도로 하여 가장 좌측을 -90도, 가장 우측을 90도로 하는 등 자유롭게 설정할 수 있다.
도 3에서 입력 받은 소리 신호를 방위각-주파수 표현으로 변경하는 단계(S200)에서는, 소리 신호를 방위각-주파수 표현으로 변경하여 CNN 모델에 입력할 수 있도록 데이터를 변환한다.
음원으로부터 발생하는 소리 신호를 입력 받는 단계(S100)에서 입력된 소리 신호는 몇몇의 단계를 거쳐 방위각-주파수 표현으로 표현될 수 있다.
이하에서는 입력된 소리 신호를 방위각-주파수 표현으로 변경하는 과정을 나타낸다.
상기 [수학식 1]을 K-포인트 단시간 퓨리에 변환(short-time Fourier transform, STFT)하여, 하기 [수학식 2]와 같이 표현할 수 있다.
Figure 112020063259663-pat00049
이 때,
Figure 112020063259663-pat00050
,
Figure 112020063259663-pat00051
,
Figure 112020063259663-pat00052
Figure 112020063259663-pat00053
Figure 112020063259663-pat00054
번째 스펙트럼 성분, c는 음속,
Figure 112020063259663-pat00055
는 음원과 i번째 마이크 사이의 간격,
Figure 112020063259663-pat00056
는 샘플링 주파수다.
여기서 d는 스티어링 벡터(steering vector)이며,
Figure 112020063259663-pat00057
이다.
[수학식 2]는 방향
Figure 112020063259663-pat00058
에서의 음원을 나타내며, 시간 지연과 관련이 있다.
이러한 개념을 확장하면 하기 [수학식 3]이라는 방위각-주파수 표현으로 나타낼 수 있다.
Figure 112020063259663-pat00059
이 때,
Figure 112020063259663-pat00060
이다.
여기서, 에너지량은 주파수에 따라 달라지기 때문에 (
Figure 112020063259663-pat00061
) 값이 사용된다.
도 4는 방위각 함수로서 백색 소음의 방위각-주파수 표현의 예시도이다.
도 4를 참조하면, 백색 소음의 방위각-주파수 표현은 각각 방위각 0도(도 4-(a)), 방위각 -60도(도 4-(b)), 방위각 45도(도 4-(c)), 방위각 90도(도 4-(d))에서 관련성이 있다.
도 4의 실험에서 4개의 마이크가 연속적으로 각각 5cm씩의 간격을 두고 사용되었다.
추가로, 512-포인트 STFT가 소리 신호의 각 프레임에 적용되었고, 방위각은 -90도에서 90도까지 64단계로 이산화 되었다.
도 4를 참조하면, 각 방위각에서 백색 소음이 분포된 에너지의 양을 확인할 수 있다.
도 5는 방위각 함수로서 음성 신호의 방위각-주파수 표현의 예시도이다.
도 5를 참조하면, 음성 신호의 방위각-주파수 표현은 각각 방위각 0도(도 5-(a)), 방위각 -60도(도 5-(b)), 방위각 45도(도 5-(c)), 방위각 90도(도 5-(d))에서 관련성이 있다.
도 5를 참조하면, 도 4에 나타난 바와 같이 음성 신호는 방위각 방향에서 우세한 것을 볼 수 있으며, 또한 이러한 현상은 고주파에서보다 저주파에서 좀더 명확한 것으로 나타난다.
이러한 방위각-주파수 표현은 모든 선형 마이크 구성으로 재현할 수 있으며, 원거리장 모델(far-field model)을 가정한 상태에서 시간 지연만 고려된다.
다만, 방위각-주파수 표현은 감쇠 항에 의해 생성될 수도 있다.
또한, 이러한 방위각-주파수 표현은 스테레오 이미지(stereophonic image)를 향상시키기 위해 주파수 의존성 진폭 패닝(frequency-dependent amplitude panning)에 이용될 수 있다.
음원 위치 찾기에 DNN 모델을 이용하는 경우, 고정 입력 크기가 필요하기 때문에 마이크 수에 따라 모델 재학습이 필요하며, 마이크 간격이 다를 경우에도 재학습이 필요하다.
위상차는 소리 신호의 위치 파악에 매우 중요한 신호로서 마이크 간격이 달라지면 위상차도 달라진다.
다만 본 발명의 실시예와 같은 방위각-주파수 표현은 이러한 위상 정보를 방위각 정보로 변환하기 때문에 마이크 구성에 영향을 받지 않는 것이다.
도 3에서 CNN 모델을 이용하여 음원의 위치를 측정하는 단계(S300)는, CNN의 딥러닝이 이루어지며, 먼저, CNN 모델 학습에 사용되는 데이터셋을 구성하고, CNN 아키텍처에 의해 학습 및 평가, 실제 데이터에 적용이 순차적으로 이루어질 수 있다.
먼저, CNN 모델 학습에 사용되는 데이터셋을 구성하는 실험을 진행하였다.
CNN 모델 학습을 위해 한국어 음성 데이터베이스(database, DB)가 활용되었으며, 이 DB는 남성 4인, 여성 4인의 데이터로 구성되고, 그 중 남성 2인, 여성 2인은 학습에 활용되고, 검증 및 평가에 각각 남성 1인, 여성 1인이 활용되었다.
각 사람은 40번의 발화(utterances)를 하였으며, 이는 16비트, 48kHz로 샘플링 되었다.
이러한 음성 DB를 훈련하기 위해 이미지 방법(image method)이 사용되었다.
. 마이크 개수 마이크 사이의 간격
(m)
음원으로부터 마이크 사이의 거리
(m)
마이크의 원점의 위치
(m)
방 크기
(m)
반사 계수 이미지의 개수
Figure 112020063259663-pat00062
4 0.03 1.5 [4, 1, 1.5] [8, 6, 3.5] 0.7 12
Figure 112020063259663-pat00063
2 0.03 1.2 [3.5, 2, 1.4] [7, 5, 3.3] 0.8 15
Figure 112020063259663-pat00064
4 0.04 1.4 [6, 1.5, 1.6] [12, 6, 3.8] 0.85 13
Figure 112020063259663-pat00065
8 0.03 1.8 [5, 2.5, 1.7] [10, 8, 4.2] 0.72 15
[표 1]은 이미지 방법을 통해 시뮬레이션 된 음성 DB를 보여준다.
여기서 h1과 h3의 마이크 수는 동일하지만 마이크 간격이 약간 다르고, h2와 h4에는 각각 2개와 8개의 마이크가 있다.
이미지 방법과 관련된 매개 변수도 약간 다릅니다.
여기서, h1 및 h2는 훈련 DB를 생성하는데 사용되고 h3은 검증 DB를 생성하는데 사용된다.
평가 DB 생성에는 모든 RIR(room impulse response)이 사용된다.
RIR(룸 임펄스 응답)은 음원과 마이크 사이의 전송 기능을 의미한다.
음원의 위치는 -90도에서 90도 사이에서 10도 간격으로 서로 다른 위치에 배치된 반면, 음원과 마이크 사이의 거리는 표 1에 나타난 대로 유지되었다. 따라서 한 사람의 발화가 40개인 경우 훈련 DB는 40(발화)*4(인)*19(도)*2(RIR) 발화로 구성되었다.
. Speech Ⅰ
(남성 2인, 여성 2인)
Speech Ⅱ
(남성 1인, 여성 1인)
Speech Ⅲ
(남성 1인, 여성 1인)
Figure 112020063259663-pat00066
학습 - 평가 Ⅰ
Figure 112020063259663-pat00067
Figure 112020063259663-pat00068
검증 평가 Ⅱ
Figure 112020063259663-pat00069
평가 Ⅲ
[표 2]는 음성 DB 및 RIR을 통해 교육, 검증 및 평가 세트가 구성되는 방식을 나타낸다.
DB 세트를 구성하는 동안 스피커 오버랩이 없음을 없다.
평가 Ⅰ는 일치하는 복잡한 잔향 환경으로 볼 수 있다.
그러나 평가 Ⅱ는 검증 세트에 사용 된 잔향 환경과 동일하며, 평가 Ⅲ은 비교할 수 없는 복잡한 잔향 환경으로 볼 수 있다.
여기서 잔향이란 소리가 생성된 후에 계속되는 소리를 의미한다.
도 3에서 CNN 모델을 이용하여 음원의 위치를 측정하는 단계(S300)는 상기와 같은 데이터셋이 학습되는 CNN 아키텍처가 제시된다.
도 6는 본 발명의 실시예에 의한 음원 위치 찾기를 위한 CNN 아키텍처의 예시도이다.
도 6을 참조하면 음성 신호는 2,048-포인트 STFT에 기초하여 변환된다.
여기서, 홉(hop) 길이는 1,024이었으며, 방위각-주파수 표현에서 방위각의 방향에 따른 차이가 고주파보다 저주파에서 더 구별 될 수 있음이 확인되었다.
따라서 0번째 직류(DC) 구성 요소를 제외하고 저주파에서는 256개의 주파수 빈만 사용했고, 방위각은 -90도에서 90도까지 64단계로 이산화 되었으며, 모든 2차원 CNN은 (1, 1)폭으로 (3, 3)크기의 커널 크기를 사용했다.
0.01을 사용한 L2 정규화가 모든 CNN 계층에 적용되었고, CNN 계층 이후에는 배치 정규화 및 활성화 기능이 적용된다. 여기에서 활성화 함수로
Figure 112020063259663-pat00070
인 ReLU 함수가 사용되었다.
CNN, 배치 정규화 및 활성화 계층이 두 번 수행 되고 풀링 계층(pooling layer)이 적용된다.
방위각과 주파수 차원의 크기와 일치시키기 위해 (1, 2)의 크기가 처음에 풀링 계층에 적용되고 이어서 (2, 2)의 크기가 적용되었다.
풀링 계층 후에, 0.3의 드롭 아웃이 사용되었다.
마지막 단계에서는 여러 CNN 계층 이후에 완전히 연결된 계층이 두 번 사용되었다.
CNN 층과 마찬가지로, L2 정규화 및 드롭 아웃이 이용되었고, 상응하는 파라미터는 각각 0.005 및 0.01이다.
이와 같은 CNN 아키텍처에 상기 데이터셋을 학습시키는 과정은 다음과 같다.
CNN 모델은 단일 혼합 만을 고려하여 설계되었으며 하나의 음원에 대한 원래는 -90 -90 사이에서 스케일된 방위각 범위는 0도에서 1도 사이 이고, 손실 함수는 MSE(mean square error) 형태로 구성되었다.
최적화 기법으로 적응 모멘트 추정(Adaptive moment estimation, Adam)이 사용되었다.
신경망의 성능을 최대화하기 위해 몇 가지 앙상블(Ensemble) 기술이 사용된다.
Ensemble은 학습된 여러 모델 중에서 최고의 성능을 제공하는 하나의 모델뿐만 아니라 여러 다른 모델에서 얻은 결과의 조합을 사용하는 것을 포함한다.
학습 중에 단일 모델의 여러 스냅 샷을 활용했으며, MAE(Mean Absolute Error)를 측정단위로 사용하였고, 유효성 검사 세트를 기반으로 MAE가 가장 낮은 모델을 수집했다.
실험 결과 손실과 MAE 모두 주기적 학습률의 추세를 따르는 것을 확인하였다.
도 7은 도 3의 CNN 모델을 이용하여 음원 위치 측정하는 단계를 나타내는 순서도이다.
이와 같이 CNN 모델을 이용하여 음원의 위치를 측정하는 단계(S300)에서는 데이터셋을 구성하고(S310), 이를 이용하여 CNN 모델을 학습 및 평가하고(S320), 방위각-주파수 표현으로 표현된 소리 신호를 해당 학습된 CNN 모델에 적용(S330)할 수 있다.
여기서 CNN 모델을 학습 및 평가하는 단계(S320)에서는 CNN 아키텍처를 구성하고, CNN 모델 학습 및 평가가 이루어질 수 있다.
학습된 CNN 모델에 방위각-주파수로 표현된 소리 신호를 입력하면 음원의 방향이 출력될 수 있다.
도 8은 본 발명의 실시예에 의한 음원 위치 추정 시스템의 구성도이다.
도 8을 참조하면, 본 발명의 실시예에 의한 음원 위치 추정 시스템은 하나 이상의 마이크(100), 통신 모듈(200), 변환 모듈(300), 인공지능 모듈(400)을 포함한다.
여기서 마이크(100)는, 음원으로부터 발생하는 소리 신호가 발생하는 위치를 추정하기 위하여 소리 신호를 입력 받는 하나 이상의 선형 마이크로폰을 의미한다.
여기서 통신 모듈(200)은, 상기 마이크(100)로부터 인식된 복수의 소리 신호들을 수신하여 시스템의 변환 모듈(300)이나 인공지능 모듈(400)에 수신한 소리 신호를 전송한다.
여기서 변환 모듈(300)은, 마이크(100)에서 수신하여 통신 모듈(200)이 전송한 수신한 소리 신호를 방위각-주파수 표현으로 변경한다.
이러한 변환 모듈(300)에서는 상기 입력 받은 소리 신호를 방위각-주파수 표현으로 변경하는 단계(S200)가 이루어지는데, 소리 신호를 방위각-주파수 표현으로 변경하여 CNN 모델에 입력할 수 있도록 데이터를 변환한다.
상기 [수학식 1]을 K-포인트 단시간 퓨리에 변환(short-time Fourier transform, STFT)하여, 상기 [수학식 2]와 같이 표현할 수 있다.
이러한 개념을 확장하면 상기 [수학식 3]이라는 방위각-주파수 표현으로 나타낼 수 있다.
이처럼 음원 위치 찾기에 DNN 모델을 이용하는 경우, 고정 입력 크기가 필요하기 때문에 마이크 수에 따라 모델 재학습이 필요하며, 마이크 간격이 다를 경우에도 재학습이 필요하다.
위상차는 소리 신호의 위치 파악에 매우 중요한 신호로서 마이크 간격이 달라지면 위상차도 달라진다.
다만 본 발명의 실시예와 같은 방위각-주파수 표현은 이러한 위상 정보를 방위각 정보로 변환하기 때문에 마이크 구성에 영향을 받지 않는 것이다.
여기서 인공지능 모듈(400)은 상기 변환 모듈(300)의 결과값을 합성곱 신경망 모델에 입력하여 음원의 위치를 찾는다.
이러한 인공지능 모듈(400)에서는 CNN 모델을 이용하여 음원의 위치를 측정하는 단계(S300)가 이루어지는데, CNN의 딥러닝이 이루어지며, 먼저, CNN 모델 학습에 사용되는 데이터셋을 구성하고, CNN 아키텍처에 의해 학습 및 평가, 실제 데이터에 적용이 순차적으로 이루어질 수 있다.
먼저, 상기와 같이 CNN 모델 학습에 사용되는 데이터셋을 구성하는 실험을 진행하였고, 도 6에 나타난 바와 같이 이러한 데이터셋을 이용하여 학습할 CNN 아키텍처가 제시된다.
도 7에 나타난 바와 같이 본 인공지능 모듈(400)에서 이루어지는 CNN 모델을 이용하여 음원의 위치를 측정하는 단계(S300)에서는 데이터셋을 구성하고(S310), 이를 이용하여 CNN 모델을 학습 및 평가하고(S320), 방위각-주파수 표현으로 표현된 소리 신호를 해당 학습된 CNN 모델에 적용(S330)할 수 있다.
여기서 CNN 모델을 학습 및 평가하는 단계(S320)에서는 CNN 아키텍처를 구성하고, CNN 모델 학습 및 평가가 이루어질 수 있다.
학습된 CNN 모델에 방위각-주파수로 표현된 소리 신호를 입력하면 음원의 방향이 출력될 수 있다.
여기서 합성곱 신경망 모델의 출력 값은 음원이 위치한 각도가 될 수 있다.
100 : 마이크
200 : 통신 모듈
300 : 변환 모듈
400 : 인공지능 모듈

Claims (10)

  1. 음원 위치 추정 방법에 있어서,
    (a) 음원으로부터 발생하는 소리 신호가 발생하는 위치를 추정하기 위하여 하나 이상의 마이크를 배치하여 소리 신호를 입력 받는 단계;
    (b) 입력된 소리 신호를 방위각-주파수 변경하여 표현하는 단계; 및
    (c) 방위각-주파수 표현으로 나타낸 소리 신호를 합성곱 신경망 모델을 이용하여 인공지능 학습 하여 음원의 위치를 찾는 단계;
    를 포함하되,
    상기 (b)에서 입력된 소리 신호는,
    하기의 수학식 1의 형태로 나타내는 것이고,
    상기 음원의 위치를 찾는 단계는,
    하나 이상의 서로 다른 마이크 배치를 가지고 있는 데이터셋을 구성하는 단계;
    상기 데이터셋을 이용하여 합성곱 신경망 모델의 학습을 진행하는 단계; 및
    방위각-주파수 표현으로 표현된 소리 신호를 상기 합성곱 신경망 모델에 적용하여 음원의 각도를 추정하는 단계;
    를 포함하는 것을 특징으로 하는 합성곱 신경망 모델을 이용한 음원 위치 추정 방법.
    (수학식 1)
    Figure 112020096068814-pat00071

    이 때,
    Figure 112020096068814-pat00072
    는 감쇠 지수,
    Figure 112020096068814-pat00073
    는 음원과
    Figure 112020096068814-pat00074
    번째 마이크 사이의 지연 시간,
    Figure 112020096068814-pat00075
    은 마이크 개수,
    Figure 112020096068814-pat00076
    Figure 112020096068814-pat00077
    번째 마이크에 녹음된 주변 소음임
  2. 제1항에 있어서,
    상기 변경하여 표현하는 단계는,
    상기 수학식 1의 형태로 나타낸 소리 신호를 K-포인트 단시간 퓨리에 변환하면 하기 수학식 2의 형태로 나타낼 수 있는 것
    을 특징으로 하는 합성곱 신경망 모델을 이용한 음원 위치 추정 방법.
    (수학식 2)
    Figure 112020063259663-pat00078

    이 때,
    Figure 112020063259663-pat00079
    ,
    Figure 112020063259663-pat00080
    ,
    Figure 112020063259663-pat00081
    Figure 112020063259663-pat00082
    Figure 112020063259663-pat00083
    번째 스펙트럼 성분,
    Figure 112020063259663-pat00084
    , c는 음속,
    Figure 112020063259663-pat00085
    는 음원과 i번째 마이크 사이의 간격,
    Figure 112020063259663-pat00086
    는 샘플링 주파수임
  3. 제2항에 있어서,
    상기 변경하여 표현하는 단계는,
    상기 수학식 2의 형태로 나타낸 소리 신호를 방위각-주파수 표현으로 변환하여 하기 수학식 3의 형태로 나타낼 수 있는 것
    을 특징으로 하는 합성곱 신경망 모델을 이용한 음원 위치 추정 방법.
    (수학식 3)
    Figure 112020063259663-pat00087


    이 때,
    Figure 112020063259663-pat00088
  4. 삭제
  5. 제1항에 있어서,
    상기 합성곱 신경망 모델의 학습을 진행하는 단계는,
    마이크의 수, 각각의 마이크의 간격, 음원에서 마이크까지의 거리, 마이크 원점의 위치, 방의 사이즈, 반사계수, 이미지의 개수 등을 달리하여 합성곱 신경망 모델을 통해 방위각-주파수 데이터를 학습 및 평가하는 것을 특징으로 하는 합성곱 신경망 모델을 이용한 음원 위치 추정 방법.
  6. 음원 위치 추정 시스템에 있어서,
    음원으로부터 발생하는 소리 신호가 발생하는 위치를 추정하기 위하여 소리 신호를 입력 받는 하나 이상의 마이크;
    상기 하나 이상의 마이크로부터 인식된 복수의 소리 신호들을 수신하는 통신 모듈;
    수신한 소리 신호를 방위각-주파수 변경하는 변환 모듈; 및
    상기 변환 모듈의 결과값을 합성곱 신경망 모델을 이용하여 인공지능 학습하여 음원의 위치를 찾는 인공지능 모듈;
    을 포함하되,
    상기 마이크에서 입력된 소리 신호는,
    하기의 수학식 1의 형태로 나타내는 것이고,
    상기 인공지능 모듈은,
    하나 이상의 서로 다른 마이크 배치를 가지고 있는 데이터셋을 구성하고, 상기 데이터셋을 이용하여 합성곱 신경망 모델의 학습을 진행하며, 방위각-주파수 표현으로 표현된 소리 신호를 상기 합성곱 신경망 모델에 적용하여 음원의 각도를 추정하는 것
    을 특징으로 하는 합성곱 신경망 모델을 이용한 음원 위치 추정 시스템.
    (수학식 1)
    Figure 112020096068814-pat00089

    이 때,
    Figure 112020096068814-pat00090
    는 감쇠 지수,
    Figure 112020096068814-pat00091
    는 음원과
    Figure 112020096068814-pat00092
    번째 마이크 사이의 지연 시간,
    Figure 112020096068814-pat00093
    은 마이크 개수,
    Figure 112020096068814-pat00094
    Figure 112020096068814-pat00095
    번째 마이크에 녹음된 주변 소음임
  7. 제6항에 있어서,
    상기 변환 모듈은,
    상기 수학식 1의 형태로 나타낸 소리 신호를 K 포인트 단시간 퓨리에 변환하면 하기 수학식 2의 형태로 나타낼 수 있는 것
    을 특징으로 하는 합성곱 신경망 모델을 이용한 음원 위치 추정 시스템.
    (수학식 2)
    Figure 112020063259663-pat00096

    이 때,
    Figure 112020063259663-pat00097
    ,
    Figure 112020063259663-pat00098
    ,
    Figure 112020063259663-pat00099
    Figure 112020063259663-pat00100
    Figure 112020063259663-pat00101
    번째 스펙트럼 성분,
    Figure 112020063259663-pat00102
    , c는 음속,
    Figure 112020063259663-pat00103
    는 음원과 i번째 마이크 사이의 간격,
    Figure 112020063259663-pat00104
    는 샘플링 주파수임
  8. 제7항에 있어서,
    상기 변환 모듈은,
    상기 수학식 2의 형태로 나타낸 소리 신호를 방위각-주파수 표현으로 변환하여 하기 수학식 3의 형태로 나타낼 수 있는 것
    을 특징으로 하는 합성곱 신경망 모델을 이용한 음원 위치 추정 시스템.
    (수학식 3)
    Figure 112020063259663-pat00105

    이 때,
    Figure 112020063259663-pat00106
  9. 삭제
  10. 제6항에 있어서,
    상기 인공지능 모듈은,
    마이크의 수, 각각의 마이크의 간격, 음원에서 마이크까지의 거리, 마이크 원점의 위치, 방의 사이즈, 반사 계수, 이미지의 개수 등을 달리하여 합성곱 신경망 모델을 통해 방위각-주파수 데이터를 학습 및 평가하는 것을 특징으로 하는 합성곱 신경망 모델을 이용한 음원 위치 추정 시스템.
KR1020200074845A 2020-06-19 2020-06-19 방위각-주파수 표현법과 합성곱 신경망 모델을 이용한 음원 위치 추정 방법 및 시스템 KR102199158B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200074845A KR102199158B1 (ko) 2020-06-19 2020-06-19 방위각-주파수 표현법과 합성곱 신경망 모델을 이용한 음원 위치 추정 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200074845A KR102199158B1 (ko) 2020-06-19 2020-06-19 방위각-주파수 표현법과 합성곱 신경망 모델을 이용한 음원 위치 추정 방법 및 시스템

Publications (1)

Publication Number Publication Date
KR102199158B1 true KR102199158B1 (ko) 2021-01-06

Family

ID=74128813

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200074845A KR102199158B1 (ko) 2020-06-19 2020-06-19 방위각-주파수 표현법과 합성곱 신경망 모델을 이용한 음원 위치 추정 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR102199158B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115902774A (zh) * 2022-10-13 2023-04-04 广州成至智能机器科技有限公司 无人机声源定位方法、装置、无人机及存储介质
CN116559778A (zh) * 2023-07-11 2023-08-08 海纳科德(湖北)科技有限公司 一种基于深度学习的车辆鸣笛定位方法及系统
CN117789731A (zh) * 2023-12-29 2024-03-29 百鸟数据科技(北京)有限责任公司 一种鸟鸣识别方法、装置、计算机设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
문정민 외 2인, "비균등 선형 마이크로폰 어레이를 활용한 합성곱 신경망 기반의 음원분리" 한국방송공학회 학술발표대회 논문집, 2017.11. 44-45(2pages). 1부.* *
전찬준 외 1인, "채널 기반에서 객체 기반의 오디오 콘텐츠로의 변환을 위한 비균등 선형 마이크로폰 어레이 기반의 음원 분리 방법", 방송공학회논문지 21(2), 2016.03. 169-179(11 pages). 1부.* *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115902774A (zh) * 2022-10-13 2023-04-04 广州成至智能机器科技有限公司 无人机声源定位方法、装置、无人机及存储介质
CN115902774B (zh) * 2022-10-13 2023-11-07 广州成至智能机器科技有限公司 无人机声源定位方法、装置、无人机及存储介质
CN116559778A (zh) * 2023-07-11 2023-08-08 海纳科德(湖北)科技有限公司 一种基于深度学习的车辆鸣笛定位方法及系统
CN116559778B (zh) * 2023-07-11 2023-09-29 海纳科德(湖北)科技有限公司 一种基于深度学习的车辆鸣笛定位方法及系统
CN117789731A (zh) * 2023-12-29 2024-03-29 百鸟数据科技(北京)有限责任公司 一种鸟鸣识别方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
KR102199158B1 (ko) 방위각-주파수 표현법과 합성곱 신경망 모델을 이용한 음원 위치 추정 방법 및 시스템
Diaz-Guerra et al. Robust sound source tracking using SRP-PHAT and 3D convolutional neural networks
Adavanne et al. Direction of arrival estimation for multiple sound sources using convolutional recurrent neural network
Grumiaux et al. A survey of sound source localization with deep learning methods
JP7337953B2 (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
Xiao et al. A learning-based approach to direction of arrival estimation in noisy and reverberant environments
CN109490822B (zh) 基于ResNet的语音DOA估计方法
Chazan et al. Multi-microphone speaker separation based on deep DOA estimation
US20090222262A1 (en) Systems And Methods For Blind Source Signal Separation
CN112904279B (zh) 基于卷积神经网络和子带srp-phat空间谱的声源定位方法
Lv et al. A permutation algorithm based on dynamic time warping in speech frequency-domain blind source separation
Cui et al. Multi-objective based multi-channel speech enhancement with BiLSTM network
El Badawy et al. Direction of arrival with one microphone, a few legos, and non-negative matrix factorization
Pfeifenberger et al. Deep complex-valued neural beamformers
Huang et al. A time-domain unsupervised learning based sound source localization method
Salvati et al. Two-microphone end-to-end speaker joint identification and localization via convolutional neural networks
Parada et al. Reverberant speech recognition exploiting clarity index estimation
Higuchi et al. Unified approach for audio source separation with multichannel factorial HMM and DOA mixture model
Ding et al. Joint estimation of binaural distance and azimuth by exploiting deep neural networks
CN112180318A (zh) 声源波达方向估计模型训练和声源波达方向估计方法
Salvati et al. Time Delay Estimation for Speaker Localization Using CNN-Based Parametrized GCC-PHAT Features.
Takatani et al. High-fidelity blind separation of acoustic signals using SIMO-model-based independent component analysis
Wang et al. U-net based direct-path dominance test for robust direction-of-arrival estimation
Casebeer et al. Communication-cost aware microphone selection for neural speech enhancement with ad-hoc microphone arrays
Zhao et al. Robust sound source localization using convolutional neural network based on microphone array

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant