KR102329353B1 - 심층 신경망을 이용한 음성 발생 방향 추론 방법 및 그 장치 - Google Patents

심층 신경망을 이용한 음성 발생 방향 추론 방법 및 그 장치 Download PDF

Info

Publication number
KR102329353B1
KR102329353B1 KR1020200032737A KR20200032737A KR102329353B1 KR 102329353 B1 KR102329353 B1 KR 102329353B1 KR 1020200032737 A KR1020200032737 A KR 1020200032737A KR 20200032737 A KR20200032737 A KR 20200032737A KR 102329353 B1 KR102329353 B1 KR 102329353B1
Authority
KR
South Korea
Prior art keywords
neural network
voice
deep neural
data
speech
Prior art date
Application number
KR1020200032737A
Other languages
English (en)
Other versions
KR102329353B9 (ko
KR20210116066A (ko
Inventor
고종환
장지호
노다니엘
김태수
오상현
Original Assignee
성균관대학교산학협력단
한국표준과학연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 성균관대학교산학협력단, 한국표준과학연구원 filed Critical 성균관대학교산학협력단
Priority to KR1020200032737A priority Critical patent/KR102329353B1/ko
Publication of KR20210116066A publication Critical patent/KR20210116066A/ko
Application granted granted Critical
Publication of KR102329353B1 publication Critical patent/KR102329353B1/ko
Publication of KR102329353B9 publication Critical patent/KR102329353B9/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명의 일 실시예에 따른 심층 신경망을 이용한 음성 발생 방향 추론 방법은 음성의 발생 방향에 관한 정보가 포함된 음성 신호를 수신하는 단계, 상기 음성 신호의 특성 및 추론 환경 중 적어도 하나를 고려하여 상기 음성 신호를 주파수 영역으로 변환하는 방식에 관한 주파수 변환 방식을 결정하고, 상기 결정된 주파수 변환 방식에 따라 상기 음성 신호를 주파수 영역으로 변환한 음성 데이터를 생성하는 단계 및 상기 생성된 음성 데이터에 대해 상기 주파수 변환 방식에 따라 구분되는 개별 신경망과 상기 주파수 변환 방식에 관계없이 적용되는 공통 신경망을 포함하는 심층 신경망을 이용하여 음성의 발생 방향을 추론하는 단계를 포함하는 것을 특징으로 한다.

Description

심층 신경망을 이용한 음성 발생 방향 추론 방법 및 그 장치 {A METHOD FOR INFERRING OF GENERATING DIRECTION OF SOUND USING DEEP NETWORK AND AN APPARATUS FOR THE SAME}
본 발명은 심층 신경망을 이용한 음성 발생 방향 추론 방법 및 그 장치에 관한 것으로, 음성 신호의 특성과 발생 환경에 따라 입력 데이터를 구분하여 신경망 연산을 수행함으로써 음성 발생 방향을 추론하는 방법 및 그 장치에 관한 것이다.
종래에 음성 발생 방향 탐지에 관한 연구는 오래 전부터 연구되어 왔으며, 음성의 발생 방향에 따라 신호가 도달하는 시간이 달라 일반적으로 그 시간차를 이용하여 방향을 추정하게 된다. 이때, 음성이 발생되는 실제 환경에서 주변 소음 또는 잔향이 발생됨에 따라 탐지 정확도가 떨어지게 된다. 화자의 위치가 변하는 상황에서 실시간으로 탐지 정확도를 높이기 위해 다양한 방법이 제안되고 있다.
일례로, 모델 기반의 방법을 통해 음성 발생 방향을 탐지할 수 있는데, 사용되는 알고리즘이 특정 상황 및 환경에 고정되어 있어 상황과 환경이 변하는 경우 성능이 저하된다는 단점이 있다.
이러한 단점을 극복하기 위해 딥러닝 기반의 방법들이 사용되고 있다. 딥러닝 기반의 기법들은 적용할 상황에 대응되는 데이터셋으로 학습을 수행하여 해당 상황에 대한 성능을 극대화 시킬 수 있으나, 반대로 학습된 상황에 대해서만 최적화 되어 학습 데이터를 적절하게 구성해야 한다는 특징이 있다. 뿐만 아니라, 높은 연산량을 요구하므로 빠른 추론을 위해서는 딥러닝 모델을 효율적으로 설계하는 것이 중요하다.
대한민국 등록특허공보 10-2018346
상술한 문제점을 해결하기 위해, 본 발명의 실시예들은 노이즈가 포함된 다수 채널의 음향 데이터를 신호의 특성이나 추론 환경에 따라 데이터 변환 방식을 선택하여 심층 신경망 학습을 수행함으로써 심층 신경망을 이용하여 음성 발생 방향의 추론 속도와 정확도를 향상시키기 위한 음성 발생 방향 추론 방법 및 그 장치를 제공하는데 목적이 있다.
본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 수 있다.
본 발명의 일 실시예에 따른 심층 신경망을 이용한 음성 발생 방향 추론 방법은 음성의 발생 방향에 관한 정보가 포함된 음성 신호를 수신하는 단계, 상기 음성 신호의 특성 및 추론 환경 중 적어도 하나를 고려하여 상기 음성 신호를 주파수 영역으로 변환하는 방식에 관한 주파수 변환 방식을 결정하고, 상기 결정된 주파수 변환 방식에 따라 상기 음성 신호를 주파수 영역으로 변환한 음성 데이터를 생성하는 단계 및 상기 생성된 음성 데이터에 대해 상기 주파수 변환 방식에 따라 구분되는 개별 신경망과 상기 주파수 변환 방식에 관계없이 적용되는 공통 신경망을 포함하는 심층 신경망을 이용하여 음성의 발생 방향을 추론하는 단계를 포함한다.
또한, 본 발명의 일 실시예에 따른 상기 음성 데이터를 생성하는 단계는 상기 음성 신호의 저역 대비 고역의 에너지 비율 및 상기 음성 신호의 처리에 요구되는 처리 속도 중 적어도 하나를 고려하여 주파수 변환 방식을 결정할 수 있다.
또한, 본 발명의 일 실시예에 따른 상기 음성 데이터를 생성하는 단계는 상기 저역 대비 고역의 에너지 비율이 기설정된 임계 비율보다 큰 경우, 스펙트로그램(spectrogram)을 이용하여 상기 음성 데이터를 생성하고, 기설정된 임계 비율보다 작은 경우, 멜-스펙트로그램(mel-spectrogram)을 이용하여 상기 음성 데이터를 생성할 수 있다.
또한, 본 발명의 일 실시예에 따른 상기 음성 데이터를 생성하는 단계는 상기 요구되는 처리 속도가 기설정된 임계 속도보다 큰 경우, 멜-스펙트로그램(mel-spectrogram)을 이용하여 상기 음성 데이터를 생성하고, 기설정된 임계 속도보다 작은 경우, 스펙트로그램(spectrogram)을 이용하여 상기 음성 데이터를 생성할 수 있다.
또한, 본 발명의 일 실시예에 따른 상기 음성의 발생 방향을 추론하는 단계는 상기 음성 데이터에 대해 합성곱 계층(convolution layer)을 통과하는 제1 신경망 연산을 수행하는 단계 및 상기 음성 데이터에 대해 완전연결 계층(fully connected layer)을 통과하는 제2 신경망 연산을 수행하는 단계를 포함할 수 있다.
또한, 본 발명의 일 실시예에 따른 상기 심층 신경망을 학습하는 단계를 더 포함하고, 상기 심층 신경망을 학습하는 단계는 신호 대 잡음비가 높은 순서대로 상기 심층 신경망을 학습하는 단계 및 데이터 증강(augmentation) 기법을 수행하여 데이터 셋을 확장하고, 확장된 데이터 셋을 이용하여 상기 심층 신경망을 학습하는 단계 중 적어도 하나를 포함할 수 있다.
또한, 본 발명의 일 실시예에 따른 상기 심층 신경망을 학습하는 단계를 더 포함하고, 상기 심층 신경망을 학습하는 단계는 상기 추론된 방향과 상기 음성 신호의 실제 방향 간의 유사도에 따라 상기 추론된 방향에 대하여 가중치를 부여할 수 있다.
또한, 본 발명의 일 실시예에 따른 심층 신경망을 이용한 음성 발생 방향 추론 장치는 심층 신경망을 이용한 음성 발생 방향 추론 장치는 음성의 발생 방향에 관한 정보가 포함된 음성 신호를 수신하는 음성 신호 수신부, 상기 음성 신호의 특성 및 추론 환경 중 적어도 하나를 고려하여 상기 음성 신호를 주파수 영역으로 변환하는 방식에 관한 주파수 변환 방식을 결정하고, 상기 결정된 주파수 변환 방식에 따라 상기 음성 신호를 주파수 영역으로 변환한 음성 데이터를 생성하는 음성 데이터 생성부 및 상기 생성된 음성 데이터에 대해 상기 주파수 변환 방식에 따라 구분되는 개별 신경망과 상기 주파수 변환 방식에 관계없이 적용되는 공통 신경망을 포함하는 심층 신경망을 이용하여 음성의 발생 방향을 추론하는 음성 발생 방향 추론부를 포함할 수 있다.
또한, 본 발명의 일 실시예에 따른 상기 음성 데이터 생성부는 상기 음성 신호의 저역 대비 고역의 에너지 비율 및 상기 음성 신호의 처리에 요구되는 처리 속도 중 적어도 하나를 주파수 변환 방식을 결정할 수 있다.
또한, 본 발명의 일 실시예에 따른 상기 심층 신경망을 학습하는 심층 신경망 학습부를 더 포함하고, 상기 심층 신경망 학습부는 신호 대 잡음비가 높은 순서대로 상기 심층 신경망을 학습하는 제1 학습부 및 데이터 증강(augmentation) 기법을 수행하여 데이터 셋을 확장하고, 확장된 데이터 셋을 이용하여 상기 심층 신경망을 학습하는 제2 학습부 중 적어도 하나를 포함할 수 있다.
또한, 본 발명의 일 실시예에 따른 상기 심층 신경망을 학습하는 심층 신경망 학습부를 더 포함하고, 상기 심층 신경망 학습부는 상기 추론된 방향과 상기 음성 신호의 실제 방향 간의 유사도에 따라 상기 추론된 방향에 대하여 가중치를 부여할 수 있다.
본 발명의 실시예들에 따르면, 노이즈가 포함된 다수 채널의 음향 데이터를 신호의 특성이나 추론 환경에 따라 데이터 변환 방식을 선택하여 심층 신경망 학습을 수행함으로써 음성 발생 방향의 추론 속도와 정확도를 향상시킬 수 있다.
여기에서 명시적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급된다.
도 1은 본 발명의 일 실시예에 따른 심층 신경망을 이용한 음성 발생 방향 추론 방법을 나타낸 흐름도이다.
도 2는 도 1의 추론 방법을 보다 구체적으로 나타낸 흐름도이다.
도 3a는 본 발명의 일 실시예에 있어서, 제1 신경망을 설명하기 위해 나타낸 블록도이다.
도 3b는 본 발명의 일 실시예에 있어서, 제2 신경망을 설명하기 위해 나타낸 블록도이다.
도 4는 본 발명의 일 실시예에 따른 심층 신경망을 이용한 음성 발생 방향 추론 장치를 추론 방법에 따라 구조적으로 나타낸 블록도이다.
도 5는 본 발명의 다른 실시예에 따른 심층 신경망을 이용한 음성 발생 방향 추론 장치를 추론 방법에 따라 나타낸 블록도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부된 도면을 참조하여 심층 신경망을 이용한 음성 발생 방향 추론 방법 및 그 장치에 대해 설명한다.
설명에 앞서, 본 발명의 추론 방법은 각종 재난 상황에서 드론에 탑재된 마이크로폰을 통해 획득되는 구조 음성의 발생 방향을 탐지함으로써 구조 요청자의 위치를 효과적으로 파악하기 위해 사용될 수 있다. 구체적으로, 재난 상황에서는 시야가 충분히 확보되지 못하는 문제로 인해 구조 요청자에 대한 영상 기반의 탐지와 함께 음성 기반의 탐지가 동반될 필요성이 있다.
이러한 경우, 구조 요청자 가까이에 직접 접근하기 어려워 구조용 로봇이나 탐색 드론 등 무인 이동체를 사용하여 탐지 및 구조 활동을 수행하게 되는데, 무인 이동체 특히 드론의 프로펠러 소음 또는 흔들림에 따른 바람으로 인해 발생되는 소음 등 여러 가지 소음에 노출될 수밖에 없다.
이에, 본 발명에서는 각종 소음과 잡음이 혼재된 음성에 대하여 정확한 발생 방향을 탐지하기 위한 추론 방법을 제공하고자 한다. 참고로, 본 발명의 추론 방법은 전술한 상황 이외에 소음 및 잡음이 발생 가능한 다양한 상황에 적용 가능할 수 있다.
도 1은 본 발명의 일 실시예에 따른 심층 신경망을 이용한 음성 발생 방향 추론 방법을 나타낸 흐름도이고, 도 2는 도 1의 추론 방법을 보다 구체적으로 나타낸 흐름도이다.
도 1을 참조하면, 단계(S110)에서 본 발명의 일 실시예에 따른 심층 신경망을 이용한 음성 발생 방향 추론 장치는 음성의 발생 방향에 관한 정보가 포함된 음성 신호를 수신할 수 있다.
다음으로, 단계(S120)에서 본 발명의 일 실시예에 따른 심층 신경망을 이용한 음성 발생 방향 추론 장치는 음성 신호의 특성 및 추론 환경 중 적어도 하나를 고려하여 상기 음성 신호를 주파수 영역으로 변환하는 방식에 관한 주파수 변환 방식을 결정하고, 결정된 주파수 변환 방식에 따라 음성 신호를 주파수 영역으로 변환한 음성 데이터를 생성할 수 있다..
다음으로, 단계(S130)에서 본 발명의 일 실시예에 따른 심층 신경망을 이용한 음성 발생 방향 추론 장치는 생성된 음성 데이터에 대해 주파수 변환 방식에 따라 구분되는 제1 신경망과 주파수 변환 방식에 관계없이 적용되는 제2 신경망을 포함하는 심층 신경망을 이용하여 음성의 발생 방향을 추론할 수 있다.
한편, 전술한 과정을 거쳐 음성의 발생 방향을 추론한 후, 추론 정확도 또는 추론 속도를 최적화하기 위해 심층 신경망을 학습할 수 있다.
이하에서는, 도 2를 참조하여 상기 과정에 따른 음성 발생 방향 추론 방법에 대하여 보다 자세히 후술하고자 한다.
도 2에 도시된 바와 같이, 단계(S210)에서 본 발명의 추론 장치는 음성의 발생 방향에 관한 정보가 포함된 음성 신호를 수신할 수 있다.
일 실시예로, 마이크로폰 배열(microphone array)을 통해 여러 채널의 음성 신호를 수신할 수 있다.
수신되는 음성 신호는 추론하고자 하는 음성의 발생 방향에 관한 정보가 포함된 신호로서, 신호의 주파수 특성 또는 신호의 크기 특성 등 다양한 정보를 포함할 수 있다.
다음으로, 단계(S220)에서 본 발명의 추론 장치는 수신된 음성 신호의 주파수 변환 방식을 결정할 수 있다.
즉, 음성 신호를 음성 발생 방향의 추론을 위한 대상으로 사용하기 위한 음성 데이터로 변환하기 위해 음성 신호를 주파수 영역으로 변환하는 주파수 변환을 수행해야 하는데, 이때 사용되는 주파수 변환 방식을 결정할 수 있다.
일반적으로 사용되는 주파수 변환 방식으로는 스펙트로그램(spectrogram)과 멜-스펙트로그램(mel-spectrogram)을 이용하는 방식이 있다.
스펙트로그램은 아날로그 형태의 신호를 퓨리에 변환과 같은 주파수 변환을 통해 2차원 정보로 표현하여 시간 별 주파수 성분으로 나타낸 것이고, 멜-스펙트로그램은 청각의 비선형성을 로그 스케일로 모델링한 Mel Filter Bank를 스펙트로그램에 적용하여 나타낸 것으로서 각 방식마다 장단점이 존재한다.
구체적으로, 고주파 대역에 신호가 밀집되어 있는 경우 스펙트로그램을 사용하는 것이 효과적인 반면, 신호에 포함된 정보량이 많아져 처리 시간이 늘어나고 요구되는 신경망의 복잡도도 증가한다. 이와 다르게, 멜 스펙트로그램을 사용하게 되면 정보량이 줄어들어 처리 속도가 줄어들기 때문에 요구되는 신경망의 복잡도가 감소되지만, 고주파 대역 신호의 해상도가 떨어지는 단점이 생긴다.
본 실시예에서는 상기와 같은 주파수 변환 방식을 결정하는 데 있어서, 음성 신호의 특성 및 추론 환경 중 적어도 하나를 고려할 수 있다. 여기서, 음성 신호의 특성이란 신호의 주파수 범위, 주파수 대역 별 에너지 크기 등을 의미할 수 있고, 추론 환경이란 신호 처리에 요구되는 처리 속도, 처리량 등을 의미할 수 있다.
이후, 결정된 주파수 변환 방식에 따라 음성 신호를 주파수 영역으로 변환한 음성 데이터를 생성할 수 있다.
일 실시예로, 음성 신호의 저역 대비 고역의 에너지 비율이 기설정된 임계 비율보다 큰 경우, 스펙트로그램을 이용하여 음성 데이터를 생성하고, 기설정된 임계 비율보다 작은 경우, 멜-스펙트로그램을 이용하여 음성 데이터를 생성할 수 있다. 이는, 주파수 특성 상 주파수 대역이 상대적으로 높은 고주파수 대역에 음성 신호가 많이 분포되어 있는 경우 스펙트로그램을 이용하여 데이터 변환을 수행하는 것이 바람직하며, 반면에 주파수 대역이 상대적으로 낮은 저주파수 대역에 음성 신호가 많이 분포되어 있는 경우 멜-스펙트로그램을 이용하여 데이터 변환을 수행하는 것이 바람직하기 때문이다.
다른 실시예로, 음성 신호에 포함된 정보에 대하여 요구되는 처리 속도가 기설정된 임계 속도보다 큰 경우, 멜-스펙트로그램을 이용하여 음성 데이터를 생성하고, 기설정된 임계 속도보다 작은 경우, 스펙트로그램을 이용하여 음성 데이터를 생성할 수 있다. 이는, 신호 정보의 크기가 상대적으로 작은 경우 처리 속도가 빠르기 때문에 멜-스펙트로그램을 이용하여 데이터 변환을 수행하는 것이 바람직하며, 신호 정보의 크기가 상대적으로 큰 경우 처리 속도가 느리기 때문에 스펙트로그램을 이용하여 데이터 변환을 수행하는 것이 바람직하기 때문이다.
이와 같이, 어떤 주파수 변환 방식을 사용할지 결정하고 나면, 단계(S230)에 따라 스펙트로그램을 이용하여 음성 데이터를 생성하거나 전술한 음성 신호의 특성 또는 추론 환경에 따라 필요한 경우 멜-스펙트로그램을 이용하여 음성 데이터를 생성할 수 있다.
이후, 단계(S250)에서 본 발명의 추론 장치는 전처리 작업을 수행할 수 있다.
구체적으로, 스펙트로그램 또는 멜-스펙트로그램에 대한 크기값 및 위상값을 실수로 변환하고 적절한 범위를 가지도록 로그스케일 등으로 변환하는 전처리 작업을 수행할 수 있다.
다음으로, 본 발명의 추론 장치는 생성된 음성 데이터에 대해 심층 신경망을 이용하여 음성의 발생 방향을 추론할 수 있다. 심층 신경망은 입출력층 사이에 하나의 은닉층만이 사용된 전통적인 신경망 구조와 달리, 두 개 이상의 은닉층을 사용하여 층마다 다른 층위의 특징이 학습될 수 있으며, 자동으로 특징을 추출할 수 있는 알고리즘을 사용하기 때문에 훨씬 빠르고 효과적인 기계학습에 사용될 수 있다.
이러한 심층 신경망을 이용하는데 있어서, 전술한 두 가지 주파수 변환 방식을 통해 변환된 각 음향 데이터의 특성이 상이하기 때문에 서로 다른 신경망 구조를 사용해야 하지만, 이러한 경우 신경망의 저장 공간이 많이 요구되며 두 종류의 신경망 모델을 학습시켜야 하는 비효율성이 발생하게 된다.
이에 따라, 본 실시예에서는 하나의 신경망 구조를 통해 서로 다른 주파수 변환 방식으로 변환된 각각의 음향 데이터를 학습하기 위한 통합 신경망 구조를 제안하고자 한다. 통합 신경망 구조에 있어서, 신경망의 전단에 형성되는 제1 신경망의 일부 계층은 주파수 변환 방식에 따라 구분될 수 있고, 신경망의 후단에 형성되는 제1 신경망의 일부 계층은 주파수 변환 방식에 관계없이 공통적으로 적용할 수 있다.
구체적으로, 생성된 음성 데이터는 단계(S260)에 따라 데이터 변환 시 사용된 주파수 변환 방식을 고려하여 제1 신경망의 구분된 신경망 중 하나를 통과하고, 이후에는 단계(S270)에 따라 제2 신경망을 통과하게 된다. 다시 말해, 음성 데이터는 신경망으로 입력되어 주파수 변환 방식에 따라 제1 신경망을 이루는 제1a 신경망(도4 및 도 5 참조) 또는 제1b 신경망(도4 및 도 5 참조) 중 하나의 신경망을 통과하고, 이후 제2 신경망을 통과할 수 있다. 예컨대, 스펙트로그램을 이용하여 데이터 변환이 수행된 음성 데이터는 제1a 신경망을 통과할 수 있고, 멜-스펙트로그램을 이용하여 데이터 변환이 수행된 음성 데이터는 제1b 신경망을 통과할 수 있다.
한편, 심층 신경망은 다수의 합성곱 계층(Convolution layer)과 완전연결 계층(Fully-Connected layer)를 포함하여 구성될 수 있다. 합성곱 계층은 Batch Normalization, ReLU, 3x3 커널, max pooling을 포함하여 구성될 수 있다. 이때, 2차원의 음향 데이터는 합성곱 계층을 통과하면서 값이 변환되고 차원(dimension)이 축소되면서 마지막 합성곱 계층 이후에는 1차원의 음향 데이터로 변환되어 완전연결 계층의 연산이 적용된다.
일 실시예로, 제1 신경망을 통과하는 음성 데이터는 도 3a에 도시된 바와 같은 일련의 과정을 거쳐 학습연산이 수행될 수 있고, 이후 제1 신경망으로부터 출력된 음성 데이터는 도 3b에 도시된 바와 같은 일련의 과정을 거쳐 학습연산이 수행될 수 있다.
전술한 신경망 구조를 기반으로, 본 실시예에서는 계층 구조에 따라 제1 신경망과 제2 신경망을 구분하여 연산을 수행할 수 있다. 예컨대, 입력되는 음성 데이터에 대해 합성곱 계층을 통과하는 제1 신경망 연산을 수행할 수 있고, 이후 완전연결 계층을 통과하는 제2 신경망 연산을 수행할 수 있다. 그러나, 상기와 같은 계층 구분에 한정되지 않고 다양한 방식을 통해 제1 신경망 및 제2 신경망을 구분하여 연산을 수행할 수도 있다.
참고로, 신경망을 통과하는 음성 데이터의 길이가 서로 다를 수 있기 때문에 본 실시예에서는 신경망의 마지막 계층에 Global Max Pooling을 적용하여 동일한 개수의 출력 노드로 유지하도록 할 수 있다. 예컨대, Global Max Pooling은 신경망의 후단에 형성된 제2 신경망의 계층 중 하나에 적용될 수 있다.
다음으로, 단계(S280)에서 본 발명의 추론 장치는 음성 데이터에 대해 심층 신경망을 이용하여 음성의 발생 방향을 추론할 수 있다. 즉, 입력된 음성 데이터가 다수의 신경망 계층을 통과하여 음성의 발생 방향에 대한 방향값을 나타내는 다수의 출력 노드 중 하나와 매핑될 수 있다. 참고로, 방향값이란 화자의 위치를 기준으로 음성이 발생된 위치 간의 각도를 의미하며, 음성의 발생 방향을 추론하기 위하여 방향값 이외에 화자와 음성이 발생된 위치 간의 거리를 의미하는 길이값을 추가로 고려할 수도 있다.
이때, 추론된 발생 방향과 실제 발생 방향 간의 오차를 좁히기 위하여 단계(S290)에 따라 심층 신경망을 학습할 수 있다.
구체적으로, 심층 신경망을 학습하는데 있어서, 추론된 방향과 실제 방향 간의 유사도에 따라 추론된 방향에 대하여 가중치를 부여할 수 있다.
일 실시예로, 실제 방향값을 나타내는 출력 노드뿐만 아니라 그 주변의 유사한 방향값을 나타내는 출력 노드에 대해서도 특정값의 가중치를 부여할 수 있다. 즉, 실제 방향값과 전혀 다른 엉뚱한 값을 나타내는 출력 노드와 매핑하는 것에 비해 어느정도 유사한 방향값을 나타내는 출력 노드와 매핑하는 것이 보다 정확한 추론을 이끌어낼 수 있기 때문이다. 예컨대, 입력된 음성 데이터에 대하여 실제로 음성이 발생한 방향이 20도일 경우, 발생 방향을 0도로 추론하는 경우와 180도로 추론하는 경우는 큰 차이를 나타내기 때문에, 하기 표 1과 같이, 각 출력 노드에서 20도의 방향과 가까운 방향을 나타내는 노드일수록 큰 가중치를 적용하여 레이블(label)을 부여할 수 있다. 이러한 경우, 음성 데이터의 입력값이 높은 값을 가지는 출력 노드와 매핑되도록 알고리즘을 구현하는 것이 바람직하다.
입력된 음성 데이터 실제 방향값 출력 노드 가중치


A


20도
0도 0.05
20도 0.9
40도 0.05
60도 0
180도 0
다른 실시예로, 실제 방향값과 전혀 다른 엉뚱한 값을 나타내는 출력 노드에 대하여 특정값의 가중치를 부여할 수 있다. 즉, 실제 방향값과 너무 동떨어진 방향값을 나타내는 출력 노드와 매핑하는 것이 실제 방향과 유사한 방향값을 나타내는 출력 노드에 매핑하는 보다 부정확한 추론을 이끌어낼 수 있기 때문이다. 예컨대, 입력된 음성 데이터에 대하여 실제로 음성이 발생한 방향이 20도일 경우, 발생 방향을 0도로 추론하는 경우와 180도로 추론하는 경우는 큰 차이를 나타내기 때문에, 하기 표 2와 같이, 각 출력 노드에서 20도의 방향과 먼 방향을 나타내는 노드일수록 큰 가중치를 적용하여 레이블(label)을 부여할 수 있다. 이와 관련하여 출력 노드에 weighted cross entropy 함수를 적용할 수 있다. 이러한 경우, 음성 데이터의 입력값이 낮은 값을 가지는 출력 노드와 매핑되도록 알고리즘을 구현하는 것이 바람직하다.
입력된 음성 데이터 실제 방향값 출력 노드 가중치


A


20도
0도 2
20도 1
160도 8
180도 9
참고로, 전술한 실시예에서의 가중치는 일종의 패널티와 유사한 성질을 가진다고 할 수 있다.
심층 신경망을 학습하는 과정은 전처리된 음성 데이터들과 음성 발생 방향에 대응되는 각도 정보를 이용하여 수행되는데, 음성 데이터에 혼재되는 각종 노이즈를 최대한 배제하여 학습이 이루어질 수 있도록 다음과 같은 학습기법을 적용할 수 있다.
일 실시예로, 신호 대 잡음비(SNR)가 높은 순서대로 심층 신경망을 학습할 수 있다. 즉, 심층 신경망을 학습하는데 사용되는 데이터인 학습 데이터에 대하여 다수의 신호 대 잡음비가 혼합된 데이터를 이용하여 신경망을 학습하는 대신, 신호 대 잡음비가 높은 데이터부터 차례로 학습을 수행할 수 있다. 이는, 음성 신호의 레벨이 노이즈 레벨에 비해 낮아 신호 대 잡음비가 낮은 데이터는 신호 대 잡음비가 높은 데이터에 비해 음성의 발생 방향을 추론하기 어렵기 때문이다.
예컨대, 순수 음성과 노이즈가 혼합된 학습 데이터의 신호 대 잡음비가 -40 내지 30 dB 사이에 분포하는 경우, 30 dB 근처에 분포된 학습 데이터부터 먼저 학습을 수행하는 것이 바람직하다.
참고로, 학습 데이터는 심층 신경망을 통과하여 추론되는 음성 데이터를 포함할 수 있으며, 학습만을 위해 별도로 사용되는 데이터를 포함할 수도 있다.
다른 실시예로, 데이터 증강(augmentation) 기법을 통해 심층 신경망을 학습할 수 있다. 이는, 심층 신경망을 학습하는데 사용되는 데이터의 양과 다양성이 부족한 경우에 데이터를 다양한 형태로 다수 증가시켜 학습 표본을 늘림으로써 학습의 오차를 줄이기 위함이다. 즉, 데이터 증강 기법을 수행하여 데이터 셋을 확장하고, 확장된 데이터 셋을 이용하여 심층 신경망을 학습할 수 있다.
이때, 학습의 분야가 음향과 관련된 점이라는 특성을 고려하여, 오디오의 이퀄라이저(equalizer)와 같은 특정 주파수 대역을 증폭시키거나 감쇄시키는 방법으로 새로운 학습 데이터를 생성할 수 있으며, 이때 여러 가지 다양한 주기 및 크기를 가지는 사인(sine)/코사인(cosine) 함수를 이용하여 원본 학습 데이터에 곱하는 과정을 통해 학습을 수행할 수 있다.
이로써, 본 발명의 실시예들에 따르면, 노이즈가 포함된 다수 채널의 음향 데이터를 신호의 특성이나 추론 환경에 따라 데이터 변환 방식을 선택하여 심층 신경망 학습을 수행함으로써 음성 발생 방향의 추론 속도와 정확도를 향상시킬 수 있다.
도 4는 본 발명의 일 실시예에 따른 심층 신경망을 이용한 음성 발생 방향 추론 장치를 추론 방법에 따라 구조적으로 나타낸 블록도이고, 도 5는 본 발명의 다른 실시예에 따른 심층 신경망을 이용한 음성 발생 방향 추론 장치를 추론 방법에 따라 구조적으로 나타낸 블록도이다.
도 4를 참조하면, 본 발명의 일 실시예에 따른 심층 신경망을 이용한 음성 발생 방향 추론 장치는 음성 신호 수신부(110), 음성 데이터 생성부(120) 및 음성 발생 방향 추론부(130)를 포함하여 구성될 수 있다.
음성 신호 수신부(110)는 음성의 발생 방향에 관한 정보가 포함된 음성 신호를 수신할 수 있다.
음성 데이터 생성부(120)는 음성 신호의 특성 및 추론 환경 중 적어도 하나를 고려하여 음성 신호를 주파수 영역으로 변환하는 방식에 관한 주파수 변환 방식을 결정하고, 결정된 주파수 변환 방식에 따라 음성 신호를 주파수 영역으로 변환한 음성 데이터를 생성할 수 있다.
음성 발생 방향 추론부(130)는 생성된 음성 데이터에 대해 주파수 변환 방식에 따라 구분되는 개별 신경망과 주파수 변환 방식에 관계없이 적용되는 공통 신경망을 포함하는 심층 신경망을 이용하여 음성의 발생 방향을 추론할 수 있다.
여기서, 도 5에 도시된 바와 같이, 본 발명의 추론 장치는 추론된 발생 방향과 실제 발생 방향 간의 오차를 좁히기 위하여 심층 신경망 학습부(140)를 더 포함하여 구성될 수 있다.
전술한 음성 신호 수신부(110), 음성 데이터 생성부(120), 음성 발생 방향 추론부(130) 및 심층 신경망 학습부(140)의 동작에 관한 설명은 도 1, 도 2, 도 3a 및 도 3b를 통해 전술한 실시예에 근거하여 뒷받침됨에 따라 자세한 설명은 생략하기로 한다.
본 발명의 일 실시예에 따른 동작은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능한 매체에 기록될 수 있다. 컴퓨터 판독 가능한 매체는 실행을 위해 프로세서에 명령어를 제공하는 데 참여한 임의의 매체를 나타낸다. 컴퓨터 판독 가능한 매체는 프로그램 명령, 데이터 파일, 데이터 구조 또는 이들의 조합을 포함할 수 있다. 예를 들면, 자기 매체, 광기록매체, 메모리 등이 있을 수 있다. 컴퓨터 프로그램은 네트워크로 연결된 컴퓨터 시스템 상에 분산되어 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 본 실시예를 구현하기 위한 기능적인(Functional) 프로그램, 코드, 및 코드 세그먼트들은 본 실시예가 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있을 것이다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 사람이라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 실행된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
110 : 음성 신호 수신부
120 : 음성 데이터 생성부
130 : 음성 발생 방향 추론부
140 : 심층 신경망 학습부

Claims (11)

  1. 음성의 발생 방향에 관한 정보가 포함된 음성 신호를 수신하는 단계;
    상기 음성 신호의 특성 및 추론 환경 중 적어도 하나를 고려하여 상기 음성 신호를 주파수 영역으로 변환하는 방식에 관한 주파수 변환 방식을 결정하고, 상기 결정된 주파수 변환 방식에 따라 상기 음성 신호를 주파수 영역으로 변환한 음성 데이터를 생성하는 단계; 및
    상기 생성된 음성 데이터에 대해 상기 주파수 변환 방식에 따라 구분되는 제1 신경망과 상기 주파수 변환 방식에 관계없이 적용되는 제2 신경망을 포함하는 심층 신경망을 이용하여 음성의 발생 방향을 추론하는 단계
    를 포함하고,
    상기 음성 데이터를 생성하는 단계는
    상기 음성 신호의 저역 대비 고역의 에너지 비율 및 상기 음성 신호의 처리에 요구되는 처리 속도 중 적어도 하나를 고려하여 주파수 변환 방식을 결정하는 것을 특징으로 하는 심층 신경망을 이용한 음성 발생 방향 추론 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 음성 데이터를 생성하는 단계는
    상기 저역 대비 고역의 에너지 비율이 기설정된 임계 비율보다 큰 경우, 스펙트로그램(spectrogram)을 이용하여 상기 음성 데이터를 생성하고, 기설정된 임계 비율보다 작은 경우, 멜-스펙트로그램(mel-spectrogram)을 이용하여 상기 음성 데이터를 생성하는 것을 특징으로 하는 심층 신경망을 이용한 음성 발생 방향 추론 방법.
  4. 제1항에 있어서,
    상기 음성 데이터를 생성하는 단계는
    상기 요구되는 처리 속도가 기설정된 임계 속도보다 큰 경우, 멜-스펙트로그램(mel-spectrogram)을 이용하여 상기 음성 데이터를 생성하고, 기설정된 임계 속도보다 작은 경우, 스펙트로그램(spectrogram)을 이용하여 상기 음성 데이터를 생성하는 것을 특징으로 하는 심층 신경망을 이용한 음성 발생 방향 추론 방법.
  5. 제1항에 있어서,
    상기 음성의 발생 방향을 추론하는 단계는
    상기 음성 데이터에 대해 합성곱 계층(convolution layer)을 통과하는 제1 신경망 연산을 수행하는 단계; 및
    상기 음성 데이터에 대해 완전연결 계층(fully connected layer)을 통과하는 제2 신경망 연산을 수행하는 단계
    를 포함하는 것을 특징으로 하는 심층 신경망을 이용한 음성 발생 방향 추론 방법.
  6. 제1항에 있어서,
    상기 심층 신경망을 학습하는 단계를 더 포함하고,
    상기 심층 신경망을 학습하는 단계는
    신호 대 잡음비가 높은 순서대로 상기 심층 신경망을 학습하는 단계; 및
    데이터 증강(augmentation) 기법을 수행하여 데이터 셋을 확장하고, 확장된 데이터 셋을 이용하여 상기 심층 신경망을 학습하는 단계
    중 적어도 하나를 포함하는 것을 특징으로 하는 심층 신경망을 이용한 음성 발생 방향 추론 방법.
  7. 제1항에 있어서,
    상기 심층 신경망을 학습하는 단계를 더 포함하고,
    상기 심층 신경망을 학습하는 단계는
    상기 추론된 방향과 상기 음성 신호의 실제 방향 간의 유사도에 따라 상기 추론된 방향에 대하여 가중치를 부여하는 것을 특징으로 하는 심층 신경망을 이용한 음성 발생 방향 추론 방법.
  8. 음성의 발생 방향에 관한 정보가 포함된 음성 신호를 수신하는 음성 신호 수신부;
    상기 음성 신호의 특성 및 추론 환경 중 적어도 하나를 고려하여 상기 음성 신호를 주파수 영역으로 변환하는 방식에 관한 주파수 변환 방식을 결정하고, 상기 결정된 주파수 변환 방식에 따라 상기 음성 신호를 주파수 영역으로 변환한 음성 데이터를 생성하는 음성 데이터 생성부; 및
    상기 생성된 음성 데이터에 대해 상기 주파수 변환 방식에 따라 구분되는 개별 신경망과 상기 주파수 변환 방식에 관계없이 적용되는 공통 신경망을 포함하는 심층 신경망을 이용하여 음성의 발생 방향을 추론하는 음성 발생 방향 추론부
    를 포함하고,
    상기 음성 데이터 생성부는
    상기 음성 신호의 저역 대비 고역의 에너지 비율 및 상기 음성 신호의 처리에 요구되는 처리 속도 중 적어도 하나를 주파수 변환 방식을 결정하는 것을 특징으로 하는 심층 신경망을 이용한 음성 발생 방향 추론 장치.
  9. 삭제
  10. 제8항에 있어서,
    상기 심층 신경망을 학습하는 심층 신경망 학습부를 더 포함하고,
    상기 심층 신경망 학습부는
    신호 대 잡음비가 높은 순서대로 상기 심층 신경망을 학습하는 제1 학습부; 및
    데이터 증강(augmentation) 기법을 수행하여 데이터 셋을 확장하고, 확장된 데이터 셋을 이용하여 상기 심층 신경망을 학습하는 제2 학습부
    중 적어도 하나를 포함하는 것을 특징으로 하는 심층 신경망을 이용한 음성 발생 방향 추론 장치.
  11. 제8항에 있어서,
    상기 심층 신경망을 학습하는 심층 신경망 학습부를 더 포함하고,
    상기 심층 신경망 학습부는 상기 추론된 방향과 상기 음성 신호의 실제 방향 간의 유사도에 따라 상기 추론된 방향에 대하여 가중치를 부여하는 것을 특징으로 하는 심층 신경망을 이용한 음성 발생 방향 추론 장치.
KR1020200032737A 2020-03-17 2020-03-17 심층 신경망을 이용한 음성 발생 방향 추론 방법 및 그 장치 KR102329353B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200032737A KR102329353B1 (ko) 2020-03-17 2020-03-17 심층 신경망을 이용한 음성 발생 방향 추론 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200032737A KR102329353B1 (ko) 2020-03-17 2020-03-17 심층 신경망을 이용한 음성 발생 방향 추론 방법 및 그 장치

Publications (3)

Publication Number Publication Date
KR20210116066A KR20210116066A (ko) 2021-09-27
KR102329353B1 true KR102329353B1 (ko) 2021-11-22
KR102329353B9 KR102329353B9 (ko) 2022-03-15

Family

ID=77925851

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200032737A KR102329353B1 (ko) 2020-03-17 2020-03-17 심층 신경망을 이용한 음성 발생 방향 추론 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR102329353B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117690303B (zh) * 2024-02-04 2024-04-26 四川三元环境治理股份有限公司 一种基于交通数据采集的噪声预警系统、装置及预警方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007085734A (ja) 2005-09-16 2007-04-05 Research Organization Of Information & Systems 音源方向検出装置及び音源方向検出方法
JP2011176535A (ja) * 2010-02-24 2011-09-08 Yamaha Corp 信号処理装置
JP2018512619A (ja) 2015-03-27 2018-05-17 クアルコム,インコーポレイテッド 発話の方向に基づく電子デバイスの制御

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2151822B8 (en) * 2008-08-05 2018-10-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
KR20170004162A (ko) * 2015-07-01 2017-01-11 한국전자통신연구원 화자 위치 탐지 장치 및 방법
KR102018346B1 (ko) 2018-05-11 2019-10-14 국방과학연구소 음향 신호를 분류하는 방법 및 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007085734A (ja) 2005-09-16 2007-04-05 Research Organization Of Information & Systems 音源方向検出装置及び音源方向検出方法
JP2011176535A (ja) * 2010-02-24 2011-09-08 Yamaha Corp 信号処理装置
JP2018512619A (ja) 2015-03-27 2018-05-17 クアルコム,インコーポレイテッド 発話の方向に基づく電子デバイスの制御

Also Published As

Publication number Publication date
KR102329353B9 (ko) 2022-03-15
KR20210116066A (ko) 2021-09-27

Similar Documents

Publication Publication Date Title
CN108172238B (zh) 一种语音识别系统中基于多个卷积神经网络的语音增强算法
Xiao et al. A learning-based approach to direction of arrival estimation in noisy and reverberant environments
CN112216271B (zh) 一种基于卷积块注意机制的视听双模态语音识别方法
CN110148422B (zh) 基于传声器阵列确定声源信息的方法、装置及电子设备
CN110634499A (zh) 用深特征损失训练的用于语音去噪的神经网络
KR101704926B1 (ko) 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법
KR100486736B1 (ko) 두개의 센서를 이용한 목적원별 신호 분리방법 및 장치
US5185848A (en) Noise reduction system using neural network
US11694696B2 (en) Method and apparatus for implementing speaker identification neural network
CN110600017A (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN110223708B (zh) 基于语音处理的语音增强方法及相关设备
JP7564117B2 (ja) キューのクラスター化を使用した音声強化
CN109977724B (zh) 一种水下目标分类方法
KR102314824B1 (ko) 딥러닝 기반 감지상황에서의 음향 사건 탐지 방법
KR102406512B1 (ko) 음성인식 방법 및 그 장치
CN110751955B (zh) 基于时频矩阵动态选择的声音事件分类方法及系统
CN114863938B (zh) 一种基于注意力残差和特征融合的鸟语识别方法和系统
Wei et al. A method of underwater acoustic signal classification based on deep neural network
SongGong et al. Acoustic source localization in the circular harmonic domain using deep learning architecture
CN115062678A (zh) 设备故障检测模型的训练方法、故障检测方法及装置
KR102329353B1 (ko) 심층 신경망을 이용한 음성 발생 방향 추론 방법 및 그 장치
Dwivedi et al. Joint doa estimation in spherical harmonics domain using low complexity cnn
Salvati et al. End-to-End Speaker Identification in Noisy and Reverberant Environments Using Raw Waveform Convolutional Neural Networks.
Kumar et al. Self-Noise Cancellation in Underwater Acoustics Using Deep Neural Network-Based Eigencomponent Transformation
Nicolson et al. Sum-product networks for robust automatic speaker identification

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Re-publication after modification of scope of protection [patent]