KR102624195B1 - 음성의 명시적 공간 필터링을 위한 지도 학습 방법 및 시스템 - Google Patents

음성의 명시적 공간 필터링을 위한 지도 학습 방법 및 시스템 Download PDF

Info

Publication number
KR102624195B1
KR102624195B1 KR1020220078040A KR20220078040A KR102624195B1 KR 102624195 B1 KR102624195 B1 KR 102624195B1 KR 1020220078040 A KR1020220078040 A KR 1020220078040A KR 20220078040 A KR20220078040 A KR 20220078040A KR 102624195 B1 KR102624195 B1 KR 102624195B1
Authority
KR
South Korea
Prior art keywords
interest
beamformer
neural network
beam condition
spatial
Prior art date
Application number
KR1020220078040A
Other languages
English (en)
Other versions
KR20240001423A (ko
Inventor
장준혁
최정환
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020220078040A priority Critical patent/KR102624195B1/ko
Priority to PCT/KR2023/008049 priority patent/WO2024005403A1/ko
Publication of KR20240001423A publication Critical patent/KR20240001423A/ko
Application granted granted Critical
Publication of KR102624195B1 publication Critical patent/KR102624195B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

음성의 명시적 공간 필터링을 위한 지도 학습 방법 및 시스템이 개시된다. 일 실시예에 따른 빔포머 학습 시스템에 의해 수행되는 음성의 공간 필터링을 위한 지도 학습 방법은, 뉴럴 네트워크 기반의 빔포머 모델에 잔향이 존재하는 환경에서 마이크어레이로 입사되는 다채널의 음성 신호와 관심 방향을 표현하는 빔 컨디션(Beam condition)을 입력받는 단계; 및 상기 뉴럴 네트워크 기반의 빔포머 모델을 이용하여 상기 다채널의 음성 신호로부터 상기 빔 컨디션에 대응되는 요구 신호를 출력하는 단계를 포함하고, 상기 뉴럴 네트워크 기반의 빔포머 모델은, 학습 데이터를 이용하여 상기 빔 컨디션에 설정된 방위각 및 고도각의 음성 신호를 추출하도록 학습된 것일 수 있다.

Description

음성의 명시적 공간 필터링을 위한 지도 학습 방법 및 시스템{SUPERVISED LEARNING METHOD AND SYSTEM FOR EXPLICIT SPATIAL FILTERING OF SPEECH}
아래의 설명은 음성의 공간 필터링을 위한 학습 기술에 관한 것이다.
뉴럴 빔포머(Neural Beamformers)는 음성 신호 처리에서 널리 연구되고 있다. 뉴럴 빔포머는 음성 신호의 품질 대신 인식 성능을 향상시키기 위해 최적화되었다. 뉴럴 빔포머는 자동 음성 인식 시스템의 전처리기로 제안되었으며 신경망 기반 음향 모델과 공동으로 학습되어 음성 신호의 품질 대신 인식 성능을 향상시켰다. 또한, 음성 분리 또는 향상을 위한 뉴럴 빔포머 기술이 제시된 바 있다. 대부분이 평가 메트릭의 성능을 향상시키기 위한 네트워크 아키텍처 설계에 중점을 두었으며 공간 필터링에 대한 영향은 자세히 논의되지 않았다. 또한, 특정 방향에서 음성 신호 사건을 추출하기 위한 뉴럴 빔포머에 대한 여러 연구가 제시된 바 있다. 이러한 뉴럴 빔포머는 도착 방향(Direction-Of-Arrival; DOA) 정보가 필요하며, 목표 신호를 지정하고 시간-주파수 마스크 추정을 위해 도착 방향(DOA)을 기반으로 하는 방향성 특징을 활용한다. 그러나, 정확한 도착 방향 정보가 필요하며 잘못 추정된 도착 방향에서 추론된 출력 신호의 열화를 예측하기 어려울 수 있다. 이에, 뉴럴 빔포머는 도착 방향을 정확하게 추정하는 대신 미리 정의된 보기 방향을 사용하여 목표 도착 방향에 가장 가까운 음성 신호를 추출하도록 학습되는 기술이 제안된 바 있다. 또한, COSNet은 모든 방향으로 조향하고 빔 폭을 조정하는 데 도움이 될 수 있다. 앞서 언급한 방법들과 달리 원하는 방향에 대한 시간 샘플을 정렬하여 빔폭과 스티어링을 조절하여 분리를 위한 공간 범위를 지정할 수 있다. 그러나 고도에 따라 방위각 조향을 위한 시간 지연이 고려된다. 더욱이, 시간 영역에서 샘플을 정확하게 정렬하려면 높은 샘플링 속도가 필요하며 이는 인접한 마이크 사이의 간격에 따라 달라진다.
이전 연구들에서는 목표 신호를 잔향 신호로 설정했으나, 이는 초기 반사가 잔향 환경에서 직접 경로만큼 방향성이 있기 때문에 공간 필터링 문제를 복잡하게 만든다. 이와 같이, 기존의 뉴럴 네트워크 기반의 다중 채널 발화 강화(multi-channel speech enhancement) 연구들의 경우, 공간적 필터링을 위한 명시적인 학습 방법에 대한 논의가 부족했다.
방위각 및 고도각으로 특정되는 임의의 방향으로부터 입사되는 음성 신호를 추출하는 뉴럴 네트워크 기반의 빔포머 모델을 학습시키는 방법 및 시스템을 제공할 수 있다.
직접 경로뿐만 아니라 초기 반사음의 방향성 또한 고려하여 잔향 환경에서의 공간 필터링(spatial filtering)을 위한 요구 신호(desired signal)을 정의하는 방법 및 시스템을 제공할 수 있다.
빔포머 학습 시스템에 의해 수행되는 음성의 공간 필터링을 위한 지도 학습 방법은, 뉴럴 네트워크 기반의 빔포머 모델에 잔향이 존재하는 환경에서 마이크어레이로 입사되는 다채널의 음성 신호와 관심 방향을 표현하는 빔 컨디션(Beam condition)을 입력받는 단계; 및 상기 뉴럴 네트워크 기반의 빔포머 모델을 이용하여 상기 다채널의 음성 신호로부터 상기 빔 컨디션에 대응되는 요구 신호를 출력하는 단계를 포함하고, 상기 뉴럴 네트워크 기반의 빔포머 모델은 학습 데이터를 이용하여 상기 빔 컨디션에 설정된 방위각 및 고도각의 음성 신호를 추출하도록 학습된 것일 수 있다.
음성의 공간 필터링을 위한 지도 학습 방법은, 상기 빔 컨디션에 따라 결정되는 요구 신호(desired signal)를 정의하기 위해 공간 이득 함수(spatial gain function)가 구성되고, 상기 공간 이득 함수는, 하드 이득 함수(hard gain function)와 소프트 이득 함수(soft gain function)를 포함할 수 있다.
상기 입력받는 단계는, 지도 학습 방법을 사용하여 공간 필터를 뉴럴 네트워크 기반의 빔보머 모델에 학습시키기 위해 학습 데이터를 생성하는 단계를 포함할 수 있다.
상기 입력받는 단계는, 초기 반사에 공간 이득을 곱한 소스 위치 및 관심 방향의 파라미터를 통해 보기 방향과 빔폭을 위한 빔 컨디션을 결정하는 단계를 포함할 수 있다.
상기 입력받는 단계는, 다중 경로에서 직접 경로의 도착 방향과, 이미지 방법(image method)을 이용하여 초기 반사의 단일 경로 전파를 획득하는 단계를 포함할 수 있다.
상기 입력받는 단계는, 3차원 공간에서의 방향 정보와 관심 범위를 설정하기 위한 관심 방향(direction-of-interest) 정보를 정의하고, 상기 정의된 관심 방향 정보를 빔 컨디션 벡터로 변환하는 단계를 포함할 수 있다.
빔포머 학습 시스템은, 뉴럴 네트워크 기반의 빔포머 모델에 잔향이 존재하는 환경에서 마이크어레이로 입사되는 다채널의 음성 신호와 관심 방향을 표현하는 빔 컨디션(Beam condition)을 입력받는 빔 컨디션 입력부; 및 상기 뉴럴 네트워크 기반의 빔포머 모델을 이용하여 상기 다채널의 음성 신호로부터 상기 빔 컨디션에 대응되는 요구 신호를 출력하는 모델 학습부를 포함하고, 상기 뉴럴 네트워크 기반의 빔포머 모델은 학습 데이터를 이용하여 상기 빔 컨디션에 설정된 방위각 및 고도각의 음성 신호를 추출하도록 학습된 것일 수 있다.
종래 기술의 경우 잔향 환경에서의 방향성을 직접 경로(direct-path)만을 고려하여 결정함에 따라 임의의 방향으로부터 입사되는 소리를 추출하는 것이 아니라 해당 방향과 공간적으로 가장 가까운 소리를 추출하도록 뉴럴 네트워크 기반의 빔포머 모델이 학습되었다. 실시예에 따르면, 초기 반사의 방향성을 고려하여 공간적으로 명시적인 학습 방법을 제안함에 따라 특정 방향으로부터 입사되는 소리들을 사용자가 조정하면서 청취할 수 있다는 장점이 있다.
도 1은 일 실시예에 있어서, 뉴럴 네트워크 기반의 빔포머 모델을 이용하여 빔 컨디션에 대한 웨이브 폼을 출력하는 개괄적인 동작을 설명하기 위한 도면이다.
도 2는 일 실시예에 있어서, 빔포머 학습 시스템의 구성을 설명하기 위한 블록도이다.
도 3은 일 실시예에 있어서, 빔포머 학습 시스템에서 음성의 공간 필터링을 위한 지도 학습 방법을 설명하기 위한 흐름도이다.
도 4는 일 실시예에 있어서, 뉴럴 네트워크 기반의 빔포머 모델의 구조를 설명하기 위한 예이다.
도 5는 일 실시예에 있어서, 공간 이득 함수를 설명하기 위한 도면이다.
도 6은 일 실시예에 있어서, 실시예에서 제안된 방법으로 학습된 뉴럴 네트워크 기반의 빔포머 모델의 실환경 데이터 셋에 대한 출력을 나타낸 도면이다.
이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.
실시예에서는 방위각 및 고도각으로 특정되는 임의의 방향으로부터 입사되는 음성 신호를 추출하는 뉴럴 네트워크 기반의 빔포머 모델을 명시적으로 학습시키는 동작에 대하여 설명하기로 한다. 마이크로폰 어레이(microphone array)가 장착된 전자 기기에서의 활용이 가능하다. 이를 위해, 3차원 공간에서의 특정 방향 및 관심 범위를 특정짓기 위한 관심 방향(Direction-Of-Interest; DOI) 정보를 정의하고, 정의된 관심 방향 정보를 빔 컨디션 벡터 형태로 모델에 컨디셔닝할 수 있다. 또한, 공간적으로 다양한 데이터를 생성하기 위한 학습 데이터 생성 동작에 대하여 설명하기로 한다.
도 1은 일 실시예에 있어서, 뉴럴 네트워크 기반의 빔포머 모델을 이용하여 빔 컨디션에 대한 웨이브 폼을 출력하는 개괄적인 동작을 설명하기 위한 도면이다.
잔향이 존재하는 음성 신호가 마이크로폰 어레이로 입사될 때, 빔 컨디션이라는 조건이 뉴럴 네트워크 기반의 빔포머 모델에 입력될 수 있다. 이때, 빔 컨디션은 방위각과 고도각을 갖는 관심 방향의 파라미터들이 조절될 수 있다. 빔포머 모델은 빔 컨디션에 대응되는 웨이브폼(waveform)을 결과로서 출력할 수 있다.
도 1에서는 잔향이 존재하는 방환경에서 N명의 화자가 M개의 마이크로 구성된 평면 어레이에 대해 발화하는 상황을 고려하기로 한다. 시간 t에서 m번째 마이크에서 캡쳐된 신호는 다음과 같이 표현될 수 있다.
여기서, 는 n번째 화자로부터 발화되는 음성 소스, 는 레퍼런스 마이크 의 상대적인 위치를 나타내는 로부터 m번째 마이크로의 다중 경로 음향 전파(multipath acoustic propagation), 는 공간적으로 상관되지 않은 마이크 자체 노이즈를 의미한다.
실내 음향에서 는 다음과 같이 직접, 초기 반사 및 후기 잔향 성분으로 분해될 수 있다.
여기서, 앞의 두 텀은 임의의 도착 방향(direction-of-arrival; DOA) (여기서, 는 각각 방위각 및 고도각을 의미)를 갖는 뚜렷한 방향성이 있는 성분으로 구성되어 있다. 이러한 관점에서 직접 반사 경로(direct reflection paths)와 초기 반사 경로(early reflection paths)는 다음과 같이 표현될 수 있다.
여기서, 는 입사각 을 갖는 단일 경로 전파를 의미하며, I는 실시예에서 고려되는 총 경로의 수를 의미한다. 다음으로 요구 관심 방향(desired direction-of-interest; DOI) 는 요구 도착 방향(desired DOA) 및 빔-앵글(beam-angle)을 기반으로 하는 셋으로 정의할 수 있다.
수학식 5는 의 각도 차이를 의미하고, 는 각도 에 해당하는 단위 벡터를 의미한다. 임의로 첫 번째 마이크를 레퍼런스로 결정하면, 요구 신호(desired signal)를 다음과 같이 정의할 수 있다.
수학식 7은 임의의 각도 차이에 기반한 공간 이득(spatial gain) 이 곱해진 관심 방향(DOI) 내의 단일 경로(single path)들의 합을 의미한다. 본 발명에서의 목표는 에서 로 특정되는 요구 빔(desired beam)에 해당하는를 추출하는 것이다.
도 2는 일 실시예에 있어서, 빔포머 학습 시스템의 구성을 설명하기 위한 블록도이고, 도 3은 일 실시예에 있어서, 빔포머 학습 시스템에서 음성의 공간 필터링을 위한 지도 학습 방법을 설명하기 위한 흐름도이다.
빔포머 학습 시스템(100)의 프로세서는 빔 컨디션 입력부(210) 및 신호 출력부(220)를 포함할 수 있다. 이러한 프로세서의 구성요소들은 빔포머 학습 시스템에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 프로세서 및 프로세서의 구성요소들은 도 3의 음성의 공간 필터링을 위한 지도 학습 방법이 포함하는 단계들(310 내지 320)을 수행하도록 빔포머 학습 시스템을 제어할 수 있다. 이때, 프로세서 및 프로세서의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.
프로세서는 음성의 공간 필터링을 위한 지도 학습 방법을 위한 프로그램의 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다. 예를 들면, 빔포머 학습 시스템에서 프로그램이 실행되면, 프로세서는 운영체제의 제어에 따라 프로그램의 파일로부터 프로그램 코드를 메모리에 로딩하도록 빔포머 학습 시스템을 제어할 수 있다. 이때, 프로세서의 빔 컨디션 입력부(210) 및 신호 출력부(220) 각각은 메모리에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(310 내지 320)을 실행하기 위한 프로세서의 서로 다른 기능적 표현들일 수 있다.
단계(310)에서 빔 컨디션 입력부(210)는 뉴럴 네트워크 기반의 빔포머 모델에 잔향이 존재하는 환경에서 마이크어레이로 입사되는 다채널의 음성 신호와 관심 방향을 표현하는 빔 컨디션(Beam condition)을 입력받을 수 있다. 빔 컨디션 입력부(210)는 3차원 공간에서의 방향 정보와 관심 범위를 특정짓기 위한 관심 방향(direction-of-interest) 정보를 정의하고, 정의된 관심 방향 정보를 빔 컨디션 벡터로 변환할 수 있다. 빔 컨디션 입력부(210)는 지도 학습 방법을 사용하여 공간 필터를 뉴럴 네트워크 기반의 빔보머 모델에 학습시키기 위해 학습 데이터를 생성할 수 있다. 빔 컨디션 입력부(210)는 초기 반사에 공간 이득을 곱한 소스 위치 및 관심 방향의 파라미터의 조합을 통해 보기 방향과 빔폭을 위한 빔 컨디션을 결정할 수 있다. 빔 컨디션 입력부(210)는 다중 경로에서 직접 경로의 도착 방향과, 이미지 방법(image method)을 이용하여 초기 반사의 단일 경로 전파를 획득할 수 있다.
단계(320)에서 신호 출력부(220)는 뉴럴 네트워크 기반의 빔포머 모델을 이용하여 다채널의 음성 신호로부터 빔 컨디션에 대응되는 요구 신호를 출력할 수 있다. 신호 출력부(220)는 입력받은 빔 컨디션에 기초하여 직접 경로와 초기 반사의 방향성을 고려한 잔향 환경에서의 공간적 필터링을 위한 요구 신호를 추출할 수 있다.
도 4는 일 실시예에 있어서, 뉴럴 네트워크 기반의 빔포머 모델의 구조를 설명하기로 한다. 이때, 뉴럴 네트워크 기반의 빔포머 모델은 FiLM 을 포함한 구조로 구성된 것일 수 있다. 뉴럴 네트워크 기반의 빔포머 모델은 빔 컨디션을 입력받을 수 있는 임의의 발화 분리(speech separation) 모듈에 적용 가능하다. 설명의 이해를 위하여, 도 4와 같이 인코더, 디코더, 추정기를 포함하는 뉴럴 네트워크 기반의 빔포머 모델의 구조를 예를 들어 설명하기로 한다.
뉴럴 네트워크 기반의 빔포머 모델은 Conv-TasNet 아키텍처가 채택되고 관심 방향(DOI) 정보를 사용하도록 수정된 것일 수 있다. 네트워크 는 1차원 컨볼루션 인코더(Conv1D) , 1차원 전치된 컨볼루션 디코더(1D transposed convolutional decoder; TConv1D) 및 조건부 마스크 추정기(conditional mask estimator) 로 구성될 수 있다.
조건부 마스크 추정기 의 주요 부분은 R번 반복되는 다른 팽창 계수를 가진 S개의 연속 1차원 컨볼루션 블록이 있는 시간 컨볼루션 네트워크(Temporal convolutional network; TCN)이다. 조건부 마스크 추정기 에 요구되는 관심 방향 (DOI) 정보를 부과하기 위해 모든 1차원 컨볼루션 블록 다음에 특징별 선형 변조(feature-wise linear modulation; FiLM)를 추가하여 시간 컨볼루션이 수정될 수 있다. 에서 길이 T의 청크라고 하자. 의 잠재 표현은 로 1차원 컨볼루션 인코더(Conv1D) 에 입력됨에 따라 획득될 수 있다. 여기서, K와 L은 각각 컨볼루션 커널과 프레임의 수를 나타낸다. 는 커널 차원 을 따라 연결되고, 계층 정규화에 이어 지점별 컨볼루션(pointwise convolutional; PointConv) 계층에 제공되어 커널 차원 MK를 B로 변환한다. 를 s번째 스택 및 r번째 반복된 1차원 컨볼루션 블록의 출력이라고 하자.
는 DOI 벡터 로 변환되며, 여기서, 는 0과 1을 갖는 정규화된 빔폭(normalized beamwidth)이고, 의 최소값과 최대값인 빔폭 파라미터를 나타낸다. 네트워크는 에 의해 결정되는 광범위한 빔폭이 처리되도록 학습될 수 있다. 는 시간 컨볼루션 네트워크(TCN)의 각 FiLM 계층에 공급되고, 관심 방향(DOI) 정보를 부과하기 위해 을 변조하는 로 변환된다.
구체적으로, 는 컨볼루션 커널 B가 있는 지점별 컨볼루션 계층에 를 전달하여 획득되고, 에 적용되며, 이는 의 I번째 프레임 벡터이다. 여기서, 이다. FiLM이다. 여기서, 는 요소별 곱셈을 나타낸다. 요구 마스크는 으로부터 획득하고, 요구되는 신호의 잠재 표현은 으로 계산될 수 있다. 마침내, 요구되는 신호의 청크는 다음과 같이 에 전달하여 다음과 같이 재구성될 수 있다().
도 5는 일 실시예에 있어서, 공간 이득 함수를 설명하기 위한 도면이다.
빔 컨디션에 따라 결정되는 요구 신호(desired signal)를 정의하기 위해 공간 이득 함수(spatial gain function)가 구성될 수 있다. 도 5(a)는 공간 이득 함수, 도 5(b)는 값이 다른 반구를 시각화한 것이다.
두 가지 타입의 공간 이득 함수가 고려될 수 있다. 하드 이득 함수는 이상적인 공간 필터에 대응되며, 다음과 같이 표현될 수 있다.
의 사용은 직관적으로 이상적이지만, 성능이 마이크의 개수에 따라 한정적이므로 다음과 같이 소프트 이득 함수가 정의될 수 있다. 소프트 이득 함수를 사용하여 다음과 같이 에서 급격한 변화를 완화할 수 있다.
여기서, 는 하드 이득 함수의 3dB 감쇄에 해당하는 경계로 설정된 파라미터이다.
지도 학습 방법을 사용하여 명시적인 공간 필터를 뉴럴 네트워크 기반의 빔포머 모델에 학습시키기 위해 초기 반사에 공간 이득을 곱한 소스 위치 및 관심 방향(DOI) 파라미터에 대한 다양한 조합의 빔 컨디션 및 빔 컨디션에 대한 다채널 데이터가 필요하다.
이에, 학습 데이터 생성 동작에 대하여 설명하기로 한다. 우선적으로, 초기 반사 및 도착 방향(DOA)에 대하여 설명하기로 한다. 의 직접 경로는 로 표현될 수 있다. 여기서, 는 크로네커 델타 함수(Kronecker delta function)를 나타내고, 은 각각 m번째 마이크로폰과 사이의 거리와 시간 지연이다. 직접 경로의 도착 방향(DOA)은 다음과 같이 계산될 수 있다.
여기서, atan2는 2-argument arctangent를 의미하고, 의 길이를 나타낸다.
또한, 이미지 방법에서는 공간(방)이 완벽하게 반사되는 단단한 벽으로 둘러싸여 있다고 가정한다. 이는 이미지 소스의 위치가 방에 대한 소스 위치의 대칭 전치에 의해 계산될 수 있음을 의미한다. 단순화를 위해, 모든 방이 동일한 반사 계수 를 나타낸다고 가정하면, 초기 반사의 단일 경로 전파는 다음과 같이 획득될 수 있다.
여기서, 는 i번째 경로의 반사 횟수이고, 는 i번째 이미지 소스의 위치를 나타낸다. 따라서, 수학식 10과 11을 사용하여 I개의 이미지 소스 및 해당하는 도착 방향(DOA) 즉, 의 단일 경로 전파를 계산할 수 있다.
다음으로 요구 신호 생성에 대하여 설명하기로 한다. 빔 컨디션의 경우 확률 분포에서 관심 방향(DOI) 파라미터를 이용하여 보기 방향과 빔폭을 위한 다양한 조합을 생성할 수 있다. 먼저, 는 아래와 같이 에서 까지 개의 등간격의 원소로 구성된 다음의 셋 으로부터 샘플링될 수 있다.
여기서, 는 셋 에 대한 균일 분포를 나타낸다. 는 다양한 보기 방향에 대한 학습 샘플을 생성하기 위해 von-Mises Fisher(vMF) 분포로부터 샘플링할 수 있다. 여기서, 평균 방향은 소스 위치 중에서 무작위로 선택된 정규화된 벡터이고, 는 컨센트레이션(concentration)이다.
여기서, 이다. 각 보기 방향(시선 방향)에 해당하는 다양한 요구 신호로 네트워크를 학습시킬 수 있다. 관심 방향(DOI)의 파라미터가 결정된 후, 요구 신호(목표 신호)는 알고리즘 1에 따라 계산될 수 있다.
알고리즘 1:
도 6은 일 실시예에 있어서, 실시예에서 제안된 방법으로 학습된 뉴럴 네트워크 기반의 빔포머 모델의 실환경 데이터 셋에 대한 출력을 나타낸 도면이다.
실시예에 따르면, python 프로그래밍 언어로 구현될 수 있고, pytorch 모듈이 활용될 수 있다. 학습을 위해 음성 데이터 셋 및 room impulse response(RIR) 생성기를 사용하여 데이터 셋이 생성될 수 있다. 마이크 잡음의 경우 white Gaussian noise를 음성 신호에 25~30 dB signal-to-noise ratio(SNR)로 섞어 준다. 학습에 사용된 RIR의 경우 잔향을 나타내는 reverberation time(RT60)가 0.29 ~ 0.7 초 범위로, 가로, 세로, 높이는 [3.5, 3.5, 2.5] ~[10, 8, 4] m의 방 환경이 시뮬레이션될 수 있다. 반지름이 3.25cm인 4개의 원형 마이크 어레이를 x-y평면에 배치하였으며 각 방마다 음원의 위치는 약 600개 정도의 서로 다른 도착 방향(DOA)를 고려하여 설정할 수 있다.
반사 경로(reflected path) I는 총 337개로 설정될 수 있다. 빔 컨디션 파라미터는 각각 5도, 40도, 20으로 설정될 수 있다. 하이퍼 파라미터로는 Adam optimizer를 learning rate 0.001, batch size 24로 200 에포크까지 설정하여 뉴럴 네트워크 기반의 빔포머 모델이 학습될 수 있다.
두 개의 실제 녹음(왼쪽 상단)과 각 녹음(왼쪽 중간 및 왼쪽 하단)의 혼합에 대한 스펙트로그램이다. 고정 =0.5(상단-중간), =0.1(상단-우측)로 변경하여 얻은 혼합물의 SR맵이다. 는 각 신호에 대해 추정된 도착 방향을 의미하는 로컬 최대값을 나타낸다. 각 추정 도착 방향을 네트워크에 입력하여 획득된 각 출력에 대한 스펙트로그램은 도 6과 같다. 실시예에서 제안된 방법으로 학습된 뉴럴 네트워크 기반의 빔포머 모델이 실환경 데이터 셋에서도 기대대로 동작될 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (7)

  1. 빔포머 학습 시스템에 의해 수행되는 음성의 공간 필터링을 위한 지도 학습 방법에 있어서,
    뉴럴 네트워크 기반의 빔포머 모델에 잔향이 존재하는 환경에서 마이크어레이로 입사되는 다채널의 음성 신호와 관심 방향을 표현하는 빔 컨디션(Beam condition)을 입력받는 단계; 및
    상기 뉴럴 네트워크 기반의 빔포머 모델을 이용하여 상기 다채널의 음성 신호로부터 상기 빔 컨디션에 대응되는 요구 신호를 출력하는 단계
    를 포함하고,
    상기 뉴럴 네트워크 기반의 빔포머 모델은, 인코더, 디코더 및 추정기로 구성되고,
    상기 추정기는, 1차원 컨볼루션 블록 다음에 특징별 선형 변조(feature-wise linear modulation; FiLM)가 추가된 시간 컨볼루션 네트워크를 포함하고,
    마이크의 상대적인 위치로부터 m번째 마이크로의 다중 경로 음향 전파를 통해 시간 t에서 m번째 마이크에서 캡쳐된 신호를 계산하고, 요구 도착 방향과 빔 앵글을 이용하여 관심 방향의 파라미터의 조합을 샘플링하고, 각도 차이에 기반한 공간 이득이 곱해진 관심 방향 내의 단일 경로들의 합을 계산하고, 초기 반사에 공간 이득을 곱한 소스 위치와 상기 계산된 관심 방향 내의 단일 경로들의 합을 이용하여 상기 관심 방향의 파라미터 조합에 따라 결정된 빔 컨디션에 기초하여 직접 경로와 초기 반사의 방향성을 고려한 잔향 환경에서의 공간적 필터링을 위한 요구 신호가 추출되도록 학습된 것이고,
    상기 빔 컨디션에 따라 결정되는 요구 신호(desired signal)를 정의하기 위해 공간 이득 함수(spatial gain function)가 구성되고,
    상기 공간 이득 함수는, 하드 이득 함수(hard gain function)와 소프트 이득 함수(soft gain function)를 포함하는,
    것을 특징으로 하는 음성의 공간 필터링을 위한 지도 학습 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 빔포머 학습 시스템에 의해 수행되는 음성의 공간 필터링을 위한 지도 학습 방법에 있어서,
    뉴럴 네트워크 기반의 빔포머 모델에 잔향이 존재하는 환경에서 마이크어레이로 입사되는 다채널의 음성 신호와 관심 방향을 표현하는 빔 컨디션(Beam condition)을 입력받는 단계; 및
    상기 뉴럴 네트워크 기반의 빔포머 모델을 이용하여 상기 다채널의 음성 신호로부터 상기 빔 컨디션에 대응되는 요구 신호를 출력하는 단계
    를 포함하고,
    상기 뉴럴 네트워크 기반의 빔포머 모델은, 인코더, 디코더 및 추정기로 구성되고,
    상기 추정기는, 1차원 컨볼루션 블록 다음에 특징별 선형 변조(feature-wise linear modulation; FiLM)가 추가된 시간 컨볼루션 네트워크를 포함하고,
    마이크의 상대적인 위치로부터 m번째 마이크로의 다중 경로 음향 전파를 통해 시간 t에서 m번째 마이크에서 캡쳐된 신호를 계산하고, 요구 도착 방향과 빔 앵글을 이용하여 관심 방향의 파라미터의 조합을 샘플링하고, 각도 차이에 기반한 공간 이득이 곱해진 관심 방향 내의 단일 경로들의 합을 계산하고, 초기 반사에 공간 이득을 곱한 소스 위치와 상기 계산된 관심 방향 내의 단일 경로들의 합을 이용하여 상기 관심 방향의 파라미터 조합에 따라 결정된 빔 컨디션에 기초하여 직접 경로와 초기 반사의 방향성을 고려한 잔향 환경에서의 공간적 필터링을 위한 요구 신호가 추출되도록 학습된 것이고,
    상기 음성의 공간 필터링을 위한 지도 학습 방법은,
    다중 경로에서 직접 경로의 도착 방향과, 이미지 방법(image method)을 이용하여 초기 반사의 단일 경로 전파를 획득하는 것
    을 포함하는 음성의 공간 필터링을 위한 지도 학습 방법.
  6. 빔포머 학습 시스템에 의해 수행되는 음성의 공간 필터링을 위한 지도 학습 방법에 있어서,
    뉴럴 네트워크 기반의 빔포머 모델에 잔향이 존재하는 환경에서 마이크어레이로 입사되는 다채널의 음성 신호와 관심 방향을 표현하는 빔 컨디션(Beam condition)을 입력받는 단계; 및
    상기 뉴럴 네트워크 기반의 빔포머 모델을 이용하여 상기 다채널의 음성 신호로부터 상기 빔 컨디션에 대응되는 요구 신호를 출력하는 단계
    를 포함하고,
    상기 뉴럴 네트워크 기반의 빔포머 모델은, 인코더, 디코더 및 추정기로 구성되고,
    상기 추정기는, 1차원 컨볼루션 블록 다음에 특징별 선형 변조(feature-wise linear modulation; FiLM)가 추가된 시간 컨볼루션 네트워크를 포함하고,
    마이크의 상대적인 위치로부터 m번째 마이크로의 다중 경로 음향 전파를 통해 시간 t에서 m번째 마이크에서 캡쳐된 신호를 계산하고, 요구 도착 방향과 빔 앵글을 이용하여 관심 방향의 파라미터의 조합을 샘플링하고, 각도 차이에 기반한 공간 이득이 곱해진 관심 방향 내의 단일 경로들의 합을 계산하고, 초기 반사에 공간 이득을 곱한 소스 위치와 상기 계산된 관심 방향 내의 단일 경로들의 합을 이용하여 상기 관심 방향의 파라미터 조합에 따라 결정된 빔 컨디션에 기초하여 직접 경로와 초기 반사의 방향성을 고려한 잔향 환경에서의 공간적 필터링을 위한 요구 신호가 추출되도록 학습된 것이고,
    상기 관심 방향은, 3차원 공간에서의 방향 정보와 관심 범위를 설정하기 위해 정의되고, 상기 정의된 관심 방향이 빔 컨디션 벡터로 변환되는 것
    을 포함하는 음성의 공간 필터링을 위한 지도 학습 방법.
  7. 빔포머 학습 시스템에 있어서,
    뉴럴 네트워크 기반의 빔포머 모델에 잔향이 존재하는 환경에서 마이크어레이로 입사되는 다채널의 음성 신호와 관심 방향을 표현하는 빔 컨디션(Beam condition)을 입력받는 빔 컨디션 입력부; 및
    상기 뉴럴 네트워크 기반의 빔포머 모델을 이용하여 상기 다채널의 음성 신호로부터 상기 빔 컨디션에 대응되는 요구 신호를 출력하는 신호 출력부
    를 포함하고,
    상기 뉴럴 네트워크 기반의 빔포머 모델은, 인코더, 디코더 및 추정기로 구성되고,
    상기 추정기는, 1차원 컨볼루션 블록 다음에 특징별 선형 변조(feature-wise linear modulation; FiLM)가 추가된 시간 컨볼루션 네트워크를 포함하고,
    마이크의 상대적인 위치로부터 m번째 마이크로의 다중 경로 음향 전파를 통해 시간 t에서 m번째 마이크에서 캡쳐된 신호를 계산하고, 요구 도착 방향과 빔 앵글을 이용하여 관심 방향의 파라미터의 조합을 샘플링하고, 각도 차이에 기반한 공간 이득이 곱해진 관심 방향 내의 단일 경로들의 합을 계산하고, 초기 반사에 공간 이득을 곱한 소스 위치와 상기 계산된 관심 방향 내의 단일 경로들의 합을 이용하여 상기 관심 방향의 파라미터 조합에 따라 결정된 빔 컨디션에 기초하여 직접 경로와 초기 반사의 방향성을 고려한 잔향 환경에서의 공간적 필터링을 위한 요구 신호가 추출되도록 학습된 것이고,
    상기 빔 컨디션에 따라 결정되는 요구 신호(desired signal)를 정의하기 위해 공간 이득 함수(spatial gain function)가 구성되고,
    상기 공간 이득 함수는, 하드 이득 함수(hard gain function)와 소프트 이득 함수(soft gain function)를 포함하는,
    것을 특징으로 하는 빔포머 학습 시스템.
KR1020220078040A 2022-06-27 2022-06-27 음성의 명시적 공간 필터링을 위한 지도 학습 방법 및 시스템 KR102624195B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020220078040A KR102624195B1 (ko) 2022-06-27 2022-06-27 음성의 명시적 공간 필터링을 위한 지도 학습 방법 및 시스템
PCT/KR2023/008049 WO2024005403A1 (ko) 2022-06-27 2023-06-12 음성의 명시적 공간 필터링을 위한 지도 학습 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220078040A KR102624195B1 (ko) 2022-06-27 2022-06-27 음성의 명시적 공간 필터링을 위한 지도 학습 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20240001423A KR20240001423A (ko) 2024-01-03
KR102624195B1 true KR102624195B1 (ko) 2024-01-11

Family

ID=89380763

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220078040A KR102624195B1 (ko) 2022-06-27 2022-06-27 음성의 명시적 공간 필터링을 위한 지도 학습 방법 및 시스템

Country Status (2)

Country Link
KR (1) KR102624195B1 (ko)
WO (1) WO2024005403A1 (ko)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102087307B1 (ko) * 2018-03-15 2020-03-10 한양대학교 산학협력단 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치
KR102316537B1 (ko) * 2019-06-21 2021-10-22 한양대학교 산학협력단 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치
KR20210017252A (ko) * 2019-08-07 2021-02-17 삼성전자주식회사 다채널 오디오 신호 처리 방법 및 전자 장치
KR102410850B1 (ko) * 2020-08-18 2022-06-20 부산대학교 산학협력단 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Meng Yu et al., ‘End-to-End Multi-Look Keyword Spotting’, arXiv:2005.10386v1 [eess.AS], 20 May 2020.*

Also Published As

Publication number Publication date
KR20240001423A (ko) 2024-01-03
WO2024005403A1 (ko) 2024-01-04

Similar Documents

Publication Publication Date Title
JP4376902B2 (ja) 音声入力システム
US10123113B2 (en) Selective audio source enhancement
JP6196320B2 (ja) 複数の瞬間到来方向推定を用いるインフォ−ムド空間フィルタリングのフィルタおよび方法
KR101591220B1 (ko) 공간적 전력 밀도에 기초하여 마이크 위치 결정을 위한 장치 및 방법
US8577054B2 (en) Signal processing apparatus, signal processing method, and program
EP2647222B1 (en) Sound acquisition via the extraction of geometrical information from direction of arrival estimates
US7626889B2 (en) Sensor array post-filter for tracking spatial distributions of signals and noise
RU2559520C2 (ru) Устройство и способ для пространственно избирательного получения звука с помощью акустической триангуляции
CN106537501B (zh) 混响估计器
KR100856246B1 (ko) 실제 잡음 환경의 특성을 반영한 빔포밍 장치 및 방법
Mošner et al. Dereverberation and beamforming in far-field speaker recognition
EP3320311B1 (en) Estimation of reverberant energy component from active audio source
KR102624195B1 (ko) 음성의 명시적 공간 필터링을 위한 지도 학습 방법 및 시스템
US11830471B1 (en) Surface augmented ray-based acoustic modeling
Choi et al. Supervised learning approach for explicit spatial filtering of speech
Firoozabadi et al. Combination of nested microphone array and subband processing for multiple simultaneous speaker localization
JP2023550434A (ja) 改良型音響源測位法
Garcia-Barrios et al. Exploiting spatial diversity for increasing the robustness of sound source localization systems against reverberation
Chern et al. Voice Direction-Of-Arrival Conversion
Milano et al. Sector-Based Interference Cancellation for Robust Keyword Spotting Applications Using an Informed MPDR Beamformer
Okamoto et al. ‘Blind directivity estimation of a sound source in a room using a surrounding microphone array
Kavruk Two stage blind dereverberation based on stochastic models of speech and reverberation
Mošner Microphone Arrays for Speaker Recognition
Peterson Multiple source localization for real-world systems
Rosen Design and Analysis of a Constant Beamwidth Beamformer

Legal Events

Date Code Title Description
GRNT Written decision to grant