KR20240055337A - 복수의 음향 환경들을 고려하는 음향 신호 처리 장치 - Google Patents

복수의 음향 환경들을 고려하는 음향 신호 처리 장치 Download PDF

Info

Publication number
KR20240055337A
KR20240055337A KR1020220135508A KR20220135508A KR20240055337A KR 20240055337 A KR20240055337 A KR 20240055337A KR 1020220135508 A KR1020220135508 A KR 1020220135508A KR 20220135508 A KR20220135508 A KR 20220135508A KR 20240055337 A KR20240055337 A KR 20240055337A
Authority
KR
South Korea
Prior art keywords
acoustic
environment
signal
processing
processor
Prior art date
Application number
KR1020220135508A
Other languages
English (en)
Inventor
오민재
Original Assignee
주식회사 이엠텍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 이엠텍 filed Critical 주식회사 이엠텍
Priority to KR1020220135508A priority Critical patent/KR20240055337A/ko
Publication of KR20240055337A publication Critical patent/KR20240055337A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

실시예인 복수의 음향 환경들을 고려하는 음향 신호 처리 장치는 음향 입력 신호를 프로세서에 인가하는 입력부와, 프로세서로부터 음향 입력 신호를 인가 받아 음향 입력 신호에 존재하는 적어도 하나 이상의 음향 환경에 대한 음향 환경 특성을 인공 지능을 이용하여 추론하여 프로세서에 인가하는 환경 분류 모듈과, 프로세서로부터 음향 신호를 인가 받아 인공 지능을 이용하여 적어도 하나 이상의 음향 환경 각각에 대응하여 음향 신호를 처리하여 음향 처리 신호를 프로세서에 인가하는 적어도 하나 이상의 환경 처리 모듈과, 입력부로부터 인가되는 음향 입력 신호를 환경 분류 모듈에 인가하고, 환경 분류 모듈로부터 음향 환경 특성을 인가 받아, 인가된 음향 환경 특성을 반영하여 음향 신호가 적어도 하나 이상의 환경 처리 모듈에 의해 처리되도록 하여 음향 출력 신호를 생성하는 프로세서를 포함한다.

Description

복수의 음향 환경들을 고려하는 음향 신호 처리 장치{ACOUSTIC SIGNAL PROCESSING APPARATUS CONSIDERING A PLURALITY OF ACOUSTIC ENVIRONMENTS}
실시예는 음향 신호 처리 장치에 관한 것으로서, 특히 음향 입력 신호의 음향 환경 특성과, 복수의 음향 환경들 각각에 대한 복수의 환경 처리 모듈들을 이용하여 음향 입력 신호에 관련된 환경들을 반영하여 음향 출력 신호를 출력하는 복수의 음향 환경들을 고려하는 음향 신호 처리 장치에 관한 것이다.
마이크로폰에 입력된 입력 신호 중 음성 신호를 획득하기 위하여 잡음 신호를 추정하는 기술은 양방향 음성 통신 시스템에서 음성 품질을 향상시키는 데 필수적인 요소이다.
추정된 잡음 신호는 양방향 통신 시스템뿐만 아니라 음향 환경 식별(acoustic environment identification), 음성 인식(speech recognition) 및 화자 식별(speaker identification) 등 다양한 시스템에서 사용될 수 있다.
마이크로폰에 입력된 잡음 신호는 정상적(stationary) 특성 및 비정상적(non-stationary) 특성을 모두 가지고 있으므로, 잡음 신호를 완벽하게 추정하는 것은 어렵다. 예를 들어, 정상적 특성을 갖는 잡음 신호는 백색 잡음일 수 있다. 비정상적 특성을 갖는 잡음 신호는 길거리 소음 또는 카페 소음일 수 있다.
대부분의 잡음 제거 기술은 주파수 영역에서 계산된 이득 함수를 사용하여 잡음 신호를 제거하는데, 이러한 이득 함수는 음향 환경의 추정 값에 의존한다.
종래의 AI 잡음 제거 방법(음성 처리 방법)은 실제 음향 환경과 추론된 음향 환경 간의 차이에 의해서 음향 처리 상의 왜곡이 발생된다.
공개특허공보 제10-2017-0060108
실시예는 음향 입력 신호의 음향 환경 특성과, 복수의 음향 환경들 각각에 대한 복수의 환경 처리 모듈들을 이용하여 음향 입력 신호에 관련된 환경들을 반영하여 음향 출력 신호를 출력하는 복수의 음향 환경들을 고려하는 음향 신호 처리 장치를 제공하는 것을 목적으로 한다.
실시예인 복수의 음향 환경들을 고려하는 음향 신호 처리 장치는 음향 입력 신호를 프로세서에 인가하는 입력부와, 프로세서로부터 음향 입력 신호를 인가 받아 음향 입력 신호에 존재하는 적어도 하나 이상의 음향 환경에 대한 음향 환경 특성을 인공 지능을 이용하여 추론하여 프로세서에 인가하는 환경 분류 모듈과, 프로세서로부터 음향 신호를 인가 받아 인공 지능을 이용하여 적어도 하나 이상의 음향 환경 각각에 대응하여 음향 신호를 처리하여 음향 처리 신호를 프로세서에 인가하는 적어도 하나 이상의 환경 처리 모듈과, 입력부로부터 인가되는 음향 입력 신호를 환경 분류 모듈에 인가하고, 환경 분류 모듈로부터 음향 환경 특성을 인가 받아, 인가된 음향 환경 특성을 반영하여 음향 신호가 적어도 하나 이상의 환경 처리 모듈에 의해 처리되도록 하여 음향 출력 신호를 생성하는 프로세서를 포함한다.
또한, 음향 환경 특성은 음향 입력 신호에 존재하는 적어도 하나 이상의 음향 환경 각각의 환경 확률을 포함하는 것이 바람직하다.
또한, 프로세서는 음향 신호로 음향 입력 신호를 적어도 하나 이상의 환경 처리 모듈에 인가하고, 적어도 하나 이상의 환경 처리 모듈로부터 음향 처리 신호를 인가 받고, 인가된 음향 처리 신호와, 각 음향 환경의 환경 확률을 곱셈 연산하여 적어도 하나 이상의 환경 처리 신호를 생성하고, 생성된 환경 처리 신호를 덧셈하여 음향 출력 신호를 생성하는 것이 바람직하다.
또한, 프로세서는 적어도 하나 이상의 음향 환경들의 환경 확률이 기설정된 기준 확률 이상이거나, 최상위 크기로부터 기준 순서 이내인 적어도 하나 이상의 음향 환경 각각에 대응하는 환경 처리 모듈이나 환경 처리 모듈에만 음향 입력 신호를 인가하여 동작 제어하고, 음향 입력 신호를 인가 받은 환경 처리 모듈로부터 음향 처리 신호를 인가 받고, 인가된 음향 처리 신호와, 각 음향 환경의 환경 확률을 곱셈 연산하여 적어도 하나 이상의 환경 처리 신호를 생성하고, 생성된 환경 처리 신호를 덧셈하여 음향 출력 신호를 생성하는 것이 바람직하다.
또한, 프로세서는 적어도 하나 이상의 환경 확률의 크기에 따라서, 음향 신호를 적어도 하나 이상의 환경 처리 모듈에 인가하는 인가 순서를 결정하고, 결정된 인가 순서에 따라서 음향 신호를 환경 처리 모듈에 인가하되, 인가 순서가 가장 빠른 환경 처리 모듈에는 음향 신호로 음향 입력 신호가 인가되고, 다른 환경 처리 모듈에는 인가 순서가 우선인 환경 처리 모듈의 음향 처리 신호가 음향 신호로 입력되며, 우선 순위가 가장 늦은 환경 처리 모듈에 의해 생성된 음향 처리 신호를 음향 출력 신호로 저장하는 것이 바람직하다.
또한, 환경 분류 모듈은 적어도 하나 이상의 음향 환경 각각을 기계 학습하며 적어도 하나 이상의 음향 환경 각각에 대한 확률을 추론하는 적어도 하나 이상의 환경 분류 모델들을 포함하고, 프로세서는 음향 입력 신호를 적어도 하나 이상의 환경 분류 모델들에 인가하고, 적어도 하나 이상의 환경 분류 모델들 각각은 적어도 하나 이상의 환경 확률들 각각을 추론하여 프로세서에 인가하는 것이 바람직하다.
실시예는 다수의 음향 환경들이 존재하는 음향 입력 신호를 처리함에 있어서, 음향 환경들 각각의 음향 확률을 고려하여 그 반영되는 비율이 상이하거나 처리되는 순서가 상이하도록 하여, 보다 다수의 환경들에서의 음향 처리가 정확하게 이루어지도록 하는 효과가 있다.
도 1은 실시예에 따른 복수의 음향 환경들을 고려하는 음향 신호 처리 장치의 제어 구성도이다.
도 2는 도 1의 음향 신호 처리 장치의 동작 과정의 제 1 실시예이다.
도 3은 도 1의 음향 신호 처리 장치의 동작 과정의 제 2 실시예이다.
이하에서, 실시예들은 도면을 통하여 상세하게 설명된다. 그러나, 이는 특정한 실시 형태에 대해 한정하려는 것이 아니며, 설명되는 실시예들은 그 실시예들의 다양한 변경(modification), 균등물(equivalent), 및/또는 대체물(alternative)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
본 문서에서, "가진다", "가질 수 있다", "포함한다", 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
본 문서에서, "A 또는 B", "A 또는/및 B 중 적어도 하나", 또는 "A 또는/및 B 중 하나 또는 그 이상" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B", "A 및 B 중 적어도 하나", 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.
본 문서에서 사용된 "제1", "제2", "첫째", 또는 "둘째" 등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 예를 들면, 제1 사용자 기기와 제2 사용자 기기는, 순서 또는 중요도와 무관하게, 서로 다른 사용자 기기를 나타낼 수 있다. 예를 들면, 본 문서에 기재된 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 바꾸어 명명될 수 있다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.
본 문서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)", "~하는 능력을 가지는(having the capacity to)", "~하도록 설계된(designed to)", "~하도록 변경된(adapted to)", "~하도록 만들어진(made to)", 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성(또는 설정)된"은 하드웨어적으로 "특별히 설계된(specifically designed to)"것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성(또는 설정)된 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
본 문서에서 사용된 용어들은 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 다른 실시 예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 문서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 본 문서에 사용된 용어들 중 일반적인 사전에 정의된 용어들은 관련 기술의 문맥 상 가지는 의미와 동일 또는 유사한 의미로 해석될 수 있으며, 본 문서에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 문서에서 정의된 용어일지라도 본 문서의 실시 예들을 배제하도록 해석될 수 없다.
도 1은 실시예에 따른 복수의 음향 환경들을 고려하는 음향 신호 처리 장치의 제어 구성도이다.
음향 신호 처리 장치(100)는 음향 입력 신호를 외부로부터 획득하거나 전자 통신 장치(예를 들면, 스마트폰, 테블릿 등)로부터 전송 받아 프로세서(90)에 인가하는 입력부(10)와, 프로세서(90)로부터 음향 출력 신호를 인가 받아 음 방출하거나 전자 통신 장치에 전송하는 출력부(20)와, 전원을 프로세서(90) 등에 공급하는 전원부(30)와, 인공 지능에 의한 기계 학습을 수행하여 프로세서(90)로부터 음향 입력 신호를 인가 받아 음향 입력 신호에 대한 음향 환경 특성을 추론하여 프로세서(90)에 인가하는 환경 분류 모듈(40)과, 인공 지능에 의한 기계 학습을 수행하여 프로세서(90)로부터 음향 신호(음향 입력 신호 또는 음향 처리 신호)를 각각 인가 받아 적어도 하나 이상의 제 1 내지 제 N 음향 환경 각각에 대응하여 음향 입력 신호를 처리하는 적어도 하나 이상의 제 1 내지 제 N 환경 처리 모듈(50-1 ~ 50-N)과, 상술된 구성요소들을 제어하여, 음향 입력 신호에 관련된 음향 환경 특성들을 반영하여 음향 입력 신호가 제 1 내지 제 N 환경 처리 모듈(50-1 ~ 50-N) 중의 적어도 하나 이상에 의해 처리되도록 하여 음향 출력 신호를 생성하는 프로세서(90) 등을 포함하여 구성된다. 다만, 마이크로폰이나 통신 모듈 등을 포함하는 입력부(10)와, 스피커나 통신 모듈 등을 포함하는 출력부(20) 및 전원부(30)는 본 실시예가 속하는 기술분야의 통상의 기술자에게 널리 알려진 기술에 해당되어, 그 상세한 설명이 생략된다.
먼저, 환경 분류 모듈(40)은 예를 들면, RNN, LSTM, CNN, DNN 모델 등을 사용하여 딥러닝이나 기계 학습을 수행하는 알고리즘이거나, 그러한 알고리즘에 따른 연산을 수행하여 출력하는 실행기로 구현될 수 있다. 환경 분류 모듈(40)은 음향 입력 신호를 입력값으로 하여, 제거되어야 할 복수의 음향 환경들(또는 음향 잡음 환경들)(예를 들면, 바람, 차량 소음 그 외 기타)로 분류하되, 음향 입력 신호에 음향 환경들 각각이 존재하거나 존재할 환경확률들을 포함하는 음향 입력 신호의 음향 환경 특성을 추론하여 출력값으로 음향 환경 특성을 프로세서(9)에 인가한다. 환경 분류 모듈(40)이 예를 들면, 제 1 내지 제 N 음향 환경 각각으로 음향 환경들을 분류할 수 있을 경우, 음향 환경 특성은 음향 입력 신호에 제 1 음향 환경이 존재하거나 존재할 제 1 환경 확률(P1)과, 음향 입력 신호에 제 2 음향 환경이 존재하거나 존재할 제 2 환경 확률(P2)과, ..., 음향 입력 신호에 제 N 음향 환경이 존재하거나 존재할 제 N 환경 확률(PN)을 포함한다. 즉, 환경 분류 모듈(40)은 현실의 음향 환경이 복합적인 음향 환경들을 포함하는 점을 고려하여, 음향 입력 신호의 음향 환경 특성을 추론한다.
환경 분류 모듈(40)은 출력 함수로 소프트맥스(softmax) 함수나 시그모이드(sigmoid) 함수 중의 어느 하나가 적용되어 사용된다.
모델 설계 시 출력 함수로 소프트맥스(softmax) 함수가 적용된 경우, 환경 분류 모듈(40)이 1회 추론 동작을 수행하여, 제 1 내지 제 N 환경 확률들을 모두 추론하는 경우이다. 즉, 전체 환경 확률은 1이고, 전체 환경 확률이 제 1 내지 제 N 음향 환경들 각각이 존재하거나 존재할 제 1 내지 제 N 환경 확률 각각으로 분배된다.
모델 설계 시 출력 함수로 시그모이드(sigmoid) 함수가 적용된 경우 sigmoid를 사용하기 위해, 환경 분류 모듈(40)은 제 1 내지 제 N 음향 환경 각각을 기계 학습하며 제 1 내지 제 N 음향 환경 각각에 대한 확률을 추론하는 제 1 내지 제 N 환경 분류 모델들을 포함하고, 음향 입력 신호를 적어도 하나 이상의 제 1 내지 제 N 환경 분류 모델들 각각에 인가한다. 제 1 내지 제 N 환경 분류 모델들 각각은 음향 입력 신호에 제 1 내지 제 N 음향 환경 각각이 존재하거나 존재할 제 1 내지 제 N 환경 확률들(0 ~ 1 사이의 값) 각각을 추론하여 프로세서(90)에 인가 한다. 즉, 환경 분류 모듈(40)은 N번의 추론 동작을 수행하며, 제 1 내지 제 N 환경 확률들 각각은 서로 독립적이므로, 제 1 내지 제 N 환경 확률들의 총합이 1.0을 초과할 수도 있다.
다음으로, 제 1 내지 제 N 환경 처리 모듈들(50-1 ~ 50-N) 각각은 예를 들면, RNN, LSTM, CNN, DNN 모델 등을 사용하여 제 1 내지 제 N 음향 환경 각각에 대한 딥러닝이나 기계 학습을 수행하는 알고리즘이거나, 그러한 알고리즘에 따른 연산을 수행하여 출력하는 실행기로 구현될 수 있다. 제 1 내지 제 N 환경 처리 모듈들(50-1 ~ 50-N) 각각은 제 1 내지 제 N 음향 환경들 각각에 대응하는 음향 처리(예를 들면, 상쇄, 제거, 억제 등)를 수행하기 위한 것으로, 음향 입력 신호를 입력값으로, 음향 처리된 제 1 내지 제 N 음향 처리 신호들 각각을 출력값으로 한다.
프로세서(90)는 입력부(10)로부터 인가된 음향 입력 신호에 관련된 음향 환경 특성들을 반영하여 음향 입력 신호가 제 1 내지 제 N 환경 처리 모듈(50-1 ~ 50-N) 중의 적어도 하나 이상에 의해 처리되도록 하여 음향 출력 신호를 생성하고, 생성된 음향 출력 신호를 출력부(20)에 인가하는 전기적 및/또는 전자적 회로 등으로 구현된다. 프로세서(90)의 상세 제어 과정은 하기의 도 2 및 도 3에서 함께 설명된다.
도 2는 도 1의 음향 신호 처리 장치의 동작 과정의 제 1 실시예이다.
프로세서(90)는 입력부(10)로부터 음향 입력 신호를 인가 받아 환경 분류 모듈(40)에 인가하여 환경 분류 모듈(40)을 동작 제어하고, 환경 분류 모듈(40)로부터 제 1 내지 제 N 환경 확률들(P1 내지 PN)을 인가 받아 저장한다. 또한, 프로세서(90)는 제 1 내지 제 N 환경 처리 모듈들(50-1 내지 50-N) 중의 적어도 하나 이상에 인가한다.
프로세서(90)가 제 1 내지 제 N 환경 처리 모듈들(50-1 내지 50-N) 중의 적어도 하나 이상에 인가하는 과정에서, 제 1 내지 제 N 환경 확률들(P1 내지 PN)의 크기를 고려하지 않는 경우와, 고려하는 경우가 있다.
먼저, 제 1 내지 제 N 환경 확률들(P1 내지 PN)의 크기를 고려하지 않는 경우로, 프로세서(90)는 음향 입력 신호를 제 1 내지 제 N 환경 처리 모듈들(50-1 내지 50-N) 각각에 인가하여 제 1 내지 제 N 환경 처리 모듈들(50-1 내지 50-N)을 동작 제어한다. 제 1 내지 제 N 환경 처리 모듈들(50-1 내지 50-N) 각각은 제 1 내지 제 N 음향 처리 신호들 각각을 프로세서(90)에 인가한다. 프로세서(90)는 제 1 내지 제 N 환경 처리 모듈들(50-1 내지 50-N) 각각에 대응하는 제 1 내지 제 N 환경 확률들 각각과, 제 1 내지 제 N 음향 처리 신호들 각각을 곱셈 연산하여, 제 1 내지 제 N 환경 처리 신호들을 생성하고, 제 1 내지 제 N 환경 처리 신호들을 덧셈(sum) 연산하여 음향 출력 신호를 생성한다. 이러한 과정에 의해서, 음향 출력 신호는 음향 입력 신호에 존재하는 제 1 내지 제 N 음향 환경들 각각의 존재 확률이 반영된 신호이다.
다음으로, 제 1 내지 제 N 환경 확률들(P1 내지 PN)의 크기를 고려하는 경우, 프로세서(90)는 음향 입력 신호에 존재하는 제 1 내지 제 N 음향 환경들의 존재 확률이 기설정된 기준 확률(예를 들면, 0.2 이상) 이상이거나, 최상위 크기로부터 기준 순서(예를 들면, 2순위 등) 이내인 제 1 내지 제 N 음향 환경들 각각에 대응하는 환경 처리 모듈이나 환경 처리 모듈에만 음향 입력 신호를 인가하여 동작 제어하고, 그 이외의 환경 처리 모듈에는 음향 입력 신호를 인가 하지 않고 동작 정지 제어시킨다. 예를 들면, 제 1 환경 확률(P1)이 0.6이고, 제 2 환경 확률(P2)이 0.3이고, 제 N 환경 확률(PN)이 0.1이고, 그 이외의 제 3 내지 제 N-1 환경 확률(P3 내지 PN-1)이 0인 경우, 프로세서(90)는 기준 확률 이상인 제 1 및 제 2 환경 확률(P1), (P2) 각각에 대응하는 제 1 및 제 2 환경 처리 모듈(50-1), (50-2)만을 동작 제어하여 음향 입력 신호를 인가한다. 프로세서(90)는 음향 입력 신호를 인가한 환경 처리 모듈로부터 음향 처리 신호(들)를 인가 받고, 인가된 음향 처리 신호(들) 각각과, 각 환경에 대응하는 환경 확률(들) 각각 곱셈 연산하여 환경 처리 신호(들)를 생성하고, 생성된 환경 처리 신호(들)을 덧셈 연산하여 음향 출력 신호를 생성한다. 이러한 과정에 의해서, 음향 출력 신호는 음향 입력 신호에 존재하는 제 1 내지 제 N 음향 환경들 각각의 존재 확률들 중에서, 기설정된 기준 확률 이상이거나, 최상위 크기로부터 기준 순서 이내인 음향 환경(들)이 반영된 신호이다.
도 3은 도 1의 음향 신호 처리 장치의 동작 과정의 제 2 실시예이다.
프로세서(90)는 도 2에서와 동일하게, 입력부(10)로부터 음향 입력 신호를 인가 받아 환경 분류 모듈(40)에 인가하여 환경 분류 모듈(40)을 동작 제어하고, 환경 분류 모듈(40)로부터 제 1 내지 제 N 환경 확률들(P1 내지 PN)을 인가 받아 저장한다.
다음으로, 프로세서(90)가 제 1 내지 제 N 환경 처리 모듈들(50-1 내지 50-N) 중의 적어도 하나 이상에 인가하는 과정에서, 제 1 내지 제 N 환경 확률들(P1 내지 PN)의 크기를 고려하여, 음향 입력 신호를 인가 받을 제 1 내지 제 N 환경 처리 모듈(50-1 내지 50-N)의 인가 순서를 설정한다. 본 실시예에서, 환경 확률의 크기의 내림 차순으로 제 1 내지 제 N 환경 처리 모듈들(50-1 내지 50-N) 중의 하나 이상을 동작 제어한다. 예를 들면, 제 1 환경 확률(P1)이 0.6이고, 제 2 환경 확률(P2)이 0.3이고, 제 N 환경 확률(PN)이 0.1이고, 그 이외의 제 3 내지 제 N-1 환경 확률(P3 내지 PN-1)이 0인 경우, 인가 순서는 제 1 환경 처리 모듈(50-1), 제 2 환경 처리 모듈(50-2), 제 N 환경 처리 모듈(50-N)의 순서이다. 다만, 인가되는 인자는 인가 순서가 가장 빠른 환경 처리 모듈에는 음향 입력 신호가 인가되고, 그 다음부터는 이전 환경 처리 모듈에서 처리된 음향 처리 신호가 입력 인자가 된다.
먼저, 프로세서(90)는 음향 입력 신호를 가장 크기가 큰 제 1 환경 확률(P1)에 대응하는 제 1 환경 처리 모듈(50-1)에 인가하여 제 1 환경 처리 모듈(50-1)을 동작 제어하여 음향 처리를 수행하도록 하고, 제 1 환경 처리 모듈(50-1)은 음향 입력 신호를 처리하여 제 1 음향 처리 신호를 생성하여 프로세서(90)에 인가한다. 그리고, 프로세서(90)는 제 1 음향 처리 신호를 2순위의 크기를 지닌 제 2 환경 확률(P2)에 대응하는 제 2 환경 처리 모듈(50-2)에 인가하여 제 2 환경 처리 모듈(50-2)을 동작 제어하여 음향 처리를 수행하도록 하고, 제 2 환경 처리 모듈(50-2)은 제 1 음향 처리 신호를 처리하여 제 2 음향 처리 신호를 생성하여 프로세서(90)에 인가한다. 그리고, 프로세서(90)는 확률이 0인 제 3 내지 제 N-1 환경 처리 모듈(50-3 내지 50-N-1)을 동작 중지시키고 3순위의 크기를 지닌 제 N 환경 확률(PN)에 대응하는 제 N 음향 처리 모듈(50-N)에 제 2 음향 처리 신호를 인가하여 제 N 환경 처리 모듈(50-N)을 동작 제어하여 음향 처리를 수행하도록 하고, 제 N 환경 처리 모듈(50-N)은 제 2 음향 처리 신호를 처리하여 제 N 음향 처리 신호를 생성하여 프로세서(90)에 인가한다. 프로세서(90)는 인가 순서에 포함되는 음향 처리 모듈에서 최종적으로 처리되어 생성된 음향 처리 신호(우선 순위가 가장 늦은 환경 처리 모듈에 의해 생성된 음향 처리 신호)를 음향 출력 신호로 저장하거나 출력부(20)에 인가한다.
도 3에서와 같이, 프로세서(90)는 환경 확률의 크기에 따라서 환경 처리 모듈을 동작 중지 제어를 수행할 수 있다.
도 3에서, 프로세서(90)는 음향 입력 신호에서 가장 많이 포함되는 음향 환경(즉, 환경 확률이 가장 큰 음향 환경)에 대한 음향 처리를 우선적으로 실시한다.
다양한 실시 예에 따른 장치(예: 프로세서 또는 그 기능들) 또는 방법(예: 동작들)의 적어도 일부는, 예컨대, 프로그램 모듈의 형태로 컴퓨터로 읽을 수 있는 저장매체(computer-readable storage media)에 저장된 명령어로 구현될 수 있다. 상기 명령어가 프로세서에 의해 실행될 경우, 상기 하나 이상의 프로세서가 상기 명령어에 해당하는 기능을 수행할 수 있다. 컴퓨터로 읽을 수 있는 저장매체는, 예를 들면, 메모리가 될 수 있다.
컴퓨터로 판독 가능한 기록 매체는, 하드디스크, 플로피디스크, 마그네틱 매체(magnetic media)(예: 자기테이프), 광기록 매체(optical media)(예: CD-ROM, DVD(Digital Versatile Disc), 자기-광 매체(magnetoopticalmedia)(예: 플롭티컬 디스크(floptical disk)), 하드웨어 장치(예: ROM, RAM, 또는 플래시 메모리 등)등을 포함할 수 있다. 또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한 하드웨어 장치는 다양한 실시 예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지다.
다양한 실시 예에 따른 프로세서 또는 프로세서에 의한 기능들은 전술한 구성요소들 중 적어도 하나 이상을 포함하거나, 일부가 생략되거나, 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 다양한 실시 예에 따른 모듈, 프로그램 모듈 또는 다른 구성요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱(heuristic)한 방법으로 실행될 수 있다. 또한, 일부 동작은 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.
이상 설명한 바와 같이, 상술한 특정의 바람직한 실시예들에 한정되지 아니하며, 청구범위에서 청구하는 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형의 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.
40: 환경 분류 모듈

Claims (6)

  1. 음향 입력 신호를 프로세서에 인가하는 입력부와;
    프로세서로부터 음향 입력 신호를 인가 받아 음향 입력 신호에 존재하는 적어도 하나 이상의 음향 환경에 대한 음향 환경 특성을 인공 지능을 이용하여 추론하여 프로세서에 인가하는 환경 분류 모듈과;
    프로세서로부터 음향 신호를 인가 받아 인공 지능을 이용하여 적어도 하나 이상의 음향 환경 각각에 대응하여 음향 신호를 처리하여 음향 처리 신호를 프로세서에 인가하는 적어도 하나 이상의 환경 처리 모듈과;
    입력부로부터 인가되는 음향 입력 신호를 환경 분류 모듈에 인가하고, 환경 분류 모듈로부터 음향 환경 특성을 인가 받아, 인가된 음향 환경 특성을 반영하여 음향 신호가 적어도 하나 이상의 환경 처리 모듈에 의해 처리되도록 하여 음향 출력 신호를 생성하는 프로세서를 포함하는 것을 특징으로 하는 복수의 음향 환경들을 고려하는 음향 신호 처리 장치.
  2. 제 1 항에 있어서,
    음향 환경 특성은 음향 입력 신호에 존재하는 적어도 하나 이상의 음향 환경 각각의 환경 확률을 포함하는 것을 특징으로 하는 복수의 음향 환경들을 고려하는 음향 신호 처리 장치.
  3. 제 2 항에 있어서,
    프로세서는 음향 신호로 음향 입력 신호를 적어도 하나 이상의 환경 처리 모듈에 인가하고, 적어도 하나 이상의 환경 처리 모듈로부터 음향 처리 신호를 인가 받고, 인가된 음향 처리 신호와, 각 음향 환경의 환경 확률을 곱셈 연산하여 적어도 하나 이상의 환경 처리 신호를 생성하고, 생성된 환경 처리 신호를 덧셈하여 음향 출력 신호를 생성하는 것을 특징으로 하는 복수의 음향 환경들을 고려하는 음향 신호 처리 장치.
  4. 제 2 항에 있어서,
    프로세서는 적어도 하나 이상의 음향 환경들의 환경 확률이 기설정된 기준 확률 이상이거나, 최상위 크기로부터 기준 순서 이내인 적어도 하나 이상의 음향 환경 각각에 대응하는 환경 처리 모듈이나 환경 처리 모듈에만 음향 입력 신호를 인가하여 동작 제어하고, 음향 입력 신호를 인가 받은 환경 처리 모듈로부터 음향 처리 신호를 인가 받고, 인가된 음향 처리 신호와, 각 음향 환경의 환경 확률을 곱셈 연산하여 적어도 하나 이상의 환경 처리 신호를 생성하고, 생성된 환경 처리 신호를 덧셈하여 음향 출력 신호를 생성하는 것을 특징으로 하는 복수의 음향 환경들을 고려하는 음향 신호 처리 장치.
  5. 제 2 항에 있어서,
    프로세서는 적어도 하나 이상의 환경 확률의 크기에 따라서, 음향 신호를 적어도 하나 이상의 환경 처리 모듈에 인가하는 인가 순서를 결정하고, 결정된 인가 순서에 따라서 음향 신호를 환경 처리 모듈에 인가하되, 인가 순서가 가장 빠른 환경 처리 모듈에는 음향 신호로 음향 입력 신호가 인가되고, 다른 환경 처리 모듈에는 인가 순서가 우선인 환경 처리 모듈의 음향 처리 신호가 음향 신호로 입력되며, 우선 순위가 가장 늦은 환경 처리 모듈에 의해 생성된 음향 처리 신호를 음향 출력 신호로 저장하는 것을 특징으로 하는 복수의 음향 환경들을 고려하는 음향 신호 처리 장치.
  6. 제 1 항 내지 제 5 항 중의 어느 한 항에 있어서,
    환경 분류 모듈은 적어도 하나 이상의 음향 환경 각각을 기계 학습하며 적어도 하나 이상의 음향 환경 각각에 대한 확률을 추론하는 적어도 하나 이상의 환경 분류 모델들을 포함하고,
    프로세서는 음향 입력 신호를 적어도 하나 이상의 환경 분류 모델들에 인가하고, 적어도 하나 이상의 환경 분류 모델들 각각은 적어도 하나 이상의 환경 확률들 각각을 추론하여 프로세서에 인가하는 것을 특징으로 하는 복수의 음향 환경들을 고려하는 음향 신호 처리 장치.
KR1020220135508A 2022-10-20 2022-10-20 복수의 음향 환경들을 고려하는 음향 신호 처리 장치 KR20240055337A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220135508A KR20240055337A (ko) 2022-10-20 2022-10-20 복수의 음향 환경들을 고려하는 음향 신호 처리 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220135508A KR20240055337A (ko) 2022-10-20 2022-10-20 복수의 음향 환경들을 고려하는 음향 신호 처리 장치

Publications (1)

Publication Number Publication Date
KR20240055337A true KR20240055337A (ko) 2024-04-29

Family

ID=90883719

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220135508A KR20240055337A (ko) 2022-10-20 2022-10-20 복수의 음향 환경들을 고려하는 음향 신호 처리 장치

Country Status (1)

Country Link
KR (1) KR20240055337A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170060108A (ko) 2014-09-26 2017-05-31 사이퍼 엘엘씨 실행 중 범위 정규화를 이용하는 신경망 음성 활동 검출

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170060108A (ko) 2014-09-26 2017-05-31 사이퍼 엘엘씨 실행 중 범위 정규화를 이용하는 신경망 음성 활동 검출

Similar Documents

Publication Publication Date Title
CN109741736B (zh) 使用生成对抗网络进行鲁棒语音识别的系统和方法
JP6469309B2 (ja) 発話を処理する方法
EP3504703B1 (en) A speech recognition method and apparatus
JP6415705B2 (ja) ノイズを有するオーディオ信号をエンハンスドオーディオ信号に変換する方法
KR102167719B1 (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
Hughes et al. Recurrent neural networks for voice activity detection
US20120130716A1 (en) Speech recognition method for robot
US11043218B1 (en) Wakeword and acoustic event detection
US11132990B1 (en) Wakeword and acoustic event detection
US11699453B2 (en) Adaptive multichannel dereverberation for automatic speech recognition
Li et al. Identification of Wiener systems with clipped observations
JP2023541472A (ja) ハイパーパラメータ最適化システム、方法およびプログラム
EP4139816B1 (en) Voice shortcut detection with speaker verification
CN114365216A (zh) 按讲话者进行语音识别的目标话音分离
KR20210064038A (ko) 키 프레이즈를 사용하여 음성을 적응적으로 인식하는 기법
Kim et al. Unpaired speech enhancement by acoustic and adversarial supervision for speech recognition
JP2020086434A (ja) 音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング方法および装置
Srijiranon et al. Thai speech recognition using Neuro-fuzzy system
JP6712754B2 (ja) 談話機能推定装置及びそのためのコンピュータプログラム
KR20240055337A (ko) 복수의 음향 환경들을 고려하는 음향 신호 처리 장치
CN113795880A (zh) 电子设备及其控制方法
KR102292921B1 (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
KR20230120734A (ko) 음성 강화 방법
JP7231181B2 (ja) 耐雑音音声認識装置及び方法、並びにコンピュータプログラム
WO2021062705A1 (zh) 一种单声道鲁棒性的语音关键词实时检测方法