KR20230146604A - 음성 활동 감지 방법, 시스템, 음성 향상 방법 및 시스템 - Google Patents

음성 활동 감지 방법, 시스템, 음성 향상 방법 및 시스템 Download PDF

Info

Publication number
KR20230146604A
KR20230146604A KR1020237031546A KR20237031546A KR20230146604A KR 20230146604 A KR20230146604 A KR 20230146604A KR 1020237031546 A KR1020237031546 A KR 1020237031546A KR 20237031546 A KR20237031546 A KR 20237031546A KR 20230146604 A KR20230146604 A KR 20230146604A
Authority
KR
South Korea
Prior art keywords
signal
model
microphone signal
microphone
covariance matrix
Prior art date
Application number
KR1020237031546A
Other languages
English (en)
Inventor
르어 시아오
첸치옌 장
펑윈 랴오
신 치
Original Assignee
썬전 샥 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 썬전 샥 컴퍼니 리미티드 filed Critical 썬전 샥 컴퍼니 리미티드
Publication of KR20230146604A publication Critical patent/KR20230146604A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 명세서에서 제공하는 음성 활동 감지 방법, 시스템, 음성 향상 방법 및 시스템에서, 마이크 어레이가 출력하는 마이크 신호는 잡음 신호와 대응하는 제1 모델 또는 타깃 음성 신호와 상기 잡음 신호가 혼합하여 대응하는 제2 모델을 만족시킨다. 상기 방법과 시스템은 우도 함수 최대화 및 잡음 공분산 행렬의 순위 최소화를 공동 최적화 목표로 하여 제1 모델 및 제2 모델을 각각 최적화함으로써 상기 제1 모델의 잡음 공분산 행렬의 제1 추정값 및 제2 모델의 잡음 공분산 행렬의 제2 추정값을 결정하고, 통계적 가설 검정의 방법을 통해 마이크 신호가 제1 모델을 만족시키는지 아니면 제2 모델을 만족시키는지 판정하여 마이크 신호에 타깃 음성 신호가 존재하는지 여부를 결정하며, 마이크 신호의 잡음 공분산 행렬을 결정함으로써 마이크 신호에 대해 음성 향상을 진행할 수 있다. 상기 방법과 시스템은 잡음 공분산 추정 정밀도를 높여 음성 향상 효과를 향상시킬 수 있다.

Description

음성 활동 감지 방법, 시스템, 음성 향상 방법 및 시스템
본 명세서는 타깃 음성 신호 처리 기술분야에 관한 것으로, 특히 음성 활동 감지 방법, 시스템, 음성 향상 방법 및 시스템에 관한 것이다.
빔포밍 알고리즘에 기반한 음성 향상 기술에서, 특히 최소 분산 무왜곡 응답(Minimum Variance Distortionless Response, 약칭 MVDR)의 적응형 빔포밍 알고리즘에서, 상이한 마이크 사이의 잡음 통계적 특성 간의 관계를 설명하는 파라미터―잡음 공분산 행렬을 구하는 것은 매우 중요하다. 종래기술에서의 주요한 방법은 음성 존재 확률의 방법에 기반하여 잡음 공분산 행렬을 계산하는 것인 바, 예를 들면 음성 활동 감지 방법(Voice Activity Detection, 약칭 VAD)을 통해 음성 존재 확률을 계산하고, 나아가 잡음 공분산 행렬을 계산하는 것이다. 그러나 종래기술에서의 음성 존재 확률 추정 정확도가 충분하지 않아 잡음 공분산 행렬 추정 정밀도가 낮아져 MVDR 알고리즘의 음성 향상 효과가 나쁘게 된다. 특히 마이크 수가 적을 경우, 예를 들면 5개일 경우, 효과가 급격히 저하된다. 따라서, 종래기술에서의 MVDR 알고리즘은 휴대폰, 스마트 스피커 등과 같은 마이크 수량이 많고 간격이 큰 마이크 어레이 기기에 많이 사용되고, 이어폰과 같이 마이크 수량이 적고 간격이 작은 기기는 음성 향상 효과가 약하게 된다.
따라서, 정밀도가 더 높은 음성 활동 감지 방법, 시스템, 음성 향상 방법 및 시스템을 제공해야 한다.
본 명세서는 정밀도가 더 높은 음성 활동 감지 방법, 시스템, 음성 향상 방법 및 시스템을 제공한다.
제1 양태에서, 본 명세서는 음성 활동 감지 방법을 제공하는데, 기설정 어레이 모양으로 분포되는 M개 마이크에 사용되고, 상기 M은 1보다 큰 정수인 음성 활동 감지 방법에 있어서, 상기 M개 마이크가 출력하는 마이크 신호를 획득하되, 상기 마이크 신호는 타깃 음성 신호가 존재하지 않는 것과 대응하는 제1 모델 또는 타깃 음성 신호가 존재하는 것과 대응하는 제2 모델을 만족시키는 단계; 우도 함수 최대화 및 잡음 공분산 행렬의 순위 최소화를 공동 최적화 목표로 하여 상기 제1 모델 및 상기 제2 모델을 각각 최적화함으로써, 상기 제1 모델의 잡음 공분산 행렬의 제1 추정값 및 상기 제2 모델의 잡음 공분산 행렬의 제2 추정값을 결정하는 단계; 및 통계적 가설 검정에 기반하여 상기 마이크 신호와 대응하는 타깃 모델 및 잡음 공분산 행렬을 결정하되, 상기 타깃 모델은 상기 제1 모델과 상기 제2 모델에서의 하나를 포함하고, 상기 마이크 신호의 잡음 공분산 행렬은 상기 타깃 모델의 잡음 공분산 행렬인 단계를 포함한다.
일부 실시예에서, 상기 마이크 신호는 K프레임 연속 오디오 신호를 포함하되, 상기 K는 1보다 큰 양의 정수이고, 상기 마이크 신호는 M×K의 데이터 행렬을 포함한다.
일부 실시예에서, 상기 마이크 신호는 완전 관측 신호 또는 불완전 관측 신호이고, 상기 완전 관측 신호에서 상기 M×K의 데이터 행렬에서의 모든 데이터는 완전하며, 상기 불완전 관측 신호에서 상기 M×K의 데이터 행렬에서의 일부 데이터는 누락되고 상기 마이크 신호가 상기 불완전 관측 신호일 경우, 상기 M개 마이크가 출력하는 마이크 신호를 획득하는 상기 단계는, 상기 불완전 관측 신호를 획득하는 단계; 상기 MХK의 데이터 행렬에서의 각 열의 데이터 누락 위치에 기반하여 상기 마이크 신호에 대해 행렬 치환을 진행하고, 상기 마이크 신호를 적어도 하나의 서브 마이크 신호로 구획하되, 상기 마이크 신호는 상기 적어도 하나의 서브 마이크 신호를 포함하는 단계를 포함한다.
일부 실시예에서, 우도 함수 최대화 및 잡음 공분산 행렬의 순위 최소화를 공동 최적화 목표로 하여 상기 제1 모델 및 상기 제2 모델을 각각 최적화하는 상기 단계는, 상기 마이크 신호를 샘플 데이터로 하여 상기 제1 모델과 대응하는 제1 우도 함수를 구축하되, 상기 우도 함수는 상기 제1 우도 함수를 포함하는 단계; 상기 제1 우도 함수 최대화 및 상기 제1 모델의 잡음 공분산 행렬의 순위 최소화를 최적화 목표로 하여 상기 제1 모델을 최적화함으로써 상기 제1 추정값을 결정하는 단계; 상기 마이크 신호를 샘플 데이터로 하여 상기 제2 모델의 제2 우도 함수를 구축하되, 상기 우도 함수는 상기 제2 우도 함수를 포함하는 단계; 및 상기 제2 우도 함수 최대화 및 상기 제2 모델의 잡음 공분산 행렬의 순위 최소화를 최적화 목표로 하여 상기 제2 모델을 최적화함으로써 상기 제2 추정값 및 상기 타깃 음성 신호의 진폭 추정값을 결정하는 단계를 포함한다.
일부 실시예에서, 상기 마이크 신호는 잡음 신호를 포함하고, 상기 잡음 신호는 가우스 분포를 따르며, 상기 잡음 신호는 적어도, 제로 평균의 가우스 분포를 따르고, 대응하는 잡음 공분산 행렬이 낮은 순위의 세미 포지티브 데피니트 행렬인 유색 잡음 신호를 포함한다.
일부 실시예에서, 통계적 가설 검정에 기반하여 상기 마이크 신호와 대응하는 타깃 모델 및 잡음 공분산 행렬을 결정하는 상기 단계는, 상기 마이크 신호에 기반하여 이진 가설 검정 모델을 구축하되, 여기서, 상기 이진 가설 검정 모델의 귀무가설은 상기 마이크 신호가 상기 제1 모델을 만족시키는 것을 포함하고, 상기 이진 가설 검정 모델의 대립가설은 상기 마이크 신호가 상기 제2 모델을 만족시키는 것을 포함하는 단계; 상기 제1 추정값, 상기 제2 추정값 및 상기 진폭 추정값을 상기 이진 가설 검정 모델의 감지기의 결정 기준에 대입하여 검정 통계량을 획득하는 단계; 및 상기 검정 통계량에 기반하여 상기 마이크 신호의 상기 타깃 모델을 판정하는 단계를 포함한다.
일부 실시예에서, 상기 검정 통계량에 기반하여 상기 마이크 신호의 상기 타깃 모델을 판정하는 상기 단계는, 상기 검정 통계량이 상기 기설정된 결정 임계값보다 크다고 결정하고, 상기 마이크 신호에 상기 타깃 음성 신호가 존재한다고 판정하며, 상기 타깃 모델을 상기 제2 모델로 결정하고, 상기 마이크 신호의 잡음 공분산 행렬을 상기 제2 추정값으로 결정하는 단계; 또는 상기 검정 통계량이 상기 기설정된 결정 임계값보다 작다고 결정하고, 상기 마이크 신호에 상기 타깃 음성 신호가 존재하지 않는다고 판정하며, 상기 타깃 모델을 상기 제1 모델로 결정하고, 상기 마이크 신호의 잡음 공분산 행렬을 상기 제1 추정값으로 결정하는 단계를 포함한다.
일부 실시예에서, 상기 감지기는 GLRT 감지기, Rao 검정기 및 Wald 검정기에서의 적어도 하나를 포함한다.
제2 양태에서, 본 명세서는 음성 활동 감지 시스템을 더 제공하는데, 음성 활동 감지를 위한 적어도 하나의 명령어 집합이 저장되는 적어도 하나의 저장매체 및 상기 적어도 하나의 저장매체와 통신 연결하는 적어도 하나의 프로세서를 포함하는 음성 활동 감지 시스템에 있어서, 상기 음성 활동 감지 시스템이 운행할 경우, 상기 적어도 하나의 프로세서는 상기 적어도 하나의 명령어 집합을 판독하고, 본 명세서의 제1 양태에 따른 음성 활동 감지 방법을 실시한다.
제3 양태에서, 본 명세서는 음성 향상 방법을 더 제공하는데, 기설정 어레이 모양으로 분포되는 M개 마이크에 사용되고, 상기 M은 1보다 큰 정수인 음성 향상 방법에 있어서, 상기 M개 마이크가 출력하는 마이크 신호를 획득하는 단계; 제1항 내지 제8항 중 어느 한 항에 따른 음성 활동 감지 방법에 기반하여 상기 마이크 신호의 상기 타깃 모델 및 상기 마이크 신호의 잡음 공분산 행렬을 결정하되, 상기 마이크 신호의 잡음 공분산 행렬은 상기 타깃 모델의 잡음 공분산 행렬인 단계; MVDR 방법 및 상기 마이크 신호의 잡음 공분산 행렬에 기반하여 상기 마이크 신호와 대응하는 필터 계수를 결정하는 단계; 및 상기 필터 계수를 기반으로 상기 마이크 신호를 병합하여 타깃 오디오 신호를 출력하는 단계를 포함한다.
제4 양태에서, 본 명세서는 음성 향상 시스템을 더 제공하는데, 음성 향상을 진행하기 위한 적어도 하나의 명령어 집합이 저장되는 적어도 하나의 저장매체 및 상기 적어도 하나의 저장매체와 통신 연결하는 적어도 하나의 프로세서를 포함하는 음성 향상 시스템에 있어서, 상기 음성 향상 시스템이 운행할 경우, 상기 적어도 하나의 프로세서는 상기 적어도 하나의 명령어 집합을 판독하고, 본 명세서의 제3 양태에 따른 음성 향상 방법을 실시한다.
이상의 기술적 해결수단으로부터 알 수 있다시피, 본 명세서에서 제공하는 음성 활동 감지 방법, 시스템, 음성 향상 방법 및 시스템은 다수의 마이크로 조성된 마이크 어레이에 사용된다. 여기서, 상기 마이크 어레이가 출력하는 마이크 신호는 잡음 신호와 대응하는 제1 모델 또는 타깃 음성 신호와 상기 잡음 신호가 혼합하여 대응하는 제2 모델을 만족시킨다. 상기 마이크 신호에 타깃 음성 신호가 존재하는지 여부를 획득하기 위하여, 상기 방법과 시스템은 우도 함수 최대화 및 잡음 공분산 행렬의 순위 최소화를 공동 최적화 목표로 하여 제1 모델 및 제2 모델을 각각 최적화함으로써 상기 제1 모델의 잡음 공분산 행렬의 제1 추정값 및 제2 모델의 잡음 공분산 행렬의 제2 추정값을 결정하고, 통계적 가설 검정의 방법을 통해 마이크 신호가 제1 모델을 만족시키는지 아니면 제2 모델을 만족시키는지 판정하여 마이크 신호에 타깃 음성 신호가 존재하는지 여부를 결정하며, 마이크 신호의 잡음 공분산 행렬을 결정함으로써 MVDR 방법을 기반으로 마이크 신호에 대해 음성 향상을 진행할 수 있다. 상기 방법과 시스템은 잡음 공분산 추정 정밀도를 높여 음성 향상 효과를 향상시킬 수 있다.
본 명세서에서 제공하는 음성 활동 감지 방법, 시스템, 음성 향상 방법 및 시스템의 기타 기능은 아래의 설명에서 일부 나열한다. 설명에 따르면, 아래에서 숫자와 예시로 소개한 내용은 그러한 기술분야에서 통상의 지식을 가진 자에게 있어서 자명한 것이다. 본 명세서에서 제공하는 음성 활동 감지 방법, 시스템, 음성 향상 방법 및 시스템의 진보성들은 실천을 거치거나 또는 아래의 상세한 예시에 따른 방법, 장치 및 조합을 사용하여 충분히 해석할 수 있다.
본 명세서의 실시예에서의 기술적 해결수단을 보다 뚜렷이 설명하기 위하여 아래에는 실시예의 설명에 사용해야 할 도면을 간단히 소개하고자 하는데, 아래 설명에서 도면은 단지 본 명세서의 일부 실시예일 뿐, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어서 진보적인 창출에 힘쓸 필요가 없이 이러한 도면에 근거하여 기타 도면을 얻을 수 있음은 자명한 것이다.
도 1은 본 명세서의 실시예에 따라 제공하는 음성 활동 감지 시스템의 하드웨어 모식도를 도시하고;
도 2a는 본 명세서의 실시예에 따라 제공하는 전자기기의 폭발 구조 모식도를 도시하며;
도 2b는 본 명세서의 실시예에 따라 제공하는 제1 케이싱의 정면도를 도시하고;
도 2c는 본 명세서의 실시예에 따라 제공하는 제1 케이싱의 평면도를 도시하며;
도 2d는 본 명세서의 실시예에 따라 제공하는 제2 케이싱의 정면도를 도시하고;
도 2e는 본 명세서의 실시예에 따라 제공하는 제2 케이싱의 저면도를 도시하며;
도 3은 본 명세서의 실시예에 따라 제공하는 음성 활동 감지 방법의 흐름도를 도시하고;
도 4는 본 명세서의 실시예에 따라 제공하는 완전 관측 신호의 모식도를 도시하며;
도 5a는 본 명세서의 실시예에 따라 제공하는 불완전 관측 신호의 모식도를 도시하고;
도 5b는 본 명세서의 실시예에 따라 제공하는 불완전 관측 신호를 재배열한 모식도를 도시하며;
도 5c는 본 명세서의 실시예에 따라 제공하는 불완전 관측 신호를 재배열한 모식도를 도시하고;
도 6은 본 명세서의 실시예에 따라 제공하는 반복 최적화의 흐름도를 도시하며;
도 7은 본 명세서의 실시예에 따라 제공하는 타깃 모델을 결정하는 흐름도를 도시하고; 및
도 8은 본 명세서의 실시예에 따라 제공하는 음성 향상 방법의 흐름도를 도시한다.
아래의 설명은 본 명세서의 특정된 응용 시나리오와 요구를 제공하고, 목적은 본 기술분야에서 통상의 지식을 가진 자들이 본 명세서의 내용을 제조 및 사용할 수 있도록 하기 위함이다. 본 기술분야에서 통상의 지식을 가진 자에게 있어서, 개시된 실시예의 여러 가지 국부적인 수정은 자명한 것이고, 본 명세서의 정신과 범위를 벗어나지 않는 상황에서 여기서 정의한 일반적인 원리를 기타 실시예와 응용에 사용할 수 있다. 따라서, 본 명세서는 도시된 실시예에 한정되지 않고 청구범위와 일치한 제일 넓은 범위로 사용된다.
여기서 사용하는 용어는 단지 특정된 예시적인 실시예를 설명하기 위한 것일 뿐 한정적인 것이 아니다. 예를 들어, 앞뒤 문장에서 별도로 설명하지 않은 한, 여기서 사용한 홀수 형태의 "일", "하나" 및 "이"는 복수 형태를 포함할 수도 있다. 본 명세서에서 사용할 경우, 용어 "포함", "포괄" 및/또는 "함유"는 연관되는 정수, 단계, 동작, 요소 및/또는 어셈블리가 존재하지만, 하나 또는 다수의 기타 특징, 정수, 단계, 동작, 요소, 어셈블리 및/또는 그룹의 존재를 배제하지 않거나 또는 이 시스템/방법에 기타 특징, 정수, 단계, 동작, 요소, 어셈블리 및/또는 그룹을 추가할 수 있다는 것을 의미한다.
아래의 설명을 고려하여, 본 명세서의 이러한 특징과 기타 특징 및 구조의 관련 소자의 동작과 기능 및 부품의 조합 및 제조의 경제성은 뚜렷하게 향상될 수 있다. 도면을 참조하면, 이 모든 것은 본 명세서의 일부를 형성한다. 그러나 도면은 단지 설명과 서술을 위한 것일 뿐 본 명세서의 범위를 한정하기 위한 것이 아님을 분명하게 이해해야 한다. 또한 도면은 비율에 따라 제작된 것이 아니라는 것도 이해해야 한다.
본 명세서에서 사용한 흐름도는 본 명세서의 일부 실시예에 따른 시스템으로 구현되는 동작을 도시한다. 흐름도의 동작은 순서에 따라 구현되지 않을 수도 있다는 것을 분명하게 이해해야 한다. 반대로, 동작은 반대 순서로 구현되거나 또는 동시에 구현될 수 있다. 이 밖에, 흐름도에 하나 또는 다수의 기타 동작을 추가할 수 있다. 흐름도에서 하나 또는 다수의 동작을 제거할 수도 있다.
설명의 편리를 위하여, 우선 명세서에 나타날 용어에 대해 아래와 같이 해석한다.
통계적 가설 검정: 수리통계학에서 일정한 가정 조건에 따라 샘플이 총체를 추정하는 한 가지 방법이다. 구체적인 방법은: 과제의 수요에 따라 연구하고자 하는 총체에 어떠한 가정을 진행하고 귀무가설이라고 하며; 적합한 통계량을 선택하되, 이 통계량의 선택은 귀무가설이 성립될 때 분포를 이미 알아야 하며; 실측한 샘플에 의해 통계량의 값을 계산하고, 미리 제공한 유의 수준에 따라 검정하여 귀무가설을 거절하거나 수락하는 판정을 한다. 통상적인 통계적 가설 검정방법은 u-검정법, t 검정법, χ2 검정법(카이 제곱 검정), F-검정법, 순위합 검정 등이 있다.
최소 분산 무왜곡 응답(Minimum Variance Distortionless Response, 약칭 MVDR): 최대 신호 대 간섭 잡음비(SINR) 기준을 기반으로 하는 적응형 빔포밍 알고리즘으로서, MVDR 알고리즘은 어레이 출력을 기대하는 방향으로 최소화하는 동시에 신호 대 간섭 잡음비를 최대화할 수 있다. 이의 목표는 기록 신호의 분산을 최소화하는 것이다. 만약 잡음 신호와 기대 신호가 관련되지 않으면 기록 신호의 분산은 기대 신호와 잡음 신호의 분산의 합이다. 따라서, MVDR 솔루션은 이 합을 최소화하여 잡음 신호의 영향을 감소하고자 한다. 이의 원리는 기대 신호가 왜곡되지 않는 제약 조건에서, 정확한 필터 계수를 선택하여 어레이 출력의 평균 전력을 최소화하는 것이다.
음성 활동 감지: 타깃 음성 신호에서 말하는 음성 시간대와 말하지 않는 시간대의 처리 과정을 분할한다.
가우스 분포: 정규 분포(Normal distribution)는 "정상 분포"라고도 하고, 가우스 분포(Gaussian distribution)라고도 하며, 정규 곡선은 종 모양으로, 양쪽 끝이 낮고 중간이 높으며 좌우가 대칭되는 바, 이의 곡선이 종 모양이므로 사람들은 흔히 종 모양 곡선이라고 한다. 만약 확률변수X가 수학적 기댓값이 이고 분산이 인 정규 분포를 따르면 N라고 표기한다. 이의 확률 밀도 함수는 정규 분포의 기댓값를 위해 이의 위치를 결정하고, 이의 표준 편차가 분포된 크기를 결정한다. 일 때의 정규 분포는 표준 정규 분포이다.
도 1은 본 명세서의 실시예에 따라 제공하는 음성 활동 감지 시스템의 하드웨어 모식도를 도시한다. 음성 활동 감지 시스템은 전자기기(200)에 응용될 수 있다.
일부 실시예에서, 전자기기(200)는 무선 이어폰, 유선 이어폰, 스마트 웨어러블 기기, 예를 들면 스마트 글라스, 스마트 헬멧 또는 스마트 워치 등과 같이 오디오 처리 기능을 구비한 기기일 수 있다. 전자기기(200)는 모바일 기기, 태블릿 컴퓨터, 노트북 컴퓨터, 자동차 내장 장치 또는 유사한 콘텐츠 또는 이의 임의의 조합일 수도 있다. 일부 실시예에서, 모바일 기기는 스마트 홈 기기, 스마트 모바일 기기 또는 유사한 기기이거나 또는 이의 임의의 조합일 수 있다. 예를 들면, 상기 스마트 모바일 기기는 휴대폰, 개인 휴대정보 단말기, 게임 기기, 네비게이션 기기, 울트라 모바일 개인용 컴퓨터(Ultra-mobile Personal Computer, UMPC) 등, 또는 이의 임의의 조합을 포함할 수 있다. 일부 실시예에서, 상기 스마트 홈 장치는 스마트 티비, 데스크탑 컴퓨터 등, 또는 임의의 조합을 포함할 수 있다. 일부 실시예에서, 자동차에서의 내장 장치는 차량용 컴퓨터, 차량용 티비 등을 포함할 수 있다.
본 명세서에서, 우리는 전자기기(200)가 이어폰인 것을 예로 들어 설명한다. 상기 이어폰은 무선 이어폰일 수도 있고 유선 이어폰일 수도 있다. 도 1에 도시된 바와 같이, 전자기기(200)는 마이크 어레이(220) 및 컴퓨팅 장치(240)를 포함할 수 있다.
마이크 어레이(220)는 전자기기(200)의 오디오 수집기기일 수 있다. 마이크 어레이(220는 로컬 오디오 신호를 획득하고 마이크 신호, 즉 오디오 정보를 휴대한 전자 신호를 휴대하도록 구성될 수 있다. 마이크 어레이(220)는 기설정 어레이 모양으로 분포되는 M개 마이크(222)를 포함할 수 있다. 여기서, 상기 M은 1보다 큰 정수이다. M개 마이크(222)는 균일하게 분포될 수도 있고 불균일하게 분포될 수도 있다. M개 마이크(222)는 마이크 신호를 출력할 수 있다. M개 마이크(222)는 M개 마이크 신호를 출력할 수 있다. 각 마이크(222)는 하나의 마이크 신호와 대응한다. 상기 M개 마이크 신호를 상기 마이크 신호라고 총칭한다. 일부 실시예에서, M개 마이크(222)는 선형으로 분포될 수 있다. 일부 실시예에서, M개 마이크(222)는 원형 어레이, 직사각형 어레이 등과 같은 기타 모양의 어레이로 분포될 수 있다. 설명의 편리를 위하여, 아래의 설명에서 우리는 M개 마이크(222)가 선형으로 분포된 것을 예로 들어 설명한다. 일부 실시예에서, M은 2, 3, 4, 5, 또는 그 이상과 같은 1보다 큰 임의의 정수일 수 있다. 일부 실시예에서, 공간의 제약으로 인하여 M은 이어폰과 같은 제품에서 1보다 크고 5보다 크지 않은 정수일 수 있다. 전자기기(200)가 이어폰일 경우, M개 마이크(222)에서 인접한 마이크(222)의 간격은 20mm~40mm 사이 일 수 있다. 일부 실시예에서, 인접한 마이크(222)의 간격은 10mm~20mm 사이와 같이 더 작을 수 있다.
일부 실시예에서, 마이크(222)는 인체 진동 신호를 직접 수집하는 골전도 마이크일 수 있다. 골전도 마이크는 광학 진동 센서, 속도 센서 등과 같은 진동 센서를 포함할 수 있다. 상기 진동 센서는 기계적 진동 신호(예를 들면, 유저가 말을 할 때 피부 또는 골격에서 발생한 진동에 의해 발생된 신호)를 수집하고, 이 기계적 진동 신호를 전기 신호로 전환할 수 있다. 여기서 말하는 기계적 진동 신호는 주요하게 고체에 의해 전파된 진동을 말한다. 골전도 마이크는 상기 진동 센서 또는 상기 진동 센서와 연결된 진동 부재를 통해 유저의 피부 또는 골격과 접촉하여 유저가 소리를 낼 때 골격 또는 피부에서 발생한 진동 신호를 수집하고, 진동 신호를 전기 신호로 전환한다. 일부 실시예에서, 상기 진동 센서는 기계적 진동에는 민감하지만 공기 진동에는 민감하지 않은 장치(즉 상기 진동 센서가 기계적 진동에 대한 응답 능력은 상기 진동 센서가 공기 진동에 대한 응답 능력을 초과함)일 수 있다. 골전도 마이크가 발성 부위의 진동 신호를 직접 픽업할 수 있으므로 골전도 마이크는 환경 소음의 영향을 저하시킬 수 있다.
일부 실시예에서, 마이크(222)는 공기 진동 신호를 직접 수집하는 공기 전도 마이크일 수 있다. 공기 전도 마이크는 유저가 소리를 낼 때 나타나는 공기 진동 신호를 수집하고, 공기 진동 신호를 전기 신호로 전환한다.
일부 실시예에서, M개 마이크(222)는 M개 골전도 마이크일 수 있다. 일부 실시예에서, M개 마이크(222)는 M개 공기 전도 마이크일 수도 있다. 일부 실시예에서, M개 마이크(222)는 골전도 마이크일 수도 있고 공기 전도 마이크일 수도 있다. 물론, 마이크(222)는 기타 유형의 마이크일 수도 있다. 예를 들면 광학 마이크, 근전도 신호를 수신하는 마이크 등이다.
컴퓨팅 장치(240)는 마이크 어레이(220)와 통신 연결할 수 있다. 상기 통신 연결이란 정보를 직접 또는 간접적으로 수신하는 임의의 형태의 연결을 말한다. 일부 실시예에서, 컴퓨팅 장치(240)는 마이크 어레이(220)와 무선 통신 연결을 통해 서로 데이터를 전달할 수 있고; 일부 실시예에서, 컴퓨팅 장치(240)는 마이크 어레이(220)와 전선을 통해 직접적으로 연결되어 서로 데이터를 전달할 수도 있으며; 일부 실시예에서, 컴퓨팅 장치(240)는 전선을 통해 기타 회로와 직접적으로 연결되어 마이크 어레이(220)와의 간접적인 연결을 구축하여 서로 데이터를 전달할 수도 있다. 본 명세서에서는 컴퓨팅 장치(240)가 마이크 어레이(220)와 전선으로 연결되는 것을 예로 들어 설명한다.
컴퓨팅 장치(240)는 데이터 정보 처리능력을 가지는 하드웨어 기기일 수 있다. 일부 실시예에서, 음성 활동 감지 시스템은 컴퓨팅 장치(240)를 포함할 수 있다. 일부 실시예에서, 음성 활동 감지 시스템은 컴퓨팅 장치(240)에 응용될 수 있다. 즉 음성 활동 감지 시스템은 컴퓨팅 장치(240)에서 운행할 수 있다. 음성 활동 감지 시스템은 데이터 정보 처리능력을 가지는 하드웨어 기기 및 이 하드웨어 기기를 작동시키는데 필요한 프로그램을 포함할 수 있다. 물론, 음성 활동 감지 시스템은 단지 데이터 처리능력을 가지는 하드웨어 기기이거나, 또는 단지 하드웨어 기기에서 운행하는 프로그램일 수 있다.
음성 활동 감지 시스템은 본 명세서에서 설명하는 음성 활동 감지 방법을 수행하는 데이터 또는 명령어를 저장할 수 있고, 상기 데이터 및/또는 명령어를 실행할 수 있다. 음성 활동 감지 시스템이 컴퓨팅 장치(240)에서 운행할 경우, 음성 활동 감지 시스템은 상기 통신 연결을 기반으로 마이크 어레이(220)에서 상기 마이크 신호를 획득하고, 본 명세서에서 설명하는 음성 활동 감지 방법의 데이터 또는 명령어를 실행하여 상기 마이크 신호에 타깃 음성 신호가 존재하는지 여부를 계산한다. 상기 음성 활동 감지 방법은 본 명세서에서의 기타 부분에서 소개한다. 예를 들면, 도 3 내지 도 8의 설명에서 상기 음성 활동 감지 방법을 소개한다.
도 1에 도시된 바와 같이, 컴퓨팅 장치(240)적어도 하나의 저장매체(243)와 적어도 하나의 프로세서(242)를 포함할 수 있다. 일부 실시예에서, 전자기기(200)는 통신 포트(245)와 내부 통신 버스(241)를 더 포함할 수 있다.
내부 통신 버스(241)는 저장매체(243), 프로세서(242) 및 통신 포트(245)를 포함하는 상이한 시스템 어셈블리를 연결할 수 있다.
통신 포트(245)컴퓨팅 장치(240)와 외부의 데이터 통신에 사용할 수 있다. 예를 들면, 컴퓨팅 장치(240)통신 포트(245)를 통해 마이크 어레이(220)에서 상기 마이크 신호를 획득할 수 있다.
적어도 하나의 저장매체(243)는 데이터 저장장치를 포함할 수 있다. 상기 데이터 저장장치는 비일시적 저장매체일 수도 있고 일시적 저장매체일 수도 있다. 예를 들면, 상기 데이터 저장장치는 자기 디스크, 읽기 전용 저장매체(ROM) 또는 랜덤 액세스 저장매체(RAM)에서의 하나 또는 다수를 포함할 수 있다. 음성 활동 감지 시스템이 컴퓨팅 장치(240)에서 운행할 경우, 저장매체(243)는 상기 데이터 저장장치에 저장된 적어도 하나의 명령어 집합을 더 포함하여 상기 마이크 신호에 대해 음성 활동 감지를 진행할 수 있다. 상기 명령어는 컴퓨터 프로그램 코드이고, 상기 컴퓨터 프로그램 코드는 본 명세서에서 제공하는 음성 활동 감지 방법을 수행하는 프로그램, 루틴, 오브젝트, 어셈블리, 데이터 구조, 과정, 모듈 등을 포함할 수 있다.
적어도 하나의 프로세서(242)는 적어도 하나의 저장매체(243)와 내부 통신 버스(241)를 통해 통신 연결할 수 있다. 상기 통신 연결이란 정보를 직접 또는 간접적으로 수신하는 임의의 형태의 연결을 말한다. 적어도 하나의 프로세서(242)는 상기 적어도 하나의 명령어 집합을 실행한다. 음성 활동 감지 시스템이 컴퓨팅 장치(240)에서 운행할 경우, 적어도 하나의 프로세서(242)는 상기 적어도 하나의 명령어 집합을 판독하고, 상기 적어도 하나의 명령어 집합의 지시에 따라 본 명세서에서 제공하는 음성 활동 감지 방법을 수행한다. 프로세서(242)는 음성 활동 감지 방법이 포함하는 모든 단계를 수행할 수 있다. 프로세서(242)는 하나 또는 다수의 프로세서의 형태일 수 있는 바, 일부 실시예에서, 프로세서(242)는 하나 또는 다수의 하드웨어 프로세서, 예를 들면 마이크로 제어기, 마이크로 프로세서, 축소 명령어 집합 컴퓨터(RISC), 응용 주문형 집적 회로(ASIC), 애플리케이션 특정 명령어 집합 프로세서(ASIP), 중앙 처리 유닛(CPU), 그래픽스 처리 유닛(GPU), 물리적 처리 유닛(PPU), 마이크로 제어기 유닛, 디지털 신호 프로세서(DSP), 필드 프로그래머블 게이트 어레이(FPGA), 고급 RISC 머신(ARM), 프로그램 가능 논리 소자(PLD), 하나 또는 다수의 기능을 실행할 수 있는 임의의 회로 또는 프로세서 등, 또는 이의 임의의 조합을 포함할 수 있다. 단지 문제점을 설명하기 위하여, 본 명세서에서 컴퓨팅 장치(240)는 하나의 프로세서(242)만 설명한다. 그러나 유의해야 할 점은, 본 명세서에서 컴퓨팅 장치(240)는 다수의 프로세서(242)를 포함할 수 있으므로 본 명세서에서 공개한 동작 및/또는 방법의 단계는 본 명세서에서 설명한 바와 같이 하나의 프로세서에 의해 수행될 수도 있고, 다수의 프로세서가 연합하여 수행할 수도 있다. 예를 들면, 만약 본 명세서에서 컴퓨팅 장치(240)의 프로세서(242)가 단계A 및 단계B를 수행한다고 하면, 이는 단계A와 단계B가 두 개의 상이한 프로세서(242)에 의해 연합하거나 분리하여 수행할 수도 있다는 것(예를 들면, 제1 프로세서가 단계A를 수행하고, 제2 프로세서가 단계B를 수행하거나, 또는 제1 프로세서와 제2 프로세서가 공통으로 단계A 및 단계B를 수행)을 이해해야 한다.
도 2a는 본 명세서의 실시예에 따라 제공하는 전자기기(200)의 폭발 구조 모식도를 도시한다. 도 2a에 도시된 바와 같이, 전자기기(200)는 마이크 어레이(220), 컴퓨팅 장치(240), 제1 케이싱(260) 및 제2 케이싱(280)을 포함할 수 있다.
제1 케이싱(260)은 마이크 어레이(220)의 장착 베이스 바디일 수 있다. 마이크 어레이(220)는 제1 케이싱(260) 내부에 장착될 수 있다. 제1 케이싱(260)의 모양은 마이크 어레이(220)의 분포 모양에 따라 적응되게 설계할 수 있는 바, 본 명세서는 이에 대해 과도하게 한정하지 않는다. 제2 케이싱(280)은 컴퓨팅 장치(240)의 장착 베이스 바디일 수 있다. 컴퓨팅 장치(240)는 제2 케이싱(280)의 내부에 장착될 수 있다. 제2 케이싱(280)의 모양은 컴퓨팅 장치(240)의 모양에 따라 적응되게 설계할 수 있는 바, 본 명세서는 이에 대해 과도하게 한정하지 않는다. 전자기기(200)가 이어폰일 경우, 제2 케이싱(280)은 착용 부위와 연결될 수 있다. 제2 케이싱(280)은 제1 케이싱(260)과 연결될 수 있다. 전술한 바와 같이, 마이크 어레이(220)는 컴퓨팅 장치(240)와 전기적으로 연결될 수 있다. 구체적으로, 마이크 어레이(220)는 컴퓨팅 장치(240)와 제1 케이싱(260) 및 제2 케이싱(280)의 연결을 통해 전기적으로 연결될 수 있다.
일부 실시예에서, 제1 케이싱(260)은 제2 케이싱(280)과 고정 연결될 수 있는 바, 예를 들면, 일체로 성형, 용접, 리벳 연결, 접착 등일 수 있다. 일부 실시예에서, 제1 케이싱(260)은 제2 케이싱(280)과 해체 가능하게 연결될 수 있다. 컴퓨팅 장치(240)는 상이한 마이크 어레이(220)와 통신 연결할 수 있다. 구체적으로, 상이한 마이크 어레이(220)는 마이크 어레이(220)에서의 마이크(222)의 수량이 상이한 것, 어레이 모양이 상이한 것, 마이크(222) 간격이 상이한 것, 마이크 어레이(220)가 제1 케이싱(260)에서의 장착 각도가 상이한 것, 마이크 어레이(220)가 제1 케이싱(260)에서의 장착 위치가 상이한 것 등일 수 있다. 사용자는 전자기기(200)가 보다 넓은 시나리오에 적용되도록 응용 시나리오의 상이함에 따라 대응하는 마이크 어레이(220)를 교체할 수 있다. 예를 들면, 응용 시나리오에서 사용자와 전자기기(200)의 거리가 가까울 경우, 사용자는 간격이 더 작은 마이크 어레이(220)로 교체할 수 있다. 또 예를 들면, 응용 시나리오에서 사용자와 전자기기(200)의 거리가 가까울 경우, 사용자는 간격이 더 크고 수량이 더 많은 마이크 어레이(220) 등으로 교체할 수 있다.
상기 해체 가능한 연결은 임의의 형태의 물리적 연결, 예를 들면, 나사 체결, 스냅 연결, 자기 흡입 연결 등일 수 있다. 일부 실시예에서, 제1 케이싱(260)과 제2 케이싱(280) 사이는 자기 흡입 연결일 수 있다. 즉 제1 케이싱(260)과 제2 케이싱(280) 사이는 자성 장치의 흡착력을 통해 해체 가능한 연결을 진행한다.
도 2b는 본 명세서의 실시예에 따라 제공하는 제1 케이싱(260)의 정면도를 도시하고; 도 2c는 본 명세서의 실시예에 따라 제공하는 제1 케이싱(260)의 평면도를 도시한다. 도 2b 및 도 2c에 도시된 바와 같이, 제1 케이싱(260)은 제1 인터페이스(262)를 포함할 수 있다. 일부 실시예에서, 제1 케이싱(260)은 접점(266)을 더 포함할 수 있다. 일부 실시예에서, 제1 케이싱(260)은 각도 센서(도 2b 및 도 2c에 미도시)를 더 포함할 수 있다.
제1 인터페이스(262)는 제1 케이싱(260)과 제2 케이싱(280)의 장착 인터페이스일 수 있다. 일부 실시예에서, 제1 인터페이스(262)는 원형일 수 있다. 제1 인터페이스(262)는 제2 케이싱(280)과 회동 연결될 수 있다. 제1 케이싱(260)이 제2 케이싱(280)에 장착될 경우, 제1 케이싱(260)은 제2 케이싱(280)에 대해 회동하여 제2 케이싱(280)에 대한 제1 케이싱(260)의 각도를 조정함으로써 마이크 어레이(220)의 각도를 조정할 수 있다.
제1 인터페이스(262)에는 제1 자성 장치(263)가 설치될 수 있다. 제1 자성 장치(263)는 제1 인터페이스(262)에서 제2 케이싱(280)에 가까이하는 위치에 설치될 수 있다. 제1 자성 장치(263)는 자성 흡착력을 발생하여 제2 케이싱(280)과의 해체 가능한 연결을 구현할 수 있다. 제1 케이싱(260)이 제2 케이싱(280)에 가까이할 경우, 상기 흡착력을 통해 제1 케이싱(260)과 제2 케이싱(280)이 신속하게 연결되도록 한다. 일부 실시예에서, 제1 케이싱(260)과 제2 케이싱(280)이 연결된 후, 제1 케이싱(260)은 제2 케이싱(280)에 대해 회동하여 마이크 어레이(220)의 각도를 조절할 수도 있다. 상기 흡착력의 작용 하에, 제1 케이싱(260)이 제2 케이싱(280)에 대해 회동할 때 여전히 제1 케이싱(260)과 제2 케이싱(280)의 연결을 유지할 수 있다.
일부 실시예에서, 제1 인터페이스(262)에는 제1 포지셔닝 장치(도 2b 및 도 2c에 미도시)가 더 설치될 수 있다. 상기 제1 포지셔닝 장치는 외부로 돌출된 포지셔닝 단턱일 수도 있고, 내부로 연장된 포지셔닝 홀일 수도 있다. 상기 제1 포지셔닝 장치는 제1 케이싱(260)과 제2 케이싱(280)의 신속한 장착을 구현하도록 제2 케이싱(280)과 배합할 수 있다.
도 2b 및 도 2c에 도시된 바와 같이, 일부 실시예에서, 제1 케이싱(260)은 접점(266)을 더 포함할 수 있다. 접점(266)은 제1 인터페이스(262)에 장착될 수 있다. 접점(266)은 제1 인터페이스(262)에서 외부로 돌출될 수 있다. 접점(266)은 제1 인터페이스(262)와 탄성 연결될 수 있다. 접점(266)은 마이크 어레이(220)의 M개 마이크(222)와 통신 연결할 수 있다. 접점(266)은 탄성을 가지는 금속으로 제조되어 데이터 전송을 구현할 수 있다. 제1 케이싱(260)이 제2 케이싱(280)과 연결될 경우, 마이크 어레이(220)는 접점(266)을 통해 컴퓨팅 장치(240)와 통신 연결할 수 있다. 일부 실시예에서, 접점(266)은 원형을 이루도록 분포될 수 있다. 제1 케이싱(260)과 제2 케이싱(280)이 연결된 후, 제1 케이싱(260)이 제2 케이싱(280)에 대해 회동할 경우, 접점(266)도 제2 케이싱(280)에 대해 회동할 수 있고, 컴퓨팅 장치(240)와의 통신 연결을 유지할 수 있다.
일부 실시예에서, 제1 케이싱(260)에는 각도 센서(도 2b 및 도 2c에 미도시)가 더 설치될 수 있다. 상기 각도 센서는 접점(266)과 통신 연결하여 컴퓨팅 장치(240)와의 통신 연결을 구현할 수 있다. 상기 각도 센서는 제1 케이싱(260)의 각도 데이터를 수집하여 마이크 어레이(220)가 놓이는 각도를 결정함으로써 후속적인 음성 존재 확률의 계산에 참조 데이터를 제공할 수 있다.
도 2d는 본 명세서의 실시예에 따라 제공하는 제2 케이싱(280)의 정면도를 도시하고; 도 2e는 본 명세서의 실시예에 따라 제공하는 제2 케이싱(280)의 저면도를 도시한다. 도 2d 및 도 2e에 도시된 바와 같이, 제2 케이싱(280)은 제2 인터페이스(282)를 포함할 수 있다. 일부 실시예에서, 제2 케이싱(280)은 가이드 레일(286)을 더 포함할 수 있다.
제2 인터페이스(282)는 제2 케이싱(280)과 제1 케이싱(260)의 장착 인터페이스일 수 있다. 일부 실시예에서, 제2 인터페이스(282)는 원형일 수 있다. 제2 인터페이스(282)는 제1 케이싱(260)의 제1 인터페이스(262)와 회동 연결될 수 있다. 제1 케이싱(260)이 제2 케이싱(280)에 장착될 경우, 제1 케이싱(260)은 제2 케이싱(280)에 대해 회동하여 제2 케이싱(280)에 대한 제1 케이싱(260)의 각도를 조정함으로써 마이크 어레이(220)의 각도를 조정할 수 있다.
제2 인터페이스(282)에는 제2 자성 장치(283)가 설치될 수 있다. 제2 자성 장치(283)는 제2 인터페이스(282)에서 제1 케이싱(260)과 가까이하는 위치에 설치될 수 있다. 제2 자성 장치(283)는 자성 흡착력을 발생하여 제1 인터페이스(262)와의 해체 가능한 연결을 구현할 수 있다. 제2 자성 장치(283)는 제1 자성 장치(263)와 배합하여 사용할 수 있다. 제1 케이싱(260)이 제2 케이싱(280)에 가까이할 경우, 제2 자성 장치(283)와 제1 자성 장치(263) 사이의 흡착력을 통해 제1 케이싱(260)이 제2 케이싱(280)에 신속하게 장착되도록 한다. 제1 케이싱(260)이 제2 케이싱(280)에 장착될 경우, 제2 자성 장치(283)와 제1 자성 장치(263)의 위치는 대향된다. 일부 실시예에서, 제1 케이싱(260)과 제2 케이싱(280)이 연결된 후, 제1 케이싱(260)은 제2 케이싱(280)에 대해 회동하여 마이크 어레이(220)의 각도를 조절할 수도 있다. 상기 흡착력의 작용 하에, 제1 케이싱(260)이 제2 케이싱(280)에 대해 회동할 때 여전히 제1 케이싱(260)과 제2 케이싱(280)의 연결을 유지할 수 있다.
일부 실시예에서, 제2 인터페이스(282)에는 제2 포지셔닝 장치(도 2d 및 도 2e에 미도시)가 더 설치될 수 있다. 상기 제2 포지셔닝 장치는 외부로 돌출된 포지셔닝 단턱일 수도 있고, 내부로 연장된 포지셔닝 홀일 수도 있다. 상기 제2 포지셔닝 장치는 제1 케이싱(260)과 제2 케이싱(280)의 신속한 장착을 구현하도록 제1 케이싱(260)의 제1 포지셔닝 장치와 배합할 수 있다. 상기 제1 포지셔닝 장치가 상기 포지셔닝 단턱일 경우, 상기 제2 포지셔닝 장치는 상기 포지셔닝 홀일 수 있다. 상기 제1 포지셔닝 장치가 상기 포지셔닝 홀일 경우, 상기 제2 포지셔닝 장치는 상기 포지셔닝 단턱일 수 있다.
도 2d 및 도 2e에 도시된 바와 같이, 일부 실시예에서, 제2 케이싱(280)은 가이드 레일(286)을 더 포함할 수 있다. 가이드 레일(286)은 제2 인터페이스(282)에 장착될 수 있다. 가이드 레일(286)은 컴퓨팅 장치(240)와 통신 연결할 수 있다. 가이드 레일(286)은 금속 재질로 제조되어 데이터 전송을 구현할 수 있다. 제1 케이싱(260)이 제2 케이싱(280)과 연결될 경우, 접점(266)은 가이드 레일(286)과 접촉하여 통신 연결을 형성함으로써 마이크 어레이(220)와 컴퓨팅 장치(240)의 통신 연결을 구현하여 데이터 전송을 구현할 수 있다. 전술한 바와 같이, 접점(266)은 제1 인터페이스(262)와 탄성 연결될 수 있다. 따라서, 제1 케이싱(260)이 제2 케이싱(280)과 연결된 후, 상기 탄성 연결된 탄력의 작용 하에, 접점(266)이 가이드 레일(286)과 완전히 접촉하도록 하여 신뢰적인 통신 연결을 구현하도록 할 수 있다. 일부 실시예에서, 가이드 레일(286)은 원형으로 분포될 수 있다. 제1 케이싱(260)과 제2 케이싱(280)이 연결된 후, 제1 케이싱(260)이 제2 케이싱(280)에 대해 회동할 경우, 접점(266)도 가이드 레일(286)에 대해 회동할 수 있고 가이드 레일(286)과의 통신 연결을 유지할 수 있다.
도 3은 본 명세서의 실시예에 따라 제공하는 음성 활동 감지 방법(P100)의 흐름도를 도시한다. 상기 방법(P100)은 상기 마이크 신호에 타깃 음성 신호가 존재하는지 여부를 계산할 수 있다. 구체적으로, 프로세서(242)는 상기 방법(P100)을 수행할 수 있다. 도 3에 도시된 바와 같이, 상기 방법(P100)은 아래 단계를 포함할 수 있다.
S120: M개 마이크(222)가 출력한 마이크 신호를 획득한다.
전술한 바와 같이, 각 마이크(222)마다 모두 대응하는 마이크 신호를 출력할 수 있다. M개 마이크(222)는 M개 마이크 신호와 대응한다. 상기 방법(P100)은 상기 마이크 신호에 타깃 음성 신호가 존재하는지 여부를 계산할 경우, M개 마이크 신호에서의 모든 마이크 신호에 기반하여 계산할 수도 있고, 일부 마이크 신호에 기반하여 계산할 수도 있다. 따라서, 상기 마이크 신호는 M개 마이크(222)와 대응하는 M개 마이크 신호 또는 일부 마이크 신호를 포함할 수 있다. 본 명세서의 아래의 설명에서는 상기 마이크 신호가 M개 마이크(222)와 대응하는 M개 마이크 신호를 포함하는 것을 예로 들어 설명한다.
일부 실시예에서, 상기 마이크 신호는 시간 도메인 신호일 수 있다. 일부 실시예에서, 단계S120에서는, 컴퓨팅 장치(240)가 상기 마이크 신호에 대해 프레이밍 및 윈도잉 처리를 진행하여 상기 마이크 신호를 다수의 연속적인 오디오 신호로 분류할 수 있다. 일부 실시예에서, 단계S120에서는, 컴퓨팅 장치(240)가 상기 마이크 신호에 대해 시간 주파수 변환을 진행하여 상기 마이크 신호의 주파수 도메인 신호를 얻을 수도 있다. 설명의 편리를 위하여, 우리는 다음 주파수 포인트의 마이크 신호를 X라고 표기한다. 일부 실시예에서, 상기 마이크 신호X는 K프레임 연속 오디오 신호를 포함할 수 있다. 상기 K는 1보다 큰 임의의 양의 정수이다. 설명의 편리를 위하여, 우리는 k번째 프레임 마이크 신호를 라고 표기한다. k번째 프레임 마이크 신호는 아래와 같은 공식으로 표시할 수 있다.
공식(1)
k번째 프레임 마이크 신호는 M개 마이크 신호로 조성된 M차원의 신호 벡터일 수 있다. 상기 마이크 신호X는 MХK의 데이터 행렬로 표시할 수 있다. 상기 마이크 신호X는 아래와 같은 공식으로 표시할 수 있다.
공식(2)
여기서, 상기 마이크 신호X는 MХK의 데이터 행렬이다. 상기 데이터 행렬에서의 번째 행은 번째 마이크가 수신한 마이크 신호를 대표하고, 번째 열은 번째 프레임의 마이크 신호를 대표한다.
전술한 바와 같이, 마이크(222)는 주변 환경의 잡음을 수집하여 잡음 신호를 출력할 수도 있고, 타깃 유저의 음성을 수집하여 상기 타깃 음성 신호를 출력할 수도 있다. 타깃 유저가 음성을 발생하지 않을 경우, 상기 마이크 신호는 상기 잡음 신호만 포함한다. 타깃 유저가 음성을 발생할 경우, 상기 마이크 신호는 상기 타깃 음성 신호와 상기 잡음 신호를 포함한다. k번째 프레임 마이크 신호는 아래 공식으로 표시할 수 있다.
공식(3)
여기서, 이다. 는 k번째 프레임 마이크 신호에서의 잡음 신호이다. 는 상기 타깃 음성 신호의 진폭이다. 는 상기 타깃 음성 신호의 타깃 스티어링 벡터이다.
상기 마이크 신호X는 아래와 같은 공식으로 표시할 수 있다.
공식(4)
여기서, 는 상기 타깃 음성 신호의 진폭이다. . 는 잡음 신호이다. .
잡음 신호는 아래와 같은 공식으로 표시할 수 있다.
공식(5)
k번째 프레임 마이크 신호에서의 잡음 신호는 M개 마이크 신호로 조성된 M차원의 신호 벡터일 수 있다.
일부 실시예에서, 잡음 신호는 적어도 유색 잡음 신호를 포함할 수 있다. 일부 실시예에서, 잡음 신호는 백색 잡음 신호를 더 포함할 수 있다. 잡음 신호는 아래 공식으로 표시할 수 있다.
공식(6)
이렇게 되면 잡음 신호 이다. 여기서, 는 유색 잡음 신호이고, 이다. 은 백색 잡음 신호이고, 이다.
컴퓨팅 장치(240)는 상기 잡음 신호의 음원 공간 분포의 클러스터(Cluster) 특징과 마이크 어레이(220) 파라미터 사이의 통일된 매핑 관계를 이용하여 파라미터화 클러스터 모델을 구축하고, 상기 잡음 신호의 음원을 클러스터링하여 상기 잡음 신호를 컬러 잡음 신호와 백색 잡음 신호로 분류할 수 있다.
일부 실시예에서, 잡음 신호는 가우스 분포를 따른다. 잡음 신호 이다. 은 잡음 신호의 잡음 공분산 행렬이다. 여기서, 유색 잡음 신호는 제로 평균의 가우스 분포를 따른다. 즉 이다. 유색 잡음 신호와 대응하는 잡음 공분산 행렬는 낮은 순위 특성을 가지는 바, 이는 낮은 순위의 세미 포지티브 데피니트 행렬이다. 백색 잡음 신호도 제로 평균의 가우스 분포를 따른다. 즉 이다. 백색 잡음 신호의 전력은 이다. 이다. 즉 이다. 잡음 신호의 잡음 공분산 행렬은 아래 공식으로 표시할 수 있다.
공식(7)
잡음 신호의 잡음 공분산 행렬은 단위 행렬과 낮은 순위의 세미 포지티브 데피니트 행렬의 합으로 분해할 수 있다.
일부 실시예에서, 컴퓨팅 장치(240)에는 백색 잡음 신호의 전력이 미리 저장될 수 있다. 일부 실시예에서, 컴퓨팅 장치(240)에서 백색 잡음 신호의 전력을 미리 추정할 수 있다. 예를 들면, 컴퓨팅 장치(240)는 최소값 추적, 히스토그램 등 방식을 기반으로 백색 잡음 신호의 전력을 추정할 수 있다. 일부 실시예에서, 컴퓨팅 장치(240)는 상기 방법(P100)을 기반으로 백색 잡음 신호의 전력을 추정할 수 있다.
는 타깃 음성 신호의 복소 진폭이다. 일부 실시예에서, 마이크(222)의 주변에는 하나의 타깃 음성 신호 소스가 존재한다. 일부 실시예에서, 마이크(222)의 주변에는 L개의 타깃 음성 신호 소스가 존재한다. 이때, 는 LХ1차원의 벡터일 수 있다.
타깃 스티어링 벡터는 MХL차원의 행렬이다. 타깃 스티어링 벡터는 아래 공식으로 표시할 수 있다.
공식(8)
여기서, 은 반송 주파수이다. D는 인접한 마이크(222) 사이의 거리이다. C는 음속이다. ,
Figure pct00087
, 은 각각 L개의 타깃 음성 신호 소스와 마이크(222) 사이의 입사 각도이다. 일부 실시예에서, 타깃 음성 신호 소스의 각도는 통상적으로 어느 한 그룹의 특정된 각도 범위 내에 있다. 따라서, ,
Figure pct00091
, 은 이미 알려진 것이다. 컴퓨팅 장치(240)에는 M개 마이크(222)의 상대 위치 관계, 예를 들면 상대 거리 또는 상대 좌표가 미리 저장될 수 있다. 즉 컴퓨팅 장치(240)에는 인접한 마이크(222) 사이의 거리d가 미리 저장된다.
도 4는 본 명세서의 실시예에 따라 제공하는 완전 관측 신호의 모식도를 도시한다. 일부 실시예에서, 상기 마이크 신호X는 도 4에 도시된 바와 같이 완전 관측 신호이다. 상기 완전 관측 신호에서 상기 M×K의 데이터 행렬에서의 모든 데이터는 완전하다. 도 4에 도시된 바와 같이, 횡방향은 마이크 신호X의 프레임 번호이고, 종방향은 마이크 어레이(220)에서의 마이크 신호번호이다. 번째 행은 번째 마이크(222)가 수신한 마이크 신호를 대표하고, 번째 열은 번째 프레임의 마이크 신호를 대표한다.
도 5a는 본 명세서의 실시예에 따라 제공하는 불완전 관측 신호의 모식도를 도시한다. 일부 실시예에서, 상기 마이크 신호X는 도 5a에 도시된 바와 같이 불완전 관측 신호이다. 상기 불완전 관측 신호에서 상기 M×K의 데이터 행렬에서의 일부 데이터는 누락된다. 컴퓨팅 장치(240)는 상기 불완전 관측 신호를 재배열한다. 도 5a에 도시된 바와 같이, 횡방향은 마이크 신호X의 프레임 번호이고, 종방향은 마이크 신호 채널 번호이다. 번째 행은 번째 마이크(222)가 수신한 마이크 신호를 대표하고, 번째 열은 번째 프레임의 마이크 신호를 대표한다.
상기 마이크 신호X가 상기 불완전 관측 신호일 경우, 단계S120은 상기 불완전 관측 신호를 재배열하는 단계를 더 포함할 수 있다. 도 5b는 본 명세서의 실시예에 따라 제공하는 불완전 관측 신호를 재배열한 모식도를 도시하고; 도 5c는 본 명세서의 실시예에 따라 제공하는 불완전 관측 신호를 재배열한 모식도를 도시한다. 컴퓨팅 장치(240)가 상기 불완전 관측 신호를 재배열할 때: 컴퓨팅 장치(240)는 상기 불완전 관측 신호를 획득하고; 컴퓨팅 장치(240)가 상기 MХK의 데이터 행렬에서의 각 열의 데이터 누락 위치에 기반하여 상기 마이크 신호X에 대해 행렬 치환을 진행하여 상기 마이크 신호X를 적어도 하나의 서브 마이크 신호로 구획할 수 있다. 상기 마이크 신호X는 상기 적어도 하나의 서브 마이크 신호를 포함한다.
상기 불완전 관측 신호에서, 상이한 프레임 번호의 마이크 신호에서의 데이터 누락 위치가 동일할 수 있으므로 알고리즘 연산량 및 연산 시간을 감소하기 위하여 컴퓨팅 장치(240)는 도 5b에 도시된 바와 같이 상이한 프레임 번호의 마이크 신호에서의 데이터가 누락된 위치에 따라 K프레임 마이크 신호X를 분류하고, 데이터 누락 위치가 동일한 마이크 신호를 동일한 서브 마이크 신호로 구획하며, 마이크 신호X의 데이터 행렬에서의 행 위치를 치환하여 동일한 서브 마이크 신호에서의 마이크 신호 위치가 인접하도록 한다. 우리는 K프레임 마이크 신호X를 적어도 하나의 서브 마이크 신호로 구획한다. 설명의 편리를 위하여, 우리는 적어도 하나의 서브 마이크 신호의 수량을 G라고 정의한다. 여기서, G는 1보다 작지 않은 양의 정수이다. 우리는 번째 서브 마이크 신호를 라고 정의한다. 여기서, 이다.
컴퓨팅 장치(240)는 도 5c에 도시된 바와 같이 각 서브 마이크 신호에서의 데이터가 누락된 위치에 따라 마이크 신호X에 대해 행 치환을 진행하여 모든 서브 마이크 신호에서의 데이터가 누락된 위치가 인접하도록 할 수도 있다.
상술한 내용을 종합하면, 불완전 관측 신호에서, 서브 마이크 신호는 아래 공식으로 표시할 수 있다.
공식(9)
여기서, 이다. 행렬, 는 데이터 누락 위치에 의해 결정된 0, 1 요소로 구성된 행렬이다.
마이크 신호X는 아래 공식으로 표시할 수 있다.
공식(10)
설명의 편리를 위하여, 아래의 설명에서 우리는 마이크 신호X가 불완전 관측 신호인 것으로 설명한다.
전술한 바와 같이, 마이크(222)는 잡음 신호를 수집할 수 있을 뿐만 아니라 타깃 음성 신호도 수집할 수 있다. 상기 마이크 신호X에 상기 타깃 음성 신호가 존재하지 않을 경우, 상기 마이크 신호X는 잡음 신호와 대응하는 제1 모델을 만족시킨다. 상기 마이크 신호X에 상기 타깃 음성 신호가 존재할 경우, 상기 마이크 신호는 타깃 음성 신호와 상기 잡음 신호가 혼합하여 대응하는 제2 모델을 만족시킨다.
설명의 편리를 위하여 우리는 제1 모델을 아래 공식으로 정의한다.
공식(11)
마이크 신호X가 완전 관측 신호일 경우, 제1 모델은 아래 공식으로 표시할 수 있다.
공식(12)
마이크 신호X가 불완전 관측 신호일 경우, 제1 모델은 아래 공식으로 표시할 수 있다.
공식(13)
우리는 제2 모델을 아래 공식으로 정의한다.
공식(14)
마이크 신호X가 완전 관측 신호일 경우, 제2 모델은 아래 공식으로 표시할 수 있다.
공식(15)
마이크 신호X가 불완전 관측 신호일 경우, 제2 모델은 아래 공식으로 표시할 수 있다.
공식(16)
전시의 편리를 위하여, 아래의 설명에서 우리는 마이크 신호X가 불완전 관측 신호인 것을 예로 들어 설명한다.
도 3에 도시된 바와 같이, 상기 방법(P100)은 아래 단계를 더 포함할 수 있다.
S140: 우도 함수 최대화 및 잡음 공분산 행렬의 순위 최소화를 공동 최적화 목표로 하여 상기 제1 모델 및 상기 제2 모델을 각각 최적화함으로써, 상기 제1 모델의 잡음 공분산 행렬의 제1 추정값 및 상기 제2 모델의 잡음 공분산 행렬의 제2 추정값를 결정한다.
제1 모델에는 미지의 파라미터 잡음 신호의 잡음 공분산 행렬M이 존재한다. 설명의 편리를 위하여, 우리는 제1 모델에서의 미지의 파라미터 잡음 신호의 잡음 공분산 행렬M를 이라고 정의한다. 제2 모델에는 미지의 파라미터 잡음 신호의 잡음 공분산 행렬M 및 타깃 음성 신호의 진폭 이 존재한다. 설명의 편리를 위하여, 우리는 제2 모델에서의 미지의 파라미터 잡음 신호의 잡음 공분산 행렬M을 라고 정의한다. 컴퓨팅 장치(240)는 최적화 방법을 기반으로 제1 모델 및 제2 모델을 각각 최적화함으로써 미지의 파라미터의 제1 추정값, 의 제2 추정값 및 타깃 음성 신호의 진폭 의 추정값를 결정할 수 있다.
제1 양태에서, 컴퓨팅 장치(240)는 우도 함수의 각도로부터 트리거하여 우도 함수 최대화를 최적화 목표로 하고, 상기 제1 모델 및 제2 모델에 대해 각각 최적화 설계를 진행할 수 있다. 한편, 전술한 바와 같이, 유색 잡음 신호와 대응하는 잡음 공분산 행렬는 낮은 순위 특성을 가지는 바, 낮은 순위의 세미 포지티브 데피니트 행렬이므로 잡음 신호의 잡음 공분산 행렬M도 낮은 순위 특성을 가진다. 특히 불완전 관측 신호에 있어서, 불완전 관측 신호를 재배열하는 과정에서 여전히 잡음 신호의 잡음 공분산 행렬M의 낮은 순위 특성을 유지해야 한다. 따라서, 컴퓨팅 장치(240)는 잡음 신호의 잡음 공분산 행렬M의 낮은 순위 특성을 기반으로 잡음 공분산 행렬M의 순위 최소화를 최적화 목표로 하여 상기 제1 모델 및 제2 모델에 대해 각각 최적화 설계를 진행할 수 있다. 따라서, 컴퓨팅 장치(240)는 우도 함수 최대화 및 잡음 공분산 행렬의 순위 최소화를 공동 최적화 목표로 하여 상기 제1 모델 및 상기 제2 모델을 각각 최적화함으로써 미지의 파라미터의 제1 추정값, 의 제2 추정값 및 타깃 음성 신호의 진폭 의 추정값를 결정할 수 있다.
도 6은 본 명세서의 실시예에 따라 제공하는 반복 최적화의 흐름도를 도시한다. 도 6에 도시된 것은 단계S140이다. 도 6에 도시된 바와 같이, 단계S140은 아래 단계를 포함할 수 있다.
S142: 마이크 신호X를 샘플 데이터로 하여 제1 모델과 대응하는 제1 우도 함수를 구축한다.
상기 우도 함수는 상기 제1 우도 함수를 포함한다. 공식(11)~(13)에 따라 제1 우도 함수은 아래 공식으로 표시할 수 있다.
공식(17)
여기서, 공식(17)은 각각 완전 관측 신호 및 불완전 관측 신호에서의 제1 우도 함수를 표시한다. 은 파라미터의 최대 우도 추정이다. 은 제1 모델에서, 파라미터를 제공한 후, 마이크 신호X에 나타나는 확률을 표시한다.
S144: 제1 우도 함수 최대화 및 제1 모델의 잡음 공분산 행렬의 순위 최소화를 최적화 목표로 하여 상기 제1 모델을 최적화함으로써 의 제1 추정값을 결정한다.
제1 우도 함수 최대화는 로 표시할 수 있다. 제1 모델의 잡음 공분산 행렬의 순위 최소화는 로 표시할 수 있다. 전술한 바와 같이, 우리는 백색 잡음 신호의 잡음 공분산 행렬을 이미 알 고 있는 것을 예로 하여 설명하는 바, 공식(7)에 따라 제1 모델의 잡음 공분산 행렬의 순위 최소화를 유색 잡음 신호의 잡음 공분산 행렬로 표시할 수 있다는 것을 알 수 있다. 따라서, 최적화 목표의 타깃 함수는 아래 공식으로 표시할 수 있다.
공식(18)
여기서, 는 정규화 계수이다. 행렬 순위 최소화는 커널 놈 최소화 문제로 완화될 수 있다. 따라서, 공식(18)은 아래 공식으로 표시할 수 있다.
공식(19)
제1 모델의 반복 제약 조건은 아래 공식으로 표시할 수 있다.
공식(20)
여기서, 은 유색 잡음 신호의 잡음 공분산 행렬의 세미 포지티브 데피니트 제약이다. 제1 모델의 최적화 문제는 아래 공식으로 표시할 수 있다.
공식(21)
상기 타깃 함수 및 제약 조건을 결정한 후, 컴퓨팅 장치(240)는 상기 타깃 함수를 최적화 목표로 하여 상기 제1 모델의 미지의 파라미터에 대해 반복 최적화를 진행함으로써 제1 모델의 잡음 공분산 행렬의 제1 추정값을 결정할 수 있다.
공식(21)은 세미 포지티브 데피니트 계획 문제로서, 컴퓨팅 장치(240)는 여러 가지 알고리즘을 통해 구할 수 있다. 예를 들면 그래디언트 투영 알고리즘을 사용할 수 있다. 구체적으로 말하면, 그래디언트 투영 알고리즘의 각 반복에서, 우리는 우선 그 어떤 제약도 하지 않고 그래디언트 방법을 통해 공식(19)를 구한 다음 얻은 해를 세미 포지티브 데피니트 원뿔에 투영하여 이로 하여금 행렬 세미 포지티브 데피니트 제약 조건 공식(20)을 만족시키도록 할 수 있다.
도 6에 도시된 바와 같이, 단계S140은 아래 단계를 더 포함할 수 있다.
S146: 마이크 신호X를 샘플 데이터로 하여 제2 모델의 제2 우도 함수를 구축한다.
상기 우도 함수는 제2 우도 함수를 포함한다. 공식(14)~공식(16)에 따라 제2 우도 함수는 아래 공식으로 표시할 수 있다.
공식(22)
여기서, 공식(22)는 완전 관측 신호와 불완전 관측 신호에서의 제2 우도 함수를 각각 표시할 수 있다. 는 파라미터의 최대 우도 추정을 표시할 수 있다. 는 각각 제2 모델에서 파라미터를 제공한 후, 마이크 신호X가 나타나는 확률을 표시한다.
S148: 제2 우도 함수 최대화 및 제2 모델의 잡음 공분산 행렬의 순위 최소화를 최적화 목표로 하여 상기 제2 모델을 최적화함으로써 의 제2 추정값 및 타깃 음성 신호의 진폭 의 추정값을 결정한다.
제2 우도 함수 최대화는 로 표시될 수 있다. 제2 모델의 잡음 공분산 행렬의 순위 최소화는 로 표시될 수 있다. 전술한 바와 같이, 우리는 백색 잡음 신호의 잡음 공분산 행렬을 이미 알 고 있는 것을 예로 하여 설명하는 바, 공식(7)에 따라 제2 모델의 잡음 공분산 행렬의 순위 최소화를 유색 잡음 신호의 잡음 공분산 행렬로 표시할 수 있다는 것을 알 수 있다. 따라서, 최적화 목표의 타깃 함수는 아래 공식으로 표시할 수 있다.
공식(23)
여기서, 는 정규화 계수이다. 행렬 순위 최소화는 커널 놈 최소화 문제로 완화될 수 있다. 따라서, 공식(23)은 아래 공식으로 표시할 수 있다.
공식(24)
제2 모델의 반복 제약 조건은 아래 공식으로 표시할 수 있다.
공식(25)
여기서, 은 유색 잡음 신호의 잡음 공분산 행렬의 세미 포지티브 데피니트 제약이다. 제2 모델의 최적화 문제는 아래 공식으로 표시할 수 있다.
공식(26)
상기 타깃 함수 및 제약 조건을 결정한 후, 컴퓨팅 장치(240)는 상기 타깃 함수를 최적화 목표로 하여 상기 제2 모델의 미지의 파라미터와 S에 대해 반복 최적화를 진행함으로써 제2 모델의 잡음 공분산 행렬의 제2 추정값 및 타깃 음성 신호의 진폭 S의 추정값를 결정할 수 있다.
공식(26)은 세미 포지티브 데피니트 계획 문제로서, 컴퓨팅 장치(240)는 여러 가지 알고리즘을 통해 구할 수 있다. 예를 들면 그래디언트 투영 알고리즘을 사용할 수 있다. 구체적으로 말하면, 그래디언트 투영 알고리즘의 각 반복에서, 우리는 우선 그 어떤 제약도 하지 않고 그래디언트 방법을 통해 공식(24)를 구한 다음 얻은 해를 세미 포지티브 데피니트 원뿔에 투영하여 이로 하여금 행렬 세미 포지티브 데피니트 제약 조건 공식(25)를 만족시키도록 할 수 있다.
상술한 내용을 종합하면, 상기 방법(P100)은 우도 함수 최대화 및 잡음 공분산 행렬의 순위 최소화를 공동 최적화 목표로 하여 제1 모델 및 제2 모델을 각각 최적화함으로써 미지의 파라미터의 제1 추정값의 제2 추정값을 결정하여 의 추정 정밀도가 더 높도록 함으로써 후속적인 통계적 가설 검정을 위해 더 높은 정밀도의 데이터 모델을 제공하여 음성 활동 감지의 정확성 및 음성 향상 효과를 향상시킬 수 있다.
도 3에 도시된 바와 같이, 상기 방법(P100)은 아래 단계를 더 포함할 수 있다.
S160: 통계적 가설 검정에 기반하여 마이크 신호X와 대응하는 타깃 모델 및 잡음 공분산 행렬M을 결정한다.
타깃 모델은 제1 모델 및 제2 모델에서의 하나를 포함한다. 마이크 신호X의 잡음 공분산 행렬M은 타깃 모델의 잡음 공분산 행렬이다. 마이크 신호X의 타깃 모델이 제1 모델일 경우, 마이크 신호X의 잡음 공분산 행렬은 이다. 마이크 신호X의 타깃 모델이 제2 모델일 경우, 마이크 신호X의 잡음 공분산 행렬은 이다.
컴퓨팅 장치(240)는 통계적 가설 검정 방법을 기반으로 마이크 신호X가 제1 모델을 만족시키는지 아니면 제2 모델을 만족시키는지 결정함으로써 마이크 신호X에 타깃 음성 신호가 존재하는지 여부를 결정할 수 있다.
도 7은 본 명세서의 실시예에 따라 제공하는 타깃 모델을 결정하는 흐름도를 도시한다. 도 7에 도시된 흐름도는 단계S160이다. 도 7에 도시된 바와 같이, 단계S160은 아래 단계를 포함할 수 있다.
S162: 마이크 신호X에 기반하여 이진 가설 검정 모델을 구축한다.
여기서, 상기 이진 가설 검정 모델의 귀무가설은 마이크 신호X에 타깃 음성 신호가 존재하지 않는 것, 즉 마이크 신호X가 제1 모델을 만족시키는 것일 수 있다. 상기 이진 가설 검정 모델의 대립가설은 마이크 신호X에 타깃 음성 신호가 존재하는 것, 즉 마이크 신호X가 제2 모델을 만족시키는 것일 수 있다. 상기 이진 가설 검정 모델은 아래 공식으로 표시할 수 있다.
공식(27)
공식(28)
여기서, 공식(27)에서의 마이크 신호X는 완전 관측 신호이다. 공식(28)에서의 마이크 신호X는 불완전 관측 신호이다.
S164: 상기 제1 추정값, 상기 제2 추정값 및 상기 진폭 의 추정값을 상기 이진 가설 검정 모델의 감지기의 결정 기준에 대입하여 검정 통계량
Figure pct00246
를 획득한다.
상기 감지기는 임의의 하나 또는 다수의 감지기일 수 있다. 일부 실시예에서, 상기 감지기는 GLRT 감지기, Rao 검정기 및 Wald 검정기에서의 하나 또는 다수일 수 있다. 일부 실시예에서, 상기 감지기는 u-검정기, t검정기, χ2검정기(카이 제곱 검정), F-검정기, 순위합 감지기 등일 수도 있다. 상이한 감지기의 검정 통계량
Figure pct00247
는 상이하다.
GLRT 감지기(Generalized Likelihood RatioTest, 일반화 우도비 감지기)를 예로 들어 설명한다. 마이크 신호X가 완전 관측 신호일 경우, GLRT 감지기에서, 검정 통계량
Figure pct00248
는 아래 공식으로 표시할 수 있다.
Ψ= 공식(29)
여기서, 은 각각 귀무가설과 대립가설에서의 우도 함수이다.
.
마이크 신호X가 불완전 관측 신호일 경우, GLRT 감지기에서, 검정 통계량
Figure pct00255
는 아래 공식으로 표시할 수 있다.
공식(30)
여기서, 은 각각 귀무가설과 대립가설에서의 우도 함수이다.
GLRT 감지기에서, 귀무가설과 대립가설에서의 미지의 파라미터에 대해 모두 추정해야 하고, 추정 대기 파라미터가 많다. 그러나 Rao 검정기는 귀무가설에서의 미지의 파라미터만 추정하면 된다. 프레임 수K일 경우, Rao 검정기는 GLRT 감지기와 동일한 감지 성능을 가진다. 프레임 수K가 제한될 경우, Rao 검정기는 비록 GLRT 감지기와 동일한 감지 성능을 달성할 수 없지만 이는 계산이 간편하고 대립가설에서의 미지의 파라미터를 해결하기 어려운 상황에 더 적합하다는 장점이 있다.
따라서, 실제 시스템이 감지 성능, 계산 복잡도에 대한 균형 수요에 대하여, 컴퓨팅 장치(240)는 전술한 GLRT 감지기의 기초 상에 Rao 검정기를 제안한다. 불완전 관측 신호를 예로 들면, Rao 검정기의 검정 통계량
Figure pct00267
는 아래 공식으로 표시할 수 있다.
공식(31)
여기서, 은 대립가설에서의 확률 밀도 함수를 표시한다. 이다. 이다. 여기서, 은 타깃 음성 신호가 M번째 마이크(222)에서의 오디오 신호의 진폭의 실수부이다. 은 타깃 음성 신호가 M번째 마이크(222)에서의 오디오 신호의 진폭의 허수부이다. 이다. 은 하나의 2M차원 벡터이다. , 여기서, 는 여분의 파라미터를 포함하는 하나의 실벡터이다. M의 비대각선에 있는 요소 실수부와 허수부, 및 대각선에 있는 요소를 포함한다. 공식(31)은 아래 공식으로 간략화 될 수 있다.
공식(32)
여기서, 이다.
공식(32)에서, 귀무가설 하의 미지의 파라미터의 추정량을 얻을 수만 있다면 Rao 검정기의 검정 통계량
Figure pct00284
를 획득할 수 있다.
S166: 상기 검정 통계량
Figure pct00285
에 기반하여 마이크 신호X의 타깃 모델을 판정한다.
구체적으로, 단계S166은 아래 단계를 포함할 수 있다.
S166-2: 검정 통계량
Figure pct00286
가 기설정된 결정 임계값η보다 크다고 결정하고, 마이크 신호X에 타깃 음성 신호가 존재한다고 판정하며, 타깃 모델을 제2 모델로 결정하고, 상기 마이크 신호의 잡음 공분산 행렬을 상기 제2 추정값로 결정하거나; 또는
S166-4: 검정 통계량
Figure pct00288
가 기설정된 결정 임계값η보다 작다고 결정하고, 마이크 신호X에 타깃 음성 신호가 존재하지 않는다고 판정하며, 타깃 모델을 상기 제1 모델로 결정하고, 상기 마이크 신호의 잡음 공분산 행렬을 상기 제1 추정값로 결정한다.
단계S166은 아래 공식으로 표시할 수 있다.
공식(33)
결정 임계값η는 오경보 확률과 관련되는 파라미터이다. 상기 오경보 확률은 실험 방식을 통해 획득할 수도 있고 머신 러닝 방식을 통해 획득할 수도 있으며, 경험 방식을 통해 획득할 수도 있다.
도 3에 도시된 바와 같이, 상기 방법(P100)은 아래 단계를 더 포함할 수 있다.
S180: 마이크 신호X의 타깃 모드 및 잡음 공분산 행렬M을 출력한다.
컴퓨팅 장치(240)는 마이크 신호X의 타깃 모드 및 잡음 공분산 행렬M을 기타 계산 모듈, 예를 들면 음성 향상 모듈 등에 출력할 수 있다.
상술한 내용을 종합하면, 본 명세서에서 제공하는 음성 활동 감지 시스템과 방법(P100)에서, 컴퓨팅 장치(240)는 우도 함수 최대화 및 잡음 공분산 행렬의 순위 최소화를 공동 최적화 목표로 하여 제1 모델 및 제2 모델을 각각 최적화함으로써 미지의 파라미터의 제1 추정값의 제2 추정값를 결정하여 의 추정 정밀도가 더 높도록 함으로써 후속적인 통계적 가설 검정을 위해 더 높은 정밀도의 데이터 모델을 제공하여 음성 활동 감지의 정확성 및 음성 향상 효과를 향상시킬 수 있다.
본 명세서는 음성 향상 시스템을 더 제공한다. 음성 향상 시스템은 전자기기(200)에 응용될 수도 있다. 일부 실시예에서, 음성 향상 시스템은 컴퓨팅 장치(240)를 포함할 수 있다. 일부 실시예에서, 음성 향상 시스템은 컴퓨팅 장치(240)에 응용될 수 있다. 즉 음성 향상 시스템은 컴퓨팅 장치(240)에서 운행할 수 있다. 음성 향상 시스템은 데이터 정보 처리능력을 가지는 하드웨어 기기 및 이 하드웨어 기기를 작동시키는데 필요한 프로그램을 포함할 수 있다. 물론, 음성 향상 시스템은 단지 데이터 처리능력을 가지는 하드웨어 기기이거나, 또는 단지 하드웨어 기기에서 운행하는 프로그램일 수 있다.
음성 향상 시스템에는 본 명세서에서 설명하는 음성 향상 방법을 수행하는 데이터 또는 명령어가 저장되어 상기 데이터 및/또는 명령어를 실행할 수 있다. 음성 향상 시스템이 컴퓨팅 장치(240)에서 운행할 경우, 음성 향상 시스템은 상기 통신 연결을 기반으로 마이크 어레이(220)에서 상기 마이크 신호를 획득하고, 본 명세서에서 설명하는 음성 향상 방법의 데이터 또는 명령어를 실행한다. 상기 음성 향상 방법은 본 명세서에서의 기타 부분에서 소개한다. 예를 들면, 도 8의 설명에서 상기 음성 향상 방법을 소개한다.
음성 향상 시스템이 컴퓨팅 장치(240)에서 운행할 경우, 상기 음성 향상 시스템은 마이크 어레이(220)와 통신 연결한다. 저장매체(243)는 상기 데이터 저장장치에 저장되는 적어도 하나의 명령어 집합을 더 포함하여 상기 마이크 신호에 대해 음성 향상 계산을 진행할 수 있다. 상기 명령어는 컴퓨터 프로그램 코드이고, 상기 컴퓨터 프로그램 코드는 본 명세서에서 제공하는 음성 향상 방법을 수행하는 프로그램, 루틴, 오브젝트, 어셈블리, 데이터 구조, 과정, 모듈 등을 포함할 수 있다. 프로세서(242)는 상기 적어도 하나의 명령어 집합을 판독하고, 상기 적어도 하나의 명령어 집합의 지시에 따라 본 명세서에서 제공하는 음성 향상 방법을 수행할 수 있다. 프로세서(242)는 음성 향상 방법이 포함하는 모든 단계를 수행할 수 있다.
도 8은 본 명세서의 실시예에 따라 제공하는 음성 향상 방법(P200)의 흐름도를 도시한다. 상기 방법(P200)은 상기 마이크 신호에 대해 음성 향상을 진행할 수 있다. 구체적으로, 프로세서(242)는 상기 방법(P200)을 수행할 수 있다. 도 8에 도시된 바와 같이, 상기 방법(P200)은 아래 단계를 포함할 수 있다.
S220: 상기 M개 마이크가 출력하는 마이크 신호X를 획득한다.
단계S120에서 설명한 바와 같이, 여기서 더 이상 설명하지 않는다.
S240: 상기 음성 활동 감지 방법(P100)에 기반하여 마이크 신호X의 타깃 모델 및 마이크 신호X의 잡음 공분산 행렬M을 결정한다.
마이크 신호X의 잡음 공분산 행렬M은 타깃 모델의 잡음 공분산 행렬이다. 마이크 신호X의 타깃 모델이 제1 모델일 경우, 마이크 신호X의 잡음 공분산 행렬은 이다. 마이크 신호X의 타깃 모델이 제2 모델일 경우, 마이크 신호X의 잡음 공분산 행렬은 이다.
S260: MVDR 방법 및 상기 마이크 신호X의 잡음 공분산 행렬M에 기반하여 마이크 신호와 대응하는 필터 계수를 결정한다.
필터 계수는 하나의 MХ1차원의 벡터일 수 있다. 필터 계수는 아래 공식으로 표시할 수 있다.
공식(34)
여기서, m번째 마이크(222)와 대응하는 필터 계수는 이다. 이다.
필터 계수는 아래 공식으로 표시할 수 있다.
공식(35)
전술한 바와 같이, 는 타깃 음성 신호의 타깃 스티어링 벡터이다. 일부 실시예에서, 는 이미 알고 있는 것이다.
S280: 상기 필터 계수를 기반으로 마이크 신호X를 병합하여 타깃 오디오 신호를 출력한다.
타깃 오디오 신호Y는 아래 공식으로 표시할 수 있다.
공식(36)
컴퓨팅 장치(240)는 타깃 오디오 신호Y를 기타 전자기기, 예를 들면 원격 통화기기에 출력할 수 있다.
상술한 내용을 종합하면, 본 명세서에서 제공하는 음성 활동 감지 시스템과 방법(P100), 음성 향상 시스템과 방법(P200)은 다수의 마이크(222)로 조성된 마이크 어레이(220)에 사용된다. 상기 음성 활동 감지 시스템과 방법(P100), 음성 향상 시스템과 방법(P200)은 마이크 어레이(220)가 수집한 마이크 신호X를 획득할 수 있다. 마이크 신호X는 잡음 신호와 대응하는 제1 모델일 수도 있고, 타깃 음성 신호와 상기 잡음 신호가 혼합하여 대응하는 제2 모델일 수도 있다. 상기 음성 활동 감지 시스템과 방법(P100), 음성 향상 시스템과 방법(P200)마이크 신호X를 샘플로 하고, 우도 함수 최대화 및 마이크 신호X의 잡음 공분산 행렬M의 순위 최소화를 공동 최적화 목표로 하여 제1 모델 및 제2 모델을 각각 최적화함으로써 제1 모델의 잡음 공분산 행렬의 제1 추정값 및 제2 모델의 잡음 공분산 행렬의 제2 추정값을 결정하며, 통계적 가설 검정 방법을 통해 마이크 신호X가 제1 모델을 만족시키는지 아니면 제2 모델을 만족시키는지 판정하여 마이크 신호X에 타깃 음성 신호가 존재하는지 여부를 결정하고, 마이크 신호X의 잡음 공분산 행렬M을 결정하여 MVDR 방법을 기반으로 마이크 신호X에 대해 음성 향상을 진행할 수 있다. 상기 음성 활동 감지 시스템과 방법(P100), 음성 향상 시스템과 방법(P200)은 잡음 공분산 행렬M의 추정 정밀도와 음성 활동 감지의 정확도가 더 높도록 하여 음성 향상 효과를 향상시킬 수 있다.
본 명세서의 다른 양태는, 음성 활동 감지를 위한 한 그룹의 실행 가능 명령어가 저장되는 비일시적 저장매체를 제공하는데, 상기 실행 가능 명령어가 프로세서에 의해 실행될 경우, 상기 실행 가능 명령어는 상기 프로세서로 하여금 본 명세서에 따른 음성 활동 감지 방법(P100)의 단계를 실시하도록 지도한다. 일부 가능한 실시형태에서, 본 명세서의 각 양태는 한 가지 프로그램 제품의 형태로 구현될 수도 있는데, 이는 프로그램 코드를 포함한다. 상기 프로그램 제품이 컴퓨팅 기기(예를 들면 컴퓨팅 장치(240))에서 운행될 경우, 상기 프로그램 코드는 컴퓨팅 기기로 하여금 본 명세서에서 설명하는 음성 활동 감지 단계를 수행하도록 한다. 상기 방법을 구현하는 프로그램 제품은 프로그램 코드를 포함하는 휴대용 컴팩트 디스크 읽기 전용 메모리(CD-ROM)를 사용할 수 있고, 컴퓨팅 기기에서 운행될 수 있다. 그러나, 본 명세서의 프로그램 제품은 이에 한정되지 않는 바, 본 명세서에서, 판독 가능 저장매체는 프로그램을 포함하거나 저장한 임의의 유형 매체일 수 있고, 이 프로그램은 명령어 실행 시스템(예컨대 프로세서(242))에 의해 사용되거나 또는 이와 결합하여 사용될 수 있다. 상기 프로그램 제품은 하나 또는 다수의 판독 가능 매체의 임의의 조합을 사용할 수 있다. 판독 가능 매체는 판독 가능 신호 매체 또는 판독 가능 저장매체일 수 있다. 판독 가능 저장매체는 예컨대 전기, 자기, 빛, 전자기, 적외선 또는 반도체의 시스템, 장치 또는 소자, 또는 임의의 이상의 조합일 수 있으나 이에 한정되지 않는다. 판독 가능 저장매체의 보다 구체적인 예는, 하나 또는 다수의 도선을 구비하는 전기적 연결, 휴대용 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 소거 및 프로그램 가능 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 읽기 전용 메모리(CD-ROM), 광학 저장 소자, 자기 저장 소자, 또는 상술한 임의의 적합한 조합을 포함한다. 상기 컴퓨터 판독 가능 저장매체는 베이스밴드에 포함되거나 또는 반송파로서 일부 전파되는 데이터 신호에 포함될 수 있고, 여기에는 판독 가능 프로그램 코드가 로딩된다. 이러한 전파된 데이터 신호는 여러 가지 형태를 사용할 수 있으며, 전자기 신호, 광신호 또는 상술한 임의의 적합한 조합을 포함하나 이에 한정되지 않는다. 판독 가능 저장매체는 판독 가능 저장매체를 제외한 임의의 판독 가능 매체일 수도 있으며, 이 판독 가능 매체는 명령어 실행 시스템, 장치 또는 소자가 사용하거나 또는 이와 결합하여 사용하는 프로그램을 송신, 전파 또는 전송할 수 있다. 판독 가능 저장매체에 포함되는 프로그램 코드는 임의의 적당한 매체로 전송할 수 있으며, 무선, 유선, 광케이블, RF 등, 또는 상술한 임의의 적합한 조합을 포함하나 이에 한정되지 않는다. 한 가지 또는 여러 가지 프로그래밍 언어의 임의의 조합으로 본 명세서의 동작을 실행하기 위한 프로그램 코드를 작성할 수 있고, 상기 프로그래밍 언어는 Java, C++ 등과 같은 오브젝트를 향한 프로그래밍 언어를 포함하며, "C"언어 또는 유사한 프로그래밍 언어와 같은 일반적인 절차적 프로그래밍 언어를 더 포함한다. 프로그램 코드는 완전히 컴퓨팅 기기에서 실행될 수 있고, 일부가 컴퓨팅 기기에서 실행될 수도 있으며, 하나의 독립적인 소프트웨어 패키지로서 실행될 수도 있고, 일부는 컴퓨팅 기기에서, 일부는 원격 컴퓨팅 기기에서 실행되거나, 또는 완전히 원격 컴퓨팅 기기에서 실행될 수 있다.
이상 본 명세서의 특정된 실시예를 설명하였다. 기타 실시예는 첨부된 청구범위의 범위 내에 있다. 일부 경우에 청구범위에 기재된 동작 또는 단계는 실시예에서의 순서와 상이하게 수행될 수 있고 여전히 원하는 결과를 실현할 수 있다. 이 밖에, 도면에서 설명한 과정은 특정된 순서 또는 연속적인 순서를 도시하여야만 원하는 결과를 실현할 수 있는 것이 아닐 수 있다. 일부 실시형태에서, 멀티태스킹과 병렬 처리도 가능하거나 또는 유리할 수 있다.
상술한 내용을 종합하면, 상세하게 개시된 본 내용을 읽은 뒤, 본 기술분야에서 통상의 지식을 가진 자는 상기 상세하게 개시된 내용이 단지 예시적인 방식으로 나타냈을 뿐 한정적인 것이 아닐 수 있다는 것을 알 수 있다. 비록 여기서 분명히 설명하지 않았으나 본 기술분야에서 통상의 지식을 가진 자는 본 명세서가 실시예에 대한 여러 가지 합리적인 변화, 개선 및 수정을 포괄해야 한다는 것을 이해할 수 있다. 이러한 변화, 개선 및 수정은 본 명세서에 의해 제안된 것으로, 본 명세서의 예시적인 실시예의 정신과 범위 내에 놓인다.
이 밖에, 본 명세서에서의 일부 용어는 본 명세서의 실시예를 설명하는데 사용되었다. 예를 들면, "하나의 실시예”, "실시예” 및/또는 "일부 실시예”는 이 실시예와 결부하여 설명한 특정된 특징, 구조 또는 특성이 본 명세서의 적어도 하나의 실시예에 포함될 수 있다는 것을 의미한다. 따라서, 강조하고 이해해야 할 것은, 본 명세서의 각 부분에서 "실시예” 또는 "하나의 실시예” 또는 "대체 실시예”의 둘 또는 더 많은 인용이 모두 동일한 실시예를 대신 지칭하는 것이 아닐 수 있다. 이 밖에, 특정된 특징, 구조 또는 특성은 본 명세서의 하나 또는 다수의 실시예에서 적당하게 조합될 수 있다.
이해해야 할 것은, 본 명세서의 실시예의 전술한 설명에서, 하나의 특징에 대한 이해를 돕기 위하여 본 명세서를 간략시킬 목적으로 본 명세서는 여러 가지 특징을 단일한 실시예, 도면 또는 이의 설명에 조합한다. 그러나, 이는 이러한 특징의 조합이 필수적이라는 것을 설명하지 않으며, 본 기술분야에서 통상의 지식을 가진 자는 본 명세서를 읽을 때 그 중의 일부 특징을 추출하여 단독적인 실시예로 이해할 수 있다. 바꾸어 말하면, 본 명세서에서의 실시예는 다수의 이차적인 실시예의 통합으로 이해할 수도 있다. 각 이차적인 실시예의 내용은 단일한 상기 개시된 실시예의 모든 특징보다 적을 때에도 성립될 수 있다.
본 문장에서 사용하는 각 특허, 특허 출원, 특허 출원의 출판물 및 기타 재료, 예컨대 문장, 서적, 명세서, 출판물, 파일, 물품 등은 인용을 통해 여기에 결합될 수 있다. 모든 목적을 위한 전부의 내용은 이와 관련되는 어떠한 기소 파일 기록을 제외하고, 본 파일과 일치하지 않거나 또는 서로 충돌하는 임의의 동일하거나 또는 청구범위의 제일 넓은 범위에 한정적인 영향을 미칠 수 있는 임의의 동일한 기소 파일 기록에 사용된다. 현재 또는 나중에 본 파일과 연관된다. 예를 들어 설명하면, 만약 포함된 임의의 재료와 연관되는 용어의 설명, 정의 및/또는 본 문서와 연관되는 용어, 설명, 정의를 사용하거나 및/또는 사이에 임의의 불일치 또는 충돌이 존재하면 본 파일에서의 용어를 사용하는 것을 기준으로 한다.
마지막으로, 본 문장에서 개시한 출원의 실시형태는 본 명세서의 실시형태의 원리에 대한 설명이라는 것을 이해해야 한다. 기타 수정된 실시예도 본 명세서의 범위 내에 있다. 따라서, 본 명세서가 개시한 실시예는 단지 예시일 뿐 한정이 아니다. 본 기술분야에서 통상의 지식을 가진 자는 본 명세서의 실시예에 따른 대체 구성을 사용하여 본 명세서의 출원을 구현할 수 있다. 따라서, 본 명세서의 실시예는 출원에서 정확하게 설명된 실시예에 한정되지 않는다.

Claims (11)

  1. 기설정 어레이 모양으로 분포되는 M개 마이크에 사용되고, 상기 M은 1보다 큰 정수인 음성 활동 감지 방법에 있어서,
    상기 M개 마이크가 출력하는 마이크 신호를 획득하되, 상기 마이크 신호는 타깃 음성 신호가 존재하지 않는 것과 대응하는 제1 모델 또는 타깃 음성 신호가 존재하는 것과 대응하는 제2 모델을 만족시키는 단계;
    우도 함수 최대화 및 잡음 공분산 행렬의 순위 최소화를 공동 최적화 목표로 하여 상기 제1 모델 및 상기 제2 모델을 각각 최적화함으로써, 상기 제1 모델의 잡음 공분산 행렬의 제1 추정값 및 상기 제2 모델의 잡음 공분산 행렬의 제2 추정값을 결정하는 단계; 및
    통계적 가설 검정에 기반하여 상기 마이크 신호와 대응하는 타깃 모델 및 잡음 공분산 행렬을 결정하되, 상기 타깃 모델은 상기 제1 모델과 상기 제2 모델에서의 하나를 포함하고, 상기 마이크 신호의 잡음 공분산 행렬은 상기 타깃 모델의 잡음 공분산 행렬인 단계를 포함하는 것을 특징으로 하는 음성 활동 감지 방법.
  2. 제1항에 있어서,
    상기 마이크 신호는 K프레임 연속 오디오 신호를 포함하되, 상기 K는 1보다 큰 양의 정수이고, 상기 마이크 신호는 MХK의 데이터 행렬을 포함하는 것을 특징으로 하는 음성 활동 감지 방법.
  3. 제2항에 있어서,
    상기 마이크 신호는 완전 관측 신호 또는 불완전 관측 신호이고, 상기 완전 관측 신호에서 상기 MХK의 데이터 행렬에서의 모든 데이터는 완전하며, 상기 불완전 관측 신호에서 상기 MХK의 데이터 행렬에서의 일부 데이터는 누락되고 상기 마이크 신호가 상기 불완전 관측 신호일 경우, 상기 M개 마이크가 출력하는 마이크 신호를 획득하는 상기 단계는,
    상기 불완전 관측 신호를 획득하는 단계;
    상기 MХK의 데이터 행렬에서의 각 열의 데이터 누락 위치에 기반하여 상기 마이크 신호에 대해 행렬 치환을 진행하고, 상기 마이크 신호를 적어도 하나의 서브 마이크 신호로 구획하되, 상기 마이크 신호는 상기 적어도 하나의 서브 마이크 신호를 포함하는 단계를 포함하는 것을 특징으로 하는 음성 활동 감지 방법.
  4. 제1항에 있어서,
    우도 함수 최대화 및 잡음 공분산 행렬의 순위 최소화를 공동 최적화 목표로 하여 상기 제1 모델 및 상기 제2 모델을 각각 최적화하는 상기 단계는,
    상기 마이크 신호를 샘플 데이터로 하여 상기 제1 모델과 대응하는 제1 우도 함수를 구축하되, 상기 우도 함수는 상기 제1 우도 함수를 포함하는 단계;
    상기 제1 우도 함수 최대화 및 상기 제1 모델의 잡음 공분산 행렬의 순위 최소화를 최적화 목표로 하여 상기 제1 모델을 최적화함으로써 상기 제1 추정값을 결정하는 단계;
    상기 마이크 신호를 샘플 데이터로 하여 상기 제2 모델의 제2 우도 함수를 구축하되, 상기 우도 함수는 상기 제2 우도 함수를 포함하는 단계; 및
    상기 제2 우도 함수 최대화 및 상기 제2 모델의 잡음 공분산 행렬의 순위 최소화를 최적화 목표로 하여 상기 제2 모델을 최적화함으로써 상기 제2 추정값 및 상기 타깃 음성 신호의 진폭 추정값을 결정하는 단계를 포함하는 것을 특징으로 하는 음성 활동 감지 방법.
  5. 제4항에 있어서,
    상기 마이크 신호는 잡음 신호를 포함하고, 상기 잡음 신호는 가우스 분포를 따르며, 상기 잡음 신호는 적어도,
    제로 평균의 가우스 분포를 따르고, 대응하는 잡음 공분산 행렬이 낮은 순위의 세미 포지티브 데피니트 행렬인 유색 잡음 신호를 포함하는 것을 특징으로 하는 음성 활동 감지 방법.
  6. 제1항에 있어서,
    통계적 가설 검정에 기반하여 상기 마이크 신호와 대응하는 타깃 모델 및 잡음 공분산 행렬을 결정하는 상기 단계는,
    상기 마이크 신호에 기반하여 이진 가설 검정 모델을 구축하되, 여기서, 상기 이진 가설 검정 모델의 귀무가설은 상기 마이크 신호가 상기 제1 모델을 만족시키는 것을 포함하고, 상기 이진 가설 검정 모델의 대립가설은 상기 마이크 신호가 상기 제2 모델을 만족시키는 것을 포함하는 단계;
    상기 제1 추정값, 상기 제2 추정값 및 상기 진폭 추정값을 상기 이진 가설 검정 모델의 감지기의 결정 기준에 대입하여 검정 통계량을 획득하는 단계; 및
    상기 검정 통계량에 기반하여 상기 마이크 신호의 상기 타깃 모델을 판정하는 단계를 포함하는 것을 특징으로 하는 음성 활동 감지 방법.
  7. 제6항에 있어서,
    상기 검정 통계량에 기반하여 상기 마이크 신호의 상기 타깃 모델을 판정하는 상기 단계는,
    상기 검정 통계량이 상기 기설정된 결정 임계값보다 크다고 결정하고, 상기 마이크 신호에 상기 타깃 음성 신호가 존재한다고 판정하며, 상기 타깃 모델을 상기 제2 모델로 결정하고, 상기 마이크 신호의 잡음 공분산 행렬을 상기 제2 추정값으로 결정하는 단계; 또는
    상기 검정 통계량이 상기 기설정된 결정 임계값보다 작다고 결정하고, 상기 마이크 신호에 상기 타깃 음성 신호가 존재하지 않는다고 판정하며, 상기 타깃 모델을 상기 제1 모델로 결정하고, 상기 마이크 신호의 잡음 공분산 행렬을 상기 제1 추정값으로 결정하는 단계를 포함하는 것을 특징으로 하는 음성 활동 감지 방법.
  8. 제6항에 있어서,
    상기 감지기는 GLRT 감지기, Rao 검정기 및 Wald 검정기에서의 적어도 하나를 포함하는 것을 특징으로 하는 음성 활동 감지 방법.
  9. 음성 활동 감지를 위한 적어도 하나의 명령어 집합이 저장되는 적어도 하나의 저장매체; 및
    상기 적어도 하나의 저장매체와 통신 연결하는 적어도 하나의 프로세서를 포함하는 음성 활동 감지 시스템에 있어서,
    상기 음성 활동 감지 시스템이 운행할 경우, 상기 적어도 하나의 프로세서는 상기 적어도 하나의 명령어 집합을 판독하고, 제1항 내지 제8항 중 어느 한 항에 따른 음성 활동 감지 방법을 실시하는 것을 특징으로 하는 음성 활동 감지 시스템.
  10. 기설정 어레이 모양으로 분포되는 M개 마이크에 사용되고, 상기 M은 1보다 큰 정수인 음성 향상 방법에 있어서,
    상기 M개 마이크가 출력하는 마이크 신호를 획득하는 단계;
    제1항 내지 제8항 중 어느 한 항에 따른 음성 활동 감지 방법에 기반하여 상기 마이크 신호의 상기 타깃 모델 및 상기 마이크 신호의 잡음 공분산 행렬을 결정하되, 상기 마이크 신호의 잡음 공분산 행렬은 상기 타깃 모델의 잡음 공분산 행렬인 단계;
    MVDR 방법 및 상기 마이크 신호의 잡음 공분산 행렬에 기반하여 상기 마이크 신호와 대응하는 필터 계수를 결정하는 단계; 및
    상기 필터 계수를 기반으로 상기 마이크 신호를 병합하여 타깃 오디오 신호를 출력하는 단계를 포함하는 것을 특징으로 하는 음성 향상 방법.
  11. 음성 향상을 진행하기 위한 적어도 하나의 명령어 집합이 저장되는 적어도 하나의 저장매체; 및
    상기 적어도 하나의 저장매체와 통신 연결하는 적어도 하나의 프로세서를 포함하는 음성 향상 시스템에 있어서,
    상기 음성 향상 시스템이 운행할 경우, 상기 적어도 하나의 프로세서는 상기 적어도 하나의 명령어 집합을 판독하고, 제10항에 따른 음성 향상 방법을 실시하는 것을 특징으로 하는 음성 향상 시스템.
KR1020237031546A 2021-11-11 2021-11-11 음성 활동 감지 방법, 시스템, 음성 향상 방법 및 시스템 KR20230146604A (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2021/130035 WO2023082134A1 (zh) 2021-11-11 2021-11-11 语音活动检测方法、系统、语音增强方法以及系统

Publications (1)

Publication Number Publication Date
KR20230146604A true KR20230146604A (ko) 2023-10-19

Family

ID=86334763

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237031546A KR20230146604A (ko) 2021-11-11 2021-11-11 음성 활동 감지 방법, 시스템, 음성 향상 방법 및 시스템

Country Status (6)

Country Link
US (1) US20240046956A1 (ko)
EP (1) EP4307296A4 (ko)
JP (1) JP2024512927A (ko)
KR (1) KR20230146604A (ko)
CN (1) CN116964667A (ko)
WO (1) WO2023082134A1 (ko)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2701145B1 (en) * 2012-08-24 2016-10-12 Retune DSP ApS Noise estimation for use with noise reduction and echo cancellation in personal communication
WO2016095218A1 (en) * 2014-12-19 2016-06-23 Dolby Laboratories Licensing Corporation Speaker identification using spatial information
CN109087664B (zh) * 2018-08-22 2022-09-02 中国科学技术大学 语音增强方法
CN110289003B (zh) * 2018-10-10 2021-10-29 腾讯科技(深圳)有限公司 一种声纹识别的方法、模型训练的方法以及服务器

Also Published As

Publication number Publication date
JP2024512927A (ja) 2024-03-21
EP4307296A4 (en) 2024-03-27
CN116964667A (zh) 2023-10-27
US20240046956A1 (en) 2024-02-08
EP4307296A1 (en) 2024-01-17
WO2023082134A1 (zh) 2023-05-19

Similar Documents

Publication Publication Date Title
CN108122563B (zh) 提高语音唤醒率及修正doa的方法
US9570087B2 (en) Single channel suppression of interfering sources
US9788109B2 (en) Microphone placement for sound source direction estimation
US10796704B2 (en) Spatial audio signal decoder
US11205435B2 (en) Spatial audio signal encoder
KR102618902B1 (ko) 전자 장치에 대한 잡음 제거
US10186278B2 (en) Microphone array noise suppression using noise field isotropy estimation
US11206483B2 (en) Audio signal processing method and device, terminal and storage medium
WO2023060400A1 (zh) 语音存在概率计算方法、系统、语音增强方法、系统以及耳机
US11930331B2 (en) Method, apparatus and device for processing sound signals
KR20170129697A (ko) 마이크로폰 어레이 스피치 강화 기법
Laufer-Goldshtein et al. A study on manifolds of acoustic responses
KR20230146604A (ko) 음성 활동 감지 방법, 시스템, 음성 향상 방법 및 시스템
CN116110421A (zh) 语音活动检测方法、系统、语音增强方法以及系统
US20120215529A1 (en) Speech Enhancement
KR20230146605A (ko) 음성 활동 감지 방법, 시스템, 음성 향상 방법 및 시스템
CN113223552B (zh) 语音增强方法、装置、设备、存储介质及程序
CN116364100A (zh) 语音活动检测方法、系统、语音增强方法以及系统
CN115966215A (zh) 语音存在概率计算方法、系统、语音增强方法以及耳机
Pezzoli et al. Spherical-harmonics-based sound field decomposition and multichannel NMF for sound source separation
CN117037836B (zh) 基于信号协方差矩阵重构的实时声源分离方法和装置
Sun et al. Robust multiple sound source localization in noisy environment by using a soundfield microphone
Blanchette Short-time multichannel noise power spectral density estimators for acoustic signals
Hioka et al. Estimation of azimuth and elevation DOA using microphones located at apices of regular tetrahedron