KR102456125B1 - 음성 잡음 제거 방법 및 장치, 서버 및 저장 매체 - Google Patents

음성 잡음 제거 방법 및 장치, 서버 및 저장 매체 Download PDF

Info

Publication number
KR102456125B1
KR102456125B1 KR1020207015043A KR20207015043A KR102456125B1 KR 102456125 B1 KR102456125 B1 KR 102456125B1 KR 1020207015043 A KR1020207015043 A KR 1020207015043A KR 20207015043 A KR20207015043 A KR 20207015043A KR 102456125 B1 KR102456125 B1 KR 102456125B1
Authority
KR
South Korea
Prior art keywords
speech
acoustic microphone
signal collected
frame
frequency
Prior art date
Application number
KR1020207015043A
Other languages
English (en)
Other versions
KR20200074199A (ko
Inventor
하이쿤 왕
팽 마
지궈 왕
Original Assignee
아이플라이텍 캄파니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아이플라이텍 캄파니 리미티드 filed Critical 아이플라이텍 캄파니 리미티드
Publication of KR20200074199A publication Critical patent/KR20200074199A/ko
Application granted granted Critical
Publication of KR102456125B1 publication Critical patent/KR102456125B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Machine Translation (AREA)

Abstract

음성 잡음 제거 방법 및 장치, 서버 및 저장 매체가 제공된다. 음성 잡음 제거 방법은, 음향 마이크로폰 및 비-음향 마이크로폰에 의해 동기적으로 수집된 유성음 신호를 획득하는 단계 (S100); 비-음향 마이크로폰에 의해 수집된 유성음 신호에 따라 스피치 활동 검출을 수행하여 스피치 활동 검출 결과를 획득하는 단계 (S110); 및 스피치 활동 검출 결과에 따라, 음향 마이크로폰에 의해 수집된 유성음 신호를 잡음 제거하여 잡음 제거된 유성음 신호를 획득하는 단계 (S120)를 포함한다. 잡음 제거 효과가 향상되고 음성 신호의 품질이 향상될 수 있다.

Description

음성 잡음 제거 방법 및 장치, 서버 및 저장 매체
본 출원은 2017 년 12 월 28 일에 중국 특허청에 출원된 "스피치 잡음 감소 방법 및 장치, 서버 및 저장 매체"라는 제목의 중국 특허 출원 번호 201711458315.0의 우선권을 주장하며, 본 명세서에서 그 전체가 참고로 포함된다.
스피치 기술은 일상 생활의 다양한 영역에 널리 적용되고 급속한 발전과 함께 사용되어, 사람들에게 큰 편의성을 제공한다.
스피치 기술을 적용할 때, 스피치 신호의 품질은 일반적으로 잡음과 같은 인자의 간섭으로 인해 감소된다. 스피치 신호의 품질의 저하는 스피치 신호의 응용 (예를 들어, 스피치 인식 및 스피치 방송)에 직접 영향을 미친다. 따라서, 스피치 신호의 품질을 향상시키는 방법이 시급한 문제이다.
상기 기술적 문제를 해결하기 위해, 본 발명의 실시 예에 따라 스피치 잡음 감소 방법, 스피치 잡음 감소 장치, 서버 및 저장 매체가 제공되어, 스피치 신호의 품질을 향상시킨다. 기술적 해결책은 다음과 같다.
음향 마이크로폰에 의해 수집된 스피치 신호 및 비-음향 마이크로폰에 의해 수집된 스피치 신호를 획득하되, 상기 스피치 신호들은 동시에 수집되는 단계; 상기 비-음향 마이크로폰에 의해 수집된 스피치 신호에 기초하여 스피치 활동을 검출하여, 스피치 활동 검출의 결과를 얻는 단계; 및 상기 스피치 활동 검출의 결과에 기초하여, 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 잡음을 제거하여 잡음이 제거된 스피치 신호를 획득하는 단계를 포함하는 스피치 잡음 감소 방법이 제공된다.
음향 마이크로폰에 의해 수집된 스피치 신호 및 비-음향 마이크로폰에 의해 수집된 스피치 신호를 획득하도록 구성되며, 상기 스피치 신호는 동시에 수집되는, 스피치 신호 획득 모듈; 상기 비-음향 마이크로폰에 의해 수집된 스피치 신호에 기초하여 스피치 활동을 검출하여, 스피치 활동 검출의 결과를 획득하도록 구성된 스피치 활동 검출 모듈; 및 상기 스피치 활동 검출 결과에 기초하여, 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 잡음을 제거하도록 구성되어, 잡음 제거된 스피치 신호를 획득하는 스피치 잡음 제거 모듈을 포함하는 스피치 잡음 감소 장치가 제공된다.
적어도 하나의 메모리 및 적어도 하나의 프로세서를 포함하는 서버가 제공되며, 여기서 상기 적어도 하나의 메모리는 프로그램을 저장하고, 상기 적어도 하나의 프로세서는 메모리에 저장된 프로그램을 호출하고, 상기 프로그램은, 음향 마이크로폰에 의해 수집된 스피치 신호 및 비-음향 마이크로폰에 의해 수집된 스피치 신호를 획득하고, 여기서 상기 스피치 신호는 동시에 수집되며; 비-음향 마이크로폰에 의해 수집된 스피치 신호에 기초하여 스피치 활동을 검출하여, 스피치 활동 검출의 결과를 얻고; 그리고 스피치 활동 검출의 결과에 기초하여, 음향 마이크로폰에 의해 수집된 스피치 신호의 잡음을 제거하여 잡음이 제거된 스피치 신호를 획득하는 것을 수행하도록 구성된다
컴퓨터 프로그램을 저장하는 저장 매체가 제공되며, 컴퓨터 프로그램은 프로세서에 의해 실행될 때 전술한 스피치 잡음 감소 방법의 각 단계를 수행한다.
종래 기술과 비교하여, 본 발명의 유리한 효과는 다음과 같다.
본 발명의 실시 예에서, 음향 마이크로폰 및 비-음향 마이크로폰에 의해 동시에 수집된 스피치 신호가 획득된다. 비-음향 마이크로폰은 주변, 환경(ambient) 잡음과 무관한 방식으로 스피치 신호를 수집할 수 있다 (예를 들어, 사람 피부의 진동 또는 사람 인후 뼈의 진동을 검출함으로써). 이에 의해, 비-음향 마이크로폰에 의해 수집된 스피치 신호에 기초한 스피치 활동 검출은 음향 마이크로폰에 의해 수집된 스피치 신호에 기초한 것과 비교하여 주변 잡음의 영향을 감소시키고 검출 정확도를 향상시킬 수 있다. 음향 마이크로폰에 의해 수집된 스피치 신호는 스피치 활동 검출의 결과에 기초하여 잡음 제거되고, 이러한 결과는 비-음향 마이크로폰에 의해 수집된 스피치 신호로부터 얻어진다. 잡음 감소의 효과가 향상되고, 잡으 제거된 스피치 신호의 품질이 개선되고, 스피치 신호의 후속 응용을 위해 고품질의 스피치 신호가 제공될 수 있다.
이하, 본 발명의 실시 예 또는 종래 기술에 따른 기술적 해결책을 보다 명확하게 설명하기 위해, 본 발명의 실시 예 또는 종래 기술에 적용될 도면을 간략하게 설명한다. 명백하게, 이하의 설명에서의 도면은 본 개시의 일부 실시 예일 뿐이며, 다른 도면은 창의적인 노력없이 제공된 도면에 기초하여 당업자에 의해 얻어질 수 있다.
도 1은 본 개시 내용의 일 실시 예에 따른 스피치 잡음 감소 방법의 흐름도,
도 2는 비-음향 마이크로폰에 의해 수집된 스피치 신호의 기본 주파수 정보의 분포의 개략도,
도 3은 본 개시의 다른 실시 예에 따른 스피치 잡음 감소 방법의 흐름도,
도 4는 본 개시의 다른 실시 예에 따른 스피치 잡음 감소 방법의 흐름도,
도 5는 본 개시의 다른 실시 예에 따른 스피치 잡음 감소 방법의 흐름도,
도 6은 본 개시의 다른 실시 예에 따른 스피치 잡음 감소 방법의 흐름도,
도 7은 본 개시의 다른 실시 예에 따른 스피치 잡음 감소 방법의 흐름도,
도 8은 본 개시의 다른 실시 예에 따른 스피치 잡음 감소 방법의 흐름도,
도 9는 본 개시의 다른 실시 예에 따른 스피치 잡음 감소 방법의 흐름도,
도 10은 본 개시의 다른 실시 예에 따른 스피치 잡음 감소 방법의 흐름도,
도 11은 본 개시의 일 실시 예에 따른 스피치 잡음 감소 장치의 논리적 구조의 개략도; 및
도 12는 서버의 하드웨어 구조의 블록도이다.
이하, 본 개시의 실시 예에서의 기술적 해결책이 본 개시의 실시 예에서의 도면과 함께 명확하고 완전하게 설명된다. 명백하게, 설명된 실시 예는 본 개시의 모든 실시 예가 아닌 일부에 지나지 않는다. 어떠한 창조적 노력없이 당업자에 의해 본 개시의 실시 예에 기초하여 획득된 임의의 다른 실시 예는 본 개시의 보호 범위 내에 속한다.
이하에서는 본 발명의 실시 예들에 따른 스피치 잡음 감소 방법의 개념을 간략히 설명하고, 스피치 잡음 감소 방법을 소개한다.
종래의 기술에서, 스피치 잡음의 감소 기술을 통해 스피치 신호의 품질이 개선될 수 있어서, 스피치를 향상시키고 스피치의 인식을 향상시킨다. 종래의 스피치 잡음 감소 기술은 단일 마이크로폰에 기초한 스피치 잡음 감소 방법 및 마이크로폰 어레이에 기초한 스피치 잡음 감소 방법을 포함할 수 있다.
단일 마이크로폰에 기초한 스피치 잡음 감소 방법에서, 잡음 및 스피치 신호의 통계적 특성이 잘 고려되며, 정상 잡음(stationary noise)을 억제하는데 우수한 효과가 달성된다. 그럼에도 불구하고, 불안정한 통계적 특성을 갖는 비정상 잡음(non-stationary noise)은 예측될 수 없으며, 어느 정도의 스피치 왜곡이 존재한다. 따라서, 단일 마이크로폰을 기반으로 하는 방법은 스피치 잡음 감소 능력이 제한적이다.
마이크로폰 어레이에 기초한 스피치 잡음 감소 방법에서, 스피치 신호의 시간 정보 및 공간 정보가 융합된다. 이러한 방법은 단순히 신호의 시간 정보를 적용하는 단일 마이크로폰에 기초한 방법과 비교하여, 잡음 억제 정도와 스피치 왜곡에 대한 제어 사이의 더 나은 균형을 달성할 수 있고, 비정상 잡음(non-stationary noise)을 억제하는데 특정한 효과를 달성할 수 있다. 그럼에도 불구하고 일부 응용 프로그램 시나리오에서는 장치의 비용과 크기로 인해 무제한 수의 마이크로폰을 적용할 수 없다. 따라서, 스피치 잡음 감소가 마이크로폰 어레이에 기초하더라도 효과는 만족스럽지 않다.
단일 마이크로폰 및 마이크로폰 어레이에 기초한 스피치 잡음 감소 방법에서의 상기 문제를 고려하여, 음향 마이크로폰 (단일 마이크로폰 또는 마이크로폰 어레이와 같은) 대신에 주변 잡음과 무관한 신호 수집 장치 (이하, 골전도 마이크로폰 또는 광학 바이크로폰과 같은 비-음향 마이크로폰이라고 함)가 주변 잡음과 무관한 방법으로 스피치 신호를 수집하기 위해 채택된다 (예를 들어, 골전도 마이크로폰이 얼굴 뼈에 눌려지거나 인후 뼈가 뼈의 진동을 감지하고, 진동을 스피치 신호로 변환하고; 또는 레이저 마이크로폰이라고도 하는 광학 마이크로폰은 레이저 이미터를 통해 인후 피부 또는 얼굴 피부에 레이저를 방출하고, 수신기를 통해 피부 진동으로 인한 반사 신호를 수신하고, 방출된 레이저와 반사된 레이저의 차이를 분석하며, 그 차이를 스피치 신호로 변환한다). 스피치 통신 또는 스피치 인식에서 잡음의 간섭이 크게 감소된다.
비-음향 마이크로폰은 또한 제한이 있다. 뼈 또는 피부의 진동 주파수는 충분히 높을 수 없기 때문에, 비-음향 마이크로폰에 의해 수집된 신호의 주파수의 상한은 일반적으로 2000Hz 이내로 낮다. 성대는 유성음 사운드에서만 진동하며 무성음 사운드에서는 진동하지 않는다. 이에 의해, 비-음향 마이크로폰은 유성음 사운드 신호만을 수집할 수 있다. 비-음향 마이크로폰에 의해 수집된 스피치 신호는 양호한 잡음 내성을 갖지만 불완전하며, 비-음향 마이크로폰만으로는 대부분의 시나리오에서 스피치 통신 및 스피치 인식에 대한 요구 사항을 충족시킬 수 없다. 위와 같은 점을 고려하여, 스피치 잡음 감소 방법이 다음과 같이 제공된다. 음향 마이크로폰과 비-음향 마이크로폰에 의해 동시에 수집된 스피치 신호가 획득된다. 비-음향 마이크로폰에 의해 수집된 스피치 신호에 기초하여 스피치 활동이 검출되어, 스피치 활동 검출의 결과를 얻는다. 음향 마이크로폰에 의해 수집된 스피치 신호는 스피치 활동 검출 결과에 기초하여 잡음 제거되어 잡음이 제거된 스피치 신호를 획득한다. 이에 의해, 스피치 잡음 저감이 달성된다.
이하, 본 발명의 일 실시 예에 따른 스피치 잡음 감소 방법이 소개된다. 도 1을 참조하면, 방법은 단계 S100 내지 S120을 포함한다.
단계 S100에서, 음향 마이크로폰에 의해 수집된 스피치 신호 및 비-음향 마이크로폰에 의해 수집된 스피치 신호가 획득되고, 여기서 스피치 신호는 동시에 수집된다.
일 실시 예에서, 음향 마이크로폰은 단일 음향 마이크로폰 또는 음향 마이크로폰 어레이를 포함할 수 있다.
음향 마이크로폰은 스피치 신호를 수집하기 위해 스피치 신호가 수집될 수 있는 임의의 위치에 배치될 수 있다. 비-음향 마이크로폰은 유성음 신호를 수집하기 위해, 스피치 신호가 수집될 수 있는 영역에 배치해야 한다. (예, 인후 뼈 또는 얼굴 뼈에 대해 골전도 마이크로폰은 누르는 것이 필요하고, 화자의 피부 진동 영역 (옆 얼굴 또는 인후와 같은)에 레이저가 도달할 수 있는 위치에 광학 마이크로폰을 배치해야 하는 것이 필요하다)
음향 마이크로폰과 비-음향 마이크로폰은 스피치 신호를 동시에 수집하기 때문에, 음향 마이크로폰과 비-음향 마이크로폰에 의해 수집된 스피치 신호 간의 일관성이 향상될 수 있으며, 이는 스피치 신호 처리를 용이하게 한다.
단계 S110에서, 비-음향 마이크로폰에 의해 수집된 스피치 신호에 기초하여 스피치 활동이 검출되어, 스피치 활동 검출의 결과를 얻는다.
일반적으로, 스피치 잡음 감소 과정 동안 스피가 있는지의 여부를 검출할 필요가 있다. 신호 대 잡음비가 낮은 환경에서 음향 마이크로폰에 의해 수집된 스피치 신호에 기초하여 스피치의 존재가 단순히 검출될 때 정확도가 낮다. 이러한 정확도를 향상시키기 위해, 본 실시 예에서 비-음향 마이크로폰에 의해 수집된 스피치 신호에 기초하여 스피치 활동이 검출된다. 이에 의해, 스피치가 있는지의 여부를 검출하고, 검출에 대한 주변 잡음의 영향이 감소되고, 검출의 정확도가 향상된다.
스피치 존재 여부를 검출하는 정확도가 향상되기 때문에, 스피치 잡음 감소의 최종 효과가 향상될 수 있다.
단계 S120에서, 음향 마이크로폰에 의해 수집된 스피치 신호는 스피치 활동 검출의 결과에 기초하여 잡음 제거되어 잡음이 제거된 스피치 신호를 획득한다.
음향 마이크로폰에 의해 수집된 스피치 신호는 스피치 활동 검출의 결과에 기초하여 잡음 제거된다. 음향 마이크로폰에 의해 수집된 스피치 신호에서의 잡음 성분이 감소될 수 있고, 그에 따라 잡음이 제거된 후에 스피치 성분이 음향 마이크로폰에 의해 수집된 스피치 신호에서 더욱 두드러진다.
본 발명의 실시 예에서, 음향 마이크로폰 및 비-음향 마이크로폰에 의해 동시에 수집된 스피치 신호가 획득된다. 비-음향 마이크로폰은 주변 잡음과 무관한 방식으로 스피치 신호를 수집할 수 있다. (예를 들어, 사람 피부의 진동 또는 사람 인후 뼈의 진동을 검출함으로써) 이에 의해, 비-음향 마이크로폰에 의해 수집된 유성음 신호에 기초한 스피치 활동 검출은 음향 마이크로폰에 의해 수집된 스피치 신호에 기초한 것과 비교하여, 주변 잡음의 영향을 감소시키고 검출 정확도를 향상시킬 수 있다. 음향 마이크로폰에 의해 수집된 스피치 신호는 비-음향 마이크로폰에 의해 수집된 스피치 신호로부터 획득된 스피치 활동 검출의 결과에 기초하여 잡음 제거된다. 잡음 감소의 효과가 향상되고, 잡음 제거된 스피치 신호의 품질이 개선되고, 스피치 신호의 후속 응용을 위해 고품질의 스피치 신호가 제공될 수 있다.
본 개시의 다른 실시 예에 따르면, 비-음향 마이크로폰에 의해 수집된 스피치 신호에 기초하여 스피치 활동을 검출하는 단계 (S110)는 스피치 활동 검출의 결과를 획득하는 단계는 다음의 단계 A1 및 A2를 포함할 수 있다.
단계 A1에서, 비-음향 마이크로폰에 의해 수집된 스피치 신호의 기본 주파수 정보가 결정된다.
이 단계에서 결정된 비-음향 마이크로폰에 의해 수집된 스피치 신호의 기본 주파수 정보는 스피치 신호의 기본 톤의 주파수, 즉 사람이 말할 때 성문(glottis)을 폐쇄하는 주파수를 지칭할 수 있다.
일반적으로, 남성 유성음의 기본 주파수는 50Hz 내지 250Hz의 범위이고, 여성 유성음의 기본 주파수는 120Hz 내지 500Hz의 범위이다. 비-음향 마이크로폰은 주파수가 2000Hz보다 낮은 스피치 신호를 수집할 수 있다. 이에 의해, 비-음향 마이크로폰에 의해 수집된 스피치 신호로부터 완전한 기본 주파수 정보가 결정될 수 있다.
도 2를 참조하여, 비-음향 마이크로폰에 의해 수집된 스피치 신호에서 결정된 기본 주파수 정보의 분포를 도시하기 위해, 광학 마이크로폰에 의해 수집된 스피치 신호를 예로 들 수 있다. 도 2 에 도시된 바와 같이, 기본 주파수 정보는 50Hz ~ 500Hz 사이의 주파수를 갖는 부분이다.
단계 A2에서, 스피치 활동은 기본 주파수 정보에 기초하여 검출되어, 스피치 활동 검출의 결과를 얻는다.
기본 주파수 정보는 비-음향 마이크로폰에 의해 수집된 스피치 신호에서 명백한 오디오 정보이다. 따라서, 이 실시 예에서 비-음향 마이크로폰에 의해 수집된 스피치 신호의 기본 주파수 정보에 기초하여 스피치 활동이 검출될 수 있다. 스피치가 있는지의 여부를 여부를 검출할 수 있고, 검출에 대한 주변 잡음의 영향이 감소되고, 검출의 정확성이 향상된다.
스피치 활동 검출은 다양한 방식으로 구현될 수 있다. 구체적인 구현은 프레임 레벨의 스피치 활동 검출, 주파수 레벨의 스피치 활동 검출, 또는 프레임 레벨과 주파수 레벨의 조합의 스피치 활동 검출을 포함할 수 있지만, 이에 제한되지는 않는다.
또한, 단계 S120은 스피치 활동 검출을 구현하기 위한 방식에 대응하는 상이한 방식으로 구현될 수 있다.
이하, 기본 주파수 정보에 기초하여 스피치 활동을 검출하는 구현 및 대응 단계 S120의 구현이 스피치 활동 검출의 구현에 기초하여 소개된다.
일 실시 예에서, 프레임 레벨의 스피치 활동 검출에 대응하는 스피치 잡음 감소 방법이 소개된다. 도 3을 참조하면, 방법은 단계 S200 내지 S230을 포함할 수 있다.
단계 S200에서, 음향 마이크로폰에 의해 수집된 스피치 신호 및 비-음향 마이크로폰에 의해 수집된 스피치 신호가 획득되고, 여기서 스피치 신호들은 동시에 수집된다.
단계 S200은 전술한 실시 예의 단계 S100과 동일하다. 단계 S200의 상세한 과정은 전술한 실시 예에서의 단계 S100의 설명을 참조할 수 있으며, 여기서 다시 설명하지 않는다.
단계 S210에서, 비-음향 마이크로폰에 의해 수집된 스피치 신호의 기본 주파수 정보가 결정된다.
단계 S210은 전술한 실시 예의 단계 A1과 동일하다. 단계 S210의 상세한 처리는 전술한 실시 예에서의 단계 A1의 설명을 참조할 수 있으며, 여기서 다시 설명하지 않는다.
단계 S220에서, 스피치 활동은 기본 주파수 정보에 기초하여 음향 마이크로폰에 의해 수집된 스피치 신호에서 프레임 레벨에서 검출되어, 프레임 레벨의 스피치 활동 검출 결과를 획득한다.
단계 S220은 단계 A2의 일 구현이다.
구체적인 실시 예에서, 단계 S220은 다음 단계 B1 내지 B4를 포함할 수 있다.
단계 B1에서, 기본 주파수 정보가 없는지의 여부가 검출된다.
기본 주파수 정보가 있는 경우, 방법은 단계 B2로 진행한다. 기본 주파수 정보가 없는 경우, 방법은 단계 B3으로 진행한다.
단계 B2에서, 기본 주파수 정보에 대응하는 스피치 프레임에 유성음 신호가 있는 것으로 결정되며, 여기서 스피치 프레임은 음향 마이크로폰에 의해 수집된 스피치 신호에 있다.
단계 B3에서, 음향 마이크로폰에 의해 수집된 스피치 신호의 신호 강도 (intensity)가 검출된다.
음향 마이크로폰에 의해 수집된 스피치 신호의 검출된 신호 강도가 작은 경우, 방법은 단계 B4로 진행한다.
단계 B4에서, 기본 주파수 정보에 대응하는 스피치 프레임에 유성음 신호가 없는 것으로 결정되며, 스피치 프레임은 음향 마이크로폰에 의해 수집된 스피치 신호에 있다.
음향 마이크로폰에 의해 수집된 스피치 신호의 신호 강도는 기본 주파수 정보가 없음을 검출하는 것에 기초하여 추가로 검출되어, 음향 마이크로폰에 의해 수집된 유성음 신호에서, 스피치 프레임에 대응하는 유성음 신호가 없다고 판단하는 정확도를 향상시킨다.
이 실시 예에서, 기본 주파수 정보는 비-음향 마이크로폰에 의해 수집된 스피치 신호에 관한 것이며, 비-음향 마이크로폰은 주변 잡음과 무관하게 스피치 신호를 수집할 수 있다. 기본 주파수 정보에 대응하는 스피치 프레임에 유성음 신호가 있는지 여부를 검출할 수 있다. 검출에 미치는 주변 잡음의 영향이 감소되고 검출의 정확성이 향상된다.
단계 S230에서, 음향 마이크로폰에 의해 수집된 스피치 신호는 프레임 레벨의 스피치 활동 검출 결과에 기초하여 제 1 잡음 감소를 통해 잡음 제거되어, 음향 마이크로폰에 의해 수집된 제 1 잡음 제거된 스피치 신호를 획득한다.
단계 S230은 단계 A2의 일 구현이다.
프레임 레벨의 스피치 활동 검출 결과에 기초하여 음향 마이크로폰에 의해 수집된 스피치 신호의 잡음을 제거하는 프로세스는, 음향 마이크로폰이 단일 음향 마이크로폰을 포함하는 경우와 음향 마이크로폰이 음향 마이크로폰 어레이를 포함하는 경우가 다르다.
단일 음향 마이크로폰의 경우, 잡음 스펙트럼의 추정치는 프레임 레벨의 스피치 활동 검출 결과에 기초하여 업데이트 될 수 있다. 이에 의해, 잡음의 유형이 정확하게 추정될 수 있고, 음향 마이크로폰에 의해 수집된 스피치 신호는 잡음 스펙트럼의 업데이트된 추정에 기초하여 잡음이 제거될 수 있다. 잡음 스펙트럼의 업데이트된 추정에 기초하여 음향 마이크로폰에 의해 수집된 스피치 신호를 잡음 제거하는 프로세스는, 종래 기술에서의 잡음 스펙트럼의 추정에 기초한 잡음 감소 프로세스를 지칭할 수 있으며, 여기서 다시 설명되지 않는다.
음향 마이크로폰 어레이의 경우, 잡음을 제거하기 위한 차단 매트릭스 및 적응 필터는, 프레임 레벨의 스피치 활동 검출 결과에 기초하여, 음향 마이크로폰 어레이의 스피치 잡음 감소 시스템에서 업데이트 될 수 있다. 이에 의해, 음향 마이크로폰에 의해 수집된 스피치 신호는 잡음을 제거하기 위해 업데이트된 차단 매트릭스 및 업데이트된 적응 필터에 기초하여 잡음 제거될 수 있다. 잡음을 제거하기 위해 업데이트된 차단 매트릭스 및 업데이트된 적응 필터에 기초하여 음향 마이크로폰에 의해 수집된 스피치 신호를 잡음 제거하는 프로세스는, 종래 기술을 지칭할 수 있으며, 여기서 다시 설명되지 않는다.
이 실시 예에서, 스피치 활동은 비-음향 마이크로폰에 의해 수집된 스피치 신호의 기본 주파수 정보에 기초하여 프레임 레벨에서 검출되어, 스피치가 있는지의 여부를 검출한다. 검출에 대한 주변 잡음의 영향이 감소될 수 있고, 스피치가 있는지의 검출의 정확도가 향상될 수 있다. 향상된 정확도에 기초하여, 음향 마이크로폰에 의해 수집된 스피치 신호는 프레임 레벨의 스피치 활동 검출 결과에 기초하여 제 1 잡음 감소를 통해 잡음이 제거된다. 음향 마이크로폰에 의해 수집된 스피치 신호에 대해, 잡음 성분이 감소될 수 있고, 제 1 잡음 감소 이후의 스피치 성분이 더욱 두드러진다.
다른 실시 예에서, 주파수 레벨의 스피치 활동 검출에 대응하는 스피치 잡음 감소 방법이 소개된다. 도 4를 참조하면, 방법은 단계 S300 내지 S340을 포함할 수 있다.
단계 S300에서, 음향 마이크로폰에 의해 수집된 스피치 신호 및 비-음향 마이크로폰에 의해 수집된 스피치 신호가 획득되고, 여기서 스피치 신호는 동시에 수집된다.
단계 S300은 전술한 실시 예의 단계 S100과 동일하다. 단계 S300의 상세한 과정은 전술한 실시 예에서의 단계 S100의 설명을 참조할 수 있으며, 여기서 다시 설명하지 않는다.
단계 S310에서, 비-음향 마이크로폰에 의해 수집된 스피치 신호의 기본 주파수 정보가 결정된다.
단계 S310은 전술한 실시 예의 단계 A1과 동일하다. 단계 S310의 상세한 과정은 전술한 실시 예에서의 단계 A1의 설명을 참조할 수 있으며, 여기서 다시 설명하지 않는다.
단계 S320에서, 기본 주파수 정보에 기초하여 스피치의 고주파 포인트의 분포 정보가 결정된다.
스피치 신호는 광대역 신호이며, 주파수 스펙트럼에서 드물게 분포된다. 즉, 스피치 신호에서 스피치 프레임의 일부 주파수 포인트는 스피치 성분이고, 스피치 신호에서 스피치 프레임의 일부 주파수 포인트는 잡음 성분이다. 잡음 주파수 포인트를 잘 억제하고 스피치 주파수 포인트를 유지하기 위해, 스피치 주파수 포인트를 먼저 결정하는 것이 필요하다. 단계 S320은 스피치 주파수 포인트를 결정하는 방식으로 작용할 수 있다.
스피치의 고주파 포인트는 잡음 성분 대신, 스피치 성분이라는 것을 알 수 있다.
일부 응용 환경 (예를 들어, 고-잡음 환경)에서, 일부 주파수 포인트에서의 신호 대 잡음비는 음 (negative)의 값이며, 주파수 포인트가 스피치 성분 또는 잡음 성분인지의 여부는 음향 마이크로폰을 통해서만으로는 정확하게 추정하기 어렵다. 따라서, 본 실시 예에 따른 비-음향 마이크로폰에 의해 수집된 스피치 신호의 기본 주파수 정보에 기초하여, 스피치 주파수 포인트 추정의 정확성을 향상시키기 위해, 스피치 주파수 포인트가 추정된다. (즉, 스피치의 고주파 포인트의 분포 정보가 결정된다).
구체적인 실시 예에서, 단계 S320은 다음 단계 C1 및 C2를 포함할 수 있다.
단계 C1에서, 기본 주파수 정보가 곱해져, 곱해진 기본 주파수 정보를 얻는다.
기본 주파수 정보를 곱하는 것은 다음 단계를 지칭할 수 있다. 기본 주파수 정보에 1보다 큰 수를 곱한다. 예를 들어 기본 주파수 정보에 2, 3, 4, ..., N을 곱하며, 여기서 N은 1보다 크다.
단계 C2에서, 곱해진 기본 주파수 정보는 미리 설정된 주파수 확장 값에 기초하여 확장되어, 스피치의 고주파 지점의 분포 섹션을 획득하며, 여기서 분포 섹션은 스피치의 고주파 포인트의 분포 정보로서 기능한다.
일반적으로, 일부 잔류 잡음은 허용 가능하지만, 스피치 잡음 감소에서는 스피치 성분에서의 손실이 허용되지 않는다. 따라서, 곱해진 기본 주파수 정보는 기 설정된 주파수 확장 값에 기초하여 확장되어, 기본 주파수 정보에 기초한 결정에서 누락된 고주파 포인트의 양을 감소시키고, 가능한 한 많은 스피치 성분을 유지한다.
바람직한 실시 예에서, 미리 설정된 주파수 확장 값은 1 또는 2 일 수 있다.
이 실시 예에서, 스피치의 고주파 포인트의 분포 정보는 2*f±Δ, 3*f±Δ, ..., N*f±Δ 로 표현될 수 있다.
f는 기본 주파수 정보를 나타낸다. 2*f, 3*f, ..., 그리고 N*f 는 곱해진 기본 주파수 정보를 나타낸다. Δ는 미리 설정된 주파수 확장 값을 나타낸다.
단계 S330에서, 스피치 활동이, 고주파 포인트의 분포 정보에 기초하여, 음향 마이크로폰에 의해 수집된 스피치 신호에서 주파수 레벨에서 검출되어, 주파수 레벨의 스피치 활동 검출 결과를 획득한다.
단계 S320에서 스피치의 고주파 포인트의 분포 정보가 결정된 후, 스피치 활동은 음향의 마이크로폰에 의해 수집된 스피치 신호의 주파수 레벨에서 고주파 포인트의 분포 정보에 기초하여 검출될 수 있다. 스피치 프레임의 고주파 포인트는 스피치 성분으로서 결정되고, 스피치 프레임의 고주파 포인트 이외의 주파수 포인트는 잡음 성분으로서 결정된다. 이와 같은 단계 S330은 다음 단계를 포함할 수 있다.
음향 마이크로폰에 의해 수집된 스피치 신호에 대해, 고주파 포인트에 속하는 주파수 포인트의 경우에는 주파수 포인트에서 유성음 신호가 있는 것으로 결정되고, 고주파 포인트에 속하지 않는 주파수 포인트의 경우에는 유성음 신호가 없는 것으로 결정된다.
단계 S340에서, 음향 마이크로폰에 의해 수집된 스피치 신호는 주파수 레벨의 스피치 활동 검출 결과에 기초하여 제 2 잡음 감소를 통해 잡음 제거되어 음향 마이크로폰에 의해 수집된 제 2 잡음 제거된 스피치 신호를 획득한다.
구체적인 실시 예에서, 주파수 레벨의 스피치 활동 검출 결과에 기초하여 단일 음향 마이크로폰 또는 음향 마이크로폰 어레이에 의해 수집된 스피치 신호의 잡음을 제거하는 프로세스는, 여기서 다시 설명되지 않는, 전술한 실시 예에 따른 단계 S230에서 프레임 레벨의 스피치 활동 검출의 결과에 기초한 잡음 감소 프로세스를 지칭할 수 있다.
이 실시 예에서, 음향 마이크로폰에 의해 수집된 스피치 신호는 주파수 레벨의 스피치 활동 검출 결과에 기초하여 잡음이 제거된다. 이러한 잡음 감소 프로세스는 본 명세서에서 제 2 잡음 감소라고 지칭하여, 전술한 실시 예에서의 제 1 잡음 감소로부터의 프로세스와 구별한다.
이 실시 예에서, 스피치 활동은 스피치가 있는지의 여부를 검출하기 위해 고주파 포인트의 분포 정보에 기초하여 주파수 레벨에서 검출된다. 검출에 대한 주변 잡음의 영향이 감소될 수 있고, 스피치가 있는지의 여부의 검출 정확도가 향상될 수 있다. 향상된 정확도에 기초하여, 음향 마이크로폰에 의해 수집된 스피치 신호는 주파수 레벨의 스피치 활동 검출 결과에 기초하여 제 2 잡음 감소를 통해 잡음 제거된다. 음향 마이크로폰에 의해 수집된 스피치 신호에 대해, 잡음 성분이 감소될 수 있고, 제 2 잡음 감소 이후에 스피치 성분이 더욱 두드러진다.
다른 실시 예에서, 주파수 레벨의 스피치 활동 검출에 대응하는 스피치 잡음 감소를 위한 다른 방법이 소개된다. 도 5를 참조하면, 방법은 단계 S400 내지 S450을 포함할 수 있다.
단계 S400에서, 음향 마이크로폰에 의해 수집된 스피치 신호 및 비-음향 마이크로폰에 의해 수집된 스피치 신호가 획득되고, 여기서 스피치 신호는 동시에 수집된다.
구체적인 실시 예에서, 비-음향 마이크로폰에 의해 수집된 스피치 신호는 유성음 신호 (voiced signal)이다.
단계 S410에서, 비-음향 마이크로폰에 의해 수집된 스피치 신호의 기본 주파수 정보가 결정된다.
단계 S410은 유성음 신호의 기본 주파수 정보를 결정하는 것으로 이해될 수 있다.
단계 S420에서, 기본 주파수 정보에 기초하여 스피치의 고주파 포인트의 분포 정보가 결정된다.
단계 S430에서, 고주파 포인트의 분포 정보에 기초하여, 음향 마이크로폰에 의해 수집된 스피치 신호에서의 주파수 레벨에서 스피치 활동이 검출되어, 주파수 레벨의 스피치 활동 검출 결과를 획득한다.
단계 S440에서, 비-음향 마이크로폰에 의해 수집된 유성음 신호에 포함된 각 스피치 프레임의 시간 포인트와 동일한 스피치 프레임이, 처리될 스피치 프레임으로서, 음향 마이크로폰에 의해 수집된 스피치 신호로부터 획득된다.
단계 S450에서, 주파수 레벨의 스피치 활동 검출 결과에 기초하여, 처리될 스피치 프레임의 각 주파수 포인트에 대해 이득 처리가 수행되어, 이득된 스피치 프레임이 획득되고, 여기서 음향 마이크로폰에 의해 수집된 이득된 획득된 유성음 신호는 모든 이득된 스피치 프레임에 의해 형성된다.
이득 처리의 프로세스는 다음 단계를 포함할 수 있다. 고주파 포인트에 속하는 주파수 포인트의 경우에는 주파수 포인트에 제 1 이득이 적용되고, 고주파 포인트에 속하지 않은 주파수 포인트의 경우에는 주파수 포인트에 제 2 이득이 적용되며, 여기서 제 1 이득은 제 2 이득보다 크다.
제 1 이득은 제 2 이득보다 크고, 고주파 포인트는 스피치 성분이다. 이에 의해, 제 1 이득이 고주파 포인트인 주파수 포인트에 적용되고, 제 2 이득이 고주파 포인트가 아닌 주파수 포인트에 적용되어, 잡음 성분과 비교하여 스피치 성분이 크게 향상된다. . 이득된 스피치 프레임은 향상된 스피치 프레임이고, 향상된 스피치 프레임은 향상된 유성음 신호를 형성한다. 이에 의해, 음향 마이크로폰에 의해 수집된 스피치 신호가 향상된다.
일반적으로, 제 1 이득 값은 1 일 수 있고, 제 2 이득 값은 0 내지 0.5의 범위일 수 있다. 구체적인 실시 예에서, 제 2 이득 값은 0보다 크고 0.5보다 작은 임의의 값으로 선택될 수 있다.
일 실시 예에서, 처리될 스피치 프레임의 각각의 주파수 포인트에 대해 이득 처리를 수행하여 이득된 스피치 프레임을 획득하는 단계에서, 다음의 방정식이 이득 처리 방정식에서의 계산을 위해 적용될 수 있다.
SSEi = SAi * Combi, i=1,2,...,M
SSEi 및 SAi는 이득된 스피치 프레임 및 처리될 스피치 프레임에서의 i 번째 주파수 포인트를 각각 나타내며, i 는 주파수 포인트를 지칭한다. M은 처리될 스피치 프레임에서의 총 주파수 포인트의 양을 나타낸다.
Combi 는 이득을 나타내며, 다음의 할당 방정식에 의해 결정될 수 있다.
Figure 112020052982013-pct00001
GH는 제 1 이득을 나타낸다. f는 기본 주파수 정보를 나타낸다. hfp는 고주파 분포 정보를 나타낸다.
Figure 112020052982013-pct00002
는 i 번째 주파수 포인트가 고주파 포인트임을 나타낸다. Gmin은 제 2 이득을 나타낸다.
Figure 112020052982013-pct00003
는 i 번째 주파수 포인트가 고주파 포인트가 아님을 나타낸다.
또한, 고주파 포인트의 분포 섹션이 2*f±Δ, 3*f±Δ, ..., N*f±Δ 로 표현될 수 있는 구현에서. 할당 방정식에서 hfp는 할당 방정식
Figure 112020052982013-pct00004
을 최적화하기 위해 n*f±Δ 로 대체될 수 있다. 최적화된 할당 방정식은 다음과 같이 표현될 수 있다.
Figure 112020052982013-pct00005
이 실시 예에서, 스피치 활동은 고주파 포인트의 분포 정보에 기초하여 주파수 레벨에서 검출되어 스피치가 있는지 여부를 검출한다. 검출에 대한 주변 잡음의 영향이 감소될 수 있고, 스피치가 있는지의 검출 정확도가 향상될 수 있다. 개선 된 정확도에 기초하여, 음향 마이크로폰에 의해 수집된 스피치 신호는 주파수 레벨의 스피치 활동 검출 결과에 기초하여 획득된다 (여기서 이득 처리는 잡음 감소 프로세스로서 처리될 수 있다). 음향 마이크로폰에 의해 수집된 스피치 신호의 경우, 이득 처리 후의 스피치 성분이 더욱 두드러진다.
다른 실시 예에서, 주파수 레벨의 스피치 활동 검출에 대응하는 스피치 잡음 감소를 위한 다른 방법이 소개된다. 도 6을 참조하면, 방법은 단계 S500 내지 S560을 포함할 수 있다.
단계 S500에서, 음향 마이크로폰에 의해 수집된 스피치 신호 및 비-음향 마이크로폰에 의해 수집된 스피치 신호가 획득되고, 여기서 스피치 신호들은 동시에 수집된다.
구체적인 실시 예에서, 비-음향 마이크로폰에 의해 수집된 스피치 신호는 유성음 신호이다.
단계 S510에서, 비-음향 마이크로폰에 의해 수집된 스피치 신호의 기본 주파수 정보가 결정된다.
단계 S510은 유성음 신호의 기본 주파수 정보를 결정하는 것으로 이해될 수 있다.
단계 S520에서, 기본 주파수 정보에 기초하여 스피치의 고주파 포인트의 분포 정보가 결정된다.
단계 S530에서, 고주파의 분포 정보에 기초하여, 음향 마이크로폰에 의해 수집된 스피치 신호에서 스피치 활동이 주파수 레벨에서 검출되어, 주파수 레벨의 스피치 활동 검출 결과를 획득한다.
단계 S540에서, 음향 마이크로폰에 의해 수집된 스피치 신호는, 주파수 레벨의 스피치 활동 검출 결과에 기초하여, 제 2 잡음 감소를 통해 잡음 제거되어, 음향 마이크로폰에 의해 수집된 제 2 잡음 제거된 스피치 신호를 획득한다.
단계 S500 내지 S540은 전술한 실시 예에서의 단계 S300 내지 S340에 각각 대응한다. 단계 S500 내지 S540의 상세한 과정은 전술한 실시 예에서의 단계 S300 내지 S340의 설명을 참조할 수 있으며, 여기서 다시 설명하지 않는다.
단계 S550에서, 비-음향 마이크로폰에 의해 수집된 유성음 신호에 포함된 각 스피치 프레임의 시간 포인트와 동일한 스피치 프레임이, 처리될 스피치 프레임으로서, 음향 마이크로폰에 의해 수집된 제 2 잡음 제거된 스피치 신호로부터 획득된다..
단계 S560에서, 주파수 레벨의 스피치 활동 검출 결과에 기초하여, 처리될 스피치 프레임의 각 주파수 포인트에 대해 이득 처리가 수행되어, 이득된 스피치 프렘임을 획득하며, 여기서 음향 마이크로폰에 의해 수집된 이득된 유성음 신호는 모든 이득된 스피치 프레임에 의해 형성된다.
이득 처리의 프로세스는 다음 단계를 포함할 수 있다. 고주파 포인트에 속하는 주파수 포인트의 경우에는 주파수 포인트에 제 1 이득이 적용되고, 고주파 포인트에 속하지 않은 주파수 포인트의 경우에는 주파수 포인트에 제 2 이득이 적용되며, 여기서 제 1 이득은 제 2 이득보다 크다.
단계 S550 내지 S560의 상세한 과정은 전술한 실시 예에서의 단계 S440 내지 S450의 설명을 참조할 수 있으며, 여기서는 다시 설명하지 않는다.
본 실시 예에서, 제 2 잡음 감소는 음향 마이크로폰에 의해 수집된 스피치 신호에 대해 먼저 수행된 다음, 이득 처리는 음향 마이크로폰에 의해 수집된 제 2 잡음 제거된 스피치 신호에 대해 수행되어, 음향 마이크로폰에 의해 수집된 스피치 신호에서 잡음 성분을 추가로 감소시킨다. 음향 마이크로폰에 의해 수집된 스피치 신호의 경우, 이득 처리 후의 스피치 성분이 더욱 두드러진다.
본 개시의 다른 실시 예에서, 프레임 레벨의 스피치 활동 검출과 주파수 레벨의 스피치 활동 검출의 조합에 대응하는 스피치 잡음 감소 방법이 소개된다. 도 7을 참조하면, 방법은 단계 S600 내지 S660을 포함할 수 있다.
단계 S600에서, 음향 마이크로폰에 의해 수집된 스피치 신호 및 비-음향 마이크로폰에 의해 수집된 스피치 신호가 획득되고, 여기서 스피치 신호들은 동시에 수집된다.
단계 S610에서, 비-음향 마이크로폰에 의해 수집된 스피치 신호의 기본 주파수 정보가 결정된다.
단계 S620에서, 스피치 활동은 기본 주파수 정보에 기초하여, 음향 마이크로폰에 의해 수집된 스피치 신호에서 프레임 레벨에서 검출되어, 프레임 레벨의 스피치 활동 검출 결과를 획득한다.
단계 S630에서, 음향 마이크로폰에 의해 수집된 스피치 신호는, 프레임 레벨의 스피치 활동 검출 결과에 기초하여, 제 1 잡음 감소를 통해 잡음 제거되어 음향 마이크로폰에 의해 수집된 제 1 잡음 제거된 스피치 신호를 획득한다.
단계 S600 내지 S630은 전술한 실시 예에서, 각각 단계 S200 내지 S230에 대응한다. 단계 S600 내지 S630의 상세한 과정은 전술한 실시 예에서의 단계 S200 내지 S230의 설명을 참조할 수 있으며, 여기서 다시 설명하지 않는다.
단계 S640에서, 기본 주파수 정보에 기초하여 스피치의 고주파 포인트의 분포 정보가 결정된다.
단계 S640의 상세한 프로세스는 전술한 실시 예에서의 단계 S320의 설명을 참조할 수 있으며, 여기서 다시 설명되지 않는다.
단계 S650에서, 주파수 레벨의 스피치 활동 검출 결과를 얻기 위해, 고주파 포인트의 분포 정보에 기초하여, 음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임에서 스피치 활동이 주파수 레벨에서 검출되며, 여기서, 프레임 레벨의 스피치 활동 검출 결과는 음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임에 유성음 신호가 있음을 나타낸다.
구체적인 실시 예에서, 단계 S650은 다음 단계를 포함할 수 있다.
고주파 포인트의 분포 정보에 기초하여, 음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임에서, 고주파 포인트에 속하는 주파수 포인트에 유성음 신호가 있는 것으로 판단되고, 주파수 포인트에 속하지 않는 주파수 신호에는 유성음 신호가 없는 것으로 판단되며, 여기서 프레임 레벨의 스피치 활동 검출 결과는 스피치 프레임에 유성음 신호가 있음을 나타낸다.
단계 S660에서, 주파수 레벨의 스피치 활동 검출 결과에 기초하여, 음향 마이크로폰에 의해 수집된 제 1 잡음 제거 스피치 신호는 제 2 잡음 감소를 통해 잡음 제거되어, 음향 마이크로폰에 의해 수집된 제 2 잡음 제거 스피치 신호를 획득한다.
이 실시 예에서, 음향 마이크로폰에 의해 수집된 스피치 신호는, 프레임 레벨의 스피치 활동 검출 결과에 기초하여, 제 1 잡음 감소를 통해 먼저 잡음이 제거된다. 음향 마이크로폰에 의해 수집된 스피치 신호에 대해 잡음 성분이 감소 될 수 있다. 그리고, 음향 마이크로폰에 의해 수집된 제 1 잡음 제거 스피치 신호는, 주파수 레벨의 스피치 활동 검출 결과에 기초하여, 제 2 잡음 감소를 통해 잡음 제거된다. 잡음 성분은 음향 마이크로폰에 의해 수집된 제 1 잡음 제거 스피치 신호에 대해 더 감소될 수 있다. 음향 마이크로폰에 의해 수집된 제 2 잡음 제거 스피치 신호에 있어서, 제 2 잡음 감소 이후의 스피치 성분이 더욱 두드러진다.
다른 실시 예에서, 프레임 레벨의 스피치 활동 검출과 주파수 레벨의 스피치 활동 검출의 조합에 대응하는 스피치 잡음 감소를 위한 다른 방법이 소개된다. 도 8을 참조하면, 방법은 단계 S700 내지 S770을 포함할 수 있다.
단계 S700에서, 음향 마이크로폰에 의해 수집된 스피치 신호 및 비-음향 마이크로폰에 의해 수집된 스피치 신호가 획득되고, 여기서 스피치 신호들은 동시에 수집된다.
구체적인 실시 예에서, 비-음향 마이크로폰에 의해 수집된 스피치 신호는 유성음 신호이다.
단계 S710에서, 비-음향 마이크로폰에 의해 수집된 스피치 신호의 기본 주파수 정보가 결정된다.
단계 S720에서, 스피치 활동은 기본 주파수 정보에 기초하여, 음향 마이크로폰에 의해 수집된 스피치 신호에서 프레임 레벨에서 검출되어, 프레임 레벨의 스피치 활동 검출 결과를 획득한다.
단계 S730에서, 음향 마이크로폰에 의해 수집된 스피치 신호는, 프레임 레벨의 스피치 활동 검출 결과에 기초하여, 제 1 잡음 감소를 통해 잡음 제거되어, 음향 마이크로폰에 의해 수집된 제 1 잡음 제거된 스피치 신호를 획득한다.
단계 S700 내지 S730은 전술한 실시 예에서의 단계 S200 내지 S230에 각각 대응한다. 단계 S700 내지 S730의 상세한 과정은 전술한 실시 예에서의 단계 S200 내지 S230의 설명을 참조할 수 있으며, 여기서 다시 설명하지 않는다.
단계 S740에서, 기본 주파수 정보에 기초하여 스피치의 고주파 포인트의 분포 정보가 결정된다.
단계 S750에서, 고주파 포인트의 분포 정보에 기초하여, 스피치 활동이 음향 마이크로폰에 의해 수집된 스피치 신호에서 주파수 레벨에서 검출되어, 주파수 레벨의 스피치 활동 검출 결과를 획득한다.
단계 S760에서, 비-음향 마이크로폰에 의해 수집된 유성음 신호에 포함된 각 스피치 프레임의 시간 포인트와 동일한 스피치 프레임이, 처리될 스피치 프레임으로서, 음향 마이크로폰에 의해 수집된 제 1 잡음 제거된 스피치 신호로부터 획득된다.
단계 S770에서, 주파수 레벨의 스피치 활동 검출 결과에 기초하여, 처리될 스피치 프레임의 각 주파수 포인트에 대해 이득 처리가 수행되어, 이득된 스피치 프레임을 획득하며, 여기서. 음향 마이크로폰에 의해 수집된 이득된 유성음 신호는 이득된 모든 스피치 프레임에 의해 형성된다.
이득 처리의 프로세스는 다음 단계를 포함할 수 있다. 고주파 포인트에 속하는 주파수 포인트의 경우에는 주파수 포인트에 제 1 이득이 적용되고, 고주파 포인트에 속하지 않은 주파수 포인트의 경우에는 주파수 포인트에 제 2 이득이 적용되며, 여기서 제 1 이득은 제 2 이득보다 크다.
단계 S770의 상세한 처리는 전술한 실시 예에서의 단계 S450의 설명을 참조할 수 있으며, 여기서 다시 설명되지 않는다.
이 실시 예에서, 우선, 음향 마이크로폰에 의해 수집된 스피치 신호는, 프레임 레벨의 스피치 활동 검출 결과에 기초하여, 제 1 잡음 감소를 통해 잡음이 제거된다. 잡음 성분은, 음향 마이크로폰에 의해 수집된 유성음 신호에 대해 감소될 수 있다. 이에 기초하여, 음향 마이크로폰에 의해 수집된 제 1 잡음 제거 스피치 신호는 주파수 레벨의 스피치 활동 검출 결과에 기초하여 획득된다. 음향 마이크로폰에 의해 수집된 제 1 잡음 제거 스피치 신호에 대해 잡음 성분이 감소 될 수 있다. 음향 마이크로폰에 의해 수집된 스피치 신호의 경우, 이득 처리 후의 스피치 성분이 더욱 두드러진다.
본 개시의 다른 실시 예에서, 프레임 레벨의 스피치 활동 검출 및 주파수 레벨의 스피치 활동 검출의 조합에 기초하여 스피치 잡음 감소를 위한 다른 방법이 소개된다. 도 9를 참조하면, 방법은 단계 S800 내지 S880을 포함할 수 있다.
단계 S800에서, 음향 마이크로폰에 의해 수집된 스피치 신호 및 비-음향 마이크로폰에 의해 수집된 스피치 신호가 획득되고, 여기서 스피치 신호들은 동시에 수집된다.
구체적인 실시 예에서, 비-음향 마이크로폰에 의해 수집된 스피치 신호는 유성음 신호이다.
단계 S810에서, 비-음향 마이크로폰에 의해 수집된 스피치 신호의 기본 주파수 정보가 결정된다.
단계 S820에서, 기본 주파수 정보에 기초하여, 스피치 활동은 음향 마이크로폰에 의해 수집된 스피치 신호에서 프레임 레벨에서 검출되어, 프레임 레벨의 스피치 활동 검출 결과를 획득한다.
단계 S830에서, 음향 마이크로폰에 의해 수집된 스피치 신호는, 프레임 레벨의 스피치 활동 검출 결과에 기초하여, 제 1 잡음 감소를 통해 잡음 제거되어, 음향 마이크로폰에 의해 수집된 제 1 잡음 제거된 스피치 신호를 획득한다.
단계 S840에서, 기본 주파수 정보에 기초하여 스피치의 고주파 포인트의 분포 정보가 결정된다.
단계 S850에서, 주파수 레벨의 스피치 활동 검출 결과를 얻기 위해, 고주파 포인트의 분포 정보에 기초하여, 음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임에서 스피치 활동이 주파수 레벨에서 검출되며, 여기서, 프레임 레벨의 스피치 활동 검출 결과는 음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임에 유성음 신호가 있음을 나타낸다.
단계 S860에서, 음향 마이크로폰에 의해 수집된 제 1 잡음 제거 스피치 신호는, 주파수 레벨의 스피치 활동 검출 결과에 기초하여, 제 2 잡음 감소를 통해 잡음 제거되어, 음향 마이크로폰에 의해 수집된 제 2 잡음 제거 스피치 신호를 획득한다.
단계 S800 내지 S860의 상세한 처리는 전술한 실시 예에서의 단계 S600 내지 S660의 설명을 참조할 수 있으며, 여기서는 다시 설명하지 않는다.
단계 S870에서, 비-음향 마이크로폰에 의해 수집된 유성음 신호에 포함된 각 스피치 프레임의 시간 포인트와 동일한 스피치 프레임이, 처리될 스피치 프레임으로서, 음향 마이크로폰에 의해 수집된 제 2 잡음 제거된 스피치 신호로부터 획득된다.
단계 S880에서, 주파수 레벨의 스피치 활동 검출 결과에 기초하여, 처리될 스피치 프레임의 각 주파수 포인트에 대해 이득 처리가 수행되어, 이득된 스피치 프레임을 획득하며, 여기서 음향 마이크로폰에 의해 수집된 이득된 유성음 신호는 이득된 모든 스피치 프레임에 의해 형성된다.
이득 처리의 프로세스는 다음 단계를 포함할 수 있다. 고주파 포인트에 속하는 주파수 포인트의 경우에는 주파수 포인트에 제 1 이득이 적용되고, 고주파 포인트에 속하지 않은 주파수 포인트의 경우에는 주파수 포인트에 제 2 이득이 적용되며, 여기서 제 1 이득은 제 2 이득보다 크다.
단계 S880의 상세한 프로세스는 전술한 실시 예에서의 단계 S450의 설명을 참조할 수 있으며, 여기서 다시 설명되지 않는다.
이득 처리는 잡음 감소 처리로 간주될 수 있다. 따라서, 음향 마이크로폰에 의해 수집된 이득된 유성음 신호는 음향 마이크로폰에 의해 수집된 제 3 잡음 제거된 유성음 신호로 이해될 수 있다.
이 실시 예에서, 우선, 음향 마이크로폰에 의해 수집된 스피치 신호는 프레임 레벨의 스피치 활동 검출 결과에 기초하여 제 1 잡음 감소를 통해 잡음이 제거된다. 음향 마이크로폰에 의해 수집된 스피치 신호에 대해 잡음 성분이 감소될 수 있다. 이에 기초하여, 음향 마이크로폰에 의해 수집된 제 1 잡음 제거 스피치 신호는, 주파수 레벨의 스피치 활동 검출 결과에 기초하여, 제 2 잡음 감소를 통해 잡음 제거된다. 음향 마이크로폰에 의해 수집된 제 1 잡음 제거 스피치 신호에 대해 잡음 성분이 감소될 수 있다. 이에 기초하여, 음향 마이크로폰에 의해 수집된 제 2 잡음 제거된 스피치 신호가 획득된다. 음향 마이크로폰에 의해 수집된 제 2 잡음 제거된 스피치 신호에 대해 잡음 성분이 감소될 수 있다. 음향 마이크로폰에 의해 수집된 스피치 신호의 경우, 이득 처리 후의 스피치 성분이 더욱 두드러진다.
전술한 실시 예들에 기초하여, 본 발명의 다른 실시 예에 따른 스피치 잡음 감소 방법이 제공된다. 도 10을 참조하면, 방법은 단계 S900 내지 S940을 포함할 수 있다.
단계 S900에서, 음향 마이크로폰에 의해 수집된 스피치 신호 및 비-음향 마이크로폰에 의해 수집된 스피치 신호가 획득되고, 여기서 스피치 신호들은 동시에 수집된다.
구체적인 실시 예에서, 비-음향 마이크로폰에 의해 수집된 스피치 신호는 유성음 신호이다.
단계 S910에서, 비-음향 마이크로폰에 의해 수집된 스피치 신호에 기초하여 스피치 활동이 검출되어, 스피치 활동 검출의 결과를 획득한다.
단계 S920에서, 음향 마이크로폰에 의해 수집된 스피치 신호는 스피치 활동 검출의 결과에 기초하여 잡음 제거되어, 잡음이 제거된 유성음 신호를 획득한다.
S900 단계 내지 S920 단계의 상세한 과정은 전술한 실시 예에서의 관련된 단계에 대한 설명을 참조할 수 있으며, 이에 대해서는 여기서 다시 설명하지 않는다.
단계 S930에서, 잡음 제거된 유성음 신호는 무성음 예측 모델에 입력되어, 무성음 예측 모델로부터 출력된 무성음 신호를 획득한다.
무성음 사운드 예측은 훈련 스피치 신호에 기초한 사전 훈련에 의해 얻어진다. 훈련 스피치 신호는 각각의 유성음 신호 및 무성음 신호의 시작 시간 및 종료 시간으로 표시된다.
일반적으로, 스피치는 유성음 및 무성음 신호 모두를 포함한다. 따라서, 잡음 제거된 유성음 신호를 획득한 후, 스피치에서 무성음 신호를 예측할 필요가 있다. 구체적인 실시 예에서, 무성음 신호는 무성음 사운드 예측 모델을 통해 예측된다.
무성음 사운드 예측 모델은 DNN (Deep Neural Network) 모델일 수 있지만, 이에 제한되지는 않는다.
무성음 사운드 예측 모델은 각각의 무성음 신호 및 각각의 유성음 신호의 시작 시간 및 종료 시간으로 표시된 훈련 스피치 신호에 기초하여 사전 훈련된다. 이에 의해, 훈련된 무성음 사운드 예측 모델이 무성음 신호를 정확하게 예측할 수 있는 것이 보장된다.
단계 S940에서, 무성음 신호 및 잡음 제거된 유성음 신호는 결합된 스피치 신호를 얻기 위해 결합된다.
무성음 신호 및 잡음 제거된 유성음 신호를 결합하는 프로세스는, 종래 기술에서 스피치 신호를 결합하는 프로세스를 지칭할 수 있다. 무성음 신호 및 잡음 제거된 유성음 신호의 결합에 대한 상세한 설명은 여기에서 더 설명되지 않는다.
결합된 스피치 신호는 무성음 신호 및 잡음 제거된 유성음 신호 모두를 포함하는 완전한 스피치 신호로서 이해될 수 있다.
다른 실시 예에서, 무성음 사운드 예측 모델을 훈련시키는 프로세스가 소개된다. 구체적인 실시 예에서, 훈련은 다음 단계 D1 내지 D3을 포함할 수 있다.
단계 D1에서, 훈련 스피치 신호가 획득된다.
훈련 스피치 신호는, 훈련의 정확성을 보장하기 위해, 무성음 신호 및 유성음 신호를 포함할 필요가 있다.
단계 D2에서, 각각의 무성음 신호 및 각각의 유성음 신호의 시작 시간 및 종료 시간이 훈련 스피치 신호에 표시된다.
단계 D3에서, 무성음 사운드 예측 모델은 각각의 무성음 신호 및 각각의 유성음 신호의 시작 시간 및 종료 시간으로 표시된 훈련 스피치 신호에 기초하여 훈련된다.
훈련된 무성음 사운드 예측 모델은, 전술한 실시 예의 단계 S930에서 사용된 무성음 사운드 예측 모델이다.
다른 실시 예에서, 획득된 훈련 스피치 신호가 소개된다. 구체적인 실시 예에서, 훈련 스피치 신호를 획득하는 단계는 다음 단계를 포함할 수 있다.
미리 정해진 훈련 조건을 만족시키는 스피치 신호가 선택된다.
미리 정해진 훈련 조건은 다음 조건 중 하나 또는 둘 모두를 포함할 수 있다. 스피치 신호에서 모든 상이한 음소 (phonemes)의 발생 빈도의 분포는 미리 정해진 분포 조건을 만족시킨다. 스피치 신호에서 상이한 음소의 조합 유형은 조합 유형에 대한 미리 결정된 요건을 충족시킨다.
바람직한 실시 예에서, 미리 정해진 분포 조건은 균일한 분포일 수 있다.
대안적으로, 미리 정해진 분포 조건은 대부분의 음소 발생 빈도 분포가 균일하고, 소수의 음소 발생 빈도 분포가 불균일한 것일 수 있다.
바람직한 실시 예에서, 조합의 유형에 대한 미리 정해진 요건은 모든 유형의 조합을 포함할 수 있다.
대안적으로, 조합의 유형에 대한 미리 정해진 요구 사항은 미리 설정된 개수의 조합의 유형을 포함하는 것일 수 있다.
스피치 신호에서 모든 상이한 음소의 발생 빈도의 분포는 미리 정해진 분포 조건을 만족한다. 이에 의해, 미리 정해진 훈련 조건을 만족시키는 선택된 스피치 신호에서, 모든 상이한 음소의 발생 빈도 분포가 가능한 한 균일하다는 것이 보장된다. 스피치 신호에서 상이한 음소의 조합 유형은, 조합 유형에 대한 미리 정해진 요건을 충족시킨다. 이에 의해, 미리 정해진 훈련 조건을 만족시키는 선택된 스피치 신호에서 상이한 음소들의 조합이 가능한 풍부하고 포괄적임을 보장한다.
미리 정해진 훈련 조건을 만족시키는 스피치 신호가 선택된다. 이에 의해, 훈련 정확도에 대한 요구가 충족되고, 훈련 스피치 신호의 데이터 량이 감소되며, 훈련 효율이 향상된다.
전술한 실시 예들에 기초하여, 음향 마이크로폰이 음향 마이크로폰 어레이를 포함하는 경우, 본 발명의 다른 실시 예에 따라 스피치 잡음 감소 방법이 추가로 제공된다. 스피치 잡음 감소 방법은 다음 단계 S1 내지 S3을 더 포함할 수 있다.
단계 S1에서, 음향 마이크로폰 어레이에 의해 수집된 스피치 신호에 기초하여 스피치 소스의 공간 섹션이 결정된다.
단계 S2에서, 검출 결과를 얻기 위해, 비-음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임, 그리고 음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임에 유성음 신호가 있는지의 여부가 검출되며, 이는 동일한 시간 포인트에 대응된다. 스피치 신호는 동시에 수집된다.
검출 결과는 비-음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임과 음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임 모두에서, 유성음 신호가 존재하거나 유성음 신호가 존재하지 않는 것을 포함할 수 있으며, 이는 동일한 시간 포인트에 대응된다.
단계 S3에서, 스피치 소스의 위치는, 검출 결과에 기초하여, 스피치 소스의 공간 섹션에서 결정된다.
단계 S2에서의 상기 검출 결과에 기초하여, 비-음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임과 음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임 모두에서, 유성음 신호가 존재하거나 유성음 신호가 존재하지 않는 것을 결정할 수 있으며, 이는 동일한 시간 포인트에 대응한다. 이에 의해, 음향 마이크로폰에 의해 수집된 스피치 신호 및 비-음향 마이크로폰에 의해 수집된 스피치 신호는 동일한 스피치 소스에 의해 출력되는 것으로 결정된다. 또한, 비-음향 마이크로폰에 의해 수집된 스피치 신호에 기초하여, 스피치 소스의 위치는 스피치 소스의 공간 섹션에서 결정될 수 있다.
다수의 사람들이 동시에 말하고 있는 경우, 음향 마이크로폰 어레이에 의해 수집된 스피치 신호에 기초하여 목표 스피치 소스의 위치를 결정하는 것은 어렵다. 그러나, 스피치 소스의 위치는 비-음향 마이크로폰에 의해 수집된 스피치 신호의 도움으로 결정될 수 있다. 구체적인 실시 예는 이 실시 예에서 단계 S1 내지 S3이다.
이하, 본 발명의 실시 예들에 따라 스피치 잡음 감소 장치가 소개된다. 이하, 스피치 잡음 감소 장치는 본 발명의 실시 예에 따른 스피치 잡음 감소 방법을 구현하기 위해 서버에 의해 구성되는 프로그램 모듈로 간주될 수 있다. 이하에서 설명되는 스피치 잡음 감소 장치의 내용과 전술한 스피치 잡음 감소 방법의 내용은 서로를 참조할 수 있다.
도 11은 본 개시 내용의 일 실시 예에 따른 스피치 잡음 감소 장치의 논리적 구조의 개략도이다. 장치는 서버에 적용될 수 있다. 도 11을 참조하면, 스피치 잡음 감소 장치는 스피치 신호 획득 모듈 (11), 스피치 활동 검출 모듈 (12) 및 스피치 잡음 제거 모듈 (13)을 포함할 수 있다.
스피치 신호 획득 모듈 (11)은 음향 마이크로폰에 의해 수집된 스피치 신호 및 비-음향 마이크로폰에 의해 수집된 스피치 신호를 획득하도록 구성되며, 여기서 스피치 신호들은 동시에 수집된다.
스피치 활동 검출 모듈 (12)은 비-음향 마이크로폰에 의해 수집된 스피치 신호에 기초하여, 스피치 활동을 검출하여, 스피치 활동 검출의 결과를 획득하도록 구성된다.
스피치 잡음 제거 모듈 (13)은 스피치 활동 검출 결과에 기초하여, 음향 마이크로폰에 의해 수집된 스피치 신호를 잡음 제거하여, 잡음이 제거된 스피치 신호를 획득하도록 구성된다.
일 실시 예에서, 스피치 활동 검출 모듈 (12)은 기본 주파수 정보 결정을 위한 모듈 및 스피치 활동 검출을 위한 서브 모듈을 포함한다.
기본 주파수 정보 결정을 위한 모듈은 비-음향 마이크로폰에 의해 수집된 스피치 신호의 기본 주파수 정보를 결정하도록 구성된다.
스피치 활동 검출을 위한 서브 모듈은 기본 주파수 정보에 기초하여 스피치 활동을 검출하고, 스피치 활동 검출의 결과를 획득하도록 구성된다.
일 실시 예에서, 스피치 활동 검출을 위한 서브 모듈은 프레임 레벨 스피치 활동 검출을 위한 모듈을 포함할 수 있다.
프레임 레벨 스피치 활동 검출을 위한 모듈은 기본 주파수 정보에 기초하여 음향 마이크로폰에 의해 수집된 스피치 신호에서 프레임 레벨에서의 스피치 활동을 검출하여, 프레임 레벨의 스피치 활동 검출 결과를 획득하도록 구성된다.
이에 상응하여, 스피치 잡음 제거 모듈은 제 1 잡음 감소 모듈을 포함할 수 있다.
제 1 잡음 감소 모듈은, 프레임 레벨의 스피치 활동 검출 결과에 기초하여, 제 1 잡음 감소를 통해 음향 마이크로폰에 의해 수집된 스피치 신호를 잡음 제거하여, 음향 마이크로폰에 의해 수집된 제 1 잡음 제거된 스피치 신호를 획득하도록 구성된다.
일 실시 예에서, 스피치 잡음 감소 장치는 고주파 포인트 분포 정보 결정을 위한 모듈 및 주파수 레벨 스피치 활동 검출을 위한 모듈을 더 포함할 수 있다.
고주파 포인트 분포 정보 결정을 위한 모듈은, 기본 주파수 정보에 기초하여, 스피치의 고주파 포인트의 분포 정보를 결정하도록 구성된다.
주파수 레벨 스피치 활동 검출을 위한 모듈은, 고주파 포인트의 분포 정보에 기초하여, 음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임에서의 주파수 레벨에서의 스피치 활동을 검출하도록 구성되어. 주파수 레벨의 스피치 활동 검출 결과를 획득하고, 여기서 프레임 레벨의 스피치 활동 검출 결과는 음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임에 스피치 신호가 있음을 나타낸다.
이에 따라, 스피치 잡음 제거 모듈은 제 2 잡음 감소 모듈을 더 포함할 수 있다.
제 2 잡음 감소 모듈은, 주파수 레벨의 스피치 활동 검출 결과에 기초하여, 제 2 잡음 감소를 통해 음향 마이크로폰에 의해 수집된 제 1 잡음 제거된 스피치 신호를 잡음 제거하도록 구성되어, 음향 마이크로폰에 의해 수집된 제 2 잡음 제거된 스피치 신호를 획득한다.
일 실시 예에서, 프레임 레벨 스피치 활동 검출을 위한 모듈은 기본 주파수 정보 검출을 위한 모듈을 포함할 수 있다.
기본 주파수 정보 검출을 위한 모듈은 기본 주파수 정보가 없는지의 여부를 검출하도록 구성된다.
기본 주파수 정보가 존재하는 경우에는, 기본 주파수 정보에 대응하는 스피치 프레임에 유성음 신호가 있는 것으로 결정되며, 여기서 스피치 프레임은 음향 마이크로폰에 의해 수집된 스피치 신호에 있다.
기본 주파수 정보가 존재하지 않는 경우에는, 음향 마이크로폰에 의해 수집된 스?? 신호의 신호 강도가 검출된다. 음향 마이크로폰에 의해 수집된 스피치 신호의 검출된 신호 강도가 작은 경우에는, 기본 주파수 정보에 대응하는 스피치 프레임에 유성음 신호가 없는 것으로 결정되며, 여기서 스피치 프레임은 음향 마이크로폰에 의해 수집된 스피치 신호에 있다.
일 실시 예에서, 고주파 포인트 분포 정보 결정을 위한 모듈은 곱셈 모듈 및 기본 주파수 정보 확장을 위한 모듈을 포함할 수 있다.
곱셈 모듈은 곱해진 기본 주파수 정보를 얻기 위해, 기본 주파수 정보를 곱하도록 구성된다.
기본 주파수 정보 확장을 위한 모듈은 미리 설정된 주파수 확장 값에 기초하여, 곱해진 기본 주파수 정보를 확장하도록 구성되어, 스피치의 고주파 포인트의 분포 섹션을 획득하도록 구성되며, 여기서 분포 섹션은 스피치의 고주파 포인트의 분포 정보로서 역할을 한다.
일 실시 예에서, 주파수 레벨 스피치 활동 검출을 위한 모듈은 주파수 레벨 스피치 활동 검출을 위한 서브 모듈을 포함할 수 있다.
주파수 레벨 스피치 활동 검출을 위한 서브 모듈은, 고주파 포인트의 분포 정보에 기초하여, 음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임에서, 고주파 포인트에 속하는 주파수 포인트에서 유성음 신호가 존재 하는지와, 고주파 포인트에 속하지 않는 주파수 포인트에서 유성음 신호가 존재하지 않는지를 결정하도록 구성되며, 여기서 프레임 레벨의 스피치 활동 검출 결과는 스피치 프레임에 유성음 신호가 존재함을 나타낸다.
일 실시 예에서, 비-음향 마이크로폰에 의해 수집된 스피치 신호는 유성음 신호일 수 있다.
비-음향 마이크로폰에 의해 수집된 스피치 신호가 유성음 신호인 것에 기초하여, 스피치 잡음 제거 모듈은 스피치 프레임 획득 모듈 및 이득 처리 모듈을 더 포함할 수 있다.
스피치 프레임 획득 모듈은, 비-음향 마이크로폰에 의해 수집된 유성음 신호에 포함된 각 스피치 프레임의 시간 포인트와 동일한 스피치 프레임을, 처리될 스피치 프레임으로서, 음향 마이크로폰에 의해 수집된 제 2 잡음 제거된 스피치 신호로부터 획득하도록 구성된다.
이득 처리 모듈은 처리될 스피치 프레임의 각 주파수 포인트에 대해 이득 처리를 수행하여 이득된 스피치 프레임을 획득하도록 구성되며, 여기서 음향 마이크로폰에 의해 수집된 제 3 잡음 제거된 유성음 신호는 모든 이득된 스피치 프레임에 의해 형성된다.
이득 처리의 프로세스는 다음 단계를 포함할 수 있다. 고주파 포인트에 속하는 주파수 포인트의 경우에는 주파수 포인트에 제 1 이득이 적용되고, 고주파 포인트에 속하지 않은 주파수 포인트의 경우에는 주파수 포인트에 제 2 이득이 적용되며, 여기서 제 1 이득은 제 2 이득보다 크다.
잡음 제거된 스피치 신호는 전술한 장치에서 잡음 제거된 유성음 신호일 수 있다. 이를 기초로, 스피치 잡음 감소 장치는 무성음 신호 예측 모듈 및 스피치 신호 조합 모듈을 더 포함할 수 있다.
무성음 신호 예측 모듈은, 무성음 사운드 예측 모델로부터 출력된 무성음 신호를 획득하기 위해, 잡음 제거된 유성음 신호를 무성음 사운드 예측 모델에 입력하도록 구성된다. 무성음 사운드 예측 모델은 훈련 스피치 신호에 기초한 사전 훈련에 의해 획득된다. 훈련 스피치 신호는 각각의 무성음 신호 및 각각의 유성음 신호의 시작 시간 및 종료 시간으로 표시된다.
스피치 신호 조합 모듈은 무성음 신호 및 잡음 제거된 유성음 신호를 결합하여, 결합된 스피치 신호를 획득하도록 구성된다.
일 실시 예에서, 스피치 잡음 감소 장치는 무성음 예측 모델 훈련을 위한 모듈을 더 포함할 수 있다.
무성음 사운드 예측 모델 훈련을 위한 모듈은, 훈련 스피치 신호를 획득하고, 훈련 스피치 신호에서 각각의 무성음 신호 및 각각의 유성음 신호의 시작 시간 및 종료 시간을 표시하고, 각각의 무성음 신호 및 각각의 유성음 신호의 시작 시간 및 종료 시간으로 표시된 훈련 스피치 신호에 기초하여 무성음 사운드 예측 모델을 훈련시키도록 구성된다.
무성음 사운드 예측 모델 훈련을 위한 모듈은 훈련 스피치 신호 획득을 위한 모듈을 포함할 수 있다.
훈련 스피치 신호 획득을 위한 모듈은 미리 정해진 훈련 조건을 만족시키는 스피치 신호를 선택하도록 구성된다.
미리 정해진 훈련 조건은 다음 조건 중 하나 또는 둘 모두를 포함할 수 있다. 스피치 신호에서 모든 상이한 음소의 발생 빈도의 분포는 미리 정해진 분포 조건을 만족시킨다. 스피치 신호에서 상이한 음소의 조합 유형은 조합 유형에 대한 미리 결정된 요건을 충족시킨다.
전술한 실시 예들에 기초하여, 스피치 잡음 감소 장치는 음향 마이크로폰이 음향 마이크로폰 어레이를 포함할 수 있는 경우, 스피치 소스 위치 결정을 위한 모듈을 더 포함할 수 있다.
스피치 소스 위치 결정을 위한 모듈은, 음향 마이크로폰 어레이에 의해 수집된 스피치 신호에 기초하여 스피치 소스의 공간 섹션을 결정하고; 비-음향 마이크로폰에 의해 수집된 스피치 신호에 유성음 프레임에 유성음 신호가 있는지 검출하고, 그리고 동일한 시작 시간 포인트에 대응하는, 음향 마이크로폰에 의해 수집된 스피치 신호에 유성음 프레임이 있는지 검출하여, 검출 결과를 획득하고; 검출 결과에 기초하여, 스피치 소스의 공간 섹션에서 스피치 소스의 위치를 결정하도록 구성된다.
본 발명의 일 실시 예에 따른 스피치 잡음 감소 장치는, 통신 서버와 같은 서버에 적용될 수 있다. 일 실시 예에서, 서버의 하드웨어 구조의 블록도는 도 12에 도시된 바와 같다. 도 12를 참조하면, 서버의 하드웨어 구조는 적어도 하나의 프로세서 1, 적어도 하나의 통신 인터페이스 2, 적어도 하나의 메모리 3 및 적어도 하나의 통신 버스 4를 포함할 수 있다.
일 실시 예에서, 프로세서 1, 통신 인터페이스 2, 메모리 3 및 통신 버스 4 각각의 수량은 적어도 하나이다. 프로세서 1, 통신 인터페이스 2 및 메모리 3는 통신 버스 4를 통해 서로 통신한다.
프로세서 1는 중앙처리장치 CPU, 주문형 집적 회로 (ASIC), 또는 본 개시의 실시 예를 구현하기 위한 하나 또는 그 이상의 집적회로일 수 있다.
메모리 3는 고속 RAM 메모리, 비 휘발성 메모리 등을 포함할 수 있다. 예를 들어, 메모리 3는 적어도 하나의 디스크 메모리를 포함한다.
메모리는 프로그램을 저장한다. 프로세서는 메모리에 저장된 프로그램을 실행한다. 프로그램은 다음 단계를 수행하도록 구성되어 있다.
음향 마이크로폰에 의해 수집된 스피치 신호 및 비-음향 마이크로폰에 의해 수집된 스피치 신호가 획득되며, 여기서 스피치 신호들은 동시에 수집된다.
비-음향 마이크로폰에 의해 수집된 스피치 신호에 기초하여 스피치 활동이 검출되어, 스피치 활동 검출의 결과가 획득된다.
음향 마이크로폰에 의해 수집된 스피치 신호는, 스피치 활동 검출 결과에 기초하여 잡음 제거되어, 잡음이 제거된 스피치 신호를 획득한다.
일 실시 예에서, 프로그램의 개선되고 확장된 기능은 전술한 설명을 참조할 수 있다.
본 개시의 실시 예에 따라 저장 매체가 추가로 제공된다. 저장 매체는 프로세서에 의해 실행 가능한 프로그램을 저장할 수 있다. 프로그램은 다음 단계를 수행하도록 구성되어 있다.
음향 마이크로폰에 의해 수집된 스피치 신호 및 비-음향 마이크로폰에 의해 수집된 스피치 신호가 획득되며, 여기서 스피치 신호들은 동시에 수집된다.
비-음향 마이크로폰에 의해 수집된 스피치 신호에 기초하여 스피치 활동이 검출되어, 스피치 활동 검출의 결과를 얻는다.
음향 마이크로폰에 의해 수집된 스피치 신호는 스피치 활동 검출의 결과에 기초하여 잡음 제거되어 잡음이 제거된 스피치 신호를 획득한다.
일 실시 예에서, 프로그램의 개선되고 확장된 기능은 전술한 설명을 참조할 수 있다.
일 실시 예에서, 프로그램의 개선 기능 및 확장 기능은 전술한 설명을 참조할 수 있다.
본 발명의 실시 예는 점진적으로 설명되며, 각 실시 예는 다른 실시 예와의 차이점을 강조한다. 따라서, 일 실시 예는 동일하거나 유사한 부분에 대한 다른 실시 예를 참조할 수 있다. 실시 예에 개시된 장치는 실시 예에 개시된 방법에 대응하기 때문에, 장치의 설명은 간단하고 방법의 관련 부분을 참조할 수 있다.
"제 1", "제 2" 등과 같은 관계 용어는 실제 관계 또는 순서가 필요하거나 암시하기보다는 하나의 엔티티 또는 오퍼레이션을 다른 엔티티 또는 오퍼레이션과 구별하기 위해서 여기에만 사용된다는 점에 유의해야 한다. 또한, "포함하다", "구비하다" 또는 이의 임의의 다른 변형과 같은 용어는 비-배타적인 것을 의미한다. 따라서, 일련의 요소를 포함하는 프로세스, 방법, 물품 또는 장치는 개시된 요소뿐만 아니라 명확하게 열거되지 않은 다른 요소를 포함하거나, 프로세스, 방법, 물품 또는 장치의 고유한 요소를 더 포함한다.. 표현적으로 제한되지 않는 한, "a를 포함하여" 라는 진술은 열거된 요소 이외의 다른 유사한 요소가 프로세스, 방법, 물품 또는 장치에 존재할 수 있는 경우를 배제하지 않는다.
설명의 편의를 위해, 기능들을 다양한 단위로 나누어지고 장치를 설명할 때 별도로 설명한다. 각 유닛의 기능은 본 개시를 구현할 때 하나 또는 그 이상의 소프트웨어 및/또는 하드웨어로 구현될 수 있다는 것이 이해된다.
전술한 실시 예로부터, 당업자는 본 발명이 소프트웨어 및 필요한 범용 하드웨어 플랫폼을 사용하여 구현될 수 있음을 명확하게 이해할 수 있다. 이러한 이해에 기초하여, 본 개시의 기술적 해결책은 저장 매체, 물질적으로 또는 종래 기술에 기여하는 부분에 저장된 컴퓨터 소프트웨어 제품의 형태로 구현될 수 있다. 저장 매체는 예를 들어 ROM / RAM, 자기 디스크 또는 광 디스크일 수 있으며, 이는 컴퓨터 장비 (예를 들어, 개인용 컴퓨터, 서버 또는 네트워크 장치)가 본 개시의 실시 예들 또는 실시 예들의 특정 부분에 따른 방법을 실행할 수 있게 하는 다수의 명령을 포함한다.
이하, 본 발명에 따른 스피치 잡음 감소 방법, 스피치 잡음 감소 장치, 서버 및 저장 매체에 대해 상세히 설명한다. 본 명세서의 원리 및 실시 예를 설명하기 위해 특정 실시 예가 본 명세서에서 사용된다. 전술한 실시 예는 본 발명의 방법 및 핵심 개념을 이해하는 것을 돕기 위해 의도된 것이다. 본 개시의 개념에 기초하여 당업자에 의해 실시 예들 및 응용 범위가 변경될 수 있다. 요약하면, 본 명세서는 본 개시에 대한 제한으로 해석되어서는 안된다.

Claims (20)

  1. 스피치 잡음 감소 방법에 있어서,
    음향 마이크로폰에 의해 수집된 스피치 신호 및 비-음향 마이크로폰에 의해 수집된 스피치 신호를 획득하되, 상기 스피치 신호들은 동시에 수집되는 단계;
    상기 비-음향 마이크로폰에 의해 수집된 스피치 신호에 기초하여 스피치 활동을 검출하여, 스피치 활동 검출의 결과를 얻는 단계; 및
    상기 스피치 활동 검출의 결과에 기초하여, 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 잡음을 제거하여 잡음이 제거된 스피치 신호를 획득하는 단계를 포함하고,
    상기 스피치 활동 검출 결과를 얻기 위해 상기 비-음향 마이크로폰에 의해 수집된 스피치 신호에 기초하여 상기 스피치 활동을 검출하는 단계는,
    상기 비-음향 마이크로폰에 의해 수집된 스피치 신호의 기본 주파수 정보를 결정하는 단계; 및
    상기 기본 주파수 정보에 기초하여 스피치 활동을 검출하여, 스피치 활동 검출의 결과를 획득하는 단계를 더 포함하며,
    상기 스피치 활동 검출의 결과를 얻기 위해 기본 주파수 정보에 기초하여 스피치 활동을 검출하는 단계는,
    상기 기본 주파수 정보에 기초하여, 음향 마이크로폰에 의해 수집된 스피치 신호에서 프레임 레벨에서의 스피치 활동을 검출하여, 프레임 레벨의 스피치 활동 검출의 결과를 획득하는 단계;
    상기 기본 주파수 정보에 기초하여, 스피치의 고주파 포인트의 분포 정보를 결정하는 단계; 및
    상기 고주파 포인트의 분포 정보에 기초하여, 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임의 주파수 레벨에서 스피치 활동을 검출하여, 상기 주파수 레벨의 스피치 활동 검출 결과를 획득하는 단계를 더 포함하며, 상기 프레임 레벨의 스피치 활동 검출의 결과는 음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임에 유성음(voice) 신호가 존재함을 나타내고,
    상기 기본 주파수 정보에 기초하여, 상기 스피치의 고주파 포인트의 분포 정보를 결정하는 단계는,
    기본 주파수를 곱하여, 곱해진 기본 주파수를 획득하는 단계; 및
    미리 설정된(preset) 주파수 폭(width)에 기초하여 상기 곱해진 각 기본 주파수 정보를 확장하여, 상기 스피치의 고주파 포인트의 분포 섹션을 획득하는 단계, 여기서 상기 분포 섹션은 상기 스피치의 고주파 포인트의 분포 정보로서 기능함, 를 포함하는,
    스피치 잡음 감소 방법.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 잡음 제거된 스피치 신호를 획득하기 위해 스피치 활동 검출의 결과에 기초하여, 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 잡음을 제거하는 단계는,
    상기 프레임 레벨의 스피치 활동 검출 결과에 기초하여, 제 1 잡음 감소를 통해 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 잡음을 제거하여, 상기 음향 마이크로폰에 의해 수집된 제 1 잡음 제거 스피치 신호를 획득하는 단계를 포함하는 스피치 잡음 감소 방법.
  4. 제 3 항에 있어서,
    상기 스피치 활동 검출 결과에 기초하여 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 잡음을 제거하여 상기 잡음 제거된 스피치 신호를 획득하는 단계는,
    상기 주파수 레벨의 스피치 활동 검출 결과에 기초하여, 제 2 잡음 감소를 통해 상기 음향 마이크로폰에 의해 수집된 상기 제 1 잡음 제거된 스피치 신호의 잡음을 제거하여, 상기 음향 마이크로폰에 의해 수집된 제 2 잡음 제거된 스피치 신호를 획득하는 단계를 더 포함하는, 스피치 잡음 감소 방법.
  5. 제 3 항에 있어서, 상기 프레임 레벨의 스피치 활동 검출의 결과를 획득하기 위해, 기본 주파수 정보에 기초하여 상기 음향 마이크로폰에 의해 수집된 스피치 신호에서 프레임 레벨에서의 스피치 활동을 검출하는 단계는,
    기본 주파수 정보가 없는지를 검출하는 단계;
    기본 주파수 정보가 있는 경우, 기본 주파수 정보에 대응하는 스피치 프레임에 유성음 신호가 있다고 결정하는 단계로, 여기서 상기 스피치 프레임은 상기 음향 마이크로폰에 의해 수집된 스피치 신호에 있으며;
    기본 주파수 정보가 없는 경우, 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 신호 강도를 검출하는 단계; 및
    상기 음향 마이크로폰에 의해 수집된 스피치 신호의 검출된 신호 강도가 작은 경우, 상기 기본 주파수 정보에 대응하는 스피치 프레임에 유성음 신호가 없는 것으로 결정하는 단계를 포함하는, 여기서 상기 스피치 프레임은 상기 음향 마이크로폰에 의해 수집된 스피치 신호에 있는, 스피치 잡음 감소 방법.
  6. 삭제
  7. 제 4 항에 있어서, 상기 주파수 레벨의 스피치 활동 검출 결과를 얻기 위해, 상기 고주파 포인트의 분포 정보에 기초하여 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임의 주파수 레벨에서 스피치 활동을 검출하는 단계는,
    상기 고주파 포인트의 분포 정보에 기초하여, 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임에서, 고주파 포인트에 속하는 주파수 포인트의 경우에는 주파수 포인트에 유성음 신호가 있고, 고주파 포인트에 속하지 않는 주파수 포인트에 유성음 신호가 없는 것으로 판단하는 단계로, 상기 프레임 레벨의 스피치 활동 검출의 결과는 스피치 프레임에 유성음 신호가 있음을 나타내는, 스피치 잡음 감소 방법.
  8. 제 4 항에 있어서,
    상기 비-음향 마이크로폰에 의해 수집된 스피치 신호는 유성음 신호이며; 그리고
    스피치 활동 검출의 결과에 기초하여 음향 마이크로폰에 의해 수집된 스피치 신호의 잡음을 제거하여 잡음 제거된 스피치 신호를 획득하는 단계는:
    처리될 스피치 프레임으로서, 음향 마이크로폰에 의해 수집된 제 2 잡음 제거된 스피치 신호로부터, 비-음향 마이크로폰에 의해 수집된 유성음 신호에 포함된 각각의 스피치 프레임의 시간 포인트와 동일한 스피치 프레임을 획득하는 단계; 및
    상기 처리될 스피치 프레임의 각각의 주파수 포인트에 대해 이득 처리를 수행하여 이득된(gained) 스피치 프레임을 획득하는 단계를 더 포함하고, 상기 음향 마이크로폰에 의해 수집된 제 3 잡음 제거된 유성음 신호는 모든 이득된 스피치 프레임에 의해 형성되며;
    이득 처리의 프로세스는,
    상기 고주파 포인트에 속하는 주파수 포인트의 경우에는 주파수 포인트에 제 1 이득을 적용하고, 상기 고주파 포인트에 속하지 않은 주파수 포인트의 경우에는 주파수 포인트에 제 2 이득을 적용하는 단계를 포함하는, 여기서 상기 제 1 이득 값이 상기 제 2 이득 값보다 큼, 스피치 잡음 감소 방법.
  9. 삭제
  10. 스피치 잡음 감소 장치에 있어서,
    음향 마이크로폰에 의해 수집된 스피치 신호 및 비-음향 마이크로폰에 의해 수집된 스피치 신호를 획득하도록 구성되며, 상기 스피치 신호는 동시에 수집되는, 스피치 신호 획득 모듈;
    상기 비-음향 마이크로폰에 의해 수집된 스피치 신호에 기초하여 스피치 활동을 검출하여, 스피치 활동 검출의 결과를 획득하도록 구성된 스피치 활동 검출 모듈; 및
    상기 스피치 활동 검출 결과에 기초하여, 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 잡음을 제거하도록 구성되어, 잡음 제거된 스피치 신호를 획득하는 스피치 잡음 제거 모듈을 포함하고,
    상기 스피치 활동 검출 모듈은,
    상기 비-음향 마이크로폰에 의해 수집된 스피치 신호의 기본 주파수 정보를 결정하도록 구성된 기본 주파수 정보 결정을 위한 모듈; 및
    상기 기본 주파수 정보에 기초하여 스피치 활동을 검출하여 스피치 활동 검출의 결과를 획득하도록 구성된 스피치 활동 검출을 위한 서브 모듈을 포함하고,
    상기 스피치 활동 검출을 위한 서브 모듈은,
    상기 기본 주파수 정보에 기초하여, 음향 마이크로폰에 의해 수집된 스피치 신호에서 프레임 레벨에서의 스피치 활동을 검출하여, 프레임 레벨의 스피치 활동 검출의 결과를 획득하도록 구성된 프레임 레벨 스피치 활동 검출을 위한 모듈;
    상기 기본 주파수 정보에 기초하여, 스피치의 고주파 포인트의 분포 정보를 결정하도록 구성된 고주파 포인트 분포 정보 결정을 위한 모듈; 및
    상기 고주파 포인트의 분포 정보에 기초하여, 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임의 주파수 레벨에서 스피치 활동을 검출하여, 상기 주파수 레벨의 스피치 활동 검출 결과를 획득하도록 구성된 주파수 레벨 스피치 활동 검출을 위한 모듈을 포함하며,
    여기서 상기 프레임 레벨의 스피치 활동 검출 결과는 상기 음향 마이크로폰에 의해 수집된 상기 스피치 신호의 스피치 프레임 내에 유성음(voice) 신호가 존재함을 나타내며;
    상기 고주파 포인트 분포 정보 결정 모듈은,
    기본 주파수 정보를 곱하도록 구성되어, 곱해진 기본 주파수 정보를 얻기 위한 곱셈 모듈; 및
    미리 설정된 주파수 확장값에 기초하여 상기 곱해진 기본 주파수 정보를 확장하여, 상기 스피치의 고주파 포인트의 분포 섹션을 획득하도록 구성되는, 여기서 상기 분포 섹션은 상기 스피치의 고주파 포인트의 분포 정보로서 기능하는, 기본 주파수 정보 확장 모듈을 포함하는 스피치 잡음 감소 장치.
  11. 삭제
  12. 제 10 항에 있어서,
    상기 스피치 잡음 제거 모듈은,
    상기 프레임 레벨의 스피치 활동 검출 결과에 기초하여, 제 1 잡음 감소를 통해 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 잡음을 제거하여, 상기 음향 마이크로폰에 의해 수집된 제 1 잡음 제거 스피치 신호를 획득하도록 구성된 제 1 잡음 감소 모듈을 포함하는 스피치 잡음 감소 장치.
  13. 제 12 항에 있어서,
    상기 스피치 잡음 제거 모듈은,
    상기 주파수 레벨의 스피치 활동 검출 결과에 기초하여, 제 2 잡음 감소를 통해 상기 음향 마이크로폰에 의해 수집된 상기 제 1 잡음 제거된 스피치 신호의 잡음을 제거하여, 상기 음향 마이크로폰에 의해 수집된 제 2 잡음 제거된 스피치 신호를 획득하도록 구성된 제 2 잡음 감소 모듈을 포함하는 스피치 잡음 감소 장치.
  14. 제 12 항에 있어서, 상기 프레임 레벨 스피치 활동 검출을 위한 모듈은, 기본 주파수 정보가 없는지의 여부를 검출하도록 구성된, 기본 주파수 정보 검출을 위한 모듈을 포함하며,
    기본 주파수 정보가 있는 경우, 기본 주파수 정보에 대응하는 스피치 프레임에 유성음 신호가 있다고 결정되며, 여기서 스피치 프레임은 상기 음향 마이크로폰에 의해 수집된 유성음 신호에 있고;
    기본 주파수 정보가 없는 경우, 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 신호 강도가 검출되고; 그리고
    상기 음향 마이크로폰에 의해 수집된 스피치 신호의 검출된 신호 강도가 작은 경우, 상기 기본 주파수 정보에 대응하는 스피치 프레임에 유성음 신호가 없는 것으로 결정되고, 여기서 상기 스피치 프레임은 상기 음향 마이크로폰에 의해 수집된 스피치 신호에 있는, 스피치 잡음 감소 장치.
  15. 삭제
  16. 제 13 항에 있어서, 상기 주파수 레벨 스피치 활동 검출을 위한 모듈은,
    상기 고주파 포인트의 분포 정보에 기초하여, 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임에서, 고주파 포인트에 속하는 주파수 포인트의 경우에는 주파수 포인트에 유성음 신호가 있고, 고주파 포인트에 속하지 않는 주파수 포인트에 유성음 신호가 없는 것으로 판단하도록 구성되며,
    여기서 상기 프레임 레벨의 스피치 활동 검출의 결과는 스피치 프레임에 유성음 신호가 존재함을 나타내는, 스피치 잡음 감소 장치.
  17. 제 13 항에 있어서, 상기 비-음향 마이크로폰에 의해 수집된 스피치 신호는 유성음 신호이며;
    상기 스피치 잡음 제거 모듈은,
    처리될 스피치 프레임으로서, 음향 마이크로폰에 의해 수집된 제 2 잡음 제거된 스피치 신호로부터, 비-음향 마이크로폰에 의해 수집된 유성음 신호에 포함 된 각각의 스피치 프레임의 시간 포인트와 동일한 스피치 프레임을 획득하도록 구성된 스피치 프레임 획득 모듈; 및
    상기 처리될 스피치 프레임의 각각의 주파수 포인트에 대해 이득 처리를 수행하여 이득된 스피치 프레임을 획득하도록 구성된 이득 처리 모듈을 더 포함하고, 여기서 상기 음향 마이크로폰에 의해 수집된 제 3 잡음 제거된 유성음 신호는 모든 이득된 스피치 프레임에 의해 형성되며; 그리고
    여기서 상기 이득 처리의 프로세스는,
    상기 고주파 포인트에 속하는 주파수 포인트의 경우에는 주파수 포인트에 제 1 이득을 적용하고, 상기 고주파 포인트에 속하지 않은 주파수 포인트의 경우에는 주파수 포인트에 제 2 이득을 적용하며, 여기서 상기 제 1 이득 값이 상기 제 2 이득 값보다 큰, 스피치 잡음 감소 장치.
  18. 삭제
  19. 서버에 있어서,
    적어도 하나의 메모리 및 적어도 하나의 프로세서를 포함하며,
    상기 적어도 하나의 메모리는 프로그램을 저장하고, 상기 적어도 하나의 프로세서는 상기 메모리에 저장된 프로그램을 호출하고,
    상기 프로그램은, 제 1 항, 제 3 항, 제 4 항, 제 5 항, 제 7 항 내지 제 8 항 중 어느 한 항에 따른 스피치 잡음 감소 방법을 수행하도록 구성된, 서버.
  20. 제 1 항, 제 3 항, 제 4 항, 제 5 항, 제 7 항 내지 제 8 항 중 어느 한 항에 따른 스피치 잡음 감소 방법을 수행하는 프로세서에 의해 실행되는, 컴퓨터 프로그램을 저장하는 저장 매체.
KR1020207015043A 2017-12-28 2018-06-15 음성 잡음 제거 방법 및 장치, 서버 및 저장 매체 KR102456125B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201711458315.0 2017-12-28
CN201711458315.0A CN107910011B (zh) 2017-12-28 2017-12-28 一种语音降噪方法、装置、服务器及存储介质
PCT/CN2018/091459 WO2019128140A1 (zh) 2017-12-28 2018-06-15 一种语音降噪方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
KR20200074199A KR20200074199A (ko) 2020-06-24
KR102456125B1 true KR102456125B1 (ko) 2022-10-17

Family

ID=61871821

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207015043A KR102456125B1 (ko) 2017-12-28 2018-06-15 음성 잡음 제거 방법 및 장치, 서버 및 저장 매체

Country Status (7)

Country Link
US (1) US11064296B2 (ko)
EP (1) EP3734599B1 (ko)
JP (1) JP7109542B2 (ko)
KR (1) KR102456125B1 (ko)
CN (1) CN107910011B (ko)
ES (1) ES2960555T3 (ko)
WO (1) WO2019128140A1 (ko)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107910011B (zh) * 2017-12-28 2021-05-04 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质
CN108766454A (zh) * 2018-06-28 2018-11-06 浙江飞歌电子科技有限公司 一种语音噪声抑制方法及装置
CN109346073A (zh) * 2018-09-30 2019-02-15 联想(北京)有限公司 一种信息处理方法及电子设备
CN109584894A (zh) * 2018-12-20 2019-04-05 西京学院 一种基于雷达语音与麦克风语音相融合的语音增强方法
CN110074759B (zh) * 2019-04-23 2023-06-06 平安科技(深圳)有限公司 语音数据辅助诊断方法、装置、计算机设备及存储介质
CN110782912A (zh) * 2019-10-10 2020-02-11 安克创新科技股份有限公司 音源的控制方法以及扬声设备
CN111341304A (zh) * 2020-02-28 2020-06-26 广州国音智能科技有限公司 一种基于gan的说话人语音特征训练方法、装置和设备
CN111681659A (zh) * 2020-06-08 2020-09-18 北京高因科技有限公司 一种应用于便携式设备的自动语音识别系统及其工作方法
CN111916101B (zh) * 2020-08-06 2022-01-21 大象声科(深圳)科技有限公司 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统
CN113115190B (zh) * 2021-03-31 2023-01-24 歌尔股份有限公司 音频信号处理方法、装置、设备及存储介质
CN113241089B (zh) * 2021-04-16 2024-02-23 维沃移动通信有限公司 语音信号增强方法、装置及电子设备
CN113470676B (zh) * 2021-06-30 2024-06-25 北京小米移动软件有限公司 声音处理方法、装置、电子设备和存储介质
CN113724694B (zh) * 2021-11-01 2022-03-08 深圳市北科瑞声科技股份有限公司 语音转换模型训练方法、装置、电子设备及存储介质
WO2023171124A1 (ja) * 2022-03-07 2023-09-14 ソニーグループ株式会社 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム
CN116110422B (zh) * 2023-04-13 2023-07-04 南京熊大巨幕智能科技有限公司 全向级联麦克风阵列降噪方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002537585A (ja) * 1999-02-19 2002-11-05 ザ リージェンツ オブ ザ ユニヴァーシティ オブ カリフォルニア 音声およびアコースティック信号の有声音化励起を特徴付けて、音声からアコースティック・ノイズを除去し、音声を合成するシステムおよび方法
JP2017537344A (ja) * 2014-11-06 2017-12-14 ヴォーカルズーム システムズ リミテッド 雑音低減および音声増強方法、デバイス、およびシステム

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03241400A (ja) * 1990-02-20 1991-10-28 Fujitsu Ltd 音声検出器
JPH03274098A (ja) * 1990-03-23 1991-12-05 Ricoh Co Ltd 雑音除去方式
JPH07101853B2 (ja) * 1991-01-30 1995-11-01 長野日本無線株式会社 雑音低減方法
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US20070233479A1 (en) * 2002-05-30 2007-10-04 Burnett Gregory C Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US8019091B2 (en) * 2000-07-19 2011-09-13 Aliphcom, Inc. Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression
US7246058B2 (en) * 2001-05-30 2007-07-17 Aliph, Inc. Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
AU2003263733A1 (en) * 2002-03-05 2003-11-11 Aliphcom Voice activity detection (vad) devices and methods for use with noise suppression systems
US7447630B2 (en) 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7499686B2 (en) * 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US7574008B2 (en) * 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US8488803B2 (en) * 2007-05-25 2013-07-16 Aliphcom Wind suppression/replacement component for use with electronic systems
US8503686B2 (en) * 2007-05-25 2013-08-06 Aliphcom Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems
EP2151821B1 (en) * 2008-08-07 2011-12-14 Nuance Communications, Inc. Noise-reduction processing of speech signals
US9418675B2 (en) * 2010-10-04 2016-08-16 LI Creative Technologies, Inc. Wearable communication system with noise cancellation
KR101500823B1 (ko) 2010-11-25 2015-03-09 고어텍 인크 음성 향상 방법, 장치 및 노이즈 감소 통신 헤드셋
US10230346B2 (en) * 2011-01-10 2019-03-12 Zhinian Jing Acoustic voice activity detection
US8949118B2 (en) * 2012-03-19 2015-02-03 Vocalzoom Systems Ltd. System and method for robust estimation and tracking the fundamental frequency of pseudo periodic signals in the presence of noise
FR2992459B1 (fr) * 2012-06-26 2014-08-15 Parrot Procede de debruitage d'un signal acoustique pour un dispositif audio multi-microphone operant dans un milieu bruite.
US9094749B2 (en) * 2012-07-25 2015-07-28 Nokia Technologies Oy Head-mounted sound capture device
US20140126743A1 (en) * 2012-11-05 2014-05-08 Aliphcom, Inc. Acoustic voice activity detection (avad) for electronic systems
CN203165457U (zh) * 2013-03-08 2013-08-28 华南理工大学 一种可用于强噪声环境的语音采集装置
CN103208291A (zh) * 2013-03-08 2013-07-17 华南理工大学 一种可用于强噪声环境的语音增强方法及装置
US9532131B2 (en) * 2014-02-21 2016-12-27 Apple Inc. System and method of improving voice quality in a wireless headset with untethered earbuds of a mobile device
CN104091592B (zh) * 2014-07-02 2017-11-14 常州工学院 一种基于隐高斯随机场的语音转换系统
US20180233129A1 (en) * 2015-07-26 2018-08-16 Vocalzoom Systems Ltd. Enhanced automatic speech recognition
EP3157266B1 (en) * 2015-10-16 2019-02-27 Nxp B.V. Controller for a haptic feedback element
WO2017132958A1 (en) 2016-02-04 2017-08-10 Zeng Xinxiao Methods, systems, and media for voice communication
CN106101351A (zh) * 2016-07-26 2016-11-09 哈尔滨理工大学 一种用于移动终端的多mic降噪方法
CN106686494A (zh) * 2016-12-27 2017-05-17 广东小天才科技有限公司 一种可穿戴设备的语音输入控制方法及可穿戴设备
CN106952653B (zh) * 2017-03-15 2021-05-04 科大讯飞股份有限公司 噪声去除方法、装置和终端设备
CN107093429B (zh) * 2017-05-08 2020-07-10 科大讯飞股份有限公司 主动降噪方法、系统及汽车
CN107910011B (zh) * 2017-12-28 2021-05-04 科大讯飞股份有限公司 一种语音降噪方法、装置、服务器及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002537585A (ja) * 1999-02-19 2002-11-05 ザ リージェンツ オブ ザ ユニヴァーシティ オブ カリフォルニア 音声およびアコースティック信号の有声音化励起を特徴付けて、音声からアコースティック・ノイズを除去し、音声を合成するシステムおよび方法
JP2017537344A (ja) * 2014-11-06 2017-12-14 ヴォーカルズーム システムズ リミテッド 雑音低減および音声増強方法、デバイス、およびシステム

Also Published As

Publication number Publication date
CN107910011A (zh) 2018-04-13
US20200389728A1 (en) 2020-12-10
JP2021503633A (ja) 2021-02-12
EP3734599A4 (en) 2021-09-01
EP3734599B1 (en) 2023-07-26
KR20200074199A (ko) 2020-06-24
EP3734599A1 (en) 2020-11-04
CN107910011B (zh) 2021-05-04
ES2960555T3 (es) 2024-03-05
WO2019128140A1 (zh) 2019-07-04
EP3734599C0 (en) 2023-07-26
US11064296B2 (en) 2021-07-13
JP7109542B2 (ja) 2022-07-29

Similar Documents

Publication Publication Date Title
KR102456125B1 (ko) 음성 잡음 제거 방법 및 장치, 서버 및 저장 매체
US11423904B2 (en) Method and system of audio false keyphrase rejection using speaker recognition
JP5007442B2 (ja) 発話改善のためにマイク間レベル差を用いるシステム及び方法
US9812147B2 (en) System and method for generating an audio signal representing the speech of a user
KR101340520B1 (ko) 잡음을 제거하는 장치 및 방법
US8521530B1 (en) System and method for enhancing a monaural audio signal
JP5649488B2 (ja) 音声判別装置、音声判別方法および音声判別プログラム
US11152015B2 (en) Method and apparatus for processing speech signal adaptive to noise environment
KR20090017435A (ko) 빔 형성 및 후-필터링 조합에 의한 노이즈 감소 방법
CN112019967B (zh) 一种耳机降噪方法、装置、耳机设备及存储介质
KR101317813B1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
JP2014122939A (ja) 音声処理装置および方法、並びにプログラム
WO2018167960A1 (ja) 音声処理装置、音声処理システム、音声処理方法、および音声処理プログラム
CN110364175B (zh) 语音增强方法及系统、通话设备
US20200286501A1 (en) Apparatus and a method for signal enhancement
US8423360B2 (en) Speech recognition apparatus, method and computer program product
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
EP3830823B1 (en) Forced gap insertion for pervasive listening
JP2022544065A (ja) 信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置
WO2019207912A1 (ja) 情報処理装置及び情報処理方法
JP6638248B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声信号処理装置
WO2011149969A2 (en) Separating voice from noise using a network of proximity filters
CN112118511A (zh) 耳机降噪方法、装置、耳机及计算机可读存储介质
KR101096091B1 (ko) 음성 분리 장치 및 이를 이용한 단일 채널 음성 분리 방법
JP6559576B2 (ja) 雑音抑圧装置、雑音抑圧方法及びプログラム

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant