KR101729634B1 - 키보드 타이핑 탐지 및 억제 - Google Patents

키보드 타이핑 탐지 및 억제 Download PDF

Info

Publication number
KR101729634B1
KR101729634B1 KR1020157023964A KR20157023964A KR101729634B1 KR 101729634 B1 KR101729634 B1 KR 101729634B1 KR 1020157023964 A KR1020157023964 A KR 1020157023964A KR 20157023964 A KR20157023964 A KR 20157023964A KR 101729634 B1 KR101729634 B1 KR 101729634B1
Authority
KR
South Korea
Prior art keywords
audio signal
noise
coefficients
audio
way
Prior art date
Application number
KR1020157023964A
Other languages
English (en)
Other versions
KR20150115885A (ko
Inventor
젠스 엔조 나이바이 크리스튼슨
사이먼 제이. 갓씰
잰 스코그런드
Original Assignee
구글 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 인코포레이티드 filed Critical 구글 인코포레이티드
Publication of KR20150115885A publication Critical patent/KR20150115885A/ko
Application granted granted Critical
Publication of KR101729634B1 publication Critical patent/KR101729634B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/935Mixed voiced class; Transitions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

유입되는 오디오 데이터를 주로 또는 독점적으로 사용하여 오디오 스트림에서 일시적인 노이즈 이벤트(잡음원)의 존재를 탐지하기 위한 방법과 시스템이 제공된다. 이러한 방법은 개선된 시간 해상도를 제공하고 계산상으로 효율적이다. 제시된 방법과 시스템은 일시적인 외곽 노이즈 이벤트를 발견하기 위한 시도에서 오디오 신호의 일부 시간-주파수 표현을 예측 모형의 기초로서 활용하고, 일시적인 노이즈 이벤트 사이에서 공통적인 시간 및 주파수 응집력을 모델링하기 위하여 실제 탐지 상태를 은닉 마르코프 모델(HMM)로서 해석한다.

Description

키보드 타이핑 탐지 및 억제{KEYBOARD TYPING DETECTION AND SUPPRESSION}
본 공개는 일반적으로 신호 처리를 위한 방법, 시스템 및 장치에 관련이 있다. 좀 더 구체적으로, 본 공개의 여러 요소는 수신된 오디오 데이터를 이용하여 오디오 스트림의 일시적인 노이즈 이벤트(잡음원)를 탐지하는 것과 관련이 있다.
고속 인터넷 연결이 어디에서나 흔해지면서 개인용 컴퓨터는 원격회의 어플리케이션을 위한 대중적인 기반이 되었다. 노트북 컴퓨터에 내장된 마이크, 스피커 및 웹캠으로 전화 회의를 매우 쉽게 설정할 수 있게 되었지만, 이러한 기능에는 피드백, 팬 소음 및 버튼 클릭 노이즈 등 성가신 특정 노이즈(잡음) 문제도 유발했다. 버튼 클릭 노이즈는 특히 지속적으로 문제가 되었는데, 이는 일반적으로 키 입력으로 인한 기계적인 자극에 기인하고 있다. 노트북 컴퓨터의 경우, 버튼 클릭 노이즈는 노트북 케이스 내의 마이크와 키보드 사이의 기계적인 연결로 인하여 상당히 성가실 수 있다.
키 입력에 의하여 생성된 노이즈 펄스는 키 입력의 속도 및 길이, 마이크 배치 및 응답, 노트북 프레임 또는 베이스, 키보드 또는 트랙 패드 유형, 그리고 심지어는 컴퓨터가 놓여 있는 장소의 표면과 같은 요인들에 따라 크게 다를 수 있다. 또한 주목해야 할 점은, 많은 경우 마이크와 노이즈 소스가 기계적으로 연결되지 않을 수도 있고, 일부의 경우 키 입력이 전혀 다른 장치에서 비롯될 수 있기 때문에, 소프트웨어적인 기능을 삽입하려는 시도를 무효하게 만들고 있다.
위에서 설명한 문제를 해결하기 위한 시도로서 몇 가지 방법이 있다. 그러나, 이렇게 제시된 해결책의 어떠한 것도 문제를 실시간으로 해결하려고 하지 않으며, 순수하게 오디오 스트림을 기초로 하지 않는다. 예를 들어, 첫 번째 접근 방법은 문제의 오디오 프레임 주위 영역에서 주파수 빈에 대한 선형 예측 모형을 이용한다. 이 첫 번째 방법이 갑작스런 음성 세그먼트를 처리하는 이점은 있지만, 필요한 룩-어헤드(look-ahead)는 20~30 밀리 세컨드(ms) 사이에 있고 이로 인하여 탐지가 적어도 그 시간만큼 지연된다. 이러한 접근 방식은 최종적인 탐지 결정을 위하여 하드웨어 키보드로부터 확인이 필요한 경우 단지 보조적인 방법으로서 제안되었다.
20ms의 프레임 길이와 10ms의 오버랩으로는 과도현상의 정확한 위치 파악이 어렵다는 것을 주목해야 한다. 과도현상이 오디오 스트림에서 제거되어야 한다면 중요한 문제는 과도현상의 정확한 위치를 파악하는 일이다. 또한, 많은 일시적인 노이즈가 키보드를 통한 하드웨어 입력으로 탐지되지 않을 수도 있으며. 좀더 일반적인 접근방법이 일시적인 노이즈에 대하여 더 일관된 노이즈 감소 성능을 제공할 수 있다는 점도 주목할 만한 가치가 있다.
두 번째 방법은 중앙값 필터(median filter)를 기초로 외곽에 있는 노이즈 이벤트(잡음원)를 식별하고 그 다음에 중앙값 필터 데이터를 근거로 오디오를 복원하는 것을 제안한다. 이 두 번째 방법은 주로 몇 개의 손상된 샘플만을 가진 훨씬 빠른 손상 사건(corruption events)을 위해 고안되었다.
세 번째 방법은 전술한 두 번째 방법과 비슷하나, 웨이브릿(wavelet)을 기본으로 사용하는 점에서 차이가 있다. 이 세 번째 방법은 탐지의 시간 해상도를 일시적으로 증가시키지만 탐지의 비율을 독자적으로 고려한다. 따라서 이로 인하여 더 일시적인 음성 구성 요소에 따라 탐지 오류가 생길 수 있다.
버튼 클릭 노이즈라는 성가신 문제를 해결하기 위한 네 번째 방법은 보조 데이터에 의존하지 않는 알고리즘을 제안한다. 이 네 번째 방법에서, 탐지는 단기 푸리에(Fourier) 변환에 근거하고, 갑작스럽게 생기는 음성 세그먼트를 거짓으로 탐지할 수 있는 스펙트럼 평탄도 및 고주파 구성요소의 증가 비율에 의하여 식별된다. 이 네 번째 방법에서 제안된 알고리즘은 후 처리를 위한 것이고, 이 알고리즘을 실시간 계산 효율적인 방식으로 구현하면 시간 해상도(temporal resolution)를 잃게 된다. 또한, 이 네 번째 방법이 실생활에 적용될 때 볼 수 있는 일시적인 노이즈의 범위에 대하여 잘 작동할 지가 분명하지 않다. 탐지 상태의 확률적 해석은 탐지를 위해 좀 더 적응 가능하고 의존할 수 있는 기초를 가져올 수 있다. 이 네 번째 방법은 또한 낮은 시간 해상도와 함께 청취자를 지나치게 방해하고 혼란스럽게 할 수 있는 스케일된 주파수 구성요소에 기반한 복원을 제안하고 있다.
이 요약문은 본 공개의 몇몇 측면에 대한 기본적인 이해를 제공하기 위하여 단순화된 형태로 발췌된 개념을 소개한다. 이 요약문은 본 공개를 포괄적으로 개관하는 것이 아니며, 그 의도 또한 공개의 핵심 또는 중요한 요소들을 확인하거나 공개의 범위를 기술하기 위한 것이 아니다. 이 요약문은 하기의 세부 설명에 대한 서두로서 단순히 본 공개의 일부 개념만을 제시한다.
본 공개에 대한 하나의 실시예는 오디오 신호에서 일시적인 노이즈의 존재를 탐지하는 방법과 관련되어 있고, 상기 방법은: 오디오 신호 중 하나 이상의 음성 부분을 식별하고; 상기 오디오 신호에서 하나 이상의 식별된 음성 부분을 추출하고, 여기에서 하나 이상의 음성 부분이 오디오 신호의 잔여 부분을 생성하고; 신호의 잔여 부분에 대한 하나 이상의 탐지 상태의 초기 확률을 추정하고; 하나 이상의 각 탐지 상태 사이에서 전이 확률 계산하며; 그리고 하나 이상의 탐지 상태의 초기 확률과 하나 이상의 탐지 상태 사이의 전이 확률을 기초로 신호의 잔여 부분에 대한 예상 탐지 상태를 확인하는 단계를 포함한다.
다른 실시예에서, 일시적인 노이즈의 존재를 탐지하기 위한 방법에는 재귀적으로 음조 구성요소를 감산하여 오디오 신호를 전처리하는 단계를 더 포함한다.
일시적인 노이즈의 존재를 탐지하는 다른 실시예에서, 오디오 신호의 전처리 단계는 오디오 신호를 일련의 계수로 분해하는 것이 포함된다.
다른 실시예에서, 일시적인 노이즈의 존재를 탐지하는 방법에는 오디오 신호의 잔여 부분에 대한 예측 모형을 생성하기 위하여 오디오 신호의 잔여 부분에 대한 시간-주파수 분석을 수행하는 것을 더 포함한다.
다른 실시예에서, 일시적인 노이즈의 존재를 탐지하는 방법에는 오디오 신호의 잔여 부분과 한 개 이상의 추출된 음성 부분을 재결합하는 것을 더 포함한다.
다른 하나의 실시예에서, 일시적인 노이즈의 존재를 탐지하는 방법에는 오디오 신호의 잔여 부분을 바탕으로 추가적인 음성 부분이 오디오 신호의 잔여 부분에 남아 있는지를 확인하고, 오디오 신호의 잔여 부분에서 한 개 이상의 추가 음성 부분을 추출하는 것을 더 포함한다.
또 다른 실시예에서, 일시적인 노이즈의 존재를 탐지하는 방법에는 잔여 부분과 한 개 이상의 추출 음성 부분을 재결합 하기 전에, 한 개 이상의 추출 음성 부분이 일시적인 노이즈 중에서 저주파 성분을 포함하는 것을 확인하고 한 개 이상의 추출 음성 부분에서 일시적인 노이즈의 저주파 구성요소를 여과하는 단계를 더 포함한다.
여전히 다른 실시예에서, 일시적인 노이즈의 존재를 탐지하는 방법에는 신호의 잔여 부분에서 부가적인 노이즈를 평균 0의 가우스(Gaussian) 프로세스로 모델링 하는 것을 더 포함한다.
또 다른 실시예에서, 일시적인 노이즈의 존재를 탐지하는 방법에는 신호의 잔여 부분에서의 부가적인 노이즈를 추정 계수로써 자기회귀(AR) 프로세스로 모델링 하는 것을 더 포함한다.
여전히 또 다른 실시예에서, 일시적인 노이즈의 존재를 탐지하는 방법에는 추정된 탐지 상태를 기초로 오디오 신호 중에서 손상된 샘플을 확인하고 오디오 신호에서 손상 샘플을 복원하는 것도 포함된다.
일시적인 노이즈의 존재를 탐지하는 방법에 대한 다른 실시예에서, 손상된 샘플을 복원하는 단계에는 오디오 신호에서 손상된 샘플을 제거하는 것이 포함된다.
하나 이상의 다른 실시예에서, 여기에 소개된 방법은 다음 추가적인 특징 중 하나 이상을 선택적으로 포함할 수 있다. 시간-주파수 분석은 이산 웨이브릿 변환이다; 시간-주파수 분석은 웨이브릿 패킷 변환이다; 오디오 신호 중 한 개 이상의 음성 부분은 주파수 영역에서 스펙트럼 피크를 탐지함으로써 식별된다; 스펙트럼 피크는 중앙값 필터 출력의 임계화를 통하여 탐지된다. 그리고/또는 한 개 이상의 추가 음성 부분이 주파수 영역에서 오디오 신호의 잔여 부분에 대한 스펙트럼 피크를 탐지함으로써 식별된다.
본 공개의 추가적인 적용 범위는 아래에 주어진 세부 설명을 통하여 명백하게 파악된다. 그러나, 세부 설명과 특정한 예제는 최적의 실시예를 나타내지만, 설명을 위해서만 주어진 것임을 이해해야 한다. 왜냐하면 본 공개의 사상과 범위 내에서 이루어지는 다양한 변경과 수정 사항은 이 세부 설명을 통해 당해 기술 분야에 숙련된 기술을 가진 자가 명백하게 이해할 수 있기 때문이다.
본 공개의 다양한 목적, 기능 및 특성은 본 명세서의 일부를 구성하는 첨부된 청구항 및 도면과 연계하여, 다음과 같은 세부 설명을 검토하면 당해 기술 분야에서 숙련된 기술을 가진 자가 좀 더 명확하게 파악하게 된다. 도면에서:
도 1은 여기에서 기술된 하나 이상의 실시예에 따라, 유입되는 오디오 데이터를 사용하여 오디오 스트림에서 일시적인 노이즈 이벤트(잡음원)의 존재를 탐지하기 위한 예시적인 시스템을 도시한 블록 다이어그램이다.
도 2는 여기에서 기술된 하나 이상의 실시예에 따라 음성 신호 추출 출력의 예를 그래픽으로 표현한 것이다.
도 3은 여기에서 기술된 하나 이상의 실시예에 따라, 유입되는 오디오 데이터를 사용하여 오디오 스트림에서 일시적인 노이즈 이벤트(잡음원)의 존재를 탐지하기 위한 예시적인 방법을 도시한 흐름도이다.
도 4는 여기에서 기술된 하나 이상의 실시예에 따라 일시적인 노이즈 탐지의 예시적인 실행을 그래픽으로 표현한 것이다.
도 5는 여기에서 기술된 하나 이상의 실시예에 따라, 유입되는 오디오 데이터를 사용하여 오디오 스트림에서 일시적인 노이즈 이벤트(잡음원)의 존재를 탐지하기 위하여 마련된 예시적인 컴퓨팅 장치를 도시한 블록 다이어그램이다.
여기에 제공된 제목(표제)은 단지 편의를 위한 것이며, 반드시 본 공개의 청구 범위 또는 의미에 영향을 주는 것은 아니다.
도면에서, 동일한 참조 숫자 및 약어는 이해를 용이하게 하고 편의를 위하여 동일하거나 유사한 구조 또는 기능을 가진 요소 또는 작용을 나타낸다. 도면은 다음 세부 설명 과정에서 자세히 설명된다.
이제 다양한 예시와 실시예가 기술된다. 다음 설명은 이러한 예시의 철저한 이해와 설명을 위하여 구체적인 세부사항을 제공한다. 그러나 관련 기술 분야에서 숙련된 기술을 가진 자는 이러한 세부사항이 많이 제공되지 않더라도 여기에서 기술된 하나 이상의 실시예가 이행될 수 있음을 이해할 수 있다. 마찬가지로, 관련 기술 분야에서 숙련된 기술을 가진 자는 본 공개에 관한 하나 이상의 실시예가 여기에서는 자세히 기술되지 않지만 기타 분명한 특징을 다수 포함할 수 있다는 점도 이해할 것이다. 또한, 잘 알려진 일부 구조나 기능이 관련 설명을 모호하게 하는 것을 피하기 위하여 아래에 자세히 나타내거나 기술하지 않을 수 있다.
1. 개요
본 공개의 실시예는 유입되는 오디오 데이터를 주로 또는 독점적으로 사용하여 오디오 스트림의 일시적인 노이즈 이벤트의 존재를 탐지하기 위한 방법과 시스템에 관련된 것이다. 이러한 접근 방식은 개선된 시간 해상도를 제공하며 계산상으로도 효율적이다. 아래에서 자세히 설명되는 바와 같이, 여기에서 제시된 방법과 시스템은 일시적인 외곽 일시 노이즈 이벤트를 찾으려고 시도할 때 예측 모형의 기초로서 오디오 신호의 일부 시간-주파수 표시[예: 이산 웨이브릿 변환(DWT), 웨이브릿 패킷 변환(WPT)]를 활용한다. 또한, 본 공개의 방법은 일시적인 노이즈 이벤트 가운데 통상적인 시간 또는 주파수 응집 모형을 만들기 위하여 진정한 탐지 상태를 은닉 마르코프 모델(HMM)로 해석한다.
아래에서 자세히 기술되는 바와 같이, 제시된 알고리즘은 전처리 단계를 사용하여 오디오 신호를 노이즈 펄스에 관련된 계수들의 희소 세트(sparse set)로 분해한다. 거짓 탐지를 최소화하기 위하여, 시스템 자원이 허용하는 한 음조 구성요소를 재귀적으로 제외하여 오디오 데이터를 전처리할 수 있다. 이 방법은 주로 단일 오디오 스트림에 기초하여 일시적인 노이즈 이벤트를 탐지하고 복원하지만, 운영체제 정보 등을 통하여 실재 탐지가 확인될 수 있다면 다양한 매개 변수를 조정할 수 있다.
아래에서 제시된 알고리즘은 일시적인 노이즈 펄스와 음성 신호 사이에서 보인 스펙트럼 및 시간 특성의 대비를 이용한다. 전환된 노이즈 프로세스는 노이즈 펄스의 탐지를 위해 일부 오프라인 어플리케이션에서 사용되지만(일부는 희소하게 사용), 이러한 다른 접근 방법은 일괄 처리를 구현하며, 이 중 어느 것도 실시간 구현에는 적합하지 않다. 또한, 이러한 기존 방법의 처리 요구 사항이 간단한 것이 아니기 때문에, 이 방법들은 실시간 통신 시스템의 일부로서 적합하게 구현될 수 없다.
다른 시스템들은 2-상태 탐지 시스템에서 시간 및 스펙트럼 응집 모형을 만들기 위하여 마르코프 체인 몬테 카를로(MCMC) 방법을 활용해 왔다. 그러나, 이러한 시스템도 상당한 연산 요건을 갖춘 일괄 처리 구현으로 간주된다. 비록 본 공개에 대해 하나 이상의 실시예에서 제안된 베이즈(Bayesian) 복원 단계가 기타 복원 방법과 유사한 점이 있지만, 본 공개에서 사용된 가우스 임펄스와 배경 모델은 계산상 효율적인 구현으로의 복원을 크게 단순화시킨다. 이 점은 여기에서 보다 자세히 기술된다.
2. 탐지
도 1은 여기에서 기술된 하나 이상의 실시예에 따라 유입되는 오디오 데이터를 사용하여 오디오 스트림에서 일시적인 노이즈 이벤트(잡음원)의 존재를 탐지하기 위한 예시적인 시스템을 도시한다. 적어도 하나 이상의 실시예에서, 탐지 시스템 100은 음성 추출 구성요소 110, 시간-주파수 탐지기 120 그리고 잔여 음성 신호를 위한 보간 구성요소 130 및 160을 포함할 수 있다. 또한, 탐지 시스템 100은 도 3에서 도시한 알고리즘과 유사한 알고리즘을 수행할 수 있으며, 아래에 상세히 기술되어 있다.
탐지 시스템 100으로 입력되는 오디오 신호 105는 음성 추출 110을 거칠 수 있으며, 이는 음성 신호 부분 150과 잔여 신호 부분 140이 된다. 음성 추출 110 다음으로, 잔여 신호 부분 140은 (시간-주파수 탐지기 120을 통하여) 시간-주파수 분석을 거쳐 가능한 복원 단계(보간 구성요소 130을 통하여)를 위한 정보를 제공할 수 있다. 음성 신호 150은 시간-주파수 탐지기 120의 결과를 바탕으로 복원이 요구될 수 있으며, 이러한 복원은 음성 신호 150에 대한 보간 구성요소 160에 의하여 실행될 수 있다. 그 다음에 보간된 음성 신호 150 및 잔여 신호 140은 재결합되어 출력 신호를 형성한다. 음성 추출 110, 시간-주파수 탐지기 120 및 보간 130과 160은 각각 다음 섹션에서 보다 자세히 기술될 것이다.
여기에서 기술된 하나 이상의 실시예에 따라, 탐지 장치 100이 탐지 알고리즘을 반복하여 수행할 수 있음을 주목해야 한다. 예를 들어, 필요한 복원 처리(예: 보간 구성요소 130과 160) 후에 보간된 음성 신호 150 및 잔여 신호 140이 재결합되면, 추가적인 신호 복원이 필요한 지 결정할 수 있다. 추가 복원의 필요성이 확인되면, 재결합된 신호가 탐지 시스템 100의 다양한 구성요소를 통하여 재 처리될 수 있다. 초기 반복 기간 동안 신호에서 일시적인 일부 구성요소를 제거했기 때문에, 이후의 반복은 오디오 분리에 영향을 미치고 전반적으로 더 좋은 결과를 가져올 수 있다.
도 2는 여기에서 기술된 하나 이상의 실시예에 따라 음성 신호 추출의 출력 예를 도시한다. 예를 들어, 입력된 신호 205 의 음성 추출 출력(예: 도 1에서 표시된 예시 시스템의 입력 신호 105에 대한 음성 추출 구성요소 110에 의하여)에는 음성 신호 부분 250과 잔여 신호 부분 240(예: 도 1에서 표시된 예시 시스템에서 음성 신호 부분 150 및 잔여 신호 부분 140)이 통하여).
다음 섹션에서 도 3을 참조할 수 있으며, 이 도면은 유입되는 오디오 데이터를 사용하여 오디오 스트림에서 일시적인 노이즈 이벤트의 존재를 탐지 하기 위한 예시적인 프로세스를 도시한다. 적어도 하나의 실시예에서, 도시된 프로세스가 예를 들어 도 1과 위에서 기술된 탐지시스템 100의 음성 추출 구성요소 110, 시간-주파수 탐지기 120 및 보간 구성요소 130, 160에 의하여 실행될 수 있다.
2.1 음조 추출기
거짓 탐지 비율을 줄이기 위해, 신호의 음성 부분이 추출될 수 있다(예: 도 1에서 표시된 예시 탐지 시스템의 음성 추출 110을 통하여). 신호의 음성 부분은 도 3에서 도시된 프로세스의 블록 300과 305에서 각각 식별된 후 추출될 수 있다. 예를 들어, 신호의 음성 부분은 주파수 영역에서 음향 공명 또는 스펙트럼 피크의 탐지를 통해 식별될 수 있다. 그 다음에 음성 부분이 탐지 절차 전에 추출될 수 있다. 스펙트럼 영역에서 피크는 예를 들어 필터 출력 중앙값의 임계화에 의하여 또는 다른 몇 가지 피크 탐지 방법에 의하여 식별될 수 있다.
블록 310에서, 추가 추출(예: 음성 추출)이 필요한 지 여부에 대해 결정할 수 있다. 추가적인 추출이 필요할 경우, 프로세스는 블록 300과 305로 돌아갈 수 있다. 다른 프레임 크기 및 임계값에 대해 식별 및 추출(예를 들어 블록 300과 305에서)을 여러번 반복함으로써, 신호의 추가적인 음성 부분이 추출될 수 있다. 블록 310에서 추가적인 추출이 필요하지 않은 경우, 프로세스는 탐지 상태의 초기 확률 추정(블록 315), 상태 사이의 전이 확률 계산(블록 320), 각 상태의 확률을 기초로 가장 가능성이 있는 탐지 상태 확인(블록 325) 그리고 손상된 오디오 샘플의 보간(블록 330) 단계로 이동될 수 있다. 블록 315에서 330까지 표시된 작업은 아래에 보다 상세하게 기술된다.
적어도 하나 이상의 실시예에서, 탐지 상태가 추정된 후, 프로세스는 블록 335로 이동될 수 있으며, 여기에서 신호의 음성 부분이 다시 삽입될 수 있다(예를 들어, 음성 추출 110, 시간-주파수 분석 120 그리고 보간 130 이후, 도 1에서 도시된 바와 같이, 잔여 음성 부분 140이 추출된 음성 신호 부분 150(예: 보간 160 이후에)과 재결합될 수 있다. 통하여).
오디오 신호는 이제 다음과 같은 방법으로 표현될 수 있다.
Figure 112015085425970-pct00001
(1)
여기에서,
Figure 112015085425970-pct00002
는 신호의 음성 부분의 계수이고,
Figure 112015085425970-pct00003
는 표준 푸리에(Fourier), 케프스트럼(Cepstrum) 또는 가보(Gabor) 분석 또는 음성 스피치 필터를 바탕으로 하는 기저 함수이다. 또한,
Figure 112015085425970-pct00004
은 잔여 부분의 계수이며, 여기에서 j는 일부 기저 함수
Figure 112015085425970-pct00005
를 이동(translation) 및/또는 확장(dilation)하는 정수이다.
2.2 잔여 신호의 시간-주파수 분석
위 방정식 (1)에서 계수
Figure 112015085425970-pct00006
는 웨이브릿 패킷 분해(WPD)로부터 웨이브릿 계수로 해석될 수 있으며, jj번째의 터미널 노드 또는 척도
Figure 112015085425970-pct00007
를 나타내고, 여기에서 레벨 L 분해에 대하여 J = L 2이다. 다음 설명에서, 데시메이션(decimation)에 기인한 스케일링 때문에 n은 웨이브릿 계수의 시간 인덱스로서 t를 대체한다, 그러나 데시메이션되지 않은 변환의 경우, t = n이 된다. 더구나, w(n)은 주어진 시간 인덱스 n에서 모든 계수의 벡터를 나타내는 데 사용될 것이다. 각 터미널 노드 j에 대한 계수는 일부 추가 노이즈 프로세스로서 모델링되어 다음과 같은 결과가 발생할 수 있다고 가정할 수 있다.
Figure 112015085425970-pct00008
(2)
여기에서,
Figure 112015085425970-pct00009
Figure 112015085425970-pct00010
Figure 112015085425970-pct00011
에 대하여, 그렇지 않으면
Figure 112015085425970-pct00012
에 대하여
Figure 112015085425970-pct00013
의 존재를 나타내는 이진(1/0) 스위칭 변수이다. 따라서 일시적인 신호
Figure 112015085425970-pct00014
는 부가적인 노이즈
Figure 112015085425970-pct00015
에 의하여 손상된 스위칭된 노이즈 버스트(noise burst)이다. 일시적인 노이즈 버스트의 그룹화가
Figure 112015085425970-pct00016
의 통계에 좌우될 수 있음에 유의해야 한다. 다양한 척도 j에서 그리고 연속적인 시간 인덱스 n을 가진
Figure 112015085425970-pct00017
의 해당 값은 주파수와 시간과의 응집 정도를 어느 정도 설명해줄 수 있는 마르코프(Markov) 체인으로 모델링할 수 있다. 예를 들어, 일시적인 노이즈 펄스는 일반적으로 유사한 시작(onset) 인덱스를 가질 수 있고, 아마도 웨이브릿 척도 j와 비례하는 시간 동안 활성 상태를 유지할 것이다
모델은 이제 부가적인 노이즈 및 계수의 행렬(매트릭스)로 표현될 수 있다.
Figure 112015085425970-pct00018
, (3)
여기에서
Figure 112015085425970-pct00019
이고, j번째 계수 세트에 대하여
Figure 112015085425970-pct00020
이다. 또한, 방정식 (3)에서 θ는 요소
Figure 112015085425970-pct00021
를 포함하는 N 매트릭스에 의해 상응하는 스위칭된 노이즈 버스트J를 나타내고, v는 예를 들면 계수에 대한 음성의 효과를 기술하는 랜덤 부가 노이즈이다. 단순화를 위하여,
Figure 112015085425970-pct00022
는 이산 벡터
Figure 112015085425970-pct00023
가 2 N 개의 값 중의 어느 하나를 가질 수 있도록 척도j 전체에 걸친 상수로 간주될 수 있다. 따라서, 탐지 작업은 이제 관찰된 순서 w에서 i의 실제 상태의 추정치가 된다. 더 정교한 구현에서, 다른 척도들에 걸쳐 i 값이 서로 다를 수 있고, 은닉 마르코프 트리(hidden Markov tree) 또는 유사한 구조를 통하여 통계적으로 서로 연결된다.
노이즈 버스트 θ와 배경 노이즈(예: 음성) v 모두가 평균 0인 가우스 분포로 모델링 할 수 있다고 가정하면 다음 방정식이 산출된다.
,
Figure 112015085425970-pct00024
(4)
여기에서, Λ는 공분산 행렬(covariance matrix)이다. 하나의 예로, Λ의 대각선 요소는 단순히
Figure 112015085425970-pct00025
일 수 있다. 그러나, 또 다른 예로, Λ의 대각선 요소는 또한 좀더 복잡한 분산 응집을 나타낼 수 있다. 노이즈 펄스 기간 동안 분산을 일정하게 유지하기 보다는, 변화하는 분산의 일부 포락선(envelope)을 기반으로 한 변경 분산 모델이 대상 과도현상에 대해 더 정확하게 일치할 수 있다.
배경 노이즈는 마찬가지로 평균 0의 가우스 프로세스로서 모델링될 수 있고 그 결과는 다음과 같다:
,
Figure 112015085425970-pct00026
(5)
여기에서, C v 는 공분산 행렬이다. 하나의 예로, C v 의 대각선 요소는 단순히
Figure 112015085425970-pct00027
일 수 있다. 보다 계산 집약적인 구현이 추정된 계수 또는 단순 평균 계수 세트를 가진 자기 회귀(AR) 프로세스로서 v를 모델링 할 수 있다.
AR 배경 노이즈를 바탕으로 한 간단한 구현은 각 계수가 일부 노이즈 뿐만 아니라 M 개의 선행(및 가능하게는 후속) 계수에 의하여 추정될 수 있음을 가정할 수 있다. 각 척도(scale)를 독립적으로 취급하기 때문에, 각 척도로부터 가능성의 결과에 의하여 결합된 가능성을 계산할 수 있다. 이러한 구현에서, 일시적인 노이즈 이벤트는 결합된 가능성을 임계화하여 탐지할 수 있다. 이러한 구현의 추가 알고리즘의 세부 사항은 아래의 "구현 예시"에서 제공된다.
탐지 상태 i를 랜덤 이산 벡터로 취급하면, 관찰된 (그리고 손상된) 데이터 wi의 가용할 수 있는 기타 사전 정보를 조건으로 확률을 결정할 수 있다. 탐지에 관한 사전 정보에는 예를 들어 운영체제(OS)로부터 나온 정보, 최근 탐지를 기반으로 추정 가능한 탐지 타이밍, 사용자에게서 알게 된 정보에 근거한 추정 가능한 탐지 타이밍 등이 포함될 수 있다. 적어도 하나 이상의 실시예에 따라, 이 사후 확률
Figure 112015085425970-pct00028
은 베이즈 규칙을 사용하여 다음과 같이 표현될 수 있다.
,
Figure 112015085425970-pct00029
(6)
여기에서, 가능성
Figure 112015085425970-pct00030
은 계산의 주된 부분으로 간주될 수 있다.
위에서 기술한 대로, θ는 변환된 랜덤 노이즈 프로세스를 나타낸다. 이 전환된 랜덤 노이즈 프로세스의 진폭은 노이즈 버스트 진폭 확률 밀도함수
Figure 112015085425970-pct00031
(probability density function)에 의하여 정의될 수 있고, 이는 i n = 1인 경우의 분출 진폭의 결합 분포이다.
두 함수
Figure 112015085425970-pct00032
Figure 112015085425970-pct00033
가 평균 0인 가우스 분포이기 때문에, 각 세트의 웨이브릿 계수는 다음과 같이
Figure 112015085425970-pct00034
로서 표현될 수 있다:
Figure 112015085425970-pct00035
, (7)
그리고 가능성 함수
Figure 112015085425970-pct00036
는 다음과 같이 된다
Figure 112015085425970-pct00037
. (8)
i n 에 대한 최대 사후 확률(MAP) 추정치는
.
Figure 112015085425970-pct00038
(9)
로서 계산될 수 있다.
본 공개에 대한 하나 이상의 실시예에 따라, 일반적으로 탐지가 탐지 블록으로 된다는 지식을 모델에 적용할 수 있다. 예를 들어, 상태 벡터 i를 HMM으로 간주하면, 예상 탐지의 성질에 대한 특정 지식을 모델에 적용할 수 있다. 적어도 하나 이상의 실시예에서, 비터비(Viterbi) 알고리즘을 사용하여 가장 가능한 i의 변화 또는 i n 의 순서를 계산할 수 있다. 데이터의 순서를 감안할 때 가장 가능성 있는 탐지 상태는 다음과 같이 표현될 수 있다:
.
Figure 112015085425970-pct00039
(10)
방정식 (10)에서
Figure 112015085425970-pct00040
는 시작 확률이고,
Figure 112015085425970-pct00041
은 하나의 상태에서 다음 상태까지의 전이 확률이고,
Figure 112015085425970-pct00042
은 방출 확률 또는 관측 확률이다.
본 공개에 대한 적어도 하나 이상의 실시예에 따라, 위에서 기술되고 도 3에서 도시된 알고리즘을 확장하려면 전체 알고리즘을 반복해서 실행할 수 있다. 예를 들어, 프로세스가 블록 335(여기에서는 신호의 음성 부분이 재삽입되고 잔여 신호 부분과 결합될 수 있다. 예를 들면 음성 추출 110, 시간-주파수 분석 120 및 보간 130 이후에, 잔여 신호 부분 140이 도 1에서 도시된 바와 같이 추출된 음성 신호 부분 150과 재결합될 수 있다)에서 블록 340으로 이동될 수 있으며, 여기에서 신호의 추가 복원 필요성이 확인된다(도 3의 파선으로 표시 ). 블록 340에서 추가 복원의 필요성이 확인되면, 프로세스는 블록 300으로 되돌아 가서 반복될 수 있다. 이전 반복 동안, 신호에서 일시적인 구성요소를 일부 제거했기 때문에, 이 다음 반복은 오디오 분리에 영향을 미치고 전반적으로 더 좋은 결과를 가져올 수 있다. 블록 340에서 추가 복원이 필요하지 않다고 확인되면, 프로세스는 종료될 수 있다.
도 4는 여기에서 기술된 하나 이상의 실시예에 따라 일시적인 노이즈 탐지의 실행 예시를 도시한다. 단계 함수(step function) 405가 탐지를 나타내는 그래픽 예시에서, 높은 값에서 탐지가 발견되고, 낮은 값에서는 탐지되지 않는다. 탐지 405는 또한 도 1에서 도시한 바와 같이 구성요소 130과 160을 가진 보간(법)을 위해 가능한 영역을 표시한 것이다.
도 4에 표시된 예시에서, 탐지된 상태는 이 예시를 위한 근거 사실과 부합되고, 주변의 음성 신호에도 불구하고 과도 현상이 포착된다. 단계 함수 405는 일시적인 각 노이즈 이벤트에서 단일 탐지가 아니라 손상된 일련의 샘플을 나타낸다. 그 이유는 이 경우에 알고리즘이 적절한 수의 손상 샘플을 정확하게 확인하기 때문이다. 양호한 시간 해상도로 분해를 이용할 때 이점은 탐지 개시와 기간이 보다 정확하게 결정되고 손상된 프레임이 덜 강제적인 방식으로 처리될 수 있다는 점이다.
3. 보간
위의 이전 섹션에서 기술한 바와 같이, i의 가장 가능성 있는 상태를 추정했기 때문에, 이제는 하나 이상의 다양한 방법으로 손상된 샘플(예: 시간 ni n = 1 에 대한 w(n의 값)을 보간(삽입)할 수 있다.
적어도 하나 이상의 실시예에서,
Figure 112015085425970-pct00043
를 추정함으로써 베이즈 접근방법을 진행할 수 있다. 예를 들어, 베이즈 규칙을 사용하면 다음 결과가 얻어진다.
,
Figure 112015085425970-pct00044
(11)
여기에서
,
Figure 112015085425970-pct00045
(12)
그리고
Figure 112015085425970-pct00046
. (13)
이다.
방정식 (12)와 (13)을 결과가 세 번째 가우시안(Gaussian)에 비례하는 방정식 (11)에 대입하면 다음과 같은 결과가 나온다:
Figure 112015085425970-pct00047
. (14)
배경 노이즈 v n 과 노이즈 버스트 θ n 모두가 가우시안인 이 경우에서, 조건부 분포의 평균을 추정하는 것은 위너형(Wiener-style) 웨이브릿 수축에서
Figure 112015085425970-pct00048
요인에 의하여 손상된 샘플을 단순히 스케일링(조정)하는 것과 동일하다. 이러한 추정의 간단한 형태는 대각선 공분산 행렬을 가진 위의 사례에서 참조한다.
하나 이상의 다른 실시예에서, 더 간단한 복원법으로 손상된 계수를 완전히 제거할 수 있는 반면, 복잡한 접근법은 선행 또는 후속 계수를 대상으로 하는 훈련된 AR 프로세스를 이용해 손상된 계수를 보완하려고 시도할 수 있다.
본 공개에 대해 하나 이상의 실시예에 따라, i n 의 가장 가능성 있는 상태를 추정했기 때문에, 음성에서 제거/추출된 일시적인 노이즈의 저주파수(예: 소정의 임계 주파수 이하) 구성요소들을 여과하는 것이 추가로 필요할 수 있다(예: 도 1에 나오는 음성 신호 부분 150) 통하여).
복원 프로세스를 마친 후, 처리된 잔여 신호 부분(예: 키 입력을 제거한 부분)과 방정식 (1)에서 얻은 음조 구성요소 사전을 재결합함으로써 알고리즘을 진행할 수 있다.
4. 구현 예시
다음은 본 공개에 대해 하나 이상의 실시예에 따라 일시적인 노이즈 이벤트를 탐지하기 위한 구현 예시가 기술된다. 본 구현 예시가 일시적인 노이즈를 위한 전통적인 AR 모형에 기반한 탐지기를 이용해 제거되고 대체된 베이즈/HMM 구성요소를 가진 단순 실시예에 관한 것임을 참고해야 한다. 따라서, 다음은 단지 예시의 목적으로만 제공되며, 어떤 식으로든 본 공개의 범위를 제한하기 위한 의도를 가지지 않는다.
본 예시는 AR 배경 노이즈에 기초를 두고 있고, 일부 노이즈 외에 M (여기서 "M"은 임의의 숫자임)개의 선행(그리고 아마도 후속) 계수에 의하여 추정될 수 있다고 가정한다. 각 척도(scale)를 독립적으로 취급하기 때문에, 각 척도로부터 가능성의 결과에 의하여 결합된 가능성을 계산할 수 있다. 이러한 구현에서, 일시적인 노이즈 이벤트는 결합된 가능성을 임계화하여 탐지할 수 있다. 이러한 구현의 추가 알고리즘의 세부 사항은 아래에 제공된다.
길이 N의 유입되는 오디오 시퀀스 x(n)의 WPD의 터미널 노드 계수 또는 기타 시간-주파수 분석 계수는 X(j,t)로 정의될 수 있으며, 여기에서 jj번째 터미널 노드(척도 또는 주파수)
Figure 112015085425970-pct00049
이고, tn과 관련된 시간 인덱스이다. 레벨 L WPD는 J = 2 L 개의 터미널 노드를 산출한다. 다음에서, X(t)는 주어진 시간 인덱스 t에서 모든 계수의 벡터를 나타내는 데 사용될 수 있다. 또한, 각 터미널 노드 j에 대한 계수가 선형 예측 모형을 따르는 것으로 가정될 수 있다.
Figure 112015085425970-pct00050
(15)
여기에서, a jm j번째 터미널 노드에 적용된 m번째 가중치이며, 그 결과식은
Figure 112015085425970-pct00051
이고, M은 사용된 버퍼의 크기이며, 그리고 v(j,t)는 평균이 0인 가우스형 노이즈이며 그 식은
Figure 112015085425970-pct00052
. (16)
이다.
X의 선행 값을 조건으로 한 X(j,t)의 확률은 이제
Figure 112015085425970-pct00053
(17)
로서 표현될 수 있다.
그리고 한계 확률은 다음과 같이 표현될 수 있다.
Figure 112015085425970-pct00054
, (18)
이러한 수식은 계수의 세트별 조건부 확률이 독립적이라고 가정한다.
현재 계수 X(t)에 대한 로그-라이클리우드(log-likelihood) log L = log p(X(t))는 과 같이 계산될 수 있다.
Figure 112015085425970-pct00055
(19)
여기에서 C j , t 는 상수이다. log L 값은 이제 X(t)가 이전의 값에 의하여 얼마나 잘 예측될 수 있는 가에 대한 기준이다.
도 5는 하나 이상의 실시예에 따라 유입되는 오디오 데이터를 사용하여 오디오 스트림에서 일시적인 노이즈 이벤트(잡음원)의 존재를 탐지하기 위하여 마련된 예시적인 컴퓨팅 장치 500을 도시한 블록 다이어그램이다. 예를 들어, 컴퓨팅 장치 500은 위에서 설명한 대로 일시적인 외곽 노이즈 이벤트를 찾기 위한 시도에서, 유입되는 오디오 신호의 시간-주파수 표시를 예측 모형으로 활용하기 위한 목적으로 구성될 수 있다. 적어도 하나 이상의 실시예에 따라, 컴퓨팅 장치 500은 또한 일시적인 노이즈 이벤트 사이에서 공통적인 시간 및 주파수 응집을 모형으로 삼기 위하여 실제 탐지 상태를 은닉 마르코프 모델(HMM)로서 해석하기 위한 목적으로 구성될 수 있다. 매우 기본적인 구성 501에서, 컴퓨팅 장치 500은 일반적으로 하나 이상의 프로세서(처리기) 510 및 시스템 메모리 520을 포함한다. 메모리 버스 530은 프로세서 510 및 시스템 메모리 520 간의 통신에 사용될 수 있다.
바람직한 구성에 따라, 프로세서 510은 마이크로 프로세서(μP), 마이크로 제어기(μC), 디지털 신호 프로세서(DSP) 또는 이들의 조합을 포함하되 이들에 한정되는 않는 임의의 유형에 해당될 수 있다. 프로세서 510은 하나 이상의 캐시 레벨, 예컨대 레벨 1 캐시 511 및 레벨 2 캐시 512, 프로세서 코어 513 그리고 레지스터 514를 포함할 수 있다. 프로세서 코어 513은 산술 논리 장치(ALU), 플로팅 포인트 장치(FPU), 디지털 신호 프로세싱 코어(DSP 코어) 또는 이들의 조합을 포함할 수 있다. 메모리 제어기 515는 또한 프로세서 510과 함께 사용될 수 있거나, 혹은 일부 실시예에서 메모리 제어기 515가 프로세서 510의 내부 부분이 될 수 있다.
바람직한 구성에 따라, 시스템 메모리 520은 휘발성 메모리(예컨대, RAM), 비 휘발성 메모리(예컨대, ROM, 플래시 메모리, 등) 또는 이들의 조합을 포함하되 이들에 한정되지 않는 어느 유형에 해당될 수 있다. 시스템 메모리 520은 일반적으로 운영체제 521, 하나 이상의 어플리케이션 522 및 프로그램 데이터 524를 포함한다. 하나 이상의 실시예에서, 어플리케이션 522는 주로 또는 독점적으로 유입되는 오디오 데이터를 사용하여 오디오 스트림에서 일시적인 노이즈 이벤트(예: 도 1의 예시 시스템에서 표시된 입력 신호 105)의 존재를 탐지하기 위하여 구성된 탐지 알고리즘 523을 포함할 수 있다. 예를 들어, 하나 이상의 실시예에서, 탐지 알고리즘 523은 노이즈 펄스에 관련된 희소 계수 세트를 분해한 후, 분해된 신호에 대한 시간-주파수 분석을 실시하여 가능성 있는 탐지 상태를 확인할 목적으로 유입되는 오디오 신호에 대한 전처리를 수행하도록 구성될 수 있다. 전처리의 일환으로써, 탐지 알고리즘 523은 또한 입력 오디오 신호에 대한 음성 추출을 실시하여 음성 신호 부분(예: 도 1에서 표시된 예시적인 탐지 시스템의 음성 추출 구성요소 110을 통하여)을 추출할 수 있도록 구성될 수 통하여).
프로그램 데이터 524는 유입되는 오디오 스트림에서 일시적인 노이즈의 존재를 탐지하는 데 유용한 오디오 신호 데이터 525를 포함할 수 있다. 일부 실시예에서, 탐지 알고리즘 523이 오디오 신호 데이터 525를 사용하여 음성 추출, 시간-주파수 분석 및 보간을 수행하도록 (예: 도 1에서 표시된 예시 탐지 시스템 100에서 음성 추출 110, 시간-주파수 탐지기 120 그리고 보간 130), 어플리케이션 522가 운영체제 521에서 프로그램 데이터 524로 작동되도록 배치될 수 있다.
컴퓨팅 장치 500은 추가 특징 및/또는 기능, 그리고 기본 구성 501과 필요한 장치와 인터페이스 사이에 통신을 용이하게 하는 추가 인터페이스를 가질 수 있다. 예를 들어, 버스/인터페이스 제어기 540은 저장 인터페이스 버스 541을 통하여 기본 구성 501 및 하나 이상의 데이터 저장 장치 550 사이의 통신을 용이하게 하기 위하여 사용될 수 있다. 데이터 저장 장치 550은 이동식 저장 장치 551, 비이동식 저장 장치 552 또는 이들의 조합이 될 수 있다. 이동식 저장 장치 및 비이동식 저장 장치의 예로써 플렉서블 디스크 드라이브 및 하드 디스크 드라이브(HDD) 등의 자기 디스크 장치, 콤팩트 디스크(CD) 또는 디지털 다기능 디스크(DVD) 드라이브 등의 광학 디스크 드라이브, 솔리드 스테이트 장치(SSD), 테이프 드라이브 등이 있다. 예시적인 컴퓨터 저장 매체에는 컴퓨터 판독 가능 명령, 데이터 구조, 프로그램 모듈 및/또는 기타 데이터 등의 정보를 저장하기 위한 방법 또는 기술로 구현되는 휘발성 및 비 휘발성, 이동식 및 비이동식 매체가 포함될 수 있다.
시스템 메모리 520, 이동식 저장 장치 551 및 비이동식 저장 장치 552는 모두 컴퓨터 저장 매체의 실례이다. 컴퓨터 저장 매체에는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD- ROM, 디지털 다기능 디스크(DVD) 또는 다른 광학 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 원하는 정보를 저장하는 데 사용될 수 있고 컴퓨팅 장치 500이 액세스할 수 있는 다른 매체를 포함하되 이에 한정되지 않는다. 이러한 컴퓨터 저장 매체는 컴퓨팅 장치 500의 일부일 수 있다.
컴퓨팅 장치 500은 또한 버스/인터페이스 제어기 542를 통하여 다양한 인터페이스 장치(예를 들면, 출력 인터페이스, 주변 기기 인터페이스, 통신 인터페이스 등)에서 기본 구성 501로 통신을 용이하게 하기 위한 인터페이스 버스 540을 포함할 수 있다. 예시 출력 디바이스 560은 그래픽 처리 장치 561 및 오디오 처리 장치 562를 포함하는데, 이들 중 어느 하나 또는 모두는 하나 이상의 A/V 포트 563을 통해 디스플레이 또는 스피커 등의 다양한 외부 장치와 통신하도록 구성될 수 있다. 예시 주변 인터페이스 570은 직렬 인터페이스 제어기 571 또는 병렬 인터페이스 제어기 572를 포함하는데, 입력 장치(예를 들어, 키보드, 마우스, 펜, 음성 입력 장치, 터치 입력 장치 등) 또는 하나 이상의 I/O 포트 573을 통하여 다른 주변 장치(예를 들면, 프린터, 스캐너 등) 와 같은 외부 장치와 통신하도록 구성될 수 있다.
예시 통신 장치 580은 네트워크 제어기 581을 포함하는데, 하나 이상의 통신 포트 582를 사용하여 네트워크 통신(미도시)을 통해 하나 이상의 다른 컴퓨팅 장치 590과 통신을 용이하게 하도록 구성될 수 있다. 통신 연결은 통신 매체에 대한 하나의 예시이다. 통신 매체는 통상적으로 컴퓨터 판독 가능 명령, 데이터 구조, 프로그램 모듈 또는 반송파나 기타 전송 메커니즘과 같은 변조 데이터 신호의 다른 데이터가 내장될 수 있으며, 모든 정보 전달 매체를 포함한다. "변조된 데이터 신호"란 정보를 신호로 인코딩하는 등의 방식으로 설정 또는 변경된 하나 이상의 특성을 가지는 신호일 수 있다. 예를 들어, 그러나 이에 제한하지 않고, 통신 매체는 유선 네트워크 또는 직접 유선 연결과 같은 유선 매체 그리고 음파, 무선 주파수(RF), 적외선(IR)과 같은 무선 매체 및 기타 무선 매체를 포함할 수 있다. 여기에서 사용되는 컴퓨터 판독 가능 매체라는 용어는 저장 매체 및 통신 매체 모두를 포함할 수 있다.
컴퓨팅 장치 500은 예컨대 휴대 전화, 개인 휴대 정보 단말기(PDA), 개인용 미디어 플레이어 장치, 무선 웹 손목 시계 장치, 개인용 헤드셋 장치, 어플리케이션 전용 장치와 같은 소형 폼 팩터 휴대용(또는 모바일) 전자 장치 또는 상기 기능 중 일부를 포함하는 복합 장치의 일부로서 구현될 수 있다. 컴퓨팅 장치 500은 또한 노트북 컴퓨터 및 비-노트북 컴퓨터의 구성을 모두 포함하는 개인용 컴퓨터로서 구현될 수 있다.
구현 측면에서 시스템의 하드웨어 및 소프트웨어 사이에 남아 있는 차이는 거의 없다. 하드웨어 또는 소프트웨어의 사용은 일반적으로(항상 그런 것은 아니지만, 일부 상황에서 하드웨어와 소프트웨어 사이의 선택은 중요해질 수 있다는 점에서) 비용 대비 성능간의 균형을 나타내는 설계 상의 선택이다. 여기에 기술된 프로세스 및/또는 시스템 및/또는 다른 기술에 다양한 수단이 영향을 줄 수 있으며(예를 들어, 하드웨어, 소프트웨어 및/또는 펌웨어), 바람직한 수단은 전개되는 프로세스 및/또는 시스템 및/또는 기타 기술에 따라 달라진다. 예를 들어, 구현 속도와 정확성이 가장 중요하다고 여겨지는 경우에는, 구현자는 주로 하드웨어 및/또는 펌웨어 수단을 선택할 수 있으며, 유연성이 가장 중요한 경우에는 주로 소프트웨어 구현을 선택할 수 있다. 하나 이상의 다른 시나리오에서, 구현자는 하드웨어, 소프트웨어 및/또는 펌웨어의 일부 조합을 선택할 수 있다.
전술한 세부 설명은 블록 다이어그램, 흐름도 및/또는 예시를 사용하여 장치 및/또는 프로세스의 다양한 실시예를 규정하고 있다. 블록 다이어그램, 흐름도 및/또는 예시들이 하나 이상의 기능 및/또는 동작을 포함하는 한, 이러한 블록 다이어그램, 흐름도 또는 예시 내에서 각 기능 및/또는 동작이 광범위한 하드웨어, 소프트웨어, 펌웨어 또는 이들의 거의 모든 조합에 의하여 개별적으로 및/또는 집합적으로 구현될 수 있다는 사실은 당해 기술분야에서 숙련된 기술을 가진 자가 이해할 수 있다.
하나 이상의 실시예에서, 여기에 설명된 주제의 여러 부분들은 주문형 집적 회로(ASIC), 필드 프로그램 가능 게이트 어레이(FPGA), 디지털 신호 프로세서(DSP) 또는 다른 집적 포맷을 통하여 구현될 수 있다. 그러나, 당해 기술 분야에서 숙련된 기술을 가진 자라면 여기에서 기술된 실시예의 일부 측면이, 전부 또는 부분적으로, 하나 이상의 컴퓨터에서 구동되는 하나 이상의 컴퓨터 프로그램으로서(예: 하나 이상의 컴퓨터 시스템에서 구동되는 하나 이상의 프로그램으로서), 하나 이상의 프로세서에서 구동되는 하나 이상의 프로그램으로서(예: 하나 이상의 마이크로 프로세서에서 구동되는 하나 이상의 프로그램으로서), 펌웨어로서, 또는 사실상 이들의 모든 조합으로서 집적 회로에서 동등하게 구현될 수 있다는 점을 인정할 것이다. 당해 기술 분야에서 숙련된 기술을 가진 자는 또한 소프트웨어 및/또는 펌웨어를 위한 회로 설계 및/또는 코드 작성이 본 공개의 견지에서 완전히 그 기술 분야에서 숙련도를 가진 자의 기술 범위 내에 있을 것이라고 인식할 것이다.
또한, 당해 기술 분야에서 숙련된 기술을 가진 자라면 여기에서 기술된 주제의 메커니즘이 다양한 형태의 프로그램 제품으로 배포될 수 있고, 여기에서 기술된 주제의 예시적인 실시예는 상기 배포를 실제로 실시하는 데 사용되는 특정 유형의 신호를 지니는 매체에 관계없이 적용되는 것임을 이해할 것이다. 신호를 지니는 매체의 예로는, 다음을 포함하지만 이에 한정되지는 않는다. 플로피 디스크, 하드 디스크 드라이브, 콤팩트 디스크(CD), 디지털 비디오 디스크(DVD), 디지털 테이프, 컴퓨터 메모리 등과 같은 기록 가능한 타입의 매체, 그리고 디지털 및/또는 아날로그 통신 매체(예, 광섬유 케이블, 도파관, 유선 통신 링크, 무선 통신 링크 등)와 같은 전송형 매체.
또한 당해 기술 분야에서 숙련된 기술을 가진 자라면 여기에서 기재된 방식으로 장치 및/또는 프로세스를 설명하고, 그 후 데이터 처리 시스템으로 상기 장치 및/또는 프로세스를 통합하는 엔지니어링 기법을 사용하는 것이 당해 기술 분야 내에서 일반적인 것임을 인식할 것이다. 즉, 여기에서 기술된 장치 및/또는 프로세스의 최소한 일부가 적당한 정도의 실험을 통하여 데이터 처리 시스템으로 통합될 수 있다. 당해 기술 분야에서 숙련된 기술을 가진 자라면, 전형적인 데이터 처리 시스템이 일반적으로 시스템 장치 하우징, 비디오 디스플레이 장치, 휘발성 및 비 휘발성 메모리 등 메모리, 마이크로프로세서 및 디지털 신호 프로세서 등 프로세서, 운영 체제 등 컴퓨터 실체, 드라이버, 그래픽 사용자 인터페이스 및 어플리케이션 프로그램, 터치 패드 또는 스크린 등의 하나 이상의 상호 작용 장치 및/또는 피드백 루프 및 제어 모터를 비롯한 제어 시스템(예: 위치 및/또는 속도를 감지하는 피드백; 구성 요소 및/또는 수량을 이동 및/또는 조정하기 위한 제어 모터) 중에서 하나 이상을 포함한다는 것을 인식할 것이다. 전형적인 데이터 처리 시스템은 일반적으로 데이터 컴퓨팅/통신 및/또는 네트워크 컴퓨팅/통신 시스템에서 발견된 것들과 같은 상업적으로 이용 가능한 적절한 구성요소를 이용하여 구현될 수 있다.
본 공개에서 사실상 복수 및/또는 단수 용어의 사용에 대하여, 해당 기술 분야에서 숙련된 기술을 가진 자라면 컨텍스트 및/또는 응용 분야에서 적절한 방식으로 복수에서 단수로 및/또는 단수에서 복수로 번역할 수 있다. 다양한 단수/복수의 교차 사용은 명확성을 위하여 여기에서 명시적으로 설명될 수 있다.
다양한 요소와 실시예가 여기에서 공개되었지만, 당해 분야에서 숙련된 기술을 가진 자는 다른 요소 및 실시예를 명백히 알 수 있다. 여기에서 공개된 다양한 측면 및 실시예는 다음의 청구항에 의하여 표시되고 있는 진정한 범위와 사상으로 설명을 하기 위한 목적이며, 그 범위와 사상을 제한하기 위한 것은 아니다.

Claims (21)

  1. 오디오 신호에서 일시적인 노이즈를 억제하기 위해 원격회의 컴퓨팅 장치에 의해 수행되는 방법으로서,
    오디오 신호의 잔여 부분(residual part)을 산출하기 위해 오디오 캡쳐 장치로부터 입력되는 상기 오디오 신호로부터 하나 이상의 음성 부분들을 추출하는 단계;
    상기 오디오 신호의 잔여 부분을 상기 오디오 신호의 잔여 부분 내의 노이즈 펄스들에 대응하는 계수들의 희소 세트(sparse set)로 분해하는 단계;
    상기 계수들 각각을 부가적인 노이즈와 결합된 스위칭된 노이즈 펄스로서 모델링하는 단계;
    상기 모델링된 계수들의 각각에 대한 탐지 상태들의 초기 확률들을 추정하는 단계;
    상기 탐지 상태들의 각각 사이의 전이 확률(transition probability)들을 계산하는 단계;
    상기 계수들의 각각에 대한 상기 탐지 상태들의 초기 확률들, 상기 탐지 상태들의 각각 사이의 상기 계산된 전이 확률들, 및 상기 노이즈 펄스들과 연관되는 관측 데이터로부터 결정되는 관측 확률들에 기초하여 상기 계수들의 각각에 대한 예상되는 탐지 상태를 결정하는 단계;
    상기 계수들에 대해 결정되는 상기 예상되는 탐지 상태들에 기초하여 상기 오디오 신호의 잔여 부분으로부터 일시적인 노이즈를 필터링(filtering out)하는 단계; 및
    상기 오디오 신호의 필터링된 잔여 부분을 상기 오디오 신호의 하나 이상의 추출된 음성 부분들과 결합하는 단계
    를 포함하고,
    상기 일시적인 노이즈는 상기 원격회의 컴퓨팅 장치의 키보드 또는 트랙패드와 상기 오디오 캡쳐 장치 사이의 기계적 접속으로 인한 피드백 노이즈, 팬 노이즈, 및 버튼 클릭 노이즈 중 적어도 하나인,
    방법.
  2. 제 1항에 있어서,
    상기 오디오 신호로부터 하나 이상의 음성 부분들을 추출하는 단계는 상기 오디오 신호로부터의 음조 구성요소(tonal component)들을 재귀적으로 제거(recursively subtract)하는 단계를 포함하는,
    방법.
  3. 제 1항에 있어서,
    상기 오디오 신호의 잔여 부분은 웨이브릿(wavelet) 패킷 변환을 이용하여 계수들의 희소 세트로 분해되는,
    방법.
  4. 제 1항에 있어서,
    상기 계수들의 각각에 대한 하나 이상의 탐지 상태들의 초기 확률들을 추정하는 것은 평균 0인 가우스 분포(zero-mean Gaussian distribution)들로서 상기 부가적인 노이즈 및 상기 스위칭된 노이즈 펄스를 모델링하는 것을 포함하는,
    방법.
  5. 제 4항에 있어서,
    상기 스위칭된 노이즈 펄스는 상기 노이즈 펄스의 변화하는 분산의 포락선(envelope)에 기초한 변경 분산 모델을 이용하여 모델링되는,
    방법.
  6. 제 1항에 있어서,
    상기 계수들의 각각에 대한 하나 이상의 탐지 상태들의 초기 확률들을 추정하는 것은 추정된 파라미터들을 갖는 자기회귀(AR) 모델을 이용하여 상기 부가적인 노이즈를 모델링하는 것을 포함하는,
    방법.
  7. 제 1항에 있어서,
    상기 계수들에 대한 상기 예상되는 탐지 상태들은 은닉 마르코프 모델(HMM)을 이용하여 결정되는,
    방법.
  8. 제 1항에 있어서,
    상기 결합된 잔여 부분 및 상기 하나 이상의 추출된 음성 부분들을 기초로 상기 오디오 신호의 추가적 일시적인 노이즈 억제의 수행 여부를 결정하는 단계를 더 포함하는,
    방법.
  9. 제 1항에 있어서,
    상기 오디오 신호의 필터링된 잔여 부분을 상기 오디오 신호의 하나 이상의 추출된 음성 부분들과 결합하는 단계 이전에:
    상기 하나 이상의 추출된 음성 부분들이 일시적인 노이즈의 저주파 구성요소들을 포함함을 결정하는 단계; 및
    상기 하나 이상의 추출된 음성 부분들로부터 상기 일시적인 노이즈의 저주파 구성요소들을 필터링하는 단계
    를 더 포함하는,
    방법.
  10. 제 1항에 있어서,
    상기 오디오 신호의 주파수 영역의 스펙트럼 피크들의 탐지에 의한 상기 오디오 신호의 상기 하나 이상의 음성 부분들을 식별하는 단계를 더 포함하는,
    방법.
  11. 제 10항에 있어서,
    상기 스펙트럼 피크들은 중앙값 필터 출력(median filter output)의 임계화에 의하여 탐지되는,
    방법.
  12. 제 1항에 있어서,
    상이한 프레임 크기를 이용한 상기 오디오 신호의 음성 부분들의 추출을 여러번 수행하는 단계를 더 포함하는,
    방법.
  13. 제 1항에 있어서,
    중앙값 필터 출력에 대한 상이한 임계값들을 이용한 상기 오디오 신호의 음성 부분들의 추출을 여러번 수행하는 단계를 더 포함하는,
    방법.
  14. 제 1항에 있어서,
    상기 오디오 신호의 잔여 부분으로부터 일시적인 노이즈를 필터링하는 단계는:
    상기 계수들에 대해 결정되는 상기 예상되는 탐지 상태를 기초로 상기 오디오 신호의 잔여 부분의 손상된 샘플들을 식별하는 단계; 및
    상기 오디오 신호로부터 상기 손상된 샘플들을 제거하는 단계
    를 더 포함하는,
    방법.
  15. 제 14항에 있어서,
    상기 오디오 신호로부터 제거된 상기 손상된 샘플들을 복원하는 단계를 더 포함하는,
    방법.
  16. 제 1항에 있어서,
    상기 오디오 신호의 잔여 부분을 기초로 추가적인 음성 부분들이 상기 오디오 신호의 잔여 부분에 남아 있는지를 결정하는 단계; 및
    상기 오디오 신호의 잔여 부분으로부터 하나 이상의 상기 추가적인 음성 부분들을 추출하는 단계
    를 더 포함하는,
    방법.
  17. 제 1항에 있어서,
    상기 오디오 신호의 잔여 부분 내의 상기 노이즈 펄스들은 키보드 상의 키 입력들로 인한 기계적인 자극들에 대응하는,
    방법.
  18. 삭제
  19. 오디오 신호에서 일시적인 노이즈를 억제하기 위한 원격회의 컴퓨팅 시스템으로서,
    적어도 하나의 프로세서; 및
    컴퓨터-판독가능 매체를 포함하고, 상기 컴퓨터-판독가능 매체는 상기 적어도 하나의 프로세서에 결합되고, 상기 컴퓨터-판독가능 매체에 저장된 명령들은 상기 적어도 하나의 프로세서에 의해 실행될 때 상기 적어도 하나의 프로세서로 하여금:
    오디오 신호의 잔여 부분을 산출하기 위해 오디오 캡쳐 장치로부터 입력되는 상기 오디오 신호로부터 하나 이상의 음성 부분들을 추출하고;
    상기 오디오 신호의 잔여 부분을 상기 오디오 신호의 잔여 부분 내의 노이즈 펄스들에 대응하는 계수들의 희소 세트로 분해하고;
    상기 계수들 각각을 부가적인 노이즈와 결합된 스위칭된 노이즈 펄스로서 모델링하고;
    상기 모델링된 계수들의 각각에 대한 탐지 상태들의 초기 확률들을 추정하고;
    상기 탐지 상태들의 각각 사이의 전이 확률들을 계산하고;
    상기 계수들의 각각에 대한 상기 탐지 상태들의 초기 확률들, 상기 탐지 상태들의 각각 사이의 상기 계산된 전이 확률들, 및 상기 노이즈 펄스들과 연관되는 관측 데이터로부터 결정되는 관측 확률들에 기초하여 상기 계수들의 각각에 대한 예상되는 탐지 상태를 결정하고;
    상기 계수들에 대해 결정되는 상기 예상되는 탐지 상태에 기초하여 상기 오디오 신호의 잔여 부분으로부터 일시적인 노이즈를 필터링하고; 그리고
    상기 오디오 신호의 필터링된 잔여 부분을 상기 오디오 신호의 하나 이상의 추출된 음성 부분들과 결합하도록 야기하고,
    상기 일시적인 노이즈는 상기 원격회의 컴퓨팅 장치의 키보드 또는 트랙패드와 상기 오디오 캡쳐 장치 사이의 기계적 접속으로 인한 피드백 노이즈, 팬 노이즈, 및 버튼 클릭 노이즈 중 적어도 하나인,
    시스템.
  20. 제 19 항에 있어서,
    상기 적어도 하나의 프로세서는 추가적으로:
    상기 오디오 신호의 필터링된 잔여 부분을 상기 오디오 신호의 하나 이상의 추출된 음성 부분들과 결합하는 것 이전에:
    상기 하나 이상의 추출된 음성 부분들이 일시적인 노이즈의 저주파 구성요소들을 포함함을 결정하고; 그리고
    상기 하나 이상의 추출된 음성 부분들로부터 상기 일시적인 노이즈의 저주파 구성요소들을 필터링하도록 야기되는,
    시스템.
  21. 제 19 항에 있어서,
    상기 계수들에 대한 상기 예상되는 탐지 상태들은 은닉 마르코프 모델(HMM)을 이용하여 결정되는,
    시스템.
KR1020157023964A 2013-02-28 2014-02-12 키보드 타이핑 탐지 및 억제 KR101729634B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/781,262 2013-02-28
US13/781,262 US9520141B2 (en) 2013-02-28 2013-02-28 Keyboard typing detection and suppression
PCT/US2014/015999 WO2014133759A2 (en) 2013-02-28 2014-02-12 Keyboard typing detection and suppression

Publications (2)

Publication Number Publication Date
KR20150115885A KR20150115885A (ko) 2015-10-14
KR101729634B1 true KR101729634B1 (ko) 2017-04-24

Family

ID=50236268

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157023964A KR101729634B1 (ko) 2013-02-28 2014-02-12 키보드 타이핑 탐지 및 억제

Country Status (6)

Country Link
US (1) US9520141B2 (ko)
EP (1) EP2929533A2 (ko)
JP (1) JP6147873B2 (ko)
KR (1) KR101729634B1 (ko)
CN (1) CN105190751B (ko)
WO (1) WO2014133759A2 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9721580B2 (en) * 2014-03-31 2017-08-01 Google Inc. Situation dependent transient suppression
US10755726B2 (en) * 2015-01-07 2020-08-25 Google Llc Detection and suppression of keyboard transient noise in audio streams with auxiliary keybed microphone
EP3059656B1 (en) 2015-07-13 2017-04-26 Advanced Digital Broadcast S.A. System and method for managing display-related resources
EP3059655B1 (en) 2015-07-13 2017-04-26 Advanced Digital Broadcast S.A. Method for managing display-related resources
CN108470220B (zh) * 2018-01-31 2021-11-30 天津大学 考虑功率变化率限制的混合储能系统能量管理优化方法
US10862938B1 (en) 2018-06-21 2020-12-08 Architecture Technology Corporation Bandwidth-dependent media stream compression
US10812562B1 (en) * 2018-06-21 2020-10-20 Architecture Technology Corporation Bandwidth dependent media stream compression
CN110838299B (zh) * 2019-11-13 2022-03-25 腾讯音乐娱乐科技(深圳)有限公司 一种瞬态噪声的检测方法、装置及设备
TWI723741B (zh) * 2020-01-14 2021-04-01 酷碁科技股份有限公司 按鍵裝置與按鍵音抑制方法
CN111370033B (zh) * 2020-03-13 2023-09-22 北京字节跳动网络技术有限公司 键盘声处理方法、装置、终端设备及存储介质
CN111444382B (zh) * 2020-03-30 2021-08-17 腾讯科技(深圳)有限公司 一种音频处理方法、装置、计算机设备以及存储介质

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
TW384434B (en) * 1997-03-31 2000-03-11 Sony Corp Encoding method, device therefor, decoding method, device therefor and recording medium
CN1188830C (zh) * 2002-06-28 2005-02-09 清华大学 语音识别系统中限制观测概率最低取值的抗冲击噪声方法
US7424423B2 (en) * 2003-04-01 2008-09-09 Microsoft Corporation Method and apparatus for formant tracking using a residual model
US7389230B1 (en) * 2003-04-22 2008-06-17 International Business Machines Corporation System and method for classification of voice signals
US7454336B2 (en) * 2003-06-20 2008-11-18 Microsoft Corporation Variational inference and learning for segmental switching state space models of hidden speech dynamics
US7353169B1 (en) 2003-06-24 2008-04-01 Creative Technology Ltd. Transient detection and modification in audio signals
US7643989B2 (en) * 2003-08-29 2010-01-05 Microsoft Corporation Method and apparatus for vocal tract resonance tracking using nonlinear predictor and target-guided temporal restraint
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US7664643B2 (en) * 2006-08-25 2010-02-16 International Business Machines Corporation System and method for speech separation and multi-talker speech recognition
US8019089B2 (en) 2006-11-20 2011-09-13 Microsoft Corporation Removal of noise, corresponding to user input devices from an audio signal
EP2118889B1 (en) 2007-03-05 2012-10-03 Telefonaktiebolaget LM Ericsson (publ) Method and controller for smoothing stationary background noise
US20080219466A1 (en) * 2007-03-09 2008-09-11 Her Majesty the Queen in Right of Canada, as represented by the Minister of Industry, through Low bit-rate universal audio coder
US8654950B2 (en) 2007-05-08 2014-02-18 Polycom, Inc. Method and apparatus for automatically suppressing computer keyboard noises in audio telecommunication session
US8121311B2 (en) * 2007-11-05 2012-02-21 Qnx Software Systems Co. Mixer with adaptive post-filtering
US8213635B2 (en) 2008-12-05 2012-07-03 Microsoft Corporation Keystroke sound suppression
US8908882B2 (en) 2009-06-29 2014-12-09 Audience, Inc. Reparation of corrupted audio signals
GB0919672D0 (en) 2009-11-10 2009-12-23 Skype Ltd Noise suppression
JP5538918B2 (ja) 2010-01-19 2014-07-02 キヤノン株式会社 音声信号処理装置、音声信号処理システム
US9628517B2 (en) 2010-03-30 2017-04-18 Lenovo (Singapore) Pte. Ltd. Noise reduction during voice over IP sessions
US8411874B2 (en) 2010-06-30 2013-04-02 Google Inc. Removing noise from audio
JP5328744B2 (ja) 2010-10-15 2013-10-30 本田技研工業株式会社 音声認識装置及び音声認識方法
US9111526B2 (en) * 2010-10-25 2015-08-18 Qualcomm Incorporated Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
US8239196B1 (en) * 2011-07-28 2012-08-07 Google Inc. System and method for multi-channel multi-feature speech/noise classification for noise suppression
US20140114650A1 (en) * 2012-10-22 2014-04-24 Mitsubishi Electric Research Labs, Inc. Method for Transforming Non-Stationary Signals Using a Dynamic Model

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
L. Daudet et al., ‘Hybrid representations for audiophonic signal encoding’, Signal Processing 82, pp.1595~1617, 2002.*
S. Molla et al., ‘Hidden Markov Tree based transient estimation for audio coding’, ICASSP 2002, pp.489~492, August 2002.*
Takayuki et al., ‘Theoretical Analysis of iterative weak spectral subtraction via higher-order statistics’, MLSP 2010, pp.220~225, August 2010*

Also Published As

Publication number Publication date
CN105190751B (zh) 2019-06-04
KR20150115885A (ko) 2015-10-14
JP6147873B2 (ja) 2017-06-14
CN105190751A (zh) 2015-12-23
WO2014133759A4 (en) 2015-01-15
US20140244247A1 (en) 2014-08-28
WO2014133759A2 (en) 2014-09-04
WO2014133759A3 (en) 2014-11-06
EP2929533A2 (en) 2015-10-14
JP2016510436A (ja) 2016-04-07
US9520141B2 (en) 2016-12-13

Similar Documents

Publication Publication Date Title
KR101729634B1 (ko) 키보드 타이핑 탐지 및 억제
EP3459077B1 (en) Permutation invariant training for talker-independent multi-talker speech separation
US8019089B2 (en) Removal of noise, corresponding to user input devices from an audio signal
US8213635B2 (en) Keystroke sound suppression
US11443756B2 (en) Detection and suppression of keyboard transient noise in audio streams with aux keybed microphone
CN110767223B (zh) 一种单声道鲁棒性的语音关键词实时检测方法
CN100543842C (zh) 基于多统计模型和最小均方误差实现背景噪声抑制的方法
CN107924684B (zh) 使用半盲自适应滤波器模型的通信终端的声学击键瞬态消除器
EP1506542A1 (en) Imethod of determining uncertainty associated with noise reduction
Harvilla et al. Least squares signal declipping for robust speech recognition
CN112534800B (zh) 一种回波检测的方法和系统
CN114257571A (zh) 具有语音检测周期持续时间补偿的音频传送
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
US11610601B2 (en) Method and apparatus for determining speech presence probability and electronic device
Park et al. Dempster-Shafer theory for enhanced statistical model-based voice activity detection
KR20120056661A (ko) 음성 신호 전처리 장치 및 방법
Diaz‐Ramirez et al. Robust speech processing using local adaptive non‐linear filtering
CN106910494B (zh) 一种音频识别方法和装置
Harvilla et al. Efficient audio declipping using regularized least squares
KR20180041072A (ko) 오디오 프레임 프로세싱을 위한 디바이스 및 방법
JP7152112B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
Ramírez et al. Statistical voice activity detection based on integrated bispectrum likelihood ratio tests for robust speech recognition
WO2023223529A1 (ja) 情報処理装置、プログラム及び情報処理方法
US20230368766A1 (en) Temporal alignment of signals using attention
Luo et al. Adaptive Noise Reduction Algorithm Based on SPP and NMF for Environmental Sound Event Recognition under Low-SNR Conditions

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant