KR101839448B1

KR101839448B1 - 상황 종속적 트랜션트 억제

Info

Publication number: KR101839448B1
Application number: KR1020167020201A
Authority: KR
Inventors: 잔 스코글룬드; 알레잔드로 룹스
Original assignee: 구글 엘엘씨
Priority date: 2014-03-31
Filing date: 2015-03-31
Publication date: 2018-03-16
Also published as: JP2017513046A; CN105900171A; BR112016020066A2; CN105900171B; JP6636937B2; US20150279386A1; US9721580B2; AU2015240992C1; AU2015240992A1; EP3127114A2; KR20160102300A; WO2015153553A2; WO2015153553A3; AU2015240992B2; BR112016020066B1; EP3127114B1

Abstract

오디오 신호들을 위해 상황-종속적 트랜션트 잡음 억제를 제공하기 위한 방법들 및 시스템들이 제공된다. 각각의 참여자가 말을 하고 있는지의 여부(예컨대, 오디오의 음성 세그먼트가 존재하는지 또는 비음성/논-스피치 세그먼트가 존재하는지)에 따라, 트랜션트 억제 및 신호 복원의 상이한 전략들(예컨대, 공격성의 레벨들)이 비디오/오디오 회의의 참여자들과 연관된 오디오 신호들에 적용된다. 어떠한 참여자들도 말을 하고 있지 않거나 또는 비음성/논-스피치 사운드가 존재하는 경우, 트랜션트 억제 및 신호 복원을 위해 더 공격적인 전략이 활용된다. 반면에, 음성 오디오가 검출되는 경우(예컨대, 참여자가 말을 하고 있는 경우), 방법들 및 시스템들은 더 소프트한, 덜 공격적인 억제 및 복원 프로세스를 적용한다.

Description

상황 종속적 트랜션트 억제{SITUATION DEPENDENT TRANSIENT SUPPRESSION}

[0001] 통상의 음성 또는 영상 통화(audio or video call), 특히 많은 참여자들을 포함하는 통상의 음성 또는 영상 통화에서, 말을 하고 있지 않은 참여자들에 의해 생성되는 잡음은 말을 하고 있는 참여자의 스피치(speech)를 오염시키고, 이에 의해, 주의산만을 야기하거나 또는 심지어 대화를 중단시킬 수 있다. 예시적 시나리오는, 회의 통화(conference call) 상의 각각의 참여자가 그 회의 통화에 연결하기 위해 자기 자신의 컴퓨터를 이용하고, 동시에 또한 그 컴퓨터를 이용하여 업무를 하는(예컨대, 그 회의 통화에 관한 메모들을 타이핑하는) 경우이다. 컴퓨터들(예컨대, 랩톱 컴퓨터들)의 내장형 마이크로폰들, 확성기들, 및 웹캠들이 회의 통화들을 셋업하는 것을 매우 용이하게 만들었지만, 이러한 특징들은 또한, 피드백, 송풍기 잡음, 및 버튼-클릭 잡음과 같은 특정한 잡음 불편들을 도입하였다. 일반적으로 키누름(keystroke)들에 의해 야기되는 기계적 충격들로 인한 것인 버튼-클릭 잡음은 그 회의 통화 상의 모든 참여자들이 주요 대화 외에도 들을 수 있는 성가신 키 클릭들을 포함할 수 있다. 랩톱 컴퓨터들의 상황에서, 예컨대, 버튼-클릭 잡음은, 랩톱 케이스 내의 마이크로폰과 키보드 사이의 기계적 연결로 인해 상당한 불편이 될 수 있다.

[0002] 키 클릭들과 같은 트랜션트 잡음(transient noise)들이 전체적인 사용자 경험에 미치는 영향은 그 트랜션트 잡음들이 발생하는 상황에 종속된다. 예컨대, 활기찬 음성의 스피치 세그먼트(active voiced speech segment)들에서, 말을 하고 있는 참여자로부터의 음성과 혼합된 키 클릭들은 양호하게 마스킹되며, 침묵 기간들 또는 배경 잡음만이 존재하는 기간들 동안보다 다른 참여자들에게 덜 검출가능하다. 이러한 침묵 기간들 또는 배경 잡음만이 존재하는 기간들의 상황들에서, 키 클릭들은 참여자들에게 더 뚜렷할 가능성이 있고, 더 성가신 것 또는 주의를 산만하게 하는 것으로서 인지될 가능성이 있다.

[0003] 본 개요는 본 개시내용의 일부 양상들의 기본적 이해를 제공하기 위해 간략화된 형태로 개념들의 선택을 안내한다. 본 개요는 본 개시내용의 광범위한 개관이 아니며, 본 개시내용의 주요한 또는 중요한 엘리먼트들을 식별하거나 또는 본 개시내용의 범위를 기술하도록 의도되지 않는다. 본 개요는 단지, 아래에서 제공되는 상세한 설명에 대한 서론으로서 본 개시내용의 개념들 중 일부를 제공한다.

[0004] 본 개시내용은 일반적으로, 신호 프로세싱을 위한 방법들 및 시스템들에 관한 것이다. 더 구체적으로, 본 개시내용의 양상들은, 검출된 트랜션트들 및 분류된 세그먼트들이 주어지는 경우, 상이한 타입들의 오디오 세그먼트들(예컨대, 음성 스피치 세그먼트(voiced speech segment)들, 비음성 세그먼트(unvoiced segments)들 등)에 대해 상이한 타입들 또는 양들의 잡음 억제를 수행하는 것에 관한 것이다.

[0005] 본 개시내용의 일 실시예는 오디오 신호의 트랜션트 잡음을 억제하기 위한 컴퓨터-구현 방법에 관한 것으로, 방법은: 트랜션트 잡음을 포함하는 오디오 신호의 세그먼트에 대한 음성 확률을 추정하는 단계 ― 추정된 음성 확률은 세그먼트가 음성 데이터를 포함할 확률임 ―; 세그먼트에 대해 추정된 음성 확률이 임계 확률보다 더 크다는 것을 결정하는 것에 대한 응답으로, 세그먼트에 대해 제 1 타입의 억제를 수행하는 단계; 및 세그먼트에 대해 추정된 음성 확률이 임계 확률보다 더 작다는 것을 결정하는 것에 대한 응답으로, 세그먼트에 대해 제 2 타입의 억제를 수행하는 단계를 포함하고, 제 2 타입의 억제는 세그먼트에 포함된 트랜션트 잡음을 제 1 타입의 억제와 상이한 정도로 억제한다.

[0006] 다른 실시예에서, 트랜션트 잡음을 억제하기 위한 방법은, 세그먼트에 대해 추정된 음성 확률을 임계 확률과 비교하는 단계, 및 그 비교에 기초하여, 추정된 음성 확률이 임계 확률보다 더 크다는 것을 결정하는 단계를 더 포함한다.

[0007] 또 다른 실시예에서, 트랜션트 잡음을 억제하기 위한 방법은, 세그먼트에 대해 추정된 음성 확률을 임계 확률과 비교하는 단계, 및 그 비교에 기초하여, 추정된 음성 확률이 임계 확률보다 더 작다는 것을 결정하는 단계를 더 포함한다.

[0008] 또 다른 실시예에서, 트랜션트 잡음을 억제하기 위한 방법은, 오디오 신호의 세그먼트에 대해 추정된 트랜션트 확률을 수신하는 단계 ― 추정된 트랜션트 확률은 트랜션트 잡음이 세그먼트에 존재할 확률임 ―, 및 수신된 추정된 트랜션트 확률에 기초하여, 오디오 신호의 세그먼트가 트랜션트 잡음을 포함한다는 것을 결정하는 단계를 더 포함한다.

[0009] 본 개시내용의 다른 실시예는 오디오 신호의 트랜션트 잡음을 억제하기 위한 시스템에 관한 것으로, 시스템은 적어도 하나의 프로세서 및 명령들이 저장된 적어도 하나의 프로세서에 커플링된 컴퓨터-판독가능 매체를 포함하고, 명령들은 적어도 하나의 프로세서에 의해 실행될 때, 적어도 하나의 프로세서로 하여금: 트랜션트 잡음을 포함하는 오디오 신호의 세그먼트에 대한 음성 확률을 추정하게 하고 ― 추정된 음성 확률은 세그먼트가 음성 데이터를 포함할 확률임 ―; 세그먼트에 대해 추정된 음성 확률이 임계 확률보다 더 크다는 것을 결정하는 것에 대한 응답으로, 세그먼트에 대해 제 1 타입의 억제를 수행하게 하고; 그리고 세그먼트에 대해 추정된 음성 확률이 임계 확률보다 더 작다는 것을 결정하는 것에 대한 응답으로, 세그먼트에 대해 제 2 타입의 억제를 수행하게 하고, 제 2 타입의 억제는 세그먼트에 포함된 트랜션트 잡음을 제 1 타입의 억제와 상이한 정도로 억제한다.

[0010] 다른 실시예에서, 트랜션트 잡음을 억제하기 위한 시스템의 적어도 하나의 프로세서는 추가로, 성대(vocal fold)들이 진동하는 세그먼트의 구역들을 식별하고, 그리고 성대들이 진동하는 세그먼트의 구역들은 음성 스피치를 포함하는 구역들이라는 것을 결정하도록 야기된다.

[0011] 또 다른 실시예에서, 트랜션트 잡음을 억제하기 위한 시스템의 적어도 하나의 프로세서는 추가로, 세그먼트에 대해 추정된 음성 확률을 임계 확률과 비교하고, 그리고 그 비교에 기초하여, 추정된 음성 확률이 임계 확률보다 더 크다는 것을 결정하도록 야기된다.

[0012] 또 다른 실시예에서, 트랜션트 잡음을 억제하기 위한 시스템의 적어도 하나의 프로세서는 추가로, 세그먼트에 대해 추정된 음성 확률을 임계 확률과 비교하고, 그리고 그 비교에 기초하여, 추정된 음성 확률이 임계 확률보다 더 작다는 것을 결정하도록 야기된다.

[0013] 다른 실시예에서, 트랜션트 잡음을 억제하기 위한 시스템의 적어도 하나의 프로세서는 추가로, 오디오 신호의 세그먼트에 대해 추정된 트랜션트 확률을 수신하고 ― 추정된 트랜션트 확률은 트랜션트 잡음이 세그먼트에 존재할 확률임 ―; 그리고 수신된 추정된 트랜션트 확률에 기초하여, 오디오 신호의 세그먼트가 트랜션트 잡음을 포함한다는 것을 결정하도록 야기된다.

[0014] 본 개시내용의 또 다른 실시예는 오디오 신호의 트랜션트 잡음을 억제하기 위한 컴퓨터-구현 방법에 관한 것으로, 방법은: 트랜션트 잡음을 포함하는 오디오 신호의 세그먼트에 대한 음성 확률을 추정하는 단계 ― 추정된 음성 확률은 세그먼트가 음성 데이터를 포함할 확률임 ―; 세그먼트에 대해 추정된 음성 확률이 제 1 음성 상태에 대응한다는 것을 결정하는 것에 대한 응답으로, 세그먼트에 대해 제 1 타입의 억제를 수행하는 단계; 및 세그먼트에 대해 추정된 음성 확률이 제 2 음성 상태에 대응한다는 것을 결정하는 것에 대한 응답으로, 세그먼트에 대해 제 2 타입의 억제를 수행하는 단계를 포함하고, 제 2 타입의 억제는 세그먼트에 포함된 트랜션트 잡음을 제 1 타입의 억제와 상이한 정도로 억제한다.

[0015] 또 다른 실시예에서, 트랜션트 잡음을 억제하기 위한 방법은, 세그먼트에 대해 추정된 음성 확률이 제 3 음성 상태에 대응한다는 것을 결정하는 것에 대한 응답으로, 세그먼트에 대해 제 3 타입의 억제를 수행하는 단계를 더 포함하고, 제 3 타입의 억제는 세그먼트에 포함된 트랜션트 잡음을 제 1 타입의 억제 및 제 2 타입의 억제와 상이한 정도로 억제한다.

[0016] 하나 또는 그 초과의 다른 실시예들에서, 본원에서 설명되는 방법들 및 시스템들은 선택적으로, 다음의 추가의 특징들: 추정된 음성 확률은 피치 추정기(pitch estimator)로부터 수신된 보이싱 정보(voicing information)에 기초하고; 오디오 신호의 세그먼트에 대해 음성 확률을 추정하는 것은, 음성 스피치를 포함하는 세그먼트의 구역들을 식별하는 것을 포함하고; 음성 스피치를 포함하는 세그먼트의 구역들을 식별하는 것은, 성대들이 진동하는 세그먼트의 구역들을 식별하는 것을 포함하고; 오디오 신호의 세그먼트에 대해 추정된 음성 확률은 오디오 신호의 세그먼트에 대해 수신된 음성 활성도 데이터(voice activity data)에 기초하고; 제 2 타입의 억제는 세그먼트에 포함된 트랜션트 잡음을 제 1 타입의 억제보다 더 큰 정도로 억제하고; 그리고/또는 제 2 타입의 억제는 세그먼트에 포함된 트랜션트 잡음을 제 1 타입의 억제보다 더 작은 정도로 억제하는 것 중 하나 또는 그 초과를 포함할 수 있다.

[0017] 본 개시내용의 추가의 적용가능성의 범위는 아래에서 주어지는 상세한 설명으로부터 명백해질 것이다. 그러나, 상세한 설명 및 특정 예들이 바람직한 실시예들을 표시하기는 하지만, 상세한 설명 및 특정 예들은 단지 예시로만 주어지는데, 그 이유는 본 개시내용의 사상 및 범위 내에서 다양한 변경들 및 수정들이 이러한 상세한 설명으로부터 당업자들에게 명백해질 것이기 때문임이 이해되어야 한다.

[0018] 본 개시내용의 이러한 및 다른 목적들, 특징들 및 특성들은, 첨부된 청구항들 및 도면들과 함께 다음의 상세한 설명의 검토로부터 당업자들에게 더 명백해질 것이며, 이들 모두는 본 명세서의 부분을 형성한다. 도면들에서:
[0019] 도 1은 본원에서 설명되는 하나 또는 그 초과의 실시예들에 따른 상황 종속적 트랜션트 잡음 억제(situation dependent transient noise suppression)를 위한 예시적 애플리케이션을 예시하는 개략도이다.
[0020] 도 2는 본원에서 설명되는 하나 또는 그 초과의 실시예들에 따른 상황 종속적 트랜션트 잡음 억제를 위한 예시적 시스템을 예시하는 블록도이다.
[0021] 도 3은 본원에서 설명되는 하나 또는 그 초과의 실시예들에 따라 오디오 신호의 트랜션트 잡음 억제 및 복원을 위한 예시적 방법을 예시하는 흐름도이다.
[0022] 도 4는 본원에서 설명되는 하나 또는 그 초과의 실시예들에 따라, 오디오 신호가 비음성(unvoiced)/논-스피치(non-speech) 오디오 데이터를 포함한다는 결정에 기초하여 오디오 신호의 복원을 위한 예시적 방법을 예시하는 흐름도이다.
[0023] 도 5는 본원에서 설명되는 하나 또는 그 초과의 실시예들에 따라, 오디오 신호가 음성 데이터(voice data)를 포함한다는 결정에 기초하여 오디오 신호의 복원을 위한 예시적 방법을 예시하는 흐름도이다.
[0024] 도 6은 본원에서 설명되는 하나 또는 그 초과의 실시예들에 따라 상황-종속적 트랜션트 잡음 억제를 위해 배열된 예시적 컴퓨팅 디바이스를 예시하는 블록도이다.
[0025] 본원에서 제공되는 머리말들은 단지 편의를 위한 것이며, 반드시 본 개시내용에서 청구되는 것의 범위 또는 의미에 영향을 미치지는 않는다.
[0026] 도면들에서, 동일한 참조 번호들 및 임의의 약어들은, 이해의 용이함 및 편의를 위해, 동일한 또는 유사한 구조 또는 기능을 갖는 엘리먼트들 또는 동작들을 식별한다. 도면들은 다음의 상세한 설명의 과정에서 상세하게 설명될 것이다.

[0027] 다양한 예들 및 실시예들이 이제 설명될 것이다. 다음의 설명은 이러한 예들의 설명을 완전히 이해하고 그리고 가능하게 하기 위한 특정 세부사항들을 제공한다. 그러나, 당업자는, 본원에서 설명되는 하나 또는 그 초과의 실시예들이 이러한 세부사항들 중 많은 세부사항들 없이도 실시될 수 있음을 이해할 것이다. 마찬가지로, 당업자는 또한, 본 개시내용의 하나 또는 그 초과의 실시예들이, 본원에서 상세하게 설명되지 않은 많은 다른 명백한 특징들을 포함할 수 있음을 이해할 것이다. 추가하여, 일부 잘-알려진 구조들 또는 기능들은, 관련 설명을 불필요하게 모호하게 하는 것을 회피하기 위해 아래에서 상세하게 설명되지 않거나 또는 도시되지 않을 수 있다.

[0028] 기존의 잡음 억제 방법론들의 맥락에서, 일반적으로 억제와 스피치 왜곡 사이에 이루어지는 설계 절충이 존재한다. 예컨대, 적어도 일부 기존의 접근방식들에서, 더 높은 억제는 종종, 잡음이 억제되는 스피치 신호를 왜곡시키는 희생에서 비롯된다.

[0029] 본 개시내용의 실시예들은 오디오 신호들을 위해 상황 종속적 트랜션트 잡음 억제를 제공하기 위한 방법들 및 시스템들에 관한 것이다. 트랜션트 잡음들의 잡음 억제를 위한 기존의 접근방식들에 대해 위에서 설명된 결점들을 고려하여, 본 개시내용의 방법들 및 시스템들은, 신호에서 스피치가 거의 검출되지 않거나 또는 전혀 검출되지 않는 상황들에서는 증가된(예컨대, 더 높은 레벨의 또는 더 공격적인 전략의) 트랜션트 잡음 억제 및 신호 복원을 수행하고, 신호의 음성 스피치 세그먼트들 동안에는 감소된(예컨대, 더 낮은 레벨의 또는 덜 공격적인 전략의) 트랜션트 잡음 억제 및 신호 복원을 수행하도록 설계된다. 아래에서 더 상세하게 설명될 바와 같이, 본 개시내용의 방법들 및 시스템들은, 검출된 트랜션트들 및 분류된 세그먼트들이 주어지는 경우, 상이한 타입들의 오디오 세그먼트들(예컨대, 음성 스피치 세그먼트들, 비음성 세그먼트들 등) 동안 상이한 타입들의(예컨대, 양들의) 잡음 억제를 활용한다.

[0030] 본원에서 설명되는 하나 또는 그 초과의 실시예들에 따르면, 사용자가 말을 하고 있는지의 여부(예컨대, 사용자와 연관된 신호가 오디오의 음성 세그먼트를 포함하는지 또는 비음성/논-스피치 세그먼트를 포함하는지)에 따라, 사용자와 연관된 오디오 신호에 상이한 종류들(예컨대, 타입들, 양들 등)의 억제가 적용될 수 있다. 예컨대, 적어도 하나의 실시예에 따르면, 참여자가 말을 하고 있지 않거나 또는 참여자와 연관된 신호가 비음성/논-스피치 오디오 세그먼트를 포함하는 경우, 트랜션트 억제 및 신호 복원을 위해 더 공격적인 전략이 그 참여자의 신호에 대해 활용될 수 있다. 반면에, 참여자의 신호에서 음성 오디오가 검출되는 경우(예컨대, 참여자가 말을 하고 있는 경우), 본원에서 설명되는 방법들 및 시스템들은 더 소프트한, 덜 공격적인 억제 및 복원을 적용할 수 있다.

[0031] 음성 오디오를 포함하는 신호에 더 소프트한 억제 및 복원을 적용하는 것은, 신호의 임의의 왜곡을 최소화하고, 이에 의해, 신호로부터 생성된 결과적인 스피치의 명료성(intelligibility)이 유지된다. 각각의 신호에 대해 결정된 "음성 상태"에 따라 상이한 억제 및 복원 방식들을 적용함으로써, 모든 검출된 트랜션트들을 억제하는 것(및 결과적으로, 신호에 포함된 스피치를 왜곡시키는 것)과 어떠한 억제도 전혀 수행하지 않는 것(및 그러므로, 왜곡을 회피하지만, 신호가 트랜션트들을 포함하도록 허용하는 것) 사이를 선택할 필요성이 제거된다. 본원에서 설명되는 하나 또는 그 초과의 실시예들에 따르면, 음성 상태는 예컨대, 세그먼트에 대해 생성된 음성 확률 추정치에 기초하여 오디오의 세그먼트에 대해 결정될 수 있으며, 여기서 음성 확률 추정치는, 세그먼트가 음성 데이터(예컨대, 스피치)를 포함할 확률이다.

[0032] 본원에서 설명되는 하나 또는 그 초과의 실시예들은, 오디오 스트림으로부터, 키 클릭들을 비롯한 검출된 트랜션트 잡음을 억제하도록 구성된 잡음 억제 컴포넌트에 관한 것이다. 예컨대, 적어도 하나의 실시예에 따르면, 잡음 억제는 주파수 영역에서 수행되고, 트랜션트 잡음의 존재의 확률에 의존하며, 트랜션트 잡음의 존재의 확률은 주어지는 것으로 가정된다. 당업자들에게 알려진 여러 가지 트랜션트 잡음 검출기들 중 임의의 트랜션트 잡음 검출기가 이러한 목적을 위해 이용될 수 있음이 이해되어야 한다.

[0033] 도 1은 본 개시내용의 하나 또는 그 초과의 실시예들에 따라 상황 종속적 트랜션트 잡음 억제를 위한 예시적 애플리케이션을 예시한다. 예컨대, 다수의 사용자들(예컨대, 참여자들, 개인들 등)(120a, 120b, 120c 내지 120n)(여기서, "n"은 임의적인 수임)은 오디오/비디오 통신 세션(예컨대, 오디오/비디오 회의)에 참여하고 있을 수 있다. 사용자들(120)은 예컨대, 유선 또는 무선 연결 또는 네트워크(105)를 통해 서로 통신할 수 있고, 사용자들(120) 각각은 여러 가지 적용가능한 사용자 디바이스들(130)(예컨대, 랩톱 컴퓨터, 데스크톱 컴퓨터, 태블릿 컴퓨터, 스마트폰 등) 중 임의의 사용자 디바이스(130)를 이용하여 통신 세션에 참여하고 있을 수 있다.

[0034] 적어도 하나의 실시예에 따르면, 통신 세션에 참여하기 위해 이용되고 있는 컴퓨팅 디바이스들(130) 중 하나 또는 그 초과는 트랜션트 잡음의 잠재적 소스인 컴포넌트 또는 액세서리를 포함할 수 있다. 예컨대, 컴퓨팅 디바이스들(130) 중 하나 또는 그 초과는 키보드 또는 타이프 패드(type pad)를 가질 수 있으며, 키보드 또는 타이프 패드는, 통신 세션 동안 참여자(120)에 의해 이용되는 경우, (예컨대, 가청의 키 클릭들 또는 사운드들로서) 다른 참여자들에게 검출가능한 트랜션트 잡음들을 생성할 수 있다.

[0035] 도 2는 본원에서 설명되는 하나 또는 그 초과의 실시예들에 따라 신호의 결정된 음성 상태에 기초하여, 착신 오디오 신호에 대해 상황 종속적 트랜션트 억제를 수행하기 위한 예시적 시스템을 예시한다. 적어도 하나의 실시예에 따르면, 시스템(200)은 비디오/오디오 회의를 위한 통신 경로의 전송-측 엔드포인트에서(예컨대, 도 1에 도시된 사용자들(120) 중 하나 또는 그 초과의 사용자들(120)과 연관된 엔드포인트에서) 동작할 수 있고, 트랜션트 검출기(220), 음성 활성도 검출(VAD; Voice Activity Detection) 유닛(230), 잡음 억제기(240), 및 송신 유닛(270)을 포함할 수 있다. 추가하여, 시스템(200)은 아래에서 더 상세하게 설명되는 도 3 내지 도 5에서 예시되는 알고리즘들과 유사한 하나 또는 그 초과의 알고리즘들을 수행할 수 있다.

[0036] 검출 시스템(200)으로의 오디오 신호(210) 입력은 트랜션트 검출기(220), VAD 유닛(230), 및 잡음 억제기(240)에 전달될 수 있다. 적어도 하나의 실시예에 따르면, 트랜션트 검출기는, 오디오 신호(210)에서의 트랜션트 잡음의 존재를, 그 신호와 연관된 착신 오디오 데이터를 주로 또는 전적으로 이용하여 검출하도록 구성될 수 있다. 예컨대, 트랜션트 검출기는 (예컨대, 트랜션트 잡음 펄스들과 스피치 신호들 사이의 스펙트럼적 및 시간적 특성들의 대조를 활용함으로써) 신호의 외곽의 트랜션트 잡음 이벤트들을 식별하기 위해 예측 모델의 기초로서 오디오 신호(210)의 일부 시간-주파수 표현(예컨대, DWT(discrete wavelet transform), WPT(wavelet packet transform) 등)을 활용할 수 있다. 결과적으로, 트랜션트 검출기는 트랜션트 잡음이 신호(210)에 존재할 추정된 확률을 결정하여, 이러한 트랜션트 확률 추정치(225)를 잡음 억제기(240)에 전송할 수 있다.

[0037] VAD 유닛(230)은 입력 신호(210)를 분석하도록, 그리고 당업자들에게 알려진 여러 가지 기술들 중 임의의 기술을 이용하여, 음성 데이터가 신호(210)에 존재하는지 여부를 검출하도록 구성될 수 있다. VAD 유닛(230)의 신호(210)의 분석에 기초하여, VAD 유닛(230)은 음성 확률 추정치(235)를 잡음 억제기(240)에 전송할 수 있다.

[0038] 트랜션트 확률 추정치(225) 및 음성 확률 추정치(235)는, 복수의 타입들의 억제/복원 중 어느 타입의 억제/복원을 신호(210)에 적용할지를 결정하기 위해 잡음 억제기(240)에 의해 활용될 수 있다. 본원에서 더 상세하게 설명될 바와 같이, 잡음 억제기(240)는, 신호가 음성 오디오(예컨대, 스피치 데이터)를 포함하는지의 여부에 따라, 오디오 신호(210)에 대해 "하드(hard)" 또는 "소프트(soft)" 복원을 수행할 수 있다.

[0039] 본 개시내용의 하나 또는 그 초과의 다른 실시예들에 따르면, 시스템(200)은 위에서 설명된 전송자-측 엔드포인트에 추가하여 또는 전송자-측 엔드포인트 대신에, 비디오/오디오 회의의 참여자들 사이의 통신 경로의 다른 포인트들에서 동작할 수 있음이 유의되어야 한다. 예컨대, 시스템(200)은 통신 경로의 수신기 엔드포인트에서 플레이아웃(playout)을 위해 수신된 신호에 대해 상황 종속적 트랜션트 억제를 수행할 수 있다.

[0040] 도 3은 본원에서 설명되는 하나 또는 그 초과의 실시예들에 따른 오디오 신호의 트랜션트 잡음 억제 및 복원을 위한 예시적 프로세스를 예시한다. 적어도 하나의 실시예에 따르면, 예시적 프로세스(300)는 위에서 상세하게 설명되고 도 2에서 예시된, 상황 종속적 트랜션트 억제를 위한 예시적 시스템(200)의 컴포넌트들 중 하나 또는 그 초과에 의해 수행될 수 있다.

[0041] 도시된 바와 같이, 프로세스(300)는, 오디오의 세그먼트가 음성 세그먼트인 것으로 결정되는지 또는 비음성/논-스피치 세그먼트인 것으로 결정되는지에 따라, 상이한 억제 전략들(예컨대, 블록들(315 및 320))을 적용한다. 예컨대, 블록(305)에서 오디오 신호의 세그먼트를 주파수 영역으로 변환하기 위해 고속 푸리에 변환(FFT)을 오디오 신호의 세그먼트에 적용한 후에, 블록(310)에서 세그먼트와 연관된 음성 확률이 임계 확률보다 더 큰지의 여부에 관한 결정이 이루어질 수 있다. 예컨대, 임계 확률은 미리 결정된 고정된 확률일 수 있다. 적어도 하나의 실시예에 따르면, 오디오 세그먼트와 연관된 음성 확률은 예시적 프로세스(300) 외측에서 그리고/또는 예시적 프로세스(300)보다 앞서 생성된 음성 정보에 기초한다. 예컨대, 블록(310)에서 활용되는 음성 확률은, 예컨대 음성 활동성 검출 유닛(예컨대, 도 2에 도시된 예시적 시스템(200)의 VAD 유닛(230))으로부터 수신된 음성 정보에 기초할 수 있다. 다른 예에서, 세그먼트와 연관된 음성 확률은, 예컨대 피치 추정 알고리즘 또는 피치 추정기로부터 수신된 스피치 사운드들 내의 보이싱(voicing)에 관한 정보에 기초할 수 있다. 예컨대, 피치 추정기로부터 수신된 스피치 사운드들 내의 보이싱에 관한 정보는, 성대들이 진동하는 오디오 세그먼트의 구역들을 식별하기 위해 이용될 수 있다.

[0042] 블록(310)에서, 오디오 세그먼트와 연관된 음성 확률이 임계 확률보다 더 크다는 것이 결정되는 경우, 블록(320)에서, 세그먼트는 "소프트" 복원(예컨대, 블록(315)에서의 "하드" 복원과 비교하여 덜 공격적인 억제)을 통해 프로세싱된다. 반면에, 블록(310)에서, 오디오 세그먼트와 연관된 음성 확률이 임계 확률과 동등하거나 또는 임계 확률보다 더 작다는 것이 결정되는 경우, 블록(315)에서, 세그먼트는 "하드" 복원(예컨대, 블록(320)에서의 "소프트" 복원과 비교하여 더 공격적인 억제)을 통해 프로세싱된다.

[0043] (블록(310)에서의) 세그먼트와 연관된 음성 확률과 임계 확률의 비교에 기초하여 (각각 블록(315) 및 블록(320)에서) 하드 복원 또는 소프트 복원을 수행하는 것은, 오디오의 비음성/논-스피치 블록들의 더 공격적인 억제 프로세싱 및 음성 사운드들을 포함하는 오디오 블록들의 더 보존적인 억제 프로세싱을 허용한다. 본 개시내용의 적어도 하나의 실시예에 따르면, (하드 복원을 위해) 블록(315)에서 수행되는 동작들은, 도 4에 예시되고 아래에서 더 상세하게 설명되는 예시적 프로세스(400)의 블록(405)에서 수행되는 동작들에 대응할 수 있다. 유사하게, (소프트 복원을 위해) 블록(320)에서 수행되는 동작들은, 도 5에 예시되고 또한 아래에서 더 상세하게 설명되는 예시적 프로세스(500)의 블록(510)에서 수행되는 동작들에 대응할 수 있다.

[0044] 블록들(315 및 320)에서의 억제/복원 프로세스들 중 어느 하나의 억제/복원 프로세스 다음에, 블록(325)에서, 오디오 세그먼트에 대한 스펙트럼 평균이 업데이트될 수 있다. 블록(330)에서, 신호는 다시 시간 영역으로 변환되도록 역 FFT(IFFT)를 겪을 수 있다.

[0045] 도 4는 오디오 신호가 비음성/논-스피치 오디오 데이터를 포함한다는 결정에 기초하여 오디오 신호의 하드 복원을 위한 예시적 프로세스를 예시한다. 예컨대, 하드 복원 프로세스(400)는 (예컨대, 신호가 음성 데이터를 포함할 상이한 확률들에 대응하는 복수의 가능한 음성 상태들 중) 제 1 음성 상태를 갖는 오디오 신호에 기초하여 수행될 수 있으며, 여기서 제 1 음성 상태는 신호와 연관된 음성 확률 추정치가 낮은 것(신호가 비음성/논-스피치 데이터를 포함할 높은 확률이 존재함을 표시함)에 대응하고, 제 2 음성 상태는 제 1 음성 상태에 대응하는 확률 추정치보다 더 높은 음성 확률 추정치에 대응하는 등등이다. 본원에서 설명되는 하나 또는 그 초과의 실시예들에 따르면, 예시적 프로세스(400)는 위에서 상세하게 설명되고 도 2에서 예시된 상황 종속적 트랜션트 억제를 위한 예시적 시스템(200)의 컴포넌트들 중 하나 또는 그 초과 컴포넌트들(예컨대, 잡음 억제기(240))에 의해 수행될 수 있다. 적어도 하나의 실시예에 따르면, 음성 상태들은, 위에서 제공된 예시적 대응에 추가하여 또는 위에서 제공된 예시적 대응 대신에 하나 또는 그 초과의 다른 방식들로 음성 확률 추정치들에 대응할 수 있음이 이해되어야 한다.

[0046] 게다가, 본 개시내용의 적어도 하나의 실시예에 따르면, 예시적 프로세스(400)의 블록(405)(블록(405)은 블록들(410 및 415)을 포함함)에서 수행되는 동작들은, 위에서 설명되고 도 3에서 예시된 예시적 프로세스(300)의 블록(315)에서 수행되는 동작들에 대응할 수 있다.

[0047] 프로세스(400)를 수행하는데 있어서, 검출된 트랜션트들을 억제하고 원래의 오디오 신호를 복원하기 위해, 스펙트럼 평균을 계속 추적할 필요가 있을 수 있음이 유의되어야 한다. 적어도 하나의 실시예에 따르면, 블록(405)을 포함하는 동작들이 각각의 주파수 빈(frequency bin)에 대해 반복적 방식으로 수행될 수 있음이 또한 유의되어야 한다. 예컨대, 블록(410)에서, 주어진 주파수 빈에 대한 크기는 (추적된) 스펙트럼 평균과 비교될 수 있다.

[0048] 블록(410)에서, 크기가 스펙트럼 평균보다 더 크다는 것이 결정되는 경우, 그 크기는 억제되고 새로운 크기가 블록(415)에서 계산된다. 반면에, 블록(410)에서, 크기가 스펙트럼 평균보다 더 크지 않다는 것(예컨대, 크기가 스펙트럼 평균과 동등하거나 또는 스펙트럼 평균보다 더 작다는 것)이 결정되는 경우, 어떠한 억제도 수행되지 않고, 블록(405)의 동작들은 다음번 주파수에 대해 반복될 수 있다.

[0049] 블록(410)에서 이루어진 결정의 결과로서 억제가 수행되는 경우, 블록(415)에서 새로운 크기가 계산될 수 있다. 적어도 하나의 실시예에 따르면, 블록(415)에서 계산된 새로운 크기는, 검출 확률(예컨대, 도 2에 도시된 예시적 시스템(200)의 트랜션트 검출기(220)로부터 잡음 억제기(240)에서 수신된 트랜션트 확률 추정치(225))에 따라, 이전의 크기와 스펙트럼 평균의 선형 결합일 수 있다. 예컨대, 새로운 크기는 아래와 같이 계산될 수 있다:

[0050]

[0051] 여기서, "검출치"는 트랜션트가 존재할 추정된 확률에 대응하고, "크기"는 이전의 크기(예컨대, 블록(410)에서 비교된 크기)에 대응한다. 앞서의 계산이 주어지면, (예컨대, 추정된 확률에 기초하여) 트랜션트가 존재한다는 것이 결정되는 경우, 새로운 크기는 스펙트럼 평균이다. 그러나, 블록에서 트랜션트 확률 추정치가, 어떠한 트랜션트들도 존재하지 않음을 표시하는 경우, 어떠한 억제도 발생하지 않는다.

[0052] 도 5는 오디오 신호가 음성 데이터를 포함한다는 결정에 기초하여 오디오 신호의 소프트 복원을 위한 예시적 프로세스를 예시한다. 예컨대, 소프트 복원 프로세스(500)는 제 2 음성 상태를 갖는 오디오 신호에 기초하여 수행될 수 있으며, 여기서 제 2 음성 상태는, 도 4에 도시된 예시적 프로세스(400)에 대해 위에서 설명된 바와 같이, 제 1 음성 상태에 대응하는 음성 확률 추정치보다 더 높은 음성 확률 추정치에 대응한다. 본원에서 설명되는 하나 또는 그 초과의 실시예들에 따르면, 예시적 프로세스(500)는 위에서 상세하게 설명되고 도 2에 예시된 상황 종속적 트랜션트 억제를 위한 예시적 시스템(200)의 컴포넌트들 중 하나 또는 그 초과(예컨대, 잡음 억제기(240))에 의해 수행될 수 있다.

[0053] 게다가, 본 개시내용의 적어도 하나의 실시예에 따르면, 예시적 프로세스(500)의 블록(510)(블록(510)은 블록들(515, 520 및 525)을 포함함)에서 수행되는 동작들은, 위에서 설명되고 도 3에서 예시된 예시적 프로세스(300)의 블록(320)에서 수행되는 동작들에 대응할 수 있다.

[0054] 위에서 설명된 하드 복원을 위해 예시적 프로세스(예컨대, 프로세스(400))와 마찬가지로, 프로세스(500)를 수행하는 데 있어서, 오디오의 블록에 대한 스펙트럼 평균이 블록(505)에서 계산될 수 있음이 유의되어야 한다. 적어도 하나의 실시예에 따르면, 블록(510)을 포함하는 동작들은 각각의 주파수 빈에 대해 반복적인 방식으로 수행될 수 있음이 또한 유의되어야 한다.

[0055] 블록(515)에서, 주어진 주파수 빈에 대해, (블록(505)에서 결정된) 블록 평균의 팩터가 계산될 수 있다. 적어도 하나의 실시예에 따르면, 블록 평균의 팩터는, 통상의 스피치 스펙트럼 주파수들을 덜-강조하는(de-emphasizing) 고정된 스펙트럼 가중치(fixed spectral weighting)일 수 있다. 예컨대, 블록(515)에서 결정된 블록 평균의 팩터는 현재의 블록 스펙트럼에 걸친 평균 값일 수 있다. 블록(515)에서 계산된 팩터는 연속적인 값들(예컨대, 1 내지 5)을 가질 수 있으며, 이들은 스피치 주파수들에 대해 더 낮다(예컨대, 300 Hz 내지 3500 Hz).

[0056] 블록(520)에서, 주파수에 대한 크기는 계산된 스펙트럼 평균과 비교될 수 있고, 블록(515)에서 계산된 블록 평균의 팩터와 또한 비교될 수 있다. 예컨대, 블록(520)에서, 크기가 스펙트럼 평균보다 더 큰지 및 크기가 블록 평균의 팩터보다 더 작은지 양쪽 모두가 결정될 수 있다. 블록(520)에서 이러한 조건이 충족되는지 여부를 결정하는 것은, 음성 고조파들 사이의 트랜션트 잡음을 억제하면서 음성 고조파들을 유지하는 것을 가능하게 한다.

[0057] 블록(520)에서, 크기가 스펙트럼 평균보다 더 크다는 것 및 크기가 블록 평균의 팩터보다 더 작다는 것 양쪽 모두가 결정되는 경우, 억제가 수행되고, 동작들은 블록(525)에서 계속되며, 블록(525)에서 새로운 크기가 계산될 수 있다. 반면에, 블록(520)에서, 크기가 스펙트럼 평균보다 더 크지 않다는 것(예컨대, 크기가 스펙트럼 평균과 동등하거나 또는 스펙트럼 평균보다 더 작다는 것), 크기가 블록 평균의 팩터보다 더 작지 않다는 것(예컨대, 크기가 블록 평균의 팩터와 동등하거나 또는 블록 평균의 팩터보다 더 크다는 것), 또는 그 양쪽 모두가 결정되는 경우, 어떠한 억제도 수행되지 않고, 블록(510)의 동작들은 다음번 주파수에 대해 반복될 수 있다.

[0058] 블록(520)에서 이루어진 결정의 결과로서 억제가 수행되는 경우, 블록(525)에서 새로운 크기가 계산될 수 있다. 적어도 하나의 실시예에 따르면, 블록(525)에서 계산된 새로운 크기는 (위에서 설명되고 도 4에서 예시된) 예시적 프로세스(400)의 블록(415)에서 수행된 새로운 크기 계산과 유사한 방식으로 계산될 수 있다. 예컨대, 블록(525)에서 계산된 새로운 크기는, 검출 확률(예컨대, 도 2에 도시된 예시적 시스템(200)의 트랜션트 검출기(220)로부터 잡음 억제기(240)에서 수신된 트랜션트 확률 추정치(225))에 따라, 이전의 크기와 스펙트럼 평균의 선형 결합일 수 있다. 예컨대, 새로운 크기는 블록(525)에서 아래와 같이 계산될 수 있다:

[0059]

[0060] 여기서, "검출치"는 트랜션트가 존재할 추정된 확률에 대응하고, "크기"는 이전의 크기(예컨대, 블록(520)에서 비교된 크기)에 대응한다. 앞서의 계산이 주어지면, (예컨대, 추정된 확률에 기초하여) 트랜션트가 존재한다는 것이 결정되는 경우, 새로운 크기는 스펙트럼 평균이다. 그러나, 블록에서 트랜션트 확률 추정치가, 어떠한 트랜션트들도 존재하지 않음을 표시하는 경우, 어떠한 억제도 발생하지 않는다.

[0061] 도 6은 본원에서 설명되는 하나 또는 그 초과의 실시예들에 따라 상황 종속적 트랜션트 잡음 억제를 위해 배열된 예시적 컴퓨터(600)의 하이-레벨 블록도이다. 매우 기본적인 구성(601)에서, 컴퓨팅 디바이스(600)는 통상적으로, 하나 또는 그 초과의 프로세서들(610) 및 시스템 메모리(620)를 포함한다. 메모리 버스(630)는 프로세서(610)와 시스템 메모리(620) 사이의 통신을 위해 이용될 수 있다.

[0062] 원하는 구성에 따라, 프로세서(610)는 마이크로프로세서(μP), 마이크로제어기(μC), 디지털 신호 프로세서(DSP), 또는 이들의 임의의 결합을 포함하는(그러나, 이에 한정되지 않음) 임의의 타입일 수 있다. 프로세서(610)는 1 이상의 레벨들의 캐싱, 이를테면, 레벨 1 캐시(611) 및 레벨 2 캐시(612), 프로세서 코어(613) 및 레지스터들(614)을 포함할 수 있다. 프로세서 코어(613)는 산술 논리 유닛(ALU), 부동 소수점 유닛(FPU), 디지털 신호 프로세싱 코어(DSP 코어), 또는 이들의 임의의 결합을 포함할 수 있다. 메모리 제어기(616)가 또한 프로세서(610)와 함께 이용될 수 있거나, 또는 일부 구현들에서, 메모리 제어기(615)는 프로세서(610)의 내부 부분일 수 있다.

[0063] 원하는 구성에 따라, 시스템 메모리(620)는 휘발성 메모리(이를테면, RAM), 비-휘발성 메모리(이를테면, ROM, 플래시 메모리 등) 또는 이들의 임의의 결합을 포함하는(그러나, 이에 한정되지 않음) 임의의 타입일 수 있다. 시스템 메모리(620)는 통상적으로, 운영 체제(621), 하나 또는 그 초과의 애플리케이션들(622), 및 프로그램 데이터(624)를 포함한다. 애플리케이션(622)은 신호가 음성 데이터를 포함하는지의 여부에 대한 결정에 기초하여 상이한 종류들(예컨대, 타입들, 양들, 레벨들 등)의 억제/복원을 오디오 신호에 적용하기 위한 상황 종속적 트랜션트 억제 알고리즘(623)을 포함할 수 있다. 적어도 하나의 실시예에 따르면, 상황 종속적 트랜션트 억제 알고리즘(623)은, 사용자가 말을 하고 있는지의 여부(예컨대, 사용자와 연관된 신호가 오디오의 음성 세그먼트를 포함하는지 또는 비음성/논-스피치 세그먼트를 포함하는지)에 따라 사용자와 연관된 오디오 신호에 대해 더 공격적인/덜 공격적인 억제/복원을 수행하도록 동작할 수 있다. 예컨대, 적어도 하나의 실시예에 따르면, 참여자가 말을 하고 있지 않거나 또는 참여자와 연관된 신호가 비음성/논-스피치 오디오 세그먼트를 포함하는 경우, 상황 종속적 트랜션트 억제 알고리즘(623)은 그 참여자의 신호에 대한 트랜션트 억제 및 신호 복원을 위해 더 공격적인 전략을 적용할 수 있다. 반면에, 참여자의 신호에서 음성 오디오가 검출되는 경우(예컨대, 참여자가 말을 하고 있는 경우), 상황 종속적 트랜션트 억제 알고리즘(623)은 더 소프트한, 덜 공격적인 억제 및 복원을 적용할 수 있다.

[0064] 프로그램 데이터(624)는, 하나 또는 그 초과의 프로세싱 디바이스들에 의해 실행될 때, 본원에서 설명되는 하나 또는 그 초과의 실시예들에 따라 오디오 신호의 상황 종속적 트랜션트 잡음 억제 및 복원을 위한 방법을 구현하는 저장 명령들을 포함할 수 있다. 추가하여, 적어도 하나의 실시예에 따르면, 프로그램 데이터(624)는 오디오 신호 데이터(625)를 포함할 수 있으며, 오디오 신호 데이터(625)는 오디오 신호가 음성 데이터를 포함할 확률에 관한 데이터, 트랜션트 잡음이 신호에 존재할 확률에 관한 데이터, 또는 양쪽 모두를 포함할 수 있다. 일부 실시예들에서, 애플리케이션(622)은 운영 체제(621) 상에서 프로그램 데이터(624)를 이용하여 동작하도록 배열될 수 있다.

[0065] 컴퓨팅 디바이스(600)는 기본 구성(601)과 임의의 요구되는 디바이스들 및 인터페이스들 사이의 통신들을 용이하게 하기 위해 추가의 특징들 또는 기능, 및 추가의 인터페이스들을 가질 수 있다.

[0066] 시스템 메모리(620)는 컴퓨터 저장 매체들의 예이다. 컴퓨터 저장 매체들은, RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다기능 디스크들(DVD) 또는 다른 광학 저장소, 자기 카세트들, 자기 테이프, 자기 디스크 저장소 또는 다른 자기 저장 디바이스들, 또는 원하는 정보를 저장하기 위해 이용될 수 있고 컴퓨팅 디바이스(600)에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다(그러나, 이에 한정되지 않음). 임의의 이러한 컴퓨터 저장 매체들은 디바이스(600)의 부분일 수 있다.

[0067] 컴퓨팅 디바이스(600)는 셀폰, 스마트폰, PDA(personal data assistant), 개인 미디어 플레이어 디바이스, 태블릿 컴퓨터(태블릿), 무선 웹-워치 디바이스(wireless web-watch device), 개인 헤드셋 디바이스, 주문형 디바이스, 또는 앞서의 기능들 중 임의의 기능을 포함하는 하이브리드 디바이스와 같은 소형-폼팩터 휴대용(또는 모바일) 전자 디바이스의 부분으로서 구현될 수 있다. 컴퓨팅 디바이스(600)는 또한, 랩톱 컴퓨터 구성 및 비-랩톱 컴퓨터 구성 양쪽 모두를 포함하는 개인 컴퓨터로서 구현될 수 있다.

[0068] 전술한 상세한 설명은 블록도들, 흐름도들, 및/또는 예들의 사용을 통해 디바이스들 및/또는 프로세스들의 다양한 실시예들을 제시하였다. 이러한 블록도들, 흐름도들, 및/또는 예들이 하나 또는 그 초과의 기능들 및/또는 동작들을 포함하는 한, 이러한 블록도들, 흐름도들, 또는 예들 내의 각각의 기능 및/또는 동작이, 광범위한 하드웨어, 소프트웨어, 펌웨어, 또는 사실상 이들의 임의의 결합에 의해 개별적으로 그리고/또는 집합적으로 구현될 수 있음이 당업자들에 의해 이해될 것이다. 일 실시예에서, 본원에서 설명되는 청구 대상의 몇몇 부분들은 주문형 집적 회로(ASIC)들, 필드 프로그램가능 게이트 어레이(FPGA)들, 디지털 신호 프로세서(DSP)들, 또는 다른 통합된 포맷들을 통해 구현될 수 있다. 그러나, 당업자들은, 본원에서 개시되는 실시예들의 일부 양상들이 전체적으로 또는 부분적으로, 집적 회로들에서, 하나 또는 그 초과의 컴퓨터들 상에서 실행되는 하나 또는 그 초과의 컴퓨터 프로그램들로서, 하나 또는 그 초과의 프로세서들 상에서 실행되는 하나 또는 그 초과의 프로그램들로서, 펌웨어로서, 또는 사실상 이들의 임의의 결합으로서 동등하게 구현될 수 있음을, 그리고 회로를 설계하는 것 및/또는 소프트웨어 및/또는 펌웨어를 위해 코드를 기록하는 것이 본 개시내용을 고려하여 당업자의 기술 내에서 양호할 것임을 인식할 것이다.

[0069] 추가하여, 당업자들은, 본원에서 설명되는 청구 대상의 메커니즘들이 여러 가지 형태들의 프로그램 물건으로서 분배될 수 있음을, 그리고 본원에서 설명되는 청구 대상의 예시적 실시예가 그 분배를 실제로 수행하기 위해 이용되는 비-일시적 신호 베어링 매체의 특정 타입과 무관하게 적용됨을 인식할 것이다. 비-일시적 신호 베어링 매체의 예들은 다음의 기록가능 타입 매체, 이를테면, 플로피 디스크, 하드 디스크 드라이브, 컴팩트 디스크(CD), 디지털 비디오 디스크(DVD), 디지털 테이프, 컴퓨터 메모리 등; 및 송신 타입 매체, 이를테면, 디지털 및/또는 아날로그 통신 매체(예컨대, 광섬유 케이블, 도파관, 유선 통신 링크, 무선 통신 링크 등)를 포함할 수 있다(그러나, 이에 한정되지 않음).

[0070] 본원의 실질적으로 임의의 복수형의 그리고/또는 단수형의 용어들의 사용에 대해, 당업자들은 그것이 상황 및/또는 애플리케이션에 적합한 한, 복수형으로부터 단수형으로 그리고/또는 단수형으로부터 복수형으로 트랜슬레이팅할 수 있다. 명료성을 위해, 다양한 단수형/복수형 치환들이 명백하게 본원에서 제시될 수 있다.

[0071] 따라서, 본 청구 대상의 특정 실시예들이 설명되었다. 다른 실시예들은 다음의 청구항들의 범위 내에 있다. 일부 경우들에서, 청구항들에서 열거되는 동작들은 상이한 순서로 수행되고, 여전히 바람직한 결과들을 달성할 수 있다. 추가하여, 첨부 도면들에서 도시된 프로세스들은 바람직한 결과들을 달성하기 위해, 도시된 특정 순서, 또는 순차적 순서를 반드시 요구하는 것은 아니다. 특정 구현들에서, 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다.

Claims

오디오 신호의 트랜션트 잡음(transient noise)을 억제하기 위한 컴퓨터-구현 방법으로서,
트랜션트 잡음을 포함하는 상기 오디오 신호의 세그먼트에 대한 음성 확률을 추정하는 단계 ― 추정된 음성 확률은 상기 세그먼트가 음성 데이터를 포함할 확률임 ―;
상기 세그먼트에 대해 추정된 음성 확률이 임계 확률보다 더 크다는 것을 결정하는 것에 대한 응답으로, 상기 음성 데이터의 변형을 감소시키면서 상기 오디오 신호의 세그먼트에 포함된 상기 트랜션트 잡음을 억제하는 단계 ― 이때, 상기 트랜션트 잡음을 억제하는 단계는: 상기 오디오 세그먼트의 복수의 주파수 빈(frequency bin)들에 걸쳐 상기 오디오 세그먼트에 대한 스펙트럼 평균을 계산하는 단계, 및 상기 오디오 세그먼트의 복수의 주파수 빈들의 주파수 빈 각각에 대해, 상기 스펙트럼 평균에 대한 그리고 상기 스펙트럼 평균의 계산된 팩터에 대한 상기 주파수 빈의 크기의 현재 값의 비교가 상기 트랜션트 잡음이 존재하는 것을 나타내는 경우, 상기 주파수 빈에서 상기 트랜션트 잡음을 억제하는 단계를 포함하고, 상기 스펙트럼 평균의 계산된 팩터는, 상기 음성 데이터가 전송되는 주파수들에 대응하여 상기 복수의 주파수 빈들의 주파수 빈들을 덜 강조(de-emphasize)하도록 구성되는 고정된 스펙트럼 가중치(fixed spectral weighting)이고, 상기 트랜션트 잡음을 억제하는 단계는, 상기 스펙트럼 평균과 상기 주파수 빈의 크기의 현재 값 사이의 새로운 값으로 상기 주파수 빈의 크기를 조절하는 단계를 포함함 ―; 및
상기 세그먼트에 대해 추정된 음성 확률이 상기 임계 확률보다 더 작다는 것을 결정하는 것에 대한 응답으로, 상기 음성 데이터의 변형을 감소시키지 않으면서 상기 오디오 신호의 세그먼트에 포함된 상기 트랜션트 잡음을 억제하는 단계 ― 이때, 상기 트랜션트 잡음을 억제하는 단계는: 상기 오디오 세그먼트의 복수의 주파수 빈들에 걸쳐 상기 오디오 세그먼트에 대한 스펙트럼 평균을 계산하는 단계, 및 상기 오디오 세그먼트의 복수의 주파수 빈들의 주파수 빈 각각에 대해, 상기 스펙트럼 평균에 대한 상기 주파수 빈의 크기의 비교가 상기 트랜션트 잡음이 존재하는 것을 나타내는 경우, 상기 주파수 빈에서 상기 트랜션트 잡음을 억제하는 단계를 포함하고, 상기 트랜션트 잡음을 억제하는 단계는, 상기 스펙트럼 평균과 상기 주파수 빈의 크기의 현재 값 사이의 새로운 값으로 상기 주파수 빈의 크기를 조절하는 단계를 포함함 ―
를 포함하는,
오디오 신호의 트랜션트 잡음을 억제하기 위한 컴퓨터-구현 방법.
제 1 항에 있어서,
상기 추정된 음성 확률은 피치 추정기(pitch estimator)로부터 수신된 보이싱 정보(voicing information)에 기초하는,
오디오 신호의 트랜션트 잡음을 억제하기 위한 컴퓨터-구현 방법.
제 1 항에 있어서,
상기 오디오 신호의 세그먼트에 대한 음성 확률을 추정하는 단계는, 음성 스피치(voiced speech)를 포함하는 상기 세그먼트의 구역들을 식별하는 단계를 포함하는,
오디오 신호의 트랜션트 잡음을 억제하기 위한 컴퓨터-구현 방법.
제 3 항에 있어서,
상기 음성 스피치를 포함하는 세그먼트의 구역들을 식별하는 단계는, 성대(vocal fold)들이 진동하는 상기 세그먼트의 구역들을 식별하는 단계를 포함하는,
오디오 신호의 트랜션트 잡음을 억제하기 위한 컴퓨터-구현 방법.
제 1 항에 있어서,
상기 스펙트럼 평균에 대한 그리고 상기 스펙트럼 평균의 계산된 팩터에 대한 상기 주파수 빈의 크기의 비교가 제 1 조건을 충족시키는 것에 대한 응답으로, 상기 주파수 빈에 대한 새로운 크기를 계산하는 단계; 및
상기 스펙트럼 평균에 대한 그리고 상기 스펙트럼 평균의 계산된 팩터에 대한 상기 주파수 빈의 크기의 비교가 제 2 조건을 충족시키는 것에 대한 응답으로, 상기 주파수 빈에 대한 크기를 유지하는 단계를 더 포함하고,
상기 제 1 조건은 상기 제 2 조건과 상이한,
오디오 신호의 트랜션트 잡음을 억제하기 위한 컴퓨터-구현 방법.
제 1 항에 있어서,
상기 스펙트럼 평균에 대한 상기 주파수 빈의 크기의 비교가 제 1 조건을 충족시키는 것에 대한 응답으로, 상기 주파수 빈에 대한 새로운 크기를 계산하는 단계; 및
상기 스펙트럼 평균에 대한 상기 주파수 빈의 크기의 비교가 제 2 조건을 충족시키는 것에 대한 응답으로, 상기 주파수 빈에 대한 크기를 유지하는 단계를 더 포함하고,
상기 제 1 조건은 상기 제 2 조건과 상이한,
오디오 신호의 트랜션트 잡음을 억제하기 위한 컴퓨터-구현 방법.
제 5 항에 있어서,
상기 주파수 빈에 대한 새로운 크기는 이전의 크기, 상기 스펙트럼 평균, 및 트랜션트 잡음이 상기 오디오 세그먼트에 존재할 추정된 확률에 기초하여 계산되는,
오디오 신호의 트랜션트 잡음을 억제하기 위한 컴퓨터-구현 방법.
제 6 항에 있어서,
상기 주파수 빈에 대한 새로운 크기는 이전의 크기, 상기 스펙트럼 평균, 및 트랜션트 잡음이 상기 오디오 세그먼트에 존재할 추정된 확률에 기초하여 계산되는,
오디오 신호의 트랜션트 잡음을 억제하기 위한 컴퓨터-구현 방법.
삭제
오디오 신호의 트랜션트 잡음을 억제하기 위한 시스템으로서,
적어도 하나의 프로세서; 및
명령들이 저장된 상기 적어도 하나의 프로세서에 커플링된 컴퓨터-판독가능 매체를 포함하고, 상기 명령들은 상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 적어도 하나의 프로세서로 하여금,
트랜션트 잡음을 포함하는 상기 오디오 신호의 세그먼트에 대한 음성 확률을 추정하게 하고 ― 추정된 음성 확률은 상기 세그먼트가 음성 데이터를 포함할 확률임 ―;
상기 세그먼트에 대해 추정된 음성 확률이 임계 확률보다 더 크다는 것을 결정하는 것에 대한 응답으로, 상기 음성 데이터의 변형을 감소시키면서 상기 오디오 신호의 세그먼트에 포함된 상기 트랜션트 잡음을 억제하게 하고 ― 이때, 상기 트랜션트 잡음을 억제하는 것은: 상기 오디오 세그먼트의 복수의 주파수 빈들에 걸쳐 상기 오디오 세그먼트에 대한 스펙트럼 평균을 계산하는 것, 및 상기 오디오 세그먼트의 복수의 주파수 빈들의 주파수 빈 각각에 대해, 상기 스펙트럼 평균에 대한 그리고 상기 스펙트럼 평균의 계산된 팩터에 대한 상기 주파수 빈의 크기의 현재 값의 비교가 상기 트랜션트 잡음이 존재하는 것을 나타내는 경우, 상기 주파수 빈에서 상기 트랜션트 잡음을 억제하는 것을 포함하고, 상기 스펙트럼 평균의 계산된 팩터는, 상기 음성 데이터가 전송되는 주파수들에 대응하여 상기 복수의 주파수 빈들의 주파수 빈들을 덜 강조하도록 구성되는 고정된 스펙트럼 가중치이고, 상기 트랜션트 잡음을 억제하는 것은, 상기 스펙트럼 평균과 상기 주파수 빈의 크기의 현재 값 사이의 새로운 값으로 상기 주파수 빈의 크기를 조절하는 것을 포함함 ―; 그리고
상기 세그먼트에 대해 추정된 음성 확률이 상기 임계 확률보다 더 작다는 것을 결정하는 것에 대한 응답으로, 상기 음성 데이터의 변형을 감소시키지 않으면서 상기 오디오 신호의 세그먼트에 포함된 상기 트랜션트 잡음을 억제하게 하는 ― 이때, 상기 트랜션트 잡음을 억제하는 것은: 상기 오디오 세그먼트의 복수의 주파수 빈들에 걸쳐 상기 오디오 세그먼트에 대한 스펙트럼 평균을 계산하는 것, 및 상기 오디오 세그먼트의 복수의 주파수 빈들의 주파수 빈 각각에 대해, 상기 스펙트럼 평균에 대한 상기 주파수 빈의 크기의 비교가 상기 트랜션트 잡음이 존재하는 것을 나타내는 경우, 상기 주파수 빈에서 상기 트랜션트 잡음을 억제하는 것을 포함하고, 상기 트랜션트 잡음을 억제하는 것은, 상기 스펙트럼 평균과 상기 주파수 빈의 크기의 현재 값 사이의 새로운 값으로 상기 주파수 빈의 크기를 조절하는 것을 포함함 ―,
오디오 신호의 트랜션트 잡음을 억제하기 위한 시스템.
제 10 항에 있어서,
상기 추정된 음성 확률은 피치 추정기로부터 수신된 보이싱 정보에 기초하는,
오디오 신호의 트랜션트 잡음을 억제하기 위한 시스템.
제 10 항에 있어서,
상기 적어도 하나의 프로세서는 추가로,
성대들이 진동하는 상기 세그먼트의 구역들을 식별하고, 그리고
상기 성대들이 진동하는 상기 세그먼트의 구역들은 음성 스피치를 포함하는 구역들이라는 것을 결정하도록 야기되는,
오디오 신호의 트랜션트 잡음을 억제하기 위한 시스템.
제 10 항에 있어서,
상기 적어도 하나의 프로세서는 추가로,
상기 스펙트럼 평균에 대한 그리고 상기 스펙트럼 평균의 계산된 팩터에 대한 상기 주파수 빈의 크기의 비교가 제 1 조건을 충족시키는 것에 대한 응답으로, 상기 주파수 빈에 대한 새로운 크기를 계산하고, 그리고
상기 스펙트럼 평균에 대한 그리고 상기 스펙트럼 평균의 계산된 팩터에 대한 상기 주파수 빈의 크기의 비교가 제 2 조건을 충족시키는 것에 대한 응답으로, 상기 주파수 빈에 대한 크기를 유지하도록 야기되고,
상기 제 1 조건은 상기 제 2 조건과 상이한,
오디오 신호의 트랜션트 잡음을 억제하기 위한 시스템.
제 10 항에 있어서,
상기 적어도 하나의 프로세서는 추가로,
상기 스펙트럼 평균에 대한 상기 주파수 빈의 크기의 비교가 제 1 조건을 충족시키는 것에 대한 응답으로, 상기 주파수 빈에 대한 새로운 크기를 계산하고, 그리고
상기 스펙트럼 평균에 대한 상기 주파수 빈의 크기의 비교가 제 2 조건을 충족시키는 것에 대한 응답으로, 상기 주파수 빈에 대한 크기를 유지하도록 야기되고,
상기 제 1 조건은 상기 제 2 조건과 상이한,
오디오 신호의 트랜션트 잡음을 억제하기 위한 시스템.
제 13 항에 있어서,
상기 적어도 하나의 프로세서는 추가로,
이전의 크기, 상기 스펙트럼 평균, 및 트랜션트 잡음이 상기 오디오 세그먼트에 존재할 추정된 확률에 기초하여 상기 주파수 빈에 대한 새로운 크기를 계산하도록 야기되는,
오디오 신호의 트랜션트 잡음을 억제하기 위한 시스템.
제 14 항에 있어서,
상기 적어도 하나의 프로세서는 추가로,
이전의 크기, 상기 스펙트럼 평균, 및 트랜션트 잡음이 상기 오디오 세그먼트에 존재할 추정된 확률에 기초하여 상기 주파수 빈에 대한 새로운 크기를 계산하도록 야기되는,
오디오 신호의 트랜션트 잡음을 억제하기 위한 시스템.
삭제
오디오 신호의 트랜션트 잡음을 억제하기 위한 컴퓨터-구현 방법으로서,
트랜션트 잡음을 포함하는 상기 오디오 신호의 세그먼트에 대한 음성 확률을 추정하는 단계 ― 추정된 음성 확률은 상기 세그먼트가 음성 데이터를 포함할 확률임 ―;
상기 세그먼트에 대해 추정된 음성 확률이 제 1 음성 상태에 대응한다는 것을 결정하는 것에 대한 응답으로, 상기 음성 데이터의 변형을 감소시키면서 상기 오디오 신호의 세그먼트에 포함된 상기 트랜션트 잡음을 억제하는 단계 ― 이때, 상기 트랜션트 잡음을 억제하는 단계는: 상기 오디오 세그먼트의 복수의 주파수 빈들에 걸쳐 상기 오디오 세그먼트에 대한 스펙트럼 평균을 계산하는 단계, 및 상기 오디오 세그먼트의 복수의 주파수 빈들의 주파수 빈 각각에 대해, 상기 스펙트럼 평균에 대한 그리고 상기 스펙트럼 평균의 계산된 팩터에 대한 상기 주파수 빈의 크기의 현재 값의 비교가 상기 트랜션트 잡음이 존재하는 것을 나타내는 경우, 상기 주파수 빈에서 상기 트랜션트 잡음을 억제하는 단계를 포함하고, 상기 스펙트럼 평균의 계산된 팩터는, 상기 음성 데이터가 전송되는 주파수들에 대응하여 상기 복수의 주파수 빈들의 주파수 빈들을 덜 강조하도록 구성되는 고정된 스펙트럼 가중치이고, 상기 트랜션트 잡음을 억제하는 단계는, 상기 스펙트럼 평균과 상기 주파수 빈의 크기의 현재 값 사이의 새로운 값으로 상기 주파수 빈의 크기를 조절하는 단계를 포함함 ―; 및
상기 세그먼트에 대해 추정된 음성 확률이 제 2 음성 상태에 대응한다는 것을 결정하는 것에 대한 응답으로, 상기 음성 데이터의 변형을 감소시키지 않으면서 상기 오디오 신호의 세그먼트에 포함된 상기 트랜션트 잡음을 억제하는 단계 ― 이때, 상기 트랜션트 잡음을 억제하는 단계는: 상기 오디오 세그먼트의 복수의 주파수 빈들에 걸쳐 상기 오디오 세그먼트에 대한 스펙트럼 평균을 계산하는 단계, 및 상기 오디오 세그먼트의 복수의 주파수 빈들의 주파수 빈 각각에 대해, 상기 스펙트럼 평균에 대한 상기 주파수 빈의 크기의 비교가 상기 트랜션트 잡음이 존재하는 것을 나타내는 경우, 상기 주파수 빈에서 상기 트랜션트 잡음을 억제하는 단계를 포함하고, 상기 트랜션트 잡음을 억제하는 단계는, 상기 스펙트럼 평균과 상기 주파수 빈의 크기의 현재 값 사이의 새로운 값으로 상기 주파수 빈의 크기를 조절하는 단계를 포함함 ―
를 포함하는,
오디오 신호의 트랜션트 잡음을 억제하기 위한 컴퓨터-구현 방법.
제 18 항에 있어서,
상기 스펙트럼 평균에 대한 그리고 상기 스펙트럼 평균의 계산된 팩터에 대한 상기 주파수 빈의 크기의 비교가 제 1 조건을 충족시키는 것에 대한 응답으로, 상기 주파수 빈에 대한 새로운 크기를 계산하는 단계; 및
상기 스펙트럼 평균에 대한 그리고 상기 스펙트럼 평균의 계산된 팩터에 대한 상기 주파수 빈의 크기의 비교가 제 2 조건을 충족시키는 것에 대한 응답으로, 상기 주파수 빈에 대한 크기를 유지하는 단계를 더 포함하고,
상기 제 1 조건은 상기 제 2 조건과 상이한,
오디오 신호의 트랜션트 잡음을 억제하기 위한 컴퓨터-구현 방법.
제 18 항에 있어서,
상기 스펙트럼 평균에 대한 상기 주파수 빈의 크기의 비교가 제 1 조건을 충족시키는 것에 대한 응답으로, 상기 주파수 빈에 대한 새로운 크기를 계산하는 단계; 및
상기 스펙트럼 평균에 대한 상기 주파수 빈의 크기의 비교가 제 2 조건을 충족시키는 것에 대한 응답으로, 상기 주파수 빈에 대한 크기를 유지하는 단계를 더 포함하고,
상기 제 1 조건은 상기 제 2 조건과 상이한,
오디오 신호의 트랜션트 잡음을 억제하기 위한 컴퓨터-구현 방법.