KR100310030B1 - 노이지음성파라미터강화방법및장치 - Google Patents

노이지음성파라미터강화방법및장치 Download PDF

Info

Publication number
KR100310030B1
KR100310030B1 KR1019980705713A KR19980705713A KR100310030B1 KR 100310030 B1 KR100310030 B1 KR 100310030B1 KR 1019980705713 A KR1019980705713 A KR 1019980705713A KR 19980705713 A KR19980705713 A KR 19980705713A KR 100310030 B1 KR100310030 B1 KR 100310030B1
Authority
KR
South Korea
Prior art keywords
spectrum density
background noise
power spectrum
noisy
speech
Prior art date
Application number
KR1019980705713A
Other languages
English (en)
Other versions
KR19990081995A (ko
Inventor
페터 핸델
파트릭 쇨큐비스트
Original Assignee
에를링 블로메, 타게 뢰브그렌
텔레폰아크티에볼라게트 엘엠 에릭슨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에를링 블로메, 타게 뢰브그렌, 텔레폰아크티에볼라게트 엘엠 에릭슨 filed Critical 에를링 블로메, 타게 뢰브그렌
Publication of KR19990081995A publication Critical patent/KR19990081995A/ko
Application granted granted Critical
Publication of KR100310030B1 publication Critical patent/KR100310030B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Noise Elimination (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)

Abstract

배경 노이즈 PSD 추정값을 결정하는 단계(22, 26)와, 노이지 음성 파라미터들을 결정하는 단계(18)와, 상기 음성 파라미터로부터 노이지 음성 PSD 추정값을 결정하는 단계(20)와, 상기 노이지 음성 PSD 추정값으로부터 배경 노이즈 PSD값을 감산하는 단계(30)와, 상기 강화된 음성 PSD 추정값으로부터 강화된 음성 파라미터들을 추정하는 단계(32)를 통해 노이지 음성 파라미터들을 강화한다.

Description

노이지 음성 파라미터 강화방법 및 장치{A NOISY SPEECH PARAMETER ENHANCEMENT METHOD AND APPARATUS}
신호처리에 있어 공통적인 문제는 노이즈로부터 신호를 강화하는 것이다. 이는, 예컨대, 통상적인 마이크로폰(microphone) 전화 시스템 및 셀룰러(cellular) 싱글 마이크로폰(single microphone) 전화 시스템 모두에 있어서 통화품질의 강화일 수 있으며, 여기에서, 통화는 셀룰러 시스템에서의 자동차 소음 같은 컬러 노이즈(colored noise)로 인해 성능이 저하된다.
가끔 이용되는 노이즈 억제방법은 칼만 필터링(Kalman filtering)에 근거한 것인 바, 이는, 해당 필터링법이 컬러 노이즈를 처리할 수 있고, 수적으로 적절한복잡도를 지니고 있기 때문이다. 칼만 필터링에 근거한 노이즈 억제에 관한 주요 참고문헌은〔1〕이다. 그러나, 칼만 필터링은 모델(model)에 바탕을 둔 변형형태로서, 노이즈뿐 아니라 통화까지도, 예를 들면, 오토-리그래시브(auto-regressive, AR) 프로세스(processes)로 모델화한다. 즉, 칼만 필터링에 있어서의 핵심은, 해당필터링 알고리즘(algorithm)이, 반드시 추정되어야 할 미지의 파라미터 세트(set)에 의존한다는 점이다. 상기 파라미터의 추정과 관련된 두 가지 중대문제는, (i) 상기 음성 AR 파라미터들이 성능 저하된 음성 데이터로부터 추정되며, (ii) 음성 데이터가 정적인 상태가 아니라는 점이다. 즉, 높은 가청품질을 갖는 칼만 필터 출력을 얻기 위해서, 상기 추정된 파라미터들의 정확도 및 정밀도가 매우 중요하다.
본 발명은, 예를 들어, 전화 시스템내의 노이즈 억제장치에 사용될 수 있는 노이지 음성 파라미터(noisy speech parameter) 강화방법(enhancement method) 및 장치에 관한 것이다.
도 1은 본 발명에 따른 장치를 나타내는 블록도,
도 2는 도 1의 장치에 사용된 음성 구동 검출기(voice activity detector)의 상태도,
도 3은 본 발명에 따른 방법을 나타내는 플로우챠트,
도 4는 노이지 음성의 전력 스팩트럼 밀도(PSD)의 본질적 특징을 나타내는도면,
도 5는 배경 노이즈(background noise)에 대한 유사 PSD를 나타내는 도면,
도 6은 도 4의 PSD로부터 도 5의 PSD를 감산한 결과로서 나온 PSD를 나타내는 도면,
도 7은 본 발명에 따라 손실함수(loss function)의 형태로 확보된 개선효과를 나타내는 도면,
도 8은 본 발명에 따라 손실율(loss ratio)의 형태로 확보된 개선효과를 나타내는 도면.
본 발명의 목적은, 노이지 음성 파라미터를 추정하기 위한 개선된 방법 및 장치를 제공하는 것이다. 이들 강화된 음성 파라미터들을, 노이즈 억제를 위해 칼만 필터링 노이지 음성에 이용할 수 있다. 그러나, 강화된 음성 파라미터들을, 음성 부호화에 있어서의 음성 파라미터로 직접 사용할 수도 있다.
상기 목적은, 특허청구범위 제1항에 따른 방법과 제11항에 따른 장치에 의해 달성된다.
첨부도면을 참조로 한 이하의 설명을 통하여, 본 발명의 목적 및 기타 장점들을 이해하게 될 것이다.
음성 처리과정에 있어서, 입력 음성은 가끔 배경 노이즈의 간섭을 받는다. 예를 들면, 핸즈프리(hands-free) 이동전화기의 경우, 음성 대 배경 노이즈 율은 0 dB 정도 또는 그 이하일 수도 있다. 이처럼 높은 노이즈 레벨은, 높은 노이즈 레벨 자체 뿐 아니라, 노이지 음성이 부호화되어 디지털 통신채널(communication channel)을 통해 전송되는 동안 생성되는 가청음으로 인해 통화품질을 심하게 저하시키게 된다. 이와 같은 가청음을 줄이기 위해, 칼만 필터링〔1〕같은 노이즈 저감법을 통해 해당 노이지 입력 음성을 전 처리할 수도 있다.
몇몇 노이즈 저감법(예컨대, 칼만 필터링)에 있어서는, 오토리그래시브(AR) 파라미터가 관련되어 있다. 따라서, 이들 저감법에 있어 높은 가청품질의 강화된 음성 출력을 얻기 위해서는, 노이지 음성으로부터의 정확한 AR 파라미터 추정이 필수적이다. 상기 노이지 음성 파라미터 강화법을 도 1-6과 관련하여 이하에서 설명한다.
도 1에 따르면, 마이크로폰(10)으로부터 연속적인 아날로그 신호(x(t))가 얻어진다. 신호(x(t))는 A/D변환기(12)로 보내진다. 이 A/D변환기{및 적절한 데이터 버퍼링(buffering)}은 오디오 데이터(어느 한쪽의 음성, 배경 노이즈 또는 이들 둘 다를 포함함.) 프레임(frame){x(k)}을 생성한다. 오디오 프레임은 8000Hz 샘플링 속도(sampling rate)하에서 100-300개의 오디오 샘플을 포함하는 것이 보통이다. 설명을 단순화하기 위하여, 프레임 길이, N=256인 샘플들을 가정한다. 상기 오디오 프레임{x(k)}은 음성 구동 검출기(VAD)(14)로 보내지는 바, 이 음성 구동 검출기는, 해당 VAD(14)의 상태에 의존하는 장치내의 다른 블록으로 오디오 프레임{x(k)}을 보내주기 위한 스위치(16)를 제어한다.
VAD(14)는 [2]에서 거론되는 바의 원리에 따라 설계될 수도 있으며, 보통, 스테이트 머신(state machine)의 형태로 지원된다. 도 2는 그러한 스테이트 머신의 가능 상태들을 나타낸다. 상태 0인 경우, VAD(14)는 아이들(idle) 또는 "인엑티브(inactive)"이며, 오디오 프레임{x(k)}이 더 이상 처리되지 않음을 의미한다. 상태 20은 노이즈 레벨 및 음성 없음을 뜻한다. 상태 21은 노이즈 레벨 및 낮은 음성/노이즈 비율을 의미한다. 이 상태는 주로 음성구동 및 노이즈간 변환(transition) 과정 동안에 엑티브(active)이다. 끝으로, 상태 22는 노이즈 레벨 및 높은 음성/노이즈 비율을 의미한다.
하나의 오디오 프레임{x(k)}은, 다음과 같이 표현될 수 있는 오디오 샘플들을 포함한다.
여기서, x(k)는 노이지 음성 샘플을, s(k)는 음성 샘플을, v(k)는 컬러 추가 배경 노이즈를 각각 나타낸다. 노이지 음성 신호(x(k))는 프레임 전체에 걸쳐 불변인 것으로 한다. 또한, 음성 신호(s(k))는 r차의 오토리그래시브(AR) 모델을 통해 기술할 수 있다. 즉,
이때, ws(k)의 분산(variance)은 σs 2으로 주어진다. 같은 원리로, v(k)는 q차의 AR모델로 나타낼 수 있다.
여기서, wv(k)의 분산은 σv 2으로 주어진다. 상기 r 및 q는 프레임 길이 N에 비해 매우 작다. 통상, r 값은 10 정도가 바람직하며, q는 0-7 범위내의 값, 예를 들면 4{q=0은, 일정한 전력 스팩트럼 밀도, 즉, 화이트 노이즈(white noise)에 해당함.} 정도임이 바람직하다. 음성 AR모델링에 관한 추가정보는 [3]에 수록되어 있다.
나아가, 노이지 음성의 전력 스팩트럼 밀도(Φx(ω))는, 음성의 전력 스팩트럼 밀도(Φs(ω))와 배경 노이즈의 전력 스팩트럼 밀도(Φv(ω))로 나누어진다. 즉,
상기 (2)식으로부터,
같은 방법으로, (3)식으로부터는,
(2)-(3)식으로부터, x(k)는, 전력 스팩트럼 밀도(Φx(ω))를 갖는 오토리그래시브 이동 평균(autoregressive moving average, ARMA)모델과 일치한다. Φx(ω) 추정(이하, 추정량을 모자표시 "^"로 나타냄)은 오토리그래시브(AR) 모델을 통해 이루어 질 수 있다. 즉,
x 2은, AR모델의 추정된 파라메터들이다.
여기서, wx(k)의 분산값은 σx 2로 주어지며, a≤p≤N이다. (7)식에서의 x(ω)는 Φx(ω)의 일정 불변 추정값이 아님을 주목해야 한다. 그러나, x(k)는 실제 불변값과는 거리가 멀기 때문에, 음성 신호처리에 있어서 그다지 심각한 문제는 아니다.
도 1에 있어서, VAD(14)가 음성을 표시하는 경우(도 2상에서의 스테이트 21 및 22), 신호 x(k)는, (8)식에서 파라미터 σ x 2및 {ai}를 추정하는 노이지 음성 AR추정기(18)로 보내진다. 이 추정은 [3]에 따라 시행된다(도 3상의 플로우챠트에서 스탭 120에 해당한다). 상기 추정된 파라미터는 블록(20)으로 보내지는 바, 해당 블록에서는 (7)식에 따라 입력 신호 x(k)의 전력 스팩트럼 밀도 추정값을 계산한다(도 3상의 스탭 130).
상기 배경 노이즈를 장시간(long-time) 정지상태, 즉, 몇 개 프레임에 걸친 불변상태로 취급할 수 있다는 것이 본 발명의 본질적 특징이다. 음성 구동도는 보통, s(k)가 없는 기간에 노이즈 모델을 추정할 수 있을 정도로 충분히 낮기 때문에, 노이지 음성 프레임에서의 후속 이용을 위해 노이즈 프레임 도중 노이즈 모델 파라미터를 버퍼링(buffering)함으로써, 노이지 음성 프레임 도중 노이즈 전력 스팩트럼 밀도 감산(subtraction)을 위해, 상기 장시간 정지상태라는 특징을 이용할 수도 있다. 즉, VAD(14)가 배경 노이즈를 표시하는 경우(도 2상의 스테이트 20), 상기 프레임은, 프레임의 파라미터 σv 2및 {bi}를 추정하는(도 3의 플로우챠트상에서는 스텝 140에 해당함) 노이즈 AR추정기(22)로 보내진다. 앞서 언급한 바와 같이, 상기 추정된 파라미터들은, 노이지 음성 프레임 도중의 후속이용을 위해 버퍼(24)에 저장된다(도 3상에서의 스탭 150). 이들 파라미터들은, 필요시(노이지 음성 프레임 도중) 버퍼(24)로부터의 검색을 거치게 된다. 상기 파라미터들은, 또한, 노이즈 프레임 중 또는 다음 음성 프레임 중, 상기 배경 노이즈의 전력 스팩트럼 밀도 추정(도 3상의 스탭 160)을 위해 블록(26)으로 보내지는 바, 노이즈 프레임 중 파라미터의 블록(26)으로의 전송은, 후속 이용을 위해서 상기 추정값이 버퍼링 과정을 거쳐야 함을 의미하는 한편, 다음 음성 프레임 중 파라미터의 블록(26)으로의 전송은, 단지 파라미터만이 버퍼링을 거쳐야 함을 의미한다. 즉, 배경 노이즈만을 포함하는 프레임에 있어서는, 상기 추정된 파라미터들이 실제 강화목적으로 이용되지 않는다. 대신, 상기 노이즈 신호는, 해당 노이즈 레벨을 감쇠, 예를 들면, 10dB 정도로 하는(도 3상의 스탭 170) 감쇠기(attenuator)(28)로 보내진다.
(7)식에서 정의된 전력스팩트럼 밀도(PSD) 추정값( x(ω))과, 상기 AR 파라미터 및 σv 2에 대해 "^"가 붙기는 해도, (6)식과 유사한 식으로 정의되는 PSD 추정값( v(ω))은 주파수(ω)의 함수이다. 이어지는 스탭은 실제 PSD 감산(sub- traction)을 수행하는 과정으로서, 블록(30)(도 3상의 스탭 180)에서 이루어진다. 본 발명에 따르면, 음성 신호의 전력스팩트럼 밀도는 다음의 식으로 추정된다.
여기서, δ는 스칼라(scalar) 설계변수로서, 전형적으로 0<δ<4를 취한다.보통의 경우, 1 정도로 한다(δ=1은 (4)식에 해당한다).
상기 강화된 PSD( s(ω))를 샘플링함에 있어서, 그 강화된 PSD의 정확한 형상을 확보하기 위하여, 다수의 주파수(ω) 조건하에서 샘플링함은 본 발명의 본질적 특징이다. 실제, 상기 PSD는 다음의 이산적인 주파수 세트(set) 하에서 계산된다.
[3]을 참조하면, 이산적인 시퀀스(sequence)의 PSD 추정값 들이 다음과 같이 주어진다.
이 특징들은 도 4-6을 통해 도시된다. 도 4는 노이지 음성의 전형적인 PSD추정값(Φx(ω))을 나타낸다. 도 5는 배경 노이즈의 전형적 PSD 추정값( v(ω))을 보여준다. 이 경우, 도 4 및 도 5상의 신호간 신호대 노이즈 비(signal-to-noise ratio)는 0 dB이다. 도 6은, (9)식에 따른 노이즈 감산후의 강화된 PSD 추정값( s(ω))을 나타내는 바, 이 경우 δ=1이다. PSD 추정값( s(ω))의 형상이 강화 음성 파라미터 추정에 있어 중요(이하에서 설명할 것임)하기 때문에, 상기 강화된 PSD 추정값( s(ω))을 충분한 수의 주파수 조건하에서 샘플링함으로써, 상기 함수(특히, 피크(peak)값)의 정확한 형상을 구하는 것 또한 본 발명의 본질적특징이다.
실질적으로, 상기 (6) 및 (7)식을 이용하여 s(ω)를 샘플링한다. 예컨대, (7)식의 경우, x(ω)는 신속 푸리에 변환(Fast Fourier Transform, FFT)을 통해 샘플링할 수 있다. 즉, 1, a1, a2,...,ap를 시퀀스(sequence)로 하여 그 FFT를 계산한다. 샘플수(M)는 p(p는 대략 10-20)보다 커야 하므로, 상기 시퀀스를 제로패드( zero pad)해야 할 필요가 있을 수 있다. 적절한 M값은 2의 멱수(冪數), 예를 들면, 64, 128, 256 등이다. 그러나, 상기 샘플수(M)는 프레임 길이(본 예에서는, N=256)보다 작은 수를 선택한다. 나아가, s(ω)가 전력 스팩트럼 밀도, 즉, 넌-네가티브-엔티티(non-negative entity)이기 때문에, 상기 s(ω)의 샘플링 값은, 샘플링된 강화 PSD 추정치 s(ω)로부터의 강화 음성 파라미터 계산에 앞서, 음수가 아니라야 한다는 제한을 받게 된다.
상기 블록(30)에서 PSD 감산이 수행되고 나면, 상기 PSD 추정값으로부터의 강화 음성 파라미터 계산(도 3상의 스탭 190)을 위하여, 샘플들의 집합(collection)({ s(m)})이 블록(32)으로 보내진다. 이는 상기 블록(20 및 26)의 역과정으로서, AR 파라미터로부터 PSD 추정값을 계산한다. 해당 PSD 추정값으로부터 이들 파라미터들을 바로 유도하는 것은 불가능하기 때문에, 반복적 알고리즘을 이용해야만 한다. 시스템 식별(identification)을 위한 일반적 알고리즘, 예컨대, [4]에 제안된 것을 이용해도 무방하다.
또한, 상기 강화 파라미터를 계산하기 위한 바람직한 과정이 부록에 설명되어 있다.
이들 강화 파라미터는, 예를 들면, 음성 부호화와 직접 연관지어 이용하든가, 또는, 도 1상의 노이즈 억제기내 칼만 필터(34)같은 필터 제어용(도 3상의 스탭 200)으로 사용할 수 있다. 칼만 필터(34)는 또한 상기 추정된 노이즈 AR 파라미터들에 의해 제어되고, 이들 두 파라미터 세트는, [1]에 기재된 바의 원리에 따라, 노이지 음성을 포함한 프레임{x(k)}을 필터링하는 칼만 필터(34)를 제어한다.
장치가 상기 강화 음성 파라미터만을 필요로 하는 경우에는, 실제로 노이즈 AR 파라미터를 추정할 필요가 없다(도 1상의 노이즈 억제기에 있어서는, 상기 파라미터들이 칼만 필터(34)를 제어하는 관계로, 반드시 추정해야 함). 대신, Φv(ω)를 추정함에 있어서는, 상기 장시간 정지상태의 배경 노이즈를 이용해도 무방하다. 예를 들면, 식
을 이용할 수 있다.
여기서, Φv(ω)(m)은, 프레임수(m)를 포함하는, 그 수까지의 데이터에 근거한 (진행(running)) 평균 PSD 추정값이고, v(ω)는, 현재 프레임에 바탕을 둔 추정값이다( v(ω)은 페리오도그램(periodogram)(FFT)에 의해 상기 입력 데이터로부터 직접 추정될 수도 있음). 상기 스칼라 ρ∈(0,1)는 상기 v(k)의 추정불변도(assumed stationarity)에 따라 조절한다. τ개 프레임에 대한 평균은 대략 다음 에 함축적으로 주어진 ρ에 상응한다.
상기 파라미터(ρ)는, 예를 들어, 0.95 정도의 값으로 한다.
바람직한 실시예의 경우, (12)식에 따라 평균하는 것은, (6)식에 따른 파라메트릭(parametric) PSD 추정값에 대해서도 실시한다. 상기 평균화 과정을 도 1상 블록(26)의 일부분으로 할 수도 있으며, 또한, 도 3상 스탭 160의 일부로서 수행해도 무방하다.
도 1상의 실시예에 대한 수정 버전(version)으로서, 감쇠기(28)를 삭제할 수도 있다. 그 대신, 칼만 필터(34)를 신호(x(k)) 감쇠기로 이용해도 된다. 이 경우, 상기 배경 노이즈 AR모델의 파라미터들은, 칼만 필터(34)의 양측 제어 입력단으로 보내지지만, 음성 프레임 도중 강화된 음성 파라미터를 수신하는 해당 제어 입력단에 있어 낮은 분산 파라미터(희망하는 바의 감쇠에 상당함)를 갖는다.
더욱이, 상기 강화 음성 파라미터 계산으로 인한 지연이 너무 길다고 판단되면, 본 발명의 수정 실시예에 따라서, 현재 음성 프레임에 대한 상기 강화 음성 파라미터를 후속 프레임 필터링용으로 이용하는 것도 가능하다(이 실시예의 경우, 음성이 두 프레임에 걸쳐 불변인 것으로 함). 상기 수정 실시예에 있어서는, 음성 프레임에 대한 강화 음성 파라미터를, 앞선 음성 프레임에서 강화 파라미터를 가지고 해당 프레임에 대해 필터링하는 것과 동시에 계산할 수도 있다.
본 발명에 따른 방법의 기본적 알고리즘은 다음과 같이 요약할 수 있다.
음성 포즈(pause) 중에는,
M개 주파수 세트에 대한 상기 배경 노이즈의 PSD값( v(ω))을 추정한다. 이때, 어떤 종류의 PSD 추정기, 예로서, 파라메트릭 또는 비파라메트릭(non-parametric)(페리오도그램)중 어느 것을 이용해도 무방함. (12)식에 따른 장시간 평균화를 이용하여, 해당 PSD 추정값의 에러 분산(error variance)을 줄일 수 있음.
음성 구동시에는: 각각의 프레임에 있어서,
- {x(k)}를 근거로 AR 파라미터{ai}와 해당 노이지 음성의 레지듀얼(resi- dual) 에러 분산값(σx 2)을 추정함.
- 이들 노이지 음성 파라미터를 근거로 하여, M개 주파수 세트에 있어서의 노이지 음성의 PSD 추정값( x(ω))을 계산함.
- x(ω) 및 v(ω)를 근거로, (9)식을 이용하여, 음성 PSD값( s(ω))을 계산함. 스칼라(δ)는 대략 1 정도인 설계변수임.
- 상기 강화된 PSD값( s(ω))을 근거로 강화 AR 파라미터 및 대응 레지듀얼 분산을 계산함.
도 1의 장치 중 거의 모든 블록은 하나 또는 몇 개의 마이크로(micro)/신호프로세서(processor) 조합으로 실시됨이 바람직하다(예를 들면, 블록 14, 18, 20, 22, 26, 30, 32 및 34).
본 발명에 따른 방법의 효과를 설명하기 위하여 몇 개 시뮬레이션(simula- tion) 시험을 수행하였다. 최초 파라미터에 대한 강화 파라미터의 개선효과를 측정코자, 200개의 각기 상이한 시뮬레이션에 대한 다음 값을 계산했다.
이 값(손실함수)을 노이지 파라미터 및 강화 파라미터 양쪽 모두에 대해 계산했다. 즉,(k)는 x(k) 또는 s(k)를 나타낸다. (14)식에 있어서, (·)(m)은 시뮬레이션수(m)에 대한 결과임을 뜻한다. 이들 두 값을 도 7에 나타낸다. 도 8은 이들 값간의 비를 나타낸다. 이들 도면으로부터, 낮은 신호대 노이즈 비(SNR<15 dB)에 있어서는 강화 파라미터가 노이지 파라미터보다 성능이 뛰어난 반면, 높은 신호대 노이즈 비의 경우 양자는 거의 동일한 결과를 가져옴을 알 수 있다. 낮은 SNR값에 있어서, 상기 강화 파라미터 및 노이지 파라미터간 SNR에 있어서의 개선효과는 주어진 수치(V)에 대해 7 dB 정도였다.
당업자라면, 첨부된 특허청구범위에 명시된 본 발명의 기본취지를 벗어나지 않고서도, 다양한 수정 또는 변형이 가능함을 이해할 것이다.
이상 설명한 바와 같이, 본 발명의 노이지 음성 파라미터 강화방법 및 장치는, 정확한 AR 파라미터 추정을 가능케 하는 관계로 통신분야에 있어 그 효용도가 지대한 발명이다.
부 록
상기 강화 파라미터를 추정함에 있어 그 수치적 차이를 보다 가시화하기 위하여, (11)식으로부터 추정된 강화 PSD 데이터를 다음의 비선형 데이터 변환식에 따라 변환시켰다.
여기서,
한편, ε는, 사용자에 의해 선택된, 또는,(k)를 실수(實數)로 하는 데이터 의존 임계값(threshold)이다. 다소의 약식 방법(푸리에(Fourier) 전개식, 많은 수의 샘플 가정, 및 높은 모델 차수를 바탕으로 함)을 써서, 다음과 같은 흥미있는 주파수 간격(frequency interval)을 얻게 된다.
상기 (17)식은 다음과 같이 주어진다.
(18)식에서, γ(k)는 다음과 같이 정의된다.
값 및 해당 공분산(covariance) 메트릭스(matrix) Γ를 불변값으로 가정하면, 상기 벡터는,
이며, 초기 추정값들을, Γ(0)으로 하여, 그 공분산 메트릭스(Pχ)는 다음 식에 의해 계산할 수 있다.
상기 알고리즘에 있어서, Γ(x) 및 χ의 관계는 다음 식으로 주어진다.
이때, γ(k)는 (19)식에 의해 구해진다.
로부터, 상기 χ에 대한 Γ(x)의 기울기는,
로 주어진다.
상기 (21)식은, Γ를 추정하기 위한 다수의 계산식을 포함한다. 이들 계산식의 주요부는 (M×M)메트릭스 Γ와의 곱셈 및 그 역위(inversion)로부터 시작된다. 그러나, Γ는 대각선에 가까운 관계로((18)식 참조), 다음 근사식을 얻을 수 있다.
여기서, I는 (M×M) 단위 메트릭스를 나타낸다. 즉, 바람직한 실시예에 따르면, 초기값을(0)로 하여 다음과 같은 차선의 알고리즘을 사용해도 무방하다.
이때, (26)식에서의 G(k) 크기는 ((r+1)×M)이다.
참 고 문 헌
[1] J.D. Gibson, B. Koo and S.D. Gray, "Filtering of colored noise for speech enhancement and coding", IEEE Transaction on Acoustics, Speech and Signal Processing", vol.39, no.8, pp.1732-1742, August 1991.
[2] D.K. Freeman, G. Cosier, C.B. Southcott and I. Boyd, "The voice activity detector for the pan-European digital cellular mobile telephone service" 1989 IEEE International Conference Acoustics, Speech, and Signal Processing, 1989, pp.489-502.
[3] J.S. Lim and A.V. Oppenheim, "All-pole modeling degraded speech", IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. ASSp-26, no.3, June 1978, pp.228-231.
[4] T. Soderstrom, P. Stoica and B. Friedlander, "An indirect prediction error method for system identification", Automatica, vol.27, no.1, pp.183-188, 1991.

Claims (17)

  1. 제1 배경 노이즈 샘플 집합으로부터, M개(M은 미리 정해진 양의 정수) 주파수에 있어서의 배경 노이즈 전력 스팩트럼 밀도 추정값을 결정하는 단계와;
    제2 노이지 음성 샘플 집합으로부터, p개(p는 상기 M보다 매우 작은 미리 정해진 양의 정수)의 오토리그래시브 파라미터 및 제1 레지듀얼 분산값을 추정하는 단계와;
    상기 p개의 오토그래시브 파라미터 및 상기 제1 레지듀얼 분산값으로부터, 상기 M개 주파수에 있어서의 노이지 음성 전력 스팩트럼 밀도 추정값을 결정하는 단계와;
    미리 정해진 양의 인수가 곱해진 상기 배경 노이즈 스팩트럼 밀도 추정값을 상기 노이지 음성 전력 스팩트럼 밀도 추정값으로부터 감산함으로써, 강화 음성 전력 스팩트럼 밀도 추정값을 결정하는 단계와;
    상기 강화 음성 전력 스팩트럼 밀도로부터, r개(r은 미리 정해진 양의 정수)의 강화 오토리그래시브 파라미터 및 강화 레지듀얼 분산값을 결정하는 단계를 포함하여 구성된 것을 특징으로 하는 노이지 음성 파라미터 강화방법
  2. 제1항에 있어서, 상기 강화 음성 전력 스팩트럼 밀도 추정값을 음수가 아닌 값으로 한정하는 것을 특징으로 하는 노이지 음성 파라미터 강화방법.
  3. 제2항에 있어서, 상기 미리 정해진 양의 인수가 0-4 범위값을 가지는 것을 특징으로 하는 노이지 음성 파라미터 강화방법.
  4. 제3항에 있어서, 상기 미리 정해진 양의 인수가 대략 1과 일치하는 것을 특징으로 하는 노이지 음성 파라미터 강화방법.
  5. 제4항에 있어서, 상기 미리 정해진 정수(r)가 상기 미리 정해진 정수(p)와 일치하는 것을 특징으로 하는 노이지 음성 파라미터 강화방법.
  6. 제5항에 있어서, 상기 제1 배경 노이즈 샘플 집합으로부터, q개(q는 p보다 작은 미리 정해진 양의 정수)의 오토리그래시브 파라미터 및 제2 레지듀얼 분산값을 추정하는 단계와;
    상기 q개의 오토리그래시브 파라미터 및 상기 제1 레지듀얼 분산값으로부터, 상기 M개 주파수에 있어서의 상기 배경 노이즈 전력 스팩트럼 밀도 추정값을 결정하는 단계를 포함하여 구성된 것을 특징으로 하는 노이지 음성 파라미터 강화방법.
  7. 제1항 또는 제6항에 있어서, 상기 배경 노이즈 전력 스팩트럼 밀도 추정값을, 미리 정해진 배경 노이즈 샘플 집합수에 대하여 평균하는 것을 특징으로 하는 노이지 음성 파라미터 강화방법.
  8. 제1항 내지 제7항중의 어느 한 항에 있어서, 제2 노이지 음성 샘플 집합을 필터링하는 필터를 조정함에 있어서 상기 강화 오토리그래시브 파라미터 및 상기 강화 레지듀얼 분산값을 사용하는 것을 특징으로 하는 노이지 음성 파라미터 강화방법.
  9. 제8항에 있어서, 상기 제2 및 제3 노이지 음성 샘플 집합이 동일한 집합인 것을 특징으로 하는 노이지 음성 파라미터 강화방법.
  10. 제8항 또는 제9항에 있어서, 상기 제3 노이지 음성 샘플 집합을 칼만 필터링하는 것을 특징으로 하는 노이지 음성 파라미터 강화방법.
  11. 제1 배경 노이즈 샘플 집합으로부터, M개(M은 미리 정해진 양의 정수)주파수에 있어서의 배경 노이즈 전력 스팩트럼 밀도 추정값을 결정하기 위한 수단(22, 26)과;
    제2 노이지 음성 샘플 집합으로부터, p개(p는 M보다 상당히 작은 미리 정해진 양의 정수)의 오토리그래시브 파라미터 및 제1 레지듀얼 분산값을 추정하기 위한 수단(18)과;
    상기 p개의 오토리그래시브 파라미터 및 상기 제1 레지듀얼 분산값으로부터, 상기 M개 주파수에 있어서의 노이지 음성 전력 스팩트럼 밀도 추정값을 결정하기 위한 수단(20)과;
    미리 정해진 양의 인수가 곱해진 상기 배경 노이즈 스팩트럼 밀도 추정값을 상기 노이지 음성 전력 스팩트럼 밀도 추정값으로부터 감산함으로써, 강화 음성 전력 스팩트럼 밀도 추정값을 결정하기 위한 수단(30)과;
    상기 강화 음성 전력 스팩트럼 밀도 추정값으로부터, r개(r은 미리 정해진 양의 정수)의 강화 오토리그래시브 파라미터 및 강화 레지듀얼 분산값을 결정하기 위한 수단(32)을 포함하여 구성된 것을 특징으로 하는 노이지 음성 파라미터 강화장치.
  12. 제11항에 있어서, 상기 강화 음성 전력 스팩트럼 밀도 추정값을 음수가 아닌 값으로 한정하기 위한 수단(30)을 포함하여 구성된 것을 특징으로 하는 노이지 음성 파라미터 강화장치.
  13. 제12항에 있어서, 상기 제1 배경 노이지 샘플 집합으로부터 q개(q는 p보다 작은 미리 정해진 양의 정수)의 오토리그래시브 파라미터 및 제2 레지듀얼 분산값을 추정하기 위한 수단(22)과;
    상기 q개 오토리그래시브 파라미터 및 상기 제2 레지듀얼 분산값으로부터, 상기 M개 주파수에 있어서의 상기 배경 노이즈 전력 스팩트럼 밀도 추정값을 결정하기 위한 수단(26)을 포함하여 구성된 것을 특징으로 한 노이지 음성 파라미터 강화장치.
  14. 제11항 또는 제13항에 있어서, 상기 배경 노이즈 전력 스팩트럼 밀도 추정값을, 미리 정해진 배경 노이즈 샘플 집합수에 대하여 평균하기 위한 수단을 포함하여 구성된 것을 특징으로 하는 노이지 음성 파라미터 강화장치.
  15. 제11항 내지 제14항중의 어느 한 항에 있어서, 제3 노이지 음성 샘플 필터링용 필터를 조정함에 있어 상기 강화된 오토리그래시브 파라미터 및 상기 강화 레지듀얼 분산값을 사용하기 위한 수단(34)을 포함하여 구성된 것을 특징으로 하는 노이지 음성 파라미터 강화장치.
  16. 제15항에 있어서, 상기 제3 노이지 음성 집합을 필터링하기 위한 수단이 칼만 필터(34)인 것을 특징으로 하는 노이지 음성 파라미터 강화장치.
  17. 제15항에 있어서, 상기 제3 노이지 음성 샘플 조합을 필터링하기 위한 수단이 칼만 필터(34)이며, 상기 제2 및 제3 노이지 음성 샘플 집합이 동일한 집합인 것을 특징으로 하는 노이지 음성 파라미터 강화장치.
KR1019980705713A 1996-02-01 1997-01-27 노이지음성파라미터강화방법및장치 KR100310030B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SE9600363A SE506034C2 (sv) 1996-02-01 1996-02-01 Förfarande och anordning för förbättring av parametrar representerande brusigt tal
SE9600363-7 1996-02-01
PCT/SE1997/000124 WO1997028527A1 (en) 1996-02-01 1997-01-27 A noisy speech parameter enhancement method and apparatus

Publications (2)

Publication Number Publication Date
KR19990081995A KR19990081995A (ko) 1999-11-15
KR100310030B1 true KR100310030B1 (ko) 2001-11-15

Family

ID=20401227

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980705713A KR100310030B1 (ko) 1996-02-01 1997-01-27 노이지음성파라미터강화방법및장치

Country Status (10)

Country Link
US (1) US6324502B1 (ko)
EP (1) EP0897574B1 (ko)
JP (1) JP2000504434A (ko)
KR (1) KR100310030B1 (ko)
CN (1) CN1210608A (ko)
AU (1) AU711749B2 (ko)
CA (1) CA2243631A1 (ko)
DE (1) DE69714431T2 (ko)
SE (1) SE506034C2 (ko)
WO (1) WO1997028527A1 (ko)

Families Citing this family (135)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
FR2799601B1 (fr) * 1999-10-08 2002-08-02 Schlumberger Systems & Service Dispositif et procede d'annulation de bruit
US6980950B1 (en) * 1999-10-22 2005-12-27 Texas Instruments Incorporated Automatic utterance detector with high noise immunity
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7072833B2 (en) * 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
US7010483B2 (en) * 2000-06-02 2006-03-07 Canon Kabushiki Kaisha Speech processing system
US20020026253A1 (en) * 2000-06-02 2002-02-28 Rajan Jebu Jacob Speech processing apparatus
US7035790B2 (en) * 2000-06-02 2006-04-25 Canon Kabushiki Kaisha Speech processing system
US6983242B1 (en) * 2000-08-21 2006-01-03 Mindspeed Technologies, Inc. Method for robust classification in speech coding
US6463408B1 (en) * 2000-11-22 2002-10-08 Ericsson, Inc. Systems and methods for improving power spectral estimation of speech signals
DE10124189A1 (de) * 2001-05-17 2002-11-21 Siemens Ag Verfahren zum Signalempfang
GB2380644A (en) * 2001-06-07 2003-04-09 Canon Kk Speech detection
US7133825B2 (en) * 2003-11-28 2006-11-07 Skyworks Solutions, Inc. Computationally efficient background noise suppressor for speech coding and speech recognition
WO2006114102A1 (en) * 2005-04-26 2006-11-02 Aalborg Universitet Efficient initialization of iterative parameter estimation
CN100336307C (zh) * 2005-04-28 2007-09-05 北京航空航天大学 接收机射频系统电路内部噪声的分配方法
JP4690912B2 (ja) * 2005-07-06 2011-06-01 日本電信電話株式会社 目的信号区間推定装置、目的信号区間推定方法、プログラム及び記録媒体
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7844453B2 (en) * 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
EP2535894B1 (en) 2007-03-02 2015-01-07 Telefonaktiebolaget L M Ericsson (PUBL) Methods and arrangements in a telecommunications network
ES2570961T3 (es) * 2007-03-19 2016-05-23 Dolby Laboratories Licensing Corp Estimación de varianza de ruido para mejorar la calidad de voz
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
EP2151822B8 (en) * 2008-08-05 2018-10-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
US8392181B2 (en) * 2008-09-10 2013-03-05 Texas Instruments Incorporated Subtraction of a shaped component of a noise reduction spectrum from a combined signal
US8244523B1 (en) * 2009-04-08 2012-08-14 Rockwell Collins, Inc. Systems and methods for noise reduction
US8548802B2 (en) * 2009-05-22 2013-10-01 Honda Motor Co., Ltd. Acoustic data processor and acoustic data processing method for reduction of noise based on motion status
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9324337B2 (en) * 2009-11-17 2016-04-26 Dolby Laboratories Licensing Corporation Method and system for dialog enhancement
US8600743B2 (en) * 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
JP5834449B2 (ja) * 2010-04-22 2015-12-24 富士通株式会社 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
CN101930746B (zh) * 2010-06-29 2012-05-02 上海大学 一种mp3压缩域音频自适应降噪方法
US8892436B2 (en) * 2010-10-19 2014-11-18 Samsung Electronics Co., Ltd. Front-end processor for speech recognition, and speech recognizing apparatus and method using the same
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
CN103187068B (zh) * 2011-12-30 2015-05-06 联芯科技有限公司 基于Kalman的先验信噪比估计方法、装置及噪声抑制方法
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
CN102637438B (zh) * 2012-03-23 2013-07-17 同济大学 一种语音滤波方法
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN102890935B (zh) * 2012-10-22 2014-02-26 北京工业大学 一种基于快速卡尔曼滤波的鲁棒语音增强方法
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
CN105023580B (zh) * 2015-06-25 2018-11-13 中国人民解放军理工大学 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
CN105788606A (zh) * 2016-04-03 2016-07-20 武汉市康利得科技有限公司 一种用于拾音器的基于递归最小追踪的噪声估计方法
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
DE102017209585A1 (de) * 2016-06-08 2017-12-14 Ford Global Technologies, Llc System und verfahren zur selektiven verstärkung eines akustischen signals
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11373667B2 (en) * 2017-04-19 2022-06-28 Synaptics Incorporated Real-time single-channel speech enhancement in noisy and time-varying environments
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN107197090B (zh) * 2017-05-18 2020-07-14 维沃移动通信有限公司 一种语音信号的接收方法及移动终端
EP3460795A1 (en) 2017-09-21 2019-03-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal processor and method for providing a processed audio signal reducing noise and reverberation
US10481831B2 (en) * 2017-10-02 2019-11-19 Nuance Communications, Inc. System and method for combined non-linear and late echo suppression
CN110931007B (zh) * 2019-12-04 2022-07-12 思必驰科技股份有限公司 语音识别方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3266042D1 (en) * 1981-09-24 1985-10-10 Gretag Ag Method and apparatus for reduced redundancy digital speech processing
US4628529A (en) 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
JP2642694B2 (ja) * 1988-09-30 1997-08-20 三洋電機株式会社 雑音除去方法
KR950013551B1 (ko) * 1990-05-28 1995-11-08 마쯔시다덴기산교 가부시기가이샤 잡음신호예측장치
US5319703A (en) * 1992-05-26 1994-06-07 Vmx, Inc. Apparatus and method for identifying speech and call-progression signals
SE501981C2 (sv) 1993-11-02 1995-07-03 Ericsson Telefon Ab L M Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
CA2153170C (en) 1993-11-30 2000-12-19 At&T Corp. Transmitted noise reduction in communications systems

Also Published As

Publication number Publication date
WO1997028527A1 (en) 1997-08-07
AU711749B2 (en) 1999-10-21
JP2000504434A (ja) 2000-04-11
EP0897574B1 (en) 2002-07-31
CA2243631A1 (en) 1997-08-07
DE69714431T2 (de) 2003-02-20
SE9600363D0 (sv) 1996-02-01
US6324502B1 (en) 2001-11-27
CN1210608A (zh) 1999-03-10
SE9600363L (sv) 1997-08-02
AU1679097A (en) 1997-08-22
DE69714431D1 (de) 2002-09-05
KR19990081995A (ko) 1999-11-15
SE506034C2 (sv) 1997-11-03
EP0897574A1 (en) 1999-02-24

Similar Documents

Publication Publication Date Title
KR100310030B1 (ko) 노이지음성파라미터강화방법및장치
EP0807305B1 (en) Spectral subtraction noise suppression method
US5708754A (en) Method for real-time reduction of voice telecommunications noise not measurable at its source
JP2714656B2 (ja) 雑音抑圧システム
US6351731B1 (en) Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
KR100594563B1 (ko) 선형 컨벌루션 및 인과 필터링을 사용하는 스펙트럼 감산에 의한 신호 잡음 감소
KR100316116B1 (ko) 잡음감소시스템및장치와,이동무선국
US6766292B1 (en) Relative noise ratio weighting techniques for adaptive noise cancellation
US6477489B1 (en) Method for suppressing noise in a digital speech signal
EP0790599B1 (en) A noise suppressor and method for suppressing background noise in noisy speech, and a mobile station
EP2008379B1 (en) Adjustable noise suppression system
US6523003B1 (en) Spectrally interdependent gain adjustment techniques
US20040078199A1 (en) Method for auditory based noise reduction and an apparatus for auditory based noise reduction
KR100595799B1 (ko) 스펙트럼 종속 지수 이득 함수 평균화를 이용한 스펙트럼공제에 의한 신호 잡음 저감
US20030220786A1 (en) Communication system noise cancellation power signal calculation techniques
KR20070085729A (ko) 바크 밴드 위너 필터 및 선형 감쇠를 이용한 노이즈 감소및 컴포트 노이즈 이득 제어
Handel Low-distortion spectral subtraction for speech enhancement.
JPH11102197A (ja) 雑音除去装置
US7177805B1 (en) Simplified noise suppression circuit
Wei et al. Improved kalman filter-based speech enhancement.
JP2003517761A (ja) 通信システムにおける音響バックグラウンドノイズを抑制するための方法と装置

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20070905

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee