TR201810466T4 - Özellik çıkarımı kullanılarak konuşmanın iyileştirilmesi için bir ses sinyalinin işlenmesine yönelik aparat ve yöntem. - Google Patents

Özellik çıkarımı kullanılarak konuşmanın iyileştirilmesi için bir ses sinyalinin işlenmesine yönelik aparat ve yöntem. Download PDF

Info

Publication number
TR201810466T4
TR201810466T4 TR2018/10466T TR201810466T TR201810466T4 TR 201810466 T4 TR201810466 T4 TR 201810466T4 TR 2018/10466 T TR2018/10466 T TR 2018/10466T TR 201810466 T TR201810466 T TR 201810466T TR 201810466 T4 TR201810466 T4 TR 201810466T4
Authority
TR
Turkey
Prior art keywords
feature
spectral
frequency band
band
frequency
Prior art date
Application number
TR2018/10466T
Other languages
English (en)
Inventor
Uhle Christian
Hellmuth Oliver
Grill Bernhard
Ridderbusch Falko
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of TR201810466T4 publication Critical patent/TR201810466T4/tr

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

Konuşma iyileştirme filtresine yönelik kontrol bilgisini elde etmek üzere bir ses sinyalinin işlenmesine yönelik aparat, kısa süreli birçok spektral gösterimin kısa süreli spektral bir gösteriminin birçok frekans bandının her frekans bandı için en az bir özelliğin çıkarılmasına yönelik bir özellik çıkarıcı içerir, burada en az bir özellik, frekans bandındaki kısa süreli spektral gösterimin spektral şeklini temsil eder. Aparat ek olarak, ses sinyalinin zaman parçası için konuşma iyileştirme filtresine yönelik kontrol bilgisini elde etmek üzere birleştirme parametreleri kullanılarak her frekans bandı için en az bir özelliğin birleştirilmesine yönelik bir özellik birleştirici içerir. Özellik birleştirici, sinir ağına yönelik bir eğitim aşamasında belirlenen birleştirme parametrelerine dayalı olan sinir ağı regresyon yöntemini kullanabilir.

Description

TARIFNAME ÖZELLIK ÇIKARIMI KULLANILARAK KONUSMANIN IYILESTIRILMESI IÇIN BIR SES SINYALININ ISLENMESINE YÖNELIK APARAT VE YÖNTEM Ilgili Teknik Alan Mevcut bulus, ses sinyali isleme alaninda ve özellikle ses sinyallerinin konusma iyilestirme islemi alaninda bulunmakta olup, böylece islenmis bir sinyal, gelismis nesnel veya öznel konusma anlasilabilirligine sahip konusma içerigine sahip olur.
Bulusun Geçmisi ve Önceki Teknik Konusma iyilestirme, farkli uygulamalarda uygulanir.
Belirgin bir uygulama, isitme cihazlarinda dijital sinyal islemenin kullanimidir. Isitme cihazlarinda dijital sinyal isleme, isitme kusurunun iyilestirilmesine yönelik yeni, etkili bir yöntemdir.
Daha yüksek akustik sinyal kalitesinden ayri olarak dijital isitme cihazlari, spesifik konusma isleme stratejilerinin uygulanmasina olanak saglar. Bu stratejilerden birçogu için akustik ortamin konusma- gürültü oraninin (SNR) tahmininin yapilmasi istenir.
Spesifik olarak, konusmanin islenmesine yönelik kompleks algoritmalarin, spesifik akustik ortamlar için optimize edildigi uygulamalar göz önünde bulundurulur, ancak bu tür algoritmalar, spesifik varsayimlari karsilamayan durumlarda basarisiz olabilir. Bu durum özellikle, sessiz ortamlarda veya SNR'nin belirli bir esigin altinda oldugu durumlarda isleme artefaktlari uygulayabilen gürültü azaltma semalari için dogrudur.
Sikistirma algoritmalari ve kuvvetlendirme parametrelerine yönelik optimum seçim, konusma-gürültü oranina bagli olabilir, böylece SNR tahminlerine dayanan parametre seti adaptasyonu, fayda saglanmasina yardim eder. Ayrica SNR tahminleri direkt olarak, Wiener filtrelemesi veya spektral çikarma gibi gürültü azaltma semalarina yönelik kontrol parametreleri olarak kullanilabilir.
Diger uygulamalar, bir film sesinin konusma iyilestirme islemi alaninda yer alir. Birçok kisinin, örnegin isitme kusurlari nedeniyle bir filmin konusma içerigini anlamada. problem. yasadigi bulunmustur. Bir filmin konusunu takip etmek amaciyla örnegin monologlar, diyaloglar, ilanlar ve anlatimlar olmak üzere müzik parçasinin ilgili konusmasinin anlasilmasi önemlidir.
Isitme güçlügü çeken kisiler genellikle, arka plan seslerinin, örnegin çevre gürültüsü ve müzigin konusmaya göre çok daha yüksek bir seviyede sunulmasi ile karsi karsiyadir. Bu durumda konusma sinyalleri seviyesinin arttirilmasi ve arka plan gürültülerinin zayiflatilmasi veya genel olarak konusma sinyali seviyesinin toplam seviyeye göre arttirilmasi istenir.
Konusma iyilestirme islemine yönelik önemli bir yaklasim, Sekil 3'te gösterildigi üzere kisa süreli spektral zayiflama olarak da refere edilen spektral agirliklandirmadir. Çikis sinyali (y[k]), alt-bant sinyallerindeki gürültü enerjisine bagli olarak giris sinyallerinin (x[k]) alt-bant sinyallerinin (X(m)) zayiflatilmasi yoluyla hesaplanir.
Asagida giris sinyalinin (X[k]), istenen konusma sinyali (s[k]) ve arka plan gürültüsünün (b[k]) toplamsal karisimi oldugu varsayilir.
Konusma iyilestirme, konusmanin nesnel anlasilabilirligindeki ve/Veya öznel kalitesindeki gelismedir.
Giris sinyalinin frekans alani gösterimi, 30'da gösterildigi üzere Kisa Süreli Fourier Dönüsümü (STFT), diger zaman-frekans dönüsümleri veya filtre öbegi araciligiyla hesaplanir. Giris sinyali akabinde, Denklem Z'ye göre frekans alaninda filtrelenirken filtrenin frekans yaniti (G(w)), gürültü enerjisi azaltilacak sekilde hesaplanir. Giris sinyali, sirasiyla zaman- frekans dönüsümleri veya filtre öbeginin ters islenmesi araciligiyla hesaplanir.
Y (60) = G(w)X(a›) (2) Uygun spektral agirliklar (G(m)), giris sinyali spektrumu (X(w)) ve gürültü spektrumunun (B^(m)) tahmini kullanilarak veya esit olarak, dogrusal alt-bant SNR (R (03)=S^ (w)lB^(w)) tahmini kullanilarak› her spektral deger için 31'de hesaplanir. Agirliklandirilan spektral degerler, 32'de tekrar zaman alanina dönüstürülür.
Gürültü baskilama kurallarinin önemli örnekleri, spektral çikarma [S, Boll, "Suppression of acoustic noise in speech using spectral subtraction", IEEE Trans. on :Acoustics, Speech, and Signal Processing, 'vol. 27, Giris sinyalinin, konusma ve gürültü sinyallerinin toplamsal karisimi oldugu ve konusma ve gürültünün iliskili olmadigi varsayildiginda spektral çikarma yöntemine yönelik kazanini degerleri, Denklem 3'te Benzer agirliklar, Denkleni 4'e göre dogrusal alt-bant SNR (R^ (m)) tahmininden elde edilir. Kanal Spektral çikarmaya yönelik Çesitli uzantilar, diger bir deyisle asiri çikarma faktörü ve spektral taban parametreleri [M. Berouti, R. Schwartz, J. Makhoul, Proc. of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP, 1979], genellestirilmis formlar [J. Lim, A. Oppenheim, "Enhancement and bandwidth compression of noisy speech", Proc. of the kriterlerin kullanimi (örnegin Virag, "Single channel speech enhancement based on nmsking properties of the human auditory system", IEEE Trans. Speech and Audio spektral çikarma (örnegin, 8. Kamath, P. Loizou, "A multi-band spectral subtraction method for enhancing speech corrupted by colored noise", Proc. of the IEEE geçmiste önerilmistir. Ancak spektral agirliklandirma yönteminin, önemli. kismi, özellikle gürültünün, duragan olmamasi halinde hataya egilimli olan, anlik gürültü spektrumunun veya alt-bant SNR'nin tahminidir. Gürültü tahminindeki hatalar, rezidüel gürültüye, konusma bilesenlerinin bozulmasina veya müzikal gürültüye (“ses niteligi ile sakima" olarak açiklanmis olan bir artefakt Press, 2007]) yol açar.
Gürültü tahminine basit bir yaklasim, konusmanin duraksadigi anlarda gürültü spektrumunun ölçülmesi ve ortalamasinin alinmasidir. Bu yaklasim, gürültü spektrumunun, konusma aktivitesi esnasinda zamanla degismesi halinde ve konusma duraksamalarinin saptanamamasi halinde tatmin edici sonuçlar vermez.
Konusma aktivitesi esnasinda dahi gürültü spektrumunun tahmin edilmesine yönelik yöntemler geçmiste önerilmistir` ve P. Loizou, Speech Enhancement: Theory and Practice, CRC Press, 2007'ye göre asagidaki sekilde siniflandirilabilir: . Zaman tekrarlamali ortalama alma algoritmalari . Histograma dayali algoritmalar Minimum istatistigin kullanildigi gürültü spektrumü tahmini, R. Martin, "Spectral subtraction based on minimum statistics", Proc. of EUSIPCO, Edingburgh, UK, 1994'te önerilmistir. Bu yöntem, her alt-banttaki sinyal enerjisinin yerel minimalinin izlenmesine dayalidir.
Gürültü tahminine ve daha hizli güncellemeye yönelik dogrusal olmayan bir güncelleme kurali, G. Doblinger, Spectral Minima Tracking In Subbands", Proc. of Eurospeech, Madrid, Spain, 1995'te önerilmistir.
Zaman tekrarlamali ortalama alma algoritmalari, belirli bir frekans bandindaki tahmin edilen SNR'nin çok düsük oldugu bir zamanda gürültü spektrumunu tahmin eder ve günceller. Bu, örnegin I. Cohen, "Noise estimation by minima controlled recursive averaging for robust speech enhancement", IEEE Signal Proc. Letters, vol. 9, no. 1, pp. 12-15, 2002'de ve L. Lin, W. Holmes, E.
Ambikairajah, “Adaptive noise estimation algorithm. for speech enhancement", Electronic Letters, vol. 39, no. 9, simdiki spektrumun agirliklandirilmis ortalamasinin tekrarli olarak hesaplanmasi yoluyla yapilir.
Agirliklar, konusmanin bulunma olasiliginin bir fonksiyonu olarak veya belirli frekans bandindaki tahmin edilen SNR'nin fonksiyonu olarak belirlenir.
Histograma dayali yöntemler, alt-bant enerjisine ait histogramin genellikle çift modlu olmasi varsayimina dayanir. Büyük bir düsük enerjili mod, konusma içermeyen veya konusmanin düsük enerjili segmentlerini içeren segmentlerin enerji degerlerini biriktirir. Yüksek enerjili mod, sesli konusma ve gürültü içeren segmentlerin enerji degerlerini biriktirir. Belirli bir alt-banttaki gürültü enerjisi, düsük enerjili moddan belirlenir [H. Hirsch, C. Ehrlicher, "Noise estimation techniques for robust speech recognition", Proc. of the Processing, ICASSP, Detroit, USA, 1995]. Son yapilan kapsamli bir inceleme için P. Loizou, Speech Enhancement: Theory and Practice, CRC Press, 2007'ye basvurulur.
Genlik modülasyonu özelliklerinin kullanildigi gözetimli ögrenmeye dayali alt-bant SNR'nin tahminine yönelik yöntemler, J. Tchorz, B. Kollmeier, "SNR Estimation based on amplitude modulation analysis with applications to noise suppression", IEEE Trans. On Speech and Audio Kleinschmidt, V. Hohmann, "Sub-band SNR estimation using auditory feature processing", Speech Communication: Special Issue on Speech Processing for Hearing Aids, Konusma iyilestirmeye yönelik diger yaklasimlar, perde- senkronize filtreleme (örnegin, R. Frazier, S. Samsam, L. Braida, A. Oppenheim, "Enhancement of speech by adaptive filtering", Proc. of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP, Philadelphia, USA, 1976'da), Spektro Zamansal Modülasyonu (STM) (örnegin, N. Mesgarani, S. Shamma, temporal modulations", Proc. of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing, ICASSP, Philadelphia, USA, 2005'te) ve giris sinyalinin sinüzoidal model gösterimine dayali filtrelemedir (örnegin, J. Jensen, J. Hansen, "Speech enhancement using› a constrained. iterative sinusoidal model", IEEE Trans. on Speech and Audio Processing, vol. 9, no. 7, J. Tchorz, B. Kollmeier, "SNR Estimation based on amplitude modulation analysis with applications to noise suppression", IEEE Trans. On Speech and Audio Kleinschmidt, V. Hohmann, "Sub-band SNR estimation using auditory feature processing", Speech Communication: Special Issue on Speech Processing for Hearing Aids, modülasyonu özelliklerinin kullanildigi gözetimli ögrenmeye dayali alt-bant SNR'nin tahminine yönelik yöntemler, iki spektrogram isleme adiminin gerekli olmasi bakimindan dezavantajlidir. Birinci spektrogram isleme adimi, zaman-alani ses sinyalinin. zaman/frekans spektrograminin olusturulmasidir. Akabinde, modülasyon spektrograminin olusturulmasi amaciyla spektral alandan alinan spektral bilgileri modülasyon alanina dönüstüren bir baska “zaman/frekans” dönüsümünün yapilmasi gerekir.
Dogal sistematik gecikme ve herhangi bir dönüstürme algoritmasi için dogal olan zaman/frekans çözünürlügü nedeniyle bu ek dönüsüm islemi problemlere neden olur.
Bu prosedürün ek sonucu, gürültü tahminlerinin, gürültünün duragan olmadigi ve çesitli gürültü sinyallerinin meydana geldigi durumlarda çok dogru olmamasidir. in Speaker Recognition", J.P. Openshaw et al., proceedings of the International Conference on Acoustics, Speech, and Signal Processing, New York, özellikleri ve bunlarin, model ve test gürültü kosullari arasindaki gürültü uyusmazligina duyarliliklarini açiklar. Konusmaciyi tanima, özellik degisikliklerine çok duyarli olmasi nedeniyle performans degerlendirmesi için kullanilir. En önemli özellikler, RASTA ve birinci dereceden regresyon uzantilari ile birlikte MFCC ve PLP olarak kabul edilir.
Processing", Michael Kleinschmidt et al., Speech Communication, vol. 39, No. 1-2, January 1, 2003, pages (ASR) bilinen yöntemlere dayali olan ayri frekans bantlarinda uzun süreli konusma-gürültü oraninin (SNR) tahmin edilmesine yönelik bir kavrami açiklar. Bir isitme algisi modeli, ön uç olarak kullanilir. .Ayrica fizyolojik ve fiziko-akustik olarak motive edilen sigma- pi hücreleri, ikincil özellikler olarak. kullanilir ve dogrusal veya dogrusal olmayan bir sinir agi, siniflandirici olarak kullanilir. Yaklasim sadece, yavas spektro-zamansal modülasyonlara dayalidir. Bu amaçla bir algi modeline dayali olan spektro-zamansal gösterim olusturulur. Bir modülasyon spektrogrami hesaplanir, lO ms'lik güç ortalama degerleri, referans özellik çikarimi olarak gama ton filtre öbeginden elde edilir. Sigma-pi hücreleri, izole sözcük tanimaya yönelik kritik bant spektrogramlarina dayali ikincil özellikler olarak kullanilir.
Mevcut bulusun amaci, konusma iyilestirmeye yönelik gelismis bir kavram saglamaktir.
Bu amaca, istem l'e göre bir ses sinyalinin islenmesine yönelik aparat, istem 9'a göre bir ses sinyalini isleme yöntemi, istem lO'a göre bir ses sinyalinin konusma iyilestirme islemine tabi tutulmasina yönelik bir aparat, istem 12'ye göre konusma iyilestirme yöntemi, istem 13'e göre bir özellik birlestiricinin egitilmesine yönelik aparat, istem 14'e göre bir özellik birlestiricinin egitilmesine yönelik yönteni veya istem 'e göre bir bilgisayar programi ile ulasilir.
Birinci açiya göre bu amaca, istem l'e göre bir konusma iyilestirme filtresine yönelik her alt bant için kontrol bilgisini elde etmek üzere bir ses sinyalinin islenmesine yönelik aparat ile ulasilir. Ikinci açiya göre bu amaca, isteni 9'a göre bir konusma iyilestirme filtresine yönelik her alt bant için kontrol bilgisini elde etmek üzere bir ses sinyalinin islenmesine yönelik yöntem ile ulasilir. Üçüncü açiya göre bu amaca, istem 'a göre bir ses sinyalinde konusmanin iyilestirilmesine yönelik bir aparat ile ulasilir.
Dördüncü açiya göre bu amaca, istem 12'ye göre bir ses sinyalinde konusmanin iyilestirilmesine yönelik bir yöntem ile ulasilir. Besinci açiya göre bu amaca, istem 13'e göre özellik birlestiricinin birlestirme parametrelerinin belirlenmesi amaciyla bir özellik birlestiricinin egitilmesine yönelik aparat ile ulasilir. Altinci açiya göre bu amaca, istem 14'e göre özellik birlestiricinin birlestirme parametrelerinin belirlenmesi amaciyla bir özellik birlestiricinin egitilmesine yönelik yöntem ile ulasilir. Yedinci açiya göre bu amaca, bir bilgisayarda çalistirildiginda bulus yöntemlerinden herhangi birinin gerçeklestirilmesine yönelik bir bilgisayar programi ile ulasilir.
Mevcut bulus, spesifik bant içindeki ses sinyalinin spektral sekli ile ilgili bant odakli bilginin, bir konusma iyilestirme filtresi için kontrol bilgisinin belirlenmesine yönelik çok faydali bir parametre olmasi bulgusuna dayanir. Spesifik olarak birçok bant ve akabindeki birçok kisa süreli spektral gösterim için banda göre belirlenen spektral sekil bilgisi özelligi, ses sinyalinin konusma iyilestirme islemesi için ses sinyalinin faydali özellik açiklamasini saglar. Spesifik olarak, her spektral sekil özelliginin, Bark bantlari veya genel olarak frekans araligi boyunca degisken bir bant genisligine sahip banlar gibi birçok spektral bandin bir bandi ile iliskili oldugu bir dizi spektral sekil özelligi halihazirda, her bant için sinyal/gürültü oranlarinin belirlenmesine yönelik faydali bir özellik dizisini saglar. Bu amaçla birçok banda yönelik spektral sekil özellikleri, her bant için ses sinyalinin zaman parçasina yönelik konusma iyilestirme filtresine yönelik kontrol bilgisini elde etmek üzere birlestirme parametreleri kullanilarak bu özelliklerin birlestirilmesi için bir özellik birlestirici araciligiyla islenir. Tercihen özellik birlestirici, birçok birlestirme parametresi ile kontrol edilen bir sinir agini içerir, bu birlestirme parametreleri, konusma iyilestirme filtrelemesinin gerçekten gerçeklestirilmesinden önce yapilan bir egitim asamasinda belirlenir. Spesifik olarak bu sinir agi, sinir* agi regresyon yöntemini gerçeklestirir. Spesifik bir avantaj, birlestirme parametrelerinin, konusmanin iyilestirildigi gerçek ses materyalinden farkli olabilen ses materyali kullanilarak egitim asamasinda belirlenebilmesidir, böylece egitim asamasinin sadece tek bir zamanda gerçeklestirilmesi gerekir ve bu egitim asamasindan sonra birlestirme parametreleri sabit bir sekilde ayarlanir ve egitini sinyallerinin konusma karakteristigi ile karsilastirilabilen bir konusmaya sahip bilinmeyen her ses sinyaline uygulanabilir. Bu tür bir` konusma karakteristigi örnegin, bir` dil veya Asya dillerine karsi Avrupa dilleri ve :benzeri gibi diller grubu olabilir.
Tercihen bulus kavrami, özellik çikarimini ve sinir aglarini kullanarak konusmanin karakteristiklerini ögrenme yoluyla gürültüyü tahmin eder, burada özgün bir sekilde çikarilan özellikler, etkili ve kolay bir sekilde çikarilabilen ve önemli oldugu üzere sisteme özgü büyük bir gecikme olmaksizin çikarilabilen dogru, düsük seviyeli spektral özelliklerdir, böylece bulus kavrami spesifik olarak, gürültünün duragan olmadigi ve çesitli gürültü sinyallerinin meydana geldigi bir durumda dahi dogru gürültü veya SNR tahminin saglanmasi için faydali olur.
Sekillerin Kisa Açiklamasi Mevcut bulusun tercih edilen düzenlemeleri buradan sonra ekteki sekiller referans alinarak daha detayli bir sekilde açiklanmaktadir, burada: Sekil 1, bir ses sinyalinin islenmesi için tercih edilen bir aparat veya yöntemin blok diyagramidir; Sekil 2, mevcut bulusun tercih edilen bir düzenlemesine göre bir özellik birlestiricinin egitilmesine yönelik bir aparat veya yöntemin blok diyagramidir; Sekil 3, mevcut bulusun tercih edilen bir düzenlemesine göre bir konusma iyilestirme aparati ve yöntemi için blok diyagramdir; Sekil 4, bir özellik birlestiricinin egitilmesine ve optimize birlestirme parametreleri kullanilarak bir sinir agi regresyonunun uygulanmasina yönelik prosedüre genel bakisi gösterir; Sekil 5, SNR fonksiyonu olarak kazanim faktörünü gösteren bir grafiktir, burada uygulanan kazanimlar (düz çizgi), spektral çikarma kazanimlari (noktali çizgi) ve Wiener filtresi (kesikli çizgi) ile karsilastirilir; Sekil 6, frekans bandi basina düsen özelliklere ve tam bant genisligi için tercih edilen ek özelliklere genel bakistir; Sekil 7, özellik çikaricinin tercih edilen uygulamasini gösteren akis semasidir; Sekil 8, frekans degeri basina düsen kazanim faktörleri hesabinin ve akabindeki konusmasi iyilestirilmis ses sinyali parçasi hesabinin tercih edilen uygulanmasini gösteren akis semasini gösterir; Sekil 9, spektral agirliklandirmanin› bir örnegini gösterir, burada giris zaman sinyali, tahmin edilen alt-bant SNR, ara degerleme sonrasinda frekans binlerindeki tahmin edilen SNR, spektral agirliklar` ve islenmis zaman sinyali gösterilir ve Sekil 10, çok katmanli sinir aginin kullanildigi özellik birlestiricinin tercih edilen uygulamasinin sematik blok diyagramidir.
Tercih Edilen Düzenlemelerin Detayli Açiklamasi Sekil 1, bir konusma iyilestirme filtresine (12) yönelik kontrol bilgisini (ll) elde etmek üzere ses sinyalinin (lO) islenmesi için tercih edilen bir aparati gösterir.
Konusma iyilestirme filtresi, konusmasi iyilestirilmis ses çikis sinyalini (13) elde etmek amaciyla birçok frekans bandindan her biri için frekans bandi basina düsen kontrol bilgisi kullanilarak ses sinyalinin (10) filtrelenmesine yönelik kontrol edilebilir bir filtre gibi birçok sekilde uygulanabilir. Sonradan gösterildigi üzere kontrol edilebilir filtre ayni zamanda, zaman/frekans dönüsümü olarak. da uygulanabilir, burada ayri olarak hesaplanan kazanim faktörleri, spektral degerlere veya spektral bantlara uygulanir, akabinde frekans/zaman dönüsümü gerçeklestirilir.
Sekil 1'deki aparat, ses sinyalinin kisa süreli spektral gösterimlerinin zaman sirasinin elde edilmesine ve en az bir özelligin, birçok frekans bandinin bir frekans bandindaki kisa süreli spektral bir gösterimin spektral seklini temsil ettigi kisa süreli birçok spektral gösterime yönelik birçok frekans bandinin her frekans bandindaki en az bir özelligin çikarilmasina yönelik bir özellik çikariciyi (14) içerir. Ek olarak özellik çikarici (14), spektral sekil özelliklerinden ayri olan diger özellikleri çikarmak amaciyla uygulanabilir. Özellik çikaricinin (14) çikisinda her kisa süreli ses spektrumu için birkaç özellik bulunur, burada bu birkaç özellik en azindan, en az 10 veya tercihen 20 ila 30 gibi daha fazla olan birçok frekans bandinin her frekans bandina yönelik bir spektral sekil özelligini içerir. Bu özellikler olduklari gibi kullanilabilir veya her bant için, bu ham ve/veya ortalamasi alinmis özellikler, bir özellik birlestiriciye (15) girilecek› sekilde bir ham özellik veya ortalamasi alinmis özellik elde etmek amaciyla ortalama isleme veya geometrik ortalama veya aritmetik ortalama veya medyan isleme veya diger istatistiksel moment isleme (varyans, çarpiklik ve benzeri gibi) gibi diger herhangi bir isleme kullanilarak islenebilir. Özellik birlestirici (15), bir birlestirme parametresi girisi (16) araciligiyla saglanabilen veya birlestirme parametresi girisi (16) gerekli olmayacak sekilde özellik birlestirici (15) içinde donanimla bütünlesik veya keskin programlanmis olan birlestirme parametrelerini kullanarak birçok spektral sekil özelligini ve tercihen ek özellikleri birlestirir. Özellik. birlestiricinin çikisinda, birçok frekans bandinin veya birçok alt-bandin her frekans bandi veya “alt-bandi” için konusma iyilestirme filtresine yönelik kontrol bilgisi, ses sinyalinin zaman parçasi için elde edilir.
Tercihen özellik birlestirici (15), bir sinir agi regresyon devresi olarak uygulanir, ancak özellik birlestirici ayni zamanda, herhangi bir birlestirme islemini, özellik çikarici (14) tarafindan saglanan özelliklere uygulayan sayisal veya istatistiksel olarak kontrol edilen diger herhangi bir özellik birlestirici olarak da uygulanabilir, böylece sonuçta bant odakli SNR degeri veya bant odakli kazanim faktörü gibi gerekli kontrol bilgisi ortaya çikar. Bir sinir agi uygulamasinin tercih edilen düzenlemesinde bir egitim asamasi (“egitim asamasi”, örneklerden ögrenmenin gerçeklestirildigi bir asama anlamina gelir) gereklidir.
Bu egitim asamasinda Sekil 2'de gösterildigi üzere bir özellik birlestiricinin (15) egitilmesine yönelik bir aparat kullanilir. Spesifik olarak Sekil 2, özellik birlestiricinin birlestirme parametrelerinin belirlenmesi için bir özellik birlestiricinin (15) egitilmesine yönelik bu aparati gösterir. Bu amaçla Sekil 2'deki aparat, tercihen Sekil 1'deki özellik çikarici (14) ile ayni sekilde uygulanan özellik çikariciyi (14) içerir. Ayrica özellik birlestirici (15) ayni zamanda, Sekil 1'deki özellik birlestirici (15) ile ayni sekilde uygulanir.
Sekil 1'e ek olarak Sekil 2'deki aparat, giris olarak 21'de gösterilen egitici bir ses sinyaline yönelik kontrol bilgisini alan bir optimizasyon denetleyiciyi (20) içerir. Egitim asamasi, her bantta bilinen bir konusma/gürültü oranina sahip bilinen egitici ses sinyallerine dayali olarak gerçeklestirilir. Konusma parçasi ve ses parçasi örnegin, birbirinden ayri olarak saglanir ve bant basina düseni gerçek SNR, çalisirken yani, ögrenme islemi esnasinda ölçülür. Spesifik olarak optimizasyon denetleyici (20), özellik birlestiriciyi kontrol edecek sekilde çalisir, böylece özellik birlestirici, özellik çikaricidan (14) gelen özellikler ile beslenir. Bu özelliklere ve önceki tekrarlama isleminden gelen ara birlestirme parametrelerine dayali olarak özellik birlestirici (15) akabinde kontrol bilgisini (11) hesaplar. Bu kontrol bilgisi (11), optimizasyon denetleyiciye iletilir ve optimizasyon denetleyicide (20) egitici ses sinyaline yönelik kontrol bilgisi (21) ile karsilastirilir. Ara birlestirme parametreleri, optimizasyon denetleyiciden (20) gelen bir komuta yanit olarak degistirilir ve bu degistirilmis birlestirme parametreleri kullanilarak kontrol bilgisinin diger bir dizisi, özellik birlestirici (15) tarafindan hesaplanir. Diger kontrol bilgisi, egitici ses sinyaline (21) yönelik kontrol bilgisi ile daha iyi eslestiginde optimizasyon denetleyici (20), birlestirme parametrelerini günceller ve bu güncellenmis birlestirme parametrelerini (16) ara birlestirme parametreleri olarak bir sonraki islemde kullanilmak üzere özellik birlestiriciye gönderir. Alternatif veya ek olarak güncellenmis birlestirme parametreleri, ileride kullanilmak üzere bir bellekte saklanabilir.
Sekil 4, sinir agi regresyon yönteminde özellik çikarimi kullanilarak spektral agirliklandirma islemesinin genel bakisini gösterir. Sinir aginin parametreleri (w), referans alt-bant SNR degerleri (Rt) ve Sekil 4'te sol tarafta gösterilen egitim asamasi esnasinda egitici ögelerden (xt [k]) elde edilen özellikler kullanilarak hesaplanir. Gürültü tahmini ve konusma iyilestirme filtrelemesi, Sekil 4'te sag tarafinda gösterilir. Önerilen kavram, spektral agirliklandirma yaklasimini izler ve spektral agirliklarin hesaplanmasina yönelik yeni bir yöntemi kullanir. Gürültü tahmini, gözetimli ögrenme yöntemine dayalidir ve bulusun özellik dizisini kullanir. Özellikler, gürültülü sinyal bilesenlerine karsi ses ayrimini amaçlar. Ek olarak önerilen özellikler, sinyal özelliklerinin evrimini daha genis bir zaman ölçeginde hesaba katar.
Burada sunulan gürültü tahmini yöntemi, duragan olmayan Çesitli arka plan seslerini ele alabilir. Duragan olmayan arka plan gürültüsünde saglam bir SNR tahmini, Sekil 4'te gösterildigi üzere özellik çikarimi ve sinir agi regresyon yöntemi araciligiyla elde edilir. Reel degerli agirliklar, araliginin Bark ölçegine yaklastigi frekans bantlarindaki SNR tahminlerinden hesaplanir. SNR tahmininin spektral çözünürlügü, bir banttaki spektral bir seklin ölçümünü saglamak üzere oldukça yüzeyseldir.
Sekil 4'ün sol tarafi, temel olarak sadece bir kez gerçeklestirilmesi gereken bir egitim asamasina karsilik gelir. Egitim (41) olarak gösterilen Sekil 4'ün sol tarafindaki prosedür, Sekil 2'deki optimizasyon denetleyiciye (20) egitici ses sinyali girisine yönelik kontrol bilgisini (21) olusturan referans SNR hesaplama blogunu (21) içerir. Egitim tarafinda Sekil 4'teki özellik çikarim cihazi (14), Sekil 2'deki özellik çikariciya (14) karsilik gelir. Özellikle Sekil 2, bir konusma parçasi ve bir arka plan parçasindan olusan egitici ses sinyalini almak üzere gösterilmistir.
Faydali bir referans gerçeklestirebilmek amaciyla arka plan parçasi (bt) ve konusma parçasi (st), birbirinden ayri olarak. bulunur ve özellik çikarim. cihazina (14) girilmeden önce bir ekleyici (43) araciligiyla eklenir.
Dolayisiyla ekleyicinin (43) çikisi, Sekil 2'deki özellik çikariciya (14) girilen egitici ses sinyaline karsilik gelir. , 20'de gösterilen sinir agi egitim cihazi, bloklara (15 ve 20) karsilik gelir ve Sekil 2'de gösterilen veya diger benzer baglantilar yoluyla uygulanan ilgili baglanti, bellekte (40) saklanabilen bir dizi birlestirme parametresi (w) ile sonuçlanir. Bu birlestirme parametreleri akabinde, bulus kavrami, Sekil 4'teki uygulama (42) araciligiyla gösterilen sekilde uygulandiginda Sekil 1'deki özellik birlestiriciye (15) karsilik gelen sinir agi regresyon cihazinda (15) kullanilir. Sekil 4'teki spektral agirliklandirma cihazi, Sekil 1'deki kontrol edilebilir filtreye (12) karsilik gelir ve Sekil 4'te sag taraftaki özellik çikarici (14), Sekil 1'deki özellik çikariciya (14) karsilik gelir.
Asagida, önerilen kavramin kisa gerçeklestirilme islemi detayli olarak açiklanacaktir. Sekil 4'teki özellik çikarim cihazi (14) asagidaki sekilde çalisir. 21 farkli özelligin bir dizisi, alt-bant SNR tahmini için en iyi özellik dizisinin tanimlanmasi amaciyla arastirilmistir. Bu özellikler, çesitli konfigürasyonlarda birlestirilmistir ve öznel ölçümler ve resmi olmayan dinleme araciligiyla degerlendirilmistir. Özellik seçim prosesi, spektral enerji, spektral aki, spektral düzlük, spektral çarpiklik, LPC ve RASTA-PLP katsayilarini içeren bir özellik dizisi ile sonuçlanir. Spektral enerji, akis, düzlük. ve çarpiklik. özellikleri, kritik. bant ölçegine karsilik gelen spektral katsayidan hesaplanir. Özellikler, Sekil 6'ya iliskin olarak detaylandirilmaktadir. Ek özellikler, spektral enerjinin delta özelligi ve alçak geçisli filtreden geçirilmis spektral enerjinin› ve spektral akinina delta-delta Özelligidir.
Sekil 4'teki bloklarda (15, 20 veya 15)kullanilan veya tercihen Sekil 1 veya Sekil 2'deki özellik birlestiricide (15) kullanilan sinir aginin yapisi, Sekil 10 ile baglantili olarak açiklanir. Özellikle, tercih edilen sinir agi, giris nöronlarinin (100) bir katmanini içerir. Genel olarak n sayida giris siniri yani, her giris özelligi için bir sinir kullanilir.
Tercihen sinir agi, özelliklerin sayisina karsilik gelen 220 giris sinirine sahiptir. Sinir agi ayrica, p sayida gizli katman siniri olan gizli bir katmani (102) içerir.
Genel olarak p, n'den daha küçüktür' ve tercih edilen düzenlemede gizli katman, 50 sinire sahiptir. Çikis tarafinda sinir agi, q sayida çikis siniri olan bir çikis katmanini (104) içerir. Özellikle çikis sinirlerinin sayisi, frekans bantlarinin sayisina esittir, böylece çikis siniri, her frekans bandi için bir SNR (Konusma-Gürültü Orani) gibi her frekans bandi için kontrol bilgisi saglar. Örnegin tercihen düsükten yüksek frekanslara dogru artan bir bant genisligine sahip 25 farkli frekans bandinin bulunmasi halinde çikis sinirlerinin sayisi (q), 25'e esit olacaktir.
Dolayisiyla sinir agi, hesaplanan düsük seviyeli özelliklerden alt-bant SNR tahmini için uygulanir. Sinir agi, yukarida belirtildigi üzere 220 giris sinirine ve 50 siniri olan gizli bir katmana (102) sahiptir. Çikis sinirlerinin sayisi, frekans bantlarinin sayisina esittir. Tercihen gizli sinirler, hiperbolik tanjant olan aktivasyon fonksiyonunu içerir ve çikis sinirlerinin aktivasyon fonksiyonu, kimliktir.
Genel olarak katmandan (102 veya 104) gelen her sinir, katmana (102) göre tüm giris sinirlerinin Çikislari olan ilgili tüm girisleri alir. Akabinde katmanin (102 veya 104) her siniri, agirliklandirma parametrelerinin, birlestirme parametrelerine karsilik geldigi agirliklandirilmis ekleme islemini gerçeklestirir. Gizli katman, parametrelere ek olarak yanlilik degerlerini içerebilir. Akabinde yanlilik degerleri ayni zamanda birlestirme parametrelerine aittir. Özellikle her giris, karsilik gelen birlestirme parametresi ile agirliklandirilir ve Sekil 10'daki örnek kutu (106) ile gösterilen agirliklandirma isleminin çikisi, her sinir içindeki ekleyiciye (108) girilir. Ekleyicinin çikisi veya bir sinire giris, duruma göre örnegin gizli katmanda bir sinirin çikisina ve/veya girisine yerlestirilebilen dogrusal olmayan bir fonksiyonu (110) içerebilir.
Sinir aginin agirliklari, referans SNR'sinin ayrilan sinyaller kullanilarak hesaplandigi arka plan gürültüleri ve temiz konusma sinyallerinin karisimlarinda egitilir. Egitim prosesi, Sekil 4'ün sol tarafindan gösterilir. Konusma ve gürültü, her öge için 3 dB'lik bir SNR ile karistirilir ve özellik çikarimina beslenir. Bu SNR zaman içinde ve genis bant SNR degeri boyunca sabittir. Veri dizisi, her birinin 2.5 saniye uzunlugunda oldugu 48 gürültü sinyalinin ve 48 konusma sinyalinin 2304 kombinasyonunu içerir. Konusma sinyalleri, 7 dile sahip farkli konusmacilardan olusmustür. Gürültü sinyalleri, trafik gürültüsü, kalabalik gürültüsü ve çesitli dogal atmosferlere ait kayitlardir.
Belirli bir spektral agirliklandirma kurali için sinir aginin çikisina ait iki tanim uygundur: Sinir agi, zamanla degisen alt-bant SNR (R(w)) için referans degerler kullanilarak veya spektral agirliklar (G(w)) (SNR degerlerinden elde edilmistir) ile egitilebilir.
Referans degerleri olarak alt-bant SNR ile yapilan simülasyonlar, resmi olmayan dinlemede spektral agirliklar ile egitilen aglara göre daha iyi nesnel sonuçlar ve daha iyi dereceler vermistir. Sinir agi, lOO tekrar döngüsü kullanilarak egitilir. Bu çalismada ölçekli eslenik azaltmalara dayali olan bir egitim algoritmasi kullanilir.
Spektral agirliklandirma isleminin (12) tercih edilen düzenlemeleri, sonra açiklanacaktir.
Tahmin edilen alt-bant SNR tahminleri, giris spektrumlarinin frekans çözünürlügüne dogrusal olarak ara degerlenir ve dogrusal oranlara (RA) dönüstürülür.
Dogrusal alt-bant SNR, tahmin hatalarindan kaynaklanabilen artefaktlari azaltmak amaciyla IIR alçak geçisli filtreleme kullanilarak zaman boyunca ve frekans boyunca düzgünlestirilir. Frekans boyunca alçak geçisli filtrelemeye ayrica, spektral agirliklandirmanin dürtü yanitinin, DFT çerçevelerinin uzunlugunu asmasi halinde görülen dairesel konvolüsyonun etkisini azaltmak amaciyla gerek duyulur. Iki kez gerçeklestirilirken ikinci filtreleme, elde edilen filtre sifir fazlara sahip olacak sekilde ters sirada (son numuneden baslanarak) yapilir.
Sekil 5, SNR'nin bir fonksiyonu olarak kazanim faktörünü gösterir. Uygulanan kazanini (düz çizgi), spektral tabiiyet kazanimlari (noktali çizgi) ve Wiener filtresi (kesikli çizgi) ile karsilastirilir.
Spektral agirliklar, Denklem 5'teki modifiye spektral çikarma kuralina göre hesaplanir` ve -l8 dB ile Sinirlandirilir. d=3.5 ve ß=l parametreleri, deneysel olarak belirlenir.0 dB'lik SNR üzerindeki bu özel zayiflatma, rezidüel gürültü pahasina konusma sinyalindeki bozulmalari engellemek amaciyla seçilir. SNR fonksiyonu olarak zayiflama egrisi, Sekil 5'te gösterilir.
Sekil 9, giris ve çikis sinyalleri, tahmin edilen alt- bant SNR ve spektral agirliklara yönelik bir örnegi gösterir.
Spesifik olarak Sekil 9, spektral agirliklandirma örnegine sahiptir: Giris zaman sinyali, tahmin edilen alt-bant SNR, ara degerleme sonrasi frekans binlerinde tahmin edilen SNR, spektral agirliklar ve islenmis zaman sinyali.
Sekil 6, özellik çikarici (14) tarafindan çikarilacak tercih edilen ozelliklere genel bakisi gösterir. Özellik çikarici, her düsük çözünürlük için bir frekans bandini, yani bir SNR veya kazanim degerinin gerekli oldugu 25 frekans bandindan her biri için frekans bandindaki kisa süreli spektral gösterimin spektral seklini temsil eden bir özelligi tercih eder. Banttaki spektral sekil, enerjinin bant içindeki dagilimini temsil eder ve birkaç farkli hesaplama kurali ile uygulanabilir.
Tercih edilen spektral bir sekil özelligi, spektral degerlerin aritmetik ortalamasina bölünen spektral degerlerin geometrik ortalamasi olan spektral düzlük ölçüsüdür (SFM). Geometrik ortalama/aritmetik ortalama taniminda n. kök isleminin veya ortalama alma isleminin yapilmasindan önce banttaki her spektral degere bir kuvvet uygulanabilir.
Genel olarak, spektral düzlük ölçüsü ayni zamanda, paydada SFM için hesaplama formülündeki her spektral degerin islenmesine yönelik kuvvet, pay için kullanilan kuvvetten daha yüksek oldugunda da hesaplanabilir.
Akabinde hem payda hem de pay, aritmetik deger hesaplama formülünü içerebilir. Örnek olarak paydaki kuvvet 2'dir ve paydadaki kuvvet l'dir. Genel olarak genellestirilmis bir spektral düzlük ölçüsünü elde etmek amaciyla payda kullanilan kuvvetin sadece, paydada kullanilan kuvvetten daha fazla olmasi gerekir.
Bu hesaplamadan enerjinin, tüm frekans bandi boyunca esit olarak dagitildigi bir banda yönelik SFM'nin l'den küçük oldugu ve birçok frekans hatti için O'a yakin küçük degerlere yaklasirken enerjinin, bir bant içinde tek bir Spektral degerde yogunlastigi durumda örnegin SFM degerinin 1'e esit oldugu anlasilmaktadir.
Dolayisiyla yüksek bir SFM degeri, enerjinin, bant içindeki belirli bir pozisyonda yogunlastigi bir bandi gösterirken küçük bir SFM degeri, enerjinin, bant içinde esit sekilde dagitildigini gösterir.
Diger Spektral sekil özellikleri, kütle merkezi etrafindaki dagilimin asimetrisini ölçen Spektral çarpikligi içerir. Belirli bir frekans bandi içindeki kisa süreli frekans gösteriminin Spektral sekli ile ilgili diger özellikler mevcuttur.
Spektral sekil, bir frekans bandi için hesaplanirken Sekil 6'da gösterildigi ve asagida detayli olarak açiklandigi üzere bir frekans bandi için hesaplanan diger özellikler de mevcuttur. Ve ayni zamanda, bir frekans bandi için hesaplanmasina gerek olmayan ancak tam bant genisligi için hesaplanan ek özellikler de mevcuttur.
Spektral enerji Spektral enerji, her zaman çerçevesi ve frekans bandi için hesaplanir ve çerçevenin toplam enerjisi ile normalize edilir. Ek olarak Spektral enerji, ikinci dereceden IIR filtresi kullanilarak zaman içinde alçak geçisli filtreden geçirilir.
Spektral aki Spektral aki (SF), ardisik çerçevelerin (20) spektrumlari arasindaki benzersizlik olarak tanimlanir ve siklikla, bir uzaklik fonksiyonu araciligiyla uygulanir. Bu çalismada spektral aki, sirasiyla spektral katsayilar (XKm,k)), zaman çerçevesi indeksi (m), alt- bant indeksi (r), frekans bandinin alt ve üst siniri (lr ve ur) ile Denklem 6'ya göre Öklid uzakligi kullanilarak hesaplanir.
Spektral düzlük ölçüsü Bir vektörün düzlügünün veya bir spektrumun tonalitesinin (bir spektrumun düzlügü ile ters iliskilidir) hesaplanmasina yönelik. çesitli tanimlar mevcuttur. Burada kullanilan spektral düzlük Ölçüsü (SFM), Denklem 7'de gösterildigi üzere alt-bant sinyalinin L spektral katsayilarinin geometrik ortalamasi ve aritmetik ortalamasinin orani olarak hesaplanir. (212,, !030X (m.q)|))/L Spektral çarpiklik Bir dagilimin çarpikligi, kütle merkezi etrafindaki asimetrisini ölçer ve standart sapmasinin küpüne bölünen rastgele bir degiskenin üçüncü merkezi momenti olarak tanimlanir.
Dogrusal Öngörü Katsayilari LPC, karesi alinmis hata E = Zk (ik _Xk )2 minimize edilecek sekilde önceki degerlerden elde edilen. bir zaman serisinin gerçek degerini (x(k)) öngören tüm kutuplu bir filtrenin katsayilaridir.
LPC, otokorelasyon yöntemi ile hesaplanir.
Mel-frekansi kepstral katsayilari Güç spektrumlari, her frekans bandi için birim agirlik ile üçgen agirliklandirma fonksiyonlari kullanilarak mel-Ölçegine göre bükülür. MFCC, logaritmanin alinmasi ve Ayrik Kosinüs Dönüsümünün hesaplanmasi yoluyla hesaplanir.
Bagil spektral algisal dogrusal öngörü katsayilari RASTA-PLP katsayilari [H, Hermansky, N. Morgan, "RASTA Processing of Speech", IEEE Trans. On Speech and Audio asagidaki adimlarda güç spektrumlarindan hesaplanir: LSpektral katsayilarin büyüklükte sikistirilmasi ZZaman içinde alt-bant enerjisinin bant geçiren filtrelemesi genislemesi çarpim .Katsayilarin 0.33 olan güve yükseltilmesi ile gürültü algisinin simülasyonu öxötokorelasyon yöntemi araciligiyla elde edilen spektrumun tüm kutuplu modelinin hesaplanmasi Algisal dogrusal öngörü (PLP= katsayilari igerceptual linear Erediction (PLP) coefficients) PLP degerleri, RASTA-PLP ile benzer sekilde hesaplanir ancak adimlar 1-3 uygulanmaz [H. Hermansky, "Perceptual Linear Predictive Analysis for Speech", J. Ac. Soc. Am., Delta Özellikleri Delta özellikleri, geçmiste otomatik konusma tanima ve ses içerigi siniflandirmasinda basarili bir sekilde uygulanmistir. Hesaplanmalarina yönelik çesitli yollar mevcuttur. Burada, bir özelligin zaman sirasinin, 9 numune uzunlugunda olan dogrusal bir egim ile evristirilmesi yoluyla hesaplanir (özellik zaman sirasinin numunelenme hizi, STFT'nin çerçeve hizina esittir). Delta-delta özellikleri, delta isleminin delta özelliklerine uygulanmasi ile elde edilir.
Yukarida belirtildigi üzere insan isitme sisteminin algisal durumuna benzer olan, düsük çözünürlüklü frekans bandinin bant ayrimina sahip olunmasi tercih edilir. Bu nedenle logaritmik bir bant ayrimi veya Bark benzeri bir bant ayrimi tercih edilir. Bu, düsük merkez frekansina sahip bantlarin, yüksek merkez frekansina sahip bantlardan daha dar oldugu anlamina gelir. Spektral düzlük ölçüsünün hesaplanmasinda örnegin toplama islemi, normalde bir banttaki en düsük frekans degeri olan bir degerden (q) uzanir ve önceden tanimlanmis bir bant içindeki. en yüksek. spektral deger olan sayini degerine (ur) uzanir. Daha iyi spektral düzlük ölçüsüne sahip olmak amaciyla alt bantlarda, alt ve/Veya üst bitisik frekans bandindan elde edilen spektral degerlerin en azindan bir kisminin veya tamaminin kullanilmasi tercih edilir. Bu durum örnegin, ikinci banda yönelik spektral düzlük ölçüsünün, ikinci bandin spektral degerleri kullanilarak ve ek olarak birinci bandin ve/Veya üçüncü bandin spektral degerleri kullanilarak hesaplandigi anlamina gelir. Tercih edilen düzenlemede sadece birinci veya ikinci bantlarin spektral degerleri kullanilmaz ayni zamanda birinci bandin ve üçüncü bandin spektral degerleri de kullanilir. Bu durum, ikinci banda yönelik SFM hesaplanirken Denklemdeki CH q degerinin, birinci bandin birinci (en düsük) spektral degerine esit lr degerinden uzandigi ve ur degerinin, üçüncü banttaki en yüksek spektral degere esit oldugu anlamina gelir.
Dolayisiyla spektral degerlerin daha yüksek sayisina dayali spektral sekil özelligi, bant içindeki spektral degerler sayisinin yeterli oldugu belirli bir bant genisligine kadar hesaplanabilir, böylece lr ve ur, ayni düsük çözünürlüklü frekans bandindan elde dilen spektral degerleri gösterir. Özellik çikarici ile çikarilan dogrusal öngörü katsayilarina iliskin olarak, Denklemin (8) LPC aj degerinin veya optimizasyon veya bir normalizasyon faktörü ile toplama veya çarpma gibi katsayilarin ve hata degerlerinin herhangi bir bilesmesi sonrasinda geriye kalan rezidüel/hata degerlerinin kullanilmasi tercih edilir, böylece katsayilar ve karesi alinan hata degerleri, özellik çikarici ile çikarilan LPC özelligini etkiler.
Spektral sekilde özelliginin bir avantaji, düsük boyutlu bir özellik olmasidir. Örnegin 10 karmasik veya reel spektral degere sahip frekans bant genisligi göz önüne alindiginda bu ll) karmasik veya reel spektral degerin tamaminin kullanimi faydali olmayacaktir ve hesaplama kaynaklarinin israfi olacaktir. Bu nedenle ham verilerin boyutundan daha düsük olan bir boyuta sahip spektral sekil Özelligi çikarilir. Örnegin enerji göz Önüne alindiginda karesi alinmis lO spektral degerin bulunmasi nedeniyle ham veri, 10 olan bir boyuta sahiptir. Etkili bir sekilde kullanilabilen spektral sekil özelligini çikarmak amaciyla ham verinin boyutundan daha küçük bir boyuta sahip olan ve tercihen 1 veya 2'de olan spektral sekil özelligi çikarilir. Ham veriye göre benzer bir boyut azaltma örnegin, bir frekans bandinin spektral zarfina düsük seviyeli polinom uydurma yapildiginda elde edilebilir. Örnegin sadece iki veya üç parametre uyduruldugunda spektral sekil özelligi, polinom veya diger herhangi bir parametrizasyon sisteminin bu iki veya üç parametresini içerir. Genel olarak, enerjinin bir frekans bandi içindeki dagilimini gösteren ve 'ham veri boyutunun %5'inden az veya en az %50'sinden az veya sadece %302undan az olan düsük bir boyuta sahip tüm parametreler faydalidir.
Spektral sekil özelliginin tek basina kullaniminin halihazirda, bir ses sinyalinin islenmesine yönelik aparatin avantajli davranisi ile sonuçlandigi, ancak en azindan bant odakli ek özelligin kullanilmasinin tercih edildigi. bulunmustur. Ayni zamanda. gelismis sonuçlarin saglanmasinda faydali bant odakli ek özelligin, her zaman çerçevesi ve frekans bandi için hesaplanan ve çerçevenin toplam enerjisi ile normalize edilen her bant için spektral enerji oldugu gösterilmistir. Bu özellik, alçak geçisli filtreden geçirilebilir veya geçirilmeyebilir. Ek olarak spektral aki özelliginin eklenmesinin, bulus aparatinin performansini avantajli bir sekilde arttirdigi bulunmustur, böylece iyi bir performans ile sonuçlanan etkili prosedür, her bant için spektral sekil özelliginin, her bant için spektral enerji özelligine ve her bant için spektral aki özelligine ek olarak kullanilmasi durumunda elde edilir.
Ek özelliklere ek olarak bu durum yine, bulus aparatinin performansini arttirir.
Spektral enerji özelligine iliskin olarak açiklandigi üzere bu özelligin zaman içinde alçak geçisli filtrelemeden filtrelenmesi veya zaman içinde hareketli ortalama normalizasyon uygulanmasi yapilabilir ancak yapilmasi zorunlu degildir. Önceki durumda örnegin ilgili banda yönelik önceki bes spektral sekil özelliginin ortalamasi hesaplanir ve bu hesaplamanin sonucu, mevcut çerçevedeki mevcut bant için spektral sekil özelligi olarak kullanilir. Ancak bu ortalama alma islemi ayni zamanda iki yönlü olarak uygulanabilir, böylece ortalama alma islemi için mevcut özelligi hesaplamak amaciyla sadece geçmisten elde edilen özellikler degil ayni zamanda “gelecekten" elde edilen özellikler de kullanilir.
Sekiller 7 ve 8, Sekil 1, Sekil 2 veya Sekil 4'te gösterilen özellik çikaricinin (14) tercih edilen uygulamasini saglamak amaciyla sonradan açiklanacaktir.
Birinci adimda bir ses sinyali, adim 70'te gösterildigi üzere ses numuneleme degerlerinin bir blogunu saglamak amaciylar pencerelenir. Tercihen› bir örtüsme uygulanir.
Bu, örtüsme araligi nedeniyle ardisik iki çerçevede tek ve ayni ses numunesinin meydana geldigi anlamina gelir, burada ses numuneleme degerlerine göre %50'lik bir örtüsme tercih edilir. Adim 7l'de pencerelenen ses numuneleme degerlerine ait bir blogun zaman/frekans dönüsümü, yüksek Çözünürlük olan birinci çözünürlüge sahip bir frekans gösterimini elde etmek amaciyla gerçeklestirilir. Bu amaçla etkili bir FFT ile uygulanan kisa süreli Fourier` dönüsümü. (STFT) elde edilir. Adim 7l, ses numuneleme degerlerinin zamansal olarak birbirini takip eden bloklari ile birkaç kez uygulandiginda teknikte bilindigi üzere bir spektrogram elde edilir. Adim 72'de yüksek çözünürlüklü spektral bilgi, yani yüksek çözünürlüklü spektral degerler, düsük çözünürlüklü frekans bantlari halinde gruplanir. Örnegin 1024 veya 2048 giris degerine sahip bir FFT uygulandiginda 1024 veya 2048 spektral deger bulunur, ancak bu tür bir yüksek çözünürlük ne gereklidir ne de amaçlanir. Bunun yerine gruplama adimi 72, yüksek çözünürlüklü spektrumun, örnegin Bark bantlarindan veya logaritmik bant bölünmesinden bilinenler gibi degisen bant genisligine sahip bantlar gibi az sayida bantlara bölünmesi ile sonuçlanir. Akabinde gruplama adimi 72 sonrasinda spektral sekil özelligi ve tercihen diger özelliklerin hesaplanmasi islemi 73, düsük çözünürlüklü bantlardan› her biri için gerçeklestirilir. Sekil 7'de gösterilmemesine ragmen tam frekans bandi ile ilgili ek özellikler, bu tam bant genislikli özellikler için adim 71 veya adim 72 ile elde edilen her türlü spektral ayrimin gerekli olmamasi nedeniyle adim 70'te elde edilen veriler kullanilarak hesaplanabilir.
Adim 73, m boyutlarina sahip spektral sekil özellikleri ile sonuçlanir, burada m, n'den küçüktür ve tercihen her frekans bandi için 1 veya 2'dir. Bu durum, adim 72'den sonra bulunan bir frekans bandina yönelik bilginin, özellik çikarici islemi ile adim 73'ten sonra bulunan düsük boyut bilgisine sikistirildigi anlamina gelir.
Sekil 7'de gösterildigi üzere adim 71 ve adim 72 yaninda zaman/frekans dönüsümü ve gruplama adimi, farkli islemler için degistirilebilir. Adim 72 Çikisi, örnegin çikista, 25 alt-bant sinyali elde edilecek sekilde uygulanan düsük Çözünürlüklü filtre öbegi ile filtrelenebilir. Her alt bandin yüksek çözünürlük analizi, spektral sekil özelligi hesaplamasina yönelik hani verileri elde etmek. amaciyla gerçeklestirilebilir.
Bu örnegin, bir alt-bant sinyalinin FFT analizi ile veya bir alt-bant sinyalinin diger herhangi bir analizi ile, örnegin diger kademeli fitre öbekleri ile yapilabilir.
Sekil 8, Sekil l'deki kontrol edilebilir filtrenin (12) veya Sekil 3'te gösterilen veya Sekil 4'te 12'de gösterilen spektral agirliklandirma özelliginin uygulanmasi için tercih edilen prosedürü gösterir. Adim 80'de gösterildigi üzere Sekil 4'teki sinir agi regresyon blogu (15) ile saglanan alt-bant SNR degerleri gibi düsük çözünürlüklü bant odakli kontrol bilgisinin belirlenmesi adimindan sonra adim 81'de yüksek çözünürlüge dogrusal ara degerleme islemi gerçeklestirilir.
Son olarak Sekil 3'teki adim 30'da gerçeklestirilen veya adim 7l'de gerçeklestirilen kisa süreli Fourier dönüsümü veya adimlar 71 ve 72 saginda gösterilen alternatif prosedür ile elde edilen her spektral deger için bir agirliklandirma faktörünün elde edilmesi amaçlanir. Adim 8l'den sonra her spektral deger için bir SNR degeri elde edilir. Ancak bu SNR degeri halen logaritmik alandadir ve adim 82, yüksek Çözünürlüklü her spektral deger için logaritmik alanin dogrusal bir alan dönüsümünü saglar.
Adim 83'te her spektral deger için yani yüksek çözünürlükte olan dogrusal SNR. degerleri, örnegin IIR alçak geçisli filtreler veya alternatif olarak FIR alçak geçisli filtreler kullanilarak zaman ve frekansa göre düzgünlestirilir, örnegin her türlü hareketli ortalama islemi uygulanabilir. Adim 84'te her yüksek çözünürlüklü frekans degerlerine yönelik spektral agirliklar, düzgünlestirilen dogrusal SNR degerlerine göre hesaplanir. Bu hesaplama, Sekil 5'te gösterilen fonksiyona dayali olmakla birlikte bu Sekilde gösterilen fonksiyon, logaritmik terimler cinsinden verilirken adim 84'te yüksek çözünürlüklü her frekans degerine yönelik spektral agirliklar, dogrusal alanda hesaplanir.
Adim 85'te her spektral deger akabinde, spektral agirliklar dizisi ile çarpilmis bir dizi yüksek çözünürlüklü spektral degeri elde etmek amaciyla belirlenen spektral agirlik ile çarpilir. Bu islenmis spektrum, adim 86'da frekans-zaman dönüsümüne tabi tutulur. Uygulama senaryosuna bagli olarak ve adim 80'de kullanilan örtüsmeye bagli olarak bloklama artefaktlari ele almak üzere sonraki iki frekans-zaman dönüsümü adimi ile elde edilen zaman alani ses numuneleme degerlerinin iki blogu arasinda çapraz sönümleme islemi gerçeklestirilebilir.
Ek pencereleme, dairesel konvolüsyon artefaktlarini azaltmak amaciyla uygulanabilir.
Adim 86'nin sonucu, gelismis konusma performansina sahip ses numuneleme degerlerine ait bir bloktur, diger bir deyisle konusma, konusma iyilestirme isleminin yapilmadigi ilgili ses giris sinyaline göre daha iyi algilanabilir.
Bulus yöntemlerinin belirli uygulama gereksinimlerine bagli olarak bulus yöntemleri, donanim veya yazilim halinde uygulanabilir. Uygulama, bulus yöntemleri gerçeklestirilecek sekilde programlanabilir bilgisayar sistemleri ile birlikte çalisan dijital saklama ortami, özellikle üzerinde elektronik olarak okunabilir kontrol sinyallerinin bulundugu bir disk, DVD veya CD kullanilarak gerçeklestirilebilir. Genel olarak mevcut bulus bu nedenle, makine tarafindan okunabilir bir tasiyicida saklanan bir program kodu olan bilgisayar programi ürünüdür, bu program kodu, bilgisayar programi ürünü bir bilgisayarda çalistirildiginda bulus yöntemlerinin gerçeklestirilmesi amaciyla çalistirilir.
Diger bir deyisle bulus yöntemleri bu nedenle, bilgisayar programi bir bilgisayarda çalistirildiginda bulus yöntemlerinden en az birinin gerçeklestirilmesine yönelik bir program koduna sahip bir bilgisayar programidir.
Açiklanan düzenlemeler sadece, mevcut bulusun prensipleri için tanimlayicidir. Burada açiklanan düzenlemelerin ve detaylarin modifikasyonlarinin ve varyasyonlarinin, teknikte uzman diger kisiler için anlasilir olacagi anlasilir. Bu nedenle, buradaki düzenlemelerin tarifi ve açiklamasi yoluyla sunulan spesifik detaylar ile olmamak üzere sadece beklemede olan patent istemlerinin kapsami ile sinirlandirma yapilmasi amaçlanir. özellikler: Sßekiia' Sçk'l 16“ (örnegin, bir egitim prosesi özellik özellik -›~ çikarici _› birlestirici **x/15 ) 2 her ait bant için .. edilebilir _%› filtre konusmasi iyilestirilmis ses 2 sinyali özellikler: - her alt bant için spektral sekil - diger özellik(ler) 125 _kontrol özellik _özellik_ . bilgisi test ses Çikarici --_-› birlestirici sinyali 2 optimizasyon › denetleyici .. test ses sinyaline gunce lenmis yönelik kontrol bilgisi birlestirme parametreleri x[k] = Slkl + N” kazanim G[ "hesaplamasi 322 ximli ”wir kontrol bilgisi asagidakiler olabilir: - her bant için konusma enerjisi s^ (0)) A _ 2 - her banti in arka plan “gürültü Glm) :4` /1 - law& enerjisiB2 (w) Ixlwll - istenen filtrelemenin elde edilmesi amaciyla kontrol edilebilir filtreye yönelik filtre parametreleri Slk] Dîlk] egitim uygulama 41 42 Xlkl Özellik Özellik çikarimi "“14 14““ çikarimi referans SNR Rl siniragi 57-5“ siniragi _î spektral hesaplamasi _N egitimi bellek egitimi agirliklandirma (:3: ,15... En" '. -20 ° : * g _25 `I , ..._. . ' . i / . ..... spektral çikarma -30 I , _ i .
J / 4 uygulanan agirliklandirma ] i, âîwln _, i ?(0 l R ((0) >1 sinir-18dB . her frekans bandi için özellikler (agirliklandirma bandi örnegin Bark bandi) - banttaki spektral enerji - banttaki spektral sekil (enerjinin bant içindeki dagilimi) . spektral düzlük ölçüsü (geometrik ortalam ° spektral çarpiklik ritmetik ortalam - ardisik çerçeveler arasindaki spektral aki - delta veya delta-delta özellikleri . tam bant genisligine yönelik özellikler - LPC katsayilari ve/veya LPC hata sinyali - Mel-frekansi kepstral katsayilari - bagil spektral algisal dogrusal öngörü katsayilari (RAST A-PLP) - delta veya delta-delta özellikleri örnegin bir örtüsme kullanilarak 70"" bir ses sinyalinin pencerelenmesi birinci (yüksek) çözünürlük, ?ya .. .. .. mu 71»\, örnegin STFT ile zaman/frekans filltirseuögggiuireuru u dönü ümünün er ekle tirilmesi . s 9 ç S filtreleme 1 _ . _yu'fsîîkçîzgimfr'lfk'tfSpekt'a' her alt bandin yüksek 72% bilgisinin dusuk çozunurluklu frekans bantlari Çözünürlük analizi (BARK bantlari gibi) halinde gruplanmasi spektral bilgi n boyutlarina, örnegin n vspektral katsayilarina sahiptir (Iiger özelligin(özel|iklerin) hesaplanmasi her düsük çözünürlüklü bant için spektral sekil özelligi ve spektral sekil özelligi, m boyutlarina sahiptir, burada m, n'den daha küçüktür ve tercihen 1 veya 2ldir düsük çiîünürlüklü bant degerleri gibi) belirlenmesi yüksek çözünürlüge dogrusal ara degerlemenin gerçeklestirilmesi her yüksek çözünürlüklü spektral deger için dogrusal oranlara dönüstürülmesi dogrusal SNR degerlerinin (yüksek çözünürlük) zaman ve frekansa göre düzgünlestirilmesi (örnegin lR alçak geçisli filtreler iie) her yüksek çözünürlüklü frekans degeri için spektral agirliklarin hesaplanmasi her spektral degerin belirlenen spektral agirlik ile çarpilmasi çarpim sonuçlarinin frekans-zaman dönüstürülmesi ve önceki sinyal ile çapraz sönümlenmesi giris sinyali SNR tahmininin sonucu P' S; ` 9' " *f I_ Ara degerlenmis SNR tahmini 4001" spektral agiriliklar ozeHuden .A,. __,. 100 gwß shüden (hergkß özeHKýiçm bhtane) bMegWme pamnmhden dahagens (dogrusal fonksWon Mdesünne pamnmüdeü sküden çözünüHüHü Üekansband içkibhtane)

Claims (1)

ISTEMLER
1.Bir konusma iyilestirme filtresi için alt bant basina kontrol bilgisini elde etmek amaciyla bir ses sinyalinin islenmesine yönelik. aparat olup, asagidakileri içermektedir: ses sinyalinin kisa süreli spektral gösterimlerinin zaman sirasinin elde edilmesine ve kisa süreli birçok spektral gösterim için birçok frekans bandinin her frekans bandinda en az bir birinci özelligin çikarilmasina yönelik özellik çikarici, en az bir birinci özellik, birçok frekans bandinin bir frekans bandindaki kisa süreli spektral gösterimin spektral seklini temsil eder, burada Özellik çikarici, spektral enerji, ardisik çerçeveler arasindaki spektral aki ve delta veya delta- delta özelliklerinden en az birisi olan her frekans bandi için kisa süreli bir spektral gösterimin karakteristigini temsil eden ek ikinci özellikleri çikaracak sekilde çalisir ve özellik çikarici ek olarak, LPC özellikleri, bir LPC hata sinyalini içeren LPC özellikleri, önceden tanimlanmis bir sirasina veya LPC hata sinyalleri ve dogrusal öngörü katsayilarinin bilestirilmesine kadar dogrusal öngörü katsayilari, PLP katsayilari, RASTA-PLP katsayilari, mel-frekansi kepstral katsayilari ve delta özelliklerinden en az biri olan tam bant genisligine yönelik üçüncü özellikleri çikaracak sekilde çalisir, ses sinyalinin zaman parçasi için konusma iyilestirme filtresine yönelik kontrol bilgisini elde etmek amaciyla birlestirme parametreleri kullanilarak en az bir birinci özellik, en az bir ikinci özellik ve en az bir üçüncü özelligin birlestirilmesine yönelik özellik birlestirici, burada özellik birlestirici, birlestirme parametrelerini kullanarak spektral bir sekli temsil eden her frekans bandina yönelik en az bir birinci özellik, her frekans bandi için en az bir ek ikinci özellik ve tam bant genisligine yönelik en az bir ek üçüncü özelligi birlestirecek sekilde çalisir. .Istem l'e göre aparat olup, burada özellik çikarici, bir dizi zaman ani için bir dizi spektral gösterimin elde edildigi frekans dönüstürme islemini uygulayacak sekilde çalisir, spektral gösterimler, bir frekans bandinin artan merkez frekansi ile giderek genisleyen bir bant genisligi olan esit olmayan bant genislikleri olan frekans bantlarina sahiptir. . Istem l'e göre aparat olup, burada özellik çikarici, birinci özellik olarak enerjinin bant içindeki dagilimini temsil eden her` bant için spektral düzlük ölçüsünü ve ikinci özellik olarak spektral gösterimin elde edildigi her bant için normalize enerji ölçüsünü hesaplayacak sekilde çalisir, normalizasyon, bir sinyal çerçevesinin toplam enerjisine dayalidir ve burada özellik birlestirici, bir bant için spektral düzlük ölçüsünü veya her bant için normalize enerjiyi kullanacak sekilde çalisir. Önceki istemlerden birine göre aparat olup, burada özellik çikarici ek olarak, ikinci özellik olarak her bant için zaman-ardisik spektral gösterimler arasindaki benzerligi veya benzersizligi temsil eden spektral aki ölçüsünü veya spektral çarpiklik ölçüsünü çikaracak sekilde çalisir, spektral çarpiklik ölçüsü, kütle merkezi etrafindaki asimetriyi temsil eder. .Isteni l'e göre aparat olup, burada özellik. çikarici, zaman alanli ses numunelerinin bir bloguna yönelik dogrusal öngörü katsayi özelliklerini hesaplayacak sekilde çalisir, bu blok, her frekans bandina yönelik spektral sekli temsil eden en az bir birinci özelligin çikarilmasi amaciyla kullanilan ses numunelerini içerir. .Istem l'e göre aparat olup, burada özellik çikarici, bir veya iki tam bitisik frekans bandinin spektral bilgisini ve sadece frekans bandinin spektral bilgisini kullanarak bir frekans bandindaki spektrumun seklini hesaplayacak sekilde çalisir. .Istem l'e göre aparat olup, burada özellik çikarici, ses numunelerinin blogu basina düsen her özellik için ham özellik bilgisini çikaracak ve frekans bandina yönelik en az bir birinci özelligi elde etmek amaciyla bir frekans bandinda ham özellik bilgisi sirasini .Istem l'e göre aparat olup, burada özellik çikarici, her frekans bandi için spektral degerlerin sayisini hesaplayacak ve spektral sekli temsil eden en azindan birinci özelligi elde etmek amaciyla spektral degerlerin sayisini birlestirecek sekilde çalisir, böylece GHI az bir birinci özellik, frekans bandindaki spektral degerlerin sayisindan küçük olan bir boyuta sahip olur. .Bir konusma iyilestirme filtresine yönelik her alt bant için kontrol bilgisi elde etmek amaciyla bir ses sinyalini isleme yöntemi olup, asagidaki adimlari içermektedir: ses sinyalinin kisa süreli spektral gösterimlerinin kisa süreli birçok. spektral gösterime yönelik birçok frekans bandinin her bandindaki en az bir birinci özelligin çikarilmasi, en az bir birinci özellik, birçok bandinin bir frekans bandindaki kisa süreli spektral bir gösterimin spektral seklini temsil eder, burada spektral enerji, ardisik. çerçeveler arasindaki spektral aki ve delta veya delta-delta özelliklerinden en az birisi olan her frekans bandi için kisa süreli bir spektral gösterimin karakteristigini temsil eden ek ikinci özellikler çikartilir ve LPG özellikleri, bir LPC hata sinyalini içeren LPC özellikleri, Önceden tanimlanmis bir sirasina veya LPC hata sinyalleri ve dogrusal öngörü katsayilarinin bilestirilmesine kadar dogrusal öngörü katsayilari, PLP katsayilari, RASTA-PLP katsayilari, mel-frekansi kepstral katsayilari ve delta özelliklerinden en az biri olan tani bant genisligine yönelik ek üçüncü özellikler çikartilir; ve ses sinyalinin zaman parçasina yönelik konusma iyilestirme filtresine yönelik kontrol bilgisini elde etmek üzere birlestirme parametreleri kullanilarak en az bir birinci özellik, en az bir ikinci özellik ve en az bir üçüncü özelligin› birlestirilmesi, burada› spektral bir sekli temsil eden her frekans bandina yönelik en az bir birinci özellik, frekans bandi için en az bir ek ikinci özellik ve tam bant genisligine yönelik en az bir ek üçüncü özellik, birlestirme parametreleri kullanilarak her frekans bandi için birlestirilir. Bir ses sinyalinin konusma iyilestirme islemine tabi tutulmasina yönelik aparat olup, asagidakileri içermektedir: isteni l'e göre ses sinyalinin zaman parçasini temsil eden birçok bant için konusma iyilestirme filtresine yönelik kontrol bilgisini elde etmekr üzere ses sinyalinin islenmesine yönelik bir aparat ve kontrol edilebilir bir filtre, bu filtre, ses sinyaline ait bant, kontrol bilgisine bagli olarak farkli bir banda göre degisken bir sekilde zayiflatilacak biçimde kontrol edilebilir. Istem lO'a göre aparat olup, burada islemeye yönelik aparat, kontrol bilgisinin saglandigi, spektral çözünürlükten daha yüksek çözünürlüge sahip spektral bilgileri saglayan zaman frekans degistiriciyi içerir ve aparat ek olarak, kontrol bilgisini yüksek çözünürlüge ara degerlemek için ve kontrol edilebilir filtrenin kontrol edilebilir filtre parametrelerinin ayarlanmasini saglayan son islemciden geçirilmis kontrol bilgisini elde etmek. amaciyla ara degerlenen kontrol bilgisini düzgün hale getirmek üzere kontrol bilgisi son islemcisini içerir. Bir ses sinyalini konusma iyilestirme islemine tabi tutma yöntemi olup, asagidakileri içermektedir: isteni 9'a göre ses sinyalinin zaman parçasini temsil eden birçok bant için konusma iyilestirme filtresine yönelik kontrol bilgisini elde etmek üzere ses sinyalini isleme yöntemi ve bir filtrenin, ses sinyaline ait bant, kontrol bilgisine bagli olarak farkli bir banda göre degisken sekilde zayiflatilacak biçimde kontrol edilmesi. Özellik birlestiricinin birlestirme parametrelerinin belirlenmesi amaciyla özellik birlestiricinin egitilmesine yönelik aparat olup, asagidakileri içermektedir: her frekans bandi için bir konusma iyilestirme filtresine yönelik kontrol bilgisinin bilindigi egitici ses sinyalinin kisa süreli spektral gösterimlerinin zaman sirasinin elde edilmesine ve kisa süreli birçok spektral gösterime yönelik birçok frekans bandinin her frekans bandindaki en az bir birinci özelligin çikarilmasina yönelik bir özellik çikarici, en az bir birinci Özellik, birçok frekans bandinin bir frekans bandindaki kisa süreli spektral gösterimin spektral bir seklini temsil eder, burada özellik çikarici, spektral enerji, ardisik çerçeveler arasindaki spektral aki ve delta veya delta- delta özelliklerinden en az birisi olan her frekans bandi için kisa süreli bir spektral gösterimin karakteristigini temsil eden ek ikinci özellikleri çikaracak sekilde çalisir ve özellik çikarici ek olarak, LPC özellikleri, bir LPC hata sinyalini içeren LPC özellikleri, önceden tanimlanmis bir sirasina veya LPC hata sinyalleri ve dogrusal öngörü katsayilarinin bilestirilmesine kadar dogrusal öngörü katsayilari, PLP katsayilari, RASTA-PLP katsayilari, mel-frekansi kepstral katsayilari ve delta özelliklerinden en az biri olan tam bant genisligine yönelik üçüncü özellikleri çikaracak sekilde çalisir; ve ara birlestirme parametreleri kullanilarak kontrol bilgisinin hesaplanmasi, ara birlestirme parametrelerinin degistirilmesi, degistirilen kontrol bilgisinin bilinen kontrol bilgisi ile karsilastirilmasi ve degistirilen ara birlestirme parametreleri, bilinen kontrol bilgisi ile daha iyi eslesen kontrol bilgisi ile sonuçlandiginda ara birlestirme parametrelerinin güncellenmesi amaciyla özellik birlestiricinin her frekans bandi için en az bir birinci özellik, en az bir ikinci özellik ve en az bir üçüncü özellik ile beslenmesine yönelik bir optimizasyon denetleyici, burada özellik. birlestirici, birlestirme parametrelerini kullanarak spektral bir sekli temsil eden her frekans bandina yönelik en az bir Özellik, her frekans bandi için en az bir ek ikinci özellik ve tam bant genisligine yönelik en az bir ek üçüncü özelligi Özellik birlestiricinin birlestirme parametrelerinin belirlenmesi amaciyla bir özellik birlestiricinin egitilmesi yöntemi olup, asagidakileri adimlari içermektedir: her frekans bandi için bir konusma iyilestirme filtresine yönelik kontrol bilgisinin bilindigi, egitici bir ses sinyalinin kisa süreli spektral gösterimlerinin kisa süreli birçok spektral gösterime yönelik birçok frekans bandinin her frekans bandindaki en az bir birinci özelligin çikarilmasi, en az bir birinci özellik, birçok frekans bandinin bir frekans bandindaki kisa süreli spektral bir gösterimin spektral seklini temsil eder, burada spektral enerji, ardisik çerçeveler arasindaki spektral aki ve delta veya delta-delta özelliklerinden en az birisi olan her frekans bandi için kisa süreli bir spektral gösterimin karakteristigini temsil eden ek ikinci özellikler çikartilir ve LPG özellikleri, bir LPC hata sinyalini içeren LPC özellikleri, önceden tanimlanmis bir sirasina veya LPC hata sinyalleri ve dogrusal öngörü katsayilarinin bilestirilmesine kadar dogrusal öngörü katsayilari, PLP katsayilari, RASTA-PLP katsayilari, mei-frekansi kepstral katsayilari ve delta özelliklerinden en az biri olan tam bant genisligine yönelik ek üçüncü özellikler Çikartilir; özellik birlestiricinin, her frekans bandi için en az bir birinci, en az bir ikinci ve en az bir üçüncü özellik ile beslenmesi; ara birlestirme parametreleri kullanilarak kontrol bilgisinin hesaplanmasi; ara birlestirme parametrelerinin degistirilmesi; degistirilen kontrol bilgisinin, bilinen kontrol bilgisi ile karsilastirilmasi; degistirilen ara birlestirme parametreleri, bilinen kontrol bilgisi ile daha iyi eslesen kontrol bilgisi ile sonuçlandiginda ara birlestirme parametrelerinin güncellenmesi, burada özellik birlestirici, birlestirme parametrelerini kullanarak spektral bir sekli temsil eden her frekans bandi için en az bir birinci özellik, her frekans bandi için en az bir ek ikinci özellik ve tam bant genisligine yönelik en az bir ek üçüncü özelligi birlestirecek sekilde çalisir. Bir bilgisayarda çalistirildiginda istem 9, 12 veya 14'e göre bir yöntemin gerçeklestirilmesine yönelik bilgisayar programidir.
TR2018/10466T 2008-08-05 2008-09-29 Özellik çıkarımı kullanılarak konuşmanın iyileştirilmesi için bir ses sinyalinin işlenmesine yönelik aparat ve yöntem. TR201810466T4 (tr)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US8636108P 2008-08-05 2008-08-05

Publications (1)

Publication Number Publication Date
TR201810466T4 true TR201810466T4 (tr) 2018-08-27

Family

ID=49170422

Family Applications (1)

Application Number Title Priority Date Filing Date
TR2018/10466T TR201810466T4 (tr) 2008-08-05 2008-09-29 Özellik çıkarımı kullanılarak konuşmanın iyileştirilmesi için bir ses sinyalinin işlenmesine yönelik aparat ve yöntem.

Country Status (13)

Country Link
US (1) US9064498B2 (tr)
EP (1) EP2151822B8 (tr)
JP (1) JP5666444B2 (tr)
KR (1) KR101266894B1 (tr)
CN (1) CN102124518B (tr)
AU (1) AU2009278263B2 (tr)
CA (1) CA2732723C (tr)
ES (1) ES2678415T3 (tr)
HK (1) HK1159300A1 (tr)
MX (1) MX2011001339A (tr)
RU (1) RU2507608C2 (tr)
TR (1) TR201810466T4 (tr)
WO (1) WO2010015371A1 (tr)

Families Citing this family (92)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8140331B2 (en) * 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
DE102010009745A1 (de) * 2010-03-01 2011-09-01 Gunnar Eisenberg Verfahren und Vorrichtung zur Verarbeitung von Audiodaten
JP5738020B2 (ja) * 2010-03-11 2015-06-17 本田技研工業株式会社 音声認識装置及び音声認識方法
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US8538035B2 (en) 2010-04-29 2013-09-17 Audience, Inc. Multi-microphone robust noise suppression
US8798290B1 (en) 2010-04-21 2014-08-05 Audience, Inc. Systems and methods for adaptive signal equalization
US8781137B1 (en) 2010-04-27 2014-07-15 Audience, Inc. Wind noise detection and suppression
US9245538B1 (en) * 2010-05-20 2016-01-26 Audience, Inc. Bandwidth enhancement of speech signals assisted by noise reduction
US8447596B2 (en) 2010-07-12 2013-05-21 Audience, Inc. Monaural noise suppression based on computational auditory scene analysis
JP5566846B2 (ja) * 2010-10-15 2014-08-06 本田技研工業株式会社 ノイズパワー推定装置及びノイズパワー推定方法並びに音声認識装置及び音声認識方法
JP2012163919A (ja) * 2011-02-09 2012-08-30 Sony Corp 音声信号処理装置、および音声信号処理方法、並びにプログラム
US9589580B2 (en) 2011-03-14 2017-03-07 Cochlear Limited Sound processing based on a confidence measure
JP2012235310A (ja) * 2011-04-28 2012-11-29 Sony Corp 信号処理装置および方法、プログラム、並びにデータ記録媒体
US8949118B2 (en) * 2012-03-19 2015-02-03 Vocalzoom Systems Ltd. System and method for robust estimation and tracking the fundamental frequency of pseudo periodic signals in the presence of noise
EP2877992A1 (en) * 2012-07-24 2015-06-03 Nuance Communications, Inc. Feature normalization inputs to front end processing for automatic speech recognition
JP6234060B2 (ja) * 2013-05-09 2017-11-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム
US9443533B2 (en) * 2013-07-15 2016-09-13 Rajeev Conrad Nongpiur Measuring and improving speech intelligibility in an enclosure
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
CN103474072B (zh) * 2013-10-11 2016-06-01 福州大学 利用纹理特征与随机森林的快速抗噪鸟鸣声识别方法
US10360901B2 (en) * 2013-12-06 2019-07-23 Nuance Communications, Inc. Learning front-end speech recognition parameters within neural network training
CN105830154B (zh) 2013-12-19 2019-06-28 瑞典爱立信有限公司 估计音频信号中的背景噪声
US20170194019A1 (en) * 2014-02-14 2017-07-06 Donald James DERRICK System for audio analysis and perception enhancement
IN2014MU00739A (tr) * 2014-03-04 2015-09-25 Indian Inst Technology Bombay
AU2015251609B2 (en) * 2014-04-25 2018-05-17 Ntt Docomo, Inc. Linear prediction coefficient conversion device and linear prediction coefficient conversion method
CN107112025A (zh) * 2014-09-12 2017-08-29 美商楼氏电子有限公司 用于恢复语音分量的系统和方法
US20160111107A1 (en) * 2014-10-21 2016-04-21 Mitsubishi Electric Research Laboratories, Inc. Method for Enhancing Noisy Speech using Features from an Automatic Speech Recognition System
US9659578B2 (en) * 2014-11-27 2017-05-23 Tata Consultancy Services Ltd. Computer implemented system and method for identifying significant speech frames within speech signals
EP3204945B1 (en) 2014-12-12 2019-10-16 Huawei Technologies Co. Ltd. A signal processing apparatus for enhancing a voice component within a multi-channel audio signal
KR102387567B1 (ko) * 2015-01-19 2022-04-18 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
WO2016123560A1 (en) 2015-01-30 2016-08-04 Knowles Electronics, Llc Contextual switching of microphones
CN104966517B (zh) * 2015-06-02 2019-02-01 华为技术有限公司 一种音频信号增强方法和装置
DK3118851T3 (da) * 2015-07-01 2021-02-22 Oticon As Forbedring af støjende tale baseret på statistiske tale- og støjmodeller
KR101677137B1 (ko) * 2015-07-17 2016-11-17 국방과학연구소 변조 스펙트로그램을 이용한 수중 방사체의 데몬 및 lofar 특징을 동시 추출하는 방법 및 장치
KR102494139B1 (ko) * 2015-11-06 2023-01-31 삼성전자주식회사 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법
CN105611477B (zh) * 2015-12-27 2018-06-01 北京工业大学 数字助听器中深度和广度神经网络相结合的语音增强算法
DE112016006218B4 (de) * 2016-02-15 2022-02-10 Mitsubishi Electric Corporation Schallsignal-Verbesserungsvorrichtung
EP3220367A1 (en) * 2016-03-14 2017-09-20 Tata Consultancy Services Limited System and method for sound based surveillance
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
US11003987B2 (en) * 2016-05-10 2021-05-11 Google Llc Audio processing with neural networks
RU2620569C1 (ru) * 2016-05-17 2017-05-26 Николай Александрович Иванов Способ измерения разборчивости речи
EP3301675B1 (en) 2016-09-28 2019-08-21 Panasonic Intellectual Property Corporation of America Parameter prediction device and parameter prediction method for acoustic signal processing
US10614827B1 (en) * 2017-02-21 2020-04-07 Oben, Inc. System and method for speech enhancement using dynamic noise profile estimation
US10504538B2 (en) 2017-06-01 2019-12-10 Sorenson Ip Holdings, Llc Noise reduction by application of two thresholds in each frequency band in audio signals
US10381020B2 (en) 2017-06-16 2019-08-13 Apple Inc. Speech model-based neural network-assisted signal enhancement
WO2019014890A1 (zh) * 2017-07-20 2019-01-24 大象声科(深圳)科技有限公司 一种通用的单声道实时降噪方法
US11270198B2 (en) * 2017-07-31 2022-03-08 Syntiant Microcontroller interface for audio signal processing
US20190066657A1 (en) * 2017-08-31 2019-02-28 National Institute Of Information And Communications Technology Audio data learning method, audio data inference method and recording medium
EP3688754A1 (en) 2017-09-26 2020-08-05 Sony Europe B.V. Method and electronic device for formant attenuation/amplification
US10325588B2 (en) 2017-09-28 2019-06-18 International Business Machines Corporation Acoustic feature extractor selected according to status flag of frame of acoustic signal
CN111386568B (zh) * 2017-10-27 2023-10-13 弗劳恩霍夫应用研究促进协会 使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机可读存储介质
US10283140B1 (en) 2018-01-12 2019-05-07 Alibaba Group Holding Limited Enhancing audio signals using sub-band deep neural networks
CN110580910A (zh) * 2018-06-08 2019-12-17 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
US10991379B2 (en) * 2018-06-22 2021-04-27 Babblelabs Llc Data driven audio enhancement
US11341983B2 (en) 2018-09-17 2022-05-24 Honeywell International Inc. System and method for audio noise reduction
KR102477001B1 (ko) * 2018-10-24 2022-12-13 그레이스노트, 인코포레이티드 오디오 특성의 분석을 기반으로 오디오 재생 설정을 조정하는 방법 및 장치
CN110008972B (zh) * 2018-11-15 2023-06-06 创新先进技术有限公司 用于数据增强的方法和装置
US11043214B1 (en) * 2018-11-29 2021-06-22 Amazon Technologies, Inc. Speech recognition using dialog history
KR102093929B1 (ko) * 2018-12-05 2020-03-26 중앙대학교 산학협력단 Cim 기반의 시스템 건전성 진단을 위한 장치 및 방법
JP7095586B2 (ja) * 2018-12-14 2022-07-05 富士通株式会社 音声補正装置および音声補正方法
CN109448749B (zh) * 2018-12-19 2022-02-15 中国科学院自动化研究所 基于有监督学习听觉注意的语音提取方法、系统、装置
CN111369986A (zh) * 2018-12-26 2020-07-03 成都启英泰伦科技有限公司 一种智能安全传输语音系统及方法
KR20200080913A (ko) 2018-12-27 2020-07-07 서울과학기술대학교 산학협력단 자기상관계수를 이용한 심층신경망 기반 신호처리 방법 및 장치
KR102096588B1 (ko) * 2018-12-27 2020-04-02 인하대학교 산학협력단 음향 장치에서 맞춤 오디오 잡음을 이용해 사생활 보호를 구현하는 기술
KR102188264B1 (ko) * 2019-01-04 2020-12-08 순천향대학교 산학협력단 언어재활 기반 발성 음성 평가 장치 및 방법
EP3694229A1 (en) * 2019-02-08 2020-08-12 Oticon A/s A hearing device comprising a noise reduction system
KR102198273B1 (ko) * 2019-02-26 2021-01-04 한미란 머신러닝 기반의 음성데이터 분석 방법, 장치 및 프로그램
CN109767789A (zh) * 2019-03-06 2019-05-17 慧言科技(天津)有限公司 一种用于语音情感识别的新特征提取方法
WO2020209840A1 (en) * 2019-04-09 2020-10-15 Hewlett-Packard Development Company, L.P. Applying directionality to audio by encoding input data
WO2020218597A1 (ja) * 2019-04-26 2020-10-29 株式会社Preferred Networks 区間検出装置、信号処理システム、モデル生成方法、区間検出方法およびプログラム
KR20200137561A (ko) * 2019-05-30 2020-12-09 국방과학연구소 잡음 환경 노이지 데이터를 생성하기 위한 데이터 생성장치, 데이터 생성방법 및 이를 이용한 잡음 제거장치 및 잡음 제거방법
CN110534123B (zh) * 2019-07-22 2022-04-01 中国科学院自动化研究所 语音增强方法、装置、存储介质、电子设备
US20220277761A1 (en) * 2019-07-29 2022-09-01 Nippon Telegraph And Telephone Corporation Impression estimation apparatus, learning apparatus, methods and programs for the same
CN110491407B (zh) * 2019-08-15 2021-09-21 广州方硅信息技术有限公司 语音降噪的方法、装置、电子设备及存储介质
CN110473567B (zh) * 2019-09-06 2021-09-14 上海又为智能科技有限公司 基于深度神经网络的音频处理方法、装置及存储介质
CN110556121B (zh) * 2019-09-18 2024-01-09 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN110556123B (zh) * 2019-09-18 2024-01-19 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
CN110556122B (zh) * 2019-09-18 2024-01-19 腾讯科技(深圳)有限公司 频带扩展方法、装置、电子设备及计算机可读存储介质
US11587575B2 (en) * 2019-10-11 2023-02-21 Plantronics, Inc. Hybrid noise suppression
JP7348812B2 (ja) 2019-10-31 2023-09-21 東京都公立大学法人 雑音抑制装置、雑音抑制方法及び音声入力機器
CN111223493B (zh) * 2020-01-08 2022-08-02 北京声加科技有限公司 语音信号降噪处理方法、传声器和电子设备
CN111259776B (zh) * 2020-01-13 2023-04-18 浙江大学 一种基于同步平均主成分时频分析的确定性信号提取方法
KR20210101670A (ko) * 2020-02-10 2021-08-19 삼성전자주식회사 음질 개선 방법 및 이를 이용한 전자 장치
KR102329353B1 (ko) * 2020-03-17 2021-11-22 성균관대학교산학협력단 심층 신경망을 이용한 음성 발생 방향 추론 방법 및 그 장치
US11521637B1 (en) * 2020-08-19 2022-12-06 Amazon Technologies, Inc. Ratio mask post-filtering for audio enhancement
CN111986660A (zh) * 2020-08-26 2020-11-24 深圳信息职业技术学院 一种神经网络子带建模的单通道语音增强方法、系统及存储介质
US20220101864A1 (en) * 2020-09-25 2022-03-31 Descript, Inc. Training generative adversarial networks to upsample audio
CN112349277B (zh) * 2020-09-28 2023-07-04 紫光展锐(重庆)科技有限公司 结合ai模型的特征域语音增强方法及相关产品
US11694692B2 (en) 2020-11-11 2023-07-04 Bank Of America Corporation Systems and methods for audio enhancement and conversion
GB202018375D0 (en) * 2020-11-23 2021-01-06 Rossi Lisa Audio signal processing systems and methods
US11475869B2 (en) 2021-02-12 2022-10-18 Plantronics, Inc. Hybrid noise suppression for communication systems
CN115116469B (zh) * 2022-05-25 2024-03-15 腾讯科技(深圳)有限公司 特征表示的提取方法、装置、设备、介质及程序产品

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5822742A (en) 1989-05-17 1998-10-13 The United States Of America As Represented By The Secretary Of Health & Human Services Dynamically stable associative learning neural network system
JP3084721B2 (ja) * 1990-02-23 2000-09-04 ソニー株式会社 雑音除去回路
DE4227826C2 (de) * 1991-08-23 1999-07-22 Hitachi Ltd Digitales Verarbeitungsgerät für akustische Signale
JP3247011B2 (ja) 1994-04-12 2002-01-15 富士通株式会社 セル配置改善装置及び方法
SE505175C2 (sv) 1994-12-01 1997-07-07 Ericsson Telefon Ab L M Förfarande och telekommunikationssystem för att åstadkomma ett abonnentstyrt uppkopplingsförlopp i ett telekommunikationsnät
US5960391A (en) 1995-12-13 1999-09-28 Denso Corporation Signal extraction system, system and method for speech restoration, learning method for neural network model, constructing method of neural network model, and signal processing system
SE506034C2 (sv) * 1996-02-01 1997-11-03 Ericsson Telefon Ab L M Förfarande och anordning för förbättring av parametrar representerande brusigt tal
EP0878790A1 (en) * 1997-05-15 1998-11-18 Hewlett-Packard Company Voice coding system and method
FR2786908B1 (fr) * 1998-12-04 2001-06-08 Thomson Csf Procede et dispositif pour le traitement des sons pour correction auditive des malentendants
DE19948308C2 (de) * 1999-10-06 2002-05-08 Cortologic Ag Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
DE60104091T2 (de) * 2001-04-27 2005-08-25 CSEM Centre Suisse d`Electronique et de Microtechnique S.A. - Recherche et Développement Verfahren und Vorrichtung zur Sprachverbesserung in verrauschte Umgebung
JP3933909B2 (ja) * 2001-10-29 2007-06-20 日本放送協会 音声/音楽混合比推定装置およびそれを用いたオーディオ装置
US7949522B2 (en) * 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
JP2004341339A (ja) * 2003-05-16 2004-12-02 Mitsubishi Electric Corp 雑音抑圧装置
AU2003904207A0 (en) * 2003-08-11 2003-08-21 Vast Audio Pty Ltd Enhancement of sound externalization and separation for hearing-impaired listeners: a spatial hearing-aid
JP4150798B2 (ja) * 2004-07-28 2008-09-17 国立大学法人徳島大学 デジタルフィルタリング方法、デジタルフィルタ装置、デジタルフィルタプログラム及びコンピュータで読み取り可能な記録媒体
RU52536U1 (ru) * 2005-12-08 2006-03-27 Общество с ограниченной ответственностью "Филком" Цифровой модуль преобразования речи
DE602006005684D1 (de) * 2006-10-31 2009-04-23 Harman Becker Automotive Sys Modellbasierte Verbesserung von Sprachsignalen
JP5141180B2 (ja) * 2006-11-09 2013-02-13 ソニー株式会社 周波数帯域拡大装置及び周波数帯域拡大方法、再生装置及び再生方法、並びに、プログラム及び記録媒体
US8352257B2 (en) * 2007-01-04 2013-01-08 Qnx Software Systems Limited Spectro-temporal varying approach for speech enhancement
ATE514163T1 (de) * 2007-09-12 2011-07-15 Dolby Lab Licensing Corp Spracherweiterung
US8521530B1 (en) * 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal

Also Published As

Publication number Publication date
AU2009278263B2 (en) 2012-09-27
HK1159300A1 (en) 2012-07-27
KR101266894B1 (ko) 2013-05-24
US9064498B2 (en) 2015-06-23
JP5666444B2 (ja) 2015-02-12
US20110191101A1 (en) 2011-08-04
EP2151822A1 (en) 2010-02-10
MX2011001339A (es) 2011-05-10
JP2011530091A (ja) 2011-12-15
CA2732723C (en) 2016-10-11
CN102124518B (zh) 2013-11-06
EP2151822B8 (en) 2018-10-24
RU2507608C2 (ru) 2014-02-20
WO2010015371A1 (en) 2010-02-11
CN102124518A (zh) 2011-07-13
CA2732723A1 (en) 2010-02-11
KR20110044990A (ko) 2011-05-03
RU2011105976A (ru) 2012-08-27
ES2678415T3 (es) 2018-08-10
EP2151822B1 (en) 2018-04-25
AU2009278263A1 (en) 2010-02-11

Similar Documents

Publication Publication Date Title
TR201810466T4 (tr) Özellik çıkarımı kullanılarak konuşmanın iyileştirilmesi için bir ses sinyalinin işlenmesine yönelik aparat ve yöntem.
Tsoukalas et al. Speech enhancement based on audible noise suppression
Ma et al. Objective measures for predicting speech intelligibility in noisy conditions based on new band-importance functions
Paliwal et al. Single-channel speech enhancement using spectral subtraction in the short-time modulation domain
US20190172480A1 (en) Voice activity detection systems and methods
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
Tan et al. Multi-band summary correlogram-based pitch detection for noisy speech
Ganapathy et al. Temporal envelope compensation for robust phoneme recognition using modulation spectrum
Islam et al. Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask
Ben Messaoud et al. A new biologically inspired fuzzy expert system-based voiced/unvoiced decision algorithm for speech enhancement
Ma et al. A modified Wiener filtering method combined with wavelet thresholding multitaper spectrum for speech enhancement
Flynn et al. Combined speech enhancement and auditory modelling for robust distributed speech recognition
Uhle et al. Speech enhancement of movie sound
CN113393852B (zh) 语音增强模型的构建方法及系统、语音增强方法及系统
Tiwari et al. Speech enhancement using noise estimation with dynamic quantile tracking
CN113593604A (zh) 检测音频质量方法、装置及存储介质
Mallidi et al. Robust speaker recognition using spectro-temporal autoregressive models.
Kortlang et al. Single channel noise reduction based on an auditory filterbank
Lu et al. Temporal contrast normalization and edge-preserved smoothing of temporal modulation structures of speech for robust speech recognition
Samui et al. FPGA implementation of a phase-aware single-channel speech enhancement system
Harlander et al. Evaluation of model-based versus non-parametric monaural noise-reduction approaches for hearing aids
Tohidypour et al. New features for speech enhancement using bivariate shrinkage based on redundant wavelet filter-banks
Chatterjee et al. Auditory model based modified MFCC features
Rahali et al. Asr systems in noisy environment: Auditory features based on gammachirp filter using the AURORA database
Upadhyay Iterative-processed multiband speech enhancement for suppressing musical sounds