TR201810466T4 - Özellik çıkarımı kullanılarak konuşmanın iyileştirilmesi için bir ses sinyalinin işlenmesine yönelik aparat ve yöntem. - Google Patents
Özellik çıkarımı kullanılarak konuşmanın iyileştirilmesi için bir ses sinyalinin işlenmesine yönelik aparat ve yöntem. Download PDFInfo
- Publication number
- TR201810466T4 TR201810466T4 TR2018/10466T TR201810466T TR201810466T4 TR 201810466 T4 TR201810466 T4 TR 201810466T4 TR 2018/10466 T TR2018/10466 T TR 2018/10466T TR 201810466 T TR201810466 T TR 201810466T TR 201810466 T4 TR201810466 T4 TR 201810466T4
- Authority
- TR
- Turkey
- Prior art keywords
- feature
- spectral
- frequency band
- band
- frequency
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000005236 sound signal Effects 0.000 title claims abstract description 50
- 238000012545 processing Methods 0.000 title claims abstract description 44
- 238000000605 extraction Methods 0.000 title description 6
- 230000003595 spectral effect Effects 0.000 claims abstract description 211
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000001228 spectrum Methods 0.000 claims description 22
- 230000006872 improvement Effects 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 230000004907 flux Effects 0.000 claims description 13
- 230000008878 coupling Effects 0.000 claims description 11
- 238000010168 coupling process Methods 0.000 claims description 11
- 238000005859 coupling reaction Methods 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 11
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 230000001965 increasing effect Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000002238 attenuated effect Effects 0.000 claims 2
- 238000013528 artificial neural network Methods 0.000 abstract description 23
- 238000004364 calculation method Methods 0.000 description 17
- 238000001914 filtration Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 12
- 210000005036 nerve Anatomy 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 238000012935 Averaging Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005304 joining Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 241001014642 Rasta Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 238000013016 damping Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000013361 beverage Nutrition 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000035876 healing Effects 0.000 description 1
- 210000002364 input neuron Anatomy 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000009830 intercalation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000246 remedial effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000001020 rhythmical effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000005549 size reduction Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Abstract
Konuşma iyileştirme filtresine yönelik kontrol bilgisini elde etmek üzere bir ses sinyalinin işlenmesine yönelik aparat, kısa süreli birçok spektral gösterimin kısa süreli spektral bir gösteriminin birçok frekans bandının her frekans bandı için en az bir özelliğin çıkarılmasına yönelik bir özellik çıkarıcı içerir, burada en az bir özellik, frekans bandındaki kısa süreli spektral gösterimin spektral şeklini temsil eder. Aparat ek olarak, ses sinyalinin zaman parçası için konuşma iyileştirme filtresine yönelik kontrol bilgisini elde etmek üzere birleştirme parametreleri kullanılarak her frekans bandı için en az bir özelliğin birleştirilmesine yönelik bir özellik birleştirici içerir. Özellik birleştirici, sinir ağına yönelik bir eğitim aşamasında belirlenen birleştirme parametrelerine dayalı olan sinir ağı regresyon yöntemini kullanabilir.
Description
TARIFNAME
ÖZELLIK ÇIKARIMI KULLANILARAK KONUSMANIN IYILESTIRILMESI IÇIN
BIR SES SINYALININ ISLENMESINE YÖNELIK APARAT VE YÖNTEM
Ilgili Teknik Alan
Mevcut bulus, ses sinyali isleme alaninda ve özellikle
ses sinyallerinin konusma iyilestirme islemi alaninda
bulunmakta olup, böylece islenmis bir sinyal, gelismis
nesnel veya öznel konusma anlasilabilirligine sahip
konusma içerigine sahip olur.
Bulusun Geçmisi ve Önceki Teknik
Konusma iyilestirme, farkli uygulamalarda uygulanir.
Belirgin bir uygulama, isitme cihazlarinda dijital
sinyal islemenin kullanimidir. Isitme cihazlarinda
dijital sinyal isleme, isitme kusurunun
iyilestirilmesine yönelik yeni, etkili bir yöntemdir.
Daha yüksek akustik sinyal kalitesinden ayri olarak
dijital isitme cihazlari, spesifik konusma isleme
stratejilerinin uygulanmasina olanak saglar. Bu
stratejilerden birçogu için akustik ortamin konusma-
gürültü oraninin (SNR) tahmininin yapilmasi istenir.
Spesifik olarak, konusmanin islenmesine yönelik kompleks
algoritmalarin, spesifik akustik ortamlar için optimize
edildigi uygulamalar göz önünde bulundurulur, ancak bu
tür algoritmalar, spesifik varsayimlari karsilamayan
durumlarda basarisiz olabilir. Bu durum özellikle,
sessiz ortamlarda veya SNR'nin belirli bir esigin
altinda oldugu durumlarda isleme artefaktlari
uygulayabilen gürültü azaltma semalari için dogrudur.
Sikistirma algoritmalari ve kuvvetlendirme
parametrelerine yönelik optimum seçim, konusma-gürültü
oranina bagli olabilir, böylece SNR tahminlerine dayanan
parametre seti adaptasyonu, fayda saglanmasina yardim
eder. Ayrica SNR tahminleri direkt olarak, Wiener
filtrelemesi veya spektral çikarma gibi gürültü azaltma
semalarina yönelik kontrol parametreleri olarak
kullanilabilir.
Diger uygulamalar, bir film sesinin konusma iyilestirme
islemi alaninda yer alir. Birçok kisinin, örnegin
isitme kusurlari nedeniyle bir filmin konusma içerigini
anlamada. problem. yasadigi bulunmustur. Bir filmin
konusunu takip etmek amaciyla örnegin monologlar,
diyaloglar, ilanlar ve anlatimlar olmak üzere müzik
parçasinin ilgili konusmasinin anlasilmasi önemlidir.
Isitme güçlügü çeken kisiler genellikle, arka plan
seslerinin, örnegin çevre gürültüsü ve müzigin konusmaya
göre çok daha yüksek bir seviyede sunulmasi ile karsi
karsiyadir. Bu durumda konusma sinyalleri seviyesinin
arttirilmasi ve arka plan gürültülerinin zayiflatilmasi
veya genel olarak konusma sinyali seviyesinin toplam
seviyeye göre arttirilmasi istenir.
Konusma iyilestirme islemine yönelik önemli bir
yaklasim, Sekil 3'te gösterildigi üzere kisa süreli
spektral zayiflama olarak da refere edilen spektral
agirliklandirmadir. Çikis sinyali (y[k]), alt-bant
sinyallerindeki gürültü enerjisine bagli olarak giris
sinyallerinin (x[k]) alt-bant sinyallerinin (X(m))
zayiflatilmasi yoluyla hesaplanir.
Asagida giris sinyalinin (X[k]), istenen konusma sinyali
(s[k]) ve arka plan gürültüsünün (b[k]) toplamsal
karisimi oldugu varsayilir.
Konusma iyilestirme, konusmanin nesnel
anlasilabilirligindeki ve/Veya öznel kalitesindeki
gelismedir.
Giris sinyalinin frekans alani gösterimi, 30'da
gösterildigi üzere Kisa Süreli Fourier Dönüsümü (STFT),
diger zaman-frekans dönüsümleri veya filtre öbegi
araciligiyla hesaplanir. Giris sinyali akabinde, Denklem
Z'ye göre frekans alaninda filtrelenirken filtrenin
frekans yaniti (G(w)), gürültü enerjisi azaltilacak
sekilde hesaplanir. Giris sinyali, sirasiyla zaman-
frekans dönüsümleri veya filtre öbeginin ters islenmesi
araciligiyla hesaplanir.
Y (60) = G(w)X(a›) (2)
Uygun spektral agirliklar (G(m)), giris sinyali
spektrumu (X(w)) ve gürültü spektrumunun (B^(m)) tahmini
kullanilarak veya esit olarak, dogrusal alt-bant SNR
(R (03)=S^ (w)lB^(w)) tahmini kullanilarak› her spektral
deger için 31'de hesaplanir. Agirliklandirilan spektral
degerler, 32'de tekrar zaman alanina dönüstürülür.
Gürültü baskilama kurallarinin önemli örnekleri,
spektral çikarma [S, Boll, "Suppression of acoustic
noise in speech using spectral subtraction", IEEE Trans.
on :Acoustics, Speech, and Signal Processing, 'vol. 27,
Giris sinyalinin, konusma ve gürültü sinyallerinin
toplamsal karisimi oldugu ve konusma ve gürültünün
iliskili olmadigi varsayildiginda spektral çikarma
yöntemine yönelik kazanini degerleri, Denklem 3'te
Benzer agirliklar, Denkleni 4'e göre dogrusal alt-bant
SNR (R^ (m)) tahmininden elde edilir. Kanal
Spektral çikarmaya yönelik Çesitli uzantilar, diger bir
deyisle asiri çikarma faktörü ve spektral taban
parametreleri [M. Berouti, R. Schwartz, J. Makhoul,
Proc. of the IEEE Int. Conf. on Acoustics, Speech, and
Signal Processing, ICASSP, 1979], genellestirilmis
formlar [J. Lim, A. Oppenheim, "Enhancement and
bandwidth compression of noisy speech", Proc. of the
kriterlerin kullanimi (örnegin Virag, "Single channel
speech enhancement based on nmsking properties of the
human auditory system", IEEE Trans. Speech and Audio
spektral çikarma (örnegin, 8. Kamath, P. Loizou, "A
multi-band spectral subtraction method for enhancing
speech corrupted by colored noise", Proc. of the IEEE
geçmiste önerilmistir. Ancak spektral agirliklandirma
yönteminin, önemli. kismi, özellikle gürültünün, duragan
olmamasi halinde hataya egilimli olan, anlik gürültü
spektrumunun veya alt-bant SNR'nin tahminidir. Gürültü
tahminindeki hatalar, rezidüel gürültüye, konusma
bilesenlerinin bozulmasina veya müzikal gürültüye (“ses
niteligi ile sakima" olarak açiklanmis olan bir artefakt
Press, 2007]) yol açar.
Gürültü tahminine basit bir yaklasim, konusmanin
duraksadigi anlarda gürültü spektrumunun ölçülmesi ve
ortalamasinin alinmasidir. Bu yaklasim, gürültü
spektrumunun, konusma aktivitesi esnasinda zamanla
degismesi halinde ve konusma duraksamalarinin
saptanamamasi halinde tatmin edici sonuçlar vermez.
Konusma aktivitesi esnasinda dahi gürültü spektrumunun
tahmin edilmesine yönelik yöntemler geçmiste
önerilmistir` ve P. Loizou, Speech Enhancement: Theory
and Practice, CRC Press, 2007'ye göre asagidaki sekilde
siniflandirilabilir:
. Zaman tekrarlamali ortalama alma
algoritmalari
. Histograma dayali algoritmalar
Minimum istatistigin kullanildigi gürültü spektrumü
tahmini, R. Martin, "Spectral subtraction based on
minimum statistics", Proc. of EUSIPCO, Edingburgh, UK,
1994'te önerilmistir. Bu yöntem, her alt-banttaki sinyal
enerjisinin yerel minimalinin izlenmesine dayalidir.
Gürültü tahminine ve daha hizli güncellemeye yönelik
dogrusal olmayan bir güncelleme kurali, G. Doblinger,
Spectral Minima Tracking In Subbands", Proc. of
Eurospeech, Madrid, Spain, 1995'te önerilmistir.
Zaman tekrarlamali ortalama alma algoritmalari, belirli
bir frekans bandindaki tahmin edilen SNR'nin çok düsük
oldugu bir zamanda gürültü spektrumunu tahmin eder ve
günceller. Bu, örnegin I. Cohen, "Noise estimation by
minima controlled recursive averaging for robust speech
enhancement", IEEE Signal Proc. Letters, vol. 9, no. 1,
pp. 12-15, 2002'de ve L. Lin, W. Holmes, E.
Ambikairajah, “Adaptive noise estimation algorithm. for
speech enhancement", Electronic Letters, vol. 39, no. 9,
simdiki spektrumun agirliklandirilmis ortalamasinin
tekrarli olarak hesaplanmasi yoluyla yapilir.
Agirliklar, konusmanin bulunma olasiliginin bir
fonksiyonu olarak veya belirli frekans bandindaki tahmin
edilen SNR'nin fonksiyonu olarak belirlenir.
Histograma dayali yöntemler, alt-bant enerjisine ait
histogramin genellikle çift modlu olmasi varsayimina
dayanir. Büyük bir düsük enerjili mod, konusma içermeyen
veya konusmanin düsük enerjili segmentlerini içeren
segmentlerin enerji degerlerini biriktirir. Yüksek
enerjili mod, sesli konusma ve gürültü içeren
segmentlerin enerji degerlerini biriktirir. Belirli bir
alt-banttaki gürültü enerjisi, düsük enerjili moddan
belirlenir [H. Hirsch, C. Ehrlicher, "Noise estimation
techniques for robust speech recognition", Proc. of the
Processing, ICASSP, Detroit, USA, 1995]. Son yapilan
kapsamli bir inceleme için P. Loizou, Speech
Enhancement: Theory and Practice, CRC Press, 2007'ye
basvurulur.
Genlik modülasyonu özelliklerinin kullanildigi gözetimli
ögrenmeye dayali alt-bant SNR'nin tahminine yönelik
yöntemler, J. Tchorz, B. Kollmeier, "SNR Estimation
based on amplitude modulation analysis with applications
to noise suppression", IEEE Trans. On Speech and Audio
Kleinschmidt, V. Hohmann, "Sub-band SNR estimation using
auditory feature processing", Speech Communication:
Special Issue on Speech Processing for Hearing Aids,
Konusma iyilestirmeye yönelik diger yaklasimlar, perde-
senkronize filtreleme (örnegin, R. Frazier, S. Samsam,
L. Braida, A. Oppenheim, "Enhancement of speech by
adaptive filtering", Proc. of the IEEE Int. Conf. on
Acoustics, Speech, and Signal Processing, ICASSP,
Philadelphia, USA, 1976'da), Spektro Zamansal
Modülasyonu (STM) (örnegin, N. Mesgarani, S. Shamma,
temporal modulations", Proc. of the IEEE Int. Conf. on
Acoustics, Speech, and Signal Processing, ICASSP,
Philadelphia, USA, 2005'te) ve giris sinyalinin
sinüzoidal model gösterimine dayali filtrelemedir
(örnegin, J. Jensen, J. Hansen, "Speech enhancement
using› a constrained. iterative sinusoidal model", IEEE
Trans. on Speech and Audio Processing, vol. 9, no. 7,
J. Tchorz, B. Kollmeier, "SNR Estimation based on
amplitude modulation analysis with applications to noise
suppression", IEEE Trans. On Speech and Audio
Kleinschmidt, V. Hohmann, "Sub-band SNR estimation using
auditory feature processing", Speech Communication:
Special Issue on Speech Processing for Hearing Aids,
modülasyonu özelliklerinin kullanildigi gözetimli
ögrenmeye dayali alt-bant SNR'nin tahminine yönelik
yöntemler, iki spektrogram isleme adiminin gerekli
olmasi bakimindan dezavantajlidir. Birinci spektrogram
isleme adimi, zaman-alani ses sinyalinin. zaman/frekans
spektrograminin olusturulmasidir. Akabinde, modülasyon
spektrograminin olusturulmasi amaciyla spektral alandan
alinan spektral bilgileri modülasyon alanina dönüstüren
bir baska “zaman/frekans” dönüsümünün yapilmasi gerekir.
Dogal sistematik gecikme ve herhangi bir dönüstürme
algoritmasi için dogal olan zaman/frekans çözünürlügü
nedeniyle bu ek dönüsüm islemi problemlere neden olur.
Bu prosedürün ek sonucu, gürültü tahminlerinin,
gürültünün duragan olmadigi ve çesitli gürültü
sinyallerinin meydana geldigi durumlarda çok dogru
olmamasidir.
in Speaker Recognition", J.P. Openshaw et al.,
proceedings of the International Conference on
Acoustics, Speech, and Signal Processing, New York,
özellikleri ve bunlarin, model ve test gürültü kosullari
arasindaki gürültü uyusmazligina duyarliliklarini
açiklar. Konusmaciyi tanima, özellik degisikliklerine
çok duyarli olmasi nedeniyle performans degerlendirmesi
için kullanilir. En önemli özellikler, RASTA ve birinci
dereceden regresyon uzantilari ile birlikte MFCC ve PLP
olarak kabul edilir.
Processing", Michael Kleinschmidt et al., Speech
Communication, vol. 39, No. 1-2, January 1, 2003, pages
(ASR) bilinen yöntemlere dayali olan ayri frekans
bantlarinda uzun süreli konusma-gürültü oraninin (SNR)
tahmin edilmesine yönelik bir kavrami açiklar. Bir
isitme algisi modeli, ön uç olarak kullanilir. .Ayrica
fizyolojik ve fiziko-akustik olarak motive edilen sigma-
pi hücreleri, ikincil özellikler olarak. kullanilir ve
dogrusal veya dogrusal olmayan bir sinir agi,
siniflandirici olarak kullanilir. Yaklasim sadece, yavas
spektro-zamansal modülasyonlara dayalidir. Bu amaçla bir
algi modeline dayali olan spektro-zamansal gösterim
olusturulur. Bir modülasyon spektrogrami hesaplanir, lO
ms'lik güç ortalama degerleri, referans özellik çikarimi
olarak gama ton filtre öbeginden elde edilir. Sigma-pi
hücreleri, izole sözcük tanimaya yönelik kritik bant
spektrogramlarina dayali ikincil özellikler olarak
kullanilir.
Mevcut bulusun amaci, konusma iyilestirmeye yönelik
gelismis bir kavram saglamaktir.
Bu amaca, istem l'e göre bir ses sinyalinin islenmesine
yönelik aparat, istem 9'a göre bir ses sinyalini isleme
yöntemi, istem lO'a göre bir ses sinyalinin konusma
iyilestirme islemine tabi tutulmasina yönelik bir
aparat, istem 12'ye göre konusma iyilestirme yöntemi,
istem 13'e göre bir özellik birlestiricinin egitilmesine
yönelik aparat, istem 14'e göre bir özellik
birlestiricinin egitilmesine yönelik yönteni veya istem
'e göre bir bilgisayar programi ile ulasilir.
Birinci açiya göre bu amaca, istem l'e göre bir konusma
iyilestirme filtresine yönelik her alt bant için kontrol
bilgisini elde etmek üzere bir ses sinyalinin
islenmesine yönelik aparat ile ulasilir. Ikinci açiya
göre bu amaca, isteni 9'a göre bir konusma iyilestirme
filtresine yönelik her alt bant için kontrol bilgisini
elde etmek üzere bir ses sinyalinin islenmesine yönelik
yöntem ile ulasilir. Üçüncü açiya göre bu amaca, istem
'a göre bir ses sinyalinde konusmanin
iyilestirilmesine yönelik bir aparat ile ulasilir.
Dördüncü açiya göre bu amaca, istem 12'ye göre bir ses
sinyalinde konusmanin iyilestirilmesine yönelik bir
yöntem ile ulasilir. Besinci açiya göre bu amaca, istem
13'e göre özellik birlestiricinin birlestirme
parametrelerinin belirlenmesi amaciyla bir özellik
birlestiricinin egitilmesine yönelik aparat ile
ulasilir. Altinci açiya göre bu amaca, istem 14'e göre
özellik birlestiricinin birlestirme parametrelerinin
belirlenmesi amaciyla bir özellik birlestiricinin
egitilmesine yönelik yöntem ile ulasilir. Yedinci açiya
göre bu amaca, bir bilgisayarda çalistirildiginda bulus
yöntemlerinden herhangi birinin gerçeklestirilmesine
yönelik bir bilgisayar programi ile ulasilir.
Mevcut bulus, spesifik bant içindeki ses sinyalinin
spektral sekli ile ilgili bant odakli bilginin, bir
konusma iyilestirme filtresi için kontrol bilgisinin
belirlenmesine yönelik çok faydali bir parametre olmasi
bulgusuna dayanir. Spesifik olarak birçok bant ve
akabindeki birçok kisa süreli spektral gösterim için
banda göre belirlenen spektral sekil bilgisi özelligi,
ses sinyalinin konusma iyilestirme islemesi için ses
sinyalinin faydali özellik açiklamasini saglar. Spesifik
olarak, her spektral sekil özelliginin, Bark bantlari
veya genel olarak frekans araligi boyunca degisken bir
bant genisligine sahip banlar gibi birçok spektral
bandin bir bandi ile iliskili oldugu bir dizi spektral
sekil özelligi halihazirda, her bant için sinyal/gürültü
oranlarinin belirlenmesine yönelik faydali bir özellik
dizisini saglar. Bu amaçla birçok banda yönelik spektral
sekil özellikleri, her bant için ses sinyalinin zaman
parçasina yönelik konusma iyilestirme filtresine yönelik
kontrol bilgisini elde etmek üzere birlestirme
parametreleri kullanilarak bu özelliklerin
birlestirilmesi için bir özellik birlestirici
araciligiyla islenir. Tercihen özellik birlestirici,
birçok birlestirme parametresi ile kontrol edilen bir
sinir agini içerir, bu birlestirme parametreleri,
konusma iyilestirme filtrelemesinin gerçekten
gerçeklestirilmesinden önce yapilan bir egitim
asamasinda belirlenir. Spesifik olarak bu sinir agi,
sinir* agi regresyon yöntemini gerçeklestirir. Spesifik
bir avantaj, birlestirme parametrelerinin, konusmanin
iyilestirildigi gerçek ses materyalinden farkli olabilen
ses materyali kullanilarak egitim asamasinda
belirlenebilmesidir, böylece egitim asamasinin sadece
tek bir zamanda gerçeklestirilmesi gerekir ve bu egitim
asamasindan sonra birlestirme parametreleri sabit bir
sekilde ayarlanir ve egitini sinyallerinin konusma
karakteristigi ile karsilastirilabilen bir konusmaya
sahip bilinmeyen her ses sinyaline uygulanabilir. Bu tür
bir` konusma karakteristigi örnegin, bir` dil veya Asya
dillerine karsi Avrupa dilleri ve :benzeri gibi diller
grubu olabilir.
Tercihen bulus kavrami, özellik çikarimini ve sinir
aglarini kullanarak konusmanin karakteristiklerini
ögrenme yoluyla gürültüyü tahmin eder, burada özgün bir
sekilde çikarilan özellikler, etkili ve kolay bir
sekilde çikarilabilen ve önemli oldugu üzere sisteme
özgü büyük bir gecikme olmaksizin çikarilabilen dogru,
düsük seviyeli spektral özelliklerdir, böylece bulus
kavrami spesifik olarak, gürültünün duragan olmadigi ve
çesitli gürültü sinyallerinin meydana geldigi bir
durumda dahi dogru gürültü veya SNR tahminin saglanmasi
için faydali olur.
Sekillerin Kisa Açiklamasi
Mevcut bulusun tercih edilen düzenlemeleri buradan sonra
ekteki sekiller referans alinarak daha detayli bir
sekilde açiklanmaktadir, burada:
Sekil 1, bir ses sinyalinin islenmesi için tercih edilen
bir aparat veya yöntemin blok diyagramidir;
Sekil 2, mevcut bulusun tercih edilen bir düzenlemesine
göre bir özellik birlestiricinin egitilmesine
yönelik bir aparat veya yöntemin blok
diyagramidir;
Sekil 3, mevcut bulusun tercih edilen bir düzenlemesine
göre bir konusma iyilestirme aparati ve yöntemi
için blok diyagramdir;
Sekil 4, bir özellik birlestiricinin egitilmesine ve
optimize birlestirme parametreleri kullanilarak
bir sinir agi regresyonunun uygulanmasina
yönelik prosedüre genel bakisi gösterir;
Sekil 5, SNR fonksiyonu olarak kazanim faktörünü
gösteren bir grafiktir, burada uygulanan
kazanimlar (düz çizgi), spektral çikarma
kazanimlari (noktali çizgi) ve Wiener filtresi
(kesikli çizgi) ile karsilastirilir;
Sekil 6, frekans bandi basina düsen özelliklere ve tam
bant genisligi için tercih edilen ek
özelliklere genel bakistir;
Sekil 7, özellik çikaricinin tercih edilen uygulamasini
gösteren akis semasidir;
Sekil 8, frekans degeri basina düsen kazanim faktörleri
hesabinin ve akabindeki konusmasi
iyilestirilmis ses sinyali parçasi hesabinin
tercih edilen uygulanmasini gösteren akis
semasini gösterir;
Sekil 9, spektral agirliklandirmanin› bir örnegini
gösterir, burada giris zaman sinyali, tahmin
edilen alt-bant SNR, ara degerleme sonrasinda
frekans binlerindeki tahmin edilen SNR,
spektral agirliklar` ve islenmis zaman sinyali
gösterilir ve
Sekil 10, çok katmanli sinir aginin kullanildigi özellik
birlestiricinin tercih edilen uygulamasinin
sematik blok diyagramidir.
Tercih Edilen Düzenlemelerin Detayli Açiklamasi
Sekil 1, bir konusma iyilestirme filtresine (12) yönelik
kontrol bilgisini (ll) elde etmek üzere ses sinyalinin
(lO) islenmesi için tercih edilen bir aparati gösterir.
Konusma iyilestirme filtresi, konusmasi iyilestirilmis
ses çikis sinyalini (13) elde etmek amaciyla birçok
frekans bandindan her biri için frekans bandi basina
düsen kontrol bilgisi kullanilarak ses sinyalinin (10)
filtrelenmesine yönelik kontrol edilebilir bir filtre
gibi birçok sekilde uygulanabilir. Sonradan gösterildigi
üzere kontrol edilebilir filtre ayni zamanda,
zaman/frekans dönüsümü olarak. da uygulanabilir, burada
ayri olarak hesaplanan kazanim faktörleri, spektral
degerlere veya spektral bantlara uygulanir, akabinde
frekans/zaman dönüsümü gerçeklestirilir.
Sekil 1'deki aparat, ses sinyalinin kisa süreli spektral
gösterimlerinin zaman sirasinin elde edilmesine ve en az
bir özelligin, birçok frekans bandinin bir frekans
bandindaki kisa süreli spektral bir gösterimin spektral
seklini temsil ettigi kisa süreli birçok spektral
gösterime yönelik birçok frekans bandinin her frekans
bandindaki en az bir özelligin çikarilmasina yönelik bir
özellik çikariciyi (14) içerir. Ek olarak özellik
çikarici (14), spektral sekil özelliklerinden ayri olan
diger özellikleri çikarmak amaciyla uygulanabilir.
Özellik çikaricinin (14) çikisinda her kisa süreli ses
spektrumu için birkaç özellik bulunur, burada bu birkaç
özellik en azindan, en az 10 veya tercihen 20 ila 30
gibi daha fazla olan birçok frekans bandinin her frekans
bandina yönelik bir spektral sekil özelligini içerir. Bu
özellikler olduklari gibi kullanilabilir veya her bant
için, bu ham ve/veya ortalamasi alinmis özellikler, bir
özellik birlestiriciye (15) girilecek› sekilde bir ham
özellik veya ortalamasi alinmis özellik elde etmek
amaciyla ortalama isleme veya geometrik ortalama veya
aritmetik ortalama veya medyan isleme veya diger
istatistiksel moment isleme (varyans, çarpiklik ve
benzeri gibi) gibi diger herhangi bir isleme
kullanilarak islenebilir. Özellik birlestirici (15), bir
birlestirme parametresi girisi (16) araciligiyla
saglanabilen veya birlestirme parametresi girisi (16)
gerekli olmayacak sekilde özellik birlestirici (15)
içinde donanimla bütünlesik veya keskin programlanmis
olan birlestirme parametrelerini kullanarak birçok
spektral sekil özelligini ve tercihen ek özellikleri
birlestirir. Özellik. birlestiricinin çikisinda, birçok
frekans bandinin veya birçok alt-bandin her frekans
bandi veya “alt-bandi” için konusma iyilestirme
filtresine yönelik kontrol bilgisi, ses sinyalinin zaman
parçasi için elde edilir.
Tercihen özellik birlestirici (15), bir sinir agi
regresyon devresi olarak uygulanir, ancak özellik
birlestirici ayni zamanda, herhangi bir birlestirme
islemini, özellik çikarici (14) tarafindan saglanan
özelliklere uygulayan sayisal veya istatistiksel olarak
kontrol edilen diger herhangi bir özellik birlestirici
olarak da uygulanabilir, böylece sonuçta bant odakli SNR
degeri veya bant odakli kazanim faktörü gibi gerekli
kontrol bilgisi ortaya çikar. Bir sinir agi
uygulamasinin tercih edilen düzenlemesinde bir egitim
asamasi (“egitim asamasi”, örneklerden ögrenmenin
gerçeklestirildigi bir asama anlamina gelir) gereklidir.
Bu egitim asamasinda Sekil 2'de gösterildigi üzere bir
özellik birlestiricinin (15) egitilmesine yönelik bir
aparat kullanilir. Spesifik olarak Sekil 2, özellik
birlestiricinin birlestirme parametrelerinin
belirlenmesi için bir özellik birlestiricinin (15)
egitilmesine yönelik bu aparati gösterir. Bu amaçla
Sekil 2'deki aparat, tercihen Sekil 1'deki özellik
çikarici (14) ile ayni sekilde uygulanan özellik
çikariciyi (14) içerir. Ayrica özellik birlestirici (15)
ayni zamanda, Sekil 1'deki özellik birlestirici (15) ile
ayni sekilde uygulanir.
Sekil 1'e ek olarak Sekil 2'deki aparat, giris olarak
21'de gösterilen egitici bir ses sinyaline yönelik
kontrol bilgisini alan bir optimizasyon denetleyiciyi
(20) içerir. Egitim asamasi, her bantta bilinen bir
konusma/gürültü oranina sahip bilinen egitici ses
sinyallerine dayali olarak gerçeklestirilir. Konusma
parçasi ve ses parçasi örnegin, birbirinden ayri olarak
saglanir ve bant basina düseni gerçek SNR, çalisirken
yani, ögrenme islemi esnasinda ölçülür. Spesifik olarak
optimizasyon denetleyici (20), özellik birlestiriciyi
kontrol edecek sekilde çalisir, böylece özellik
birlestirici, özellik çikaricidan (14) gelen özellikler
ile beslenir. Bu özelliklere ve önceki tekrarlama
isleminden gelen ara birlestirme parametrelerine dayali
olarak özellik birlestirici (15) akabinde kontrol
bilgisini (11) hesaplar. Bu kontrol bilgisi (11),
optimizasyon denetleyiciye iletilir ve optimizasyon
denetleyicide (20) egitici ses sinyaline yönelik kontrol
bilgisi (21) ile karsilastirilir. Ara birlestirme
parametreleri, optimizasyon denetleyiciden (20) gelen
bir komuta yanit olarak degistirilir ve bu degistirilmis
birlestirme parametreleri kullanilarak kontrol
bilgisinin diger bir dizisi, özellik birlestirici (15)
tarafindan hesaplanir. Diger kontrol bilgisi, egitici
ses sinyaline (21) yönelik kontrol bilgisi ile daha iyi
eslestiginde optimizasyon denetleyici (20), birlestirme
parametrelerini günceller ve bu güncellenmis birlestirme
parametrelerini (16) ara birlestirme parametreleri
olarak bir sonraki islemde kullanilmak üzere özellik
birlestiriciye gönderir. Alternatif veya ek olarak
güncellenmis birlestirme parametreleri, ileride
kullanilmak üzere bir bellekte saklanabilir.
Sekil 4, sinir agi regresyon yönteminde özellik çikarimi
kullanilarak spektral agirliklandirma islemesinin genel
bakisini gösterir. Sinir aginin parametreleri (w),
referans alt-bant SNR degerleri (Rt) ve Sekil 4'te sol
tarafta gösterilen egitim asamasi esnasinda egitici
ögelerden (xt [k]) elde edilen özellikler kullanilarak
hesaplanir. Gürültü tahmini ve konusma iyilestirme
filtrelemesi, Sekil 4'te sag tarafinda gösterilir.
Önerilen kavram, spektral agirliklandirma yaklasimini
izler ve spektral agirliklarin hesaplanmasina yönelik
yeni bir yöntemi kullanir. Gürültü tahmini, gözetimli
ögrenme yöntemine dayalidir ve bulusun özellik dizisini
kullanir. Özellikler, gürültülü sinyal bilesenlerine
karsi ses ayrimini amaçlar. Ek olarak önerilen
özellikler, sinyal özelliklerinin evrimini daha genis
bir zaman ölçeginde hesaba katar.
Burada sunulan gürültü tahmini yöntemi, duragan olmayan
Çesitli arka plan seslerini ele alabilir. Duragan
olmayan arka plan gürültüsünde saglam bir SNR tahmini,
Sekil 4'te gösterildigi üzere özellik çikarimi ve sinir
agi regresyon yöntemi araciligiyla elde edilir. Reel
degerli agirliklar, araliginin Bark ölçegine yaklastigi
frekans bantlarindaki SNR tahminlerinden hesaplanir. SNR
tahmininin spektral çözünürlügü, bir banttaki spektral
bir seklin ölçümünü saglamak üzere oldukça yüzeyseldir.
Sekil 4'ün sol tarafi, temel olarak sadece bir kez
gerçeklestirilmesi gereken bir egitim asamasina karsilik
gelir. Egitim (41) olarak gösterilen Sekil 4'ün sol
tarafindaki prosedür, Sekil 2'deki optimizasyon
denetleyiciye (20) egitici ses sinyali girisine yönelik
kontrol bilgisini (21) olusturan referans SNR hesaplama
blogunu (21) içerir. Egitim tarafinda Sekil 4'teki
özellik çikarim cihazi (14), Sekil 2'deki özellik
çikariciya (14) karsilik gelir. Özellikle Sekil 2, bir
konusma parçasi ve bir arka plan parçasindan olusan
egitici ses sinyalini almak üzere gösterilmistir.
Faydali bir referans gerçeklestirebilmek amaciyla arka
plan parçasi (bt) ve konusma parçasi (st), birbirinden
ayri olarak. bulunur ve özellik çikarim. cihazina (14)
girilmeden önce bir ekleyici (43) araciligiyla eklenir.
Dolayisiyla ekleyicinin (43) çikisi, Sekil 2'deki
özellik çikariciya (14) girilen egitici ses sinyaline
karsilik gelir.
, 20'de gösterilen sinir agi egitim cihazi, bloklara
(15 ve 20) karsilik gelir ve Sekil 2'de gösterilen veya
diger benzer baglantilar yoluyla uygulanan ilgili
baglanti, bellekte (40) saklanabilen bir dizi
birlestirme parametresi (w) ile sonuçlanir. Bu
birlestirme parametreleri akabinde, bulus kavrami, Sekil
4'teki uygulama (42) araciligiyla gösterilen sekilde
uygulandiginda Sekil 1'deki özellik birlestiriciye (15)
karsilik gelen sinir agi regresyon cihazinda (15)
kullanilir. Sekil 4'teki spektral agirliklandirma
cihazi, Sekil 1'deki kontrol edilebilir filtreye (12)
karsilik gelir ve Sekil 4'te sag taraftaki özellik
çikarici (14), Sekil 1'deki özellik çikariciya (14)
karsilik gelir.
Asagida, önerilen kavramin kisa gerçeklestirilme islemi
detayli olarak açiklanacaktir. Sekil 4'teki özellik
çikarim cihazi (14) asagidaki sekilde çalisir.
21 farkli özelligin bir dizisi, alt-bant SNR tahmini
için en iyi özellik dizisinin tanimlanmasi amaciyla
arastirilmistir. Bu özellikler, çesitli
konfigürasyonlarda birlestirilmistir ve öznel ölçümler
ve resmi olmayan dinleme araciligiyla
degerlendirilmistir. Özellik seçim prosesi, spektral
enerji, spektral aki, spektral düzlük, spektral
çarpiklik, LPC ve RASTA-PLP katsayilarini içeren bir
özellik dizisi ile sonuçlanir. Spektral enerji, akis,
düzlük. ve çarpiklik. özellikleri, kritik. bant ölçegine
karsilik gelen spektral katsayidan hesaplanir.
Özellikler, Sekil 6'ya iliskin olarak
detaylandirilmaktadir. Ek özellikler, spektral enerjinin
delta özelligi ve alçak geçisli filtreden geçirilmis
spektral enerjinin› ve spektral akinina delta-delta
Özelligidir.
Sekil 4'teki bloklarda (15, 20 veya 15)kullanilan veya
tercihen Sekil 1 veya Sekil 2'deki özellik
birlestiricide (15) kullanilan sinir aginin yapisi,
Sekil 10 ile baglantili olarak açiklanir. Özellikle,
tercih edilen sinir agi, giris nöronlarinin (100) bir
katmanini içerir. Genel olarak n sayida giris siniri
yani, her giris özelligi için bir sinir kullanilir.
Tercihen sinir agi, özelliklerin sayisina karsilik gelen
220 giris sinirine sahiptir. Sinir agi ayrica, p sayida
gizli katman siniri olan gizli bir katmani (102) içerir.
Genel olarak p, n'den daha küçüktür' ve tercih edilen
düzenlemede gizli katman, 50 sinire sahiptir. Çikis
tarafinda sinir agi, q sayida çikis siniri olan bir
çikis katmanini (104) içerir. Özellikle çikis
sinirlerinin sayisi, frekans bantlarinin sayisina
esittir, böylece çikis siniri, her frekans bandi için
bir SNR (Konusma-Gürültü Orani) gibi her frekans bandi
için kontrol bilgisi saglar. Örnegin tercihen düsükten
yüksek frekanslara dogru artan bir bant genisligine
sahip 25 farkli frekans bandinin bulunmasi halinde çikis
sinirlerinin sayisi (q), 25'e esit olacaktir.
Dolayisiyla sinir agi, hesaplanan düsük seviyeli
özelliklerden alt-bant SNR tahmini için uygulanir. Sinir
agi, yukarida belirtildigi üzere 220 giris sinirine ve
50 siniri olan gizli bir katmana (102) sahiptir. Çikis
sinirlerinin sayisi, frekans bantlarinin sayisina
esittir. Tercihen gizli sinirler, hiperbolik tanjant
olan aktivasyon fonksiyonunu içerir ve çikis
sinirlerinin aktivasyon fonksiyonu, kimliktir.
Genel olarak katmandan (102 veya 104) gelen her sinir,
katmana (102) göre tüm giris sinirlerinin Çikislari olan
ilgili tüm girisleri alir. Akabinde katmanin (102 veya
104) her siniri, agirliklandirma parametrelerinin,
birlestirme parametrelerine karsilik geldigi
agirliklandirilmis ekleme islemini gerçeklestirir. Gizli
katman, parametrelere ek olarak yanlilik degerlerini
içerebilir. Akabinde yanlilik degerleri ayni zamanda
birlestirme parametrelerine aittir. Özellikle her giris,
karsilik gelen birlestirme parametresi ile
agirliklandirilir ve Sekil 10'daki örnek kutu (106) ile
gösterilen agirliklandirma isleminin çikisi, her sinir
içindeki ekleyiciye (108) girilir. Ekleyicinin çikisi
veya bir sinire giris, duruma göre örnegin gizli
katmanda bir sinirin çikisina ve/veya girisine
yerlestirilebilen dogrusal olmayan bir fonksiyonu (110)
içerebilir.
Sinir aginin agirliklari, referans SNR'sinin ayrilan
sinyaller kullanilarak hesaplandigi arka plan
gürültüleri ve temiz konusma sinyallerinin
karisimlarinda egitilir. Egitim prosesi, Sekil 4'ün sol
tarafindan gösterilir. Konusma ve gürültü, her öge için
3 dB'lik bir SNR ile karistirilir ve özellik çikarimina
beslenir. Bu SNR zaman içinde ve genis bant SNR degeri
boyunca sabittir. Veri dizisi, her birinin 2.5 saniye
uzunlugunda oldugu 48 gürültü sinyalinin ve 48 konusma
sinyalinin 2304 kombinasyonunu içerir. Konusma
sinyalleri, 7 dile sahip farkli konusmacilardan
olusmustür. Gürültü sinyalleri, trafik gürültüsü,
kalabalik gürültüsü ve çesitli dogal atmosferlere ait
kayitlardir.
Belirli bir spektral agirliklandirma kurali için sinir
aginin çikisina ait iki tanim uygundur: Sinir agi,
zamanla degisen alt-bant SNR (R(w)) için referans
degerler kullanilarak veya spektral agirliklar (G(w))
(SNR degerlerinden elde edilmistir) ile egitilebilir.
Referans degerleri olarak alt-bant SNR ile yapilan
simülasyonlar, resmi olmayan dinlemede spektral
agirliklar ile egitilen aglara göre daha iyi nesnel
sonuçlar ve daha iyi dereceler vermistir. Sinir agi, lOO
tekrar döngüsü kullanilarak egitilir. Bu çalismada
ölçekli eslenik azaltmalara dayali olan bir egitim
algoritmasi kullanilir.
Spektral agirliklandirma isleminin (12) tercih edilen
düzenlemeleri, sonra açiklanacaktir.
Tahmin edilen alt-bant SNR tahminleri, giris
spektrumlarinin frekans çözünürlügüne dogrusal olarak
ara degerlenir ve dogrusal oranlara (RA) dönüstürülür.
Dogrusal alt-bant SNR, tahmin hatalarindan
kaynaklanabilen artefaktlari azaltmak amaciyla IIR alçak
geçisli filtreleme kullanilarak zaman boyunca ve frekans
boyunca düzgünlestirilir. Frekans boyunca alçak geçisli
filtrelemeye ayrica, spektral agirliklandirmanin dürtü
yanitinin, DFT çerçevelerinin uzunlugunu asmasi halinde
görülen dairesel konvolüsyonun etkisini azaltmak
amaciyla gerek duyulur. Iki kez gerçeklestirilirken
ikinci filtreleme, elde edilen filtre sifir fazlara
sahip olacak sekilde ters sirada (son numuneden
baslanarak) yapilir.
Sekil 5, SNR'nin bir fonksiyonu olarak kazanim faktörünü
gösterir. Uygulanan kazanini (düz çizgi), spektral
tabiiyet kazanimlari (noktali çizgi) ve Wiener filtresi
(kesikli çizgi) ile karsilastirilir.
Spektral agirliklar, Denklem 5'teki modifiye spektral
çikarma kuralina göre hesaplanir` ve -l8 dB ile
Sinirlandirilir.
d=3.5 ve ß=l parametreleri, deneysel olarak belirlenir.0
dB'lik SNR üzerindeki bu özel zayiflatma, rezidüel
gürültü pahasina konusma sinyalindeki bozulmalari
engellemek amaciyla seçilir. SNR fonksiyonu olarak
zayiflama egrisi, Sekil 5'te gösterilir.
Sekil 9, giris ve çikis sinyalleri, tahmin edilen alt-
bant SNR ve spektral agirliklara yönelik bir örnegi
gösterir.
Spesifik olarak Sekil 9, spektral agirliklandirma
örnegine sahiptir: Giris zaman sinyali, tahmin edilen
alt-bant SNR, ara degerleme sonrasi frekans binlerinde
tahmin edilen SNR, spektral agirliklar ve islenmis zaman
sinyali.
Sekil 6, özellik çikarici (14) tarafindan çikarilacak
tercih edilen ozelliklere genel bakisi gösterir. Özellik
çikarici, her düsük çözünürlük için bir frekans bandini,
yani bir SNR veya kazanim degerinin gerekli oldugu 25
frekans bandindan her biri için frekans bandindaki kisa
süreli spektral gösterimin spektral seklini temsil eden
bir özelligi tercih eder. Banttaki spektral sekil,
enerjinin bant içindeki dagilimini temsil eder ve birkaç
farkli hesaplama kurali ile uygulanabilir.
Tercih edilen spektral bir sekil özelligi, spektral
degerlerin aritmetik ortalamasina bölünen spektral
degerlerin geometrik ortalamasi olan spektral düzlük
ölçüsüdür (SFM). Geometrik ortalama/aritmetik ortalama
taniminda n. kök isleminin veya ortalama alma isleminin
yapilmasindan önce banttaki her spektral degere bir
kuvvet uygulanabilir.
Genel olarak, spektral düzlük ölçüsü ayni zamanda,
paydada SFM için hesaplama formülündeki her spektral
degerin islenmesine yönelik kuvvet, pay için kullanilan
kuvvetten daha yüksek oldugunda da hesaplanabilir.
Akabinde hem payda hem de pay, aritmetik deger hesaplama
formülünü içerebilir. Örnek olarak paydaki kuvvet 2'dir
ve paydadaki kuvvet l'dir. Genel olarak genellestirilmis
bir spektral düzlük ölçüsünü elde etmek amaciyla payda
kullanilan kuvvetin sadece, paydada kullanilan kuvvetten
daha fazla olmasi gerekir.
Bu hesaplamadan enerjinin, tüm frekans bandi boyunca
esit olarak dagitildigi bir banda yönelik SFM'nin l'den
küçük oldugu ve birçok frekans hatti için O'a yakin
küçük degerlere yaklasirken enerjinin, bir bant içinde
tek bir Spektral degerde yogunlastigi durumda örnegin
SFM degerinin 1'e esit oldugu anlasilmaktadir.
Dolayisiyla yüksek bir SFM degeri, enerjinin, bant
içindeki belirli bir pozisyonda yogunlastigi bir bandi
gösterirken küçük bir SFM degeri, enerjinin, bant içinde
esit sekilde dagitildigini gösterir.
Diger Spektral sekil özellikleri, kütle merkezi
etrafindaki dagilimin asimetrisini ölçen Spektral
çarpikligi içerir. Belirli bir frekans bandi içindeki
kisa süreli frekans gösteriminin Spektral sekli ile
ilgili diger özellikler mevcuttur.
Spektral sekil, bir frekans bandi için hesaplanirken
Sekil 6'da gösterildigi ve asagida detayli olarak
açiklandigi üzere bir frekans bandi için hesaplanan
diger özellikler de mevcuttur. Ve ayni zamanda, bir
frekans bandi için hesaplanmasina gerek olmayan ancak
tam bant genisligi için hesaplanan ek özellikler de
mevcuttur.
Spektral enerji
Spektral enerji, her zaman çerçevesi ve frekans bandi
için hesaplanir ve çerçevenin toplam enerjisi ile
normalize edilir. Ek olarak Spektral enerji, ikinci
dereceden IIR filtresi kullanilarak zaman içinde alçak
geçisli filtreden geçirilir.
Spektral aki
Spektral aki (SF), ardisik çerçevelerin (20)
spektrumlari arasindaki benzersizlik olarak tanimlanir
ve siklikla, bir uzaklik fonksiyonu araciligiyla
uygulanir. Bu çalismada spektral aki, sirasiyla spektral
katsayilar (XKm,k)), zaman çerçevesi indeksi (m), alt-
bant indeksi (r), frekans bandinin alt ve üst siniri (lr
ve ur) ile Denklem 6'ya göre Öklid uzakligi kullanilarak
hesaplanir.
Spektral düzlük ölçüsü
Bir vektörün düzlügünün veya bir spektrumun
tonalitesinin (bir spektrumun düzlügü ile ters
iliskilidir) hesaplanmasina yönelik. çesitli tanimlar
mevcuttur. Burada kullanilan spektral düzlük Ölçüsü
(SFM), Denklem 7'de gösterildigi üzere alt-bant
sinyalinin L spektral katsayilarinin geometrik
ortalamasi ve aritmetik ortalamasinin orani olarak
hesaplanir.
(212,, !030X (m.q)|))/L
Spektral çarpiklik
Bir dagilimin çarpikligi, kütle merkezi etrafindaki
asimetrisini ölçer ve standart sapmasinin küpüne
bölünen rastgele bir degiskenin üçüncü merkezi momenti
olarak tanimlanir.
Dogrusal Öngörü Katsayilari
LPC, karesi alinmis hata E = Zk (ik _Xk )2 minimize
edilecek sekilde önceki degerlerden elde edilen. bir
zaman serisinin gerçek degerini (x(k)) öngören tüm
kutuplu bir filtrenin katsayilaridir.
LPC, otokorelasyon yöntemi ile hesaplanir.
Mel-frekansi kepstral katsayilari
Güç spektrumlari, her frekans bandi için birim agirlik
ile üçgen agirliklandirma fonksiyonlari kullanilarak
mel-Ölçegine göre bükülür. MFCC, logaritmanin alinmasi
ve Ayrik Kosinüs Dönüsümünün hesaplanmasi yoluyla
hesaplanir.
Bagil spektral algisal dogrusal öngörü katsayilari
RASTA-PLP katsayilari [H, Hermansky, N. Morgan, "RASTA
Processing of Speech", IEEE Trans. On Speech and Audio
asagidaki adimlarda güç spektrumlarindan hesaplanir:
LSpektral katsayilarin büyüklükte sikistirilmasi
ZZaman içinde alt-bant enerjisinin bant geçiren
filtrelemesi
genislemesi
çarpim
.Katsayilarin 0.33 olan güve yükseltilmesi ile gürültü
algisinin simülasyonu
öxötokorelasyon yöntemi araciligiyla elde edilen
spektrumun tüm kutuplu modelinin hesaplanmasi
Algisal dogrusal öngörü (PLP= katsayilari
igerceptual linear Erediction (PLP) coefficients)
PLP degerleri, RASTA-PLP ile benzer sekilde hesaplanir
ancak adimlar 1-3 uygulanmaz [H. Hermansky, "Perceptual
Linear Predictive Analysis for Speech", J. Ac. Soc. Am.,
Delta Özellikleri
Delta özellikleri, geçmiste otomatik konusma tanima ve
ses içerigi siniflandirmasinda basarili bir sekilde
uygulanmistir. Hesaplanmalarina yönelik çesitli yollar
mevcuttur. Burada, bir özelligin zaman sirasinin, 9
numune uzunlugunda olan dogrusal bir egim ile
evristirilmesi yoluyla hesaplanir (özellik zaman
sirasinin numunelenme hizi, STFT'nin çerçeve hizina
esittir). Delta-delta özellikleri, delta isleminin delta
özelliklerine uygulanmasi ile elde edilir.
Yukarida belirtildigi üzere insan isitme sisteminin
algisal durumuna benzer olan, düsük çözünürlüklü frekans
bandinin bant ayrimina sahip olunmasi tercih edilir. Bu
nedenle logaritmik bir bant ayrimi veya Bark benzeri bir
bant ayrimi tercih edilir. Bu, düsük merkez frekansina
sahip bantlarin, yüksek merkez frekansina sahip
bantlardan daha dar oldugu anlamina gelir. Spektral
düzlük ölçüsünün hesaplanmasinda örnegin toplama islemi,
normalde bir banttaki en düsük frekans degeri olan bir
degerden (q) uzanir ve önceden tanimlanmis bir bant
içindeki. en yüksek. spektral deger olan sayini degerine
(ur) uzanir. Daha iyi spektral düzlük ölçüsüne sahip
olmak amaciyla alt bantlarda, alt ve/Veya üst bitisik
frekans bandindan elde edilen spektral degerlerin en
azindan bir kisminin veya tamaminin kullanilmasi tercih
edilir. Bu durum örnegin, ikinci banda yönelik spektral
düzlük ölçüsünün, ikinci bandin spektral degerleri
kullanilarak ve ek olarak birinci bandin ve/Veya üçüncü
bandin spektral degerleri kullanilarak hesaplandigi
anlamina gelir. Tercih edilen düzenlemede sadece birinci
veya ikinci bantlarin spektral degerleri kullanilmaz
ayni zamanda birinci bandin ve üçüncü bandin spektral
degerleri de kullanilir. Bu durum, ikinci banda yönelik
SFM hesaplanirken Denklemdeki CH q degerinin, birinci
bandin birinci (en düsük) spektral degerine esit lr
degerinden uzandigi ve ur degerinin, üçüncü banttaki en
yüksek spektral degere esit oldugu anlamina gelir.
Dolayisiyla spektral degerlerin daha yüksek sayisina
dayali spektral sekil özelligi, bant içindeki spektral
degerler sayisinin yeterli oldugu belirli bir bant
genisligine kadar hesaplanabilir, böylece lr ve ur, ayni
düsük çözünürlüklü frekans bandindan elde dilen spektral
degerleri gösterir.
Özellik çikarici ile çikarilan dogrusal öngörü
katsayilarina iliskin olarak, Denklemin (8) LPC aj
degerinin veya optimizasyon veya bir normalizasyon
faktörü ile toplama veya çarpma gibi katsayilarin ve
hata degerlerinin herhangi bir bilesmesi sonrasinda
geriye kalan rezidüel/hata degerlerinin kullanilmasi
tercih edilir, böylece katsayilar ve karesi alinan hata
degerleri, özellik çikarici ile çikarilan LPC özelligini
etkiler.
Spektral sekilde özelliginin bir avantaji, düsük boyutlu
bir özellik olmasidir. Örnegin 10 karmasik veya reel
spektral degere sahip frekans bant genisligi göz önüne
alindiginda bu ll) karmasik veya reel spektral degerin
tamaminin kullanimi faydali olmayacaktir ve hesaplama
kaynaklarinin israfi olacaktir. Bu nedenle ham verilerin
boyutundan daha düsük olan bir boyuta sahip spektral
sekil Özelligi çikarilir. Örnegin enerji göz Önüne
alindiginda karesi alinmis lO spektral degerin bulunmasi
nedeniyle ham veri, 10 olan bir boyuta sahiptir. Etkili
bir sekilde kullanilabilen spektral sekil özelligini
çikarmak amaciyla ham verinin boyutundan daha küçük bir
boyuta sahip olan ve tercihen 1 veya 2'de olan spektral
sekil özelligi çikarilir. Ham veriye göre benzer bir
boyut azaltma örnegin, bir frekans bandinin spektral
zarfina düsük seviyeli polinom uydurma yapildiginda elde
edilebilir. Örnegin sadece iki veya üç parametre
uyduruldugunda spektral sekil özelligi, polinom veya
diger herhangi bir parametrizasyon sisteminin bu iki
veya üç parametresini içerir. Genel olarak, enerjinin
bir frekans bandi içindeki dagilimini gösteren ve 'ham
veri boyutunun %5'inden az veya en az %50'sinden az veya
sadece %302undan az olan düsük bir boyuta sahip tüm
parametreler faydalidir.
Spektral sekil özelliginin tek basina kullaniminin
halihazirda, bir ses sinyalinin islenmesine yönelik
aparatin avantajli davranisi ile sonuçlandigi, ancak en
azindan bant odakli ek özelligin kullanilmasinin tercih
edildigi. bulunmustur. Ayni zamanda. gelismis sonuçlarin
saglanmasinda faydali bant odakli ek özelligin, her
zaman çerçevesi ve frekans bandi için hesaplanan ve
çerçevenin toplam enerjisi ile normalize edilen her bant
için spektral enerji oldugu gösterilmistir. Bu özellik,
alçak geçisli filtreden geçirilebilir veya
geçirilmeyebilir. Ek olarak spektral aki özelliginin
eklenmesinin, bulus aparatinin performansini avantajli
bir sekilde arttirdigi bulunmustur, böylece iyi bir
performans ile sonuçlanan etkili prosedür, her bant için
spektral sekil özelliginin, her bant için spektral
enerji özelligine ve her bant için spektral aki
özelligine ek olarak kullanilmasi durumunda elde edilir.
Ek özelliklere ek olarak bu durum yine, bulus aparatinin
performansini arttirir.
Spektral enerji özelligine iliskin olarak açiklandigi
üzere bu özelligin zaman içinde alçak geçisli
filtrelemeden filtrelenmesi veya zaman içinde hareketli
ortalama normalizasyon uygulanmasi yapilabilir ancak
yapilmasi zorunlu degildir. Önceki durumda örnegin
ilgili banda yönelik önceki bes spektral sekil
özelliginin ortalamasi hesaplanir ve bu hesaplamanin
sonucu, mevcut çerçevedeki mevcut bant için spektral
sekil özelligi olarak kullanilir. Ancak bu ortalama alma
islemi ayni zamanda iki yönlü olarak uygulanabilir,
böylece ortalama alma islemi için mevcut özelligi
hesaplamak amaciyla sadece geçmisten elde edilen
özellikler degil ayni zamanda “gelecekten" elde edilen
özellikler de kullanilir.
Sekiller 7 ve 8, Sekil 1, Sekil 2 veya Sekil 4'te
gösterilen özellik çikaricinin (14) tercih edilen
uygulamasini saglamak amaciyla sonradan açiklanacaktir.
Birinci adimda bir ses sinyali, adim 70'te gösterildigi
üzere ses numuneleme degerlerinin bir blogunu saglamak
amaciylar pencerelenir. Tercihen› bir örtüsme uygulanir.
Bu, örtüsme araligi nedeniyle ardisik iki çerçevede tek
ve ayni ses numunesinin meydana geldigi anlamina gelir,
burada ses numuneleme degerlerine göre %50'lik bir
örtüsme tercih edilir. Adim 7l'de pencerelenen ses
numuneleme degerlerine ait bir blogun zaman/frekans
dönüsümü, yüksek Çözünürlük olan birinci çözünürlüge
sahip bir frekans gösterimini elde etmek amaciyla
gerçeklestirilir. Bu amaçla etkili bir FFT ile uygulanan
kisa süreli Fourier` dönüsümü. (STFT) elde edilir. Adim
7l, ses numuneleme degerlerinin zamansal olarak
birbirini takip eden bloklari ile birkaç kez
uygulandiginda teknikte bilindigi üzere bir spektrogram
elde edilir. Adim 72'de yüksek çözünürlüklü spektral
bilgi, yani yüksek çözünürlüklü spektral degerler, düsük
çözünürlüklü frekans bantlari halinde gruplanir. Örnegin
1024 veya 2048 giris degerine sahip bir FFT
uygulandiginda 1024 veya 2048 spektral deger bulunur,
ancak bu tür bir yüksek çözünürlük ne gereklidir ne de
amaçlanir. Bunun yerine gruplama adimi 72, yüksek
çözünürlüklü spektrumun, örnegin Bark bantlarindan veya
logaritmik bant bölünmesinden bilinenler gibi degisen
bant genisligine sahip bantlar gibi az sayida bantlara
bölünmesi ile sonuçlanir. Akabinde gruplama adimi 72
sonrasinda spektral sekil özelligi ve tercihen diger
özelliklerin hesaplanmasi islemi 73, düsük çözünürlüklü
bantlardan› her biri için gerçeklestirilir. Sekil 7'de
gösterilmemesine ragmen tam frekans bandi ile ilgili ek
özellikler, bu tam bant genislikli özellikler için adim
71 veya adim 72 ile elde edilen her türlü spektral
ayrimin gerekli olmamasi nedeniyle adim 70'te elde
edilen veriler kullanilarak hesaplanabilir.
Adim 73, m boyutlarina sahip spektral sekil özellikleri
ile sonuçlanir, burada m, n'den küçüktür ve tercihen her
frekans bandi için 1 veya 2'dir. Bu durum, adim 72'den
sonra bulunan bir frekans bandina yönelik bilginin,
özellik çikarici islemi ile adim 73'ten sonra bulunan
düsük boyut bilgisine sikistirildigi anlamina gelir.
Sekil 7'de gösterildigi üzere adim 71 ve adim 72 yaninda
zaman/frekans dönüsümü ve gruplama adimi, farkli
islemler için degistirilebilir. Adim 72 Çikisi, örnegin
çikista, 25 alt-bant sinyali elde edilecek sekilde
uygulanan düsük Çözünürlüklü filtre öbegi ile
filtrelenebilir. Her alt bandin yüksek çözünürlük
analizi, spektral sekil özelligi hesaplamasina yönelik
hani verileri elde etmek. amaciyla gerçeklestirilebilir.
Bu örnegin, bir alt-bant sinyalinin FFT analizi ile veya
bir alt-bant sinyalinin diger herhangi bir analizi ile,
örnegin diger kademeli fitre öbekleri ile yapilabilir.
Sekil 8, Sekil l'deki kontrol edilebilir filtrenin (12)
veya Sekil 3'te gösterilen veya Sekil 4'te 12'de
gösterilen spektral agirliklandirma özelliginin
uygulanmasi için tercih edilen prosedürü gösterir. Adim
80'de gösterildigi üzere Sekil 4'teki sinir agi
regresyon blogu (15) ile saglanan alt-bant SNR degerleri
gibi düsük çözünürlüklü bant odakli kontrol bilgisinin
belirlenmesi adimindan sonra adim 81'de yüksek
çözünürlüge dogrusal ara degerleme islemi
gerçeklestirilir.
Son olarak Sekil 3'teki adim 30'da gerçeklestirilen veya
adim 7l'de gerçeklestirilen kisa süreli Fourier dönüsümü
veya adimlar 71 ve 72 saginda gösterilen alternatif
prosedür ile elde edilen her spektral deger için bir
agirliklandirma faktörünün elde edilmesi amaçlanir. Adim
8l'den sonra her spektral deger için bir SNR degeri elde
edilir. Ancak bu SNR degeri halen logaritmik alandadir
ve adim 82, yüksek Çözünürlüklü her spektral deger için
logaritmik alanin dogrusal bir alan dönüsümünü saglar.
Adim 83'te her spektral deger için yani yüksek
çözünürlükte olan dogrusal SNR. degerleri, örnegin IIR
alçak geçisli filtreler veya alternatif olarak FIR alçak
geçisli filtreler kullanilarak zaman ve frekansa göre
düzgünlestirilir, örnegin her türlü hareketli ortalama
islemi uygulanabilir. Adim 84'te her yüksek çözünürlüklü
frekans degerlerine yönelik spektral agirliklar,
düzgünlestirilen dogrusal SNR degerlerine göre
hesaplanir. Bu hesaplama, Sekil 5'te gösterilen
fonksiyona dayali olmakla birlikte bu Sekilde gösterilen
fonksiyon, logaritmik terimler cinsinden verilirken adim
84'te yüksek çözünürlüklü her frekans degerine yönelik
spektral agirliklar, dogrusal alanda hesaplanir.
Adim 85'te her spektral deger akabinde, spektral
agirliklar dizisi ile çarpilmis bir dizi yüksek
çözünürlüklü spektral degeri elde etmek amaciyla
belirlenen spektral agirlik ile çarpilir. Bu islenmis
spektrum, adim 86'da frekans-zaman dönüsümüne tabi
tutulur. Uygulama senaryosuna bagli olarak ve adim 80'de
kullanilan örtüsmeye bagli olarak bloklama artefaktlari
ele almak üzere sonraki iki frekans-zaman dönüsümü adimi
ile elde edilen zaman alani ses numuneleme degerlerinin
iki blogu arasinda çapraz sönümleme islemi
gerçeklestirilebilir.
Ek pencereleme, dairesel konvolüsyon artefaktlarini
azaltmak amaciyla uygulanabilir.
Adim 86'nin sonucu, gelismis konusma performansina sahip
ses numuneleme degerlerine ait bir bloktur, diger bir
deyisle konusma, konusma iyilestirme isleminin
yapilmadigi ilgili ses giris sinyaline göre daha iyi
algilanabilir.
Bulus yöntemlerinin belirli uygulama gereksinimlerine
bagli olarak bulus yöntemleri, donanim veya yazilim
halinde uygulanabilir. Uygulama, bulus yöntemleri
gerçeklestirilecek sekilde programlanabilir bilgisayar
sistemleri ile birlikte çalisan dijital saklama ortami,
özellikle üzerinde elektronik olarak okunabilir kontrol
sinyallerinin bulundugu bir disk, DVD veya CD
kullanilarak gerçeklestirilebilir. Genel olarak mevcut
bulus bu nedenle, makine tarafindan okunabilir bir
tasiyicida saklanan bir program kodu olan bilgisayar
programi ürünüdür, bu program kodu, bilgisayar programi
ürünü bir bilgisayarda çalistirildiginda bulus
yöntemlerinin gerçeklestirilmesi amaciyla çalistirilir.
Diger bir deyisle bulus yöntemleri bu nedenle,
bilgisayar programi bir bilgisayarda çalistirildiginda
bulus yöntemlerinden en az birinin gerçeklestirilmesine
yönelik bir program koduna sahip bir bilgisayar
programidir.
Açiklanan düzenlemeler sadece, mevcut bulusun
prensipleri için tanimlayicidir. Burada açiklanan
düzenlemelerin ve detaylarin modifikasyonlarinin ve
varyasyonlarinin, teknikte uzman diger kisiler için
anlasilir olacagi anlasilir. Bu nedenle, buradaki
düzenlemelerin tarifi ve açiklamasi yoluyla sunulan
spesifik detaylar ile olmamak üzere sadece beklemede
olan patent istemlerinin kapsami ile sinirlandirma
yapilmasi amaçlanir.
özellikler:
Sßekiia' Sçk'l 16“ (örnegin, bir egitim prosesi
özellik özellik
-›~ çikarici _› birlestirici **x/15
) 2 her ait bant için
.. edilebilir _%›
filtre konusmasi
iyilestirilmis ses
2 sinyali
özellikler:
- her alt bant için
spektral sekil
- diger özellik(ler) 125
_kontrol
özellik _özellik_ . bilgisi
test ses Çikarici --_-› birlestirici
sinyali
2 optimizasyon
› denetleyici ..
test ses sinyaline gunce lenmis
yönelik kontrol bilgisi birlestirme
parametreleri
x[k] = Slkl + N” kazanim G[
"hesaplamasi 322
ximli ”wir
kontrol bilgisi asagidakiler olabilir:
- her bant için konusma enerjisi s^ (0))
A _ 2 - her banti in arka plan “gürültü
Glm) :4` /1 - law& enerjisiB2 (w)
Ixlwll - istenen filtrelemenin elde edilmesi
amaciyla kontrol edilebilir filtreye
yönelik filtre parametreleri
Slk] Dîlk] egitim uygulama
41 42 Xlkl
Özellik Özellik
çikarimi "“14 14““ çikarimi
referans SNR Rl siniragi 57-5“ siniragi _î spektral
hesaplamasi _N egitimi bellek egitimi agirliklandirma
(:3: ,15... En" '.
-20 ° : *
g _25 `I , ..._. . ' .
i / . ..... spektral çikarma
-30 I , _ i .
J / 4 uygulanan agirliklandirma ]
i, âîwln _,
i ?(0 l R ((0) >1 sinir-18dB
. her frekans bandi için özellikler (agirliklandirma bandi örnegin Bark bandi)
- banttaki spektral enerji
- banttaki spektral sekil (enerjinin bant
içindeki dagilimi)
. spektral düzlük ölçüsü (geometrik ortalam
° spektral çarpiklik ritmetik ortalam
- ardisik çerçeveler arasindaki spektral aki
- delta veya delta-delta özellikleri
. tam bant genisligine yönelik özellikler
- LPC katsayilari ve/veya LPC hata sinyali
- Mel-frekansi kepstral katsayilari
- bagil spektral algisal dogrusal öngörü katsayilari (RAST A-PLP)
- delta veya delta-delta özellikleri
örnegin bir örtüsme kullanilarak
70"" bir ses sinyalinin pencerelenmesi
birinci (yüksek) çözünürlük, ?ya .. .. .. mu
71»\, örnegin STFT ile zaman/frekans filltirseuögggiuireuru u
dönü ümünün er ekle tirilmesi .
s 9 ç S filtreleme
1 _ . _yu'fsîîkçîzgimfr'lfk'tfSpekt'a' her alt bandin yüksek
72% bilgisinin dusuk çozunurluklu frekans bantlari Çözünürlük analizi
(BARK bantlari gibi) halinde gruplanmasi
spektral bilgi n boyutlarina, örnegin n
vspektral katsayilarina sahiptir
(Iiger özelligin(özel|iklerin) hesaplanmasi
her düsük çözünürlüklü bant için
spektral sekil özelligi ve
spektral sekil özelligi, m boyutlarina sahiptir,
burada m, n'den daha küçüktür ve tercihen
1 veya 2ldir
düsük çiîünürlüklü bant
degerleri gibi) belirlenmesi
yüksek çözünürlüge dogrusal ara
degerlemenin gerçeklestirilmesi
her yüksek çözünürlüklü spektral deger
için dogrusal oranlara dönüstürülmesi
dogrusal SNR degerlerinin (yüksek çözünürlük)
zaman ve frekansa göre düzgünlestirilmesi (örnegin
lR alçak geçisli filtreler iie)
her yüksek çözünürlüklü frekans degeri
için spektral agirliklarin hesaplanmasi
her spektral degerin
belirlenen spektral agirlik ile çarpilmasi
çarpim sonuçlarinin frekans-zaman
dönüstürülmesi ve önceki sinyal ile
çapraz sönümlenmesi
giris sinyali
SNR tahmininin sonucu
P' S; ` 9' " *f I_
Ara degerlenmis SNR tahmini
4001"
spektral agiriliklar
ozeHuden .A,. __,.
100 gwß
shüden
(hergkß
özeHKýiçm
bhtane)
bMegWme
pamnmhden
dahagens
(dogrusal
fonksWon
Mdesünne
pamnmüdeü
sküden
çözünüHüHü
Üekansband
içkibhtane)
Claims (1)
1.Bir konusma iyilestirme filtresi için alt bant basina kontrol bilgisini elde etmek amaciyla bir ses sinyalinin islenmesine yönelik. aparat olup, asagidakileri içermektedir: ses sinyalinin kisa süreli spektral gösterimlerinin zaman sirasinin elde edilmesine ve kisa süreli birçok spektral gösterim için birçok frekans bandinin her frekans bandinda en az bir birinci özelligin çikarilmasina yönelik özellik çikarici, en az bir birinci özellik, birçok frekans bandinin bir frekans bandindaki kisa süreli spektral gösterimin spektral seklini temsil eder, burada Özellik çikarici, spektral enerji, ardisik çerçeveler arasindaki spektral aki ve delta veya delta- delta özelliklerinden en az birisi olan her frekans bandi için kisa süreli bir spektral gösterimin karakteristigini temsil eden ek ikinci özellikleri çikaracak sekilde çalisir ve özellik çikarici ek olarak, LPC özellikleri, bir LPC hata sinyalini içeren LPC özellikleri, önceden tanimlanmis bir sirasina veya LPC hata sinyalleri ve dogrusal öngörü katsayilarinin bilestirilmesine kadar dogrusal öngörü katsayilari, PLP katsayilari, RASTA-PLP katsayilari, mel-frekansi kepstral katsayilari ve delta özelliklerinden en az biri olan tam bant genisligine yönelik üçüncü özellikleri çikaracak sekilde çalisir, ses sinyalinin zaman parçasi için konusma iyilestirme filtresine yönelik kontrol bilgisini elde etmek amaciyla birlestirme parametreleri kullanilarak en az bir birinci özellik, en az bir ikinci özellik ve en az bir üçüncü özelligin birlestirilmesine yönelik özellik birlestirici, burada özellik birlestirici, birlestirme parametrelerini kullanarak spektral bir sekli temsil eden her frekans bandina yönelik en az bir birinci özellik, her frekans bandi için en az bir ek ikinci özellik ve tam bant genisligine yönelik en az bir ek üçüncü özelligi birlestirecek sekilde çalisir. .Istem l'e göre aparat olup, burada özellik çikarici, bir dizi zaman ani için bir dizi spektral gösterimin elde edildigi frekans dönüstürme islemini uygulayacak sekilde çalisir, spektral gösterimler, bir frekans bandinin artan merkez frekansi ile giderek genisleyen bir bant genisligi olan esit olmayan bant genislikleri olan frekans bantlarina sahiptir. . Istem l'e göre aparat olup, burada özellik çikarici, birinci özellik olarak enerjinin bant içindeki dagilimini temsil eden her` bant için spektral düzlük ölçüsünü ve ikinci özellik olarak spektral gösterimin elde edildigi her bant için normalize enerji ölçüsünü hesaplayacak sekilde çalisir, normalizasyon, bir sinyal çerçevesinin toplam enerjisine dayalidir ve burada özellik birlestirici, bir bant için spektral düzlük ölçüsünü veya her bant için normalize enerjiyi kullanacak sekilde çalisir. Önceki istemlerden birine göre aparat olup, burada özellik çikarici ek olarak, ikinci özellik olarak her bant için zaman-ardisik spektral gösterimler arasindaki benzerligi veya benzersizligi temsil eden spektral aki ölçüsünü veya spektral çarpiklik ölçüsünü çikaracak sekilde çalisir, spektral çarpiklik ölçüsü, kütle merkezi etrafindaki asimetriyi temsil eder. .Isteni l'e göre aparat olup, burada özellik. çikarici, zaman alanli ses numunelerinin bir bloguna yönelik dogrusal öngörü katsayi özelliklerini hesaplayacak sekilde çalisir, bu blok, her frekans bandina yönelik spektral sekli temsil eden en az bir birinci özelligin çikarilmasi amaciyla kullanilan ses numunelerini içerir. .Istem l'e göre aparat olup, burada özellik çikarici, bir veya iki tam bitisik frekans bandinin spektral bilgisini ve sadece frekans bandinin spektral bilgisini kullanarak bir frekans bandindaki spektrumun seklini hesaplayacak sekilde çalisir. .Istem l'e göre aparat olup, burada özellik çikarici, ses numunelerinin blogu basina düsen her özellik için ham özellik bilgisini çikaracak ve frekans bandina yönelik en az bir birinci özelligi elde etmek amaciyla bir frekans bandinda ham özellik bilgisi sirasini .Istem l'e göre aparat olup, burada özellik çikarici, her frekans bandi için spektral degerlerin sayisini hesaplayacak ve spektral sekli temsil eden en azindan birinci özelligi elde etmek amaciyla spektral degerlerin sayisini birlestirecek sekilde çalisir, böylece GHI az bir birinci özellik, frekans bandindaki spektral degerlerin sayisindan küçük olan bir boyuta sahip olur. .Bir konusma iyilestirme filtresine yönelik her alt bant için kontrol bilgisi elde etmek amaciyla bir ses sinyalini isleme yöntemi olup, asagidaki adimlari içermektedir: ses sinyalinin kisa süreli spektral gösterimlerinin kisa süreli birçok. spektral gösterime yönelik birçok frekans bandinin her bandindaki en az bir birinci özelligin çikarilmasi, en az bir birinci özellik, birçok bandinin bir frekans bandindaki kisa süreli spektral bir gösterimin spektral seklini temsil eder, burada spektral enerji, ardisik. çerçeveler arasindaki spektral aki ve delta veya delta-delta özelliklerinden en az birisi olan her frekans bandi için kisa süreli bir spektral gösterimin karakteristigini temsil eden ek ikinci özellikler çikartilir ve LPG özellikleri, bir LPC hata sinyalini içeren LPC özellikleri, Önceden tanimlanmis bir sirasina veya LPC hata sinyalleri ve dogrusal öngörü katsayilarinin bilestirilmesine kadar dogrusal öngörü katsayilari, PLP katsayilari, RASTA-PLP katsayilari, mel-frekansi kepstral katsayilari ve delta özelliklerinden en az biri olan tani bant genisligine yönelik ek üçüncü özellikler çikartilir; ve ses sinyalinin zaman parçasina yönelik konusma iyilestirme filtresine yönelik kontrol bilgisini elde etmek üzere birlestirme parametreleri kullanilarak en az bir birinci özellik, en az bir ikinci özellik ve en az bir üçüncü özelligin› birlestirilmesi, burada› spektral bir sekli temsil eden her frekans bandina yönelik en az bir birinci özellik, frekans bandi için en az bir ek ikinci özellik ve tam bant genisligine yönelik en az bir ek üçüncü özellik, birlestirme parametreleri kullanilarak her frekans bandi için birlestirilir. Bir ses sinyalinin konusma iyilestirme islemine tabi tutulmasina yönelik aparat olup, asagidakileri içermektedir: isteni l'e göre ses sinyalinin zaman parçasini temsil eden birçok bant için konusma iyilestirme filtresine yönelik kontrol bilgisini elde etmekr üzere ses sinyalinin islenmesine yönelik bir aparat ve kontrol edilebilir bir filtre, bu filtre, ses sinyaline ait bant, kontrol bilgisine bagli olarak farkli bir banda göre degisken bir sekilde zayiflatilacak biçimde kontrol edilebilir. Istem lO'a göre aparat olup, burada islemeye yönelik aparat, kontrol bilgisinin saglandigi, spektral çözünürlükten daha yüksek çözünürlüge sahip spektral bilgileri saglayan zaman frekans degistiriciyi içerir ve aparat ek olarak, kontrol bilgisini yüksek çözünürlüge ara degerlemek için ve kontrol edilebilir filtrenin kontrol edilebilir filtre parametrelerinin ayarlanmasini saglayan son islemciden geçirilmis kontrol bilgisini elde etmek. amaciyla ara degerlenen kontrol bilgisini düzgün hale getirmek üzere kontrol bilgisi son islemcisini içerir. Bir ses sinyalini konusma iyilestirme islemine tabi tutma yöntemi olup, asagidakileri içermektedir: isteni 9'a göre ses sinyalinin zaman parçasini temsil eden birçok bant için konusma iyilestirme filtresine yönelik kontrol bilgisini elde etmek üzere ses sinyalini isleme yöntemi ve bir filtrenin, ses sinyaline ait bant, kontrol bilgisine bagli olarak farkli bir banda göre degisken sekilde zayiflatilacak biçimde kontrol edilmesi. Özellik birlestiricinin birlestirme parametrelerinin belirlenmesi amaciyla özellik birlestiricinin egitilmesine yönelik aparat olup, asagidakileri içermektedir: her frekans bandi için bir konusma iyilestirme filtresine yönelik kontrol bilgisinin bilindigi egitici ses sinyalinin kisa süreli spektral gösterimlerinin zaman sirasinin elde edilmesine ve kisa süreli birçok spektral gösterime yönelik birçok frekans bandinin her frekans bandindaki en az bir birinci özelligin çikarilmasina yönelik bir özellik çikarici, en az bir birinci Özellik, birçok frekans bandinin bir frekans bandindaki kisa süreli spektral gösterimin spektral bir seklini temsil eder, burada özellik çikarici, spektral enerji, ardisik çerçeveler arasindaki spektral aki ve delta veya delta- delta özelliklerinden en az birisi olan her frekans bandi için kisa süreli bir spektral gösterimin karakteristigini temsil eden ek ikinci özellikleri çikaracak sekilde çalisir ve özellik çikarici ek olarak, LPC özellikleri, bir LPC hata sinyalini içeren LPC özellikleri, önceden tanimlanmis bir sirasina veya LPC hata sinyalleri ve dogrusal öngörü katsayilarinin bilestirilmesine kadar dogrusal öngörü katsayilari, PLP katsayilari, RASTA-PLP katsayilari, mel-frekansi kepstral katsayilari ve delta özelliklerinden en az biri olan tam bant genisligine yönelik üçüncü özellikleri çikaracak sekilde çalisir; ve ara birlestirme parametreleri kullanilarak kontrol bilgisinin hesaplanmasi, ara birlestirme parametrelerinin degistirilmesi, degistirilen kontrol bilgisinin bilinen kontrol bilgisi ile karsilastirilmasi ve degistirilen ara birlestirme parametreleri, bilinen kontrol bilgisi ile daha iyi eslesen kontrol bilgisi ile sonuçlandiginda ara birlestirme parametrelerinin güncellenmesi amaciyla özellik birlestiricinin her frekans bandi için en az bir birinci özellik, en az bir ikinci özellik ve en az bir üçüncü özellik ile beslenmesine yönelik bir optimizasyon denetleyici, burada özellik. birlestirici, birlestirme parametrelerini kullanarak spektral bir sekli temsil eden her frekans bandina yönelik en az bir Özellik, her frekans bandi için en az bir ek ikinci özellik ve tam bant genisligine yönelik en az bir ek üçüncü özelligi Özellik birlestiricinin birlestirme parametrelerinin belirlenmesi amaciyla bir özellik birlestiricinin egitilmesi yöntemi olup, asagidakileri adimlari içermektedir: her frekans bandi için bir konusma iyilestirme filtresine yönelik kontrol bilgisinin bilindigi, egitici bir ses sinyalinin kisa süreli spektral gösterimlerinin kisa süreli birçok spektral gösterime yönelik birçok frekans bandinin her frekans bandindaki en az bir birinci özelligin çikarilmasi, en az bir birinci özellik, birçok frekans bandinin bir frekans bandindaki kisa süreli spektral bir gösterimin spektral seklini temsil eder, burada spektral enerji, ardisik çerçeveler arasindaki spektral aki ve delta veya delta-delta özelliklerinden en az birisi olan her frekans bandi için kisa süreli bir spektral gösterimin karakteristigini temsil eden ek ikinci özellikler çikartilir ve LPG özellikleri, bir LPC hata sinyalini içeren LPC özellikleri, önceden tanimlanmis bir sirasina veya LPC hata sinyalleri ve dogrusal öngörü katsayilarinin bilestirilmesine kadar dogrusal öngörü katsayilari, PLP katsayilari, RASTA-PLP katsayilari, mei-frekansi kepstral katsayilari ve delta özelliklerinden en az biri olan tam bant genisligine yönelik ek üçüncü özellikler Çikartilir; özellik birlestiricinin, her frekans bandi için en az bir birinci, en az bir ikinci ve en az bir üçüncü özellik ile beslenmesi; ara birlestirme parametreleri kullanilarak kontrol bilgisinin hesaplanmasi; ara birlestirme parametrelerinin degistirilmesi; degistirilen kontrol bilgisinin, bilinen kontrol bilgisi ile karsilastirilmasi; degistirilen ara birlestirme parametreleri, bilinen kontrol bilgisi ile daha iyi eslesen kontrol bilgisi ile sonuçlandiginda ara birlestirme parametrelerinin güncellenmesi, burada özellik birlestirici, birlestirme parametrelerini kullanarak spektral bir sekli temsil eden her frekans bandi için en az bir birinci özellik, her frekans bandi için en az bir ek ikinci özellik ve tam bant genisligine yönelik en az bir ek üçüncü özelligi birlestirecek sekilde çalisir. Bir bilgisayarda çalistirildiginda istem 9, 12 veya 14'e göre bir yöntemin gerçeklestirilmesine yönelik bilgisayar programidir.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US8636108P | 2008-08-05 | 2008-08-05 |
Publications (1)
Publication Number | Publication Date |
---|---|
TR201810466T4 true TR201810466T4 (tr) | 2018-08-27 |
Family
ID=49170422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TR2018/10466T TR201810466T4 (tr) | 2008-08-05 | 2008-09-29 | Özellik çıkarımı kullanılarak konuşmanın iyileştirilmesi için bir ses sinyalinin işlenmesine yönelik aparat ve yöntem. |
Country Status (13)
Country | Link |
---|---|
US (1) | US9064498B2 (tr) |
EP (1) | EP2151822B8 (tr) |
JP (1) | JP5666444B2 (tr) |
KR (1) | KR101266894B1 (tr) |
CN (1) | CN102124518B (tr) |
AU (1) | AU2009278263B2 (tr) |
CA (1) | CA2732723C (tr) |
ES (1) | ES2678415T3 (tr) |
HK (1) | HK1159300A1 (tr) |
MX (1) | MX2011001339A (tr) |
RU (1) | RU2507608C2 (tr) |
TR (1) | TR201810466T4 (tr) |
WO (1) | WO2010015371A1 (tr) |
Families Citing this family (92)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8140331B2 (en) * | 2007-07-06 | 2012-03-20 | Xia Lou | Feature extraction for identification and classification of audio signals |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
DE102010009745A1 (de) * | 2010-03-01 | 2011-09-01 | Gunnar Eisenberg | Verfahren und Vorrichtung zur Verarbeitung von Audiodaten |
JP5738020B2 (ja) * | 2010-03-11 | 2015-06-17 | 本田技研工業株式会社 | 音声認識装置及び音声認識方法 |
US8473287B2 (en) | 2010-04-19 | 2013-06-25 | Audience, Inc. | Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system |
US8538035B2 (en) | 2010-04-29 | 2013-09-17 | Audience, Inc. | Multi-microphone robust noise suppression |
US8798290B1 (en) | 2010-04-21 | 2014-08-05 | Audience, Inc. | Systems and methods for adaptive signal equalization |
US8781137B1 (en) | 2010-04-27 | 2014-07-15 | Audience, Inc. | Wind noise detection and suppression |
US9245538B1 (en) * | 2010-05-20 | 2016-01-26 | Audience, Inc. | Bandwidth enhancement of speech signals assisted by noise reduction |
US8447596B2 (en) | 2010-07-12 | 2013-05-21 | Audience, Inc. | Monaural noise suppression based on computational auditory scene analysis |
JP5566846B2 (ja) * | 2010-10-15 | 2014-08-06 | 本田技研工業株式会社 | ノイズパワー推定装置及びノイズパワー推定方法並びに音声認識装置及び音声認識方法 |
JP2012163919A (ja) * | 2011-02-09 | 2012-08-30 | Sony Corp | 音声信号処理装置、および音声信号処理方法、並びにプログラム |
US9589580B2 (en) | 2011-03-14 | 2017-03-07 | Cochlear Limited | Sound processing based on a confidence measure |
JP2012235310A (ja) * | 2011-04-28 | 2012-11-29 | Sony Corp | 信号処理装置および方法、プログラム、並びにデータ記録媒体 |
US8949118B2 (en) * | 2012-03-19 | 2015-02-03 | Vocalzoom Systems Ltd. | System and method for robust estimation and tracking the fundamental frequency of pseudo periodic signals in the presence of noise |
EP2877992A1 (en) * | 2012-07-24 | 2015-06-03 | Nuance Communications, Inc. | Feature normalization inputs to front end processing for automatic speech recognition |
JP6234060B2 (ja) * | 2013-05-09 | 2017-11-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | ターゲットドメインの学習用音声データの生成方法、生成装置、および生成プログラム |
US9443533B2 (en) * | 2013-07-15 | 2016-09-13 | Rajeev Conrad Nongpiur | Measuring and improving speech intelligibility in an enclosure |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
CN103474072B (zh) * | 2013-10-11 | 2016-06-01 | 福州大学 | 利用纹理特征与随机森林的快速抗噪鸟鸣声识别方法 |
US10360901B2 (en) * | 2013-12-06 | 2019-07-23 | Nuance Communications, Inc. | Learning front-end speech recognition parameters within neural network training |
CN105830154B (zh) | 2013-12-19 | 2019-06-28 | 瑞典爱立信有限公司 | 估计音频信号中的背景噪声 |
US20170194019A1 (en) * | 2014-02-14 | 2017-07-06 | Donald James DERRICK | System for audio analysis and perception enhancement |
IN2014MU00739A (tr) * | 2014-03-04 | 2015-09-25 | Indian Inst Technology Bombay | |
AU2015251609B2 (en) * | 2014-04-25 | 2018-05-17 | Ntt Docomo, Inc. | Linear prediction coefficient conversion device and linear prediction coefficient conversion method |
CN107112025A (zh) * | 2014-09-12 | 2017-08-29 | 美商楼氏电子有限公司 | 用于恢复语音分量的系统和方法 |
US20160111107A1 (en) * | 2014-10-21 | 2016-04-21 | Mitsubishi Electric Research Laboratories, Inc. | Method for Enhancing Noisy Speech using Features from an Automatic Speech Recognition System |
US9659578B2 (en) * | 2014-11-27 | 2017-05-23 | Tata Consultancy Services Ltd. | Computer implemented system and method for identifying significant speech frames within speech signals |
EP3204945B1 (en) | 2014-12-12 | 2019-10-16 | Huawei Technologies Co. Ltd. | A signal processing apparatus for enhancing a voice component within a multi-channel audio signal |
KR102387567B1 (ko) * | 2015-01-19 | 2022-04-18 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
WO2016123560A1 (en) | 2015-01-30 | 2016-08-04 | Knowles Electronics, Llc | Contextual switching of microphones |
CN104966517B (zh) * | 2015-06-02 | 2019-02-01 | 华为技术有限公司 | 一种音频信号增强方法和装置 |
DK3118851T3 (da) * | 2015-07-01 | 2021-02-22 | Oticon As | Forbedring af støjende tale baseret på statistiske tale- og støjmodeller |
KR101677137B1 (ko) * | 2015-07-17 | 2016-11-17 | 국방과학연구소 | 변조 스펙트로그램을 이용한 수중 방사체의 데몬 및 lofar 특징을 동시 추출하는 방법 및 장치 |
KR102494139B1 (ko) * | 2015-11-06 | 2023-01-31 | 삼성전자주식회사 | 뉴럴 네트워크 학습 장치 및 방법과, 음성 인식 장치 및 방법 |
CN105611477B (zh) * | 2015-12-27 | 2018-06-01 | 北京工业大学 | 数字助听器中深度和广度神经网络相结合的语音增强算法 |
DE112016006218B4 (de) * | 2016-02-15 | 2022-02-10 | Mitsubishi Electric Corporation | Schallsignal-Verbesserungsvorrichtung |
EP3220367A1 (en) * | 2016-03-14 | 2017-09-20 | Tata Consultancy Services Limited | System and method for sound based surveillance |
US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
US11003987B2 (en) * | 2016-05-10 | 2021-05-11 | Google Llc | Audio processing with neural networks |
RU2620569C1 (ru) * | 2016-05-17 | 2017-05-26 | Николай Александрович Иванов | Способ измерения разборчивости речи |
EP3301675B1 (en) | 2016-09-28 | 2019-08-21 | Panasonic Intellectual Property Corporation of America | Parameter prediction device and parameter prediction method for acoustic signal processing |
US10614827B1 (en) * | 2017-02-21 | 2020-04-07 | Oben, Inc. | System and method for speech enhancement using dynamic noise profile estimation |
US10504538B2 (en) | 2017-06-01 | 2019-12-10 | Sorenson Ip Holdings, Llc | Noise reduction by application of two thresholds in each frequency band in audio signals |
US10381020B2 (en) | 2017-06-16 | 2019-08-13 | Apple Inc. | Speech model-based neural network-assisted signal enhancement |
WO2019014890A1 (zh) * | 2017-07-20 | 2019-01-24 | 大象声科(深圳)科技有限公司 | 一种通用的单声道实时降噪方法 |
US11270198B2 (en) * | 2017-07-31 | 2022-03-08 | Syntiant | Microcontroller interface for audio signal processing |
US20190066657A1 (en) * | 2017-08-31 | 2019-02-28 | National Institute Of Information And Communications Technology | Audio data learning method, audio data inference method and recording medium |
EP3688754A1 (en) | 2017-09-26 | 2020-08-05 | Sony Europe B.V. | Method and electronic device for formant attenuation/amplification |
US10325588B2 (en) | 2017-09-28 | 2019-06-18 | International Business Machines Corporation | Acoustic feature extractor selected according to status flag of frame of acoustic signal |
CN111386568B (zh) * | 2017-10-27 | 2023-10-13 | 弗劳恩霍夫应用研究促进协会 | 使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机可读存储介质 |
US10283140B1 (en) | 2018-01-12 | 2019-05-07 | Alibaba Group Holding Limited | Enhancing audio signals using sub-band deep neural networks |
CN110580910A (zh) * | 2018-06-08 | 2019-12-17 | 北京搜狗科技发展有限公司 | 一种音频处理方法、装置、设备及可读存储介质 |
US10991379B2 (en) * | 2018-06-22 | 2021-04-27 | Babblelabs Llc | Data driven audio enhancement |
US11341983B2 (en) | 2018-09-17 | 2022-05-24 | Honeywell International Inc. | System and method for audio noise reduction |
KR102477001B1 (ko) * | 2018-10-24 | 2022-12-13 | 그레이스노트, 인코포레이티드 | 오디오 특성의 분석을 기반으로 오디오 재생 설정을 조정하는 방법 및 장치 |
CN110008972B (zh) * | 2018-11-15 | 2023-06-06 | 创新先进技术有限公司 | 用于数据增强的方法和装置 |
US11043214B1 (en) * | 2018-11-29 | 2021-06-22 | Amazon Technologies, Inc. | Speech recognition using dialog history |
KR102093929B1 (ko) * | 2018-12-05 | 2020-03-26 | 중앙대학교 산학협력단 | Cim 기반의 시스템 건전성 진단을 위한 장치 및 방법 |
JP7095586B2 (ja) * | 2018-12-14 | 2022-07-05 | 富士通株式会社 | 音声補正装置および音声補正方法 |
CN109448749B (zh) * | 2018-12-19 | 2022-02-15 | 中国科学院自动化研究所 | 基于有监督学习听觉注意的语音提取方法、系统、装置 |
CN111369986A (zh) * | 2018-12-26 | 2020-07-03 | 成都启英泰伦科技有限公司 | 一种智能安全传输语音系统及方法 |
KR20200080913A (ko) | 2018-12-27 | 2020-07-07 | 서울과학기술대학교 산학협력단 | 자기상관계수를 이용한 심층신경망 기반 신호처리 방법 및 장치 |
KR102096588B1 (ko) * | 2018-12-27 | 2020-04-02 | 인하대학교 산학협력단 | 음향 장치에서 맞춤 오디오 잡음을 이용해 사생활 보호를 구현하는 기술 |
KR102188264B1 (ko) * | 2019-01-04 | 2020-12-08 | 순천향대학교 산학협력단 | 언어재활 기반 발성 음성 평가 장치 및 방법 |
EP3694229A1 (en) * | 2019-02-08 | 2020-08-12 | Oticon A/s | A hearing device comprising a noise reduction system |
KR102198273B1 (ko) * | 2019-02-26 | 2021-01-04 | 한미란 | 머신러닝 기반의 음성데이터 분석 방법, 장치 및 프로그램 |
CN109767789A (zh) * | 2019-03-06 | 2019-05-17 | 慧言科技(天津)有限公司 | 一种用于语音情感识别的新特征提取方法 |
WO2020209840A1 (en) * | 2019-04-09 | 2020-10-15 | Hewlett-Packard Development Company, L.P. | Applying directionality to audio by encoding input data |
WO2020218597A1 (ja) * | 2019-04-26 | 2020-10-29 | 株式会社Preferred Networks | 区間検出装置、信号処理システム、モデル生成方法、区間検出方法およびプログラム |
KR20200137561A (ko) * | 2019-05-30 | 2020-12-09 | 국방과학연구소 | 잡음 환경 노이지 데이터를 생성하기 위한 데이터 생성장치, 데이터 생성방법 및 이를 이용한 잡음 제거장치 및 잡음 제거방법 |
CN110534123B (zh) * | 2019-07-22 | 2022-04-01 | 中国科学院自动化研究所 | 语音增强方法、装置、存储介质、电子设备 |
US20220277761A1 (en) * | 2019-07-29 | 2022-09-01 | Nippon Telegraph And Telephone Corporation | Impression estimation apparatus, learning apparatus, methods and programs for the same |
CN110491407B (zh) * | 2019-08-15 | 2021-09-21 | 广州方硅信息技术有限公司 | 语音降噪的方法、装置、电子设备及存储介质 |
CN110473567B (zh) * | 2019-09-06 | 2021-09-14 | 上海又为智能科技有限公司 | 基于深度神经网络的音频处理方法、装置及存储介质 |
CN110556121B (zh) * | 2019-09-18 | 2024-01-09 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN110556123B (zh) * | 2019-09-18 | 2024-01-19 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN110556122B (zh) * | 2019-09-18 | 2024-01-19 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
US11587575B2 (en) * | 2019-10-11 | 2023-02-21 | Plantronics, Inc. | Hybrid noise suppression |
JP7348812B2 (ja) | 2019-10-31 | 2023-09-21 | 東京都公立大学法人 | 雑音抑制装置、雑音抑制方法及び音声入力機器 |
CN111223493B (zh) * | 2020-01-08 | 2022-08-02 | 北京声加科技有限公司 | 语音信号降噪处理方法、传声器和电子设备 |
CN111259776B (zh) * | 2020-01-13 | 2023-04-18 | 浙江大学 | 一种基于同步平均主成分时频分析的确定性信号提取方法 |
KR20210101670A (ko) * | 2020-02-10 | 2021-08-19 | 삼성전자주식회사 | 음질 개선 방법 및 이를 이용한 전자 장치 |
KR102329353B1 (ko) * | 2020-03-17 | 2021-11-22 | 성균관대학교산학협력단 | 심층 신경망을 이용한 음성 발생 방향 추론 방법 및 그 장치 |
US11521637B1 (en) * | 2020-08-19 | 2022-12-06 | Amazon Technologies, Inc. | Ratio mask post-filtering for audio enhancement |
CN111986660A (zh) * | 2020-08-26 | 2020-11-24 | 深圳信息职业技术学院 | 一种神经网络子带建模的单通道语音增强方法、系统及存储介质 |
US20220101864A1 (en) * | 2020-09-25 | 2022-03-31 | Descript, Inc. | Training generative adversarial networks to upsample audio |
CN112349277B (zh) * | 2020-09-28 | 2023-07-04 | 紫光展锐(重庆)科技有限公司 | 结合ai模型的特征域语音增强方法及相关产品 |
US11694692B2 (en) | 2020-11-11 | 2023-07-04 | Bank Of America Corporation | Systems and methods for audio enhancement and conversion |
GB202018375D0 (en) * | 2020-11-23 | 2021-01-06 | Rossi Lisa | Audio signal processing systems and methods |
US11475869B2 (en) | 2021-02-12 | 2022-10-18 | Plantronics, Inc. | Hybrid noise suppression for communication systems |
CN115116469B (zh) * | 2022-05-25 | 2024-03-15 | 腾讯科技(深圳)有限公司 | 特征表示的提取方法、装置、设备、介质及程序产品 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5822742A (en) | 1989-05-17 | 1998-10-13 | The United States Of America As Represented By The Secretary Of Health & Human Services | Dynamically stable associative learning neural network system |
JP3084721B2 (ja) * | 1990-02-23 | 2000-09-04 | ソニー株式会社 | 雑音除去回路 |
DE4227826C2 (de) * | 1991-08-23 | 1999-07-22 | Hitachi Ltd | Digitales Verarbeitungsgerät für akustische Signale |
JP3247011B2 (ja) | 1994-04-12 | 2002-01-15 | 富士通株式会社 | セル配置改善装置及び方法 |
SE505175C2 (sv) | 1994-12-01 | 1997-07-07 | Ericsson Telefon Ab L M | Förfarande och telekommunikationssystem för att åstadkomma ett abonnentstyrt uppkopplingsförlopp i ett telekommunikationsnät |
US5960391A (en) | 1995-12-13 | 1999-09-28 | Denso Corporation | Signal extraction system, system and method for speech restoration, learning method for neural network model, constructing method of neural network model, and signal processing system |
SE506034C2 (sv) * | 1996-02-01 | 1997-11-03 | Ericsson Telefon Ab L M | Förfarande och anordning för förbättring av parametrar representerande brusigt tal |
EP0878790A1 (en) * | 1997-05-15 | 1998-11-18 | Hewlett-Packard Company | Voice coding system and method |
FR2786908B1 (fr) * | 1998-12-04 | 2001-06-08 | Thomson Csf | Procede et dispositif pour le traitement des sons pour correction auditive des malentendants |
DE19948308C2 (de) * | 1999-10-06 | 2002-05-08 | Cortologic Ag | Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung |
FI116643B (fi) * | 1999-11-15 | 2006-01-13 | Nokia Corp | Kohinan vaimennus |
DE60104091T2 (de) * | 2001-04-27 | 2005-08-25 | CSEM Centre Suisse d`Electronique et de Microtechnique S.A. - Recherche et Développement | Verfahren und Vorrichtung zur Sprachverbesserung in verrauschte Umgebung |
JP3933909B2 (ja) * | 2001-10-29 | 2007-06-20 | 日本放送協会 | 音声/音楽混合比推定装置およびそれを用いたオーディオ装置 |
US7949522B2 (en) * | 2003-02-21 | 2011-05-24 | Qnx Software Systems Co. | System for suppressing rain noise |
JP2004341339A (ja) * | 2003-05-16 | 2004-12-02 | Mitsubishi Electric Corp | 雑音抑圧装置 |
AU2003904207A0 (en) * | 2003-08-11 | 2003-08-21 | Vast Audio Pty Ltd | Enhancement of sound externalization and separation for hearing-impaired listeners: a spatial hearing-aid |
JP4150798B2 (ja) * | 2004-07-28 | 2008-09-17 | 国立大学法人徳島大学 | デジタルフィルタリング方法、デジタルフィルタ装置、デジタルフィルタプログラム及びコンピュータで読み取り可能な記録媒体 |
RU52536U1 (ru) * | 2005-12-08 | 2006-03-27 | Общество с ограниченной ответственностью "Филком" | Цифровой модуль преобразования речи |
DE602006005684D1 (de) * | 2006-10-31 | 2009-04-23 | Harman Becker Automotive Sys | Modellbasierte Verbesserung von Sprachsignalen |
JP5141180B2 (ja) * | 2006-11-09 | 2013-02-13 | ソニー株式会社 | 周波数帯域拡大装置及び周波数帯域拡大方法、再生装置及び再生方法、並びに、プログラム及び記録媒体 |
US8352257B2 (en) * | 2007-01-04 | 2013-01-08 | Qnx Software Systems Limited | Spectro-temporal varying approach for speech enhancement |
ATE514163T1 (de) * | 2007-09-12 | 2011-07-15 | Dolby Lab Licensing Corp | Spracherweiterung |
US8521530B1 (en) * | 2008-06-30 | 2013-08-27 | Audience, Inc. | System and method for enhancing a monaural audio signal |
-
2008
- 2008-09-29 ES ES08017124.2T patent/ES2678415T3/es active Active
- 2008-09-29 TR TR2018/10466T patent/TR201810466T4/tr unknown
- 2008-09-29 EP EP08017124.2A patent/EP2151822B8/en active Active
-
2009
- 2009-08-03 RU RU2011105976/08A patent/RU2507608C2/ru active
- 2009-08-03 JP JP2011521470A patent/JP5666444B2/ja active Active
- 2009-08-03 CN CN2009801310163A patent/CN102124518B/zh active Active
- 2009-08-03 MX MX2011001339A patent/MX2011001339A/es active IP Right Grant
- 2009-08-03 AU AU2009278263A patent/AU2009278263B2/en active Active
- 2009-08-03 CA CA2732723A patent/CA2732723C/en active Active
- 2009-08-03 WO PCT/EP2009/005607 patent/WO2010015371A1/en active Application Filing
- 2009-08-03 KR KR1020117002693A patent/KR101266894B1/ko active IP Right Grant
-
2011
- 2011-02-02 US US13/019,835 patent/US9064498B2/en active Active
- 2011-12-13 HK HK11113430.8A patent/HK1159300A1/xx unknown
Also Published As
Publication number | Publication date |
---|---|
AU2009278263B2 (en) | 2012-09-27 |
HK1159300A1 (en) | 2012-07-27 |
KR101266894B1 (ko) | 2013-05-24 |
US9064498B2 (en) | 2015-06-23 |
JP5666444B2 (ja) | 2015-02-12 |
US20110191101A1 (en) | 2011-08-04 |
EP2151822A1 (en) | 2010-02-10 |
MX2011001339A (es) | 2011-05-10 |
JP2011530091A (ja) | 2011-12-15 |
CA2732723C (en) | 2016-10-11 |
CN102124518B (zh) | 2013-11-06 |
EP2151822B8 (en) | 2018-10-24 |
RU2507608C2 (ru) | 2014-02-20 |
WO2010015371A1 (en) | 2010-02-11 |
CN102124518A (zh) | 2011-07-13 |
CA2732723A1 (en) | 2010-02-11 |
KR20110044990A (ko) | 2011-05-03 |
RU2011105976A (ru) | 2012-08-27 |
ES2678415T3 (es) | 2018-08-10 |
EP2151822B1 (en) | 2018-04-25 |
AU2009278263A1 (en) | 2010-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TR201810466T4 (tr) | Özellik çıkarımı kullanılarak konuşmanın iyileştirilmesi için bir ses sinyalinin işlenmesine yönelik aparat ve yöntem. | |
Tsoukalas et al. | Speech enhancement based on audible noise suppression | |
Ma et al. | Objective measures for predicting speech intelligibility in noisy conditions based on new band-importance functions | |
Paliwal et al. | Single-channel speech enhancement using spectral subtraction in the short-time modulation domain | |
US20190172480A1 (en) | Voice activity detection systems and methods | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
Tan et al. | Multi-band summary correlogram-based pitch detection for noisy speech | |
Ganapathy et al. | Temporal envelope compensation for robust phoneme recognition using modulation spectrum | |
Islam et al. | Supervised single channel speech enhancement based on stationary wavelet transforms and non-negative matrix factorization with concatenated framing process and subband smooth ratio mask | |
Ben Messaoud et al. | A new biologically inspired fuzzy expert system-based voiced/unvoiced decision algorithm for speech enhancement | |
Ma et al. | A modified Wiener filtering method combined with wavelet thresholding multitaper spectrum for speech enhancement | |
Flynn et al. | Combined speech enhancement and auditory modelling for robust distributed speech recognition | |
Uhle et al. | Speech enhancement of movie sound | |
CN113393852B (zh) | 语音增强模型的构建方法及系统、语音增强方法及系统 | |
Tiwari et al. | Speech enhancement using noise estimation with dynamic quantile tracking | |
CN113593604A (zh) | 检测音频质量方法、装置及存储介质 | |
Mallidi et al. | Robust speaker recognition using spectro-temporal autoregressive models. | |
Kortlang et al. | Single channel noise reduction based on an auditory filterbank | |
Lu et al. | Temporal contrast normalization and edge-preserved smoothing of temporal modulation structures of speech for robust speech recognition | |
Samui et al. | FPGA implementation of a phase-aware single-channel speech enhancement system | |
Harlander et al. | Evaluation of model-based versus non-parametric monaural noise-reduction approaches for hearing aids | |
Tohidypour et al. | New features for speech enhancement using bivariate shrinkage based on redundant wavelet filter-banks | |
Chatterjee et al. | Auditory model based modified MFCC features | |
Rahali et al. | Asr systems in noisy environment: Auditory features based on gammachirp filter using the AURORA database | |
Upadhyay | Iterative-processed multiband speech enhancement for suppressing musical sounds |