SE516798C2 - Anordning och sätt för analys och filtrering av ljud - Google Patents

Anordning och sätt för analys och filtrering av ljud

Info

Publication number
SE516798C2
SE516798C2 SE9602627A SE9602627A SE516798C2 SE 516798 C2 SE516798 C2 SE 516798C2 SE 9602627 A SE9602627 A SE 9602627A SE 9602627 A SE9602627 A SE 9602627A SE 516798 C2 SE516798 C2 SE 516798C2
Authority
SE
Sweden
Prior art keywords
sound
filter
frequency
weighting
filtering
Prior art date
Application number
SE9602627A
Other languages
English (en)
Other versions
SE9602627D0 (sv
SE9602627L (sv
Inventor
Thomas Lagoe
Sven Olsson
Original Assignee
Thomas Lagoe
Sven Olsson
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomas Lagoe, Sven Olsson filed Critical Thomas Lagoe
Priority to SE9602627A priority Critical patent/SE516798C2/sv
Publication of SE9602627D0 publication Critical patent/SE9602627D0/sv
Priority to AU35640/97A priority patent/AU3564097A/en
Priority to EP97932099A priority patent/EP0978120B1/en
Priority to ES97932099T priority patent/ES2210547T3/es
Priority to PCT/SE1997/001175 priority patent/WO1998000836A1/en
Priority to DE69726458T priority patent/DE69726458T2/de
Publication of SE9602627L publication Critical patent/SE9602627L/sv
Priority to US09/224,942 priority patent/US6243671B1/en
Publication of SE516798C2 publication Critical patent/SE516798C2/sv

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H3/00Measuring characteristics of vibrations by using a detector in a fluid
    • G01H3/04Frequency
    • G01H3/08Analysing frequencies present in complex vibrations, e.g. comparing harmonics present
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H21/00Adaptive networks
    • H03H21/0012Digital adaptive filters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Description

25 30 35 516 798 ningen till ett neuralt nät. De neurala näten har således inte avsedd verkan i de kända systemen eftersom de an- tingen får för mycket eller för lite information om sig- nalen. Samma nackdelar som för talidentifiering skulle uppkomma om man skulle försöka att använda de ovan nämnda systemen för klassificering av maskin- eller motorljud.
Den metod som idag oftast används vid klassificering av dylika ljud består i att man helt enkelt lyssnar på maskinerna med ett stetoskop. Ett erfaret och vältränat öra har nämligen många gånger visat sig vara det mest tillförlitliga hjälpmedlet vid klassificering och identi- fiering av olika fel- och missljud i exempelvis en motor.
Detta sätt att klassificera ljud för givetvis med sig en rad nackdelar. Att förlita sig på en persons hörsel är ju i sig vanskligt bl a eftersom hörseln förändras med tiden. Dessutom tar det lång tid för en person att träna upp sin ljudigenkänning till den grad att missbedömningar i mesta möjliga mån undviks. Det är således uppenbart att det finns ett behov av en anordning som undanröjer ovan nämnda nackdelar med känd teknik och som kan analysera och filtrera ljud för att på ett säkert och tillförlit- ligt sätt identifiera och klassificera olika ljudtyper och -mönster.
Uppfinningens ändamål Ett ändamål med föreliggande uppfinning är att till- handahålla en anordning för analys och filtrering av ljud som till skillnad från tidigare känd teknik möjliggör tillförlitlig klassificering och igenkänning av olika ljudtyper och -mönster.
Ett annat ändamål är att åstadkomma ett tillförlit- ligt sätt att analysera och filtrera ljud.
Sammanfattning av uppfinningen För att uppnå ändamálen har enligt uppfinningen åstadkommits en anordning och ett sätt enligt patentkra- vet 1 respektive 7. Fördelen med uppfinningen är att de två olika typerna av filtrering före den olinjära vikt- ningen plockar ut den information, såsom storheter, eller 10 15 20 25 30 35 516 798 '''' " 3 egenvärden, hos en insignal som är relevant vid analys och identifiering av ljud och som ger de bästa förutsätt- ningarna för en effektiv olinjär viktning.
En faktor som bidrog till lösningen enligt uppfin- ningen är insikt om att ett system för ljudanalys bör efterlikna hörselns sätt att analysera ljud, vilket kom- mer att utvecklas nedan.
Enligt en i patentkrav 2 definierad, föredragen ut- föringsform av anordningen, utgörs viktningsorganet av ett neuralt nät. Filterkombinationen är särskilt lämpad att användas tillsammans med ett neuralt nät, som därige- nom förses med en signal med ett lämpligt antal frihets- grader.
Såsom har nämnts ovan finns det idag ingen känd tek- nik som kan analysera ljudet från t ex en motor tillnär- melsevis lika bra som det mänskliga örat. Inte heller finns det något känt system som kan konkurrera med den mänskliga hörseln när det gäller att identifiera en viss röst. Ljudigenkänningen kräver dock att den lyssnande personen har ”lärt sig” det specifika ljudet, dvs nerv- systemet och hjärnan måste kunna relatera ljudet till ti- digare erfarenheter för att känna igen det. Uppfinningen bygger således på insikten att man för att analysera ljud på bästa sätt måste efterlikna ett optimalt, fulltränat mänskligt öra med tillhörande nervsystem. För att kunna analysera ljud på ett tillförlitligt sätt måste man först och främst inse att det nervsystem som är ansvarigt för att utvärdera de signaler som matas till örat inte kan betraktas som linjärt. Tvärtom reagerar hörseln olinjärt på bl a frekvensändringar. Föreliggande uppfinning bygger således också på insikten att hörseln bör betraktas som ett olinjärt system.
Kort beskrivning av ritningarna Fig 1 visar ett blockschema över anordningen för analys och filtrering av ljud enligt en föredragen utfö- ringsform av föreliggande uppfinning. 10 15 20 25 30 35 516 798 4 Fig 2 visar ett blockschema över anordningen för analys och filtrering av ljud enligt en annan föredragen utföringsform av föreliggande uppfinning.
Fig 3 visar ett flödesschema över sättet att analy- sera och filtrera ljud enligt en föredragen utföringsform av föreliggande uppfinning.
Beskrivning av föredragna utföringsformer Uppfinningen kommer att beskrivas närmare i det föl- jande med hänvisning till bifogade ritningar.
I fig l visas ett blockschema över anordningen 1 för ljudanalys och -filtrering enligt en föredragen utfö- ringsform av föreliggande uppfinning. Anordningen 1 inne- fattar ett frekvenslinjärt filter 2, ett frekvenslogarit- miskt filter 3 samt ett viktningsorgan 4. Viktningsorga- net 4 utgörs i denna utföringsform av ett neuralt filter.
Det linjära filtret 2 har 800 linjer och det logaritmiska filtret 3 har 32 tersband. Detta ger totalt 832 tidsigna- ler som medelst det neurala nätet 4 kombineras och viktas olinjärt.
Filterbankarna har till uppgift att filtrera en in- signal på så sätt att endast de parametrar som är intres- santa vid ljudanalysen släpps igenom. En sådan utsorte- ring av relevant information är möjlig tack vare de pa- rallella filterbankarnas egenskaper. Frekvenslinjära fil- ter har ju som bekant fixa filterbandbredder och därmed fixa storheter, såsom exempelvis konstant integrationstid och varians, medan dessa storheter varierar hos frekvens- logaritmiska filter. Denna parallella kombination av lin- jära och logaritmiska filter är nödvändig för filtrering och analys av ljud, eftersom ljudet är uppbyggt av icke stationära signaler. Att beakta ljudets icke stationära egenskaper är givetvis av stor vikt, men trots det har känd teknik inte fullt ut tagit fasta på detta faktum, utan har istället i flera fall approximerat ljudet med en stationär signal.
Ett flertal parametrar hos signalerna kan komma ifråga att beaktas vid den efterföljande viktningsproces- 10 15 20 25 30 35 « n n Q nu o 516 798 5 sen. Några av dessa är nivåstyrkor, energiinnehåll och tidsförlopp. Dessutom tas hänsyn till jämförelser mellan utsignalerna från det logaritmiska filtret respektive det linjära filtret. Exempelvis signaler som innehåller över- toner får ett helt annat utseende i tersband än i smal- band. Detta innebär att man genom att jämföra förekomsten av signalkomponenter i banden hos det linjära filtret re- spektive i banden hos det logaritmiska filtret kan regi- strera harmonier och disharmonier. Att genomföra denna harmonianalys innebär att man efterliknar den mänskliga hörselns funktion. För att fortsätta analogin med hörseln tar dessutom föreliggande uppfinning fasta på att en män- niska måste ha hört ett ljud tidigare för att kunna iden- tifiera det. Anordningen enligt föreliggande uppfinning använder således lärosekvenser med olika ljudmönster, så- som t ex en viss persons röst, ljudet fràn ett slitet lager i en motor, etc, för att lära systemet att känna igen dessa. Till varje nytt ljud bifogas information av- seende klassning, såsom t ex ”slitet lager” eller ”helt lager", så att systemet kan identifiera ljudet nästa gång det hör det. Inlärningen av ett nytt ljud innebär således att olinjär viktning av insignalerna från filterbankarna sker, varefter denna olinjära viktning sparas och klassi- ficeras för senare identifiering av ett liknande ljud.
Vad gäller själva identifieringsbeslutet så sker detta i ett beslutsorgan 5. Beslutsorganet 5 finns enligt denna utföringsform i viktningsorganet 4. Fig 2 visar en annan utföringsform där beslutsorganet 5 är anordnat utanför det neurala nätet 4. Beslutsorganet 5 fattar be- slut utifrån de inlärda sekvenserna och deras klassifi- cering. En insignal till anordningen 1 jämförs efter filtrering och olinjär viktning med de tidigare inlärda ljuden och det mest sannolika svaret väljs i beslutsorga- net 5 som insignalens identitet.
Fig 3 visar ett flödesschema över sättet att analy- sera och filtrera ljud enligt en föredragen utföringsform av föreliggande uppfinning. Insignalen till anordningen 1 uu 10 15 20 25 30 35 516 798 šïï* 6 filtreras parallellt i steget A efter parallell matning till det frekvenslinjära filtret 2 samt det frekvensloga- ritmiska filtret 3. Därefter kombineras och viktas i ste- get B de resulterande utsignalerna från de båda filtren 2, 3 olinjärt i det neurala nätet 4 enligt beskrivningen ovan. Slutligen, i steget C, matas signalen från det neu- rala nätet 4 till beslutsorganet 5 där ett beslut fattas avseende signalens identitet.
Föreliggande uppfinning åstadkommer alltså en till- förlitlig ljudanalys genom att efterlikna den mänskliga hörseln. De parallella filterbankarna bryter ned en ljud- signal i sina beståndsdelar, och viktningsorganet viktar och kombinerar sedan dessa komponenter olinjärt utifrån för hörseln relevanta storheter, såsom nivåer, harmonier, etc. Viktningen sparas och klassificeras sedan för att kunna användas då ett ljud skall identifieras, varvid den sparade Viktningen jämförs med Viktningen för det ljud som skall identifieras.
Alternativa utföringsformer Modifieringar av anordningen och sättet enligt upp- finningen kan komma ifråga inom ramen för uppfinningen.
Några exempel följer nedan.
Anordningen och sättet enligt uppfinningen kan även användas för att alstra en viss signal. I detta fallet lär man upp systemet genom en inlärningsprocess, såsom diskuterats ovan, och använder sedan de sparade Viktning- arna för att generera en kopia av den inlärda signalen.
Antalet linjer hos det frekvenslinjära filtret är enligt en föredragen utföringsform angivet till 800 stycken, dock kan andra linjeantal tänkas beroende på tillämpningens art. Detsamma gäller banden hos det fre- kvenslogaritmiska filtret som ingalunda är begränsat till 32 stycken tersband, utan fler eller färre band av olika typer kan vara lämpligt beroende på tillämpning.
På samma sätt kan de parametrar som används vid Viktningen variera utifrån önskade egenskaper hos anord- ningen enligt uppfinningen. 516 798 7 Den olinjära viktningen kan åstadkommas med analoga eller digitala system istället för med ett neuralt nät.
Dessa system kan ha mer eller mindre fasta filterstruktu- rer beroende på aktuell tillämpning.
Det frekvenslogaritmiska filtret skulle kunna åstad- kommas med hjälp av Wavelet-transformer.

Claims (7)

10 15 20 25 30 516 798 8 PATENTKRAV
1. Anordning för analys och filtrering av ljud, vil- ken anordning tar emot en insignal, k ä n n e t e c k - n a d av att den innefattar åtminstone ett frekvenslin- järt filter, åtminstone ett frekvenslogaritmiskt filter för parallell filtrering av insignalen, och ett vikt- ningsorgan för kombinering och olinjär viktning av utsig- nalerna från det frekvenslinjära filtret och det fre- kvenslogaritmiska filtret.
2. Anordning enligt patentkrav 1, k ä n n e - t e c k n a d av att viktningsorganet utgörs av ett neu- ralt nät.
3. Anordning enligt patentkrav 1 eller 2, k ä n n e t e c k n a d av att det frekvenslinjära filt- ret består av 800 linjer.
4. Anordning enligt patentkrav 1, 2 eller 3, k ä n n e t e c k n a d av att det frekvenslogaritmiska filtret består av 32 tersband.
5. Anordning enligt något av patentkraven l-4, k ä n n e t e c k n a d av att den innefattar ett be- slutsorgan för beslut avseende en insignals identitet.
6. Anordning enligt patentkrav 5, k ä n n e - t e c k n a d av att viktningsorganet innefattar be- slutsorganet.
7. Sätt att analysera och filtrera ljud, k ä n n e - t e c k n a t av stegen: att ljudsignalen parallellt filtreras i ett fre- kvenslinjärt filter och i ett frekvenslogaritmiskt fil- ter; och att de parallella utsignalerna från det frekvenslin- jära filtret och från det frekvenslogaritmiska filtret kombineras och viktas olinjärt medelst ett viktningsor- gan.
SE9602627A 1996-07-03 1996-07-03 Anordning och sätt för analys och filtrering av ljud SE516798C2 (sv)

Priority Applications (7)

Application Number Priority Date Filing Date Title
SE9602627A SE516798C2 (sv) 1996-07-03 1996-07-03 Anordning och sätt för analys och filtrering av ljud
AU35640/97A AU3564097A (en) 1996-07-03 1997-06-30 Sevice and method for analysis and filtration of sound
EP97932099A EP0978120B1 (en) 1996-07-03 1997-06-30 Device and method for analysis and filtration of sound
ES97932099T ES2210547T3 (es) 1996-07-03 1997-06-30 Dispositivo y metodo para analisis y filtracion de sonido.
PCT/SE1997/001175 WO1998000836A1 (en) 1996-07-03 1997-06-30 Device and method for analysis and filtration of sound
DE69726458T DE69726458T2 (de) 1996-07-03 1997-06-30 Vorichtung und verfahren zur analyse und zum filtern von geräuschen
US09/224,942 US6243671B1 (en) 1996-07-03 1999-01-04 Device and method for analysis and filtration of sound

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
SE9602627A SE516798C2 (sv) 1996-07-03 1996-07-03 Anordning och sätt för analys och filtrering av ljud

Publications (3)

Publication Number Publication Date
SE9602627D0 SE9602627D0 (sv) 1996-07-03
SE9602627L SE9602627L (sv) 1998-01-04
SE516798C2 true SE516798C2 (sv) 2002-03-05

Family

ID=20403260

Family Applications (1)

Application Number Title Priority Date Filing Date
SE9602627A SE516798C2 (sv) 1996-07-03 1996-07-03 Anordning och sätt för analys och filtrering av ljud

Country Status (7)

Country Link
US (1) US6243671B1 (sv)
EP (1) EP0978120B1 (sv)
AU (1) AU3564097A (sv)
DE (1) DE69726458T2 (sv)
ES (1) ES2210547T3 (sv)
SE (1) SE516798C2 (sv)
WO (1) WO1998000836A1 (sv)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6791433B1 (en) * 1999-07-14 2004-09-14 International Business Machines Corporation Signal processing by means of resonators
US6910035B2 (en) * 2000-07-06 2005-06-21 Microsoft Corporation System and methods for providing automatic classification of media entities according to consonance properties
DE10064756A1 (de) * 2000-12-22 2002-07-04 Daimler Chrysler Ag Verfahren und Anordnung zur Verarbeitung von Geräuschsignalen einer Geräuschquelle
WO2003015076A1 (fr) 2001-08-06 2003-02-20 Index Corporation Dispositif et procede d'evaluation des sentiments d'un chien a partir d'une analyse caracterielle des cris de l'animal
AU2003219487A1 (en) * 2003-04-02 2004-10-25 Magink Display Technologies Ltd. Psychophysical perception enhancement
CN114944154B (zh) * 2022-07-26 2022-11-15 深圳市长丰影像器材有限公司 音频调整方法、装置、设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5285522A (en) * 1987-12-03 1994-02-08 The Trustees Of The University Of Pennsylvania Neural networks for acoustical pattern recognition
IL84902A (en) * 1987-12-21 1991-12-15 D S P Group Israel Ltd Digital autocorrelation system for detecting speech in noisy audio signal
US5450522A (en) * 1991-08-19 1995-09-12 U S West Advanced Technologies, Inc. Auditory model for parametrization of speech
DE4207728A1 (de) * 1992-03-11 1993-09-23 Fraunhofer Ges Forschung Verfahren zur qualitaetspruefung von pruefobjekten
US5377302A (en) * 1992-09-01 1994-12-27 Monowave Corporation L.P. System for recognizing speech
DE19500494C2 (de) * 1995-01-10 1997-01-23 Siemens Ag Merkmalsextraktionsverfahren für ein Sprachsignal
GB2299247B (en) * 1995-03-23 1999-09-29 Univ Stirling Onset/offset coding for interpretation and segmentation of sound
EP0950239B1 (en) * 1996-03-08 2003-09-24 Motorola, Inc. Method and recognizer for recognizing a sampled sound signal in noise

Also Published As

Publication number Publication date
WO1998000836A1 (en) 1998-01-08
DE69726458D1 (de) 2004-01-08
US6243671B1 (en) 2001-06-05
AU3564097A (en) 1998-01-21
ES2210547T3 (es) 2004-07-01
SE9602627D0 (sv) 1996-07-03
EP0978120A1 (en) 2000-02-09
EP0978120B1 (en) 2003-11-26
DE69726458T2 (de) 2004-08-26
SE9602627L (sv) 1998-01-04

Similar Documents

Publication Publication Date Title
Zhao et al. Robust speaker identification in noisy and reverberant conditions
Kleinschmidt Localized spectro-temporal features for automatic speech recognition.
Godino-Llorente et al. Automatic detection of voice impairments by means of short-term cepstral parameters and neural network based detectors
Mielke et al. A method for automated individual, species and call type recognition in free-ranging animals
Alonso et al. Automatic anuran identification using noise removal and audio activity detection
CN108847238A (zh) 一种新型服务机器人语音识别方法
CN111429935B (zh) 一种语音话者分离方法和装置
CA2382122A1 (en) Sound source classification
WO2007044377A2 (en) Neural network classifier for seperating audio sources from a monophonic audio signal
Jaafar et al. Automatic syllables segmentation for frog identification system
SE516798C2 (sv) Anordning och sätt för analys och filtrering av ljud
Valente et al. Hierarchical and parallel processing of modulation spectrum for ASR applications
Asadullah et al. An automated technique for cheating detection
Vasuki Research Article Speech Emotion Recognition Using Adaptive Ensemble of Class Specific Classifiers
CN110299133A (zh) 基于关键字判定非法广播的方法
Sheela et al. Linear discriminant analysis F-Ratio for optimization of TESPAR & MFCC features for speaker recognition.
Lupu et al. On the speaker verification using the TESPAR coding method
Patil et al. Goal-Oriented Auditory Scene Recognition.
Chollet et al. Nonlinear speech modeling and applications: advanced lectures and revised selected papers
Xie et al. Feature extraction based on bandpass filtering for frog call classification
Lakra et al. Selective noise filtering of speech signals using an adaptive neuro-fuzzy inference system as a frequency pre-classifier
Luberadzka et al. Estimating fundamental frequency and formants based on periodicity glimpses: A deep learning approach
JPH04276523A (ja) 音識別装置
Nowicki et al. Flight songs of swamp sparrows: alternative phonology of an alternative song category
Bajpai et al. Exploring features for audio clip classification using LP residual and AANN models

Legal Events

Date Code Title Description
NUG Patent has lapsed