SE516798C2

SE516798C2 - Anordning och sätt för analys och filtrering av ljud

Info

Publication number: SE516798C2
Application number: SE9602627A
Authority: SE
Inventors: Thomas Lagoe; Sven Olsson
Original assignee: Thomas Lagoe; Sven Olsson
Priority date: 1996-07-03
Filing date: 1996-07-03
Publication date: 2002-03-05
Also published as: WO1998000836A1; DE69726458D1; US6243671B1; AU3564097A; ES2210547T3; SE9602627D0; EP0978120A1; EP0978120B1; DE69726458T2; SE9602627L

Description

25 30 35 516 798 ningen till ett neuralt nät. De neurala näten har således inte avsedd verkan i de kända systemen eftersom de an- tingen får för mycket eller för lite information om sig- nalen. Samma nackdelar som för talidentifiering skulle uppkomma om man skulle försöka att använda de ovan nämnda systemen för klassificering av maskin- eller motorljud.

Den metod som idag oftast används vid klassificering av dylika ljud består i att man helt enkelt lyssnar på maskinerna med ett stetoskop. Ett erfaret och vältränat öra har nämligen många gånger visat sig vara det mest tillförlitliga hjälpmedlet vid klassificering och identi- fiering av olika fel- och missljud i exempelvis en motor.

Detta sätt att klassificera ljud för givetvis med sig en rad nackdelar. Att förlita sig på en persons hörsel är ju i sig vanskligt bl a eftersom hörseln förändras med tiden. Dessutom tar det lång tid för en person att träna upp sin ljudigenkänning till den grad att missbedömningar i mesta möjliga mån undviks. Det är således uppenbart att det finns ett behov av en anordning som undanröjer ovan nämnda nackdelar med känd teknik och som kan analysera och filtrera ljud för att på ett säkert och tillförlit- ligt sätt identifiera och klassificera olika ljudtyper och -mönster.

Uppfinningens ändamål Ett ändamål med föreliggande uppfinning är att till- handahålla en anordning för analys och filtrering av ljud som till skillnad från tidigare känd teknik möjliggör tillförlitlig klassificering och igenkänning av olika ljudtyper och -mönster.

Ett annat ändamål är att åstadkomma ett tillförlit- ligt sätt att analysera och filtrera ljud.

Sammanfattning av uppfinningen För att uppnå ändamálen har enligt uppfinningen åstadkommits en anordning och ett sätt enligt patentkra- vet 1 respektive 7. Fördelen med uppfinningen är att de två olika typerna av filtrering före den olinjära vikt- ningen plockar ut den information, såsom storheter, eller 10 15 20 25 30 35 516 798 '''' " 3 egenvärden, hos en insignal som är relevant vid analys och identifiering av ljud och som ger de bästa förutsätt- ningarna för en effektiv olinjär viktning.

En faktor som bidrog till lösningen enligt uppfin- ningen är insikt om att ett system för ljudanalys bör efterlikna hörselns sätt att analysera ljud, vilket kom- mer att utvecklas nedan.

Enligt en i patentkrav 2 definierad, föredragen ut- föringsform av anordningen, utgörs viktningsorganet av ett neuralt nät. Filterkombinationen är särskilt lämpad att användas tillsammans med ett neuralt nät, som därige- nom förses med en signal med ett lämpligt antal frihets- grader.

Såsom har nämnts ovan finns det idag ingen känd tek- nik som kan analysera ljudet från t ex en motor tillnär- melsevis lika bra som det mänskliga örat. Inte heller finns det något känt system som kan konkurrera med den mänskliga hörseln när det gäller att identifiera en viss röst. Ljudigenkänningen kräver dock att den lyssnande personen har ”lärt sig” det specifika ljudet, dvs nerv- systemet och hjärnan måste kunna relatera ljudet till ti- digare erfarenheter för att känna igen det. Uppfinningen bygger således på insikten att man för att analysera ljud på bästa sätt måste efterlikna ett optimalt, fulltränat mänskligt öra med tillhörande nervsystem. För att kunna analysera ljud på ett tillförlitligt sätt måste man först och främst inse att det nervsystem som är ansvarigt för att utvärdera de signaler som matas till örat inte kan betraktas som linjärt. Tvärtom reagerar hörseln olinjärt på bl a frekvensändringar. Föreliggande uppfinning bygger således också på insikten att hörseln bör betraktas som ett olinjärt system.

Kort beskrivning av ritningarna Fig 1 visar ett blockschema över anordningen för analys och filtrering av ljud enligt en föredragen utfö- ringsform av föreliggande uppfinning. 10 15 20 25 30 35 516 798 4 Fig 2 visar ett blockschema över anordningen för analys och filtrering av ljud enligt en annan föredragen utföringsform av föreliggande uppfinning.

Fig 3 visar ett flödesschema över sättet att analy- sera och filtrera ljud enligt en föredragen utföringsform av föreliggande uppfinning.

Beskrivning av föredragna utföringsformer Uppfinningen kommer att beskrivas närmare i det föl- jande med hänvisning till bifogade ritningar.

I fig l visas ett blockschema över anordningen 1 för ljudanalys och -filtrering enligt en föredragen utfö- ringsform av föreliggande uppfinning. Anordningen 1 inne- fattar ett frekvenslinjärt filter 2, ett frekvenslogarit- miskt filter 3 samt ett viktningsorgan 4. Viktningsorga- net 4 utgörs i denna utföringsform av ett neuralt filter.

Det linjära filtret 2 har 800 linjer och det logaritmiska filtret 3 har 32 tersband. Detta ger totalt 832 tidsigna- ler som medelst det neurala nätet 4 kombineras och viktas olinjärt.

Filterbankarna har till uppgift att filtrera en in- signal på så sätt att endast de parametrar som är intres- santa vid ljudanalysen släpps igenom. En sådan utsorte- ring av relevant information är möjlig tack vare de pa- rallella filterbankarnas egenskaper. Frekvenslinjära fil- ter har ju som bekant fixa filterbandbredder och därmed fixa storheter, såsom exempelvis konstant integrationstid och varians, medan dessa storheter varierar hos frekvens- logaritmiska filter. Denna parallella kombination av lin- jära och logaritmiska filter är nödvändig för filtrering och analys av ljud, eftersom ljudet är uppbyggt av icke stationära signaler. Att beakta ljudets icke stationära egenskaper är givetvis av stor vikt, men trots det har känd teknik inte fullt ut tagit fasta på detta faktum, utan har istället i flera fall approximerat ljudet med en stationär signal.

Ett flertal parametrar hos signalerna kan komma ifråga att beaktas vid den efterföljande viktningsproces- 10 15 20 25 30 35 « n n Q nu o 516 798 5 sen. Några av dessa är nivåstyrkor, energiinnehåll och tidsförlopp. Dessutom tas hänsyn till jämförelser mellan utsignalerna från det logaritmiska filtret respektive det linjära filtret. Exempelvis signaler som innehåller över- toner får ett helt annat utseende i tersband än i smal- band. Detta innebär att man genom att jämföra förekomsten av signalkomponenter i banden hos det linjära filtret re- spektive i banden hos det logaritmiska filtret kan regi- strera harmonier och disharmonier. Att genomföra denna harmonianalys innebär att man efterliknar den mänskliga hörselns funktion. För att fortsätta analogin med hörseln tar dessutom föreliggande uppfinning fasta på att en män- niska måste ha hört ett ljud tidigare för att kunna iden- tifiera det. Anordningen enligt föreliggande uppfinning använder således lärosekvenser med olika ljudmönster, så- som t ex en viss persons röst, ljudet fràn ett slitet lager i en motor, etc, för att lära systemet att känna igen dessa. Till varje nytt ljud bifogas information av- seende klassning, såsom t ex ”slitet lager” eller ”helt lager", så att systemet kan identifiera ljudet nästa gång det hör det. Inlärningen av ett nytt ljud innebär således att olinjär viktning av insignalerna från filterbankarna sker, varefter denna olinjära viktning sparas och klassi- ficeras för senare identifiering av ett liknande ljud.

Vad gäller själva identifieringsbeslutet så sker detta i ett beslutsorgan 5. Beslutsorganet 5 finns enligt denna utföringsform i viktningsorganet 4. Fig 2 visar en annan utföringsform där beslutsorganet 5 är anordnat utanför det neurala nätet 4. Beslutsorganet 5 fattar be- slut utifrån de inlärda sekvenserna och deras klassifi- cering. En insignal till anordningen 1 jämförs efter filtrering och olinjär viktning med de tidigare inlärda ljuden och det mest sannolika svaret väljs i beslutsorga- net 5 som insignalens identitet.

Fig 3 visar ett flödesschema över sättet att analy- sera och filtrera ljud enligt en föredragen utföringsform av föreliggande uppfinning. Insignalen till anordningen 1 uu 10 15 20 25 30 35 516 798 šïï* 6 filtreras parallellt i steget A efter parallell matning till det frekvenslinjära filtret 2 samt det frekvensloga- ritmiska filtret 3. Därefter kombineras och viktas i ste- get B de resulterande utsignalerna från de båda filtren 2, 3 olinjärt i det neurala nätet 4 enligt beskrivningen ovan. Slutligen, i steget C, matas signalen från det neu- rala nätet 4 till beslutsorganet 5 där ett beslut fattas avseende signalens identitet.

Föreliggande uppfinning åstadkommer alltså en till- förlitlig ljudanalys genom att efterlikna den mänskliga hörseln. De parallella filterbankarna bryter ned en ljud- signal i sina beståndsdelar, och viktningsorganet viktar och kombinerar sedan dessa komponenter olinjärt utifrån för hörseln relevanta storheter, såsom nivåer, harmonier, etc. Viktningen sparas och klassificeras sedan för att kunna användas då ett ljud skall identifieras, varvid den sparade Viktningen jämförs med Viktningen för det ljud som skall identifieras.

Alternativa utföringsformer Modifieringar av anordningen och sättet enligt upp- finningen kan komma ifråga inom ramen för uppfinningen.

Några exempel följer nedan.

Anordningen och sättet enligt uppfinningen kan även användas för att alstra en viss signal. I detta fallet lär man upp systemet genom en inlärningsprocess, såsom diskuterats ovan, och använder sedan de sparade Viktning- arna för att generera en kopia av den inlärda signalen.

Antalet linjer hos det frekvenslinjära filtret är enligt en föredragen utföringsform angivet till 800 stycken, dock kan andra linjeantal tänkas beroende på tillämpningens art. Detsamma gäller banden hos det fre- kvenslogaritmiska filtret som ingalunda är begränsat till 32 stycken tersband, utan fler eller färre band av olika typer kan vara lämpligt beroende på tillämpning.

På samma sätt kan de parametrar som används vid Viktningen variera utifrån önskade egenskaper hos anord- ningen enligt uppfinningen. 516 798 7 Den olinjära viktningen kan åstadkommas med analoga eller digitala system istället för med ett neuralt nät.

Dessa system kan ha mer eller mindre fasta filterstruktu- rer beroende på aktuell tillämpning.

Det frekvenslogaritmiska filtret skulle kunna åstad- kommas med hjälp av Wavelet-transformer.

Claims

10 15 20 25 30 516 798 8 PATENTKRAV

1. Anordning för analys och filtrering av ljud, vil- ken anordning tar emot en insignal, k ä n n e t e c k - n a d av att den innefattar åtminstone ett frekvenslin- järt filter, åtminstone ett frekvenslogaritmiskt filter för parallell filtrering av insignalen, och ett vikt- ningsorgan för kombinering och olinjär viktning av utsig- nalerna från det frekvenslinjära filtret och det fre- kvenslogaritmiska filtret.

2. Anordning enligt patentkrav 1, k ä n n e - t e c k n a d av att viktningsorganet utgörs av ett neu- ralt nät.

3. Anordning enligt patentkrav 1 eller 2, k ä n n e t e c k n a d av att det frekvenslinjära filt- ret består av 800 linjer.

4. Anordning enligt patentkrav 1, 2 eller 3, k ä n n e t e c k n a d av att det frekvenslogaritmiska filtret består av 32 tersband.

5. Anordning enligt något av patentkraven l-4, k ä n n e t e c k n a d av att den innefattar ett be- slutsorgan för beslut avseende en insignals identitet.

6. Anordning enligt patentkrav 5, k ä n n e - t e c k n a d av att viktningsorganet innefattar be- slutsorganet.

7. Sätt att analysera och filtrera ljud, k ä n n e - t e c k n a t av stegen: att ljudsignalen parallellt filtreras i ett fre- kvenslinjärt filter och i ett frekvenslogaritmiskt fil- ter; och att de parallella utsignalerna från det frekvenslin- jära filtret och från det frekvenslogaritmiska filtret kombineras och viktas olinjärt medelst ett viktningsor- gan.