NO338702B1 - Fremgangsmåte for å generere skjulte rammer i kommunikasjonssystem - Google Patents
Fremgangsmåte for å generere skjulte rammer i kommunikasjonssystem Download PDFInfo
- Publication number
- NO338702B1 NO338702B1 NO20074349A NO20074349A NO338702B1 NO 338702 B1 NO338702 B1 NO 338702B1 NO 20074349 A NO20074349 A NO 20074349A NO 20074349 A NO20074349 A NO 20074349A NO 338702 B1 NO338702 B1 NO 338702B1
- Authority
- NO
- Norway
- Prior art keywords
- samples
- hidden
- sequence
- buffered
- subsequences
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 167
- 238000004891 communication Methods 0.000 title description 12
- 230000006870 function Effects 0.000 claims description 51
- 230000005236 sound signal Effects 0.000 claims description 29
- 238000009499 grossing Methods 0.000 claims description 27
- 230000002441 reversible effect Effects 0.000 claims description 21
- 238000001914 filtration Methods 0.000 claims description 20
- 230000004044 response Effects 0.000 claims description 17
- 238000005457 optimization Methods 0.000 claims description 16
- 238000013016 damping Methods 0.000 claims description 8
- 239000000203 mixture Substances 0.000 claims description 8
- 230000036961 partial effect Effects 0.000 claims description 7
- 230000008707 rearrangement Effects 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000004807 localization Effects 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims 1
- 239000013598 vector Substances 0.000 description 29
- 239000000872 buffer Substances 0.000 description 28
- 230000002123 temporal effect Effects 0.000 description 19
- 230000008569 process Effects 0.000 description 11
- 230000006978 adaptation Effects 0.000 description 10
- 239000011159 matrix material Substances 0.000 description 10
- 230000001419 dependent effect Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 9
- 230000005284 excitation Effects 0.000 description 8
- 238000002156 mixing Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000001934 delay Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 238000002715 modification method Methods 0.000 description 5
- 238000012952 Resampling Methods 0.000 description 4
- 230000003139 buffering effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000737 periodic effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000010349 pulsation Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000008054 signal transmission Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 208000003028 Stuttering Diseases 0.000 description 1
- 241001105470 Valenzuela Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
- H04L65/764—Media network packet handling at the destination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/18—Automatic or semi-automatic exchanges with means for reducing interference or noise; with means for reducing effects due to line faults with means for protecting lines
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Complex Calculations (AREA)
- Time-Division Multiplex Systems (AREA)
- Dc Digital Transmission (AREA)
- Mobile Radio Communication Systems (AREA)
- Filters That Use Time-Delay Elements (AREA)
- Telephonic Communication Services (AREA)
- Apparatus For Radiation Diagnosis (AREA)
- Communication Control (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
- Superconductors And Manufacturing Methods Therefor (AREA)
- Noise Elimination (AREA)
Description
FREMGANGSMÅTE FOR Å GENERERE SKJULTE RAMMER I
KOMMUNIKASJONSSYSTEM
Oppfinnelsens område
Oppfinnelsen angår telekommunikasjonssystemer og især angår oppfinnelsen en fremgangsmåte, en innretning og en anordning som kompenserer for tap og/eller forsinkelses]itter og/eller klokke- eller taktvridning av signalpakker for å forbedre kvaliteten av signalover-føringen over trådløse telekommunikasjonssystemer og pakkesvitsjede nett.
Bakgrunn for oppfinnelsen
Moderne telekommunikasjon er basert på digital overføring av signaler. Pa Fig. 1 oppfanger f.eks. en sender 200 et lydsignal fra en kilde 100. Kilden kan være resultatet av en eller flere personer som snakker sammen og andre akustiske bølgekilder som oppsamles av en mikrofon, eller den kan være et lydsignallagrings- eller genereringssystem, f.eks. en tekst-til-tale-syntese eller dialogsystem. Hvis kildesignalet er analogt blir det konvertert til en digital fremstilling ved hjelp av en analog-til-digital konverter. Den digitale fremstilling blir deretter kodet og plassert i pakker ifølge et format som egner seg for den digitale kanalen 300. Pakkene blir overført over den digitale kanalen. Den digitale kanalen omfatter typisk flere abstraksjonslag.
Ved abstraksjonslaget på FIG. 1 mottar den digitale kanal en pakkesekvens som input og leverer en pakkesekvens som et utsignal. Pa grunn av svekkelser i kanalen som typisk forårsaker støy, uregelmessigheter og overbelastning, blir typisk den utsendte pakkesekvens forurenset med tap av enkelte pakker og forsinkelser i ankomsttiden og forsinkelses-forstyrrelser for andre pakker. Videre kan forskjell i taktgiveren i sender og mottaker føre til taktvridning. Det er oppgaven til mottakeren 400 å dekode de mottatte datapakkene og konvertere de dekodede digitale fremstillingene fra pakkestrømmen og dekode disse til digitale signalfremstillinger og videre konvertere disse til et dekodet lydsignal i et format som egner seg for å sendes til signalmottakeren 500. Signalmottakeren kan være en eller flere personer som blir presentert for det dekodede lydsignal ved hjelp av f.eks. en eller flere høyttalere. Alternativt kan signalmottaker være et tale- eller audiolagringssystem eller et tale- eller audiodialogsystem eller en gjenkjenner.
Det er oppgaven til mottakeren nøyaktig å kunne reprodusere et signal som kan presenteres for signalmottakeren. Når signalmottakeren direkte eller indirekte omfatter lyttere, er det et formål med mottakeren å oppnå en fremstilling av lydsignalet, som når det presenteres for lytteren, nøyaktig reproduserer det oppfattede inntrykk og informasjonen i det akustiske signalet fra kilden eller kildene. For å utføre denne oppgave i det vanlige tilfellet hvor kanalen svekker den mottatte pakkesekvens, med tap, forsinkelse, forsinkelsepulseringer og takt- eller klokkevriding, er det nødvendig med en effektiv skjuling som en del av mottakerens delsystem.
Som et eksempel, er en mulighet for implementering av en mottakers delsystem for å oppnå dette, vist på FIG. 2. Som vist på figuren, blir innkommende pakker lagret i en pulserings-eller jitterbuffer 410 hvorfra en dekodings- og skjuleenhet 420 henter de mottatte, kodede signalfremstillinger og dekoder og skjuler disse kodede signalfremstillingene for å oppnå signalfremstillinger som egner seg for lagring i en avspillingsbuffer 430 og etterfølgende avspilling. Kontrollen av når skjulingen skal igangsettes og de spesifikke parametere i denne skjuling, f.eks. lengde av det skjulte signal, kan f.eks. utføres av en styreenhet 440 som overvåker innholdet av jitterbufferen og avspillingsbufferen og styrer bruken av dekodings-og skjuleenheten 420.
Skjulingen kan også oppnås som en del av et kanaldelsystem. FIG. 3 viser et eksempel på et kanal-delsystem hvor pakkene blir videresendt fra en kanal 310 til en kanal 330 via et delsystem 320, som senere vil bli benevnt som relé. I praktiske systemer kan reléfunksjonen oppnås av enheter som kan være av forskjellig type, f.eks. rutere, proxyservere, kant-servere, nettverksaksess-styreenheter, trådløse lokale nettverksstyreenheter, voice-over-IP-porter, mediaporter, ikke lisensierte nettverksstyreenheter og andre. I nærværende sammenheng er alle disse eksempler på relésystemer.
Et eksempel på et relésystem som kan foreta audioskjuling, er vist på FIG.4. Som vist på figuren, blir pakker videresendt fra et inngangsbuffer 310 til et utgangsbuffer 360 via pakkesvitsjede delsystemene 320 og 350. Styreenheten 370 overvåker inn- og utbufferne og som resultat av denne overvåkning, foretar beslutninger om eventuell transkoding og skjuling er nødvendig. Hvis dette er tilfellet, vil svitsjene føre pakkene videre via transkodings- og skjuleenheter 330. Hvis dette ikke er tilfellet, vil svitsjene føre rammene videre via det minimale protokolldelsystem 340 som vil foreta et minimum av operasjoner på pakkehodefeltene for å holde seg innenfor protokollene. Dette kan omfatte trinn med å endre sekvensnummeret og tidsstemplet for pakkene.
Ved overføring av audiosignaler ved å bruke systemeene som er beskrevet som ikke-begrensende eksempler, er det et behov for skjuling av tap, forsinkelse, forsinkelsejitter og/eller klokke- eller taktvridning av signaler som er representative eller delvis representative for lydsignalet. Kjente teknikker for å møte denne oppgave med skjuling på, kategoriserer i frekvensrepetisjons- og tidsskalamodifikasjonsmetoder.
Frekvensrepetisjoner som kan forekomme i oscillatormodellen er basert på et estimat av frekvensperioden i stemt tale eller alternativt i beregningen av den tilsvarende grunn-frekvens av det stemte talesignal. Ved en frekvensperiode oppnås en skjult ramme ved gjentatt avlesning av den siste frekvensperiode. Uregelmessigheter ved begynnelsen og slutten av den skjulte rammen og mellom hver repetisjon av frekvensperioden kan glattes ut ved å bruke en vinduoverlappaddisjonsprosedyre. Se WO 01/48736 og anbefalingen fra Den Internasjonale Telekommunikasjonsunion ITU-T G.711, Tillegg 1 for eksempler på frekvens-repetisjonsmetoden. Kjente systemer integrerer frekvensrepetisjonsbasert skjuling i dekodere basert på prinsippet med linear prediktiv koding. I disse systemene blir f re kve ns-repetisjonen typisk oppnådd i det lineære, prediktive eksiteringsdomenet ved en avlesning fra langtidsprediktoren eller en tilpasset kodeboksløyfe. Se US 5,699,481, anbefalingen fra Den Internasjonale Telekommunikasjonsunion ITU-T G.729 og Internet Engineering Task Force Request for Comments 3951 for eksempler på frekvensrepetisjon basert skjuling i det lineære prediktive eksiteringsdomenet. Ovennevnte fremgangsmåter gjelder i forbindelse med skjuling av tap eller en økende forsinkelse, dvs. en positiv forsinkelsesjitter og situasjoner med inngangs- eller jitterbufferunderflyt eller nær underflyt, f.eks. på grunn av taktvridning. For å skjule en avtagende forsinkelse, en negativ forsinkelsesjitter eller en inngangs- eller jitterbufferoverflyt, eller nesten overflyt, er det nødvendig med en generering av et forkortet skjulesignal. Frekvensbaserte fremgangsmåter oppnår dette ved en overlappaddisjonsprosedyre mellom en frekvensperiode og en tidligere frekvensperiode. Se WO 01/48736 for et eksempel på denne fremgangsmåte. WO 00/63881 vedrører en fremgangsmåte og et apparat for utføring av pakketap eller rammeslettingshemmeligholdelse (Frame Erasure Concealment, FEC) for en talekodingsinnretning eller -programmerer som ikke har en innebygd eller standard FEC-prosess.
Igjen kan dette oppnås ved å utnytte mulighetene i lineære, prediktive dekodere. Som et eksempel viser US 5,699,481 en fremgangsmåte ved hvilken faste kodebokbidragsvektorer ganske enkelt blir forkastet fra reproduksjonssignalet og bruker tilstanden til den tilpassede kodebok for å sikre frekvensperiodisitet i det reproduserte signalet. I forbindelse med frekvensrepeteringsfremgangsmåten, er et formål å oppnå en sømløs signalfortsettelse fra den skjulte ramme til den neste ramme. WO 01/48736 beskriver en fremgangsmåte for å oppnå dette. Ved oppfinnelsen beskrevet i WO 01/48736, oppnås dette ved hjelp av skjulerammer av tidsvarierende og eventuelt signalavhengig lengde. Mens dette effektivt kan sikre en sømløs signalfortsettelse i forbindelse med skjuling av forsinkelsesjitter og taktvridning, innfører denne løsningen en ulempe i forbindelse med systemer av den type som er vist på Fig. 4. Ifølge denne type skjuling, kan ikke en koding av skjulingen til rammer av en bestemt, fast lengde som kobles sømløst til allerede kodede rammer som fortrinnsvis blir videresendt via den minimale protokollmedvirkning 340, garanteres.
Et gjentagende problem ved frekvensrepetisjonsbaserte fremgangsmåter for å skjule tap og brått økende forsinkelse på, er at repetisjonen av frekvenssyklusene gjør at det reproduserte signalet låter unaturlig. Mer spesifikt blir dette audiosignalet for periodisk. I de verste tilfellene oppfattes såkalte strengelyder i det reproduserte lydsignalet. Det fins i dag tallrike fremgangsmåter for å løse dette problemet på. Disse fremgangsmåtene omfatter bruk av repetisjonsperioder som er dobbelt eller tre ganger så lange som den beregnede frekvensperiode. Som eksempel beskriver Internet Engineering Task Force Request For Comments 3951 en fremgangsmåte hvor to ganger den beregnede frekvensperiode brukes hvis den beregnede frekvensperiode er mindre enn 10 ms. Som et annet eksempel beskriver den Internasjonale Telekommunikasjonsunion i sin anbefaling ITU-T G.711 Tillegg 1 en fremgangsmåte hvor det innføres en dobling og senere en tredobling av repetisjonsperioden for å gjenta to og senere tre frekvenssykluser, snarere enn å gjenta en enkelt frekvensperiode. Se anbefalingen ITU-T G.711 Tillegg 1 fra den Internasjonale Telekommunikasjonsunion for en fullstendig beskrivelse av denne fremgangsmåten. Videre blir en blanding av det skjulte signalet med en vilkårlig, eller en vilkårlig-lignende signalkomponent, med et nivå som er avhengig av det stemte talenivå i talesignalet og en gradvis dempning av det skjulte signalet, typisk innført for å minske strengelyder. I enkelte tilfeller blir dette vilkårlig- lignende signalet avledet av behandlinger av det bufrede signalet, eller ved å bruke hjelpe-midler som f.eks. slumpkodebøker som allerede fins i dekoderen. Se US 5,699,481, den Internasjonale Telekommunikasjonsunions anbefaling ITU-T G.729 og Internet Engineering Task Force Request For Comments 3951 for eksempler på bruk av slike systemer. Gradvis dempning blir også brukt for å undertrykke innførte fremmedelementer. Dette kan være det beste valget som oppfattet av en nær sluttlytter, gitt den underliggende skjulemetoden. En fjern sluttlytter kan, i en situasjon med ekkoretur og et adaptivt filter for å utligne ekkoet, tolke effekten av denne dempningen som vesentlig negativ. Dette på grunn av at dempningen minsker vedvaringen av eksiteringen fra den adaptive ekkokansellerer. Derved vil sporingen av dette til den faktiske ekkobanen svekkes og den fjerne sluttlytteren kan oppleve en større ekkoretur.
Tidsskalamodifikasjonsmetoder av den typen som er beskrevet hos f.eks. Linag, Farber og Girod, "Adaptive Playout Scheduling and Loss Concealment for Voice Communication over IP Networks", IEEE Transactions on Multimedia, vol. 5, nr. 4, s. 532-543, Dec. 2003, fungerer via en tilsvarende glatt overlapningsaddisjonsprosedyre. I denne, blir et signalsegment bufret, men et ennå ikke avspilt signal blir glatt vindusformet og identifisert som malsegmentet, og deretter blir andre glatte vindussegmenter søkt for å identifisere det tilsvarende segment, der likheten f.eks. kan være i korreleringsmålet. Det glatte vindus-malsegmentet og det glatte vindusformede, tilsvarende segment blir deretter overlappet og addert for å frembringe det tidsskalerte, modifiserte signal. Når avspillingstidsskalaen blir forlenget, blir søkeområdet for det tilsvarende segment plassert før malsegmentet i sampeltid. Når avspillingstidsskalaen på den annen side blir komprimert, blir søkeområdet for det tilsvarende segmentet anbragt foran malsegmentet i sampeltid. I kjente tidsskalamodifikasjonsmetoder, blir lengden av malen og det tilsvarende segment og vinduene brukt på disse, forhåndsdefinert før tidsskalamodifikasjonen blir utført, idet disse størrelsene ikke blir tilpasset som svar på egenskapene av det bestemte signalet som tidsskalamodifikasjonen blir brukt på. Som observert i Linag, Farber og Girod, "Adaptive Playout Scheduling and Loss Concealment for Voice Communication over IP Networks", IEEE Transactions on Multimedia, vol. 5, nr. 4, s. 532-543, Dec. 2003, med kjent tidsskala tidsskalamodifikasjon, kan spissforsinkelser ikke effektivt forbedres fra et utgangspunkt i en planlagt avspilling med liten forsinkelse som er nødvendig i en toveis talekommunikasjon i sanntid over pakkenettverk.
Andre fremgangsmåter med likhetspunkter til tidsskalamodifikasjon og frekvensrepetisjons-metoder, er kjent. En type som skal nevnes i denne forbindelse, er sinusbaserte skjule-metoder. Se f.eks. Rødbro og Jensen, "Time-scaling of Sinusoids for Intelligent Jitter Buffer in Packet Based Telephony", i IEEE Proe. Workshop on Speech Coding, 2002, s. 71-73. Avhengig av interpoleringsmengden, henholdsvis frekvensepetisjon som oppnås via sinusmodelldomenet av disse fremgangsmåtene, vil disse fremgangsmåtene være utsatt for de samme begrensninger som identifisert for frekvensrepetisjons- og tidsskalamodifikasjons-metodene nevnt ovenfor.
Oppsummering av oppfinnelsen
Den beskrevne oppfinnelse eller snarere utførelsene av den, minsker effektivt ovennevnte begrensninger i kjente løsninger med f.eks. hørbare artifakter samt andre ikke-spesifikke mangler i de kjente løsningene.
Sammenlignet med kjente frekvensrepetisjonsbaserte metoder, tilveiebringer oppfinnelsen spesifikt teknikker for å generere skjulte signaler som er representative for lydsignalet og hvor disse skjulte signalene inneholder vesentlig færre, oppfatningsbart forstyrrende artifakter som f.eks. strengelyder. Derved forbedres en begrensning i disse systemene, med en direkte forbedret, oppfattet lydkvalitet som resultat. Dette oppnås ved samtidig å innføre vesentlig mindre dempning i de skjulte signalene som derved forbedreren andre begrensning i frekvensrepetisjonsbaserte systemer. Denne forbedring av den andre begrensning gir en direkte forbedret, oppfattet kvalitet av det skjulte signalet ved den nære endesiden av kommunikasjonen. Videre gir forbedringen av den andre begrensning i systemer med akustisk ekko og et adaptivt filter ved den nære ende for å minske effekten av akustisk ekko, som oppfattet i den fjerne ende, en forbedret, oppfattet kvalitet ved den fjerne endeside av kommunikasjonen. Denne andre effekt oppnås ved de skjulte signalene ifølge oppfinnelsen, siden de gir mindre dempning og gir en mer vedvarende eksitering for tilpasningen av det adaptive ekkokanselleringsfilteret. Videre overgår evnen av den beskrevne teknikk til å behandle akustisk bakgrunnsstøy, kjente frekvens-repetisjonsbaserte metoder.
Videre, og spesifikt sammenlignet med kjente tidsskalamodifikasjonsmetoder, skjuler oppfinnelsen spissforsinkelser i et system med lav-forsinkelsesavspilling eller ut-buffer plan-legging, som kreves ved toveis talekommunikasjon i sanntid over pakkenettverk. Derved forbedres denne store begrensning ved kjent tidsskalamodifikasjon
I et første aspekt tilveiebringer oppfinnelsen en fremgangsmåte for å generere en sekvens av skjulte sampler i forbindelse med overføring av et digitalisert audiosignal, der fremgangsmåten omfatter å generere sekvensen av skjulte sampler fra bufrede sampler av den digitaliserte fremstilling av audiosignal i sampeltidsrekkefølge, der minst to konsekutive delsekvenser av sampler i sekvensen av skjulte sampler er basert på delsekvenser av bufrede sampler, der delsekvensene av bufrede sampler er konsekutive i omordnet tid.
Følgende definisjoner gjelder for det første aspekt og vil bli brukt gjennom beskrivelsen. Med "sampel" forståes et sampel fra et digitalisert audiosignal, eller fra et signal avledet derav, eller koeffisienter eller parametre som er representative for slike signaler, idet disse koeffisientene eller parametrene er skalar- eller vektorverdsatt. Med "ramme" forståes et sett av konsekutive sampler som bruker ovennevnte definisjon av sampel. Med "delsekvens" forståes et sett av ett eller flere konsekutive sampler som bruker ovennevnte definisjon av sampel. Således er en delsekvens i et spesielt tilfelle lik et sampel. Ved bruk av f.eks. overlappaddisjon, kan to konsekutive delsekvenser omfatte overlappende sampler. Avhengig av valg av rammer kan en delsekvens strekke seg mellom to konsekutive rammer. I fore trukne utførelser er delsekvensene anordnet slik at én delsekvens ikke kan være et delsett av en annen delsekvens.
Fortrinnsvis er de minst to konsekutive delsekvenser av sampler i sekvensen av skjulte sampler basert på delsekvenser av bufrede sampler som er konsekutive i omvendt tidsrekke-følge. I foretrukne utførelser omfatter en sekvens av skjulte sampler således konsekutive delsekvenser, som f.eks. konsekutive sampler, som er basert på konsekutive, bufrede sampler i omvendt tidsrekkefølge. F.eks. kan to, tre, fire eller flere konsekutive delsekvenser av sampler i sekvensen av skjulte sampler være basert på delsekvenser av bufrede sampler som er konsekutive i omvendt tidsrekkefølge. Med andre ord omfatter den genererte, skjulte sekvensen fortrinnsvis deler som er basert på en mer eller mindre direkte, omvendt avspilling av bufrede sampler. I en foretrukket utførelse omfatter sekvensen av skjulte sampler et sett av konsekutive sampler av bufrede sampler i omvendt tidsorden. Ved å beregne minst en del av en sekvens av skjulte sampler basert på bufrede sampler ved å bruke denne fremgangsmåte med omordning eller omvendt rekkefølge, oppnås en mer naturlig lydskjulesekvens uten ulempen med strengeeffekter fra kjent teknikk og som videre bidrar til også å eliminere eller redusere flere andre artifakter.
Den beskrevne fremgangsmåte har et stort antall fordeler i forbindelse med kommunikasjons-systemer, som f.eks. VoIP-systemer. Her blir digitaliserte talesignaler overført i rammer og hvor kommunikasjonen utsettes for rammetap og jitter vil det være behov for en skjult sekvens av sampler for minst delvis å redusere en hørbar og irriterende avbrytelse av signalet.
I foretrukne utførelser, er en plassering av de bufrede sampler anbragt ved et punkt som evolverer gradvis bakover og forover i sampeltid under genereringen av sekvensen av skjulte sampler. Dette kan implementeres av en indeksmønstergenerator som styrer denne tidsmessige evolusjon. Ved å analysere bufrede sampler, vil denne indeksmønster-generatoren kunne velge start, stopp og hastighet av omvendte, tidsmessige evolusjons-passasjer, idet den også styrer foroverevolusjon av start, stopp og hastighet og et mønster ved hvilket omvendt, tidsmessig evolusjon og forover tidsmessig evolusjon blir sekvensiert for å produsere en naturlig lydende, skjult sekvens.
Sekvensen av skjulte sampler kan begynne med en delsekvens basert på en delsekvens av de bufrede samplene som befinner seg sist i tidsrekkefølge.
Delsekvensenes omordningen i tid kan være basert på en sekvensiell prosess med indeksering og lesning av sampler forover i tid og trinnvis bakover i tid. Fortrinnsvis omfatter den sekvensielle prosess med indeksering og lesning, trinnene med å a) indeksere et bufret sampel ved å gå trinnvis et antall bufrede sampler bakover i tid etterfulgt av trinnet med å b) lese et antall bufrede sampler forover i tid, med begynnelse fra det bufrede sampel indekseret i trinn a) og bruke de leste samplene for beregning av en
delsekvens av sekvensen av skjulte sampler,
der antallet bufrede sampler lest forover er forskjellig fra antallet bufrede sampler flyttet trinnvist bakover. Når dette antallet er forskjellig, unngås periodisiteten som fører til unaturlige strengelyder. Denne fremgangsmåte kalles også "tilbaketrinn" og "leselengder" i den detaljerte beskrivelse av utførelser nedenfor.
Antallet bufrede sampler lest forover kan være større eller mindre enn antallet bufrede sampler flyttet trinnvist bakover. Fortrinnsvis er antall bufrede sampler lest forover mindre enn antallet bufrede sampler lest bakover. Dette valget vil føre til en fremgangsmåte som gradvis evolverer bakover i tid i de bufrede samplene og således tilveiebringe en skjult sekvens hvor etterfølgende sampler blir gradvis basert på eldre, bufrede sampler, hvoretter en foroverevolusjon blir initiert.
Delsekvensene av sekvensen av skjulte sampler kan beregnes fra delsekvenser av bufrede sampler ved å bruke en vektet overlappaddisjonsprosedyre. De vektede funksjonene i den vektede overlappaddisjonsprosedyre kan i tillegg være en funksjon av frekvens. Den vektede overlappaddisjonsprosedyre kan modifiseres som svar på en tilsvarende kvalitetsindikator som er et mål på to eller flere delsekvenser av sampler som er lagt inn i den vektede overlappaddisjonsprosedyre.
Omordning i tid kan delvis beskrives med en bakover- og foroverevolusjon av en lokaliseringspeker. Fortrinnsvis er bakoverevolusjon av lokaliseringspekeren begrenset av bruken av stoppekriterier. Stoppekriteriene for bakoverevolusjonen, hastigheten av forover-og bakoverevolusjonen and antallet initierte bakoverevolusjoner kan sammen optimeres for å optimere lydkvaliteten som fortolket av en lytter.
Fortrinnsvis blir en utglattings- og utligningsoperasjon brukt på de bufrede samplene. Dette kan utføres enten før samplene blir bufret, mens de er i buffer, eller like før samplene blir brukt for å beregne skjulte sampler. Stoppekriteriene for bakoverevolusjon, hastigheten av foroverevolusjonen og bakoverevolusjonen, antallet initierte bakoverevolusjoner og utglattings- og utligningsoperasjonen kan optimeres sammen for å optimere lydkvaliteten slik den fortolkes av en lytter.
Bakover- og foroverevolusjonen av lokaliseringspekeren kan optimeres sammen for å optimere lydkvaliteten slik den fortolkes av en lytter.
Fortrinnsvis blir en fasefiltrering brukt for å minimere diskontinuiteter ved grensene mellom sekvensen av skjulte sampler og en konsekutiv ramme av sampler. Innføring av fasefiltrering hjelper til å redusere de velkjente problemer med diskontinuiteter ved innføring av en skjult sekvens. I de tilfellene det innføres fasefiltrering, kan den nevnte samlede optimering også omfatte signalforvrengning forårsaket av fasefiltrering, f.eks. for å optimere lydkvaliteten slik den oppfattes av en lytter.
En lydmiksing kan innføres i sekvensen av skjulte sampler. Spesielt kan lydmiksing innføres i sekvensen av skjulte sampler og der lydmiksing blir modifisert som svar på den sekvensielle fremgangsmåte med indeksering av sampler forover i tid og trinnvis bakover i tid. I slike tilfeller omfatter den sekvensielle fremgangsmåte med indeksering av sampler forover i tid og trinnvis bakover i tid og responsen på dette, bruk av en tilsvarende kvalitetsindikasjon.
En dempefunksjon kan brukes i sekvensen av skjulte sampler. Spesielt kan en slik dempefunksjon modifiseres som svar på den sekvensielle prosess med indeksering av sampler forover i tid og trinnvis bakover i tid. Den sekvensielle fremgangsmåte med indeksering av sampler forover i tid og trinnvis bakover i tid og responsen på dette kan omfatte bruk av en tilsvarende kvalitetsindikasjon.
Fortrinnsvis blir et resulterende antall sampler i sekvensen av skjulte sampler forhåndsinnstilt. F.eks. kan et antall sampler i en skjult ramme være fast. Antallet sampler er fortrinnsvis uavhengig av det digitaliserte audiosignals egenskaper. Det forhåndssatte antall sampler har fortrinnsvis en forhåndsinnstilt integerverdi i området 5-1000, f.eks. i området 20-500, fortrinnsvis avhengig av den faktiske sampelfrekvens.
Sekvensen av skjulte sampler kan være omfattet i én skjult ramme. Fremgangsmåten kan videre omfatte generering av minst en andre, skjult ramme konsekutiv til den første, skjulte ramme, idet den andre ramme omfatter en andre sekvens av skjulte sampler. Sekvensene av skjulte sampler i første og andre skjulte rammer er fortrinnsvis forskjellig, d.v.s. at konsekutive eksemplarer av skjulte rammer fortrinnsvis blir unngått. Bruk av rammer med forskjellige skjulte sekvenser fører til en mer naturlig lydskjuling. Fortrinnsvis omfatter første og andre skjulte ramme samme antall sampler.
Fortrinnsvis blir minst én delsekvens av sampler in den andre, skjulte ramme minst delvis basert på delsekvenser av bufrede sampler lengre bakover i tid enn noen av delsekvensene av sampler i den første, skjulte ramme. Således blir senere skjulte rammer fortrinnsvis basert på eldre, bufrede sampler.
I et andre aspekt tilveiebringer oppfinnelsen en programkode som kan kjøres på en datamaskin, og som er tilpasset for å utføre fremgangsmåten ifølge det første aspekt. En slik programkode kan skrives i en maskinavhengig eller en maskinuavhengig form og i ethvert programmeringsspråk, f.eks. et maskinkode eller høynivå programmeringsspråk.
I et tredje aspekt tilveiebringer oppfinnelsen en programlagringsenhet som omfatter en sekvens av instrukser for en mikroprosessor, f.eks. en generell mikroprosessor for å utføre fremgangsmåten ifølge det første aspekt. Lagringsenheten kan være enhver type data-lagringsanordning, f.eks. disker, minnekort eller minnepinner, harddisk osv.
I et fjerde aspekt tilveiebringer oppfinnelsen en anordning, f.eks. en innretning eller et apparat for å motta et digitalisert audiosignal omfattende: minneanordning for å lagre sampler som er representative for det mottatte
digitaliserte audiosignal, og
prosessormidler for å utføre fremgangsmåten i henhold til det første aspektet.
Implementering av oppfinnelsen på tilfredsstillende måte, f.eks. slik som beskrevet for de foretrukne utførelser nedenfor, gjør det mulig for en dekoder og et skjulesystem og/eller en transkoder og et skjulesystem effektivt å skjule sekvenser av tapte eller forsinkede pakker uten å innføre merkbare, irriterende elementer. Dette oppnås videre med en robusthet mot akustisk bakgrunnsstøy og flere høyttalere og uten å innføre hurtig fading. Den økte robusthet oppnås siden metodeoverensstemmelsen, via den tidsmessige evolusjon, er mindre avhengig av en streng signalperiodisitet enn repetisjonsbaserte metoder. Derved gjør oppfinnelsen det mulig å oppnå en høykvalitets toveis kommunikasjon av tale i situasjoner med akustisk bakgrunnsstøy, akustisk ekko og/eller alvorlig klokke- eller taktvridning, kanaltap og/eller forsinkelsesvariasjoner.
Kort beskrivelse av tegningene
Oppfinnelsen skal beskrives nærmere i det følgende med henvisning til de vedføyde tegningene, der: Fig. 1 er et blokkskjema som viser et kjent ende-til-ende-pakkesvitjset lydoverføringssystem som er utsatt for virkningene av tap, forsinkelse, forsinkelsesvariasjoner og/eller klokke-eller taktvridning, Fig. 2 er et eksempel på et mottakerdelsystem som tilveiebringer jitter-bufring, dekoding og skjuling og avspillingsbufring under styring av en styreenhet, Fig. 3 er et blokkskjema som viser et relédelsystem av en pakkesvitsjet kanal som utsettes for effekten av klokkevridning, tap, forsinkelse og forsinkelsesjitter, Fig. 4 er et eksempel på et relédelsystem med innbufring, utbufring og om nødvendig transkoding og skjuling under kontroll av en styreenhet,
Fig. 5 er et blokkskjema som viser et sett av foretrukne utførelser av oppfinnelsen,
Fig. 5A er et riss av delsekvenser i skjulte rammer som begynner med delsekvenser som er basert på de sist bufrede delsekvenser i omvendt tidsorden, Fig. 5B viser et annet eksempel på en større sekvens av delsekvenser i skjulte rammer som begynner med de siste to bufrede delsekvenser i omvendt tidsorden, og hvor etterfølgende delsekvenser er basert på bufrede delsekvenser videre bakover i tid, Fig. 5C viser sampeltellingsindekser i et indeksert mønster formattert av trinn bakover og lese lengder.
Fig. 6 er et riss av signaler i forbindelse med indekserings- og interpoleringsfunksjonen.
Fig. 7 er et flytskjema som viser en mulig måte å implementere en beslutningslogikk for stoppe krite rier, Fig. 8 er et flytskjema som viser en mulig måte å oppnå en gjentatt samlet optimalisering for utglatning og utjevning, stoppekriterier og antallet tillatte gjentakelser, Fig. 9 viser bruk av en sirkulær forskyvning og overlappaddisjon i forbindelse med initialisering og mating av et fasejusteringsfilter, og
Fig. 10 viser en utførelse av den beskrevne, vektede overlappaddisjonsprosedyre.
Selv om oppfinnelsen kan gjennomgå forskjellige modifikasjoner og alternative former, har spesifikke utførelser blitt vist som eksempel på tegningene og beskrevet nedenfor. Det vil imidlertid fremgå at oppfinnelsen ikke er ment å være begrenset til de bestemte former som beskrevet her, men snarere å dekke alle modifikasjoner, ekvivalenter og alternativer som faller innenfor oppfinnelsens ånd og omfang som definert i de vedføyde krav.
Beskrivelse av foretrukne utførelser
Den nye fremgangsmåte blir aktivert i dekodings- og skjuleenheten 420 av en mottaker, f.eks. den som er vist på Fig. 2 eller aktivert i transkodings- og skjuleenheten 330 av et relé, f.eks. det som er vist på Fig. 4 eller på et annet sted i et kommunikasjonssystem hvor dens bruk er aktuell. Pa disse stedene er et antall bufrede signalrammer tilgjengelig og et antall skjulte rammer er ønsket. De tilgjengelige signalrammer og ønskede skjulte rammer kan bestå av tidsdomenesampler av et audiosignal, f.eks. et talesignal, eller de kan bestå av sampler avledet derav, f.eks. lineære prediksjonseksiteringssampler eller de kan bestå av andre koeffisienter avledet fra audiosignalet og som er helt eller delvis representative for rammer av lydsignaler. Eksempler på slike koeffisienter er frekvensdomenekoeffisienter, koeffisienter for en sinusformet modell, lineære prediktive kodingskoeffisienter, bølge-formsinterpoleringskoeffisienter og andre sett av koeffisienter som helt eller delvis er representative for audiosignalssampler.
Fig. 5 viser en foretrukket utførelse av oppfinnelsen. På Fig. 5 blir tilgjengelige signalrammer 595 som kan mottas og dekodes, eller transkodede signalrammer eller skjulte rammer fra tidligere bruk av denne eller andre fremgangsmåter for å generere skjulte rammer eller en kombinasjon av ovennevnte typer signalrammer, lagret i en rammebuffer 600. Signalet i rammebufferen blir analysert av en indeksmønstergenerator 660. Indeksmønstergeneratoren kan med fordel bruke estimater av signalfrekvens 596 og talesignaltype 597. Avhengig av den generelle systemutforming, kan disse estimatene være tilgjengelige for inngangssignal fra andre prosesser, f.eks. en kodings-, dekodings- eller transkodingsprosess, eller de kan beregnes på annen måte, fortrinnsvis ved å bruke gjeldende fremgangsmåter for signal-analyse. Videre tar indeksmønstergeneratoren som inngangssignalantallet 598 av skjulte signalrammer som skal genereres, og pekere 599 til begynnelsen og slutten av de bestemte signalrammer i rammebufferen som den skjulte ramme eller rammene er erstatning for. Hvis disse bufrene f.eks. peker til slutten av rammebufferen, vil dette innebære at den skjulte ramme eller rammene bør være tilstrekkelig til å følge signalet som er lagret i rammebufferen. Hvis disse pekerne, som et annet eksempel, peker ut et ikke-tomt delsett av etterfølgende rammer i rammebufferen, betyr dette at den skjulte ramme eller rammene bør kunne erstatte disse rammene i rammesekvensen som er representative eller delvis representative for lydsignalet.
For å illustrere dette videre, anta at rammebufferen 600 inneholder signalramme A, B, C, D, E og at antallet av skjulte rammer 598 er to. Hvis pekerne til rammene for å erstatte 599 peker til slutten av rammebufferen betyr dette at to skjulte signalrammer bør brukes for å følge i rekkefølge etter signalrammen E. Hvis pekerne 599 på den andre side peker ut signalrammene B, C, D, bør de to skjulte rammene erstatte signalrammene B, C, D og følge i rekkefølge etter signalrammen A og følges i sekvensen av signalrammen E.
Når det gjelder fremgangsmåte for å bestemme skjulte rammer 598 og delsettet av rammer som de skjulte rammene til slutt skal erstatte, dvs. pekerne 599, bør gjeldende fremgangsmåte fortrinnsvis brukes. Således utgjør dataene 596, 597, 598 og 599, sammen med signalrammene 595, inngangssignaler til fremgangsmåtens innretning og anordning ifølge oppfinnelsen.
I enkelte generelle system konstruksjoner blir lengden eller dimensjonen av en signalramme fortrinnsvis holdt som en konstant under utførelse av skjuleenheten. Blant andre scenarier er dette typisk tilfellet når skjuleenheten blir integrert i et relésystem hvor resultatet av skjulingen skal plasseres i pakker som er representative for lydsignalet innenfor et tidsintervall av en forhåndsinnstilt lengde som er bestemt annetsteds. Som et eksempel kan denne forhåndsinnstilte lengde bli bestemt under protokollforhandlingene under en opp-ringing i et Voice-over-IP-system og kan endres under konversasjonen som svar på f.eks. styremekanismer for nettverkstilstopning. Enkelte utførelser av oppfinnelsen oppfyller kravene til å kunne virke med en forhåndsinnstilt lengde av en signalramme på en fordelaktig måte, som det vil fremgå senere. Imidlertid er nytenkningen som sådan ikke begrenset til disse systemkravene, idet andre utførelser av oppfinnelsen kan virke med skjulemåter som er et ikke-integer antall rammer og skjulte rammer som har tidsvarierende lengder og hvor disse lengdene kan være funksjoner av det spesifikke innhold i rammebufferen, eventuelt i kombinasjon med andre faktorer.
Utførelser av oppfinnelsen kan med fordel gjøre bruk av en utjevnings- og utligningsoperasjon 610 som virker på signalet 605 fra rammebufferen. Denne utjevning og utligning genererer et signal 615 i hvilket rammer på et tidligere tidspunkt enn den skjulte ramme eller rammene har en større likhet med signalrammen eller rammene som den skjulte ramme eller rammene erstatter, eller en ramme umiddelbart før dette. Hvis den skjulte ramme eller rammene alternativt settes inn i en sekvens med eksisterende rammer uten erstatning, blir likheten med rammen eller rammene som befinner seg umiddelbart før den tiltenkte posisjon av den skjulte ramme eller rammer. For senere referanse vil det ganske enkelt refereres til begge disse tilfellene som likhet. Likhet er som oppfattet av en lytter. Utjevningen og utligningen gir et signal med økt likhet og bevarer samtidig en naturlig lydutvikling av signalet 615. Eksempler på likhetsøkende operasjoner som med fordel utføres av utjevningen og utligningen 610 omfatter økt utjevning og likhet i parametere slik som energiomslutning, frekvenskontur, stem me kvalitet, stemmeavskjæring og spektral omslutning og andre merkbart viktige parametre.
Nar det gjelder hver av disse parametrene, blir brå transienter i utvikling av parameteren innenfor rammene som utglattes og utlignes, filtrert ut og gjennomsnittsnivået av parameteren i disse rammene blir utglattende modifisert for å oppnå større likhet i betydningen som definert ovenfor. Med fordel innføres bare likhet i en utstrekning som minst opprettholder en naturlig lydutvikling av signalet, og under kontroll av indeksmønster-generatoren 660, kan utglattingen og utligningen med fordel minske transienter og forstyrrelser som ellers kan oppstå i denne følgende indekserings- og interpoleringsoperasjonen 620. Videre kan utjevningen og utligningen av frekvenskonturen med fordel reguleres av indeksmønstergenerator 660 på en slik måte at forvrengningen minimeres og som eventuelt ellers kan oppstå i de skjulte rammene senere av fasefilteret 650. Utjevnings-og utligningsoperasjonen kan med fordel bruke signal- eller parametererstatninger, miksing, interpolering og/eller sammenslutning med signalrammer (eller parametere avledet derav) funnet bakover i tid i rammebufferen 600. Utjevnings- og utligningsoperasjonen 610 kan utelates fra systemet uten å avvike fra det generelle omfanget av oppfinnelsen. I dette tilfellet utligner signalet 615 signalet 605, og inngangsignalet 656 og styreutgangssignalet 665 av indeksmønstergenerator 660 kan i dette tilfellet bli utelatt fra systemkonstruksjonen.
Indeksstyrings- og interpoleringsoperasjonen 620 tar som inngangssignal det eventuelt
utjevnede og utlignede signal 615 og et indeksmønster 666. I enkelte fordelaktige utførelser av oppfinnelsen tar videre indekserings- og interpoleringsoperasjonen en tilpasningskvalitetsindikator 667 som inngangssignal. Tilpasningskvalitetsindikatoren kan være en skalarverdi pr tidsøyeblikk eller den kan være en funksjon av både tid og frekvens. Formålet med tilpasningskvalitetsindikatoren vil fremgå senere i beskrivelsen. Indeksmønsteret 666 parametiserer bruken av indekserings- og interpoleringsfunksjonen.
Fig. 5A viser et eksempel på hvordan et indekseringsmønster kan indeksere delsekvenser i de bufrede sampler, BS1, BS2, BS3, BS4, gradvis bakover i tid ved syntese av en eller flere skjulte rammer. I det viste eksempel er etterfølgende delsekvenser CS1, CS2, CS3, CS, CS5, CS6, CS7 i de skjulte rammene CF1, CF2, CF3 basert på bufrede delsekvenser BS1, BS2, BS3 og BS4 av sampler i rammene BF1, BF2. Som det fremgår, blir de skjulte delsekvenser CS1-CS7 indeksert fra de bufrede delsekvenser BS1-BS4 med en lokaliseringspeker som beveges gradvis bakover og deretter gradvis forover i tid som uttrykt av funksjons-benevnelsen CS1(BS4), CS2(BS3), CS3(BS2), som innebærer at CS1 er basert på BS4 og så videre. Således tjener Fig. 5A som et eksempel på hvordan etterfølgende delsekvenser i skjulte rammer kan følge hverandre basert på etterfølgende, bufrede delsekvenser, men omordnet i tid. Som det fremgår, blir de første fire, skjulte delsekvenser CS1(BS4), CS2(BS3), CS3(BS2) og CS4(BS1) valgt for å baseres på de siste fire delsekvenser av bufrede sampler BS1, BS2, BS3, BS4 i rekkefølge, men i omvendt tidsorden og begynner således med den siste bufrede delsekvens BS1. Etter de første fire delsekvensene i omvendt tidsorden følger tre delsekvenser CS5, CS6, CS7 som alle er basert på etterfølgende, bufrede delsekvenser i tidsorden, nemlig henholdsvis BS2, BS3 og BS4. Det foretrukne indeks-mønster er et resultat av indeksmønstergeneratoren 660 og kan variere meget med inngangssignalene 656, 596, 597, 598 og 599 til denne blokken. Fig. 5B gir, etter benevnelsen på Fig. 5A, et annet illustrerende eksempel på hvordan skjulte delsekvenser CS1-CS11 kan være basert på bufrede delsekvenser BS1-BS4 i tidsomordningen. Som det fremgår, blir senere skjulte delsekvenser gradvis basert på bufrede delsekvenser videre bakover i tid. F.eks. blir de første to etterfølgende skjulte delsekvenser CS1 og CS2 basert på de siste to bufrede delsekvenser BS3, BS4 i omvendt tidsorden, mens en senere skjult delsekvens, f.eks. CS10 blir basert på BS1, dvs. en bufret delsekvens ytterligere bakover i tid enn de som blir brukt for å beregne CS1 og CS2. Således tjener Fig. 5B til å vise at etterfølgende, skjulte delsekvenser blir basert på bufrede delsekvenser som indekseres forover og bakover i tid på en måte, slik at indekseringen gradvis beveger seg bakover i tid.
I fordelaktige utførelser av oppfinnelsen blir denne gradvise utvikling bakover i tid formalisert som en sekvens av det vi her kaller trinn tilbake og en sekvens av det vi her kaller leselengde. I enkle utførelsesformer med dette formatet på indeksmønsteret, blir en peker til signalsampler eller parametere eller koeffisienter som er representative for dette, flyttet bakover i størrelsesorden lik det første trinn tilbake, hvoretter en mengde sampler eller parametere eller koeffisienter som er representative for dette blir satt inn i skjulerammen, idet denne mengde er lik en første leselengde. Deretter blir pekeren beveget bakover i en størrelsesorden lik et andre trinn tilbake og en mengde sampler eller parametere eller koeffisienter som er representative for disse lik en andre leselengde, blir lest av osv. Fig. 5C viser et eksempel på denne prosess ved omordning av en første nummerering av indekserte sampler. Denne første nummerering er oppgitt på signaltidsaksen, mens nummereringslisten på skjuletidsaksen på Fig. 5C tilsvarer omordningen av de opprinnelige sampler etter hvert som de plasseres i skjulerammen. For dette illustrerende eksempel, ble det første, andre og tredje trinn tilbake, vilkårlig valgt som henholdsvis 5, 6, 5 og første, andre og tredje leselengder ble likeledes vilkårlig valgt som henholdsvis3, 4, 3. I dette eksemplet er delsekvensene med tidsindeksinnstillinger {6,7,8}, {3,4,5,6} og {2,3,4} delsekvenser som utvikles gradvis bakover i tid. Sekvensene av trinn bakover og leselengder er her valgt bare for illustrasjonsformål. Med talerestsampler som er samplet ved 16 kHz som et eksempel, blir den typiske verdi av trinnet tilbake i området 40-240, men er ikke begrenset til dette området, og typiske verdier for leselengder er i området 5-1000 sampler, men er ikke begrenset til dette området. I mer avansert utførelser av dette formatet, blir f.eks. overgangen fra en foroverrettet sekvens (f.eks. utgangstid eller en indeksert delsekvens tilbake i tid) til en annen foroverrettet sekvens et trinn ytterligere tilbake i tid, utført gradvis ved gradvis å forskyve interpoleringen. Fig. 6 viser bruken av en enkelt utførelse av indekserings- og interpoleringsfunksjonen som svar på et trinn tilbake og en tilsvarende leselengde og tilpasningskvalitetsindikatoren. Bare for illustrasjonsformål består signalrammer her av tidsdomene-audiosampler. Den gradvise forflyttede interpolering gjelder bare den generelle definisjon av "sampel" brukt i denne beskrivelse, dvs. inkluderende skalar- eller vektorbaserte koeffisienter eller parametere som er representative for tidsdomenets audiosampler på en tilsvarende og derved likefrem måte. På denne Fig. 700 er det vist et segment av signalet 615. Pekeren 705 er sampeltids-
øyeblikket som følger etter sampeltidsøyeblikket av den sist genererte sampel i
indekserings- og interpoleringsutgangssignalet 625. Tidsintervallet 750 har en lengde som er lik leselengden. Tidsintervallet 770 har også en lengde som er lik leselengden. Tidsintervallet 760 har en lengde som er lik trinnet tilbake. Signalsamplene i 700 begynner fra tiden 705 og leselengden forover i tid multipliseres en etter en med en vindusfunksjon 720. Signalsamplene i 700 begynner også ved et sted som er et sample etter trinnet tilbake før stedet 706 og leselengdesamplene derfra og forover multipliseres en etter en med en vindusfunksjon 710. De resulterende sampler fra multiplisering med vindu 710 og med vindu 720 blir lagt til en etter en 730 for å føre til samplene 740 som består av en ny bunt av sampler for signalet 625 fra indekserings- og interpoleringsoperasjonen. Etter fullføring av denne operasjonen blir pekeren 705 flyttet til stedet 706.
I enkle utførelser av oppfinnelsen er vindusfunksjonene 710 og 720 enkle funksjoner av leselengden 750. En slik enkel funksjon er å velge vinduet 710 og vinduet 720 som henholdsvis første og andre halvdel av et Hanning-vindu med en lengde som er to ganger leselengden. Selv om en lang rekke funksjoner kan velges her, vil det fremgå at for at slike funksjoner skal være meningsfulle i sammenheng med oppfinnelsen, må de oppnå en vektet interpolering mellom samplene i segmentet som er vist ved 750 og samplene som vist ved 770 på en slik måte at man gradvis, men ikke nødvendigvis, monotont beveges fra en høy vekt på segmentet vist ved 750 til en høy vekt på segmentet vist ved 770.
I andre utførelser av oppfinnelsen blir vindusfunksjonene 710 og 720 funksjoner av tilpasningskvalitetsindikatoren. Et eksempel på en slik funksjon er at det, avhengig av terskelen på den normaliserte korrelering på segmentene av signalet 700 indikert av tids-intervallene 750 og 770, blir valgt en interpoleringsoperasjon for summering til en enten i amplityder, eller potenser. Et annet eksempel på en slik funksjon unngår en begrensningen med å oppsummere amplityder eller potenser til en, men optimerer i stedet bare vindus-vekter som funksjon av tilpasningsmålet. Ytterligere forbedring av denne fremgangsmåte tar den faktiske verdi av den normaliserte korreleringen og optimerer interpoleringsoperasjonen som svar på denne, dvs. ved bruk av klassiske, lineære estimeringsmetoder. Imidlertid er eksempler på foretrukne utførelser beskrevet i det følgende. I disse eksemplene gir henholdsvis terskelen og den faktiske verdi av normalisert korrelering, eksempler på fordelaktig informasjon gitt av tilpasningskvalitetsindikatoren 667. Ifølge foretrukne utførelser beskrevet i det følgende, kan interpoleringsoperasjonen utføres for å implementere forskjellige vektinger ved forskjellig frekvenser. I dette tilfellet kan tilpasningskvalitetsindikatoren 667 med fordel oversende mål på tilpasningen som funksjon av frekvens. I fordelaktige utførelsesformer blir denne vekting som funksjon av frekvens implementert som en tappet forsinkelseslinje eller annen parametrisk filterform som kan optimaliseres for å maksimere tilpasningskriteriet.
På Fig. 6 er det vist en illustrasjon av bruken av indekseringen og interpoleringen når signalet 615 (og følgelig signalsegmentet 700) inneholder sampler som er representative for tidsdomenesamplene av et lydsignal eller av et tidsdomenesignal avledet derav. Som nevnt ovenfor, kan samplene i rammene 595 og følgelig i signalene 605 og 615 med fordel være slik at hvert sampel er en vektor (sampler med vektorverdi) hvor en slik vektor inneholder koeffisienter eller parametere som er representative eller delvis representative for lydsignalet. Eksempler på slike koeffisienter er linjespektralfrekvenser, frekvensdomenekoeffisienter eller koeffisienter som definerer en sinusformet signalmodell, f.eks. et sett av amplityder, frekvenser og faser. Med basis i denne detaljerte beskrivelse av foretrukne utførelser av oppfinnelsen, er utformingen av interpoleringsoperasjonene som med fordel kan brukes på sampler med vektorverdi mulig foren fagperson, ettersom resten av detaljene kan finnes i den generelle litteratur for hver av de spesifikke tilfeller av slike vektorvaliderte sampler.
Det er fordelaktig for forståelse av oppfinnelsen å observere at når indekserings- og interpoleringsoperasjonen brukes gjentatte ganger med en leselengde som er mindre enn trinnet tilbake, vil resultatet bli at samplene i signalet 625 blir representative for signalsamplene som er gradvis lengre og lengre tilbakei signalet 615. Når trinnet tilbake og/eller leselengden endres slik at leselengden blir større enn trinnet tilbake, vil denne prosess snu og samplene i signalet 625 blir representative for signalsampler som er gradvis lengre og lengre fremover i signalet 615. Ved et fordelaktig valg av sekvensen av trinn tilbake og sekvensen av leselengder, kan et langt, skjult signal med rik og naturlig variasjon oppnås uten å bruke sampler foran tiden fra sist mottatt signalramme i rammebuffer 600, eller uten å bruke sampler foran et annet forhåndsinnstilt tidstilfelle som kan lokaliseres tidligere enn det siste samplet i sist mottatte ramme i rammebufferen 600. Derved blir skjuling av forsinkelsesspisser i et system med liten avspillingsforsinkelse eller utgangsbufferplanlegging mulig med oppfinnelsen. I formuleringen av beskrivelsen kan den enkle, strenge bakover-tidsmessige utvikling av signalet som det kan være nyttig å tenke på som et element i en enkel utførelse av oppfinnelsen, realiseres ved gjentatt bruk av en leselengde av et sampel, et trinn tilbake for to sampler og et vindu 720 som omfatter et enkelt sampel med verdi 0 og et vindu 710 som omfatter et enkelt sampel med verdi 1.0.
Hovedformålet med indeksmønstergeneratoren 660 er å styre funksjonen av indeksering- og interpoleringsoperasjonen 620. I et sett av foretrukne utførelser blir denne styring formalisert i et indekseringsmønster 666 som kan bestå av en sekvens med trinn tilbake og en sekvens av leselengder. Denne styring kan videreutvides med en sekvens av tilpasnings-kvalitetsindikatorer som i sin tur hver kan være funksjoner f.eks. av frekvens. Et tilleggs-trekk som kan leveres fra indeksmønstergeneratoren og hvis bruk vil fremgå senere i denne beskrivelse, er en repetisjonsteller 668. Repetisjonstelleren innebærer antall tidspunkter som en evolusjon bakover i tid blir initiert ved konstruksjon av den, eller de skjulte rammer. Indeksmønstergeneratoren fremskaffer disse sekvensene med grunnlag i informasjonen som kan omfatte det utjevnede og utlignede signal 656 fra utjevnings- og utligningsoperasjonen 610, et frekvensestimat 596, et taleestimat 597, et antall 598 av skjulte rammer for å generere, og pekere 599 til rammene som skal erstattes. I en utførelse av indeksmønster-generatoren vil den gå inn i forskjellige moduser avhengig av taleindikatoren. Slike moduser er eksemplifisert nedenfor.
Som et eksempel som med fordel kan brukes i det lineære, prediktive eksiteringsdomenet hvis taleindikatoren sterkt indikerer at signalet er ustemt tale eller at ingen aktiv tale finnes i signalet, dvs. at signalet består av bakgrunnsstøy, kan indeksmønstergeneratoren gå inn i en modus, i hvilken en enkelt reversering av den tidsmessige evolusjon av signalsamplene blir initiert. Som beskrevet tidligere, kan dette oppnås f.eks. ved å levere en sekvens av trinn tilbake-verdier som er lik to og en sekvens av leselengde-verdier som er lik en (denne beskrivelse er basert på konstruksjonsvalget at indekserings- og interpoleringsoperasjonen selv identifiserer disse verdiene og bruker den tilsvarende vindusfunksjon som beskrevet ovenfor). I enkelte tilfelle kan denne sekvens fortsette inntil en omvendt, tidsmessig utvikling av signalet har blitt implementert for halvparten av antallet nye sampler som trengs i den skjulte ramme eller rammer, hvoretter verdiene i trinnet tilbake-sekvensen kan endres til null, hvorved en forover, tidsmessig evolusjon av signalet blir påbegynt og fortsetter inntil pekeren 706 effektivt er tilbake ved utgangspunktet for pekeren 705 i det første trinnet tilbake. Imidlertid vil denne enkle fremgangsmåte ikke alltid være tilstrekkelig for høykvalitets skjulte rammer. En viktig oppgave for indeksmønstergeneratoren er å overvåke tilfredsstillende stoppekriterier. I ovennevnte eksempel kan den omvendte, tidsmessige evolusjon føre pekeren 706 tilbake til en posisjon i signalet ved hvilket lyden, som fortolket av en lytter, er vesentlig forskjellig fra utgangspunktet. Før dette oppstår, bør den tidsmessige evolusjon vendes.
Foretrukne utførelser av oppfinnelsen kan bruke et sett av stoppekriterier basert på et sett av målinger. Det følgende eksemplifiserer noen få av disse målene og stoppekriteriene. Hvis talesignalet indikerer at signalet ved pekeren 706 er stemt, kan den tidsmessige evolusjonsretning i det ovennevnte eksemplet, som begynner fra ustemt, med fordel vendes, og også hvis signalenergien i et område rundt pekeren 706 er forskjellig (som bestemt av en absolutt eller relativ terskel) fra signalenergien ved utgangstidspunktet for pekeren 705, kan den tidsmessige evolusjonsretning med fordel vendes. Som et tredje eksempel kan spektral-forskjellen mellom et område rundt avgangs punktet for pekeren 705 og gjeldende posisjon av pekeren 706 overskride en terskel og den tidsmessige evolusjonsretning bør vendes.
Et andre eksempel på en modus kan tenkes når signalet ikke sikkert kan bestemmes som ustemt eller som ikke inneholder noen aktiv tale. I denne modus utgjør frekvensestimatet 596 en basis for å bestemme indeksmønsteret. En fremgangsmåte for å gjøre dette, er at hvert trinn tilbake blir undersøkt for å gi en maksimert, normalisert korrelering mellom signalet fra pekeren 705 og en frekvenssyklus forover i tid og signalet fra et punkt som er trinnet tilbake tidligere enn pekeren 705 og en frekvenssyklus foran. Søkningen etter potensielle verdier av trinn tilbake kan med fordel begrenses til et område. Dette området kan fordelaktig settes til pluss/minus 10 prosent rundt det tidligere funne trinn tilbake eller frekvensforsinkelsen hvis ikke noe tidligere trinn tilbake har blitt funnet. Etterat trinnet tilbake har blitt bestemt, vil verdien av leselengden bestemme om den tidsmessige signal-evolusjon skal utvikle seg bakover eller forover i tid og hvor raskt denne evolusjon skal finne sted. En langsom evolusjon blir oppnådd ved å velge en leselengde som er nær den identifiserte verdi av trinn tilbake. En rask evolusjon oppnås av et valg av leselengde som er mye mindre eller mye større enn trinnet tilbake i tilfelle bakover- og fremoverevolusjon. Et formål med indeksmønstergeneratoren er å velge en leselengde som optimerer lydkvaliteten som oppfattet av en lytter. Ved å velge en leselengde for nær trinnet tilbake, kan noen signaler, f.eks. signaler som ikke er tilstrekkelig periodiske, føre til oppfatningsmessige, irriterende elementer, f.eks. strenge-lyd. Velges leselengden for langt vekk fra trinnet tilbake, vil det medføre at et større tidsintervall i rammebufferen til slutt blir ført gjennom den tidsmessige evolusjon av den skjulte ramme eller rammene, alternativt at retningen av den tidsmessige evolusjon må vendes flere ganger før en tilstrekkelig mengde av sampler for denne eller de skjulte rammer har blitt generert.
Det første tilfellet kan for noen signaler, f.eks. signaler som ikke er tilstrekkelig stasjonære (alternativt ikke er tilstrekkelige jevne og utlignede), føre til en type oppfatningsmessige,
irriterende elementer som minner om stamming i lyden av den eller de skjulte rammer. I det andre tilfellet kan strenge-lydlignende elementer oppstå. Et trekk ved fordelaktige utførelser av oppfinnelsen er at leselengden kan bestemmes som en funksjon av trinnet tilbake og den normaliserte korrelering som blir optimalisert i søket etter det optimale trinn tilbake. Et enkelt og likevel fordelaktig valg av denne funksjon i utførelsene av oppfinnelsen virker på talesignaler og når signalrammene inneholder 20 ms av lineært, prediktivt eksiteringssignal samplet ved 16 kHz, som et eksempel gitt av følgende funksjon:
Når hakeparentesene brukes for å indikere avrunding til nærmeste integer og hvor symbolene ReadLength, Normalized Correlation og StepBack blir brukt for å benevne henholdsvis leselengden, den normaliserte korrelering oppnådd for det optimal trinn tilbake og tilsvarende trinn tilbake. Ovennevnte funksjon er bare tatt med som et eksempel for å gi et fordelaktig valg i enkelte utførelser av oppfinnelsen. Ethvert valg av leselengde med et hvilket som helst funksjonsforhold for å oppnå denne leselengde er mulig, uten at oppfinnelsens ånd fravikes. Især omfatter fordelaktige fremgangsmåter for å velge leselengde bruk av kontrollen 665 for å parameterisere utjevnings- og utligningsoperasjonen 610, f.eks. for å oppnå en samlet minimering av stamme-lignende og streng-lydlignende elementer i en mellomliggende, skjult ramme 625. Dette forklarer hvorfor indeksmønster-generatoren 660 tar mellomsignalet 656 som et inngangssignal snarere enn utgangssignalet 615 fra utglattings- og utjevningsoperasjonen, idet signalet 656 representerer potensielle versjoner av det endelige signalet 615 under kontrollen 665 og gjør det mulig for indeks-mønstergeneratoren å nærme seg optimaliseringsoppgaven ved hjelp av gjentakelser. Som i tilfellet for den ustemte og ikke-aktive talemodus ovenfor, er stoppekriteriene vesentlige også i denne modus. Alle eksemplene på stoppekriteriene i forbindelse med modusen ovenfor gjelder også for denne modus. I tillegg kan stoppekriteriene fra måling på frekvens og normalisert korrelering med fordel i denne modus danne del av utførelsen av oppfinnelsen.
Fig. 7 viser som et eksempel en fordelaktig beslutningslogikk for en kombinasjon av stoppekriterier. På Fig. 7 indikerer referansetegnene følgende: 800: Identifisere om signalet er av høy korreleringstype, lav korreleringstype eller ingen av disse. Bestemmelse av det første energinivå.
801: Bestemme neste trinn tilbake og normalisert korrelering og leselengde.
802: Bestemme om signalet har lagt inn lav korreleringstype.
803: Bestemme om signalet har lagt inn høy korreleringstype.
804: Er signalet av høy korreleringstype?
805: Er signalet av lav korreleringstype?
806: Er energien under en relativ minimumsterskel eller over en relativ maksimumsterskel?
807: Er normalisert korrelering under terskelen for høy korreleringstype?
808: Er normalisert korrelering over terskelen for lav korreleringstype?
809: Har nok sampler blitt generert?
I tilfelle operasjon i det lineære, prediktive eksiteringsdomenet av tale samplet ved 16 kHz kan tersklene benyttet i Fig. 7 med fordel velges som følger: Høykorreleringstypen kan legges inn når en normalisert korrelering som er større enn 0,8 blir brukt, en terskel for resten av høykorreleringstypen kan settes til 0,5 i normalisert korrelering, en lav korreleringstype kan legges inn når en normalisert korrelering som er lavere enn 0,5 blir påtruffet, og en terskel for å forbli i lavkorreleringstypen kan settes til 0,8 i normalisert korrelering, en minimum relativ energi kan settes til 0,3, og en maksimum relativ energi kan settes til 3,0. Videre kan annen logikk brukes og andre stoppekriterier kan brukes i sammenheng med oppfinnelsen uten at dette avviker fra oppfinnelsens omfang og ide.
Anvendelse av stoppekriterier innebærer at en enkelt evolusjon bakover i tid, enten til nok sampler blir generert, eller et stoppekriterium blir oppfylt og deretter videresendt i tid igjen, ikke er garantert å gi det nødvendige antall sampler for de skjulte rammene. Følgelig kan flere evolusjoner bakover og forover i tid brukes av indeksmønstergeneratoren. Imidlertid for mange evolusjoner bakover og fremover kan i enkelte signaler gi strenge-lydlignende elementer. Følgelig kan foretrukne utførelser av oppfinnelsen sammen optimere stoppekriteriene, funksjonen brukt til beregning av leselengde, utjevning- og utligningskontrollen 665 og antallet evolusjoner bakover og forover, dvs. repetisjonstellingen 668, og, hvis aktivert av pekerne til rammene for å erstatte 599, også antallet sampler som blir utviklet forover i tid før en ny evolusjon bakover i tid blir initiert. For å oppnå dette kan også utjevnings- og utligningsoperasjonen med fordel styres for litt å modifisere frekvenskonturen av signalet. Videre kan den felles optimalisering ta hensyn til bruken av fasefilteret 650 og foreta mindre endringer av frekvenskonturen for å oppnå et indeksmønster som minimerer den innførte forvrengning i fasefilteret sammen med de andre parameteren nevnt ovenfor. Med basis i beskrivelsen av foretrukne utførelser av oppfinnelsen, vil det fremgå for en fagmann at en rekke generelle optimaliseringsverktøy kan brukes for oppgaven, og disse verktøyene omfatter gjentatt optimering, Markov beslutningsprosesser, Viterbi-metoder og andre. En hvilken som helst av disse kan brukes uten at oppfinnelsens omfang fravikes.
Fig. 8 viser ved hjelp av et flytskjema et eksempel på en gjentatt prosedyre for å oppnå en enkel og likevel effektiv optimalisering av disse parametrene. På Fig. 8 indikerer referansetegnene følgende:
820: Initiere kontroller for utglatting og utligning 665.
821: Oppnå et nytt jevnt signal 656.
822: Initiere stoppekriterier.
823: Initiere et tillatt antall repetisjoner.
824: Identifisere indeksmønsteret for en sekvens av bakover- og fo rove revo lu sjoner jevnt fordelt over tilgjengelige rammer som indikert av pekerne 599 eller hvis det pekes mot slutten av tilgjengelige rammer, evolusjoner bakover som følger etter direkte evolusjoner forover.
825: Er tilstrekkelig mengde sampler for antallet skjulte rammer 598 generert?
826: Er det maksimale antall repetisjoner nådd?
827: Øk tillatt antall repetisjoner.
828: Er den videste terskelen for stopping av kriterier nådd?
829: Gjør tersklene for stoppekriterier videre.
830: Endre kontroller for å øke virkningen av utjevning og utligning.
Merk at en evolusjon bakover og forover i tid og etterfølgende evolusjon bakover og forover i tid i tilfellet når ikke nok signaler har blitt syntetisert i denne foregående evolusjon eller evolusjoner bakover og forover i tid, med fordel kan være forskjellig. Som eksempler utarbeides sekvensene av trinn bakover, leselengder og interpoleringsfunksjoner og også sluttlokaliseringspekeren etter evolusjonen bakover og forover i tid for å minimere periodiske elementer som ellers kan oppstå fra en repetisjon av tilsvarende indeksmønstre. Med restdomenesampler av stemt tale ved 16 kHz som et eksempel, kan en evolusjon bakover og forover i tid som genererer omtrent 320 sampler, fortrinnsvis avsluttes omtrent 100 sampler ytterligere bakover i signalet enn en tidligere evolusjon bakover og forover i tid.
De beskrevne utførelser opp til dette punkt minsker effektivt problemene med kunstige strenge-lyder som kan oppstå ved gjeldende fremgangsmåter og samtidig aktivere effektiv skjuling av brå forsinkelsespulser og brått oppstående, gjentatte tap av pakker. Under vanskelig nettverksforhold som kan oppstå f.eks. i enkelte trådløse systemer og trådløse ad hoc-nettverk og best arbeidende nettverk og andre nettverksscenarier, kan imidlertid selv den beskrevne fremgangsmåte i enkelte tilfeller innføre små komponenter av tonalitet i de skjulte rammene. En mindre støyblanding 630 og et forsiktig dempefilter 640 kan derfor med fordel innføres i enkelte utførelser av oppfinnelsen. De generelle teknikker for støyblanding og dempning er kjent i faget. Dette omfatter den fordelaktige bruk av frekvensavhengig, tidsmessig evolusjon av effekten av støykomponenten og frekvensavhengig og tidsmessig evolusjon av dempningsfunksjonen. Et trekk som er spesifikt for bruk av støyblanding og dempning i sammenheng med oppfinnelsen er bruk av indeksmønsteret 666, det tilsvarende kvalitetsmål 667 og/eller gjentagelsestelleren 668 for tilpasset parameterisering av støy-blanding og dempning. Spesifikt viser indeksmønsteret, hvor uendrede signalsampler blir plassert i den skjulte ramme og hvor samplene av den skjulte ramme er resultat av en interpoleringsoperasjon. Videre indikerer forholdet mellom trinnet tilbake og leselengden i kombinasjon med det tilsvarende kvalitetsmål, oppfatningskvaliteten fra interpoleringsoperasjonen. Således kan lite eller ingen støy med fordel blandes inn i de opprinnelige samplene, idet mer støy med fordel kan blandes inn i samplene som resultat av en interpoleringsprosess, og mengden av støy blandet inn i disse samplene kan med fordel være en funksjon av det tilsvarende kvalitetsmål, fortrinnsvis på en frekvensdifferensiert måte. Videre indikerer også verdien av leselengden i forhold til trinnet tilbake, størrelsen av periodisiteten som kan oppstå, idet støyblandingen med fordel kan omfatte dette målet ved bestemmelse av mengden av støy for innblanding i det skjulte signal. Samme prinsipp gjelder for dempning, idet en rimelig dempning kan brukes med fordel, mens mindre dempning kan innføres for sampler som er representative for opprinnelige signalsampler og mer dempning kan innføres for sampler som oppstår fra interpoleringsoperasjon. Videre kan mengden av dempning i disse samplene med fordel være en funksjon av den tilpassede kvalitetsindikasjon og fortrinnsvis på en frekvensdifferensiert måte. Igjen indikerer verdien av leselengden i forhold til trinnet tilbake, størrelsen av periodisiteten som kan oppstå, idet dempningsoperasjonen med fordel kan omfatte dette mål ved utarbeidelse av dempningen.
Som behandlet i bakgrunnen for foreliggende oppfinnelse, oppnår et delsett av utførelses-former av foreliggende oppfinnelse et viktig formål, skjulte rammer av forhåndsinnstilt lengde som er lik lengden av vanlige signalrammer. Når dette er ønskelig ut fra et systemperspektiv, kan midlene for å oppnå dette med fordel være et fasefilter 650. En beregningsmessig enkel, tilnærmet, men ofte tilfredsstillende bruk av denne blokken er å foreta en jevn overlappaddisjon mellom samplene som kan overskride de forhåndsinnstilte rammelengdetider og antallet skjulte rammer med et bakre delsett av sampler fra rammen som følger etter de skjulte rammene. Isolert sett er denne fremgangsmåte kjent i faget og blir f.eks. brukt i anbefalingen fra Den Internasjonale Telekommunikasjonsunion ITU-T G.711, Tillegg 1. Når det er praktisk ut fra et systemperspektiv, kan den enkle overlappaddisjonsprosedyre forbedres ved en multiplikasjon av etterfølgende rammer med -1 når dette øker korreleringen i overlappaddisjonsområdet. Imidlertid kan andre fremgangsmåter med fordel brukes, f.eks. i overgangen mellom stemte signalrammer for å minske ytterligere effekten av uregelmessigheter ved rammegrensene. En slik fremgangsmåte er gjensampling av de skjulte rammene. Som en isolert fremgangsmåte, er dette også godt kjent i faget. Se f.eks. Valenzuela og Animalu, "A new voice-packet reconstruction technique", IEEE, 1989. Således kan minskning av uregelmessigheter ved rammegrensene utføres av en fagperson. Imidlertid kan gjensamplingen i foretrukne utførelsesformer av oppfinnelsen som beskrevet her, med fordel fortsettes inn i rammene etter denne siste skjulte ramme. Imidlertid kan størrelsen av den tidsmessige endring og følgelig frekvens-forskyvningen som er en konsekvens av gjensamplingsteknikken, utføres gradvis når den skal fortolkes av en lytter. Snarere enn gjensampling, er videre bruken av tidsvarierende universalpassfiltre for å minske uregelmessigheter ved rammegrensene beskrevet i oppfinnelsen. En utførelse av dette gis av filterligningen:
Funksjonen av denne er forklart som følger. Det forutsettes at et sveip fra en forsinkelse på L sampler til en forsinkelse på 0 sampler er ønskelig over et sveipeintervall som kan omfatte alle, eller del av samplene i alle eller del av de skjulte rammene, i rammer før de skjulte rammene og i rammer etter de skjulte rammene. Da blir, i begynnelsen av sveipeintervallet, alpha_l(t) satt til null og alpha_2(t) satt til 1,0 for å implementere en forsinkelse av L sampler. Når sveipen over t begynner, vil alpha_l(t) gradvis øke mot 0,5 og alpha_2(t) gradvis minske mot 0,5. Når, mot slutten av sveipeintervallet, alpha_l(t) er lik alpha_2(t), vil filteret H_L(z,t) innføre en forsinkelse på null. Hvis et sveip fra en forsinkelse på null sampler til en forsinkelse på L sampler er ønskelig over et sveipeintervall, kan omvendt alle eller del av samplene i alle eller del av de skjulte rammene, i rammer før de skjulte rammene og i rammer etter de skjulte rammene, omfattes. I begynnelsen av sveipeintervallet kan da alpha_l(t) settes til 0,5 og alpha_2(t) settes til 0,5 for å implementere en forsinkelse på null sampler. Etter hvert som sveipet over t begynner, bør alpha_l(t) gradvis minske mot null og alpha_2(t) gradvis øke mot 1,0. I slutten av sveipeintervallet vil alpha_l(t) være lik null og alpha_2(t) være lik 1,0 og filteret H_L(z,t) innfører en forsinkelse på L sampler.
Ovennevnte filtrering er beregningsmessig enkel, men den har en ikke-lineær faserespons. Av oppfattelsesmessige årsaker begrenser denne ikke-lineære fase dens bruk til relativt liten L. Fortrinnsvis er L < 10 for tale ved en samplingsrate på 16 kHz. En fremgangsmåte for å oppnå filtrering for større verdier av den innledende L er å initiere flere filtre for mindre L-verdier som oppsummerer til ønsket total L-verdi, idet disse flere filtre med fordel kan initieres ved forskjellige øyeblikk og sveipe området av alpha over forskjellige tidsintervaller. En annen fremgangsmåte er å øke området av L hvor dette filteret brukes som beskrevet i det følgende. En struktur som implementerer en funksjonelt samme filtrering som ovennevnte er å dele signalet i L-flerfaser og utføre følgende filtrering i hver av disse flerfasene:
Med oppfinnelsen blir flerfasefiltreringen med fordel implementert ved bruk av opp-sampling. En fordelaktig måte å utføre dette på er å opp-sample hver flerfase med en faktor K og utføre filtreringen H_l(z,t) K ganger i hver opp-samplet flerfase før ned-sampling med en faktor K og gjenoppbygging av det fasemodifiserte signal fra flerfasene. Faktor K kan med fordel velges som en K=2. Ved oppsamplingen blir det oppnådd en faserespons som er nærmere lineær. Derved blir den oppfattede kvalitet som fortolket av en lytter, forbedret. Ovennevnte fasejustering over flere rammer gjelder når de skjulte rammene settes inn i en sekvens av mottatte rammer uten tap. Den gjelder også når rammene tas ut av signal-sekvensen for å minske avspillingsforsinkelsen for etterfølgende rammer. Det gjelder også når rammene går tapt og null eller flere skjulte rammer blir tatt inn mellom de mottatte rammer før, og de mottatte rammer, etter tapet. I disse tilfeller blir en fordelaktig fremgangsmåte for å hente inngangssignalet for dette filteret og finne forsinkelsen L som følger: 1) På rammer tidligere enn ved avbrytelsespunktet, blir en skjulemetode som beskrevet her eller en annen, fortsatt eller initiert. 2) På rammer senere enn ved avbrytelsen, blir et antall L_test samples satt inn i rammestarten av en skjulemetode, som beskrevet her, eller en annen, men med en omvendt indeksing av tidsamplene. 3) Et tilpasningsmål, f.eks. en normalisert korrelering, blir brukt mellom den skjulte ramme eller rammene fra 1) og rammen eller rammene fra 2) med tittelen L_test samples.
4) L_test som maksimerer tilpasningsmålet blir valgt som L.
5) Den skjulte ramme eller -rammene fra 2) og rammen eller rammene fra 3) blir lagt sammen ved å bruke en vektet overlappaddisjonsprosedyre. Mens denne vektede overlappaddisjon kan utføres av en fagmann, kan den fortrinnsvis optimaliseres som beskrevet senere i beskrivelsen. 6) Den resulterende ramme eller rammene blir brukt som inngangssignal til ovennevnte fasetilpasningsfiltrering, initiert med den bestemte verdi L. Hvis L er større enn en terskel, blir flere filtre initiert og koeffisienten sveipet ved forskjellige tids-øyeblikk og tidsintervaller og deres L-verdier, oppsummerer den bestemte verdi L.
Fortrinnsvis kan ovennevnte terskel velges til en verdi i området 5-50 i tale eller talerester samplet ved 8 eller 16 kHz. Ved stemt tale eller stemte talerester blir videre med fordel de skjulte samplene L_test og dens fortsettelse i den følgende ramme oppnådd ved sirkulær forskyvning av samplene av den første frekvensperiode av rammen. Følgelig kan et korreleringsmål uten normalisering og korrelering av den fulle frekvensperiode med fordel brukes som tilpasningsmål for å finne den foretrukne, sirkulære forskyvning L.
Fig. 9 viser en utførelse av en slik fremgangsmåte. På figuren frembringer fasejusteringen en jevn overgang mellom signalrammen 900 og etterfølgende rammer. Dette oppnås som følger: Fra signalramme 900 og tidligere rammer, blir det generert et skjult signal 910. Det skjulte signal kan genereres ved å bruke fremgangsmåter som beskrevet her eller andre fremgangsmåter som kjent i faget. Det skjulte signal multipliseres med et vindu 920 og adderes 925 med et annet vindu 930 som blir multiplisert med et signal generert som følger: Et skjult signal 940 blir generert fra følgende sampler 950 og eventuelt 960 ved effektiv bruk av en skjulemetode, f.eks. som beskrevet her eller ved å bruke andre kjente metoder, og knyttet til følgende sampler 950. Antallet sampler i skjulingen 940 optimaliseres for å maksimere tilpasningen mellom skjulingen 910 og sammenknyttingen av 940 og etter-følgende sampler 950.
Fortrinnsvis kan normalisert korrelering brukes som et mål på denne tilpasning. For å redusere beregningskompleksiteten, kan tilpasningen for stemt tale eller ustemte talerester begrenses til å omfatte en frekvensperiode. I dette tilfellet kan de skjulte samplene 940 oppnås som en første del av en sirkulær forskyvning på en frekvensperiode og korreleringsmålet over en frekvensperiode behøver så ikke normaliseres. Derved unngås beregninger for å regne normaliseringsfaktoren. Som for indekserings- og interpoleringsoperasjonen beskrevet tidligere i denne beskrivelsen av foretrukne utførelser, kan vinduene igjen med fordel være en funksjon av en tilpasningskvalitetsindikator og/eller en funksjon av frekvens og fortrinnsvis implementeres som en tappet forsinkelseslinje. Virkemåten for filteret 970 er som følger. De første L-samplene som kommer fra overlappaddisjonen blir ført direkte til utgangen og brukt for å sette opp filterets innledende tilstand. Deretter blir filterkoeffisienten initialisert som beskrevet ovenfor og idet filteret filtrerer fra samplet L + 1 og fremover, justeres disse koeffisientene gradvis, for gradvis å fjerne L-samplene av forsinkelsen som beskrevet ovenfor.
Ved ovennevnte fremgangsmåte gjelder igjen fremgangsmåten for å optimalisere vekten av vinduene ifølge maksimeringen av tilpasningskriteriet som nevnt ovenfor, og også generaliseringen av vindusfunksjonene til frekvensavhengige vekter og til tilpassede filtre i form av tappede forsinkelseslinjer eller andre parametriske filterformer. I fordelaktige utførelser blir den tidsmessige evolusjon av den frekvensavhengige filtervekting oppnådd av en sekvens av tre overlappaddisjonssekvenser som først ned-fader den eller de skjulte rammene fra tidligere rammer, dernest opp-fader en filtrert utgave av disse med et filter for å passe til de skjulte rammer ut fra senere rammer som oppnås i reversindeksert tid og deretter fade dette ned igjen og deretter fade opp rammen eller rammene på et senere tidspunkt. I et annet sett med fordelaktige utførelser blir den tidsmessige evolusjon av den frekvensavhengige filtervekt oppnådd av en sekvens av fire overlappaddisjonssekvenser, som først ned-fader den eller de skjulte rammene fra tidligere rammer, dernest opp-fader en filtrert utgave av disse med et filter for å passe til de skjulte rammer ut fra senere rammer som oppnås i reversindeksert tid, og deretter fade dette ned igjen, og deretter fade opp en filtrert versjon av rammene på et senere tidspunkt for ytterligere å forbedre denne tilpasning og fade det ned igjen og til slutt fade vinduet opp av rammen eller rammene på et senere tidspunkt. Andre fordelaktige utførelser av vektede overlappaddisjonsmåter er beskrevet senere i beskrivelsen.
I utjevnings- og utligningsoperasjonen 610 i utførelsen hvor restdomenesampler blir brukt som del av informasjonen som er representativ for talesignalet, kan utjevning og utligning med fordel brukes for dette restsignalet ved å bruke frekvenstilpasset filtrering, f.eks. kamfilter eller et periodisk kjervfilter. Videre kan Wiener- eller Kalman-filtrering med et langtidskorreleringsfilter pluss støy som en modell for den ufiltrerte rest med fordel brukes. Ved å bruke Wiener- eller Kalman-filteret, på denne måten, gjelder variansen av støy i modellene for å justere mengden av utjevning og utligning. Dette er en noe diskutabel bruk ettersom denne komponent brukes tradisjonelt i Wiener- og Kalman-filtreringsteorien for å modellere eksistensen av en uønsket støykomponent. Brukt ifølge oppfinnelsen er hensikten å sette nivået for utjevning og utligning. Som et alternativ til frekvenstilpasset kamming eller kjervfiltrering og Wiener- eller Kalman-filtrering, kan en tredje fremgangsmåte med fordel brukes for utjevning og utligning av restesignaler i forbindelse med oppfinnelsen. Ved hjelp av denne tredje fremgangsmåte blir enten sampelamplityder som med fordel brukes f.eks. for ustemt tale eller etterfølgende vekter av sampler som med fordel brukes f.eks. for stemt tale, brukt i større utstrekning. Eventuelle fremgangsmåter for å oppnå dette er skissert nedenfor for vektorer av stemt tale og sampler av ustemt tale.
For stemt tale samles påfølgende sampler av tale eller rest i vektorer med et antall sampler i hver vektor som er lik én frekvensperiode. For beskrivelsen benevner vi her denne vektor som v(k). Fremgangsmåten henter nå en restvektor r(k) som en komponent av v(k) som ikke på noen måte kan finnes i omsluttende vektorer v(k-Ll), v(k-Ll+l), ... , v(k-l) og v(k+l), v(k+2), ... , v(k+L2). For beskrivelsen blir komponenten funnet i omsluttende vektorer benevnt a(k). Restvektoren r(k) blir deretter manipulert på en noe lineær eller ikke-lineær måte for å redusere hørbarheten og samtidig opprettholde naturligheten av den resulterende, rekonstruerte vektor som oppnås ved å gjeninnsette komponenten a(k) i den manipulerte versjon av r(k).
Dette fører til en utjevnet og utlignet versjon av stemt tale eller stemt resttale. En enkel utførelse av ovennevnte prinsipp f.eks. å bruke en praktisk matrisevektorbenevnelse og for eksemplet, er benevnelsen av en lineær kombinering og minstekvadrater for å definere a(k) gitt nedenfor. Dette tjener bare som et eksempel på en enkelt utførelse av ovennevnte generelle prinsipp for utjevning og utligning.
For formålet av dette eksempel kan matrisen M(k) defineres som:
hvorfra a(k) kan beregnes f.eks. som minste kvadratestimat av v(k) gitt M(k). hvor inv( ) benevner matriseinversjon eller kvasiinversjon og trans( ) benevner matrise-transponering. Nå kan resten r(k) beregnes f.eks. ved subtraksjon.
Et eksempel på manipulering av r(k) er ved å klippe vekk spisser i denne vektor, f.eks. for å begrense den maksimale, absolutte verdi av et sampel til et nivå som er lik maksimums-amplituden av r(k)-vektoren nærmest startpunktet for bakover/forover-skjuleprosedyren eller til en faktor ganger amplityden av samplet ved samme posisjon i vektoren, men i vektoren nærmest startpunktet for bakover/forover-skjuleprosedyren. Den manipulerte rest rm(k) blir deretter kombinert med a(k)-vektoren for å igjen rekonstruere den utjevnede versjon av v(k), av praktiske årsaker her benevnt ve(k). Denne kombinasjon kan som et eksempel oppnås ved en enkel summering:
Parameteren alpha i dette eksemplet kan settes til 1,0 eller kan med fordel velges å være mindre enn 1,0, idet et fordelaktig valg for alpha er 0,8.
For ustemt tale kan en annen utjevning og utligningsmåte brukes med fordel. Et eksempel for utjevning og utligning for ustemt tale beregner en polynomtilpasning til amplityder av restsignaler i et logaritmisk domene. Som et eksempel kan et andre ordens polynom og i log 10-domenet brukes. Etter å ha konvertert polynotilpasningen fra det logaritmiske domenet tilbake til det lineære domenet, blir tilpasningskurven med fordel normalisert til 1,0 ved punktet som tilsvarer startpunktet for bakover/forover-prosedyren. Selvfølgelig er tilpasningskurven lav-begrenset f.eks. til 0,5 hvoretter amplitydene av restsignalet kan deles med tilpasningskurven for å utglatte variasjoner i amplityde for det ustemte restsignalet.
Når det gjelder vektede overlappaddisjonsprosedyrer kan enkelte, men ikke alle, applikasjoner som er beskrevet her, dvs. indekserings- og interpoleringsoperasjon 620 og fremgangsmåten for å initiere inngangssignalet for fasejusteringsfiltrering 970, utføres av en fagmann. I foretrukne utførelsesformer fremgangsmåten med vektede overlappaddisjonsprosedyrer kan imidlertid metodene som beskrevet i det følgende med fordel brukes.
I en enkel utførelse av en vektet overlappaddisjonsprosedyre modifisert som svar på en tilpasningskvalitetsindikator vil det først vurderes et første vindu multiplisert med en første delsekvens og et andre vindu multiplisert med den andre delsekvens, og disse to produktene vil legges inn i en overlapp-addisjonsoperasjon. Som et eksempel larvi det første vindu være et gradvis avtagende vindu, f.eks. som en monotont avtagende funksjon og vi lar det andre vinduet være et gradvis økende vindu, f.eks. en monotont økende funksjon. Som et enkelt eksempel lar vi det andre vindu parameterises av en grunnleggende vindusform multiplisert med en skalarmultiplikator. Vi definerer nå: målet som en første delsekvens, w_target som nevnte første delsekvens sampel-etter-sampel multiplisert med nevnte nedskråningsvindu, w_regressor som nevnte andre delsekvenssampel, sampel-etter-sampel multiplisert med basisvindusformen for det gradvis økende vinduet og coef som nevnte skalarmultiplikator. Nå kan skalarmultiplikatorkomponenten av det andre vinduet optimaliseres for å minimere en summert, kvadrert feil mellom målet og resultatet av overlappaddisjonsoperasjonen. I praksis for en matrisevektorbenevnelse, kan problemet formuleres som minimering av den summerte-kvadrerte forskjellen mellom mål og mengde.
Herfra defineres vektorene T og H som Løsningen på denne optimalisering gis som
hvor inv( ) benevner skalar- eller matriseinversjon, trans() benevner transponeringen av en matrise eller vektor og<*>er en matrise- eller vektormultiplikasjon. Som sentrale komponenter i oppfinnelsen som beskrevet her, kan fremgangsmåten utvides til å optimalisere den faktiske formen av et vindu. En måte å oppnå dette på er som følger. Det defineres et sett av former for hvilket det ønskede vindu blir oppnådd som en lineær kombinasjon av elementer i dette settet. Vi definerer H slik at hver kolonne av H er en form fra dette settet sampel etter sampel multiplisert med nevnte andre delsekvens, og vi definerer coef som en kolonnevektor som inneholder de ukjente vekter av disse formene i
den optimaliserte vindusfunksjon. Med disse definisjonene gjelder ovennevnte ligninger som formulerer problemet og dets løsning for å løse en mer generell vindusform. Naturligvis kan rollen av første og andre vindu byttes om i ovennevnte, slik at dette nå blir det første vindu som blir optimalisert.
En mer avansert utførelse av oppfinnelsen optimaliserer samlet begge vindusformene. Dette gjøres ved å definere et andre sett av basisvindusformer, eventuelt ekvivalent med det første sett av vindusformer og fortrinnsvis valgt som en tidsreversert indeksing av samplene i hver av vindusformene i det første sett av vindusformer. Det defineres w_target som en matrise hvor hver kolonne er en basisvindusform fra det andre sett av vindusformer sampel etter sampel multiplisert med den første delsekvens og coef definer som en kolonnevektor som inneholder først vektene for det første vindu og dernest vektene for det andre vindu. Deretter kan et mer generelt problem formuleres som å minimere den summerte-kvadrerte forskjellen mellom målet og kvantiteten.
hvor hakeparentesene brukes for å forme en matrise fra delmatrisene eller vektorene.
Definer herfra vektorene T og H som
Løsningen på denne optimalisering er gitt som:
En mer avansert utførelse av oppfinnelsen optimerer ikke bare øyeblikksvindusformer, men vinduer med en optimalisert frekvensavhengig vekting. En utførelsesform av oppfinnelsen er utformet som en tappet forsinkelseslinje, selv om oppfinnelsen ikke på noen måte er begrenset til denne formen. En måte å oppnå denne generaliseringen på er å erstatte, i definisjonen av w_target og w_regressor ovenfor, hver kolonne med et antall kolonner sampel-etter-sampel multiplisert med basisvindusformen tilsvarende kolonnen de erstatter, men hvor basisvindusformen nå blir sampel-etter-sampel-multiplisert med den relevante delsekvensforsinkelse tilsvarende en spesifikk posisjon i en tappet forsinkelseslinje.
Fortrinnsvis tar optimaliseringen av koeffisientene i disse fremgangsmåtene hensyn til vekting, begrensning eller sekvensiell beregning av koeffisientene uten avvikelse fra nærværende oppfinnelse. Slike vektinger kan med fordel omfatte vekting mot mer vekt på koeffisienter tilsvarende lave, absolutte forsinkelsesverdier. En slik sekvensiell beregning kan med fordel beregne koeffisienter bare for lave, absolutte forsinkelsesverdier for å minimere summen av kvadrert feil ved å bruke bare slike koeffisienter, og deretter ved å gjenta denne fremgangsmåte for økende forsinkelsesverdier, men bare på den gjenværende feil fra tidligere trinn i fremgangsmåten.
Generelt tar utførelsesformer av oppfinnelsen flere delsekvenser som mål for optimaliseringen. Optimaliseringen minimerer generelt en forvrengningsfunksjon som er en funksjon av disse måldelsekvenser og signalet fra det vektede overlapp-addisjonssystemet. Denne optimalisering kan, uten å fravike oppfinnelsen, bruke forskjellige begrensninger av valget av basisformer for å oppnå forsinkelse og deres vekting i den generelle overlappaddisjon. Avhengig av det nøyaktige valg av former, blir effekten av overlappaddisjonen med fordel fadet ut gradvis fra delsekvensene etter overlapp-addisjonsområdet i tid.
Fig. 10 viser en utførelse av den beskrevne overlapp-addisjonsmåten. Denne figur er bare for illustrasjonsformål for en utførelse av oppfinnelsen ettersom oppfinnelsen ikke er begrenset til den nøyaktige struktur på figuren. Pa Fig. 10 går en delsekvens 1000 inn i tids-og frekvensformen som er optimalisert med overlappaddisjonen til en annen delsekvens 1010. Hver av disse delsekvensene går inn i en egen forsinkelseslinje hvor z på figuren benevner en tidsforflytning av et sampel forover og z-1 benevner en tidsforsinkelse på et sample og hvor de valgte forsinkelser 1, -1 og 0 bare er for illustrasjonsformål, idet flere eller færre forsinkelser med fordel kan brukes i forbindelse med oppfinnelsen. Hver forsinket versjon av hver delsekvens blir nå mulitiplisert med et antall basisvindusformer og resultatet av hver av disse blir multiplisert med en koeffisient som finnes sammen med de andre koeffisienter i løpet av optimaliseringen. Etter multiplisering med disse koeffisientene, blir de resulterende delsekvenser oppsummert for å gi utgangssignalet 1020 fra den tids- og frekvensformsoptimerte overlapp-addisjon. Optimaliseringen 1030 av koeffisienter tar i eksemplet på Fig. 10 delsekvensene 1040 og 1050 som inngangssignal og minimerer en forvrengningsfunksjon som er en funksjon av 1040 og 1050 og utgangssignalet 1020.
I kravene er referansetegnene til figurene tatt med bare for tydelighets skyld. Disse referansene til eksempler på utførelsesformer på figurene skal ikke på noen måte forstås å begrense omfanget av kravene.
Claims (37)
1. Fremgangsmåte for å generere en sekvens av skjulte sampler (CS1-CS11) i forbindelse med overføring av et digitalisert audiosignal, der fremgangsmåten omfatter å generere sekvensen av skjulte sampler (CS1-CS11) fra bufrede sampler (BS1-BS4) av den digitaliserte fremstilling av audiosignalet i sampeltidsrekkefølge,
der sekvensen av skjulte sampler (CS1-CS11) blir generert fra minst første og andre sett av to etterfølgende delsekvenser av sampler ((CS1, CS2), (CS9, CS10)),
der første og andre sett av to etterfølgende delsekvenser av sampler ((CS1, CS2), (CS9, CS10)) er basert på henholdsvis første og andre sett av to delsekvenser av bufrede sampler ((BS4, BS3), (BS2, BS1)), der de to delsekvenser av bufrede sampler i henholdsvis første og andre sett av to delsekvenser av bufrede sampler ((BS4, BS3), (BS2, BS1)) blir ordnet i omvendt sampeltidsrekkefølge,
der det andre sett av to etterfølgende delsekvenser av skjulte sampler (CS9, CS10) blir anbragt senere i rekkefølgen av skjulte sampler (CS1-CS11) enn det første sett av to etter-følgende delsekvenser av skjulte sampler (CS1, CS2), og
der en første delsekvens (CS1) av det første sett av to etterfølgende delsekvenser av sampler (CS1, CS2) er basert på en første delsekvens av bufrede sampler (BS4), og en første delsekvens (CS9) av det andre sett av to etterfølgende delsekvenser av sampler (CS9, CS10) er basert på en andre delsekvens av bufrede sampler (BS2), idet den andre delsekvens av bufrede sampler (BS2) befinner seg lengre bakover i sampeltid enn den første delsekvens av bufrede sampler (BS4).
2. Fremgangsmåte ifølge krav 1, der de to delsekvensene av bufrede sampler i det respektive første og andre sett av to delsekvenser av bufrede sampler ((BS4,BS3), (BS2,BS1)) følger etter hverandre i omvendt tidsrekkefølge.
3. Fremgangsmåte ifølge krav 2, der minst tre etterfølgende delsekvenser (CS8, CS9, CS10) i sekvensen av skjulte sampler (CS1-CS11) er basert på minst tre etterfølgende delsekvenser av de bufrede sampler (BS3, BS2, BS1) i omvendt sampeltidsrekkefølge.
4. Fremgangsmåte ifølge et av de foregående krav, der sekvensen av skjulte sampler (CS1-CS11) begynner med en delsekvens (CS1) basert på en delsekvens av de bufrede sampler (BS4) som er sist i en sampeltidsrekkefølge.
5. Fremgangsmåde ifølge et av de foregående krav, der omordningen av sampeltiden av delsekvenser av bufrede sampler (BS1-BS4) er basert på en sekvensiell fremgangsmåte for indeksering og lesning av sampler forover i tid og trinnvis bakover i tid.
6. Fremgangsmåte ifølge krav 5, der den sekvensielle fremgangsmåte for indeksering og lesning av sampler omfatter trinnene med å a) indeksere et bufret sampel ved å gå tilbake i tidsrekkefølgen et antall bufrede sampler (BS1-BS4) etterfulgt av trinnet med å b) lese et antall bufrede sampler forover i tidsrekkefølgen, startende med det bufrede samplet indeksert i trinn a), og bruke de leste samplene for beregning av en delsekvens av sekvensen av skjulte sampler (CS1-CS11),
der antallet bufrede sampler (BS1-BS4) lest forover, er forskjellig fra antallet bufrede sampler (BS1-BS4) som det gås tilbake.
7. Fremgangsmåte ifølge krav 6, der antallet bufrede sampler (BS1-BS4) lest forover er større enn antallet bufrede sampler (BS1-BS4) som det gås tilbake.
8. Fremgangsmåte ifølge krav 6, der antallet bufrede sampler (BS1-BS4) lest forover er mindre enn antallet bufrede sampler (BS1-BS4) som det gås tilbake.
9. Fremgangsmåte ifølge et av de foregående krav, der delsekvensene av sekvensen av skjulte sampler (CS1-CS11) blir beregnet fra delsekvenser av de bufrede sampler (BS1-BS4) ved å bruke en vektet overlappaddisjonprosedyre.
10. Fremgangsmåte ifølge krav 9, der vektingsfunksjonene i den vektede overlappingsaddisjonsprosedyre i tillegg er en funksjon av frekvens.
11. Fremgangsmåte ifølge krav 9 eller 10, der den vektede overlappingsaddisjonsprosedyre blir modifisert som svar på en tilsvarende kvalitetsindikator.
12. Fremgangsmåte ifølge krav 11, der den tilsvarende kvalitetsindikator svarer på to eller flere delsekvenser av sampler som går inn i den vektede overlappingsaddisjonsprosedyre.
13. Fremgangsmåte ifølge et av de foregående krav, der omordningen i sampeltiden delvis blir beskrevet av en bakover- og foroverevolusjon av en lokaliseringspeker.
14. Fremgangsmåte ifølge krav 13, der bakoverevolusjonen av lokaliseringspekeren er begrenset av et stoppekriterium.
15. Fremgangsmåte ifølge et av de foregående krav, der en utjevnings- og utligningsoperasjon blir brukt på de bufrede samplene (BS1-BS4) .
16. Fremgangsmåte ifølge krav 14, der stoppekriteriene for bakoverevolusjonen og fremdriften av forover- og bakoverevolusjonen samt antallet initierte bakoverevolusjoner, blir optimert sammen for å optimere lydkvaliteten slik den oppfattes av en lytter.
17. Fremgangsmåte ifølge et av kravene 14-16, der stoppekriteriet for bakover-evolusjonen, fremdriften av foroverevolusjonen og bakoverevolusjonen, antallet initierte bakoverevolusjoner og utjevnings- og utligningsoperasjonen blir optimalisert sammen for å optimalisere lydkvaliteten slik den oppfattes av en lytter.
18. Fremgangsmåte ifølge et av kravene 14-17, der bakover- og foroverevolusjonene av lokaliseringspekeren blir optimert sammen for å optimere lydkvaliteten slik den oppfattes av en lytter.
19. Fremgangsmåte ifølge et av de foregående krav, der fasefiltrering blir brukt for å minimere diskontinuiteter ved grensene mellom sekvensen av skjulte sampler og en etter-følgende ramme av sampler.
20. Fremgangsmåte ifølge et av kravene 16-18, der fasefiltrering blir brukt for å minimere diskontinuiteter ved grensene mellom sekvensen av skjulte sampler (CS1-CS11) og en etterfølgende ramme av sampler, og hvor optimeringen også omfatter signalforvrengning fra fasefiltreringen, for å optimere lydkvaliteten slik den oppfattes av en lytter.
21. Fremgangsmåte ifølge et av de foregående krav, der en støyblanding blir innført i sekvensen av skjulte sampler (CS1-CS11).
22. Fremgangsmåte ifølge krav 5, der en støyblanding blir innført i sekvensen av skjulte sampler (CS1-CS11), og der lydblandingen blir modifisert som svar på den sekvensielle fremgangsmåte med å indeksere sampler forover i sampeltid og trinnvis bakover i sampeltid.
23. Fremgangsmåte ifølge krav 22, der den sekvensielle fremgangsmåten med indeksering av sampler forover i sampeltid og trinnvis bakover i sampeltid og responsen på dette, omfatter bruk av en tilsvarende kvalitetsindikasjon.
24. Fremgangsmåte ifølge et av de foregående krav, der en dempefunksjon blir brukt i sekvensen av skjulte sampler (CS1-CS11).
25. Fremgangsmåte ifølge krav 5, der en dempefunksjon brukes i sekvensen av skjulte sampler (CS1-CS11), og der dempefunksjonen blir modifisert som svar på den sekvensielle fremgangsmåte med indeksering av sampler forover i sampeltid og trinnvis bakover i sampeltid.
26. Fremgangsmåte ifølge krav 25, der den sekvensielle fremgangsmåte med indeksering av sampler forover i sampeltid og trinnvis bakover i sampeltid, og responsen av dette, omfatter bruk av en tilsvarende kvalitetsindikasjon.
27. Fremgangsmåte ifølge et av de foregående krav, der et resulterende antall sampler i sekvensen av skjulte sampler (CS1-CS11) er forhåndssatt.
28. Fremgangsmåte ifølge krav 27, der det forhåndssatte antall sampler er uavhengig av det digitaliserte audiosignalets egenskaper.
29. Fremgangsmåte ifølge krav 27 eller 28, der det forhåndssatte antallet sampler har en forhåndssatt integerverdi i området 5-1000, f.eks. i området 20-500.
30. Fremgangsmåte ifølge et av de foregående krav, der sekvensen av skjulte sampler er omfattet in en første, skjult ramme (CF1).
31. Fremgangsmåte ifølge krav 30 som videre omfatter å generere minst en andre, skjult ramme (CF2) etterfølgende den første, skjulte ramme (CF1), idet den andre ramme (CF2) omfatter en andre sekvens av skjulte sampler.
32. Fremgangsmåte ifølge krav 31, der sekvensene av skjulte sampler i første og andre skjult ramme er forskjellig.
33. Fremgangsmåte ifølge krav 31 eller 32, der første og andre skjulte ramme (CF1, CF2) har samme antall sampler.
34. Fremgangsmåte ifølge krav 33, der minst en delsekvens av sampler i den andre, skjulte ramme (CF2) er minst delvis basert på delsekvensene av bufrede sampler ytterligere tilbake i sampeltid enn noen av delsekvensene av sampler i den første, skjulte ramme (CF1).
35. Programkode som kan kjøres på en datamaskin, og som er tilpasset for å utføre fremgangsmåten ifølge et av de foregående krav.
36. Programlagringsenhet omfattende en sekvens av instrukser for en mikroprosessor, f.eks. en standard mikroprosessor, for utføring av fremgangsmåten ifølge et av kravene 1-34.
37. Anordning for mottak av et digitalisert audiosignal, omfattende: - en minneinnretning for lagring av sampler som er representativ for et mottatt digitalisert audiosignal, og - en prosessorinnretning for utføring av fremgangsmåten ifølge et av kravene 1-34.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DKPA200500146 | 2005-01-31 | ||
PCT/DK2006/000053 WO2006079348A1 (en) | 2005-01-31 | 2006-01-31 | Method for generating concealment frames in communication system |
Publications (2)
Publication Number | Publication Date |
---|---|
NO20074349L NO20074349L (no) | 2007-10-18 |
NO338702B1 true NO338702B1 (no) | 2016-10-03 |
Family
ID=59285473
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
NO20074348A NO338798B1 (no) | 2005-01-31 | 2007-08-27 | Fremgangsmåte for vektet overlappaddisjon. |
NO20074349A NO338702B1 (no) | 2005-01-31 | 2007-08-27 | Fremgangsmåte for å generere skjulte rammer i kommunikasjonssystem |
NO20074418A NO340871B1 (no) | 2005-01-31 | 2007-08-29 | Fremgangsmåte for å knytte sammen rammer i kommunikasjonssystem |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
NO20074348A NO338798B1 (no) | 2005-01-31 | 2007-08-27 | Fremgangsmåte for vektet overlappaddisjon. |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
NO20074418A NO340871B1 (no) | 2005-01-31 | 2007-08-29 | Fremgangsmåte for å knytte sammen rammer i kommunikasjonssystem |
Country Status (15)
Country | Link |
---|---|
US (5) | US9047860B2 (no) |
EP (3) | EP1846920B1 (no) |
JP (4) | JP5420175B2 (no) |
KR (3) | KR101203348B1 (no) |
CN (3) | CN101120399B (no) |
AU (3) | AU2006208528C1 (no) |
BR (3) | BRPI0607247B1 (no) |
CA (3) | CA2596338C (no) |
ES (1) | ES2625952T3 (no) |
HK (1) | HK1108760A1 (no) |
IL (3) | IL184864A (no) |
NO (3) | NO338798B1 (no) |
RU (3) | RU2405217C2 (no) |
WO (3) | WO2006079349A1 (no) |
ZA (3) | ZA200706261B (no) |
Families Citing this family (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006079349A1 (en) * | 2005-01-31 | 2006-08-03 | Sonorit Aps | Method for weighted overlap-add |
TWI285568B (en) * | 2005-02-02 | 2007-08-21 | Dowa Mining Co | Powder of silver particles and process |
WO2007086380A1 (ja) * | 2006-01-26 | 2007-08-02 | Pioneer Corporation | 高音質化装置及び方法、並びにコンピュータプログラム |
JP2007316254A (ja) * | 2006-05-24 | 2007-12-06 | Sony Corp | オーディオ信号補間方法及びオーディオ信号補間装置 |
RU2437170C2 (ru) * | 2006-10-20 | 2011-12-20 | Франс Телеком | Ослабление чрезмерной тональности, в частности, для генерирования возбуждения в декодере при отсутствии информации |
JP4504389B2 (ja) * | 2007-02-22 | 2010-07-14 | 富士通株式会社 | 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム |
US8280539B2 (en) * | 2007-04-06 | 2012-10-02 | The Echo Nest Corporation | Method and apparatus for automatically segueing between audio tracks |
CN101207665B (zh) * | 2007-11-05 | 2010-12-08 | 华为技术有限公司 | 一种衰减因子的获取方法 |
CN100550712C (zh) * | 2007-11-05 | 2009-10-14 | 华为技术有限公司 | 一种信号处理方法和处理装置 |
CN101437009B (zh) * | 2007-11-15 | 2011-02-02 | 华为技术有限公司 | 丢包隐藏的方法及其系统 |
CN102881294B (zh) | 2008-03-10 | 2014-12-10 | 弗劳恩霍夫应用研究促进协会 | 操纵具有瞬变事件的音频信号的方法和设备 |
FR2929466A1 (fr) * | 2008-03-28 | 2009-10-02 | France Telecom | Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique |
EP2301015B1 (en) * | 2008-06-13 | 2019-09-04 | Nokia Technologies Oy | Method and apparatus for error concealment of encoded audio data |
US8620660B2 (en) * | 2010-10-29 | 2013-12-31 | The United States Of America, As Represented By The Secretary Of The Navy | Very low bit rate signal coder and decoder |
JP5664291B2 (ja) * | 2011-02-01 | 2015-02-04 | 沖電気工業株式会社 | 音声品質観測装置、方法及びプログラム |
CN103620672B (zh) | 2011-02-14 | 2016-04-27 | 弗劳恩霍夫应用研究促进协会 | 用于低延迟联合语音及音频编码(usac)中的错误隐藏的装置和方法 |
TWI488176B (zh) | 2011-02-14 | 2015-06-11 | Fraunhofer Ges Forschung | 音訊信號音軌脈衝位置之編碼與解碼技術 |
AU2012217158B2 (en) | 2011-02-14 | 2014-02-27 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Information signal representation using lapped transform |
AU2012217156B2 (en) | 2011-02-14 | 2015-03-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Linear prediction based coding scheme using spectral domain noise shaping |
CA2827249C (en) | 2011-02-14 | 2016-08-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for processing a decoded audio signal in a spectral domain |
TWI479478B (zh) | 2011-02-14 | 2015-04-01 | Fraunhofer Ges Forschung | 用以使用對齊的預看部分將音訊信號解碼的裝置與方法 |
MX2013009304A (es) | 2011-02-14 | 2013-10-03 | Fraunhofer Ges Forschung | Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad. |
EP3239978B1 (en) | 2011-02-14 | 2018-12-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoding and decoding of pulse positions of tracks of an audio signal |
SG192745A1 (en) * | 2011-02-14 | 2013-09-30 | Fraunhofer Ges Forschung | Noise generation in audio codecs |
WO2012110481A1 (en) | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio codec using noise synthesis during inactive phases |
US9008170B2 (en) | 2011-05-10 | 2015-04-14 | Qualcomm Incorporated | Offset type and coefficients signaling method for sample adaptive offset |
FR2977439A1 (fr) * | 2011-06-28 | 2013-01-04 | France Telecom | Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard. |
US8935308B2 (en) * | 2012-01-20 | 2015-01-13 | Mitsubishi Electric Research Laboratories, Inc. | Method for recovering low-rank matrices and subspaces from data in high-dimensional matrices |
US9129600B2 (en) * | 2012-09-26 | 2015-09-08 | Google Technology Holdings LLC | Method and apparatus for encoding an audio signal |
KR102173422B1 (ko) | 2012-11-15 | 2020-11-03 | 가부시키가이샤 엔.티.티.도코모 | 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램 |
CN103888630A (zh) * | 2012-12-20 | 2014-06-25 | 杜比实验室特许公司 | 用于控制声学回声消除的方法和音频处理装置 |
RU2625561C2 (ru) | 2013-01-29 | 2017-07-14 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Принцип для компенсации переключения режима кодирования |
CN110223704B (zh) | 2013-01-29 | 2023-09-15 | 弗劳恩霍夫应用研究促进协会 | 对音频信号的频谱执行噪声填充的装置 |
US9478221B2 (en) | 2013-02-05 | 2016-10-25 | Telefonaktiebolaget Lm Ericsson (Publ) | Enhanced audio frame loss concealment |
WO2014123470A1 (en) | 2013-02-05 | 2014-08-14 | Telefonaktiebolaget L M Ericsson (Publ) | Audio frame loss concealment |
ES2603827T3 (es) * | 2013-02-05 | 2017-03-01 | Telefonaktiebolaget L M Ericsson (Publ) | Método y aparato para controlar la ocultación de pérdida de trama de audio |
FR3004876A1 (fr) * | 2013-04-18 | 2014-10-24 | France Telecom | Correction de perte de trame par injection de bruit pondere. |
US9406308B1 (en) | 2013-08-05 | 2016-08-02 | Google Inc. | Echo cancellation via frequency domain modulation |
US10728298B2 (en) * | 2013-09-12 | 2020-07-28 | Qualcomm Incorporated | Method for compressed sensing of streaming data and apparatus for performing the same |
FR3015754A1 (fr) * | 2013-12-20 | 2015-06-26 | Orange | Re-echantillonnage d'un signal audio cadence a une frequence d'echantillonnage variable selon la trame |
CN104751851B (zh) * | 2013-12-30 | 2018-04-27 | 联芯科技有限公司 | 一种基于前后向联合估计的丢帧差错隐藏方法及系统 |
WO2015102452A1 (en) | 2014-01-03 | 2015-07-09 | Samsung Electronics Co., Ltd. | Method and apparatus for improved ambisonic decoding |
EP3090574B1 (en) * | 2014-01-03 | 2019-06-26 | Samsung Electronics Co., Ltd. | Method and apparatus for improved ambisonic decoding |
US10157620B2 (en) | 2014-03-04 | 2018-12-18 | Interactive Intelligence Group, Inc. | System and method to correct for packet loss in automatic speech recognition systems utilizing linear interpolation |
EP2922054A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation |
EP2922055A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information |
EP2922056A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation |
NO2780522T3 (no) | 2014-05-15 | 2018-06-09 | ||
FR3023646A1 (fr) * | 2014-07-11 | 2016-01-15 | Orange | Mise a jour des etats d'un post-traitement a une frequence d'echantillonnage variable selon la trame |
GB2547877B (en) * | 2015-12-21 | 2019-08-14 | Graham Craven Peter | Lossless bandsplitting and bandjoining using allpass filters |
RU2711108C1 (ru) * | 2016-03-07 | 2020-01-15 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Блок маскирования ошибок, аудиодекодер и соответствующие способ и компьютерная программа, подвергающие затуханию замаскированный аудиокадр согласно разным коэффициентам затухания для разных полос частот |
RU2712093C1 (ru) | 2016-03-07 | 2020-01-24 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Блок маскирования ошибок, аудиодекодер и соответствующие способ и компьютерная программа, использующие характеристики декодированного представления надлежащим образом декодированного аудиокадра |
US9679578B1 (en) | 2016-08-31 | 2017-06-13 | Sorenson Ip Holdings, Llc | Signal clipping compensation |
JP6652469B2 (ja) * | 2016-09-07 | 2020-02-26 | 日本電信電話株式会社 | 復号装置、復号方法及びプログラム |
US9934785B1 (en) | 2016-11-30 | 2018-04-03 | Spotify Ab | Identification of taste attributes from an audio signal |
CN108922551B (zh) * | 2017-05-16 | 2021-02-05 | 博通集成电路(上海)股份有限公司 | 用于补偿丢失帧的电路及方法 |
EP3984026A1 (en) * | 2019-06-13 | 2022-04-20 | Telefonaktiebolaget LM Ericsson (publ) | Time reversed audio subframe error concealment |
EP3901950A1 (en) * | 2020-04-21 | 2021-10-27 | Dolby International AB | Methods, apparatus and systems for low latency audio discontinuity fade out |
JP7524678B2 (ja) | 2020-08-28 | 2024-07-30 | 沖電気工業株式会社 | 信号処理装置および信号処理方法並びに信号処理方法のプログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000063881A1 (en) * | 1999-04-19 | 2000-10-26 | At & T Corp. | Method and apparatus for performing packet loss or frame erasure concealment |
Family Cites Families (71)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2102254B (en) * | 1981-05-11 | 1985-08-07 | Kokusai Denshin Denwa Co Ltd | A speech analysis-synthesis system |
EP0123616B1 (en) * | 1983-04-20 | 1987-03-04 | Nippon Telegraph And Telephone Corporation | Interframe coding method and apparatus therefor |
FR2606239A1 (fr) * | 1986-10-30 | 1988-05-06 | Bull Sa | Procede et dispositif de transmission de donnees numeriques |
US5007094A (en) * | 1989-04-07 | 1991-04-09 | Gte Products Corporation | Multipulse excited pole-zero filtering approach for noise reduction |
US5371853A (en) | 1991-10-28 | 1994-12-06 | University Of Maryland At College Park | Method and system for CELP speech coding and codebook for use therewith |
JP2779886B2 (ja) | 1992-10-05 | 1998-07-23 | 日本電信電話株式会社 | 広帯域音声信号復元方法 |
US5434947A (en) * | 1993-02-23 | 1995-07-18 | Motorola | Method for generating a spectral noise weighting filter for use in a speech coder |
US5995539A (en) * | 1993-03-17 | 1999-11-30 | Miller; William J. | Method and apparatus for signal transmission and reception |
SE503547C2 (sv) | 1993-06-11 | 1996-07-01 | Ericsson Telefon Ab L M | Anordning och förfarande för döljande av förlorade ramar |
JP3520555B2 (ja) * | 1994-03-29 | 2004-04-19 | ヤマハ株式会社 | 音声符号化方法及び音声音源装置 |
US5602959A (en) | 1994-12-05 | 1997-02-11 | Motorola, Inc. | Method and apparatus for characterization and reconstruction of speech excitation waveforms |
ZA9510509B (en) * | 1994-12-23 | 1996-05-30 | Qualcomm Inc | Dual-mode digital FM communication system |
US5699481A (en) * | 1995-05-18 | 1997-12-16 | Rockwell International Corporation | Timing recovery scheme for packet speech in multiplexing environment of voice with data applications |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US6028890A (en) * | 1996-06-04 | 2000-02-22 | International Business Machines Corporation | Baud-rate-independent ASVD transmission built around G.729 speech-coding standard |
JP3623056B2 (ja) * | 1996-09-10 | 2005-02-23 | ソニー株式会社 | 動画像圧縮装置 |
JPH1091194A (ja) * | 1996-09-18 | 1998-04-10 | Sony Corp | 音声復号化方法及び装置 |
US6766300B1 (en) * | 1996-11-07 | 2004-07-20 | Creative Technology Ltd. | Method and apparatus for transient detection and non-distortion time scaling |
JP3596841B2 (ja) | 1997-01-24 | 2004-12-02 | 株式会社ルネサステクノロジ | 受信データ伸長装置 |
US6233550B1 (en) * | 1997-08-29 | 2001-05-15 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
CA2249792C (en) * | 1997-10-03 | 2009-04-07 | Matsushita Electric Industrial Co. Ltd. | Audio signal compression method, audio signal compression apparatus, speech signal compression method, speech signal compression apparatus, speech recognition method, and speech recognition apparatus |
FI980132A (fi) * | 1998-01-21 | 1999-07-22 | Nokia Mobile Phones Ltd | Adaptoituva jälkisuodatin |
US6415253B1 (en) | 1998-02-20 | 2002-07-02 | Meta-C Corporation | Method and apparatus for enhancing noise-corrupted speech |
SE513520C2 (sv) * | 1998-05-14 | 2000-09-25 | Ericsson Telefon Ab L M | Förfarande och anordning för maskering av fördröjda paket |
US6292454B1 (en) | 1998-10-08 | 2001-09-18 | Sony Corporation | Apparatus and method for implementing a variable-speed audio data playback system |
US6456964B2 (en) * | 1998-12-21 | 2002-09-24 | Qualcomm, Incorporated | Encoding of periodic speech using prototype waveforms |
WO2000060576A1 (en) * | 1999-04-05 | 2000-10-12 | Hughes Electronics Corporation | Spectral phase modeling of the prototype waveform components for a frequency domain interpolative speech codec system |
US6765931B1 (en) * | 1999-04-13 | 2004-07-20 | Broadcom Corporation | Gateway with voice |
US7117156B1 (en) | 1999-04-19 | 2006-10-03 | At&T Corp. | Method and apparatus for performing packet loss or frame erasure concealment |
US6324503B1 (en) * | 1999-07-19 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions |
US6691082B1 (en) | 1999-08-03 | 2004-02-10 | Lucent Technologies Inc | Method and system for sub-band hybrid coding |
US6665317B1 (en) * | 1999-10-29 | 2003-12-16 | Array Telecom Corporation | Method, system, and computer program product for managing jitter |
US6931370B1 (en) * | 1999-11-02 | 2005-08-16 | Digital Theater Systems, Inc. | System and method for providing interactive audio in a multi-channel audio environment |
JP2001142477A (ja) | 1999-11-12 | 2001-05-25 | Matsushita Electric Ind Co Ltd | 有声音形成装置とそれを用いた音声認識装置 |
FI116643B (fi) | 1999-11-15 | 2006-01-13 | Nokia Corp | Kohinan vaimennus |
SE517156C2 (sv) | 1999-12-28 | 2002-04-23 | Global Ip Sound Ab | System för överföring av ljud över paketförmedlade nät |
US6584438B1 (en) | 2000-04-24 | 2003-06-24 | Qualcomm Incorporated | Frame erasure compensation method in a variable rate speech coder |
EP1319227B1 (en) * | 2000-09-15 | 2007-03-14 | Lernout & Hauspie Speech Products N.V. | Fast waveform synchronization for concatenation and time-scale modification of speech |
US6661842B1 (en) | 2000-09-22 | 2003-12-09 | General Dynamics Decision Systems, Inc. | Methods and apparatus for error-resilient video coding |
US7031926B2 (en) * | 2000-10-23 | 2006-04-18 | Nokia Corporation | Spectral parameter substitution for the frame error concealment in a speech decoder |
US6968309B1 (en) * | 2000-10-31 | 2005-11-22 | Nokia Mobile Phones Ltd. | Method and system for speech frame error concealment in speech decoding |
EP1217613A1 (fr) | 2000-12-19 | 2002-06-26 | Koninklijke Philips Electronics N.V. | Reconstitution de trames manquantes ou mauvaises en téléphonie cellulaire |
US7069208B2 (en) * | 2001-01-24 | 2006-06-27 | Nokia, Corp. | System and method for concealment of data loss in digital audio transmission |
FR2820227B1 (fr) * | 2001-01-30 | 2003-04-18 | France Telecom | Procede et dispositif de reduction de bruit |
KR100591350B1 (ko) | 2001-03-06 | 2006-06-19 | 가부시키가이샤 엔.티.티.도코모 | 오디오 데이터 보간장치 및 방법, 오디오 데이터관련 정보작성장치 및 방법, 오디오 데이터 보간 정보 송신장치 및방법, 및 그 프로그램 및 기록 매체 |
JP2004519736A (ja) * | 2001-04-09 | 2004-07-02 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 位相スメアリング及び位相デスメアリングフィルタを有するadpcm音声コーディングシステム |
US7610205B2 (en) * | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
JP4426186B2 (ja) | 2001-05-22 | 2010-03-03 | 富士通株式会社 | 音声信号処理装置 |
FI20011392A (fi) * | 2001-06-28 | 2002-12-29 | Nokia Corp | Mekanismi multicast-jakelua varten tietoliikennejärjestelmässä |
US7006511B2 (en) | 2001-07-17 | 2006-02-28 | Avaya Technology Corp. | Dynamic jitter buffering for voice-over-IP and other packet-based communication systems |
US7590525B2 (en) * | 2001-08-17 | 2009-09-15 | Broadcom Corporation | Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform |
US7711563B2 (en) * | 2001-08-17 | 2010-05-04 | Broadcom Corporation | Method and system for frame erasure concealment for predictive speech coding based on extrapolation of speech waveform |
US6895375B2 (en) * | 2001-10-04 | 2005-05-17 | At&T Corp. | System for bandwidth extension of Narrow-band speech |
US6681842B2 (en) * | 2001-12-03 | 2004-01-27 | Agilent Technologies, Inc. | Cooling apparatus |
SE521600C2 (sv) * | 2001-12-04 | 2003-11-18 | Global Ip Sound Ab | Lågbittaktskodek |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
JP4022427B2 (ja) | 2002-04-19 | 2007-12-19 | 独立行政法人科学技術振興機構 | エラー隠蔽方法、エラー隠蔽プログラム、送信装置、受信装置及びエラー隠蔽装置 |
US7496086B2 (en) * | 2002-04-30 | 2009-02-24 | Alcatel-Lucent Usa Inc. | Techniques for jitter buffer delay management |
CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
JP4089347B2 (ja) | 2002-08-21 | 2008-05-28 | 沖電気工業株式会社 | 音声復号装置 |
WO2004054225A2 (en) * | 2002-12-04 | 2004-06-24 | Thomson Licensing S.A. | Encoding of video cross-fades using weighted prediction |
CN100576318C (zh) | 2003-05-14 | 2009-12-30 | 冲电气工业株式会社 | 用于隐藏被擦除的周期信号数据的装置与方法 |
JP4233931B2 (ja) | 2003-06-17 | 2009-03-04 | 日本電信電話株式会社 | 音声・音響信号再生調整方法、装置、および音声・音響信号再生調整プログラム、そのプログラムを記録した記録媒体 |
US7356748B2 (en) * | 2003-12-19 | 2008-04-08 | Telefonaktiebolaget Lm Ericsson (Publ) | Partial spectral loss concealment in transform codecs |
JP2005315973A (ja) | 2004-04-27 | 2005-11-10 | Seiko Epson Corp | 半導体集積回路 |
TWI273562B (en) * | 2004-09-01 | 2007-02-11 | Via Tech Inc | Decoding method and apparatus for MP3 decoder |
US7676362B2 (en) | 2004-12-31 | 2010-03-09 | Motorola, Inc. | Method and apparatus for enhancing loudness of a speech signal |
WO2006079349A1 (en) * | 2005-01-31 | 2006-08-03 | Sonorit Aps | Method for weighted overlap-add |
US7359409B2 (en) * | 2005-02-02 | 2008-04-15 | Texas Instruments Incorporated | Packet loss concealment for voice over packet networks |
US9160382B2 (en) * | 2013-10-08 | 2015-10-13 | Blackberry Limited | Phase noise mitigation for wireless communications |
-
2006
- 2006-01-31 WO PCT/DK2006/000054 patent/WO2006079349A1/en active Application Filing
- 2006-01-31 JP JP2007552505A patent/JP5420175B2/ja active Active
- 2006-01-31 CN CN200680003570XA patent/CN101120399B/zh not_active Expired - Fee Related
- 2006-01-31 CN CN2006800035697A patent/CN101120398B/zh not_active Expired - Fee Related
- 2006-01-31 BR BRPI0607247-0A patent/BRPI0607247B1/pt not_active IP Right Cessation
- 2006-01-31 RU RU2007132729/09A patent/RU2405217C2/ru active
- 2006-01-31 CA CA2596338A patent/CA2596338C/en active Active
- 2006-01-31 JP JP2007552507A patent/JP5202960B2/ja active Active
- 2006-01-31 BR BRPI0607251A patent/BRPI0607251A2/pt not_active IP Right Cessation
- 2006-01-31 US US11/883,440 patent/US9047860B2/en not_active Expired - Fee Related
- 2006-01-31 CN CN2006800035714A patent/CN101120400B/zh not_active Expired - Fee Related
- 2006-01-31 BR BRPI0607246-1 patent/BRPI0607246B1/pt not_active IP Right Cessation
- 2006-01-31 AU AU2006208528A patent/AU2006208528C1/en not_active Ceased
- 2006-01-31 RU RU2007132728/09A patent/RU2407071C2/ru active
- 2006-01-31 JP JP2007552506A patent/JP2008529073A/ja active Pending
- 2006-01-31 CA CA2596341A patent/CA2596341C/en active Active
- 2006-01-31 CA CA2596337A patent/CA2596337C/en active Active
- 2006-01-31 US US11/883,430 patent/US8918196B2/en active Active
- 2006-01-31 KR KR1020077020043A patent/KR101203348B1/ko active IP Right Grant
- 2006-01-31 AU AU2006208529A patent/AU2006208529B2/en not_active Ceased
- 2006-01-31 EP EP06704595.5A patent/EP1846920B1/en active Active
- 2006-01-31 RU RU2007132735/09A patent/RU2417457C2/ru active
- 2006-01-31 EP EP06704598.9A patent/EP1846921B1/en active Active
- 2006-01-31 EP EP06704601A patent/EP1849156B1/en active Active
- 2006-01-31 WO PCT/DK2006/000055 patent/WO2006079350A1/en active Application Filing
- 2006-01-31 KR KR1020077020044A patent/KR101237546B1/ko active IP Right Grant
- 2006-01-31 ES ES06704595.5T patent/ES2625952T3/es active Active
- 2006-01-31 AU AU2006208530A patent/AU2006208530B2/en not_active Ceased
- 2006-01-31 KR KR1020077020042A patent/KR101203244B1/ko active IP Right Grant
- 2006-01-31 US US11/883,427 patent/US8068926B2/en not_active Expired - Fee Related
- 2006-01-31 WO PCT/DK2006/000053 patent/WO2006079348A1/en active Application Filing
-
2007
- 2007-07-26 IL IL184864A patent/IL184864A/en active IP Right Grant
- 2007-07-27 ZA ZA200706261A patent/ZA200706261B/xx unknown
- 2007-07-30 IL IL184927A patent/IL184927A/en active IP Right Grant
- 2007-07-30 ZA ZA200706307A patent/ZA200706307B/xx unknown
- 2007-07-31 IL IL184948A patent/IL184948A/en active IP Right Grant
- 2007-08-06 ZA ZA200706534A patent/ZA200706534B/en unknown
- 2007-08-27 NO NO20074348A patent/NO338798B1/no not_active IP Right Cessation
- 2007-08-27 NO NO20074349A patent/NO338702B1/no unknown
- 2007-08-29 NO NO20074418A patent/NO340871B1/no not_active IP Right Cessation
- 2007-12-19 HK HK07113877.4A patent/HK1108760A1/xx not_active IP Right Cessation
-
2011
- 2011-10-21 US US13/279,061 patent/US20120158163A1/en not_active Abandoned
-
2013
- 2013-09-25 JP JP2013198241A patent/JP5925742B2/ja active Active
-
2015
- 2015-04-01 US US14/676,661 patent/US9270722B2/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000063881A1 (en) * | 1999-04-19 | 2000-10-26 | At & T Corp. | Method and apparatus for performing packet loss or frame erasure concealment |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
NO338702B1 (no) | Fremgangsmåte for å generere skjulte rammer i kommunikasjonssystem |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
CREP | Change of representative |
Representative=s name: BRYN AARFLOT AS, POSTBOKS 449 SENTRUM |
|
CHAD | Change of the owner's name or address (par. 44 patent law, par. patentforskriften) |
Owner name: SKYPE, IE |
|
CHAD | Change of the owner's name or address (par. 44 patent law, par. patentforskriften) |
Owner name: MICROSOFT TECHNOLOGYLICENSING, US |
|
CHAD | Change of the owner's name or address (par. 44 patent law, par. patentforskriften) |
Owner name: MICROSOFT TECHNOLOGY LICENSING, US |