NL1030280C2 - Werkwijze en inrichting voor het coderen en decoderen van een audiosignaal. - Google Patents

Werkwijze en inrichting voor het coderen en decoderen van een audiosignaal. Download PDF

Info

Publication number
NL1030280C2
NL1030280C2 NL1030280A NL1030280A NL1030280C2 NL 1030280 C2 NL1030280 C2 NL 1030280C2 NL 1030280 A NL1030280 A NL 1030280A NL 1030280 A NL1030280 A NL 1030280A NL 1030280 C2 NL1030280 C2 NL 1030280C2
Authority
NL
Netherlands
Prior art keywords
time
frame
scale
audio signal
signal
Prior art date
Application number
NL1030280A
Other languages
English (en)
Other versions
NL1030280A1 (nl
Inventor
Yoon-Hark Oh
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of NL1030280A1 publication Critical patent/NL1030280A1/nl
Application granted granted Critical
Publication of NL1030280C2 publication Critical patent/NL1030280C2/nl

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Titel: Werkwijze en inrichting voor het coderen en decoderen van een audiosignaal 5
Achtergrond van de uitvinding
Deze aanvrage claimt de prioriteit van de Koreaanse octrooiaanvrage Nr. 2004-85806, ingediend op 26 oktober 2004 bij het 10 Koreaanse Bureau voor Intellectueel Eigendom, de inhoud waarvan hier in in zijn geheel door verwijzing wordt opgenomen.
1. Uitvindingsgebied
Het huidige algemene inventieve concept heeft betrekking op een 15 audiocodeerder/decodeerder (codec), en meer in het bijzonder op een audio codeer/decodeer werkwijze en inrichting, die een hoge kwaliteit audiosignaal kan reproduceren zonder een hoge frequentieband te verliezen, gebruikmakend van tijd-schaal compressie/expansie.
20 2. Beschrijving van de gerateerde techniek
Moving Picture Experts Group - 1 (MPEG-1) is een standaard met betrekking tot digitale video en audiocompressie, die wordt ondersteund door de International Organisatie voor Standaardisatie (ISO). MPEG-1 audio wordt gebruikt voor het comprimeren van een audiosignaal op een 25 44.1 KHz monstersnelheid, zoals is opgeslagen op een cd met een capaciteit van 60 tot 72 minuten, en wordt verdeeld in drie lagen gebaseerd op compressiemethoden en codec complexiteit.
Van de drie lagen is laag drie het meest gecompliceerd, aangezien het veel meer filters gebruikt dan laag 2 en het Huffman coderingsschema 30 gebruikt. Bovendien, in laag 3, hangt de geluidskwaliteit af van de codering 1 0302 80 2 bitsnelheid (112kb/s, 128kb/s, 160kb/s, etc.). MPEG-1 laag 3 audio wordt gewoonlijk "MP3" audio genoemd.
Een MP3 audiosignaal wordt gecodeerd door bittoewijzing en quantificatie gebruikmakend van een discrete cosinus transformeerder 5 (DCT) met filterbanken en een psycho akoestisch model.
Echter, indien het MP3 audiosignaal veel is gecomprimeerd, kan zijn hoge frequentieband verloren of weggegooid zijn. Bijvoorbeeld gaan in een 96kb/s MP3 bestand frequentiecomponenten van meer dan 11.025kHz binnen 32 interbank waarden verloren. In een 128 kb/s MP3 bestand gaan 10 frequentie componenten van meer dan 15kHz binnen 32 filterbank waarden verloren. Aangezien het menselijk gehoor in het algemeen minder gevoelig is voor bepaalde hoge frequentie componenten, wordt de hoge frequentieband soms weggegooid ten einde het audiosignaal na het MP3 format te comprimeren. Echter, dit hoge frequentie band verlies verandert 15 de toon en degradeert de helderheid van het geluid, waarbij een dof, onderdrukt uitvoergeluid wordt geleverd.
Samenvatting van de uitvinding
Het huidige algemene inventieve concept voorziet in een audio 20 codeer/decodeer werkwijze die een hoge kwaliteit audiosignaal kan reproduceren zonder een hoge frequentieband te verliezen, gebruikmakend van een tijd-schaal compressie/expansie.
Het huidige algemene inventieve concept voorziet tevens in een audiocodeer/decodeer inrichting die de audiocodeer/decodeer werkwijze kan 25 uitvoeren.
Additionele aspecten en voordelen van het huidige algemene inventieve concept zullen deels in de beschrijving die volgt worden uiteengezet en, deels, uit de beschrijving blijken, of kunnen worden geleerd door toepassing van het algemene inventieve concept.
3
De voorgaande en/of andere aspecten en voordelen van het huidige algemene inventieve concept worden bereikt door te voorzien in een audio codeer/decodeer werkwijze omvattende het coderen van een invoer audiosignaal naar audio data door een overeenkomst te bepalen tussen 5 frames van het invoer audiosignaal, het comprimeren van het invoer audiosignaal op een tijd-schaal, het genereren van een frame tijd-schaal modificatie vlag, en het decoderen van de audio data van het gecodeerde audiosignaal gebaseerd op de frame tijd-schaal modificatie vlag.
De voorgaande en/of andere aspecten en voordelen van het huidige 10 algemene inventieve concept worden tevens bereikt door te voorzien in een audio codeer/decodeer inrichting voorzien van een pre-processor voor het comprimeren van een invoer audiosignaal op een tijd-schaal gebaseerd op een overeenkomst tussen frames van het invoer audiosignaal en het overeenkomstig genereren van een frame tijd-schaal modificatie vlag, een 15 codeerder voor het coderen van een gecomprimeerd audiosignaal na audio data gebaseerd op een psychoakoestisch model, een verpakkingseenheid voor het converteren van de frame tijd-schaal modificatie vlag gegenereerd door de pre-processor en de audio data gecodeerd door de codeerder naar een bitstroom, een uitpakkingseenheid voor het scheiden van de frame tijds-20 schaal modificatie vlag en de audio data uit de bitstroom ontvangen van de verpakkingseenheid, een codeerder voor het coderen van de audio data gescheiden door de uitpakkingseenheid naar een gecodeerd audiosignaal gebruikmakend van een vooraf bepaald coderings algoritme, en een postprocessor voor het expanderen van het audiosignaal gecodeerd door de 25 codeerder door de tijd-schaal te expanderen wanneer de frame tijd-schaal modificatie vlag gescheiden door de uitpakkingseenheid in werking is gesteld.
Korte beschrijving van de tekeningen 4
Deze en/of andere aspecten en voordelen van het huidige algemene inventieve concept zullen duidelijk worden en gemakkelijker worden begrepen uit de hierop volgende beschrijving van de uitvoeringsvormen, genomen in samenwerking met de bijgevoegde tekeningen waarvan: 5 Fig. 1 een blokdiagram is die een audiocoderings inrichting volgens een uitvoeringsvorm van het huidige algemene inventieve concept illustreert;
Fig. 2a een pre-processor illustreert van de audiocoderings inrichting van figuur 1 volgens een uitvoeringsvorm van het huidige 10 algemene inventieve concept;
Fig. 2b een pre-processor illustreert van de audiocoderings inrichting van figuur 1 volgens een andere uitvoeringsvorm van het huidige algemene inventieve concept;
Fig. 3 een codeerder illustreert van de audiocoderings inrichting 15 van figuur 1;
Fig. 4 een blokdiagram is die een audiocoderings inrichting volgens een uitvoeringsvorm van het huidige algemene inventieve concept illustreert;
Fig. 5 een post-processor illustreert van een audiocoderings 20 inrichting van figuur 4;
Fig. 6 een codeerder illustreert van de audiocoderings inrichting van figuur 4;
Fig. 7 een stroomdiagram is die een werkwijze voor het bepalen van frame overeenkomsten volgens een uitvoeringsvorm van het huidige 25 algemene inventieve concept illustreert; en
Fig. 8A - 8C golfvorm diagrammen zijn die een werkwijze voor het aanpassen van een tijd-schaal volgens een uitvoeringsvorm van het huidige algemene inventieve concept illustreren.
30 Gedetailleerde omschrijving van de voorkeursuitvoeringsvormen 5
Er zal nu gedetailleerd naar de uitvoeringsvormen van het huidige algemene inventieve concept worden verwezen, waarvan voorbeelden zijn geïllustreerd in de begeleidende tekening, waarbij vergelijkbare verwijzingscijfers corresponderen met vergelijkbare elementen. De 5 uitvoeringsvormen zijn hieronder beschreven teneinde het huidige algemene inventieve concept met verwijzing naar de figuren uit te leggen.
Fig. 1 is een blokdiagram dat een audiocoderingsinrichting volgens een uitvoeringsvorm van het huidige algemene inventieve concept illustreert.
10 Verwijzend naar figuur 1 bepaalt een pre-processor 110 een overeenkomst tussen frames van een invoer audiosignaal, past deze een corresponderend frame audiosignaal op een tijd-schaal aan indien de overeenkomst groter is dan een vooraf bepaalde waarde, en genereert deze een frame tijd-schaal modificatie vlag.
15 Een codeerder 120 codeert het audiosignaal dat door de pre processor 110 is voorverwerkt naar audio data, gebaseerd op een psychoakoestisch model.
Een verpakeenheid 130 construeert een signaal uitvoerstroom (dit wil zeggen, een bitstroom) volgens de frame tijd-schaal modificatie vlag 20 gegenereerd door de pre-processor 110 en de audio data gecodeerd door de codeerder 120.
Fig. 2A illustreert de pre-processor 110 van figuur 1 volgens een uitvoeringsvorm van het huidige algemene inventieve concept.
Refererend aan figuur 2A, analyseert een frame overeenkomst 25 bepaler 210 een frequentie component voor ieder frame van een invoer signaal en bepaalt de overeenkomst tussen frames gebaseerd op een verschil tussen frequentie componenten van de respectieve frames. De frame overeenkomst bepaler 210 genereert een frame tijd-schaal modificatie vlag indien de overeenkomst tussen een vorig frame en een huidig frame groter 30 is dan een vooraf bepaalde nieuwe waarde.
6
Een tijd-schaal wijziger 220 past een corresponderend frame op de tijd-schaal aan al naar gelang of de frame overeenkomst bepaler 210 de frame tijd-schaal modificatie vlag genereert.
Fig. 2B illustreert de pre-processor 110 van figuur 1 volgens een 5 andere uitvoeringsvorm van het huidige algemene inventieve concept.
Verwijzend naar figuur 2B, genereert de frame overeenkomst bepaler 210 een frame oversla vlag indien de overeenkomst tussen een vorig frame en een huidig frame groter is dan een vooraf bepaalde waarde.
Een frame oversla eenheid 220-1 slaat een huidig frame over al 10 naargelang of de frame oversla vlag wordt gegenereerd door de frame overeenkomst bepaler 210. De frame oversla vlag informeert de frame oversla eenheid 220-1 dat het huidige frame niet dient te worden gecodeerd, aangezien het overeenkomt met het vorige frame. De frame oversla vlag wordt dan verpakt in een bitstroom door de verpakeenheid 130 (zie figuur 1) 15 samen met de gecodeerde audio data om een decodeer inrichting te informeren dat het huidige frame werd overgeslagen gedurende het codeerproces. Overeenkomstig kan de decodeerinrichting vervolgens data gebruiken van het vorige frame om data af te leiden van het huidige frame.
Fig. 3 illustreert de codeerder 120 van figuur 1.
20 Verwijzend naar figuur 3 splitst een filterbank eenheid 310 puls code gemoduleerde (PCM) audio monsters invoer in iedere granule eenheid in 32 subbanden gebruikmakend van polyfase banken. Daarnaast wordt iedere subband getransformeerd in 18 spectrale coëfficiënten door een gewijzigde discrete cosinus transformatie (MDCT).
25 Een psychoakoestische modelleer eenheid 320 bepaalt bittoewijzingsinformatie voor iedere subband gebruikmakend van een maskeer effect en een hoorbare limitatie die is ontdekt gebruikmakend van psychoakoestieken. Psychoakoestieken vertrouwen op menselijke akoestische perceptie karakteristieken van geluid. Bijvoorbeeld maskeert 30 een frequentie component van een hoog niveau een frequentie component 7 van een laag niveau. Derhalve kan de frequentie component van het lage niveau met minder nauwkeurigheid worden gecodeerd door een kleiner aantal bits te gebruiken (of in het geheel geen bits).
Een bit toewijzer 330 wijst bits toe aan filterbank subbanden of 5 spectrale coëfficiënten die zijn gedeeld door de filterbank eenheid 310, gebruikmakend van de bit toewijzings informatie voor iedere filterbank subband die is bepaald gebaseerd op een psychoakoestisch model van de psychoakoestische modelleer eenheid 320.
Fig. 4 is een blokdiagram dat een audio decodeer inrichting 10 illustreert volgens een uitvoeringsvorm van het huidige algemene inventieve concept.
Refererend aan fig. 4, ontvangt een uitpakeenheid 410 een bitstroom en scheidt een frame tijd-schaal modificatie vlag, koptekst informatie, zij informatie, en hoofd data bits van gecodeerde audio data.
15 Een decodeerder 420 restaureert een MDCT of filterbank component met betrekking tot de hoofd data bits gescheiden door de uitpakeenheid 410 en genereert een audiosignaal door een inverse MDCT uit te voeren of door een inverse filtrering van de MDCT of filterbank component uit te voeren.
20 Een post-processor 430 expandeert het audiosignaal gedecodeerd door de decodeerder 420 door een tijd-schaal expansie uit te voeren, indien de frame tijd-schaal modificatie vlag ontvangen van de uitpakeenheid 410 in werking is gesteld (enabled). Met andere woorden, de frame tijd-schaal modificatie vlag informeert de post-processor 430 wanneer een 25 corresponderend frame van het gedecodeerde audiosignaal tijd-schaal gewijzigd is (dit wil zeggen, gecomprimeerd) gedurende een vorig coderingsproces, zodanig dat de post-processor 430 het corresponderend frame kan heraanpassen (dit wil zeggen, expanderen) om het originele audiosignaal te verkrijgen.
8
Fig. 5 illustreert een voorbeeld van de post-processor 430 van figuur 4.
Verwijzend naar figuur 5 expandeert een tijd-schaal wijziger 550 een audiosignaal x(n) gedecodeerd door de decodeerder 420 door een tijd-5 schaal expansie uit te voeren al naargelang of een frame tijd-schaal modificatie vlag is ontvangen.
Fig. 5 illustreert een voorbeeld van de decodeerder 420 van figuur 4.
Verwijzend naar figuur 6, restaureert een inverse kwantificeerder 10 610 een MDCT of filterbank component door inverse kwantificering van de uitgepakte hoofd data bits.
Een inverse filterbank eenheid 620 genereert een audiosignaal x(n) door een inverse MDCT uit te voeren of door inverse filterbanken van de gerestaureerde MDCT of filterbank component uit te voeren.
15 Fig. 7 is een stromings diagram die een werkwijze illustreert voor het bepalen van een frame overeenkomst door de frame overeenkomst bepaler 210 volgens een uitvoeringsvorm van het huidige algemene inventieve concept. In sommige uitvoeringsvormen van het huidige algemene inventieve concept kan de werkwijze worden uitgevoerd door de 20 pre-processor 110 van figuren 2A en 2B.
Een audiosignaal wordt ingevoerd in operatie 710.
Een frequentie component van het ingevoerde audiosignaal wordt geanalyseerd in frame eenheden (dit wil zeggen, voor iedere frame in het invoer audiosignaal) gebruikmakend van een FFT (fast Fourier transform) 25 in operatie 720.
Een geanalyseerd frequentie-component verschil tussen een vorig frame en een huidig frame wordt berekend in operatie 730.
Indien het geanalyseerde frequentie-component verschil kleiner is dan of gelijk is aan een vooraf bepaalde drempelwaarde, in operatie 740, 30 wordt bepaald dat een overeenkomst bestaat tussen het vorige frame en het 9 huidige frame en een frame tijd-schaal modificatie vlag wordt gegenereerd in operatie 750. Indien het geanalyseerde frequentie-component verschil groter is dan de vooraf bepaalde drempelwaarde, wordt bepaald dat er geen overeenkomst bestaat tussen het vorige en het huidige frame, en de frame 5 tijd-schaal modificatie vlag wordt niet gegenereerd.
Figuren 8A tot 8C zijn golfvorm diagrammen die een werkwijze voor het aanpassen van een tijd-schaal illustreren. In sommige uitvoeringsvormen kan de werkwijze worden toegepast door de preprocessor 110 van figuren 2A en 2B en de post-processor 430 van figuur 4 10 om een audiosignaal respectievelijk te comprimeren of expanderen met betrekking tot de tijd-schaal.
Tijd-schaal aanpassing refereert aan een verandering in een signaal reproductie snelheid. De tijd-schaal aanpassing past de signaal reproductie snelheid aan zonder een toon van een uitvoer audiosignaal te 15 veranderen.
De tijd-schaal modificatie betreft twee hoofd operaties: een tijdschaal compressie (een verhoging van de signaal reproductiesnelheid) en een tijd-schaal expansie (een verlaging van de signaal reproductiesnelheid). De tijd-schaal compressie wordt uitgevoerd door een toonduur te 20 verwijderen en de tijd-schaal expansie wordt uitgevoerd door additionele toonduren in te voegen. De toonduur die is verwijderd en ingevoegd kan bestaan in of corresponderen met een frame van het invoer audiosignaal. In het algemeen geeft een gesynchroniseerde overlap en additie (SOLA) werkwijze een uitmuntende prestatie en kan deze worden gebruikt voor het 25 verwijderen en/of invoegen van de toonduur.
De SOLA werkwijze gebruikt een kruis-correlatie coëfficiënt die de tijd-schaal modificatie in een tijdsdomein toelaat zonder een FFT te gebruiken.
Een SOLA functie opereert ongeacht de aanwezigheid van een 30 signaal toon. Met andere woorden, een invoersignaal heeft een vaste lengte 10 en wordt uitgezonden door het invoersignaal te verdelen in een veelvoud van ramen. Hier dient de vaste lengte ten minste twee tot drie toonduren (pitch durations) te hebben.
Een uitvoer signaal wordt gesynthetiseerd door de toonduren van 5 het invoersignaal te overlappen en toe te voegen.
Het wordt aangenomen dat x(n) het invoer signaal aangeeft en y(n) een tijd-schaal gewijzigd signaal aangeeft (dit wil zeggen, het gesynthetiseerde signaal). Tevens wordt aangenomen dat N een lengte van een frame aangeeft, Sa een afstand tussen frames van het invoersignaal x(n) 10 aangeeft, en Ss een afstand tussen frames van het tijd-schaal gewijzigd signaal y(n) aangeeft. Een gewijzigde ratio o wordt verkregen door Ss /Sa. Hier correspondeert de tijd-schaal modificatie met de tijd-schaal compressie indien o groter is dan 1, de tijd-schaal modificatie correspondeert met de tijd-schaal expansie indien a kleiner is dan 1.
15 De SOLA functie verdubbelt een eerste frame x(Sa) uit x(n) naar y(n). Een mde frame van het invoersignaal x(mSa+j)(0< j<N-l) wordt gesynchroniseerd met en opgeteld bij een aangrenzend tijd-schaal gewijzigd signaal y(mSs+j). Teneinde een kruis correlatie (gedefinieerd door formule 1 hieronder) te maximaliseren tussen een huidig frame x(mSa+J) en een vorig 20 frame x(m(Sa-l) +j), wordt het huidige frame x(mSa +j) langs het tijd-schaal gewijzigd signaal y(n) bewogen om een locatie van y(mSs), om een locatie te vinden waar een genormaliseerde kruis correlatie coëfficiënt Rm een maximum is. Daarmee staat de SOLA functie een variabel overlappingsgebied toe in een frame teneinde de tijd-schaal van het 25 invoersignaal x(n) te wijzigen zonder de toon van het invoersignaal x(n) aan te tasten. De genormaliseerde kruis correlatie coëfficiënt Rm van de SOLA functie in een mde frame wordt verkregen met betrekking tot een frame opstelling verschuiving k van een toelaatbaar bereik zoals getoond in formule 1.
30 11 [formule 1]
, λ +k + MmS« + ·/) . N ., .N
Rm{k)= 1,, t;---------tor —<k 5— 5 V£>!<tó*+-C>>s*+i+>>
Hier geeft x(n) het invoersignaal aan voor de tijd-schaal modificatie, geeft y(n) het tijd-schaal gewijzigd signaal aan, geeft m een 10 hoeveelheid frames aan en L een lengte van een gebied waarin x(n) en y(n) overlappen.
Daarmee wordt, wanneer Rm is bepaald, y(n) ververst zoals getoond in formule 2.
[formule 2] 15 y(mSt + km + /)«= fl1 ~ + *« + /)+ fÜHt*>Sa + j) for 0 < j< Lm -1 I «M. +y') forLx <.y SA'-l
Hier geeft Lm een overlappingsgebied tussen twee signalen aan die 20 de bepaalde Rm omvat en geeft f(j) een weeg functie aan resulterend in 0 <ƒ(/)< 1.
Daarmee kan de tijd-schaal compressie en expansie van een origineel signaal worden uitgevoerd gebruikmakend van de SOLA werkwijze zoals hij is geïllustreerd in figuren 8A tot 8C. Dit wil zeggen, 25 figuur 8A illustreert een origineel signaal (een dichte lijn) en eerste en tweede overlappende segmenten (stippellijnen), figuur 8B is een golfvorm diagram dat de tijd-schaal expansie van het originele signaal illustreert gebruikmakend van gesynchroniseerde segmenten die overlappende zijn en fig. 8C. is een golfvorm diagram dat de tijd-schaal compressie van het 30 originele signaal illustreert gebruikmakend van de gesynchroniseerde 12 segmenten die overlappend zijn. Derhalve kan de SOLA werkwijze die hierin is beschreven worden gebruikt bij de pre-processor 110 van figuur 1 en/of de post-processor 430 van figuur 4 om de tijd-schaal van het signaal respectievelijk te comprimeren en/of te expanderen. Bovendien kan het 5 huidige algemene inventieve concept worden uitgevoerd als executeerbare code in voor een computer leesbare media omvattende opslagmedia zoals magnetische opslagmedia (ROMs, RAMs, floppy disks, magnetische banden, etc.), optisch leesbare media (CD-ROMs, DVD's etc.) en dragende golven (transmissies over het internet).
10 Zoals hierboven is beschreven volgens uitvoeringsvormen van het huidige algemene inventieve concept kan door het reduceren van een hoeveelheid van overeenkomstige frames in een audiosignaal gebruikmakend van tijd-schaal modificatie een hoge kwaliteit audiosignaal worden gereproduceerd zonder het verlies van een hoge frequentieband.
15 Terwijl de huidige uitvinding vooral is getoond en beschreven door voorbeelden van uitvoeringsvormen ervan, zal er door diegenen met gemiddelde kennis van het vakgebied worden begrepen dat er verschillende veranderingen in vorm en detailleringen kunnen worden gemaakt zonder af te wijken van de geest en spanwijdte van de huidige uitvinding zoals 20 gedefinieerd door de volgende conclusies en equivalenten daarvan.
1 0302 80

Claims (33)

1. Een audiocodeer/decodeer werkwijze, omvattende: het coderen van audiodata van een invoeraudiosignaal door een 5 overeenkomst tussen frames van het invoer audiosignaal te bepalen, het invoeraudiosignaal te comprimeren met betrekking tot een tijd-schaal en het genereren van een frame tijd-schaal modificatievlag; en het decoderen van de audiodata uit het gecodeerde audiosignaal gebaseerd op de frame tijd-schaal modificatievlag.
2. De werkwijze van conclusie 1, waarbij het coderen van het invoeraudiosignaal omvat: het voorverwerken van het invoeraudiosignaal door de overeenkomst tussen frames van het invoeraudiosignaal te bepalen, het invoeraudiosignaal op de tijd-schaal te comprimeren en de frame tijd-schaal modificatievlag te 15 genereren; het coderen van de audiodata van het voorverwerkte audiosignaal gebaseerd op een psycho-akoestisch model; en het converteren van de frame tijd-schaal modificatievlag en de gecodeerde audiodata naar een bitstroom.
3. Werkwijze volgens conclusie 2, waarbij het voorverwerken van het invoer audiosignaal omvat het uitvoeren van een gesynchroniseerd overlap en additieproces volgens: ' 25 2 2 waarbij Rm een kruiscorrelatie-coëfficiënt omvat, x(n) een invoersignaal omvat, y(n) een tijd-schaal gewijzigd signaal y(n) omvat, Sa een opening tussen frames van het invoersignaal x(n) omvat, Ss een opening omvat 1 0302 80 tussen frames van het tijd-schaal gewijzigd signaal y(n), N een lengte van een frame omvat en L een overlappend gebied omvat tussen het invoersignaal x(n) en het tijd-schaal gewijzigd signaal y(n).
4. Werkwijze volgens conclusie 2, waarbij het voorverwerken omvat: 5 het bepalen van de overeenkomst tussen frames van het invoeraudiosignaal, en indien de overeenkomst tussen een vorig frame en een huidig frame groter is dan een vooraf bepaalde waarde, het genereren van de frame tijdschaal modificatievlag; en het comprimeren van het huidige frame met betrekking tot de tijd-schaal 10 gebaseerd op de gegenereerde frame tijd-schaal modificatievlag.
5. Werkwijze volgens conclusie 4, waarbij het bepalen van de overeenkomst omvat: het analyseren van een frequentiecomponent voor ieder frame van het invoer audiosignaal; 15 het berekenen van een geanalyseerd frequentie componentverschil tussen het vorige frame en het huidige frame; en het bepalen dat een overeenkomst bestaat tussen het vorige frame en het huidige frame indien het frequentie componentverschil minder is dan een vooraf bepaalde drempelwaarde, en het bepalen dat geen overeenkomst 20 bestaat tussen het vorige frame en de huidige frame indien het frequentiecomponentverschil groter is dan de vooraf bepaalde drempelwaarde.
6. Werkwijze volgens conclusie 2, waarbij het voorverwerken omvat: het bepalen van de overeenkomst tussen frames van het invoer 25 audiosignaal; en het overslaan van een huidig frame indien de overeenkomst tussen een vorig frame en een huidig frame groter is dan een vooraf bepaalde waarde.
7. Werkwijze volgens conclusie 6, waarbij het bepalen van de overeenkomst omvat: het analyseren van een frequentiecomponent voor ieder frame van het invoeraudiosignaal; het berekenen van een geanalyseerd frequentiecomponentverschil tussen het vorige frame en het huidige frame; en 5 het bepalen dat een overeenkomst bestaat tussen het vorige frame en het huidige frame indien het frequentiecomponentverschil minder is dan een vooraf bepaalde drempelwaarde, en het bepalen dat geen overeenkomst bestaat tussen het vorige frame en het huidige frame indien het frequentiecomponentverschil groter is dan de vooraf bepaalde 10 drempelwaarde.
8. Werkwijze volgens conclusie 2, waarbij het coderen van het invoeraudiosignaal omvat: het opdelen van invoeradiomonsters in een veelvoud van subbanden gebruikmakend van polyfase banken; 15 het bepalen van bit toewijzingsinformatie voor iedere subband volgens een maskeereffect en een hoorbare limitatie van psycho-akoestieken van het veelvoud aan subbanden; en het toe wij zen van bits aan het veelvoud aan subbanden gebaseerd op de bepaalde bittoewijzingsinformatie voor iedere subband.
9. Werkwijze volgens conclusie 1, waarbij het decoderen van gecodeerde audiosignaal omvat: het scheiden van de frame tijd-schaal modificatievlag en de audiodata uit een invoer bitstroom; het decoderen van de gescheiden audiodata gebruikmakend van een vooraf 25 bepaald decodeer algoritme; en het expanderen van het gedecodeerde audiosignaal door tijd-schaalexpansie uit te voeren wanneer de gescheiden frame tijd-schaal modificatievlag in werking is gesteld.
10. Een werkwijze voor het coderen van audiodata, waarbij de 30 werkwijze omvat: het ontvangen van een invoersignaal met data die is verdeeld in een veelvoud van tijdframes; het bepalen van overeenkomsten tussen de veelvoud van frames van het invoersignaal en het genereren van een tijd-schaal modificatievlag wanneer 5 van een huidig frame is bepaald dat het vergelijkbaar is met een voorgaand frame om aan te geven dat tenminste enige data van het huidige frame niet dient te worden gecodeerd; het comprimeren van de data van het veelvoud aan frames met betrekking tot een tijd-schaal al naar gelang of de tijd-schaal modificatievlag wordt 10 gegenereerd; en het vormen van een bitstroom omvattende de gecomprimeerde data en een of meer keer zich voordoen van de tijd-schaal modificatievlag.
11. Werkwijze volgens conclusie 10, waarbij het comprimeren van de data van de veelvoud van frames omvat het overslaan van een huidig frame 15 wanneer een corresponderende tijd-schaal modificatievlag is gegenereerd.
12. Werkwijze volgens conclusie 10, waarbij het bepalen van de overeenkomsten omvat het vergelijken van frequentiecomponenten van een veelvoud van frequentiesubbanden van een invoersignaal.
13. Werkwijze van volgens conclusie 12, waarbij het vergelijken van de 20 frequentiecomponent omvat het berekenen van een frequentiecomponent verschil tussen een huidig frame en een vorig frame en het vergelijken van het berekende frequentiecomponentverschil met een overeenkomst drempelwaarde.
14. Werkwijze volgens conclusie 10, waarbij het vormen van de 25 bitstroom omvat: het coderen van gecomprimeerde data volgens een psycho-akoestisch model; en het verpakken van de gecodeerde data, het een of meer keer zich voordoen van de tijd-schaal modificatievlag, koptekstinformatie en zij-informatie in 30 de bitstroom.
15. Werkwijze volgens conclusie 10, waarbij het comprimeren van de data omvat het verhogen van een signaal reproductiesnelheid.
16. Werkwijze volgens conclusie 10, waarbij het comprimeren van de data van het veelvoud van frames omvat overlappen en toevoegen van 5 toonduren van het invoegsignaal.
17. Werkwijze voor het coderen van audiodata, omvattende: het uitvoeren van een tijd-schaal modificatie-operatie op een audiosignaal voor het verhogen van een signaal reproductiesnelheid van het audiosignaal door het audiosignaal te comprimeren met betrekking tot een tijd-schaal; en 10 het coderen van het gecomprimeerde audiosignaal door bits volgens een psycho-akoestisch model toe te wijzen.
18. Werkwijze voor het decoderen van audiodata, omvattende: het ontvangen van een invoerbitstroom en extraheren van audiodata en een of meer tijd-schaalmodificatievlaggen daarvan, 15 het decoderen van de audiodata uit de invoer bitstroom voor het verkrijgen van een audiosignaal; en het expanderen van het gedecodeerde audiosignaal met betrekking tot een tijd-schaal volgens de een of meer tijd-schaal modificatie vlaggen ontvangen met de audiodata.
19. Werkwijze volgens conclusie 18, waarbij de een of meer tijd-schaal modificatievlaggen een of meer frames aanduiden van het audiosignaal die zijn gecomprimeerd met betrekking tot de tijd-schaal gedurende een vorige codeeroperatie.
20. Werkwijze volgens conclusie 18, waarbij de een of meer tijd-schaal 25 modificatievlaggen een of meer frames van het audiosignaal aangeven die zijn overgeslagen gedurende een vorige codeeroperatie.
21. Een audiocodeer/decodeerinrichting, omvattende: een pre-processor voor het comprimeren van een invoeraudiosignaal op een tijd-schaal gebaseerd op een overeenkomst tussen frames van het invoer audiosignaal en voor het overeenkomstig genereren van een frame tijdschaal modificatievlag; een codeerder voor het coderen van het gecomprimeerde audiosignaal naar audiodata gebaseerd op een psycho-akoestisch model; 5 een verpakeenheid voor het converteren van de frame tijd-schaal modificatievlag gegenereerd door de pre-processor en de audiodata gecodeerd door de codeerder naar een bitstroom; een uitpakeenheid voor het scheiden van de frame tijd-schaal modificatievlag en de audiodata uit de bitstroom ontvangen van de 10 verpakeenheid; een codeerder voor het coderen van de audiodata gescheiden door de uitpakeenheid naar een gecodeerd audiosignaal gebruikmakend van een vooraf bepaald decodeer algoritme; en een post-processor voor het expanderen van het audiosignaal gedecodeerd 15 door de decodeerder door het expanderen van de tijd-schaal wanneer de frame tijd-schaal modificatievlag gescheiden door de uitpakeenheid in werking is gesteld.
22. Inrichting volgens conclusie 21, waarbij de pre-processor omvat: een frame overeenkomst bepaler voor het analyseren van een 20 frequentiecomponent voor ieder frame van het invoeraudiosignaal, voor het bepalen van een overeenkomst tussen frames gebaseerd op een verschil tussen de frequentiecomponenten en voor het genereren van de tijd-schaal modificatievlag indien de overeenkomst tussen een vorig frame en een huidig frame groter is dan een vooraf bepaalde waarde; en 25 een tijd-schaal wijziger voor het comprimeren van het huidige frame met betrekking tot de tijd-schaal al naargelang of de frame tijd-schaal modificatievlag is gegenereerd door de frame overeenkomstbepaler.
23. Een inrichting voor het coderen van audiodata, omvattende: een pre-processor voor het ontvangen van een invoersignaal met data die is 30 verdeeld in een veelvoud aan frames, de pre-processor omvattende: een frame overeenkomst bepaler voor het bepalen van overeenkomsten onder het veelvoud aan frames van het invoersignaal en het genereren van een tijd-schaal modificatievlag wanneer een huidig frame is bepaald als zijnde overeenkomstig aan een vorig frame voor het aangeven dat tenminste 5 enige data van het huidige frame niet dient te worden gecodeerd; en een tijd-schaal wijziger voor het comprimeren van de data van het veelvoud aan frames met betrekking tot een tijd-schaal al naargelang of de tijd-schaal modificatievlag is gegenereerd; en een codeerder voor het vormen van een bitstroom met de gecomprimeerde 10 data en een of meer keer het zich voordoen van de tijd-schaal modificatievlag.
24. Inrichting volgens conclusie 23, waarbij de tijd-schaalwijziger omvat een frame oversla-eenheid voor het overslaan van een huidig frame wanneer een corresponderende tijd-schaal modificatievlag wordt ontvangen 15 van de frame overeenkomst bepaler.
25. Inrichting volgens conclusie 23, waarbij de frame overeenkomstbepaler frequentiecomponenten van een veelvoud van frequentiesubbanden van het invoersignaal vergelijkt.
26. Inrichting volgens conclusie 25, waarbij de frame 20 overeenkomstbepaler de frequentiecomponenten vergelijkt door een frequentiecomponentverschil te berekenen tussen een huidig frame en een vorig frame en het vergelijken van het berekende frequentiecomponentverschil met een overeenkomst drempelwaarde.
27. Inrichting volgens conclusie 23, waarbij de codeerder omvat: 25 een bittoewijzer voor het toewijzen van bits voor het coderen van de gecomprimeerde data volgens een psycho-akoestisch model; en verpakeenheid voor het verpakken van de gecodeerde data, het een of meer keer zich voordoen van de tijd-schaal modificatievlag, koptekst informatie en zij-informatie in de bitstroom.
28. Inrichting volgens conclusie 23, waarbij de tijd-schaalwijziger een signaalreproductiesnelheid verhoogt.
29. Inrichting voor het coderen van audiodata, omvattende: een pre-processor voor het uitvoeren van een tijd-schaal modificatie-operatie 5 op een audiosignaal voor het verhogen van een signaal reproductiesnelheid van het audiosignaal door het audiosignaal te comprimeren met betrekking tot een tijd-schaal; en een codeereenheid voor het coderen van het gecomprimeerde signaal door bits volgens een psychoakoestisch model toe te wijzen.
30. Inrichting voor het coderen van audiodata, omvattende: een uitpakeenheid voor het ontvangen van een invoerbitstroom en het extraheren van audiodata en een of meer tijd-schaal modificatievlaggen daarvan; een decodeerder voor het decoderen van audiodata uit de invoerbitstroom 15 voor het verkrijgen van een audiosignaal; en een post-processor voor het expanderen van het gedecodeerde audiosignaal met betrekking tot een tijd-schaal volgens de een of meer tijd-schaal modificatievlaggen ontvangen met de audiodata.
31. Inrichting volgens conclusie 30, waarbij de een of meer tijd-schaal 20 modificatievlaggen een of meer frames aangeven van het audiosignaal die zijn gecomprimeerd met betrekking tot de tijd-schaal gedurende een vorige codeeroperatie.
32. Inrichting volgens conclusie 30, waarbij de een of meer tijd-schaal modificatievlaggen een of meer frames aangeven van het audiosignaal die 25 zijn overgeslagen gedurende een vorige codeeroperatie.
33. Een voor de computer leesbaar medium omvattende executeerbare code voor het coderen en/of decoderen van audiosignaaldata, het medium omvattende: een eerste executeerbare code voor het coderen van audiodata van een 30 invoeraudiosignaal door een overeenkomst te bepalen tussen frames van het invoeraudiosignaal, het invoeraudiosignaal te comprimeren met betrekking tot een tijd-schaal en een frame tijd-schaal modificatievlag overeenkomstig te genereren; en een tweede executeerbare code voor het decoderen van de audiodata uit het 5 gecodeerde audiosignaal gebaseerd op de frame tijd-schaal modificatievlag. 10302 80
NL1030280A 2004-10-26 2005-10-26 Werkwijze en inrichting voor het coderen en decoderen van een audiosignaal. NL1030280C2 (nl)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020040085806A KR100750115B1 (ko) 2004-10-26 2004-10-26 오디오 신호 부호화 및 복호화 방법 및 그 장치
KR20040085806 2004-10-26

Publications (2)

Publication Number Publication Date
NL1030280A1 NL1030280A1 (nl) 2006-04-27
NL1030280C2 true NL1030280C2 (nl) 2009-09-30

Family

ID=36317457

Family Applications (1)

Application Number Title Priority Date Filing Date
NL1030280A NL1030280C2 (nl) 2004-10-26 2005-10-26 Werkwijze en inrichting voor het coderen en decoderen van een audiosignaal.

Country Status (5)

Country Link
US (1) US20060100885A1 (nl)
JP (1) JP2006126826A (nl)
KR (1) KR100750115B1 (nl)
CN (1) CN1767394A (nl)
NL (1) NL1030280C2 (nl)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070036228A1 (en) * 2005-08-12 2007-02-15 Via Technologies Inc. Method and apparatus for audio encoding and decoding
US8155972B2 (en) * 2005-10-05 2012-04-10 Texas Instruments Incorporated Seamless audio speed change based on time scale modification
KR20080072223A (ko) * 2007-02-01 2008-08-06 삼성전자주식회사 파라메트릭 부/복호화 방법 및 이를 위한 장치
KR101380170B1 (ko) * 2007-08-31 2014-04-02 삼성전자주식회사 미디어 신호 인코딩/디코딩 방법 및 장치
BRPI0906142B1 (pt) * 2008-03-10 2020-10-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. dispositivo e método para a manipulação de um sinal de áudio tendo um evento transiente
PL2146344T3 (pl) * 2008-07-17 2017-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób kodowania/dekodowania sygnału audio obejmujący przełączalne obejście
KR101211683B1 (ko) * 2008-12-31 2012-12-12 에스케이하이닉스 주식회사 반도체 집적회로
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
KR102422794B1 (ko) * 2015-09-04 2022-07-20 삼성전자주식회사 재생지연 조절 방법 및 장치와 시간축 변형방법 및 장치
CN107135443B (zh) * 2017-03-29 2020-06-23 联想(北京)有限公司 一种信号处理方法及电子设备
CN107424620B (zh) * 2017-07-27 2020-12-01 苏州科达科技股份有限公司 一种音频解码方法和装置
US10854209B2 (en) * 2017-10-03 2020-12-01 Qualcomm Incorporated Multi-stream audio coding
US11627361B2 (en) * 2019-10-14 2023-04-11 Meta Platforms, Inc. Method to acoustically detect a state of an external media device using an identification signal

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5189701A (en) * 1991-10-25 1993-02-23 Micom Communications Corp. Voice coder/decoder and methods of coding/decoding
US5920840A (en) * 1995-02-28 1999-07-06 Motorola, Inc. Communication system and method using a speaker dependent time-scaling technique
US6009384A (en) * 1996-05-24 1999-12-28 U.S. Philips Corporation Method for coding human speech by joining source frames and an apparatus for reproducing human speech so coded
US20030033140A1 (en) * 2001-04-05 2003-02-13 Rakesh Taori Time-scale modification of signals

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3891309B2 (ja) * 1996-11-11 2007-03-14 松下電器産業株式会社 音声再生速度変換装置
JP3017715B2 (ja) * 1997-10-31 2000-03-13 松下電器産業株式会社 音声再生装置
US6353808B1 (en) * 1998-10-22 2002-03-05 Sony Corporation Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal
JP3430968B2 (ja) * 1999-05-06 2003-07-28 ヤマハ株式会社 ディジタル信号の時間軸圧伸方法及び装置
DK1386312T3 (da) * 2001-05-10 2008-06-09 Dolby Lab Licensing Corp Forbedring af transient ydeevne af audio kodningssystemer med lav bithastighed ved reduktion af forudgående stöj
DE60204039T2 (de) * 2001-11-02 2006-03-02 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur kodierung und dekodierung von audiosignalen
US7065485B1 (en) * 2002-01-09 2006-06-20 At&T Corp Enhancing speech intelligibility using variable-rate time-scale modification
KR100462615B1 (ko) * 2002-07-11 2004-12-20 삼성전자주식회사 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치
KR100501930B1 (ko) * 2002-11-29 2005-07-18 삼성전자주식회사 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치
US6982377B2 (en) * 2003-12-18 2006-01-03 Texas Instruments Incorporated Time-scale modification of music signals based on polyphase filterbanks and constrained time-domain processing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5189701A (en) * 1991-10-25 1993-02-23 Micom Communications Corp. Voice coder/decoder and methods of coding/decoding
US5920840A (en) * 1995-02-28 1999-07-06 Motorola, Inc. Communication system and method using a speaker dependent time-scaling technique
US6009384A (en) * 1996-05-24 1999-12-28 U.S. Philips Corporation Method for coding human speech by joining source frames and an apparatus for reproducing human speech so coded
US20030033140A1 (en) * 2001-04-05 2003-02-13 Rakesh Taori Time-scale modification of signals

Also Published As

Publication number Publication date
CN1767394A (zh) 2006-05-03
KR20060036724A (ko) 2006-05-02
US20060100885A1 (en) 2006-05-11
KR100750115B1 (ko) 2007-08-21
NL1030280A1 (nl) 2006-04-27
JP2006126826A (ja) 2006-05-18

Similar Documents

Publication Publication Date Title
NL1030280C2 (nl) Werkwijze en inrichting voor het coderen en decoderen van een audiosignaal.
EP2224432B1 (en) Encoder, decoder, and encoding method
US7143047B2 (en) Time-scale modification of data-compressed audio information
JP4899359B2 (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
US7752041B2 (en) Method and apparatus for encoding/decoding digital signal
KR100462615B1 (ko) 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치
WO2009084221A1 (ja) 符号化装置、復号装置およびこれらの方法
KR100882771B1 (ko) 부호화 음향 신호를 지각적으로 개선 강화시키는 방법 및장치
US6278387B1 (en) Audio encoder and decoder utilizing time scaling for variable playback
US7792681B2 (en) Time-scale modification of data-compressed audio information
JP2006011456A (ja) 低ビット率符号化/復号化方法及び装置並びにコンピュータ可読媒体
JP2008539462A (ja) オーディオエンコーダを並列に動作させる方法及びシステム
JP2011059714A (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
EP1441330B1 (en) Method of encoding and/or decoding digital audio using time-frequency correlation and apparatus performing the method
US20020169601A1 (en) Encoding device, decoding device, and broadcast system
CN102414744B (zh) 数字信号再生装置以及数字信号压缩装置
JP4508599B2 (ja) データ圧縮方法
KR100368456B1 (ko) 음성속도 및 음정가변 어학학습장치
JP2001147700A (ja) 音声信号の後処理方法および装置並びにプログラムを記録した記録媒体
KR20210086394A (ko) 오디오 신호의 부호화 및 복호화 방법 및 장치
JP5569476B2 (ja) 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
JPH07261799A (ja) 直交変換符号化装置及び方法

Legal Events

Date Code Title Description
AD1A A request for search or an international type search has been filed
RD2N Patents in respect of which a decision has been taken or a report has been made (novelty report)

Effective date: 20090729

PD2B A search report has been drawn up
V1 Lapsed because of non-payment of the annual fee

Effective date: 20100501