NL9002308A - METHOD FOR CODING AND DECODING A SAMPLED ANALOGUE SIGNAL WITH A REPEATING CHARACTER AND AN APPARATUS FOR CODING AND DECODING ACCORDING TO THIS METHOD - Google Patents
METHOD FOR CODING AND DECODING A SAMPLED ANALOGUE SIGNAL WITH A REPEATING CHARACTER AND AN APPARATUS FOR CODING AND DECODING ACCORDING TO THIS METHOD Download PDFInfo
- Publication number
- NL9002308A NL9002308A NL9002308A NL9002308A NL9002308A NL 9002308 A NL9002308 A NL 9002308A NL 9002308 A NL9002308 A NL 9002308A NL 9002308 A NL9002308 A NL 9002308A NL 9002308 A NL9002308 A NL 9002308A
- Authority
- NL
- Netherlands
- Prior art keywords
- values
- amplitudes
- signal
- samples
- combined
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000009466 transformation Effects 0.000 claims abstract description 8
- 238000004458 analytical method Methods 0.000 claims description 23
- 230000007774 longterm Effects 0.000 claims description 10
- 238000013139 quantization Methods 0.000 claims description 4
- 230000003252 repetitive effect Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 abstract description 2
- 238000001228 spectrum Methods 0.000 abstract 2
- 230000006870 function Effects 0.000 description 11
- 230000003321 amplification Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Electrically Operated Instructional Devices (AREA)
- Analogue/Digital Conversion (AREA)
Abstract
Description
Titel: Werkwijze voor het coderen en decoderen van een bemonsterd analoog signaal met een herhalend karakter en een inrichting voor het volgens deze werkwijze coderen en decoderen.Title: Method for encoding and decoding a sampled analog signal of a repetitive nature and an apparatus for encoding and decoding according to this method.
De uitvinding heeft betrekking op een werkwijze voor het coderen van een bemonsterd analoog signaal met een herhalend karakter, waarbij het bemonsterde signaal wordt gesplitst in opeenvolgende segmenten met elk een tevoren bepaald aantal monsters; waarbij op deze segmenten een korte termijn predictie analyse wordt uitgevoerd en waarbij de bij deze analyse bepaalde coëfficiënten worden overgedragen en tevens worden toegevoerd aan een korte termijn predictiefilter, waarbij op het aan de uitgang van dit filter beschikbare residusignaal een lange termijn predictie analyse wordt uitgevoerd en de bij deze analyse bepaalde informatie eveneens wordt overgedragen, en waarbij de in het residusignaal aanwezige informatie wordt gecodeerd en overgedragen.The invention relates to a method of encoding a sampled analog signal of a repetitive nature, wherein the sampled signal is split into successive segments each having a predetermined number of samples; in which a short-term prediction analysis is performed on these segments and in which the coefficients determined in this analysis are transferred and are also fed to a short-term prediction filter, in which a long-term prediction analysis is carried out on the residual signal available at the output of this filter and the information determined in this analysis is also transmitted, and the information contained in the residual signal is encoded and transmitted.
De uitvinding heeft tevens betrekking op een werkwijze voor het decoderen van een op de bovenstaand beschreven wijze gecodeerd signaal, waarbij de ontvangen informatie van de lange termijn predictie analyse en de ontvangen overige informatie uit het residusignaal worden gecombineerd en het gecombineerde signaal tezamen met de ontvangen coëfficiënten van de korte termijn predictie analyse wordt toegevoerd aan een invers korte termijn predictiefilter aan de uitgang waarvan een reeks monsters wordt afgegeven die een reconstructie vormt van het bemonsterde analoge signaal.The invention also relates to a method for decoding a signal encoded in the manner described above, wherein the received information from the long-term prediction analysis and the received other information from the residual signal are combined and the combined signal together with the received coefficients of the short term prediction analysis is fed to an inverse short term prediction filter from which a series of samples is output that reconstructs the sampled analog signal.
De uitvinding heeft ook betrekking op een inrichting voor het volgens de bovenbeschreven werkwijzen coderen en decoderen.The invention also relates to an apparatus for encoding and decoding according to the above-described methods.
Het is bekend dat analoge signalen met een sterk samenhangend karakter, zoals bijvoorbeeld spraaksignalen, na bemonstering op efficiënte wijze gecodeerd kunnen worden door op opeenvolgende segmenten van het signaal met elk een bepaalde tijdsduur, achtereenvolgens een aantal verschillende transformaties uit te voeren. Een van de daartoe bekende transformaties is de lineaire predictieve codering (LPC), voor een toelichting waarvan verwezen kan worden naar het boek "Digital Processing of Speech Signals" van L.R. Rabiner en R.W. Schafer; Prentice Hall, New Jersey; hoofdstuk 8.It is known that analog signals of a highly coherent nature, such as, for example, speech signals, can be efficiently encoded after sampling by successively performing a number of different transformations on successive segments of the signal, each having a specific duration. One of the known transformations is linear predictive coding (LPC), for an explanation of which reference can be made to the book "Digital Processing of Speech Signals" by L.R. Rabiner and R.W. Schafer; Prentice Hall, New Jersey; Chapter 8.
LPC wordt, zoals vermeld, steeds toegepast voor een signaalsegment met een bepaalde tijdsduur, bij spraaksignalen bijvoorbeeld 20 ms., en wordt gerekend tot de korte termijn predictie codering (STP). Het is tevens bekend om naast een korte termijn predictie, gebruik te maken van lange termijn predictie (LTP), waarbij door een combinatie van deze beide technieken een zeer efficiënte codering verkregen wordt Het principe van LTP is beschreven in Frequenz, volume 42, no. 2-3, 1988; blz. 85-93; P.Vary et al.: "Sprachcodec für dass Europaische Funkfernsprechnetz" terwijl een verbeterde versie van het LTP principe beschreven is in de Nederlanse octrooiaanvrage 9001985.As mentioned, LPC is always used for a signal segment with a specific duration, for example 20 ms for speech signals, and is counted as short-term prediction coding (STP). It is also known to use long-term prediction (LTP) in addition to a short-term prediction, whereby highly efficient coding is obtained by combining these two techniques. The principle of LTP is described in Frequenz, volume 42, no. 2-3, 1988; pp. 85-93; P. Vary et al .: "Sprachcodec für dass Europaische Funkfernsprechnetz" while an improved version of the LTP principle is described in Dutch patent application 9001985.
De uitvinding beoogt te voorzien in een werkwijze om de voor het menselijk oor relevante informatie in het na de toepassing van het STP principe resterende residusignaal op een zeer efficiënte wijze over te dragen, d.w.z. met een gering aantal bits/sec, zonder dat afbreuk wordt gedaan aan de door de luisteraar ervaren kwaliteit van de door de decoder aan de ontvangstzijde gereconstrueerde spraak.The object of the invention is to provide a method for transmitting the information relevant to the human ear in the residual signal remaining after the application of the STP principle in a very efficient manner, ie with a small number of bits / sec, without compromising the quality of the speech reconstructed by the decoder on the receiving side as perceived by the listener.
De werkwijze voor het coderen volgens de uitvinding wordt hiertoe gekenmerkt doordat het residu signaal wordt getransformeerd naar het frequentiedomein, doordat de amplitudes van ten minste een aantal van de bij de transformatie naar het frequentiedomein verkregen frequentiecomponenten op een zodanige wijze worden gecombineerd dat de frequenties behorende bij de gecombineerde amplitudes equidistant op een lineaire Bark-schaal zijn gelegen en doordat een signaal dat representatief is voor deze gecombineerde amplitudes wordt overgedragen.The encoding method according to the invention is to this end characterized in that the residual signal is transformed into the frequency domain, in that the amplitudes of at least some of the frequency components obtained during the transformation into the frequency domain are combined in such a way that the frequencies associated with the combined amplitudes are equidistant on a linear Bark scale and in that a signal representative of these combined amplitudes is transmitted.
De werkwijze voor het decoderen volgens de uitvinding wordt gekenmerkt doordat uit de ontvangen gecombineerde amplitude waarden de oorspronkelijke amplitudes in het frequentiedomein worden gereconstrueerd, dat de naar aanleiding van de lange termijn predictie analyse overgedragen informatie wordt gebruikt om de bij deze amplitudes behorende fasewaarden te berekenen en dat de berekende fasewaarden tezamen met de bijbehorende amplitudes worden getransformeerd naar het tijddomein.The method for decoding according to the invention is characterized in that the original amplitudes in the frequency domain are reconstructed from the received amplitude values, that the information transmitted as a result of the long-term prediction analysis is used to calculate the phase values associated with these amplitudes and that the calculated phase values together with the associated amplitudes are transformed into the time domain.
Overeenkomstig de onderhavige uitvinding wordt het residusignaal 'op één percèptieve wijze gecodeerd, hetgeen betekent, dat alleen die informatie wordt overgedragen die relevant is voor door het menselijk oor waar te nemen verschillen in het gedecodeerde, ontvangen signaal.In accordance with the present invention, the residual signal is encoded in one sense, which means that only that information is relevant to differences perceived by the human ear in the decoded received signal.
In de eerste plaats wordt hiertoe gebruik gemaakt van het bekende feit, dat het menselijk oor niet gevoelig voor absolute fase-waarden, maar alleen voor fase verbanden, zodat het in principe niet nodig is de fase informatie uit het te coderen residusignaal over te dragen, zolang het aan de ontvangzijde maar mogelijk is de oorspronkelijke fase verbanden te reconstrueren.Firstly, use is made of the known fact that the human ear is not sensitive to absolute phase values, but only to phase relations, so that in principle it is not necessary to transfer the phase information from the residual signal to be encoded, as long as it is possible to reconstruct the original phase relationships on the receiving side.
Daarnaast wordt bij de onderhavige uitvinding gebruik gemaakt van het sinds enige tijd bestaande inzicht, dat het menselijk gehoor in feite functioneert als een aaneenschakeling van een aantal filters met aaneensluitende frequentiebanden, maar met verschillende bandbreedten, de zogenaamde kritische banden of Barks, waarbij de bandbreedte van dergelijke kritische banden voor lage frequenties veel kleiner is dan voor hoge frequenties. Een frequentieschaal die volgens dit inzicht is gevormd, wordt een lineaire Bark-schaal genoemd. Voor een verdere toelichting van het principe van de Bark schaal wordt verwezen naar B.Scharf en S.Buus "Stimulus, Physiology, Tresholds" in L.Kaufman, K.R.Boff en J.P.Thomas, editors, Handbook of Perception and Human Performance, hoofdstuk 14, biz. 1-43, Wiley, New York, 1986.In addition, the present invention makes use of the insight that has existed for some time that human hearing actually functions as a sequence of a number of filters with contiguous frequency bands, but with different bandwidths, the so-called critical bands or Barks, where the bandwidth of such critical bands for low frequencies are much smaller than for high frequencies. A frequency scale formed according to this understanding is called a linear Bark scale. For a further explanation of the principle of the Bark scale, see B.Scharf and S.Bus "Stimulus, Physiology, Thresholds" in L.Kaufman, KRBoff and JPThomas, editors, Handbook of Perception and Human Performance, chapter 14 , biz. 1-43, Wiley, New York, 1986.
Opgemerkt wordt nog, dat het principe om een bij spraakcodering over te dragen residu signaal eerst te transformeren naar het frequentiedomein en vervolgens de na deze transformatie beschikbare informatie over te dragen op zich reeds eerder is voorgesteld. Hiertoe kan bijvoorbeeld worden verwezen naar het artikel "Fourier Transform Vector Quantisation for Speech Coding" van P.Chang et al in IEEE Transactions on Communications, Vol. COM 35, No. 10, biz.It should also be noted that the principle of first transforming a residual signal to be transmitted in speech coding to the frequency domain and then transmitting the information available after this transformation has already been proposed per se. For this, reference may be made, for example, to the article "Fourier Transform Vector Quantization for Speech Coding" by P. Chang et al in IEEE Transactions on Communications, Vol. COM 35, No. 10, biz.
1059 - 1068. Volgens deze publicatie wordt na de transformatie echter gebruik gemaakt van vector-quantisatie en er is geen sprake van het overdragen van uitsluitend amplitude informatie.1059 - 1068. According to this publication, however, vector quantization is used after the transformation, and there is no question of transferring only amplitude information.
De uitvinding zal in het hiernavolgende nader worden toegelicht aan de hand van een uitvoeringsvoorbeeld onder verwijzing naar de tekening, hierin toont:The invention will be further elucidated hereinbelow on the basis of an exemplary embodiment with reference to the drawing, which shows:
Figuur la : Een blokschema van een uitvoeringsvoorbeeld van een codeereenheid voor de inrichting volgens de uitvinding.Figure 1a: A block diagram of an exemplary embodiment of an encoding unit for the device according to the invention.
Figuur 1b : Een blokschema van een uitvoeringsvoorbeeld van een decodeereenheid voor de inrichting volgens de uitvinding.Figure 1b: A block diagram of an embodiment of a decoding unit for the device according to the invention.
Een door een microfoon 1 afgegeven analoog signaal wordt door een laagdoorlaatfilter 2 in bandbreedte beperkt en in een analoog/digitaalomzetter 3 omgezet in een reeks amplitude en tijd-discrete monsters die representatief zijn voor het analoge signaal. Het uitgangssignaal van de omzetter 3 wordt toegevoerd aan de ingang van een korte termijn analyse eenheid 4 en aan de ingang van een korte termijn predictiefilter 5. Deze twee eenheden verzorgen de bovenstaand genoemde korte termijn predictie (STP) op segmenten van bijvoorbeeld 160 monsters en de analyse eenheid 4 verschaft een uitgangssignaal in de vorm van korte termijn predictie filtercoëfficiënten, die worden gequantiseerd, gecodeerd en overgezonden naar de in figuur lb getoonde decodeereenheid. De opbouw en de functie van het filter 5 en de eenheid 4 zijn aan deskundigen op het gebied van spraakcodering welbekend en zijn verder voor het wezen van de onderhavige uitvinding niet van belang, zodat een verdere toelichting achterwege kan blijven.An analog signal output from a microphone 1 is bandwidthed by a low-pass filter 2 and converted in an analog-to-digital converter 3 into a series of amplitude and time-discrete samples representative of the analog signal. The output of the converter 3 is applied to the input of a short-term analysis unit 4 and to the input of a short-term prediction filter 5. These two units provide the above-mentioned short-term prediction (STP) on segments of, for example, 160 samples and the analysis unit 4 provides an output in the form of short-term prediction filter coefficients, which are quantized, coded and transmitted to the decoder shown in Figure 1b. The structure and function of the filter 5 and the unit 4 are well known to those skilled in the art of speech coding and are of no further importance to the essence of the present invention, so that no further explanation can be given.
Het STP-gefilterde signaal wordt toegevoerd aan een lange termijn predictie (LTP) analyse-eenheid 6. In deze analyse-eenheid wordt twee maal per segment van 160 monsters een LTP analyse toegepast, op een wijze zoals bijvoorbeeld beschreven is in de Nederlandse octrooiaanvrage 9001985. Bij een dergelijke LTP-analyse wordt volgens een bepaalde zoekstrategie steeds voor een te coderen signaalsegment gezocht naar een zo goed mogelijk gelijkend segment in een aan dat segment voorafgaande signaalperiode met een bepaalde duur en wordt een signaal, dat representatief is voor het aantal monsters D dat gelegen is tussen het begintijdstip van het gevonden segment en het begintijdstip van het te coderen segment, in gecodeerde vorm overgedragen.The STP filtered signal is fed to a long-term prediction (LTP) analysis unit 6. In this analysis unit, an LTP analysis is applied twice per segment of 160 samples, in a manner as is described, for example, in Dutch patent application 9001985 In such an LTP analysis, according to a certain search strategy, a signal segment to be encoded is always searched for the best possible segment in a signal period with a predetermined duration preceding that segment and a signal representative of the number of samples D becomes located between the start time of the found segment and the start time of the segment to be encoded, transmitted in encoded form.
Het uitgangssignaal van de STP filtereenheid 5, wordt het residusignaal genoemd en dit residusignaal wordt volgens de uitvinding op zodanige wijze in gecodeerde vorm overgedragen, dat alleen de informatie die perceptief gezien relevant is wordt overgedragen. Hiertoe worden de segmenten van 160 monsters van dit residusignaal in de keten 7 verdeeld in acht deelsegmenten van 30 monsters. Dit geschiedt door het aangeboden segment eerst te verdelen in acht deelsegmenten van 20 monsters en deze vervolgens aan de voorzijde aan te vullen met de tien laatste monsters van het vorige deelsegment. Dit houdt in, dat de laatste tien monsters van ieder segment bewaard moeten worden, om ook het eerste deelsegment van het volgende segment aan te kunnen vullen. Vervolgens wordt ieder deelsegment van 30 monsters in een keten 8 vermenigvuldigd met een vensterfunctie, zoals bijvoorbeeld een cosinus-functie. De vensterfunctie is zo gekozen, dat voor ieder monster in de overlappende delen van de deelsegmenten de som van de kwadraten van de beide vermenigvuldigingsfactoren één bedraagt. De reden dat dit moet gelden voor de kwadraten, is dat de vermenigvuldiging met de vensterfunctie zowel in de codeereenheid als in de, in figuur lb getoonde decodeereenheid plaatsvindt. Op de gevensterde deelsegmenten wordt in een keten 9 een Discrete Fourier Transformatie (DFT) uitgevoerd, waarbij voor ieder deelsegment 16 verschillende frequentiecomponenten worden verkregen. Van deze 16 frequentiecomponenten, genummerd 0 tot en met 15, worden in een keten 10 de amplitudes A van de componenten 1 tot en met 13 berekend. De componenten 0, 14 en 15 kunnen buiten beschouwing blijven omdat deze gelegen zijn buiten de voor spraakcommunicatie gekozen frequentieband van 300 - 3400 Hz. Indien een grotere of een kleinere frequentieband relevant is, kan het aantal in beschouwing genomen amplitudecomponenten dienovereenkomstig worden aan gepast Uitgaande van de genoemde 13 componenten worden in een keten 11 vier zogenaamde Bark-amplitudecomponenten berekend. Dit zijn amplitudes behorende bij frequenties die equidistant gelegen zijn op een lineaire Bark-schaal. De Bark-amplitudecomponenten Bi t/m B4 kunnen bijvoorbeeld als volgt berekend worden uit de DFT-amplitudes Αχ t/m A13:The output signal of the STP filter unit 5 is called the residual signal and this residual signal is transmitted in coded form according to the invention in such a way that only the information which is perceptually relevant is transmitted. For this purpose, the segments of 160 samples of this residual signal in the chain 7 are divided into eight sub-segments of 30 samples. This is done by first dividing the offered segment into eight sub-segments of 20 samples and then supplementing them at the front with the last ten samples of the previous sub-segment. This means that the last ten samples of each segment must be saved in order to be able to supplement the first sub-segment of the next segment. Each sub-segment of 30 samples in a chain 8 is then multiplied by a window function, such as, for example, a cosine function. The window function is chosen such that for each sample in the overlapping parts of the sub-segments the sum of the squares of the two multiplication factors is one. The reason that this should apply to the squares is that the multiplication with the window function takes place both in the encoder and in the decoder shown in Figure 1b. A discrete Fourier Transform (DFT) is performed on the windowed sub-segments in a chain 9, whereby 16 different frequency components are obtained for each sub-segment. Of these 16 frequency components, numbered 0 to 15, the amplitudes A of components 1 to 13 are calculated in a chain 10. Components 0, 14 and 15 can be disregarded because they lie outside the frequency band of 300 - 3400 Hz chosen for voice communication. If a larger or a smaller frequency band is relevant, the number of amplitude components considered can be adapted accordingly. Starting from the said 13 components, four so-called Bark amplitude components are calculated in a chain 11. These are amplitudes associated with frequencies equidistant on a linear Bark scale. For example, the Bark amplitude components Bi through B4 can be calculated from the DFT amplitudes Αχ through A13 as follows:
(1)(1)
Uit de vier Bark-amplitudecomponenten wordt, indien gewenst, in een keten 12 een versterkingsfactor G als schaalwaarde berekend volgens:If desired, an amplification factor G in scale 12 is calculated from the four Bark amplitude components as scale value according to:
Het toepassen van de schaalwaarde G heeft als voordeel, dat de codering van de geschaalde amplitudes op een meer efficiënte wijze kan geschieden. De waarde van G wordt in een keten 13 gequantiseerd en vervolgens overgezonden naar de decodeereenheid. Indien de schaalfactor G is berekend, wordt iedere Bark-component in een keten 14 gedeeld door de gequantiseerde versterkingsfactor G. De uitkomst van deze deling wordt in een keten 15 gequantiseerd, gecodeerd en vervolgens eveneens overgezonden naar de decodeereenheid.The use of the scale value G has the advantage that the coding of the scaled amplitudes can be done in a more efficient manner. The value of G is quantized in a chain 13 and then transmitted to the decoder. If the scale factor G is calculated, each Bark component in a chain 14 is divided by the quantized gain factor G. The result of this division is quantized in a chain 15, coded and then also transferred to the decoder.
Indien geen gebruik gemaakt wordt van een schaalwaarde, kunnen de ketens 12, 13 en 14 vervallen en kunnen de vier berekende waarden voor de Bark-amplitudecomponenten na quantisering in keten 15, direct worden overgezonden.If no scale value is used, the chains 12, 13 and 14 can be omitted and the four calculated values for the Bark amplitude components after quantization in chain 15 can be directly transferred.
In de decodeereenheid worden de vier geschaalde Bark-amplitudecomponenten na decodering in een keten 16 in een vermenigvuldiger 18 vermenigvuldigd met de in een keten 17 gedecodeerde versterkingsfactor, ê, waardoor de gereconstrueerde Bark-amplitudecomponenten Bi t/m B4 worden verkregen. Dit is vanzelfsprekend niet van toepassing wanneer in de codeereenheid geen schaalfactor wordt toegepast. Hierna worden in een keten 19 de amplitudes in het frequentiedomein Αχ t/m Ai3 (equidistant op de Hz schaal) berekend via de volgende formules.In the decoder, the four scaled Bark amplitude components after decoding in a chain 16 in a multiplier 18 are multiplied by the amplification decoded in a chain 17, ê, thereby obtaining the reconstructed Bark amplitude components B1 through B4. Obviously, this does not apply if no scaling factor is used in the encoder. In a chain 19, the amplitudes in the frequency domain Αχ to Ai3 (equidistant on the Hz scale) are calculated using the following formulas.
Om via een inverse DFT (IDFT) de 13 bij de coder beschouwde frequentiecomponenten in de IDFT-keten terug te kunnen transformeren naar het tijddomein zijn de amplitudes én de fases benodigd .In order to be able to transform the 13 frequency components in the IDFT chain considered at the coder back into the time domain via an inverse DFT (IDFT), the amplitudes and the phases are required.
De fases worden op de volgende wijze bepaald met behulp van de in een keten 23 gedecodeerde LTP informatie, die bestaat uit de monsterafstand D.The phases are determined in the following manner using the LTP information decoded in a chain 23, which consists of the sample distance D.
Steeds worden de 120 meest recente monsters van het gereconstrueerde STP-residu, zoals aanwezig aan de uitgang van de onderstaand nader te bespreken keten 22, bewaard. In een keten 24 wordt het deelsegment, dat ten opzichte van het huidige deelsegment gelegen is op een afstand van D monsters in het verleden, bepaald en in een keten 25 wordt dit deelsegment vermenigvuldigd met dezelfde vensterfunctie als die in de keten 8 in de codeereenheid werd toegepast. Vervolgens wordt op dit deelsegment in een keten 26 een DFT toegepast, waarna de fases van de 13 beschouwde componenten berekend kunnen worden in een keten 27. Met behulp van de op deze wijze bepaalde fases en de reeds berekende amplitudes wordt in de keten 20 een IDFT uitgevoerd, waarbij de amplitudes van Ao, &L4, Αχ5 en Αχς nul gesteld worden.The 120 most recent samples of the reconstructed STP residue, as present at the exit of the chain 22 to be discussed below, are always kept. In a chain 24, the sub-segment, which is situated at a distance from D samples in the past relative to the current sub-segment, is determined and in a chain 25, this sub-segment is multiplied by the same window function as that in the chain 8 in the encoder. applied. Subsequently, a DFT is applied to this sub-segment in a chain 26, after which the phases of the 13 components considered can be calculated in a chain 27. Using the phases determined in this way and the amplitudes already calculated, an IDFT is converted into the chain 20 where the amplitudes of Ao, & L4, Αχ5 and Αχς are set to zero.
Aan de uitgang van keten 20 is nu een reconstructie van het deelsegment, ter lengte van 30 monsters beschikbaar, welke echter nog door de in de codeereenheid uitgevoerde vensterfunctie gemodificeerd is. Daarom wordt het gereconstueerde deelsegment in een keten 21 opnieuw vermenigvuldigd met de vensterfunctie. Bij de eerste tien monsters van het nu twee maal met de vensterfunctie vermenigvuldigde deelsegment worden in een keten 22 de voor dit doel bewaarde laatste tien monsters van het vorige twee maal met de vensterfunctie vermenigvuldigde deelsegment opgeteld . Hierdoor is in de resulterende tien monsters de som van de vermenigvuldigingsfactoren gelijk aan één.A reconstruction of the sub-segment, 30 samples long, is now available at the output of circuit 20, but this has still been modified by the window function performed in the encoder. Therefore, the reconstructed sub-segment in a chain 21 is multiplied again with the window function. In the first ten samples of the sub-segment now multiplied twice by the window function, the last ten samples of the previous sub-segment multiplied twice by the window function are stored for this purpose in a chain 22. As a result, in the resulting ten samples, the sum of the multiplication factors equals one.
De laatste tien monsters in dit deelsegment worden opgeslagen. De eerste twintig monsters vormen een gedeelte van de reconstructie van een segment van het STP-residu. Na acht deelsegmenten gereconstrueerd en samengevoegd te hebben is er een volledig gereconstrueerd segment van het STP-residu verkregen, dat zich ten opzichte van het segment waarop in de codeereenheid de STP-analyse is uitgevoerd tien monsters in het verleden bevindt.The last ten samples in this sub-segment are stored. The first twenty samples are part of the reconstruction of a segment of the STP residue. After reconstructing and pooling eight sub-segments, a fully reconstructed segment of the STP residue is obtained, which is ten samples in the past relative to the segment on which the STP analysis was performed in the encoder.
Op dit segment wordt in een filterketen 28 op op zich bekende wijze met behulp van de ontvangen STP coëfficiënten een inverse STP-filtering uitgevoerd, waarbij voor de eerste tien monsters de filter-coëfficiënten uit het vorige segment gebruikt worden.An inverse STP filtering is carried out on this segment in a filter chain 28 in a manner known per se using the received STP coefficients, the filter coefficients from the previous segment being used for the first ten samples.
Het uitgangssignaal van het filter 28 wordt in een digitaal-analoog omzetter 29 omgezet in een analoog signaal, dat via een laagdoorlaat filter 30 wordt toegevoerd aan een luidspreker 31, die een natuurgetrouwe weergave geeft van het aan de microfoon 1 aangeboden spraaksignaal, dat dankzij de maatregelen volgens de uitvinding met een gering aantal bits in gecodeerde vorm kon worden overgedragen.The output signal of the filter 28 is converted in a digital-analog converter 29 into an analog signal, which is fed via a low-pass filter 30 to a loudspeaker 31, which gives a true-to-life reproduction of the speech signal presented to the microphone 1, which thanks to the measures according to the invention could be transmitted in a coded form with a small number of bits.
Indien gewenst, kan tussen de ketens 23 en 24 een keten 23' worden opgenomen om de door de decoder ontvangen waarde van D eerst nog aan een aantal bewerkingen te onderwerpen ter verkrijging van een voor de reconstructie van het spraaksignaal optimale waarde van D. Dit kunnen drie opeenvolgende bewerkingen zijn.If desired, a circuit 23 'can be included between circuits 23 and 24 in order to first subject the value of D received by the decoder to a number of operations in order to obtain a value of D which is optimal for the reconstruction of the speech signal. are three consecutive operations.
1) Als de rij ontvangen waarden D een tendens vertoont, wordt de huidige ontvangen D, indien deze met een zekere marge buiten deze tendens valt, vervangen door een waarde die in overeenstemming is met deze tendens. Algoritmen voor het bepalen van een tendens in een reeks opeenvolgende waarden en voor het bepalen van een vervangingswaarde voor een signaal dat buiten deze tendens valt zijn op zich aan deskundigen welbekend.1) If the row of received values D shows a trend, the current received D, if it falls outside this trend by a certain margin, is replaced by a value corresponding to this trend. Algorithms for determining a trend in a series of consecutive values and for determining a substitute value for a signal outside this trend are well known per se to those skilled in the art.
2) Tussen twee opeenvolgende, eventueel met behulp van een dergelijk algoritme aangepaste waarden van D (Di en D2) worden door middel van interpolatie drie tussenliggende waarden (Iif I2 en I3) berekend. Dit geschiedt bijvoorbeeld op de volgende wijze: I]_ = 0.75 * D]_ + 0.25 * D2 12 = 0.5 * D]_ + 0.5 * D2 13 = 0.25 * D]_ + 0.75 * D22) Three intermediate values (Iif I2 and I3) are calculated by means of interpolation between two consecutive values of D (Di and D2), possibly adjusted by means of such an algorithm. This is done, for example, in the following manner: I] _ = 0.75 * D] _ + 0.25 * D2 12 = 0.5 * D] _ + 0.5 * D2 13 = 0.25 * D] _ + 0.75 * D2
Het interpoleren gebeurt omdat de afstand D in de codeereenheid twee maal per segment wordt bepaald. Zonder interpolatie zou decodering van vier opeenvolgende deelsegmenten met dezelfde waarde van D gebeuren. Indien er geen fundamentele regelmaat in het signaal in de codeereenheid aanwezig is, zou er hierdoor in de decoder ten onrechte gedurende vier deelsegmenten een regelmaat wordt aangebracht. Dit probleem wordt door de interpolatie ondervangen.The interpolation occurs because the distance D in the encoder is determined twice per segment. Without interpolation, decoding of four consecutive sub-segments with the same value of D would be done. If there is no fundamental regularity in the signal in the encoder, this would incorrectly provide regularity in the decoder for four sub-segments. This problem is addressed by interpolation.
Indien er wel fundamentele regelmaat in het spraaksignaal aanwezig is, zal de herhaal-afstand in het signaal in het algemeen langzaam variëren. Dankzij de interpolatie heeft de variatie in de waarde van D nu ook bij de decoder een vloeiend karakter.If fundamental regularity is present in the speech signal, the repeat distance in the signal will generally vary slowly. Thanks to the interpolation, the variation in the value of D now also has a smooth character with the decoder.
3) Na het egaliseren van de waarden van D door het, indien noodzakelijk, berekenen van een vervangingswaarde en na de interpolatie komt de berekende afstand D zo goed mogelijk overeen met de werkelijk in het signaal aanwezige herhaal-afstand. Indien echter deze afstand D kleiner is dan 30, wordt D vermenigvuldigd met een geheel getal, dat zodanig gekozen is, dat de uitkomst minimaal gelijk is aan 30. Dit is noodzakelijk omdat van een deelsegment op afstand kleiner dan 30 ten opzichte van het huidige segment nog niet alle monsters gereconstrueerd zijn, zodat deze dus ook niet gebruikt kunnen worden voor het berekenen van de fases.3) After equalizing the values of D by calculating a replacement value, if necessary, and after interpolation, the calculated distance D corresponds as closely as possible to the repeat distance actually present in the signal. However, if this distance D is less than 30, D is multiplied by an integer, chosen such that the result is at least equal to 30. This is necessary because of a sub-segment at a distance less than 30 from the current segment not all samples have been reconstructed yet, so that they cannot be used for calculating the phases.
De reden dat toch afstanden D kleiner dan 30 worden overgezonden is, dat op deze wijze wordt voorkomen dat, indien de fundamentele regelmaat in het signaal een aantal monsters kleiner dan 30 bestrijkt, de gedecodeerde afstand D waarden aanneemt, die aan elkaar ongelijke veelvouden zijn van de werkelijke herhaalafstand. Hierdoor zou het egalisatie-algorithme minder kans hebben een tendens waar te nemen.The reason that distances D less than 30 are nevertheless transmitted is that in this way it is prevented that, if the fundamental regularity in the signal covers a number of samples smaller than 30, the decoded distance D takes values which are unequal multiples of the actual repeat distance. This would make the equalization algorithm less likely to detect a tendency.
Claims (9)
Priority Applications (13)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NL9002308A NL9002308A (en) | 1990-10-23 | 1990-10-23 | METHOD FOR CODING AND DECODING A SAMPLED ANALOGUE SIGNAL WITH A REPEATING CHARACTER AND AN APPARATUS FOR CODING AND DECODING ACCORDING TO THIS METHOD |
CA002053133A CA2053133C (en) | 1990-10-23 | 1991-10-10 | Method for coding and decoding a sampled analog signal having a repetitive nature and a device for coding and decoding by said method |
ES91202675T ES2106051T3 (en) | 1990-10-23 | 1991-10-16 | PROCEDURE AND DEVICE TO CODE AND DECODE A SAMPLE ANALOGUE SIGNAL THAT IS REPETITIVE IN NATURE. |
EP91202675A EP0482699B1 (en) | 1990-10-23 | 1991-10-16 | Method for coding and decoding a sampled analog signal having a repetitive nature and a device for coding and decoding by said method |
AT91202675T ATE157188T1 (en) | 1990-10-23 | 1991-10-16 | METHOD AND DEVICE FOR ENCODING AND DECODING A SAMPLED ANALOG SIGNAL HAVING REPETITIVE CHARACTERISTICS |
DK91202675.4T DK0482699T3 (en) | 1990-10-23 | 1991-10-16 | Method for encoding and decoding a sampled analog signal of a repetitive nature and device for encoding and decoding by this method |
DE69127339T DE69127339T2 (en) | 1990-10-23 | 1991-10-16 | Method and device for coding and decoding a sampled analog signal with repetition properties |
JP3332967A JP2958726B2 (en) | 1990-10-23 | 1991-10-17 | Apparatus for coding and decoding a sampled analog signal with repeatability |
NO914105A NO305188B1 (en) | 1990-10-23 | 1991-10-18 | Method and apparatus for encoding and decoding analog signals |
PT99294A PT99294A (en) | 1990-10-23 | 1991-10-22 | METHOD FOR CODING AND DECODING AN ANALOGUE SIGNAL BY SAMPLING HAVING A REPETITIVE NATURE AND A DEVICE FOR CODING AND DECODING BY THE METHOD |
FI914993A FI105623B (en) | 1990-10-23 | 1991-10-23 | A method of encoding and decoding an analog signal which is sampled and which is inherently repetitive and a device for encoding and decoding utilizing this method |
US08/054,428 US5687281A (en) | 1990-10-23 | 1993-04-28 | Bark amplitude component coder for a sampled analog signal and decoder for the coded signal |
US08/437,360 US5588089A (en) | 1990-10-23 | 1995-05-09 | Bark amplitude component coder for a sampled analog signal and decoder for the coded signal |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NL9002308 | 1990-10-23 | ||
NL9002308A NL9002308A (en) | 1990-10-23 | 1990-10-23 | METHOD FOR CODING AND DECODING A SAMPLED ANALOGUE SIGNAL WITH A REPEATING CHARACTER AND AN APPARATUS FOR CODING AND DECODING ACCORDING TO THIS METHOD |
Publications (1)
Publication Number | Publication Date |
---|---|
NL9002308A true NL9002308A (en) | 1992-05-18 |
Family
ID=19857866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
NL9002308A NL9002308A (en) | 1990-10-23 | 1990-10-23 | METHOD FOR CODING AND DECODING A SAMPLED ANALOGUE SIGNAL WITH A REPEATING CHARACTER AND AN APPARATUS FOR CODING AND DECODING ACCORDING TO THIS METHOD |
Country Status (11)
Country | Link |
---|---|
EP (1) | EP0482699B1 (en) |
JP (1) | JP2958726B2 (en) |
AT (1) | ATE157188T1 (en) |
CA (1) | CA2053133C (en) |
DE (1) | DE69127339T2 (en) |
DK (1) | DK0482699T3 (en) |
ES (1) | ES2106051T3 (en) |
FI (1) | FI105623B (en) |
NL (1) | NL9002308A (en) |
NO (1) | NO305188B1 (en) |
PT (1) | PT99294A (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07261797A (en) * | 1994-03-18 | 1995-10-13 | Mitsubishi Electric Corp | Signal encoding device and signal decoding device |
JPH09127995A (en) * | 1995-10-26 | 1997-05-16 | Sony Corp | Signal decoding method and signal decoder |
JP2000165251A (en) * | 1998-11-27 | 2000-06-16 | Matsushita Electric Ind Co Ltd | Audio signal coding device and microphone realizing the same |
FI116992B (en) | 1999-07-05 | 2006-04-28 | Nokia Corp | Methods, systems, and devices for enhancing audio coding and transmission |
EP1113432B1 (en) * | 1999-12-24 | 2011-03-30 | International Business Machines Corporation | Method and system for detecting identical digital data |
CN114519996B (en) * | 2022-04-20 | 2022-07-08 | 北京远鉴信息技术有限公司 | Method, device and equipment for determining voice synthesis type and storage medium |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5650398A (en) * | 1979-10-01 | 1981-05-07 | Hitachi Ltd | Sound synthesizer |
US4742550A (en) * | 1984-09-17 | 1988-05-03 | Motorola, Inc. | 4800 BPS interoperable relp system |
JP2892462B2 (en) * | 1990-08-27 | 1999-05-17 | 沖電気工業株式会社 | Code-excited linear predictive encoder |
-
1990
- 1990-10-23 NL NL9002308A patent/NL9002308A/en not_active Application Discontinuation
-
1991
- 1991-10-10 CA CA002053133A patent/CA2053133C/en not_active Expired - Lifetime
- 1991-10-16 AT AT91202675T patent/ATE157188T1/en not_active IP Right Cessation
- 1991-10-16 EP EP91202675A patent/EP0482699B1/en not_active Expired - Lifetime
- 1991-10-16 DE DE69127339T patent/DE69127339T2/en not_active Expired - Lifetime
- 1991-10-16 DK DK91202675.4T patent/DK0482699T3/en active
- 1991-10-16 ES ES91202675T patent/ES2106051T3/en not_active Expired - Lifetime
- 1991-10-17 JP JP3332967A patent/JP2958726B2/en not_active Expired - Lifetime
- 1991-10-18 NO NO914105A patent/NO305188B1/en not_active IP Right Cessation
- 1991-10-22 PT PT99294A patent/PT99294A/en not_active Application Discontinuation
- 1991-10-23 FI FI914993A patent/FI105623B/en not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
ES2106051T3 (en) | 1997-11-01 |
NO914105D0 (en) | 1991-10-18 |
DE69127339T2 (en) | 1998-01-29 |
FI914993A0 (en) | 1991-10-23 |
CA2053133A1 (en) | 1992-04-24 |
EP0482699A2 (en) | 1992-04-29 |
DE69127339D1 (en) | 1997-09-25 |
EP0482699B1 (en) | 1997-08-20 |
JP2958726B2 (en) | 1999-10-06 |
PT99294A (en) | 1994-01-31 |
CA2053133C (en) | 1996-05-21 |
JPH05268098A (en) | 1993-10-15 |
EP0482699A3 (en) | 1992-08-19 |
DK0482699T3 (en) | 1998-03-30 |
NO914105L (en) | 1992-04-24 |
NO305188B1 (en) | 1999-04-12 |
FI105623B (en) | 2000-09-15 |
FI914993A (en) | 1992-04-24 |
ATE157188T1 (en) | 1997-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100209870B1 (en) | Perceptual coding of audio signals | |
CA2101700C (en) | Low-delay audio signal coder, using analysis-by-synthesis techniques | |
US6681204B2 (en) | Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal | |
DK2265040T3 (en) | Advanced processing based on a complex exponential modulated filter bank and adaptive time signaling methods | |
FR2475264A1 (en) | METHOD AND SYSTEM FOR TRANSMITTING A SPEECH SIGNAL WITH PREDICTION CODING | |
FR2706053A1 (en) | Method for reducing redundancy of data | |
GB2235354A (en) | Speech coding/encoding using celp | |
KR0185998B1 (en) | Encoding system comprising a subband coder and a transmitter comprising an encoding system | |
EP0457391B1 (en) | Encoding method and encoding system comprising a subband coder, and a transmitter comprising an encoding system | |
US5073938A (en) | Process for varying speech speed and device for implementing said process | |
DE69028434T2 (en) | System for encoding broadband audio signals | |
US4319082A (en) | Adaptive prediction differential-PCM transmission method and circuit using filtering by sub-bands and spectral analysis | |
NL9002308A (en) | METHOD FOR CODING AND DECODING A SAMPLED ANALOGUE SIGNAL WITH A REPEATING CHARACTER AND AN APPARATUS FOR CODING AND DECODING ACCORDING TO THIS METHOD | |
EP0334714B1 (en) | Differential coder with a self-adaptive filter, and decoder for said coder | |
US5687281A (en) | Bark amplitude component coder for a sampled analog signal and decoder for the coded signal | |
EP0772185A2 (en) | Speech decoding method and apparatus | |
US5588089A (en) | Bark amplitude component coder for a sampled analog signal and decoder for the coded signal | |
KR920011126A (en) | Digital Communication Systems, Transmitters and Receivers, and Recording and Playback Devices Using the Same | |
NL9100285A (en) | TRANSMISSION SYSTEM, AND RECEIVER FOR USE IN THE TRANSMISSION SYSTEM. | |
FI105624B (en) | Method for encoding an analog signal of repetitive nature and apparatus for encoding according to said method | |
CN111862994A (en) | Method and device for decoding sound wave signal | |
Schindler | Linear, nonlinear, and adaptive delta modulation | |
Cheung et al. | High quality 16 kb/s voice transmission: The subband coder approach | |
EP0987680A1 (en) | Audio signal processing | |
Magrath et al. | Efficient coding of linear predictive coefficients for wideband speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A1B | A search report has been drawn up | ||
BV | The patent application has lapsed |