NO305188B1 - Method and apparatus for encoding and decoding analog signals - Google Patents
Method and apparatus for encoding and decoding analog signals Download PDFInfo
- Publication number
- NO305188B1 NO305188B1 NO914105A NO914105A NO305188B1 NO 305188 B1 NO305188 B1 NO 305188B1 NO 914105 A NO914105 A NO 914105A NO 914105 A NO914105 A NO 914105A NO 305188 B1 NO305188 B1 NO 305188B1
- Authority
- NO
- Norway
- Prior art keywords
- term prediction
- signal
- amplitudes
- combined
- information
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000009466 transformation Effects 0.000 claims abstract description 10
- 230000007774 longterm Effects 0.000 claims description 16
- 230000000737 periodic effect Effects 0.000 claims description 5
- 238000011002 quantification Methods 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims 1
- 238000001914 filtration Methods 0.000 abstract description 2
- 238000001228 spectrum Methods 0.000 abstract 2
- 230000006870 function Effects 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000523 sample Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
Abstract
Description
Den foreliggende oppfinnelse vedrører en fremgangsmåte for koding av et samplet analogt signal med periodisk forløp, av den art som er angitt i den innledende del av det ved-føyde patentkrav 1. The present invention relates to a method for coding a sampled analogue signal with a periodic course, of the type specified in the introductory part of the appended patent claim 1.
Oppfinnelsen vedrører også en fremgangsmåte for dekoding av et signal som er kodet ved hjelp av en fremgangsmåte ifølge nevnte patentkrav 1. The invention also relates to a method for decoding a signal that has been coded using a method according to said patent claim 1.
Oppfinnelsen vedrører også en anordning for koding av et samplet analogt signal med periodisk forløp, av den art som er angitt i den innledende del av det vedføyde patentkrav 9, samt en anordning for dekoding av denne type signaler, i henhold til patentkrav 1. The invention also relates to a device for encoding a sampled analog signal with a periodic course, of the type specified in the introductory part of the attached patent claim 9, as well as a device for decoding this type of signal, according to patent claim 1.
En slik angitt fremgangsmåte er kjent fra "An error pro-tected tranform coder for cellular mobile radio", en publikasjon forfattet av H. Suda et al. og presentert under IEEE Workshop on speech coding, "Advances in speech coding", Vancouver, CA, 5-8 september 1989, side 81-86. Denne publikasjon viser på figur 1 en koder der korttidsprediksjonsanalyse og langtidsprediksjonsanalyse blir utført. Koderen omfatter et korttidsprediksjonsfilter for generering av et restsignal og omfatter en multiplekseringsenhet for multipleksering og deretter overføring (etter koding) av informasjon som finnes i restsignalet, informasjon som blir bestemt i korttidsprediksjonsanalysen, samt informasjon som er bestemt ved nevnte langtidsprediksjonsanalyse. Such a stated method is known from "An error protected transform coder for cellular mobile radio", a publication authored by H. Suda et al. and presented at the IEEE Workshop on speech coding, "Advances in speech coding", Vancouver, CA, September 5-8, 1989, pages 81-86. This publication shows in Figure 1 a coder where short-term prediction analysis and long-term prediction analysis are carried out. The encoder comprises a short-term prediction filter for generating a residual signal and comprises a multiplexing unit for multiplexing and then transmitting (after coding) information contained in the residual signal, information which is determined in the short-term prediction analysis, as well as information which is determined by said long-term prediction analysis.
Denne kjente fremgangsmåte er imidlertid beheftet med u-lemper, bl.a. fordi den overfører informasjon på en ikke effektiv måte, dvs. med et stort antall av biter/sekund. However, this known method is fraught with disadvantages, i.a. because it transmits information in an inefficient way, i.e. with a large number of bits/second.
Et formål med den foreliggende oppfinnelse er bl.a. å skaffe en fremgangsmåte for på en svært effektiv måte å overføre informasjonen, dvs. med et lite antall av biter/sekund, uten at den kvalitet som oppfattes av den som lytter til den tale som er rekonstruert ved mottagersiden, oppfattes som forringet. An object of the present invention is, among other things, to provide a method for transmitting the information in a very efficient manner, i.e. with a small number of bits/second, without the quality perceived by the listener of the speech reconstructed at the receiving end being perceived as degraded.
For oppnåelse av dette formål er fremgangsmåte av den innledningsvis angitte artkarakterisert vedde trekk som fremgår av den karakteriserende del av det vedføyde patentkrav 1. In order to achieve this purpose, the method of the initially stated species is characterized by features that appear in the characterizing part of the attached patent claim 1.
Ifølge den foreliggende oppfinnelse blir restsignalet kodet av hensyn til mottak, hvilket betyr at kun den informasjon som er relevant for ulikheter i det dekodede mottatte signal som kan oppfanges av det menneskelige øre, blir overført. According to the present invention, the residual signal is coded for reasons of reception, which means that only the information that is relevant for differences in the decoded received signal that can be picked up by the human ear is transmitted.
For dette formål blir det kjente faktum at det menneskelige øre ikke er følsomt overfor absolutte faseverdier, men kun overfor faseforhold, utnyttet, slik at det i prinsipp ikke er nødvendig å overføre faseinformasjon fra det restsignal som skal kodes, kun gitt at det er mulig å rekonstruere de opprinnelige faseforhold ved-mottakersiden. For this purpose, the well-known fact that the human ear is not sensitive to absolute phase values, but only to phase relationships, is exploited, so that in principle it is not necessary to transfer phase information from the residual signal to be coded, only given that it is possible to reconstruct the original phase conditions at the receiver side.
I tillegg utnytter foreliggende oppfinnelse den innsikt som har være kjent over noe tid og som går ut på at det menneskelige øre fungerer som en kjede som består av et antall av filtre med tilstøtende frekvensbånd, men med forskjellige båndbredder, de såkalte kritiske bånd eller "Barks", idet båndbredden for slike kritiske bånd er mye mindre for lave frekvenser enn for høye frekvenser. En frekvensskala som er formet i samsvar med denne innsikt, omtales som en lineær Bark-skala. For ytterligere forklaring av prinsippet bak en Bark-skala, henvises det til B. Scharf og S. Buus, "Stimulus, Physiology, Thresholds" i L. Kaufman, K.R. Boff og J.P. Thomas, editors, "Handbook of Perception and Human Performance", kapittel 14, sidene 1-43, Wiley, New York, 1986. In addition, the present invention utilizes the insight that has been known for some time and that the human ear functions as a chain consisting of a number of filters with adjacent frequency bands, but with different bandwidths, the so-called critical bands or "Barks ", as the bandwidth for such critical bands is much smaller for low frequencies than for high frequencies. A frequency scale that is shaped in accordance with this insight is referred to as a linear Bark scale. For further explanation of the principle behind a Bark scale, reference is made to B. Scharf and S. Buus, "Stimulus, Physiology, Thresholds" in L. Kaufman, K.R. Boff and J.P. Thomas, editors, "Handbook of Perception and Human Performance", Chapter 14, pages 1-43, Wiley, New York, 1986.
Det blir også understreket at prinsippet med å først transformere et restsignal for overføring i talekode til frekvensområdet, og deretter overføre den tilgjengelige informasjon etter at denne transformasjonen tidligere allerede er blitt gjennomført. For dette formål kan det henvises f.eks. til publikasjonen med tittelen "Fourier Transform Vector Quantisation for Speech Coding" av P. Chang et al. i IEEE Transactions on Communications, volum COM 35, nr. 10, sidene 1059-1068. It is also emphasized that the principle of first transforming a residual signal for transmission in speech code to the frequency range, and then transmitting the available information after this transformation has previously already been carried out. For this purpose, reference can be made to e.g. to the publication entitled "Fourier Transform Vector Quantisation for Speech Coding" by P. Chang et al. in IEEE Transactions on Communications, Volume COM 35, No. 10, Pages 1059-1068.
Ifølge denne publikasjonen blir det midlertid etter transformasjon benyttet vektorkvantifisering, og overføring av ren amplitudeinformasjon er ikke nevnt. According to this publication, vector quantization is used for a while after transformation, and the transmission of pure amplitude information is not mentioned.
Som nevnt tidligere, vedrører oppfinnelsen også en fremgangsmåte for dekoding av et signal som kodes ifølge den allerede omtalte fremgangsmåte, og det karakteristiske ved denne oppfinneriske dekodingsteknikk, fremgår av den karakteriserende del av det vedføyde patentkrav 2. As mentioned earlier, the invention also relates to a method for decoding a signal which is coded according to the method already mentioned, and the characteristic of this inventive decoding technique is evident from the characterizing part of the attached patent claim 2.
Hva angår anordningen for koding av et samplet analogt signal, som angitt innledningsvis, så er de spesielle trekk ved denne anordning ifølge oppfinnelsen som angitt i den karakteriserende del av det vedføyde patentkrav 9. As regards the device for coding a sampled analogue signal, as stated at the outset, the special features of this device according to the invention are as stated in the characterizing part of the attached patent claim 9.
Den omtalte anordning for dekoding av et signal som er kodet ved fremgangsmåten ifølge patentkrav 1, er kjenneteg-net ved de trekk som fremgår av det vedføyde patentkrav 10. The mentioned device for decoding a signal which is coded by the method according to patent claim 1 is characterized by the features that appear in the attached patent claim 10.
Det skal noteres at det er kjent at analoge signaler med sterke periodiske forløp slik som f.eks. talesignaler, effektivt kan kodes etter sampling ved å utføre et antall forskjellige transformasjoner på påfølgende segmenter av signalet, idet hvert segment er av en bestemt varighet. En av de kjente transformasjoner for dette formål er lineær prediktiv koding (LPK), og for en forklaring av denne fremgangsmåten henvises det til boken med tittelen "Digi tal Processing of Speech Signals" av L.R. Rabiner og R.W. Schafer, Prentice Hall, New Jersey, kapittel 8. Som nevnte blir LPK alltid benyttet for signalsegmenter av en bestemt varighet, i tilfelle av talesignaler f.eks. 20 ms, og an-ses for å være en korttidskoding. Det er også kjent å be-nytte ikke bare en korttidsprediksjon, men også en lang-tidsprediks jon (LTP), i hvilken en svært effektiv koding oppnås ved å kombinere disse to teknikkene. Prinsippene for LTP er beskrevet i Frequenz (Frequency), volum 42, nr. 2-3, 1988, sidene 85-93, P. Vary et al.:"Sprachcodec fur das Europåische Funkfernsprechnetz" ("Talekoder/-dekoder for det europeiske radiotelefonnettverk"), mens en forbed-ret versjon av LTP-prinsippet er omtalt i NL patentsøknad 9001985 . It should be noted that it is known that analogue signals with strong periodic patterns such as e.g. speech signals, can effectively be encoded after sampling by performing a number of different transformations on successive segments of the signal, each segment being of a specific duration. One of the known transformations for this purpose is linear predictive coding (LPK), and for an explanation of this method reference is made to the book entitled "Digi tal Processing of Speech Signals" by L.R. Rabiner and R.W. Schafer, Prentice Hall, New Jersey, Chapter 8. As mentioned, LPK is always used for signal segments of a certain duration, in the case of speech signals e.g. 20 ms, and is considered to be a short-time encoding. It is also known to use not only a short-term prediction, but also a long-term prediction (LTP), in which a very efficient coding is achieved by combining these two techniques. The principles of LTP are described in Frequenz (Frequency), volume 42, no. 2-3, 1988, pages 85-93, P. Vary et al.: "Sprachcodec fur das Europåische Funkfernsprechnetz" ("Speech coders/decoders for the European radiotelephone network"), while an improved version of the LTP principle is discussed in NL patent application 9001985.
Oppfinnelsen vil nå forklares i ytterligere detalj med ut-gangspunkt i en eksemplifiserende utførelsesform under henvisning til tegningen, hvor The invention will now be explained in further detail starting from an exemplary embodiment with reference to the drawing, where
figur 1 viser et blokkdiagram for en eksemplifiserende ut-førelsesform av en koderenhet i anordningen ifølge oppfinnelsen, figure 1 shows a block diagram for an exemplary embodiment of an encoder unit in the device according to the invention,
figur lb viser et blokkdiagram for en eksemplifiserende utførelsesform av en dekoderenhet i anordningen ifølge oppfinnelsen. figure 1b shows a block diagram for an exemplary embodiment of a decoder unit in the device according to the invention.
Et analogt signal fremskaffet av en mikrofon 1 begrenses i båndbredde av et lavpassfilter 2 og omdannes i en analog til digital omdanner 3 til en amplitudeserie og tidsdis-kréte samplinger som representerer det analoge signalet. Utgangssignalet fra omdanneren 3 mates til inngangen av en korttidsanalyseenhet 4 og til inngangen av et korttidsprediksjonsfilter 5. Disse to enhetene besørger den ovenfor nevnte korttidsprediksjon (KTP) av segmentene til f.eks. 160 sampler, og analyseenheten 4 fremskaffer et utgangs-signal i form av koeffisienter for korttidsprediksjonsfil-teret, hvilke koeffisitenter er kvantifisert, kodet og overført til dekoderenheten vist på figur lb. Strukturen av og funksjonen til filteret 5 og enheten 4 er velkjent for fagmannen innen talekoding og er ikke av ytterligere betydning for kjernen i foreliggende oppfinnelse, slik at en ytterligere forklaring kan utelates. An analogue signal obtained by a microphone 1 is limited in bandwidth by a low-pass filter 2 and converted in an analogue to digital converter 3 into an amplitude series and time-discrete samples that represent the analogue signal. The output signal from the converter 3 is fed to the input of a short-term analysis unit 4 and to the input of a short-term prediction filter 5. These two units provide the above-mentioned short-term prediction (KTP) of the segments of e.g. 160 samples, and the analysis unit 4 provides an output signal in the form of coefficients for the short-term prediction filter, which coefficients are quantified, coded and transferred to the decoder unit shown in figure 1b. The structure and function of the filter 5 and the unit 4 are well known to those skilled in speech coding and are of no further importance to the core of the present invention, so that a further explanation can be omitted.
Det KTP-filtrerte signalet mates til en langtidspredik-sjonsanalyseenhet 6 (LTP). I denne analyseenheten blir en LTP-analyse anvendt to ganger per segment bestående av 160 samplinger, på en måte som beskrevet i f.eks. NL patent-søknad 9001985. For at et signalsegment skal kodes i en slik LTP-analyse, blir det alltid utført et søk ifølge en bestemt søkestrategi etter et segment som er så lik som mulig over en signalperiode som er av en bestemt lengde og som er forut for nevnte segment, og det blir overført et signal i kodet form som er representativt for antallet samplinger D i tidsrommet mellom starttidspunktet for det segment som ble funnet og starttidspunktet for det segment som skal kodes. The KTP-filtered signal is fed to a long-term prediction analysis unit 6 (LTP). In this analysis unit, an LTP analysis is applied twice per segment consisting of 160 samples, in a manner as described in e.g. NL patent application 9001985. In order for a signal segment to be coded in such an LTP analysis, a search is always performed according to a specific search strategy for a segment that is as similar as possible over a signal period that is of a specific length and that is preceding said segment, and a signal is transmitted in coded form that is representative of the number of samples D in the time period between the start time for the segment that was found and the start time for the segment to be coded.
Utgangssignalet fra KTP-filterenheten henvises til som restsignalet, og ifølge oppfinnelsen blir nevnte restsignal overført i kodet form på en slik måte at kun den informasjon som, av hensyn til mottakelse, er relevant, blir overført. For dette formål blir segmentene bestående av 160 samplinger i nevnte restsignal delt opp i 8 subsegmenter bestående av 30 samplinger i kretsen 7. Dette gjøres ved å først dele det fremførte segment opp i åtte subsegmenter bestående av 2 0 samplinger, og deretter utfylles disse ved forkanten ("the leading edge") med de ti siste samplinger fra det tidligere subsegmentet. Dette betyr at de ti siste samplinger i hvert segment må lagres for at det første subsegmentet av de påfølgende segmenter skal kunne utfylles. Deretter blir hvert subsegment bestående av 30 samplinger, multiplisert i en krets 8 med en vindusfunksjon, slik som f.eks. en cosinusfunksjon. Vindusfunksjonen velges slik at for hvert sampel i de overlappende delene av subsegmentene, blir summen av kvadratene til de to multiplikasjonsfaktorene lik 1. Årsaken til at dette må være tilfelle for kvadratene er at multiplikasjon av vindusfunksjonen finner sted både i kodeenheten og i dekode-enheten vist på figur lb. En diskrét Fourier transformasjon (DFT) utføres på resultatet av multiplikasjonen 8 i en krets 9, hvilket medfører at 16 forskjellige frekvenskomponenter fremkommer for hvert subsegment. Av disse 16 frekvenskomponentene, blir amplitudene A for komponentene 1 til 13 inklusive beregnet i en krets 10. Komponentene 0, The output signal from the KTP filter unit is referred to as the residual signal, and according to the invention said residual signal is transmitted in coded form in such a way that only the information which, for reasons of reception, is relevant is transmitted. For this purpose, the segments consisting of 160 samples in said residual signal are divided into 8 subsegments consisting of 30 samples in the circuit 7. This is done by first dividing the forwarded segment into eight subsegments consisting of 20 samples, and then these are filled in at the leading edge ("the leading edge") with the last ten samples from the previous sub-segment. This means that the last ten samples in each segment must be stored so that the first sub-segment of the following segments can be completed. Then, each sub-segment consisting of 30 samples is multiplied in a circuit 8 with a window function, such as e.g. a cosine function. The window function is chosen so that for each sample in the overlapping parts of the subsegments, the sum of the squares of the two multiplication factors equals 1. The reason why this must be the case for the squares is that multiplication of the window function takes place both in the code unit and in the decode unit shown on figure lb. A discrete Fourier transform (DFT) is performed on the result of the multiplication 8 in a circuit 9, which means that 16 different frequency components appear for each sub-segment. Of these 16 frequency components, the amplitudes A for components 1 to 13 inclusive are calculated in a circuit 10. The components 0,
14 og 15 kan ignoreres fordi de befinner seg utenfor fre-kvensbåndet fra 300 til 3400 Hz som er valgt for talekom-munikasjon. Dersom et større eller et mindre frekvensbånd er relevant, kan antallet aktuelle amplitudekomponenter justeres i samsvar med dette. Ved å starte med nevnte 13 komponeter, blir 4 såkalte Bark-amplitudekomponenter beregnet i en krets 11. Dette er amplituder som assosieres med frekvenser som er plassert med like mellomrom langs en lineær Bark-skala. Bark-amplitudekomponentene Bxtil B4inklusive, kan f.eks. beregnes som følger ut fra DFT amplitudene A1til A13inklusive: 14 and 15 can be ignored because they are outside the frequency band from 300 to 3400 Hz selected for voice communication. If a larger or smaller frequency band is relevant, the number of relevant amplitude components can be adjusted accordingly. By starting with said 13 components, 4 so-called Bark amplitude components are calculated in a circuit 11. These are amplitudes that are associated with frequencies that are placed at equal intervals along a linear Bark scale. The bark amplitude components Bx to B4 inclusive, can e.g. calculated as follows from the DFT amplitudes A1 to A13 inclusive:
Dersom ønskelig, kan en forsterkningsfaktor G beregnes som en skaleringsverdi i kretsen 12 utfra de fire Bark-amplitudekomponentene ifølge: If desired, a gain factor G can be calculated as a scaling value in the circuit 12 based on the four Bark amplitude components according to:
Anvendelsen av skaleringsverdien G har den fordel at de skalerte amplitudene kan kodes mer effektivt. Verdien av G blir kvantifisert i en krets 13 og deretter overført til dekoderenheten. Dersom skaleringsfaktoren G er blitt beregnet, blir hver Bark-komponent dividert med den kvantifiserte forsterkningsfaktoren G i en krets 14. Resultatet av denne divisjonen blir kvantifisert i en krets 15, kodet og deretter også overført til dekoderenheten. The use of the scaling value G has the advantage that the scaled amplitudes can be coded more efficiently. The value of G is quantified in a circuit 13 and then transferred to the decoder unit. If the scaling factor G has been calculated, each Bark component is divided by the quantified gain factor G in a circuit 14. The result of this division is quantified in a circuit 15, encoded and then also transmitted to the decoder unit.
Dersom det ikke benyttes en slik skaleringsverdi, kan kretsene 12, 13 og 14 utlates og de fire beregnede verdiene for Bark-amplitudekomponentene kan overføres direkte etter kvantifisering i kretsen 15. If such a scaling value is not used, circuits 12, 13 and 14 can be omitted and the four calculated values for the Bark amplitude components can be transferred directly after quantification in circuit 15.
Etter dekoding i en krets 16 i dekoderenheten, blir de fi-re skalerte Bark-amplitudekomponentene multiplisert i en multiplikator 18 med forsterkningsfaktoren G, dekodet i en krets 17, hvilket resulterer i de rekonstruerte Bark-amplitudekomponentene Bjtil B4inklusive. Dette blir selvsagt ikke utført dersom det ikke er blitt benyttet en skaleringsfaktor i kodeenheten. I en krets 19 blir amplitudene i frekvensdomenet Å[til Å13inklusive (ekvidistant langs Hz-skalaen) beregnet ved hjelp av følgende formel For å være i stand til å transformere de 13 frekvenskomponentene fra koderen tilbake til tidsdomenet ved hjelp av en invers DFT (IDFT) i IDFT-kretsen, er både amplituder og faser nødvendige. After decoding in a circuit 16 in the decoder unit, the four scaled Bark amplitude components are multiplied in a multiplier 18 by the gain factor G, decoded in a circuit 17, resulting in the reconstructed Bark amplitude components Bj to B4 inclusive. This is of course not carried out if a scaling factor has not been used in the code unit. In a circuit 19, the amplitudes in the frequency domain Å[ to Å13 inclusive (equidistant along the Hz scale) are calculated using the following formula To be able to transform the 13 frequency components from the encoder back to the time domain using an inverse DFT (IDFT) in the IDFT circuit, both amplitudes and phases are required.
Fasene blir bestemt på følgende måte ved hjelp av LTP- informasjonen som er dekodet i en krets 23 og som består av samplingsavstanden D. The phases are determined in the following way using the LTP information which is decoded in a circuit 23 and which consists of the sampling distance D.
De 120 ferskeste samplingene av den rekonstruerte KTP-resten av den type som vil være til stede ved utgangen av kretsen 22 som skal forklares i ytterligere detalj neden-for, blir lagret i hvert tilfelle. Det subsegment som befinner seg i en avstand av D samplinger i fortiden i forhold til foreliggende subsegment, bestemmes i en krets 24, og dette subsegmentet multipliseres i en krets 25 med samme vindusfunksjon som ble benyttet i kretsen 8 i koderenheten. Deretter blir det anvendt en DFT på nevnte subsegment i en krets 26, etter hvilken fasene til de 13 aktuelle komponentene kan beregnes i en krets 27. Ved hjelp av fasene som er bestemt på denne måten og de allerede beregnede amplitudene, blir det utført en IDFT i kretsen 20 der amplitudene til Å0, Å14, Å15og Å16er satt lik null. The 120 most recent samples of the reconstructed KTP residue of the type that will be present at the output of the circuit 22 to be explained in further detail below are stored in each case. The subsegment which is located at a distance of D samples in the past in relation to the present subsegment is determined in a circuit 24, and this subsegment is multiplied in a circuit 25 with the same window function that was used in the circuit 8 in the encoder unit. A DFT is then applied to said subsegment in a circuit 26, after which the phases of the 13 relevant components can be calculated in a circuit 27. With the help of the phases determined in this way and the already calculated amplitudes, an IDFT is performed in circuit 20 where the amplitudes of Å0, Å14, Å15 and Å16 are set equal to zero.
Ved utgangen av kretsen 2 0 vil det nå være tilgjengelig en rekonstruksjon av subsegmentet med en lengde på 30 samplinger, men dette subsegmentet har også blitt modifisert av den vindusfunksjon som er utført i koderenheten. Det rekonstruerte subsegment blir derfor multiplisert igjen med vindusfunksjonen i en krets 21. De ti første samplingene i subsegmentet som nå er multiplisert to ganger med vindusfunksjonen og de ti siste samplingene fra det foregående subsegmentet som er multiplisert to ganger med vin-dus f unksj onen, blir addert i en krets 22, der de sistnevn-te ti samplinger er lagret for dette formål. Som et resultat av dette blir summen av multiplikasjonsfaktorer i de At the output of the circuit 20, a reconstruction of the subsegment with a length of 30 samples will now be available, but this subsegment has also been modified by the window function performed in the encoder unit. The reconstructed sub-segment is therefore multiplied again with the window function in a circuit 21. The first ten samples in the sub-segment which are now multiplied twice with the window function and the last ten samples from the preceding sub-segment which are multiplied twice with the window function, is added in a circuit 22, where the last-mentioned ten samples are stored for this purpose. As a result, the sum of multiplication factors in the
resulterende ti samplinger lik 1. resulting ten samples equal to 1.
De siste ti samplinger i dette subsegmentet blir lagret. De tyve første samplingene danner en del av et segment av KTP-resten. Etter at åtte subsegmenter har blitt rekonstruert og kombinert, er det oppnådd et fullstendig rekonstruert segment av KTP-resten, og dette er plassert ti samplinger i fortiden i forhold til det segment på hvilket KTP-analysen er blitt utført i kodeenheten. The last ten samples in this sub-segment are stored. The first twenty samples form part of a segment of the KTP remainder. After eight subsegments have been reconstructed and combined, a fully reconstructed segment of the KTP residue is obtained, and this is placed ten samples in the past relative to the segment on which the KTP analysis has been performed in the code unit.
En invers KTP-filtrering blir utført på dette segmentet i en filterkrets 2 8 på en i og for seg kjent måte ved hjelp av de mottatte KTP-koeffisienter, der filterkoeffisientene fra det forrige segmentet blir benyttet for de ti første samplingene. An inverse KTP filtering is performed on this segment in a filter circuit 2 8 in a manner known per se by means of the received KTP coefficients, where the filter coefficients from the previous segment are used for the first ten samples.
Utgangssignalet fra filteret 2 8 blir omdannet i en digital til analog omdanner 29 til et analogt signal som mates via et lavpassfilter 30 til en høyttaler 31 som gir en repro-duksjon med god gjengivelse av talesignalet som er frem-ført til mikrofonen 1, da det har vært mulig å overføre nevnte talesignal i kodet form med et lavt antall biter som følge av de trinn som er blitt gjennomgått ifølge oppfinnelsen . The output signal from the filter 28 is converted in a digital to analogue converter 29 into an analogue signal which is fed via a low-pass filter 30 to a speaker 31 which provides a reproduction with good reproduction of the speech signal which is forwarded to the microphone 1, as it it has been possible to transmit said voice signal in coded form with a low number of bits as a result of the steps that have been carried out according to the invention.
Dersom ønskelig kan det inkluderes en krets 23' mellom kretsene 23 og 24 for å utsette verdien D mottatt fra dekoderen for ytterligere et antall operasjoner for derved å oppnå en optimal verdi for D for rekonstruksjon av talesignalet. Disse operasjonene kan være tre påfølgende ope- If desired, a circuit 23' can be included between circuits 23 and 24 to subject the value D received from the decoder to a further number of operations in order to thereby obtain an optimal value for D for reconstruction of the speech signal. These operations can be three consecutive operations
rasjoner. rations.
1) Dersom serien av verdier for mottatt D fremviser en trend, vil den foreliggende mottatte D dersom den faller på utsiden av nevnte trend med en bestemt margin, erstat-tes av en verdi som passer med nevnte trend. Algoritmer for å bestemme en trend i en serie av påfølgende verdier og for å bestemme en erstathingsverdi for et signal som faller utenfor nevnte trend er i og for seg velkjent for fagmannen. 2) Tre mellomliggende verdier (1^ I2og I3) blir beregnet mellom to påfølgende verdier for D (Dtog D2) ved hjelp av interpolasjon, muligens justert ved hjelp av en algoritme. Dette utføres f.eks. på følgende måte: 1) If the series of values for received D shows a trend, the present received D, if it falls outside said trend by a certain margin, will be replaced by a value that matches said trend. Algorithms for determining a trend in a series of consecutive values and for determining a replacement value for a signal that falls outside said trend are in and of themselves well known to those skilled in the art. 2) Three intermediate values (1^ I2 and I3) are calculated between two consecutive values for D (Dtog D2) by means of interpolation, possibly adjusted by means of an algorithm. This is carried out e.g. in the following way:
Interpolasjonen utføres på grunn av at avstanden D blir fastlagt i kodeenheten to ganger per segment. Uten interpolasjon, vil dekoding av fire påfølgende subsegmenter ut-føres med samme verdi av D. Dersom det ikke foreligger en fundamental regelmessighet i signalet i kodeenheten, blir det følgelig fremskaffet en feilaktig regularitet i dekoderen gjennom fire subsegmenter. Dette problemet løses ved hjelp av interpolasjonen. The interpolation is performed because the distance D is determined in the code unit twice per segment. Without interpolation, decoding of four consecutive sub-segments will be carried out with the same value of D. If there is no fundamental regularity in the signal in the coding unit, an erroneous regularity is consequently produced in the decoder through four sub-segments. This problem is solved using the interpolation.
Dersom det foreligger en fundamental regelmessighet i talesignalet, vil repetisjonsavstanden i signalet generelt variere langsomt. Som følge av interpolasjonen vil variasjonen av verdien for D også få et jevnt forløp i dekoderen.. If there is a fundamental regularity in the speech signal, the repetition distance in the signal will generally vary slowly. As a result of the interpolation, the variation of the value for D will also have a smooth course in the decoder.
3) Etter utjevning av verdiene for D ved hjelp av, dersom nødvendig, beregning av erstatningsverdi og etter interpolasjon, vil den beregnede avstand D i så høy grad som mulig tilsvare den virkelige repetisjonsavstand som er tilstede i signalet. Dersom nevnte avstand D er mindre enn 30, blir D multiplisert med et heltall som velges på en slik måte at resultatet er minst lik 30. Dette er nødven-dig på grunn av at alle samplingene av et subsegment med en avstand på mindre enn 30 med hensyn til foreliggende segment, ennå ikke er blitt rekonstruert, slik at de derfor ikke kan benyttes til beregning av fasene. 3) After equalizing the values for D by means of, if necessary, calculating a substitute value and after interpolation, the calculated distance D will correspond as closely as possible to the real repetition distance present in the signal. If said distance D is less than 30, D is multiplied by an integer chosen in such a way that the result is at least equal to 30. This is necessary because all the samples of a subsegment with a distance of less than 30 with regard to the current segment, have not yet been reconstructed, so that they cannot therefore be used for calculating the phases.
Årsaken til at avstandene D på mindre enn 30 likevel blir overført, er at dersom den fundamentale regelmessighet i signalet inneholder et antall samplinger som er mindre enn 30, vil dette forhindre den dekodede avstand D fra å anta verdier som innbyrdes er ulike multipler av den egentlige repetisjonsavstand. Som et resultat av dette, ville utjev-ningsalgoritmen ha en dårligere mulighet for å fastlegge en trend. The reason why distances D of less than 30 are still transmitted is that if the fundamental regularity in the signal contains a number of samples that are less than 30, this will prevent the decoded distance D from assuming values that are mutually different multiples of the actual repetition distance. As a result, the smoothing algorithm would have a poorer chance of identifying a trend.
Claims (10)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NL9002308A NL9002308A (en) | 1990-10-23 | 1990-10-23 | METHOD FOR CODING AND DECODING A SAMPLED ANALOGUE SIGNAL WITH A REPEATING CHARACTER AND AN APPARATUS FOR CODING AND DECODING ACCORDING TO THIS METHOD |
Publications (3)
Publication Number | Publication Date |
---|---|
NO914105D0 NO914105D0 (en) | 1991-10-18 |
NO914105L NO914105L (en) | 1992-04-24 |
NO305188B1 true NO305188B1 (en) | 1999-04-12 |
Family
ID=19857866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
NO914105A NO305188B1 (en) | 1990-10-23 | 1991-10-18 | Method and apparatus for encoding and decoding analog signals |
Country Status (11)
Country | Link |
---|---|
EP (1) | EP0482699B1 (en) |
JP (1) | JP2958726B2 (en) |
AT (1) | ATE157188T1 (en) |
CA (1) | CA2053133C (en) |
DE (1) | DE69127339T2 (en) |
DK (1) | DK0482699T3 (en) |
ES (1) | ES2106051T3 (en) |
FI (1) | FI105623B (en) |
NL (1) | NL9002308A (en) |
NO (1) | NO305188B1 (en) |
PT (1) | PT99294A (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07261797A (en) * | 1994-03-18 | 1995-10-13 | Mitsubishi Electric Corp | Signal encoding device and signal decoding device |
JPH09127995A (en) * | 1995-10-26 | 1997-05-16 | Sony Corp | Signal decoding method and signal decoder |
JP2000165251A (en) * | 1998-11-27 | 2000-06-16 | Matsushita Electric Ind Co Ltd | Audio signal coding device and microphone realizing the same |
FI116992B (en) | 1999-07-05 | 2006-04-28 | Nokia Corp | Methods, systems, and devices for enhancing audio coding and transmission |
EP1113432B1 (en) * | 1999-12-24 | 2011-03-30 | International Business Machines Corporation | Method and system for detecting identical digital data |
CN114519996B (en) * | 2022-04-20 | 2022-07-08 | 北京远鉴信息技术有限公司 | Method, device and equipment for determining voice synthesis type and storage medium |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5650398A (en) * | 1979-10-01 | 1981-05-07 | Hitachi Ltd | Sound synthesizer |
US4742550A (en) * | 1984-09-17 | 1988-05-03 | Motorola, Inc. | 4800 BPS interoperable relp system |
JP2892462B2 (en) * | 1990-08-27 | 1999-05-17 | 沖電気工業株式会社 | Code-excited linear predictive encoder |
-
1990
- 1990-10-23 NL NL9002308A patent/NL9002308A/en not_active Application Discontinuation
-
1991
- 1991-10-10 CA CA002053133A patent/CA2053133C/en not_active Expired - Lifetime
- 1991-10-16 DK DK91202675.4T patent/DK0482699T3/en active
- 1991-10-16 EP EP91202675A patent/EP0482699B1/en not_active Expired - Lifetime
- 1991-10-16 DE DE69127339T patent/DE69127339T2/en not_active Expired - Lifetime
- 1991-10-16 AT AT91202675T patent/ATE157188T1/en not_active IP Right Cessation
- 1991-10-16 ES ES91202675T patent/ES2106051T3/en not_active Expired - Lifetime
- 1991-10-17 JP JP3332967A patent/JP2958726B2/en not_active Expired - Lifetime
- 1991-10-18 NO NO914105A patent/NO305188B1/en not_active IP Right Cessation
- 1991-10-22 PT PT99294A patent/PT99294A/en not_active Application Discontinuation
- 1991-10-23 FI FI914993A patent/FI105623B/en not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
JPH05268098A (en) | 1993-10-15 |
DE69127339T2 (en) | 1998-01-29 |
DE69127339D1 (en) | 1997-09-25 |
NL9002308A (en) | 1992-05-18 |
EP0482699A2 (en) | 1992-04-29 |
EP0482699B1 (en) | 1997-08-20 |
ATE157188T1 (en) | 1997-09-15 |
JP2958726B2 (en) | 1999-10-06 |
CA2053133C (en) | 1996-05-21 |
FI914993A (en) | 1992-04-24 |
CA2053133A1 (en) | 1992-04-24 |
EP0482699A3 (en) | 1992-08-19 |
FI914993A0 (en) | 1991-10-23 |
ES2106051T3 (en) | 1997-11-01 |
FI105623B (en) | 2000-09-15 |
DK0482699T3 (en) | 1998-03-30 |
PT99294A (en) | 1994-01-31 |
NO914105L (en) | 1992-04-24 |
NO914105D0 (en) | 1991-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4907277A (en) | Method of reconstructing lost data in a digital voice transmission system and transmission system using said method | |
US4216354A (en) | Process for compressing data relative to voice signals and device applying said process | |
KR100361236B1 (en) | Transmission System Implementing Differential Coding Principle | |
US4672670A (en) | Apparatus and methods for coding, decoding, analyzing and synthesizing a signal | |
KR970007661B1 (en) | Method and apparatus for coding audio signals based on perceptual model | |
JP4142292B2 (en) | Method for improving encoding efficiency of audio signal | |
JPS6326947B2 (en) | ||
JPH02123828A (en) | Sub-band coding method and device | |
KR100419545B1 (en) | Transmission system using different coding principles | |
JP4296753B2 (en) | Acoustic signal encoding method and apparatus, acoustic signal decoding method and apparatus, program, and recording medium | |
KR20060022236A (en) | Audio encoding device, audio decoding device, audio encoding method, and audio decoding method | |
JP3237089B2 (en) | Acoustic signal encoding / decoding method | |
US4038495A (en) | Speech analyzer/synthesizer using recursive filters | |
US3471648A (en) | Vocoder utilizing companding to reduce background noise caused by quantizing errors | |
JPH02308632A (en) | Method for transmitting or storing audio signal | |
KR100352351B1 (en) | Information encoding method and apparatus and Information decoding method and apparatus | |
US6032113A (en) | N-stage predictive feedback-based compression and decompression of spectra of stochastic data using convergent incomplete autoregressive models | |
EP0396121B1 (en) | A system for coding wide-band audio signals | |
US5504832A (en) | Reduction of phase information in coding of speech | |
US5687281A (en) | Bark amplitude component coder for a sampled analog signal and decoder for the coded signal | |
NO305188B1 (en) | Method and apparatus for encoding and decoding analog signals | |
US5588089A (en) | Bark amplitude component coder for a sampled analog signal and decoder for the coded signal | |
KR100215342B1 (en) | Transmission system and receiver to be used in the transmission system | |
AU751077B2 (en) | Audio coder utilising repeated transmission of packet portion | |
US5737367A (en) | Transmission system with simplified source coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MK1K | Patent expired |