WO1994010682A1

WO1994010682A1 - Verfahren zur sprachcodierung

Info

Publication number: WO1994010682A1
Application number: PCT/DE1993/000999
Authority: WO
Inventors: Bertram Wächter
Original assignee: Ant Nachrichtentechnik Gmbh
Priority date: 1992-10-28
Filing date: 1993-10-20
Publication date: 1994-05-11
Also published as: AU5174293A; DE4236315C1

Abstract

Verfahren zur Sprachcodierung unter Verwendung der Analyse-durch-Synthese-Methode, wobei das Sprachsignal abgetastet, aus einer festgelegten Anzahl Abtastproben ein Rahmen gebildet und aus den Abtastproben rahmenweise die Koeffizienten eines Sprach-Synthese-Filters mit dem Grad P bestimmt werden, wobei mittels dieser Koeffizienten eine Anzahl P sogenannter Line Spectrum Parameter (LSP) ermittelt und quantisiert werden, zur Übertragung über einen Kanal mit begrenzter Übertragungskapazität, dadurch gekennzeichnet, daß jeder zweite Line Spectrum Parameter (LSP) skalar (absolut) quantisiert wird und daß die dazwischen liegenden Line Spectrum Parameter (LSP) vor einer Quantisierung transformiert (normiert) werden. Anwendung insbesondere bei Sprachcodes z.B. für Mobilfunk.

Description

Beschreibung

Verfahren zur Sprachcodierung Die Erfindung geht aus von einem Verfahren zur Sprachcodierung unter Verwendung der Analyse-durch-Synthese-Methode gemäß Oberbegriff des Anspruches 1 bzw. 2. Solche

Sprachcodierverfahren sind bekannt, beispielsweise durch die deutsche Patentschrift 38 34 871.

Den Sprachcodierungsverfahren gemein ist eine

Prädiktionsanalyse des Eingangssignales (Linear Prediction-Coder, LPC) . Dabei wird das Sprachsignal am Eingang des

Encoders in Rahmen einer bestimmten Dauer von z.B. 20-30 ms unterteilt. Jeder Sprachrahmen wird im Encoder einer linearen Prädiktionsanalyse unterworfen, welche lineare Abhängigkeiten im Sprachsignal entfernt. Die lineare Prädiktion wird mit Hilfe von FIR-Filtern (Finite Impulse Response) durchgeführt. Die Koeffizienten dieser linearen Filter werden in jedem

Rahmen neu ermittelt, d.h. es handelt sich hier um adaptive Filter.

Die heutigen Sprachcodierer welche bei Bitraten zwischen 4 und 16 kBit/sec. arbeiten, benutzen in der Regel die Analysedurch-Synthese-Methode wobei im Sender die oben angeführten Filterkoeffizienten und eine dazu gehörige Anregung so bestimmt werden, daß die Energie des gewichteten Fehlers e(n) zwischen Originalsprache und der synthetisierten Sprache möglichst klein wird.

Zum Empfänger übertragen werden müssen Parameter, welche die Anregung beschreiben, und die schon weiter oben erwähnten Koeffizienten des linearen Filters. Auf die Ermittlung der Koeffizienten des linearen Filters soll hier nicht näher eingegangen werden. Als Ergebnis erhält man ein nichtrekursives Filter von Grade P mit der

Übertragungsfunktion

Die inverse Übertragungsfunktion H(z) = 1/A(z) wandelt das Federsignal (die Anregung) in das (synthetisierte)

Sprachsignal um:

Das nach dieser Methode berechnete Filter H(z) ist ohne

Quantisierung der Filterkoeffizienten a_i in jedem Fall stabil

Die Filterkoeffizienten a_i weisen jedoch eine große Dynamik auf und sind deshalb für die Quantisierung und Übertragung schlecht geeignet. Außerdem besteht nicht eine einfache

Möglichkeit, im Empfänger die Stabilität des rekursiven

Filters zu prüfen.

Bekannt ist es, daß die sogenannten Line Spectrum Parameter LSP für die Quantisierung und Übertragung, also zur

Beschreibung des Prädiktorfilters H(z) geeignet sind. Man erhält diese Parameter als Nullstellen eines symmetrischen Polynoms

F₁(z) = A(z) + Z^-(P+1) A(z^-1) und eines antisymmetrischen Polynorms

F₂(z) = A(z) - Z^-(P+1) A(z^-1)

Die Nullstellen z_Oi von F₁ und F₂ haben folgende Eigenschaften alle Nullstellen liegen auf dem Einheitskreis, sind also durch die Angabe einer Phase _i ausreichend beschrieben - alle Nullstellen sind einfach

- auf dem Einheitskreis liegt abwechselnd eine Nullstelle von F₁ und F₂.

In Figur 2 sind die Nullstellen von F₁(z) und F₂(z) für die Fälle P = 6 und P = 5 dargestellt. Alle Nullstellen z_i können durch die Argumente ω_i oder durch den daraus abgeleiteten Frequenzwert

dargestellt werden.

Da die Nullstellen in konjugiert komplexen Paaren auftreten und Nullstellen bei ± 1 in jedem Fall vorliegen, sind die Polynome F₁ und F₂ durch die Angabe von P Werten _i

vollständig bestimmt.

Nach den oben beschriebenen Eigenschaften muß gelten

ω₁ < ω ₂ < ... <ω_P

Diese Monotonie-Eigenschaft ist zwingend notwendig, damit das rekursive Filter H(z) stabil ist. Man hat damit ein Kriterium, um die Stabilität des Filters zu überprüfen.

Bei Änderung der Charakteristik des Spektrums des

Eingangssignals ändert sich die Verteilung einzelner LSPs stark. Als Beispiel ist in Fig. 1 die Verteilung der LSP für Filtergrad P = 10 dargestellt. Im oberen Bild, Fig. la, ist die Eingangssprache nur tiefpaßgefiltert, im unteren Bild, Fig. lb, IRS gefiltert (bandbegrentz) nach CCITT P.48.

Ein übliches Verfahren ist die skalare Quantisierung jedes einzelnen LSP, beispielsweise werden in 4,8 kBit/sec. CELP- Sprachcodec nach dem Federal Standard 1016 des US- Verteidigungsministeriums US die Line Spectrum Parameter skalar mit insgesamt 34 Bit quantisiert.

Zu beachten ist bei der Quantisierung, daß auch nach der

Quantisierung die Monotonie-Eigenschaft erhalten werden muß, damit das rekursive Filter stabil ist; d.h. es muß gelten :

.

Da sich die Werte-Bereiche der Quantisierer für ω_i und ω_i+1 überlappen, sind nach der Quantisierung von ω_χ alle

Quantisierungsstufen von ω_i+1 ausgeschlossen, welche diese strenge Monotonie verletzen (siehe Figur 3). Umgekehrt sind auch nach der Quantisierung von ω_i+l auch Werte aus dem

Quantisierer für ω_i nicht mehr zulässig. Dies bedeutet, daß ein Teil der Bits, welche für die Quantisierung der Parameter LSP zur Verfügung stehen, nicht vollständig genutzt werden. Nach Figur 3 werden von 8 möglichen Stufen für ω_i+l

tatsächlich nur 5 benutzt.

Ein weiterer Nachteil dieses Verfahrens ist, daß eine Adaption an unterschiedliche Eingangsspektren des Sprachsignals nicht möglich ist. Soll der Quantisierer hierfür eingesetzt werden können, so vergrößert sich der Wertebereich einzelner Line Spectrum Parameter. Dies führt zu einer Erhöhung der Bitrate.

In den Literaturstellen [5] und [6] wird eine Reduzierung der Bitrate für die Übertragung der Line Spectrum Parameter durch Quantisierung deren Differenzen vorgeschlagen. Dabei wird der erste LSP wie oben skalar quantisiert .

Für alle weiteren LSP wird die Differenz zum vorangegangenen Wert berechnet und diese dann quantisiert.

Dieses Verfahren adaptiert sich gut an unterschiedlichen

Eingangsspektren des Sprachsignals, da nur der Wertebereich des ersten LSP ausreichend groß gewählt werden muß.

Ein Nachteil dieses Verfahrens besteht in der Fortpflanzung von Fehlern. Tritt bei der Übertragung von ω_x ein Fehler auf, so werden alle ω_i, für i=x bis P falsch dekodiert.

Der vorliegenden Erfindung lag die Aufgabe zugrunde, ein

Verfahren der eingangs genannten Art anzugeben, welches in der Lage ist bei gleichbleibender Bitrate eine Verbesserung der Sprachqualität zu erreichen oder aber bei gleichbleibender Sprachqualität eine Verringerung der Bitrate zu erzielen.

Außerdem soll eine Verringerung der Empfindlichkeit des

Sprachcodecs gegenüber Sprachsignalen mit unterschiedlichen Eingangscharakteristika erreicht werden. Der benötigte

Schaltungsaufwand soll dabei nicht allzu hoch sein.

Diese Aufgabe wurde gelöst durch die Ansprüche 1 und 2.

Vorteilhafte Ausgestaltungen ergeben sich durch die

Unteransprüche.

Das erfindungsgemäße Verfahren erzielt die Vorteile eine Verbesserung der Sprachqualität bei gleichbleibender Bitrate bzw. eine Verringerung der Bitrate bei gleichbleibender

Sprachqualität. Außerdem weist das erfindungsgemäße Verfahren eine verringerte Empfindlichkeit des Sprachcodecs gegenüber Sprachsignalen mit sehr unterschiedlichen Eingangsspektren auf. Ein weiterer Vorteil besteht darin, daß sich ein Übertragunsfehler bei einem LSP nur auf maximal zwei weitere LSP-Werte auswirkt.

Die Erfindung geht aus von der Idee, weder alle LSP-Parameter skalar zu quantisieren noch nur einen einzigen der insgesamt P Parameter skalar zu quantisieren, sondern nur jeden n ten der P Parameter skalar zu quantisieren und die dazwischen

liegenden Parameter zu transformieren bzw. abzubilden und danach zu quantisieren.

Das Verfahren wird im folgenden anhand eines

Ausführungsbeispieles näher beschrieben, wobei angenommen wird, daß P eine gerade Zahl ist.

In einem ersten Schritt wird jeder zweite LSP skalar

quantisiert.

Nun muß auf Grund der strengen Monotonie gelten

wobei der fiktive Wert _P+1 auf den maximal möglichen Wert für

_P gesetzt wird. Dieser Wertebereich für ω_i ändert sich von Rahmen zu Rahmen mit

und

. Ideal wäre es.nun, für jede Kombination von

und

einen eigenen

Quantisierer für ω_i zu verwenden, was aus Gründen des

Realisierungsaufwandes nicht möglich ist. Stattdessen wird der Wertebereich durch folgende Transformation auf das Intervall ]0,1[ abgebildet. )

Jeder Wert X_i kann nun mit einem Quantisierer quantisiert und übertragen werden. Die Rücktransformation erfolgt gemäß

Das Verfahren funktioniert entsprechend, wenn man die

Parameter, die absolut quantisiert werden, mit denen

vertauscht, die nach Normierung quantisiert werden, d.h. quantisiere absolut: ω_i i = 2,(2), P quantisere nach Transformation: ω_i i = 1,(2), P - 1

Statt der Transformation der LSP in den Bildbereich ist es auch möglich, den Quantisierer aus dem Bildbereich nach (13) in den ω-Bereich abzubilden.

In ähnlicher Weise wird bei dem zweiten Ausführungsbeispiel jeder dritte LSP skalar quantisiert.

für i = 1, (3),

Die Abbildungsfunktion für die dazwischen liegenden Parameter sind beispielsweise

oder

da ω_i ja nun bekannt ist. Diese Lösung erbringt noch eine weitere Reduzierung der

Bitrate bei gleichbleibender Qualität oder eine höhere

Qualität bei gleichbleibender Bitrate; allerdings wirkt sich ein Übertragungsfehler hier auf max. drei weitere LSP-Werte aus.

In entsprechender Weise kann auch verfahren werden, indem nur jeder vierte LSP skalar quantisiert und die dazwischen

liegenden LSP entsprechend transformiert und dann quantisiert übertragen werden.

Literatur

[1] Markel, J.D.; Gray, A.H.: Linear Prediction of Speech.

Berlin, Heidelberg, New York: Springer Verlag, 1976

[2] Müller, J.M.; Scheuermann, H.; Wächter, B.: Ein Beitrag zur Sprachcodierung für Bitraten unter 8 kbit/s Frequenz, Band

43, 9/89, S.242-252

[3] N. Sugamura, F. Itakura: "Speech Analysis and Synthesis

Methods Deveoped at ECL in NTT-Form LPC to LSP-. Speech

Communication, Band 5, 1986, S.199-215

[4] J.P. Campbell, V.C. Welch, T.E. Tremain: "The DOD 4.8 kbps

Standard", aus "Advances in Speech Coding", Kluwer, 1991

[5] F.K. Soong, B.H. Juang: "LSP and Speech Data Compression";

Proc. ICASSP-84, März' 84

[6] F.K. Soong, B.H. Juang: "Optimal Quantisation of LSP

Parameters" Proc. ICASSP-88, April'88

Claims

Patentansprüche

1. Verfahren zur Sprachcodierung unter Verwendung der Analyse-durch-Synthese-Methode, wobei das Sprachsignal abgetastet, aus einer festgelegten Anzahl Abtastproben ein Rahmen gebildet und aus den Abtastproben rahmenweise die Koeffizienten eines

Sprach-Synthese-Filters mit dem Grad P bestimmt werden, wobei mittels dieser Koeffizienten eine Anzahl P sogenannter Line Spectrum Parameter LSP ermittelt und quantisiert werden, zur Übertragung über einen Kanal mit begrenzter

Übertragungskapazität, dadurch gekennzeichnet, daß jeder zweite Line Spectrum Parameter LSP skalar (absolut)

quantisiert wird

für i = 1, (2), P-1 oder i = 2, (2), P und daß die dazwischen liegenden Line Spectrum Parameter LSP ω_i für i = 2, (2), P bzw. i = 1, (2), P-1 vor einer Quantisierung transformiert (normiert) werden.

2. Verfahren zur Sprachcodierung unter Verwendung der Analyse-durch-Synthese-Methode, wobei das Sprachsignal abgetastet, aus einer festgelegten Anzahl Abtastproben ein Rahmen gebildet und aus den Abtastproben rahmenweise die Koeffizienten eines

Übertragungskapazität, dadurch gekennzeichnet, daß jeder dritte Line Spektrum Parameter LSP skalar (absolut)

quantisiert wird

für i=1,(3),... oder i=2, (3), ... oder i=3,(3),...

und daß die dazwischen liegenden Line Spektrum Parameter LSP ω_i für i = 2, 3, 5, 6 ... oder i = 1, 3, 4, 6, 7 ...

oder i = 1, 2, 4, 5, 7, 8 ... mit

transformiert und dann quantisiert werden.

3. Verfahren zur Sprachcodierung unter Verwendung der Analyse-durch-Synthese-Methode, wobei das Sprachsignal abgetastet, aus einer festgelegten Anzahl Abtastproben ein Rahmen gebildet und aus den Abtastproben rahmenweise die Koeffizienten eines

Übertragungskapazität, dadurch gekennzeichnet, daß jeder n-te Line Spectrum Parameter LSP skalar (absolut) quantisiert wird

für i = m, (n), P; l<m<n und daß die dazwischenliegenden Linien Spectrum Parameter LSP ω_i für i = 1, P und i ≠ m, (n),P transformiert (normiert)

und anschließend quantisiert werden.

4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Transformation nach der Funktion

erfolgt.

5. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß die Transformation nach den Abbildungsfunktionen

oder

erfolgt.