WO2000013173A1 - Verfahren zur instrumentellen sprachqualitätsbestimmung - Google Patents

Verfahren zur instrumentellen sprachqualitätsbestimmung Download PDF

Info

Publication number
WO2000013173A1
WO2000013173A1 PCT/EP1999/005972 EP9905972W WO0013173A1 WO 2000013173 A1 WO2000013173 A1 WO 2000013173A1 EP 9905972 W EP9905972 W EP 9905972W WO 0013173 A1 WO0013173 A1 WO 0013173A1
Authority
WO
WIPO (PCT)
Prior art keywords
spectral
evaluated
calculated
signal
speech signal
Prior art date
Application number
PCT/EP1999/005972
Other languages
English (en)
French (fr)
Inventor
Jens Berger
Original Assignee
Deutsche Telekom Ag
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Telekom Ag filed Critical Deutsche Telekom Ag
Priority to EP99942871A priority Critical patent/EP1048025B1/de
Priority to US09/530,389 priority patent/US7013266B1/en
Priority to DE59907623T priority patent/DE59907623D1/de
Priority to CA002305652A priority patent/CA2305652A1/en
Priority to AT99942871T priority patent/ATE253765T1/de
Publication of WO2000013173A1 publication Critical patent/WO2000013173A1/de

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Definitions

  • the invention relates to a method for instrumental ("objective") speech quality determination, in which characteristic values for determining the speech quality (speech quality) are derived by comparing properties of a speech signal to be evaluated with properties of a reference speech signal (undisturbed signal).
  • Speech quality determinations of speech signals are generally carried out by means of auditory ("subjective") examinations with test subjects.
  • the aim of instrumental ("objective") methods for determining speech quality is to determine from the properties of the speech signal to be assessed, using suitable computing methods, characteristic values which describe the speech quality of the speech signal to be assessed, without having to resort to judgments from test subjects.
  • the calculated parameters and the underlying method for instrumental language quality determination are considered recognized if a high correlation to the results of auditory comparative examinations is achieved.
  • the language quality values obtained by means of auditory examinations thus represent the target values that are to be achieved by instrumental methods.
  • Known methods for instrumental speech quality determination are based on a comparison of a reference speech signal with the speech signal to be evaluated.
  • the reference speech signal and the speech signal to be evaluated are segmented into short time segments.
  • the spectral properties of the two signals are compared in these segments.
  • the spectral intensity map calculated in this way for each period of time under consideration can be understood as a series of numerical values in which the number of individual values corresponds to the number of frequency bands used, the numerical values themselves represent the calculated intensity values and a continuous index of the frequency bands describes the sequence of the numerical values.
  • the limits of the frequency bands used are kept constant on the frequency axis.
  • the calculated intensities of the speech signal to be evaluated and the reference speech signal in each band are compared with one another.
  • the difference between the two values, or the similarity of the two resulting spectral intensity images, is the basis for the calculation of a quality value
  • a disadvantage of the methods known today in such cases is that when comparing the speech signal to be evaluated with a reference speech signal, differences between the two signal sections in the selected display level flow into the quality characteristic to be calculated, which are not or hardly at all - also perceptible in the auditory test - lead to qualitative impairment.
  • Frequency band limitations and spectral deformations of the speech signal to be evaluated e.g. caused by filter properties of the telephone device or the transmission channel
  • the object of the invention is to reduce the influence of spectral limitations and deformations of the speech signal to be evaluated and of shifts in spectral short-term maxima before comparing the spectral properties of a signal to be tested with a reference speech signal and calculating a quality value in instrumental methods.
  • a spectral weighting function is generated in the invention described here, which is based on medium spectral envelopes, e.g. the average spectral power density, based on the speech signal to be evaluated and the reference speech signal. This also enables the method to be used for non-linear and time-variant transmission.
  • the spectral weighting function is calculated from the quotients of the base values of the mean spectral power density of the signal Phi ⁇ (f) to be evaluated and that of the input signal of the transmission system Phi ⁇ (f) in such a way that the weighting function over
  • the evaluation function a (f) can weight the weighting function W ⁇ (f) differently over the effective range, in the simplest case it is constant 1.
  • the spectral weighting function W ⁇ (f) calculated in this way approximates the mean spectral envelopes of the speech signal and the reference speech signal to be evaluated, so that differences between the two spectral envelopes are only incorporated to a reduced extent in the calculated quality value.
  • the spectral weighting function W ⁇ (f) can be applied to the reference speech signal.
  • the average spectral power density of the reference speech signal is approximated to the signal to be evaluated (FIG. 2a).
  • the spectral weighting function can be applied inverted to the signal to be evaluated. This is equalized and, with regard to its average spectral power density, approximated to the reference speech signal (FIG. 2b).
  • Another part of the invention relates to the correction of shifts in short-term spectral maxima caused by the transmission systems.
  • the intensity is integrated in frequency bands for each time period.
  • the result is a series of intensity values for each spectral representation of a signal section, each individual value representing the intensity in a frequency band.
  • the shifts in short-term spectral maxima can lead to deviating calculated intensities in the frequency bands of the reference speech signal and the speech signal to be evaluated.
  • variable band limits for calculating the spectral intensity mapping is not only limited to the signal in which the described spectral weighting function W ⁇ (f) is also used, but can also be applied to the other signal and even to both signals, ( see FIGS. 2a and 2b).
  • a special exemplary embodiment shows an implementation according to FIG. 3, which is referred to as TOSQA (Telecommunication Objective Speech Quality Assessment). This involves advanced preprocessing of the reference speech signal.
  • TOSQA Telecommunication Objective Speech Quality Assessment
  • speech pauses are recognized here by means of a speech pause recognizer and do not go into the quality measure.
  • the reference speech signal and the speech signal to be evaluated are also filtered with a bandpass 300 ... 3400 Hz and the frequency response of a telephone handset is filtered.
  • the spectral power density is integrated in frequency groups, which form the basis for the calculation of the specific loudness.
  • the calculated loudness patterns are supplemented by an error evaluation function.
  • the calculated quality value is formed from the mean value of the co-correlation coefficients of the specific loudnesses for each short time segment under consideration from the number of evaluated speech segments.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Machine Translation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

Bekannte Verfahren zur instrumentellen Sprachqualitätsbestimmung auf der Basis eines Vergleichs von Signalintensitäten des zu bewertenden Sprachsignals mit einem Referenzsprachsignal bewerten spektrale Verformungen des zu bewertenden Sprachsignals nicht optimal, so dass die Qualitätsbewertung unsicher ist. Des weiteren werden durch die Integration der Signalintensität in Frequenzbändern mit konstanten Bandgrenzen bestimmte Verfälschungen des zu bewertenden Sprachsignals, wie sie z.B. durch Codiersysteme niederer Bitraten hervorgerufen werden, fehlerhaft bewertet. Um die Aussagesicherheit der berechneten Qualitätskennwerte zu erhöhen, werden zum einen Verformungen der mittleren spektralen Einhüllenden vor einem Vergleich der spektralen Eigenschaften mit einer Wichtungsfunktion WT(f) weitgehend korrigiert. Zum anderen werden die festen Bandgrenzen zur Integration der spektralen Leistungsdichte aufgehoben und statt dessen in einem vorgegebenen Optimierungsbereich Bandgrenzen gesucht, bei denen die sich ergebenden spektralen Intensitätsabbildungen von zu bewertendem Sprachsignal und Referenzprachsignal eine maximale Ähnlichkeit aufweisen. Die beschriebenen Lösungen können bekannte Verfahren erweitern und zu deren Struktur hinzugefügt werden.

Description

Verfahren zur instrumentellen Sprachqualitätsbestimmung
Beschreibung
Vorbemerkung
Die Erfindung bezieht sich auf ein Verfahren zur instrumentellen ("objektiven") Sprachqualitätsbestimmung, bei dem durch Vergleich von Eigenschaften eines zu bewertenden Sprachsignals mit Eigenschaften eines Referenzsprachsignals (ungestörtes Signal) Kennwerte zur Bestimmung der Sprachqualität (Sprachgüte) abgeleitet werden.
Sprachqualitätsbestimmungen von Sprachsignalen werden in der Regel mittels auditiver ("subjektiver") Untersuchungen mit Versuchspersonen vorgenommen.
Das Ziel von instrumentellen ("objektiven") Verfahren zur Sprachqualitätsbestimmung ist es, aus Eigenschaften des zu bewertenden Sprachsignals mittels geeigneter Rechenverfahren Kennwerte zu ermitteln, die die Sprachqualität des zu bewertenden Sprachsignals beschreiben, ohne auf Urteile von Versuchspersonen zurückgreifen zu müssen.
Die berechneten Kennwerte und das zugrunde gelegte Verfahren zur instrumentellen Sprachqualitätsbestimmung gelten als anerkannt, wenn eine hohe Korrelation zu Ergebnissen auditiver Vergleichsuntersuchungen erreicht wird. Die mittels auditiver Untersuchungen gewonnenen Sprachqualitätswerte stellen somit die Zielwerte dar, die durch instrumenteile Verfahren erreicht werden sollen.
Stand der Technik
Bekannte Verfahren zur instrumentellen Sprachqualitätsbestimmung beruhen auf einem Vergleich eines Referenzsprachsignals mit dem zu bewertenden Sprachsignal. Dabei werden das Referenzsprachsignal und das zu bewertendes Sprachsignal in kurze Zeitabschnitte segmentiert. In diesen Segmenten werden die spektralen Eigenschaften der beiden Signale verglichen.
Für die Berechnung der spektralen Kurzzeiteigenschaften kommen verschiedene Ansätze und Modelle zur Anwendung. In der Regel erfolgt die Berechnung der Signalintensität in Frequenzbändern, deren Breite mit zunehmender Mittenfrequenz größer wird. Beispiele für solche Frequenzbänder sind die bekannten Terzbänder oder Frequenzgruppen nach Zwicker (veröffentlicht in Zwicker, E.: "Psychoakustik", Berlin: Springer- Verlag, 1982).
Die derart berechnete spektrale Intensitätsabbildung für jeden betrachteten Zeitabschnitt läßt sich als Reihe von Zahlenwerten auffassen, in der die Anzahl der Einzelwerte der Anzahl der verwendeten Frequenzbänder entspricht, die Zahlenwerte selbst die berechneten Intensitätswerte darstellen und ein fortlaufender Index der Frequenzbänder die Reihenfolge der Zahlenwerte beschreibt.
Bei den derzeit bekannten Verfahren zur instrumentellen Sprachqualitätsbestimmung werden die Grenzen der benutzten Frequenzbänder auf der Frequenzachse konstant gehalten.
In jedem betrachteten Zeitsegment werden die berechneten Intensitäten von zu bewertenden Sprachsignal und Referenzsprachsignal in jedem Band miteinander verglichen. Die Differenz beider Werte, bzw. die Ähnlichkeit der beiden entstehenden spektralen Intensitätsabbildungen, stellt die Grundlage für die Berechnung eines Qualitätswertes dar
(Fig- 1).
Solche Verfahren wurden insbesondere für die qualitative Bewertung der Sprache in der
Telefonieanwendung entwickelt. Beispiele hierfür sind die Veröffentlichungen:
" A perceptual speech-quality measure based on a psychacoustic sound representation" (Beerends, J. G.; Stemerdink, J. A., J. Audio Eng. Soc. 42(1994)3, S.115-123)
"Auditory distortion measure for speech coding" (Wang, S; Sekey, A.; Gersho, A.: IEEE Proc. Int. Conf. acoust, Speech and signalprocessing (1991), S.493-496).
Der derzeit gültige ITU-T Standard P.861 beschreibt ebenfalls ein derartiges Verfahren: "Objective quality measurement of telephone-band speech codecs" (ITU-T Rec. P.861, Genf 1996). Nachteile bekannter instrumenteller Sprachquaiitäts eßverfahren
Der Einsatz von bekannten Verfahren zur instrumentellen Sprachqualitätsbestimmung scheitert an der Zuverlässigkeit der berechneten Qualitätswerte für bestimmte zu bewertende Signaleigenschaften. Insbesondere bei Beeinträchtigungen im zu bewertenden Sprachsignal, wie sie z.B. durch Sprachcodierverfahren mit niedrigen Bitraten oder Kombinationen von unterschiedlichen Störungen hervorgerufen werden, liefern derzeit bekannte Verfahren nur unsichere Qualitätswerte.
Nachteilig bei den heute bekannten Verfahren ist in solchen Fällen, daß bei einem Vergleich zwischen dem zu bewertenden Sprachsignal mit einem Referenzsprachsignal Unterschiede zwischen beiden Signalabschnitten in der gewählten Darstellungsebene in den zu berechnenden Qualitätskennwert einfließen, die nicht oder kaum zu einer - auch im auditiven Test wahrnehmbaren - qualitativen Beeinträchtigung führen.
Im Rahmen der hier betrachteten Sprachübertragung in Telefonanwendungen tragen
Frequenzbandbegrenzungen und spektrale Verformungen des zu bewertenden Sprachsignals (z.B. hervorgerufen durch Filtereigenschaften des Telefongerätes oder des Übertragungskanals) nur begrenzt zu einer empfundenen qualitativen Beeinträchtigung bei.
Um diese Mängel teilweise zu vermeiden, wird in einem anderen Ansatz versucht, die linearen Verzerrungen (Frequenzgang) durch ein Korrekturfilter bzw. eine Leistungsübertragungsfunktion zu kompensieren (veröffentlicht in: " A new approach to objective quality-measures based on attribute-matching", Halka, U.; Heute, U., Speech communication, 11(1992)1, S.15-30). Die Anwendung dieses Verfahrens ist jedoch bei nichtlinearer und zeitinvarianter Übertragung nachteilig, da die so berechnete
Kompensationsfunktion nicht mehr ausschließlich die spektralen Verformungen des zu bewertenden Signals beschreibt.
Verschiebungen spektraler Kurzzeit-Maxima ("Formantverschiebungen") im zu testenden Signal gegenüber dem Referenzsprachsignal, z.B. verursacht durch Codiersysteme mit niedriger Bitrate, führen bei bekannten Verfahren zu großen Unterschieden in den spektralen Intensitätsabbildungen und gehen damit stark in den berechneten Qualitätswert ein. Untersuchungen haben ergeben, daß in einer auditiven Sprachqualitätsuntersuchung diese Verschiebungen spektraler Kurzzeit-Maxima jedoch nur begrenzten Einfluß auf das Qualitätsurteil haben.
Aufgabe
Die Erfindung stellt sich die Aufgabe, den Einfluß von spektralen Begrenzungen und Verformungen des zu bewertenden Sprachsignals sowie von Verschiebungen spektraler Kurzzeit-Maxima vor dem Vergleich der spektralen Eigenschaften eines zu testenden Signals mit einem Referenzsprachsignal und der Berechnung eines Qualitätswertes in instrumentellen Verfahren zu reduzieren.
Lösung
Im Gegensatz zu bekannten Ansätzen wird in der hier beschriebenen Erfindung eine spektrale Wichtungsfünktion generiert, die auf mittleren spektralen Einhüllenden, z.B. der mittleren spektralen Leistungsdichte, von zu bewertendem Sprachsignal und Referenzsprachsignal beruht. Dies ermöglicht den Einsatz des Verfahrens ebenfalls bei nichtlinearer und zeitvarianter Übertragung.
Die spektrale Wichtungsf nktion wird aus den Quotienten der Stützwerte der mittleren spektralen Leistungsdichte des zu bewertenden Signals Phiγ(f) und der des Eingangssignals des Übertragungssystems Phiχ(f) derart berechnet, daß die Wichtungsfünktion über
Wτ(f) = a(f) (P iγ(f) / Phiχ(f))
zu beschreiben ist. Die Bewertungsfunktion a(f) kann die Wichtungsfünktion Wτ(f) an über den Wirkungsbereich unterschiedlich gewichten, sie ist im einfachsten Falle konstant 1.
Die derart berechnete spektrale Wichtungsfünktion Wτ(f) nähert die mittleren spektralen Einhüllenden von zu bewertenden Sprachsignal und Referenzsprachsignal einander an, so daß Unterschiede der beiden spektralen Einhüllenden nur noch vermindert in den berechneten Qualitätswert einfließen. Die spektrale Wichtungsfünktion Wτ(f) kann zum einen auf das Referenzsprachsignal angewendet werden. Dabei wird das Referenzsprachsignal in seiner mittleren spektralen Leistungsdichte dem zu bewertenden Signal angenähert (Fig. 2a).
Zum anderen kann die spektrale Wichtungsfünktion invertiert auf das zu bewertende Signal angewendet werden. Dieses wird dadurch entzerrt und, hinsichtlich seiner mittleren spektralen Leistungsdichte, an das Referenzsprachsignal angenähert (Fig. 2b).
Ein weiterer Teil der Erfindung bezieht sich auf die Korrektur von Verschiebungen spektraler Kurzzeit-Maxima, die durch die Übertragungssysteme verursacht werden.
Die Intensität wird für jeden Zeitabschnitt in Frequenzbändern integriert. Resultat ist eine Reihe von Intensitätswerten für jede spektrale Darstellung eines Signalabschnitts, wobei jeder Einzelwert die Intensität in einem Frequenzband repräsentiert. Die Verschiebungen spektraler Kurzzeit-Maxima können hierbei zu abweichenden berechneten Intensitäten in den Frequenzbändern von Referenzsprachsignal und zu bewertenden Sprachsignal führen.
Diese Abweichungen in den spektralen Intensitätsabbildungen - verursacht Verschiebungen spektraler Kurzzeit-Maxima -können durch eine variable Anordnung der Frequenzbänder auf der Frequenzachse reduziert werden. Im Gegensatz zu den konstanten Bandgrenzen bei bekannten Verfahren werden die Bandgrenzen auf der Frequenzachse verschoben. Die Zahl der Frequenzbänder und deren Index bleibt aber konstant . In einer Optimierungsschleife werden dann diejenigen Bandgrenzen akzeptiert, bei denen die beiden entstehenden spektralen Abbildungen von zu bewertenden Sprachsignal und Referenzsprachsignal maximale Ähnlichkeit aufweisen bzw. deren Abstand minimal ist . Diese Optimierung wird für alle Bänder in allen betrachteten Zeitsegmenten durchgeführt.
Der Einsatz variabler Bandgrenzen zur Berechnung der spektralen Intensitätsabbildung ist nicht nur auf das Signal, in dem auch die beschriebene spektrale Wichtungsfünktion Wχ(f) zum Einsatz kommt, beschränkt, sondern kann auch auf das jeweils andere Signal und sogar auf beide Signale angewendet werden, (vgl. Fig. 2a und 2b). Ausführungsbeispiel:
Ein spezielles Ausführungsbeispiel zeigt eine Realisierung gemäß Fig. 3, die als TOSQA (Telecommunication Objective Speech Quality Assessment) bezeichnet wird. Hierbei erfolgt eine erweiterte Vorverarbeitung des Referenzsprachsignals.
In Spezifikation der allgemeinen Realisierungen nach Fig. 2a und 2b werden hier Sprachpausen mittels eines Sprachpausenerkenners erkannt und gehen nicht in das Qualitätsmaß ein. Ebenfalls erfolgt eine Filterung von Referenzsprachsignal und zu bewertendem Sprachsignal mit einem Bandpaß 300...3400 Hz sowie eine Filterung auf den Frequenzgang eines Telefonhandapparates. Die Integration der spektralen Leistungsdichte erfolgt in Frequenzgruppen, die die Basis für die Berechnung der spezifischen Lautheit darstellen.
Die Integration in Frequenzgruppen erfolgt jedoch nicht in festen Frequenzgruppengrenzen, sondern mit den in dieser Erfindung beschriebenen variablen Frequenzgruppengrenzen. Die berechneten Signalleistungen in den so modifizierten Frequenzgruppen bilden die Basis für die Intensitätsberechnung. Hier wurde auf ein Modell zur Berechnung der spezifischen Lautheit nach Zwicker, einer gehörrichtigen Intensitätsabbildung, zurückgegriffen (veröffentlicht in Zwicker, E.: "Psychoakustik", Berlin: Springer- Verlag, 1982).
Die berechneten Lautheitsmuster werden in Ergänzung des allgemeinen Ansatzes noch durch eine Fehlerbewertungsfünktion ergänzt. Der berechnete Qualitätswert wird über einen Mittelwert der Koirelationskoeffizienten der spezifischen Lautheiten für jedes betrachtete kurze Zeitsegment über die Zahl der ausgewerteten Sprachsegmente gebildet.

Claims

Patentansprüche (6)
1. Verfahren zur instrumentellen Sprachqualitätsbestimmung, bei dem durch Vergleich von spektralen Kurzzeiteigenschaften eines zu bewertenden Sprachsignals mit einem Referenzsprachsignal Kennwerte zur Bestimmung der Sprachqualität berechnet werden, d a d u r c h g e k e n n z e i c h n e t, daß vor dem Vergleich der Eigenschaften der Sprachsignale, Unterschiede in mittleren spektralen Einhüllenden verringert werden, indem aus diesen zuerst eine spektrale
Wichtungsfünktion berechnet wird, mit der die spektralen Kurzzeit-eigenschaften der Sprachsignale in allen betrachteten Zeitsegmenten gewichtet werden, so daß die
Unterschiede in den mittleren spektralen Einhüllenden dadurch nur begrenzt in den zu berechnenden Qualitätskennwert einfließen, und daß" für die Berechnung der Signalintensität die Grenzen der benutzten Frequenzbänder variabel gestaltet werden, so daß für jeden betrachteten Signalabschnitt in jeweils allen ausgewerteten Frequenzbändern die berechneten Intensitäten von
Referenzsprachsignal und zu bewertendem Signal zueinander möglichst geringe
Unterschiede aufweisen.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß zuerst die mittleren spektralen Einhüllenden von zu bewertenden Sprachsignal und Referenzsprachsignal in
Form eines mittleren Leistungsdichtespektrums berechnet werden und aus dem Quotienten beider Spektren eine spektrale Wichtungsfünktion Wτ(f) berechnet wird, mit der die Kurzzeit-Leistungsdichtespektren des Referenzsprachsignals vor der Berechnung eines Qualitätskennwertes gewichtet werden.
3. Verfahren nach Anspruch 1 und 2, dadurch gekennzeichnet, daß die zu berechnende Wichtungsfünktion Wτ(f) nur aus Teilbereichen der berechneten mittleren spektralen Einhüllenden von zu bewertenden Sprachsignal und Referenzsprachsignal berechnet wird und damit die Unterschiede in mittleren spektralen Einhüllenden zwischen beiden Signalen nur in spektralen Teilbereichen verringert werden.
4. Verfahren nach Anspruch 1 bis 3, dadurch gekennzeichnet, daß vor Berechnung der Qualitätskennwerte eine Integration der Signalintensität für jeden ausgewerteten kurzen Zeitabschnitt in Frequenzgruppen erfolgt, wobei die Grenzen der Frequenzgruppen auf der Frequenzachse variabel sind, aber die Breite der Frequenzgruppen auf der Tonheitskala konstant bleibt, und daß aus den Signalintensitäten in den Frequenzgruppen eine Berechnung der spezifischen Lautheit erfolgt, wobei die Grenzen der Frequenzgruppen benutzt werden, bei denen die berechneten
Unterschiede in der spezifischen Lautheit zwischen dem zu bewertenden Signal und dem Referenzsprachsignal im jeweils betrachteten Band und Zeitsegment den geringsten Unterschied aufweisen.
5. Verfahren nach Anspruch 1 bis 4, dadurch gekennzeichnet, daß der Qualitäts-kennwert aus der Ähnlichkeit der spektralen Darstellungen in jedem betrachteten Zeitabschnitt berechnet wird, wobei die Ähnlichkeit einen über alle betrachteten Zeitabschnitte gemittelten Korrelationskoeffizienten zwischen der spektralen Darstellung des zu bewertenden Sprachsignals und der spektralen Darstellung des Referenzsprachsignals im jeweiligen Zeitsegment darstellt.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß der Korrelations-koeffizient zwischen der spektralen Darstellung des zu bewertenden Sprachsignals und der spektralen Darstellung des Referenzsprachsignals im jeweiligen Zeitsegment nur von einem Teilbereich der spektralen Darstellung berechnet wird, d.h. für die Berechnung des Qualitätskennwertes nicht alle berechneten Spektralwerte berücksichtigt werden.
PCT/EP1999/005972 1998-08-27 1999-08-14 Verfahren zur instrumentellen sprachqualitätsbestimmung WO2000013173A1 (de)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP99942871A EP1048025B1 (de) 1998-08-27 1999-08-14 Verfahren zur instrumentellen sprachqualitätsbestimmung
US09/530,389 US7013266B1 (en) 1998-08-27 1999-08-14 Method for determining speech quality by comparison of signal properties
DE59907623T DE59907623D1 (de) 1998-08-27 1999-08-14 Verfahren zur instrumentellen sprachqualitätsbestimmung
CA002305652A CA2305652A1 (en) 1998-08-27 1999-08-14 Method for instrumental voice quality evaluation
AT99942871T ATE253765T1 (de) 1998-08-27 1999-08-14 Verfahren zur instrumentellen sprachqualitätsbestimmung

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19840548A DE19840548C2 (de) 1998-08-27 1998-08-27 Verfahren zur instrumentellen Sprachqualitätsbestimmung
DE19840548.0 1998-08-27

Publications (1)

Publication Number Publication Date
WO2000013173A1 true WO2000013173A1 (de) 2000-03-09

Family

ID=7879918

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP1999/005972 WO2000013173A1 (de) 1998-08-27 1999-08-14 Verfahren zur instrumentellen sprachqualitätsbestimmung

Country Status (6)

Country Link
US (1) US7013266B1 (de)
EP (1) EP1048025B1 (de)
AT (1) ATE253765T1 (de)
CA (1) CA2305652A1 (de)
DE (2) DE19840548C2 (de)
WO (1) WO2000013173A1 (de)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001065543A1 (en) * 2000-02-29 2001-09-07 Telefonaktiebolaget Lm Ericsson (Publ) Compensation for linear filtering using frequency weighting factors
EP1241663A1 (de) * 2001-03-13 2002-09-18 Koninklijke KPN N.V. Verfahren und Vorrichtung zur Sprachqualitätsbestimmung
EP1292036B1 (de) * 2001-08-23 2012-08-01 Nippon Telegraph And Telephone Corporation Verfahren und Vorrichtung zur Decodierung von digitalen Signalen
DE10142846A1 (de) * 2001-08-29 2003-03-20 Deutsche Telekom Ag Verfahren zur Korrektur von gemessenen Sprachqualitätswerten
DE10150519B4 (de) * 2001-10-12 2014-01-09 Hewlett-Packard Development Co., L.P. Verfahren und Anordnung zur Sprachverarbeitung
EP1492084B1 (de) * 2003-06-25 2006-05-17 Psytechnics Ltd Vorrichtung und Verfahren zur binauralen Qualitätsbeurteilung
US7305341B2 (en) 2003-06-25 2007-12-04 Lucent Technologies Inc. Method of reflecting time/language distortion in objective speech quality assessment
US8014999B2 (en) * 2004-09-20 2011-09-06 Nederlandse Organisatie Voor Toegepast - Natuurwetenschappelijk Onderzoek Tno Frequency compensation for perceptual speech analysis
EP2249333B1 (de) * 2009-05-06 2014-08-27 Nuance Communications, Inc. Verfahren und Vorrichtung zur Schätzung einer Grundfrequenz eines Sprachsignals
EP2474975B1 (de) * 2010-05-21 2013-05-01 SwissQual License AG Verfahren zur Schätzung der Sprachqualität
US9373341B2 (en) * 2012-03-23 2016-06-21 Dolby Laboratories Licensing Corporation Method and system for bias corrected speech level determination
CN112233693B (zh) * 2020-10-14 2023-12-01 腾讯音乐娱乐科技(深圳)有限公司 一种音质评估方法、装置和设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5621854A (en) * 1992-06-24 1997-04-15 British Telecommunications Public Limited Company Method and apparatus for objective speech quality measurements of telecommunication equipment

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3708002A1 (de) * 1987-03-12 1988-09-22 Telefonbau & Normalzeit Gmbh Messverfahren zum beurteilen der guete von sprachcodierern und/oder uebertragungsstrecken
US4860360A (en) * 1987-04-06 1989-08-22 Gte Laboratories Incorporated Method of evaluating speech
SE517836C2 (sv) * 1995-02-14 2002-07-23 Telia Ab Metod och anordning för fastställande av talkvalitet
NL9500512A (nl) * 1995-03-15 1996-10-01 Nederland Ptt Inrichting voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal, alsmede werkwijze voor het bepalen van de kwaliteit van een door een signaalbewerkingscircuit te genereren uitgangssignaal.
ATE205009T1 (de) * 1996-05-21 2001-09-15 Koninkl Kpn Nv Vorrichtung und verfahren zur bestimmung der qualität eines ausgangssignals, das von einem signalverarbeitungsschaltkreis erzeugt werden soll

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5621854A (en) * 1992-06-24 1997-04-15 British Telecommunications Public Limited Company Method and apparatus for objective speech quality measurements of telecommunication equipment

Also Published As

Publication number Publication date
DE19840548C2 (de) 2001-02-15
US7013266B1 (en) 2006-03-14
CA2305652A1 (en) 2000-03-09
EP1048025A1 (de) 2000-11-02
DE59907623D1 (de) 2003-12-11
EP1048025B1 (de) 2003-11-05
DE19840548A1 (de) 2000-03-02
ATE253765T1 (de) 2003-11-15

Similar Documents

Publication Publication Date Title
DE60009206T2 (de) Rauschunterdrückung mittels spektraler Subtraktion
DE69401514T2 (de) Vom rechenaufwand her effiziente adaptive bitzuteilung für kodierverfahren und kodiereinrichtung
DE19952538C2 (de) Automatische Verstärkungsregelung in einem Spracherkennungssystem
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
DE69535709T2 (de) Verfahren und Vorrichtung zur Auswahl der Kodierrate bei einem Vokoder mit variabler Rate
DE69121312T2 (de) Geräuschsignalvorhersagevorrichtung
EP0938831B1 (de) Gehörangepasste qualitätsbeurteilung von audiosignalen
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
EP1048025B1 (de) Verfahren zur instrumentellen sprachqualitätsbestimmung
DE602004010634T2 (de) Verfahren und system zur sprachqualitätsvorhersage eines audioübertragungssystems
DE3043516C2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE2636032B2 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal
DE19505435C1 (de) Verfahren und Vorrichtung zum Bestimmen der Tonalität eines Audiosignals
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE60024403T2 (de) Verfahren zur extraktion von klangquellen-informationen
EP1382034B1 (de) Verfahren zur bestimmung von intensitätskennwerten von hintergrundgeräuschen in sprachpausen von sprachsignalen
DE69112855T2 (de) Sprachsignalverarbeitungsvorrichtung.
DE69401959T2 (de) Vom rechenaufwand her effiziente adaptive bitzuteilung für kodierverfahren und einrichtung mit toleranz für dekoderspektralverzerrungen
EP1279164A1 (de) Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector)
DE10157535A1 (de) Verfahren und Vorrichtung zur Reduzierung zufälliger, kontinuierlicher, instationärer Störungen in Audiosignalen
EP0916206B1 (de) Verfahren und anordnung zum beurteilen der qualität eines übertragenen sprachsignals
EP0535425B1 (de) Verfahren zur Verstärkung von akustischen Signalen für Hörbehinderte, sowie Vorrichtung zur Durchführung des Verfahrens
DE102004001863A1 (de) Verfahren und Vorrichtung zur Bearbeitung eines Sprachsignals
DE4437287C2 (de) Verfahren zur Messung der Erhaltung stereophoner Audiosignale und Verfahren zur Erkennung gemeinsam codierter stereophoner Audiosignale

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 1999942871

Country of ref document: EP

AK Designated states

Kind code of ref document: A1

Designated state(s): CA US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

ENP Entry into the national phase

Ref document number: 2305652

Country of ref document: CA

Ref country code: CA

Ref document number: 2305652

Kind code of ref document: A

Format of ref document f/p: F

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 1999942871

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 09530389

Country of ref document: US

WWG Wipo information: grant in national office

Ref document number: 1999942871

Country of ref document: EP