WO2004112002A1 - Extrahierung von testsignalabschnitten zur qualitätsmessung eines audiosignals - Google Patents

Extrahierung von testsignalabschnitten zur qualitätsmessung eines audiosignals Download PDF

Info

Publication number
WO2004112002A1
WO2004112002A1 PCT/EP2004/006487 EP2004006487W WO2004112002A1 WO 2004112002 A1 WO2004112002 A1 WO 2004112002A1 EP 2004006487 W EP2004006487 W EP 2004006487W WO 2004112002 A1 WO2004112002 A1 WO 2004112002A1
Authority
WO
WIPO (PCT)
Prior art keywords
section
information
audio signal
test signal
signal
Prior art date
Application number
PCT/EP2004/006487
Other languages
English (en)
French (fr)
Other versions
WO2004112002A8 (de
Inventor
Michael Keyhl
Christian Schmidmer
Roland Bitto
Original Assignee
Opticom, Dipl.-Ing. Michael Keyhl Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Opticom, Dipl.-Ing. Michael Keyhl Gmbh filed Critical Opticom, Dipl.-Ing. Michael Keyhl Gmbh
Priority to ES04739953T priority Critical patent/ES2389768T3/es
Priority to DK04739953.0T priority patent/DK1634277T3/da
Priority to EP04739953A priority patent/EP1634277B1/de
Publication of WO2004112002A1 publication Critical patent/WO2004112002A1/de
Publication of WO2004112002A8 publication Critical patent/WO2004112002A8/de
Priority to US11/286,311 priority patent/US7680056B2/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2236Quality of speech transmission monitoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/05Aspects of automatic or semi-automatic exchanges related to OAM&P
    • H04M2203/056Aspects of automatic or semi-automatic exchanges related to OAM&P non-invasive testing, i.e. in operation testing without service interruption

Definitions

  • the present invention relates to hearing tests for evaluating the quality of coded voice and audio signals or for evaluating the quality of a telephone connection, such as, for example, a wired or wireless telephone connection.
  • the present invention relates to the provision of test signal sections for carrying out so-called subjective and / or objective measurements for quality assessment.
  • Standardized perception measurement methods are used today to measure the quality of coded speech and audio signals.
  • PESQ Perceptual Evaluation of Speech Quality
  • PEAQ Perceptual Evaluation of Speech Quality
  • Such a general "setting" is shown in Fig. 6.
  • the original audio signal that is fed into a DUT 600 represents the reference signal or input signal, while the output signal behind the DUT 600 is used to either perform a subjective hearing test Perform subjects as indicated by a subject 602, or perform a quality assessment procedure, such as PESQ or PEAQ, as represented by a model 604.
  • a subjective one Hearing test can be carried out, which is typically carried out with several test persons in standardized rooms.
  • an objective test ie an algorithmic evaluation without subjective, can be carried out Test subjects ,
  • the DUT 600 is typically a system whose impact on audio quality is to be assessed. Such a system is, for example, a telecommunication connection and in particular a telephone connection, which can be wireless or wired.
  • An alternative DUT 600 is, for example, an encoder / decoder section in order to assess the quality impairment of a coding concept with a downstream decoding concept.
  • the output of the model if the model works within the intended framework, is intended to be a prediction of the perceived quality that Test subjects would subjectively indicate on a scale if they heard the output signal of the DUT 600.
  • the original audio signal that is to say the audio signal in front of the DUT 600, which is the reference signal
  • the audio signal distorted by the DUT 600 is compared with the audio signal distorted by the DUT 600, taking into account a time delay (delay), using a psychoacoustic model.
  • both the original audio signal before the DUT 600 and the distorted audio signal after the DUT 600 are converted into what is known as an internal representation, which is analogous to the psychophysical representation of audio signals in the human auditory system, in particular parameters such as the Bark scale and the loudness (sone) are taken into account, as is known in the art.
  • the internal psychophysical representation of the original audio signal is then compared with the internal psychophysical representation of the distorted audio signal in order to calculate one or more error parameters depending on the model, which allow a quantitative quality statement.
  • a quality assessment method illustrated with reference to FIG. 6 is also referred to as an “intrusive” method since it is necessary to feed the reference signal, ie the original audio signal, into the system to be tested (DUT 600). as has been carried out, the test signal to be evaluated, which is also shown in FIG. 6 as a distorted audio signal or generally as
  • the output of the DUT 600 can, for example, be the far end of a telephone connection between two subscribers, the original audio signal being fed in at the near end as a reference signal.
  • the measuring method such as PESQ, would characterize the voice quality of a telephone connection.
  • the algorithmic measurement methods are based on a combination of psychoacoustic and cognitive knowledge about human hearing perception.
  • the underlying experiment of these methods consists first of all in that a subjective hearing test is carried out in which a statistically sufficient number of test listeners ("subjects") is presented with a series of speech or audio sequences for assessment.
  • the testers evaluate these sequences using a discrete or continuous quality scale, which is also referred to in technology as the "opinion scale” and ranges, for example, from 1 ("bad") to 5 ("excellent”).
  • Such subjective hearing tests are shown, for example, in the standardization document ITU-T P.800 (08/1996).
  • test subjects can only qualitatively assess short sequences. If the test subjects are shown a longer sequence, that is to say a longer test signal section, a "statistical averaging" is used to a certain extent. In other words, the cognitive process of forgetting heard disorders leads to a falsification of the test subjects' statements, this falsification due to the fact that the test subjects are human, is inherent in the system.
  • test procedures such as the standardization document Rec. ITU-R BS.1116-1 or Rec. ITU-R BS.1534, stipulate test sequences that typically last between 8 and 12 seconds, but their maximum length does not exceed 20 seconds. Although these test sequences are real signals, they are not stochastic or random from a real scenario, but standardized standardized test sequences that can be fed into the DUT to be considered in an experiment in order for the test input signal, i.e. through to gain the DUT distorted audio signal.
  • test sequence lengths from the intrusive tests which are selected so that the test listener does not have a so-called "statistical averaging" or a forgetting of one due to an excessively long sequence Error occurs, and on the other hand are long enough for a reasonable statement to be made.
  • the duration of the test sequences is typically between 8 and 12 seconds, although test sequences, ie test signal sections with a maximum of 20 seconds, are sometimes also permitted.
  • FIG. 5 shows a time diagram of a signal transmitted via a telephone connection, that is to say an audio signal which has been distorted by the transmission via a telephone connection. 5, a normalized amplitude is plotted along the ordinate, while time t is plotted along the abscissa.
  • the signal shown in Fig. 5 clearly shows the characteristic of a speech signal, in that on the one hand information-carrying sections, such as
  • the non-information-bearing section that follows the first information-bearing section extends from approximately 9 seconds to approximately 10.8 seconds. Then there is a longer, information-bearing section from 10.8 seconds to about 20.2 seconds.
  • This second information-carrying section is followed by a pause of between approximately 20.3 seconds and approximately 21.3 seconds.
  • the second pause is followed by an information-carrying section which extends for up to 23.7 seconds, followed by another pause.
  • test signal sections The simplest way to extract test signal sections would be to split the audio signal shown in FIG. 5 into adjacent sections of the same length.
  • One type of fragmentation to obtain test signal sections with a duration of approximately 10 seconds is represented by b (l), b (2) etc.
  • Another type of fragmentation of the audio signal shown in FIG. 5 in order to obtain test signal sections with a duration of, for example, 7.5 seconds is by a (l), a (2), a (3), ..., shown.
  • the fragmentation of the audio signal into sections of constant length is problematic in that it is no longer possible to calculate how large the information-carrying section is in a test signal section and how large the non-information-carrying section is in a test signal section, ie how large the weighting information / pause is ,
  • Fig. 5 The procedure shown in Fig. 5 is only "good-natured” if, for example, any telephone conversation is always shorter than 20 seconds, so that the entire telephone conversation could be taken as a test signal section. However, if this is not the case, it results the division into constant time segments, as it has been shown with reference to Fig. 5, cannot be compared with a subjective hearing test result, and the measurement periods of different durations will at least lead to different, if not unusable, results, particularly for measurements in mobile networks from the mobile
  • drive test tools the shortest possible measurement duration is desired, or the fragmentation of real test conversations in shorter time intervals or measurement periods, as indicated at a (l), a (2), a (3) in FIG. 5 , These shorter measuring times are particularly desirable in the case of mobile radio networks in order to then correlate the measuring periods with geographical data in order to obtain a geographically detailed statement in the quality of a mobile radio system.
  • FIG. 5 shows the graphical representation of the time signal of a speech signal obtained from a real telephone conversation.
  • the voice-active modulation parts that is to say the information-carrying sections of the signal, sentences spoken here, and the speech pauses between them, that is to say the non-information-carrying sections, are clearly visible.
  • the signal shown in Fig. 5 has been recorded on the listener side of one end of the current communication. How it was done occurs in a In a conversation, there are significantly longer pauses in which the opposite person speaks. For the sake of simplicity, these are neglected in FIG. 5.
  • Modulation i.e. of a word or sentence
  • test signal section can consist to a large extent or entirely of a pause, as can be seen, for example, in part from the test signal section a (2), which is already one Third consists of a break.
  • sequences suitable for hearing test ie speech examples with typically two sentences of a maximum of 20 seconds in duration.
  • sequences suitable for hearing test ideally begin with pauses, end with pauses and, in particular, when peaks are viewed in succession, are also separated by pauses.
  • the "hard” switching on and off in modulation parts leads to interference noises, which are also referred to as spectral interference noises or "cracking".
  • the hard cutting off of a modulation part means Convolution of the signal with a step function.
  • the object of the present invention is to provide an improved concept for extracting a test signal section from an audio signal.
  • the present invention is based on the knowledge that to extract a test signal section, the temporal structure of the audio signal must first be analyzed in order to separate an information-carrying section of the audio signal from a preceding non-information-carrying section of the audio signal and a subsequent non-information-carrying section of the audio signal. divorce. On the basis of the analysis of the audio signal with regard to the detection of the information-carrying sections, a test signal section is then generated based on the information-carrying section of the audio signal. The procedure of fixed division into adjacent signal sections is thus abandoned.
  • Test signal sections are now obtained according to the invention in such a way that the audio signal of a signal analysis with regard to its temporal structure and with regard to its in- formation content is subjected to, based on the knowledge thus obtained for further processing to obtain signal sections, ie test signal sections, which largely correspond to those of test sequences conforming to hort.
  • the fragmentation of the audio signal into test signal sections according to the invention is therefore not carried out independently of the signal but in a signal-adapted manner.
  • An advantage of the present invention is that the audio signal adaptive extraction of a test signal section leads to the avoidance of system-inherent artifacts. Instead, test signal sections conforming to the hearing test are obtained, which enable the use and distribution of non-intrusive measurement concepts in the first place.
  • Another advantage of the present invention is that no DUT modifications or reference signals are required, but that the concept according to the invention generates test signal sections from real audio signals which can be manipulated within wide limits with regard to their criteria typically specified by hearing tests.
  • the analysis of the audio signal takes place by means of voice activity detection, pause detection or noise detection or a subsequent speech recognition.
  • the test signal section can, if the time lengths ⁇ are sufficient, contain a complete information-carrying section of the audio signal directly. Depending on the embodiment, however, manipulation of an information-carrying section of the audio signal can also be carried out. men, for example, to add breaks at the beginning and at the end of an information-carrying section in order to create a predefined relation of e.g. B. speech modulation to z. B. To create a break.
  • the present invention is particularly advantageous in that it converts any audio signal, which typically has long pauses, into a sequence of test signal sections, each of which consists, to a specifiable minimum proportion, of an information-carrying section of the audio signal. In this way, the usual long breaks are automatically cut out to a certain extent.
  • a quality assessment of the transmission channel from which the audio signal originates then carries out this quality assessment only with meaningful test signal sections and does not waste senseless resources by the unsuccessful attempt to quality assess pauses in a participant.
  • FIG. 1 shows a block diagram of an apparatus for extracting a test signal section according to a preferred exemplary embodiment of the present invention
  • FIG. 2 shows a schematic illustration of the device for analyzing FIG. 1 according to a preferred exemplary embodiment of the present invention
  • FIG. 3 shows a detailed illustration of the device for generating FIG. 1 according to a preferred exemplary embodiment of the present invention
  • FIG. 4 illustrates the fragmentation of an audio signal as achieved by the present invention
  • FIG. 6 shows an overview diagram for explaining the basic functioning of an intrusive hearing test for quality assessment of a system to be tested.
  • the audio signal is a device 10 for analyzing a temporal Structure of the audio signal supplied.
  • the device 10 for analyzing the temporal structure of the audio signal operates to distinguish an information-carrying section of the audio signal from a previous non-information-carrying section of the audio signal and a subsequent non-information-carrying section of the audio signal.
  • Downstream of the device 10 is a device 12 for generating the test signal section, which preferably complies with the hearing test, based on the information-carrying section of the audio signal which, in an alternative, is provided by the device 10 via a connecting line 14.
  • the device 10 can also be designed to give an indication of where an information-carrying section begins and where it ends, for example by specifying the samples if the audio signal is in time-discrete form, or by specifying absolute times.
  • the device 12 for generating the test signal section is effective based on the information-carrying section of the audio signal in order to use the corresponding information on line 14 to extract the corresponding information-carrying section or at least part of the information-carrying section directly from the audio signal, which is provided via an input 16, to extract, as is represented by a connecting line from the input 16 to the device 12, which is denoted by 18 in FIG. 1.
  • the device 12 preferably generates a sequence of test signal sections at an output 20 of the device shown in FIG. 1.
  • FIG. 4 shows the mode of operation of the inventive concept illustrated with reference to FIG. 1.
  • the device 10 for Analyze is effective to detect the information-carrying section, which extends from approximately 1.3 seconds to 8.8 seconds.
  • Rapid changes which additionally take place at a certain amplitude, that is to say at a certain loudness level, indicate so-called speech-active modulation components if the signal is a speech signal, as shown in FIG. 4.
  • slow changes at a low level or rapid changes at a relatively constant level indicate pauses or noise, that is to say non-information-carrying sections of the audio signal.
  • Other methods distinguish e.g. B. Noise from speech by spectral analysis and correlation.
  • the device 12 for generating the test signal sections is now effective, for example to carry out the fragmentation of the audio signal into test signal sections m (l), m (2), m (3), ... in such a way that an information-carrying section becomes a non-information-carrying section precedes and follows, as can be seen, for example, from the test signal sections m (l), m (2), m (3) in FIG. 4.
  • the device for generating the test signal section as shown at 12 in FIG.
  • This procedure is feasible if the information-carrying section of the audio signal is shorter than a predetermined maximum length of a test signal section. B. 12 seconds or up to 20 seconds. This boundary condition is likely to be the case, in particular, with voice signals such as occur over telephone connections.
  • the audio signal is a music signal
  • an information-carrying section of the music signal ie a section with a modulation above a certain modulation threshold value
  • the device 12 for generating the test signal section is effective in order to generate a test signal section in such a way that, starting from a pause situation, the information-carrying section is gradually faded in, in such a way that damping is gradually increased from 1 to 0 is reduced.
  • the information-carrying section is then taken over directly from the audio signal, to a predetermined point in time at which a slow step-by-step
  • the device 10 for analyzing receives the audio signal from an audio signal input 10.
  • the signal analysis device 10 provides an indication of the information-carrying section or the information-carrying section itself.
  • the device 10 provides an indication of a non-information-carrying section or the non-information carrying section itself, as represented by an output line 22.
  • the signal analysis device 10 carries out a signal analysis by means of a speech activity detection, a pause / noise detection, a level detection, a loudness detection, a modulation detection, etc. All of these concepts are based on the fact that an information-carrying section is correlated with the feature to be detected such that the feature is detectable when the section of the audio signal carries useful information and that the feature to be detected is not present when the section of the audio signal that is being viewed does not carry corresponding useful information, or vice versa.
  • the device for signal analysis is effective to use voice activity detection to identify the beginning and end of an information-carrying section of the audio signal, that is to say, for example, a voice-active modulation component
  • the signal analysis device 10 can carry out a pause detection or, in the case of real networks, a noise detection ("noise detection") in order to determine the position and length of the speech pauses.
  • An information-carrying section is then the section between two speech pauses, although it is not detected directly, but to a certain extent indirectly, by determining the previous and the subsequent speech pause.
  • a pause detection alone that is to say a detection of a preceding and a subsequent non-information-carrying section with respect to a considered information-carrying section, thus likewise provides a distinction between the information-carrying section of the audio signal and a preceding non-information-carrying section of the audio signal and a subsequent non-information-carrying section of the audio signal.
  • the device for analyzing the audio signal can be designed to analyze the language and the context of sentences by means of a downstream speech recognition, which is also known in the art as ASR or "Automatic Speech Recognition", for example if this it is required to always extract a test signal section with a predefined number of words or a predefined number of sentences.
  • ASR Automatic Speech Recognition
  • This functionality can also be taken over by the device 12 for generating the test signal sections, as shown in FIG. which is shown according to a preferred embodiment of the present invention in Fig. 3. Via lines 14 and 22 of Fig.
  • the device 12 for generating a test signal section receives, for example, an indication of an information-carrying section, that is to say of a modulation or an indication of a break, that is, a non-information-carrying abs Section of the audio signal that is provided via line 18 to device 12.
  • the device 12 receives further information about a predetermined maximum length via a further input 24 and information about a predetermined minimum length via a further input 26.
  • a predetermined pause / modulation ratio in a test signal section is sought.
  • the information as to which pause / modulation ratio is predetermined can be supplied to the device 12 for generating the test signal sections via a further input 28.
  • the means 12 for generating a test signal section is operative to add pauses in a preferred embodiment at the beginning and end of an identified information-carrying section in order to generate a defined relation of speech modulation to pause, such as 40% speech modulation and 60% pause. If an information-carrying section is too long, the device 12 is effective in a preferred exemplary embodiment of the present invention in order to create a fade-in and fade-out functionality in order to gently show or hide the information-carrying section, which is also known in the art as a “fade In "or" fade-out "is known.
  • the fading-in functionality can also be carried out in order to favor the longer information-carrying section to "shorten" the non-information-bearing section.
  • a recursive processing of the steps of the voice activity identifier, the pause detection, the subsequent speech recognition and the addition of pauses is carried out in order to form hearing test-compliant test signal sections, which will be speech sequences, for example, with different lengths, the respective lengths period but within the predetermined minimum length t m in and the predetermined maximum length t is max.
  • the concept according to the invention is thus effective in order to generate a series of i test signal sections for each audio signal of duration t, where:
  • test signal sections or fragments of the audio signal generated in this way which, as shown in FIG. 4, may have overlaps in a preferred exemplary embodiment of the present invention, are now a further process, for example a perception-based measurement method for determining the speech quality according to ITU -T fed P.862 (PESQ).
  • the fragments generated can also be used for a subjective hearing test according to ITU-T P.800, for example.
  • test signal sections generated according to the invention in contrast to the test signal sections of constant length, none Contain more sequences that only comprise a pause, ie are "zero signals", so that the number of sequences depending on the modulation for a given audio signal is minimized and in extreme cases can even be 0 if the audio signal has no information-carrying section, This means that there is only a pause or noise. This result is in line with the requirement that a measuring method cannot evaluate a signal that consists exclusively of noise or pause.
  • a music signal according to the invention is likewise generated in approx. Sequences 10 to 20 s long fragmented.
  • the device 10 is designed for analysis in order to carry out level detection, loudness detection or modulation detection in the case of a music signal in order to determine the beginning and the end of modulation components, that is to say an information-carrying section.
  • the device 10 is designed to determine the position and length of the breaks, which are also referred to in the art as silence intervals, by means of a break detection or, in the case of real networks, noise detection.
  • a recursive use of the steps of level, loudness or modulation detection, pause detection, automatic fade-in and fade-out and the addition of pauses is carried out in order to form audio sequences of different lengths, the duration of which is within a predetermined minimum - and maximum lengths tmi n and t max .
  • t min defines the specified minimum duration for a sequence.
  • test signal sections or fragments obtained and processed in this way can now be assigned to a further process, for example a perception-based measurement method for determining the audio quality in accordance with ITU-R BS.1387-1 PEAQ. leads.
  • the fragments generated can also be used for a subjective hearing test.
  • the successive test signal sections of a periodic loudness measurement or loudness correction for example using known methods as described in ITU-R WP6P Question 2/6 “Audio Metering Characteristics suitable for use in Digital Sound Production ".
  • This concept serves in particular to create a loudness adjustment of sound signals, for example on television, in order to address the problem of level fluctuations in sound signals known as" too loud advertising ".
  • the concept according to the invention is particularly advantageous here in that, in particular, the pause / modulation ratio of the test signal sections can be precisely controlled on the basis of the signal-adaptive extraction of the test signal sections according to the present invention, that is to say that there are no incorrect loudness influences on the sound due to inaccurate audio signal fragmentation.
  • the method according to the invention for extracting a test signal section can be implemented in hardware or in software.
  • the implementation can take place on a digital storage medium, in particular a floppy disk or CD with electronically readable control signals, which can interact with a programmable computer system such that the method
  • the invention thus also consists in a computer program product with a program code stored on a machine-readable carrier for carrying out the method according to the invention, if that Computer program product running on a computer.
  • the invention can thus be implemented as a computer program with a program code for carrying out the method for extracting a test signal section from an audio signal when the computer program runs on a computer.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Monitoring And Testing Of Exchanges (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

Zur Extraktion von hörtestkonformen Testsignalabschnitten aus einem Audiosignal insbesondere für nicht-intrusive Tests zur Qualitätsbeurteilung eines Übertragungssystems wird zunächst eine zeitliche Struktur des Audiosignals analysiert (10), um einen informationstragenden Abschnitt des Audiosignals von einem vorhergehenden nicht-informationstragenden Abschnitt des Audiosignals oder einem nachfolgenden nicht-informationstragenden Abschnitt des Audiosignals zu unterscheiden. Hierauf wird ein Testsignalabschnitt basierend auf dem informationstragenden Abschnitt des Audiosignals erzeugt (12). Damit werden hörtestkonforme Testsignalabschnitte erhalten, die einerseits die Vergleichbarkeit mit anderen Hörtests feststellen und die andererseits eine zu ungenaue Bewertung des Übertragungssystems aufgrund von systemimmanenten Artefakten reduzieren.

Description

EXTRAHIERUNG VON TESTSIGNALABSCHNITTEN ZUR QUALITATSMESSUNGEINES AUDIOSIGNALS
Beschreibung
Die vorliegende Erfindung bezieht sich auf Hörtests zur Be- wertung der Qualität von codierten Sprach- und Audiosignalen bzw. zur Bewertung der Qualität einer Telephonverbindung, wie beispielsweise einer drahtgebundenen oder drahtlosen Telephonverbindung. Insbesondere bezieht sich die vorliegende Erfindung auf die Bereitstellung von Testsig- nalabschnitten zum Durchführen von sogenannten subjektiven und/oder objektiven Messungen zur Qualitätsbeurteilung.
Zur meßtechnischen Bewertung der Qualität von codierten Sprach- und Audiosignalen werden heute standardisierte per- zeptionsbasierte Meßverfahren (Perceptual Measurement) eingesetzt. Bekannte Verfahren sind das sogenannte PESQ- Verfahren (PESQ = Perceptual Evaluation of Speech Quality = gehörrichtige Bewertung der Sprachqualität) , das in dem Standardisierungsdokument ITU-T P.862 (02/2001) beschrieben ist. Ein anderes bekanntes Meßverfahren zur Qualitätsbeurteilung ist das sogenannte PEAQ-Verfahren (PEAQ = Objective Measurements of Perceived Audio Quality = objektive Messungen der wahrgenommenen Audioqualität) ist in dem Standardisierungsdokument Rec. ITÜ-R BS. 1387-1 (1998-2001) darge- stellt. Diesen Verfahren bzw. weiteren Verfahren zur Qualitätsbeurteilung ist gemeinsam, daß ein zu testendes Signal („Testsignal"), das in der Regel das Ausgangssignal eines Systems oder Netzwerks oder allgemein eines zu untersuchen- den Elements (DUT) ist, mit einem Original- oder auch Referenzsignal, das in der Regel das Eingangssignal in das zu testende DUT ist, verglichen wird.
Ein solches allgemeines „Setting" ist in Fig, 6 dargestellt. Das ursprüngliche Audiosignal, das in ein DUT 600 eingespeist wird, stellt hierbei das Referenzsignal oder Eingangssignal dar, während das Ausgangssignal hinter dem DUT 600 dazu verwendet wird, um entweder einen subjektiven Hörtest mit Testpersonen durchzuführen, wie es durch ein Subjekt 602 angedeutet ist, oder ein Qualitätsbeurteilungs- verfahren, wie beispielsweise PESQ oder PEAQ durchzuführen, wie es durch ein Modell 604 dargestellt ist. Durch Zuführung des Ausgangssignals aus dem DUT 600 zu dem Subjekt 602 ist somit ein subjektiver Hörtest durchführbar, der typischerweise mit mehreren Testpersonen in standardisierten Räumen durchgeführt wird. Durch Zuführung des ursprünglichen Audiosignals vor dem DUT 600, also des Referenzsignals, und des durch das DUT verzerrten Audiosignals zu dem Modell 604 kann ein objektiver Test, also eine algorithmische Evaluierung ohne subjektive Testpersonen, durchgeführt werden.
Das DUT 600 ist typischerweise ein System, dessen Einfluß auf die Audioqualität bewertet werden soll. Ein solches System ist beispielsweise eine Telekommunikationsverbindung und insbesondere eine Telephonverbindung, die drahtlos oder drahtgebunden sein kann. Ein alternatives DUT 600 ist beispielsweise eine Codierer/Decodiererstrecke, um die Quali- ι tätsbeeinträchtigung eines Codierkonzepts mit nachgeschaltetem Decodierkonzept zu beurteilen. Die Ausgabe des Modells soll, wenn das Modell im beabsichtigen Rahmen arbeitet, eine Vorhersage der wahrgenommenen Qualität sein, die Testpersonen, wenn sie das Ausgangssignal des DUT 600 hören, auf einer Skala subjektiv angeben würden.
Beim PESQ-Verfahren beispielsweise wird das ursprüngliche Audiosignal, also das Audiosignal vor dem DUT 600, das das Referenzsignal ist, unter Berücksichtigung einer zeitlichen Verzögerung (Delay) , mit dem durch das DUT 600 verzerrten Audiosignal verglichen, wobei ein psychoakustisches Modell eingesetzt wird. Insbesondere werden sowohl das ursprüngli- ehe Audiosignal vor dem DUT 600 als auch das verzerrte Audiosignal nach dem DUT 600 in eine sogenannte interne Darstellung umgewandelt, die analog zu der psychophysischen Darstellung von Audiosignalen im menschlichen Gehörsystem ist, wobei insbesondere Parameter wie die Bark-Skala und die Lautheit (Sone) berücksichtigt werden, wie es in der Technik bekannt ist. Die interne psychophysikalische Darstellung des ursprünglichen Audiosignals wird dann mit der internen psychophysikalischen Darstellung des verzerrten Audiosignals verglichen, um je nach Modell einen oder meh- rere Fehlerparameter zu berechnen, die eine quantitative Qualitätsaussage zulassen.
Ein anhand von Fig. 6 dargestelltes Qualitätsbeurteilungs- verfahren wird auch als „intrusives" Verfahren bezeichnet, da eine Einspeisung des Referenzsignals, also des ursprünglichen Audiosignals, in das zu testende System (DUT 600) notwendig ist. Am Ausgang des DUT erhält man dann, wie es ausgeführt worden ist, das zu bewertende Testsignal, das in Fig. 6 auch als verzerrtes Audiosignal bzw. allgemein als
I Audiosignal bezeichnet wird. Der Ausgang des DUT 600 kann beispielsweise das ferne Ende einer Telephonverbindung zweier Teilnehmer sein, wobei das ursprüngliche Audiosignal am nahen Ende als Referenzsignal eingespeist wird. In die- sem Fall würde das Meßverfahren wie beispielsweise PESQ, die Sprachqualität einer Telephonverbindung charakterisieren.
Wie es ausgeführt worden ist, basieren die algorithmischen Meßverfahren auf einer Kombination von psychoakustischen und kognitiven Erkenntnissen über die menschliche Gehörwahrnehmung. Das zugrundeliegende Experiment dieser Verfahren besteht zunächst darin, daß ein subjektiver Hörtest durchgeführt wird, in dem eine statistisch ausreichende Anzahl von Testhörern („Subjects") eine Reihe von Sprachbzw. Audiosequenzen zur Beurteilung vorgeführt wird. Die Tester bewerten diese Sequenzen mittels einer diskreten bzw. kontinuierlichen Qualitätsskala, die in der Technik auch als „Opinion Scale" bezeichnet wird und beispielsweise von 1 („bad") bis 5 („excellent") reicht. Solche subjektiven Hörtests sind beispielsweise in dem Standardisierungsdokument ITU-T P.800 (08/1996) dargestellt.
Es hat sich gezeigt, daß reale Testpersonen nur kurze Sequenzen qualitativ beurteilen können. Wird den Testpersonen eine längeren Sequenz, also ein längerer Testsignalabschnitt vorgeführt, so setzt eine gewissermaßen „statistische Mittelung" ein. Anders ausgedrückt führt der kognitive Prozeß des Vergessens von gehörten Störungen zu einer Verfälschung der Aussagen der Testpersonen, wobei diese Verfälschung aufgrund der Tatsache, daß die Testpersonen Menschen sind, systemimmanent ist.
Konsequenterweise sind daher in standardisierten Testprozeduren, wie beispielsweise in dem Standardisierungsdokument Rec. ITU-R BS.1116-1 oder Rec. ITU-R BS.1534, Testsequenzen vorgeschrieben, die eine Dauer von typischerweise zwischen 8 und 12 Sekunden haben, deren maximale Länge jedoch 20 Sekunden nicht überschreitet. Diese Testsequenzen sind zwar reale Signale, sie sind jedoch nicht stochastisch bzw. zufällig aus einem realen Szenario stammend, sondern standar- disierte vorgegebene Testsequenzen, die in einem Experiment in das zu betrachtende DUT eingespeist werden können, um das Test-Eingangssignal, also das durch das DUT verzerrte Audiosignal zu gewinnen.
In jüngster Zeit wurden Entwicklungen vorgestellt, die es erlauben, auch nicht-intrusive Tests durchzuführen, die also eine Schätzung der Sprachqualität ausschließlich aufgrund einer Analyse des Testsignals auf der Empfangsseite, also ohne Einspeisung eines Referenzsignals auf der Sende- seite, ermöglichen sollen. Solche Entwicklungen sind für praktische Realisierungen von besonderem Vorteil, da sie beispielsweise eine Aussage über die Sprachqualität einer Mobilfunkverbindung einzig im Endgerät zulassen, ohne daß irgendwelche meßtechnischen Anordnungen oder Vorkehrungen bzw. Manipulationen im Telephonnetz gewissermaßen zur Einspeisung eines Referenzsignals erforderlich wären. Jedes reale Telephongespräch sollte mit einem solchen nicht~ intrusiven Konzept einer Qualitätsbeurteilung unterziehbar sein.
Dieses neue nicht-intrusive Konzept befindet sich gerade in der Entwicklung. Es wird davon ausgegangen, daß aus Ver- gleichbarkeitsgründen mit intrusiven Meßkonzepten auch für das nicht-intrusive Meßkonzept Testsequenzlängen vorge-
I schrieben werden, die den Testsequenzlängen aus den intrusiven Tests ähnlich sind, die also so gewählt sind, daß beim Testhörer aufgrund einer zu langen Sequenz keine sogenannte „statistische Mittelung" oder ein Vergessen eines Fehlers eintritt, und die andererseits lange genug sind, damit überhaupt eine vernünftige Aussage getroffen werden kann. Wie es bereits ausgeführt worden ist, liegt die Dauer der Testsequenzen typischerweise zwischen 8 bis 12 Sekun- den, wobei manchmal auch Testsequenzen, also Testsignalabschnitte mit maximal 20 Sekunden zugelassen werden.
Insbesondere bei nicht-intrusiven Qualitätsbeurteilungen eines verzerrten Audiosignals bzw. bei der Beurteilung ei- nes Einflusses eines beispielsweise Übertragungskanals 600 in Fig. 6 auf das Audiosignal kann nicht mehr ohne weiteres mit vordefinierten Testsignalabschnitten gearbeitet werden. Statt dessen müssen reale Audiosignale zur Qualitätsbeurteilung herangezogen werden. Dennoch soll eine Vergleich- barkeit der Meßergebnisse gewährleistet werden, da dies gerade ein wesentlicher Vorteil von standardisierten Quali- tätsbeurteilungsverfahren ist, nämlich dass die Ergebnisse verschiedener Tests vergleichbar sein sollen.
Nachfolgend wird anhand von Fig. 5 die sich dabei ergebende Problematik dargestellt. Fig. 5 zeigt ein Zeitdiagramm eines über eine Telephonverbindung übertragenen Signals, also eines Audiosignals, das durch die Übertragung über eine Telephonverbindung verzerrt worden ist. In dem Zeitdiagramm von Fig. 5 ist entlang der Ordinate eine normierte Amplitude aufgetragen, während entlang des Abszisse die Zeit t aufgetragen ist. Das in Fig. 5 dargestellte Signal zeigt deutlich die Charakteristik eines Sprachsignals, dahingehend, daß zum einen informationstragende Abschnitte, wie
I beispielsweise der Abschnitt zwischen einer Sekunde und neun Sekunden, vorhanden sind, und daß die informationstragenden Abschnitte durch nicht-informationstragende Abschnitte, die auch als Pausen bezeichnet werden, voneinan- der getrennt sind. Der nicht-informationstragende Abschnitt, der auf den ersten informationstragenden Abschnitt folgt, erstreckt sich von etwa 9 Sekunden bis zu etwa 10,8 Sekunden. Dann folgt wieder ein längerer informationstra- gender Abschnitt von 10,8 Sekunden bis etwa 20,2 Sekunden. Diesem zweiten informationstragenden Abschnitt folgt wieder eine Pause zwischen 20,3 Sekunden etwa und 21,3 Sekunden. Der zweiten Pause folgt wieder ein informationstragender Abschnitt, der sich etwa bis 23,7 Sekunden erstreckt, woraufhin wieder eine Pause folgt.
Die einfachste Möglichkeit zur Extraktion von Testsignalabschnitten würde darin bestehen, das in Fig. 5 dargestellte Audiosignal in aneinander angrenzende Abschnitte gleicher Länge zu zerlegen. Eine Art der Fragmentierung, um Testsignalabschnitte mit einer Dauer von etwa 10 Sekunden zu gewinnen, ist durch b(l), b(2) etc. dargestellt. Eine andere Art der Fragmentierung des in Fig. 5 dargestellten Audiosignals, um Testsignalabschnitte mit einer Dauer von bei- spielsweise 7,5 Sekunden zu gewinnen, ist durch a(l), a(2), a(3), ..., dargestellt.
Die Fragmentierung des Audiosignals in Abschnitte konstanter Länge ist dahingehend problematisch, daß nicht mehr kalkulierbar ist, wie groß der informationstragende Abschnitt in einem Testsignalabschnitt ist, und wie groß der nicht-informationstragende Abschnitt in einem Testsignalabschnitt ist, d. h. wie groß die Gewichtung Information/Pause ist. Darüber hinaus kann es insbesondere bei Tele- phongesprächen vorkommen, daß zwischen den Gesprächspartnern längere Pausen entstehen. Dies würde dazu führen, daß ein Testsignalabschnitt beispielsweise nur ausschließlich aus einer Pause bestehen würde. Es ist ohne weiteres er- sichtlich, daß allein aufgrund einer Pause keine Qualitätsbeurteilung möglich ist.
Das in Fig. 5 gezeigte Prozedere ist lediglich dann „gutar- tig", wenn jegliches Telephongespräch z. B. immer kürzer als 20 Sekunden ist, so daß das gesamte Telephongespräche als Testsignalabschnitt genommen werden könnte. Ist dies jedoch nicht der Fall, so ergibt die Aufteilung in konstante Zeitabschnitte, wie sie anhand von Fig. 5 dargestellt worden ist, keinerlei Vergleichbarkeit mit einem subjektiven Hörtestergebnis. Darüber hinaus werden die Meßperioden unterschiedlicher Dauer zumindest zu unterschiedlichen, wenn nicht unbrauchbaren Ergebnisse führen. Insbesondere für die Messung in Mobilfunknetzen aus dem fahrenden Auto mittels sogenannter „Drive Test Tools" ist eine möglichst kurze Meßdauer erwünscht bzw. die Fragmentierung realer Testgespräche in kürzere Zeitintervalle bzw. Meßperioden, wie sie bei a(l), a(2), a(3) in Fig. 5 angedeutet ist. Diese kürzeren Meßdauern sind insbesondere bei Mobilfunknetzen erwünscht, um die Meßperioden dann mit geographischen Daten zu korrelieren, um eine geographisch detaillierte Aussage in der Qualität eines Mobilfunksystems zu erhalten.
Wie es bereits angedeutet worden ist, zeigt Fig. 5 die gra- phische Darstellung des Zeitsignals eines Sprachsignals, gewonnen aus einem realen Telephongespräch. Deutlich ersichtlich sind die sprachaktiven Modulationsteile, also die informationstragenden Abschnitte des Signals, hier gesprochene Sätze, sowie die Sprachpausen dazwischen, also die nicht-informationstragenden Abschnitte. Es sei darauf hingewiesen, daß an der Hörerseite des einen Endes der aktuellen Kommunikation das in Fig. 5 gezeigte Signal aufgezeichnet worden ist. Wie es ausgeführt worden ist, treten in ei- ner Konversation deutlich längere Pausen auf, in denen die gegenüberliegende Person spricht. Diese sind zur Vereinfachung in Fig. 5 vernachlässigt.
In Fig. 5 dargestellt sind zwei mögliche Fragmentierungen, basierend auf einer Einteilung in feste Zeitabschnitte. Es ist deutlich zu sehen, daß ein Zeitabschnitt inmitten der
Modulation, also eines Wortes oder Satzes, beginnen kann
(a(2), b(2)) oder enden kann (ad), a(2), ..., b(l)).
Darüber hinaus kann es ebenso passieren und wird es insbesondere bei einem Dialog der Fall sein, daß ein Testsignalabschnitt zu einem wesentlichen Teil oder ganz aus einer Pause bestehen kann, wie es beispielsweise teilweise anhand des Testsignalabschnitts a(2) ersichtlich ist, der bereits zu einem Drittel aus Pause besteht.
Die Einteilung in feste Zeitabschnitte eines zu beurteilenden Audiosignals wird somit den Anforderungen an hörtestge- rechte Sequenzen, also Sprachbeispiele mit typischerweise zwei Sätzen von maximal 20 Sekunden Dauer nicht gerecht. Ferner ist es wünschenswert, daß solche hörtestgerechten Sequenzen idealerweise mit Pausen beginnen, mit Pausen enden und insbesondere, wenn aufeinanderfolgende Testsignal- abschnitte betrachtet werden, auch durch Pausen getrennt sind.
Darüber hinaus führt das „harte" Ein- und Ausschalten in Modulationsteilen, wie beispielsweise das hart-e Ausschalten des informationstragenden Abschnitts im Testsignalabschnitt a(l), zu Störgeräuschen, die auch als spektrale Störgeräusche bzw. „Knacken" bezeichnet werden. Signaltheoretisch bedeutet das harte Abschneiden eines Modulationsteils die Faltung des Signals mit einer Sprungfunktion. Diese Störgeräusche bzw. Artefakte würden von einem Meßverfahren als Störung ausgewertet werden, was unmittelbar dazu führen würde, daß beispielsweise eine Kommunikationsverbindung schlechter beurteilt wird, als sie ist.
Die Aufgabe der vorliegenden Erfindung besteht darin, ein verbessertes Konzept zum Extrahieren eines Testsignalabschnitts aus einem Audiosignal zu schaffen.
Diese Aufgabe wird durch eine Vorrichtung zum Extrahieren gemäß Patentanspruch 1, ein Verfahren zum Extrahieren gemäß Patentanspruch 18, eine Vorrichtung zur Qualitätsmessung nach Patentanspruch 19, ein Verfahren zur Qualitätsmessung nach Patentanspruch 21 oder ein Computer-Programm gemäß Patentanspruch 22 gelöst.
Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß zur Extraktion eines Testsignalabschnitts zunächst die zeitliche Struktur des Audiosignals analysiert werden muß, um einen informationstragenden Abschnitt des Audiosignals von einem vorhergehenden nicht-informationstragenden Abschnitt des Audiosignals und einem nachfolgenden nicht- informationstragenden Abschnitt des Audiosignals zu unter- scheiden. Auf der Basis der Analyse des Audiosignals im Hinblick auf die Detektion der informationstragenden Abschnitte wird dann ein Testsignalabschnitt basierend auf dem informationstragenden Abschnitt des Audiosignals erzeugt. Damit wird von dem Prozedere der festen Aufteilung in angrenzende Signalabschnitte weggegangen. Testsignalabschnitte werden erfindungsgemäß nunmehr dahingehend gewonnen, daß das Audiosignal einer Signalanalyse im Hinblick auf seine zeitliche Struktur und im Hinblick auf seinen In- formationsgehalt unterzogen wird, um basierend auf den so' gewonnenen Erkenntnissen für die weitere Verarbeitung Signalausschnitte, also Testsignalabschnitte zu gewinnen, die denen von hortestkonformen Testsequenzen weitgehend ent- sprechen. Die erfindungsgemäße Fragmentierung des Audiosignals in Testsignalabschnitte wird daher nicht signalunabhängig sondern signalangepaßt vorgenommen.
Ein Vorteil der vorliegenden Erfindung besteht darin, daß die Audiosignal-adaptive Extraktion eines Testsignalabschnitts dazu führt, daß systemimmanente Artefakte vermieden werden. Statt dessen werden hörtestkonforme Testsignalabschnitte gewonnen, die die Anwendung und Verbreitung von nicht-intrusiven Meßkonzepten überhaupt erst ermöglichen.
Ein weiterer Vorteil der vorliegenden Erfindung besteht darin, daß keine DUT-Modifikationen bzw. Referenzsignale erforderlich sind, sondern daß das erfindungsgemäße Konzept aus realen Audiosignalen Testsignalabschnitte erzeugt, die im Hinblick auf ihre typischerweise durch Hörtests vorgegebenen Kriterien in weiten Grenzen manipulierbar sind.
Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung findet die Analyse des Audisignals durch eine Sprachaktivitätserkennung, eine Pausendetektion bzw. Rauschdetektion oder eine nachgeschaltete Spracherkennung statt.
Der Testsignalabschnitt kann, sofern die zeitlichen Längen ι ausreichend sind, einen kompletten informationstragenden Abschnitt des Audiosignals unmittelbar enthalten. Je nach Ausführungsform kann jedoch auch eine Manipulation an einem informationstragenden Abschnitt des Audiosignals vorgenom- men werden, um beispielsweise Pausen am Beginn und am Ende eines informationstragenden Abschnitts hinzuzufügen, um eine vordefinierte Relation von z. B. Sprachmodulation zu z. B. Pause zu erzeugen.
Durch Bereitstellung eines vorbestimmten Minimalwerts für die zeitliche Länge des Testsignalabschnitts und eines vorgegebenen Maximalwerts für die zeitliche Länge eines Testsignalabschnitts ist es bei einem bevorzugten Ausführungs- beispiel der vorliegenden Erfindung möglich, auch aus längeren informationstragenden Abschnitten vorzugsweise durch langsames Ein- und Aus-Blenden dennoch Hörtest-konforme Testsignalabschnitte zu erzeugen, die im wesentlichen artefaktfrei sind, da das unnatürliche schnelle Ein- bzw. Aus- schalten eines informationstragenden Abschnitts verschleiert ist.
Die vorliegende Erfindung ist insbesondere dahingehend vorteilhaft, dass sie ein beliebiges Audiosignal, das typi- scherweise lange Pausen hat, in eine Folge von Testsignalabschnitten umformt, von denen jede zu einem spezifizierbaren Minimalanteil aus einen informationstragenden Abschnitt des Audiosignals besteht. Damit werden gewissermaßen automatisch die üblichen langen Pausen herausgeschnitten. Eine Qualitätsbeurteilung des Übertragungskanals, von dem das Audiosignal stammt, führt diese Qualitätsbeurteilung dann nur mit sinnvollen Testsignalabschnitten durch und vergeudet nicht sinnlose Ressourcen durch den vergeblichen Versuch einer Qualitätsbeurteilung von Pausen eines Teilneh-
I mers in beispielsweise einen Telephongespräch. Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:
Fig. 1 ein Blockschaltbild einer Vorrichtung zum Extrahieren eines Testsignalabschnitts gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung;
Fig. 2 eine schematische Darstellung der Einrichtung zum Analysieren von Fig. 1 gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung;
Fig. 3 eine detaillierte Darstellung der Einrichtung zum Erzeugen von Fig. 1 gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung;
Fig. 4 eine Darstellung der Fragmentierung eines Audiosignals, wie sie durch die vorliegende Erfindung erreicht wird;
Fig. 5 eine Fragmentierung des Audiosignals in Testsignalabschnitte gleicher Länge; und
Fig. 6 ein Übersichtsdiagramm zur Erläuterung der prinzipiellen Funktionsweise eines intrusiven Hörtests zur Qualitätsbeurteilung eines zu testenden Systems.
Fig. 1 zeigt ein bevorzugtes Ausführungsbeispiel einer erfindungsgemäßen Vorrichtung zum Extrahieren eines Testsignalabschnitts aus einem Audiosignal. Das Audiosignal wird einer Einrichtung 10 zum Analysieren einer zeitlichen Struktur des Audiosignals zugeführt. Die Einrichtung 10 zum Analysieren der zeitlichen Struktur des Audiosignals ist wirksam, um einen informationstragenden Abschnitt des Audiosignals von einem vorhergehenden nicht-informationstra- genden Abschnitt des Audiosignals und einem nachfolgenden nicht-informationstragenden Abschnitt des Audiosignals zu unterscheiden. Der Einrichtung 10 nachgeordnet ist eine Einrichtung 12 zum Erzeugen des Testsignalabschnitts, der vorzugsweise hörtestkonform ist, basierend auf dem informa- tionstragenden Abschnitt des Audiosignals, der bei einer Alternative über eine Verbindungsleitung 14 von der Einrichtung 10 bereitgestellt wird. Alternativ kann die Einrichtung 10 auch ausgebildet sein, um einen Hinweis darauf auszugeben, wo in einem Audiosignal ein informationstragen- der Abschnitt beginnt, und wo er endet, beispielsweise' durch Angabe der Samples, wenn das Audiosignal in zeitdiskreter Form vorliegt, oder durch Angabe von absoluten Zeitpunkten. In einem solchen Fall ist die Einrichtung 12 zum Erzeugen des Testsignalabschnitts basierend auf dem infor- mationstragenden Abschnitt des Audiosignals wirksam, um unter Verwendung der entsprechenden Hinweise auf der Leitung 14 den entsprechenden informationstragenden Abschnitt bzw. zumindest einen Teil des informationstragenden Abschnitts direkt aus dem Audiosignal, das über einen Eingang 16 be- reitgestellt wird, zu extrahieren, wie es durch eine Verbindungsleitung vom Eingang 16 zur Einrichtung 12, die in Fig. 1 mit 18 bezeichnet ist, dargestellt ist. Wie es ausgeführt worden ist, erzeugt die Einrichtung 12 an einem Ausgang 20 der in Fig. 1 gezeigten Vorrichtung vorzugsweise eine Sequenz von Testsignalabschnitten.
Fig. 4 zeigt die Wirkungsweise des anhand von Fig. 1 dargestellten erfindungsgemäßen Konzepts. Die Einrichtung 10 zum Analysieren ist wirksam, um den informationstragenden Abschnitt, der sich etwa von 1,3 Sekunden bis zu 8,8 Sekunden erstreckt, zu erkennen. Zur Untersuchung des Audiosignals im Hinblick auf einen informationstragenden Abschnitt und einen nicht-informationstragenden Abschnitt, beispielsweise eine Pause oder ein Rauschen, existieren in der Technik viele bekannte Maßnahmen, wie beispielsweise eine Sprachak- tivitätserkennung, Prädiktionsverfahren, Pausendetektions- verfahren, Pegelerkennungen, Gradientenverfahren etc. Alle diese Verfahren basieren darauf, eine schnelle Veränderung der Signalamplitude von einer langsamen Veränderung der Signalamplitude unter Berücksichtigung der absoluten Änderung über einen bestimmen Zeitraum zu untersuchen. Schnelle Änderungen, die zusätzlich bei einer bestimmten Amplitude, also bei einem bestimmten Lautheitspegel stattfinden, deuten auf sogenannte sprachaktive Modulationsanteile hin, wenn das Signal ein Sprachsignal ist, wie es in Fig. 4 dargestellt ist. Dagegen deuten langsame Änderungen auf niedrigem Pegelniveau bzw. schnelle Änderungen auf einem rela- tiv konstanten Pegelniveau auf Pausen bzw. auf Rauschen hin, also auf nicht-informatipnstragende Abschnitte des Audiosignals. Andere Verfahren unterscheiden z. B. Rauschen von Sprache durch Spektralanalyse und Korrelation.
Die Einrichtung 12 zum Erzeugen der Testsignalabschnitte ist nunmehr wirksam, um beispielsweise die Fragmentierung des Audiosignals in Testsignalabschnitte m(l) , m(2), m(3), ... , so durchzuführen, daß einem informationstragenden Abschnitt ein nicht-informationstragender Abschnitt voraus- geht und nachfolgt, wie es beispielsweise anhand der Testsignalabschnitte m(l), m(2), m(3) in Fig. 4 zu sehen ist. Im einzelnen ist die Einrichtung zum Erzeugen des Testsignalabschnitts, wie es in Fig. 1 bei 12 dargestellt ist, wirksam, um einen informationstragenden Abschnitt des Audiosignals unmittelbar aus dem Audiosignal zu extrahieren und zumindest einen Teil des vorhergehenden nicht- informationstragenden Abschnitts des Audiosignals und einen Teil des nachfolgenden nicht-informationstragenden Abschnitts hinzuzufügen, um einen Testsignalabschnitt mit einer bestimmten vordefinierten Länge zu erhalten.
Dieses Prozedere ist dann gangbar, wenn der infor ations- tragende Abschnitt des Audiosignals kürzer als eine vorgegebene Maximallänge eines Testsignalabschnitts ist, also z. B. 12 Sekunden oder bis zu 20 Sekunden. Diese Randbedingung dürfte insbesondere bei Sprachsignalen, wie sie über Telephonverbindungen auftreten, der Fall sein.
Ist das Audiosignal jedoch ein Musiksignal, so kann durchaus der Fall auftreten, daß ein informationstragender Abschnitt des Musiksignals, also ein Abschnitt mit einer Modulation oberhalb eines bestimmten Modulationsschwellwerts länger als die vorbestimmte Maximallänge ist. Ist dies der Fall, so ist die Einrichtung 12 zum Erzeugen des Testsignalabschnitts wirksam, um einen Testsignalabschnitt dahingehend zu erzeugen, daß zunächst ausgehend von einer Pausen-Situation der informationstragende Abschnitt nach und nach eingeblendet wird, dahingehend, daß eine Dämpfung schrittweise von 1 auf 0 reduziert wird. Dann wird der informationstragende Abschnitt unmittelbar aus dem Audiosignal übernommen, und zwar bis zu einem vorbestimmten Zeitpunkt, bei dem dann wieder eine langsame schrittweise Aus-
I blendung stattfindet, indem ein Dämpfungsfaktor wieder von 0 auf 1 erhöht wird, um schließlich, am Ende des Testsignalabschnitts wieder eine Pausensituation künstlich herzustellen, also zu synthetisieren. Nachfolgend wird Bezug nehmend auf Fig. 2 eine detailliertere Darstellung der Einrichtung 10 zum Analysieren gegeben. Wieder erhält die Einrichtung 10 zum Analysieren das Audiosignal von einem Audiosignaleingang 10. Ausgangsseitig liefert die Signalanalyseeinrichtung 10 einen Hinweis auf den informationstragenden Abschnitt oder den informationstragenden Abschnitt selbst. Alternativ oder zusätzlich liefert die Einrichtung 10 einen Hinweis auf einen nicht-in- formationstragenden Abschnitt oder den nicht-informationstragenden Abschnitt selbst, wie es durch einen Ausgangsleitung 22 dargestellt ist. Die Signalanalyseeinrichtung 10 führt bei bevorzugten Ausführungsbeispielen der vorliegenden Erfindung eine Signalanalyse mittels einer Sprachakti- vitätserkennung, einer Pausen/Rauschdetektion, einer Pegel- detektion, einer Lautheitsdetektion, einer Modulationserkennung, etc. durch. Alle diese Konzepte basieren darauf, daß ein informationstragender Abschnitt mit dem zu detek- tierenden Merkmal dahingehend korreliert ist, daß das Merk- mal detektierbar ist, wenn der Abschnitt des Audiosignals Nutzinformationen trägt, und daß das zu detektierende Merkmal nicht vorhanden ist, wenn der Abschnitt des Audiosignals, der betrachtet wird, nicht entsprechende Nutzinformationen trägt, oder umgekehrt. Liegt das Audiosignal bei- spielsweise als Sprachsignal vor, so ist die Einrichtung zur Signalanalyse wirksam, um mittels einer Sprachaktivi- tätserkennung („Voice Activity Detection") den Beginn und das Ende eines informationstragenden Abschnitts des Audiosignals, also z. B. eines sprachaktiven Modulationsanteils zu bestimmen. Alternativ oder zusätzlich kann die Signalanalyseeinrichtung 10 eine Pausendetektion bzw. bei realen Netzen eine Rauscherkennung („Noise Detection") durchführen, um die Lage und Länge der Sprachpausen zu bestimmen. Ein informationstragender Abschnitt ist dann der Abschnitt zwischen zwei Sprachpausen, obgleich er nicht direkt detek- tiert wird, sondern gewissermaßen indirekt, indem die vorhergehende und die nachfolgende Sprachpause ermittelt wer- den. Eine Pausendetektion allein, also eine Detektion von einem vorhergehenden und einem nachfolgenden nicht- informationstragenden Abschnitt bezüglich eines betrachteten informationstragenden Abschnitts liefert somit ebenfalls eine Unterscheidung des informationstragenden Ab- Schnitts des Audiosignals von einem vorhergehenden nicht- informationstragenden Abschnitt des Audiosignals und einem nachfolgenden nicht-informationstragenden Abschnitt des Audiosignals.
Alternativ oder zusätzlich kann die Einrichtung zur Analyse des Audiosignals ausgebildet sein, um mittels einer nachgeschalteten Spracherkennung, die in der Technik auch als ASR oder „Automatic Speech Recognition" bekannt ist, die Sprache sowie die Satzzusammenhänge zu analysieren, um bei- spielsweise, wenn dies gefordert ist, immer einen Testsignalabschnitt mit einer vorgegebenen Anzahl von Worten bzw. einer vorgegebenen Anzahl von Sätzen zu extrahieren. Diese Funktionalität kann auch, wie es anhand von Fig. 3 dargestellt ist, von der Einrichtung 12 zum Erzeugen der Testsi- gnalabschnitte übernommen werden, die gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung in Fig. 3 dargestellt ist. Über Leitungen 14 bzw. 22 von Fig. 2 erhält die Einrichtung 12 zum Erzeugen eines Testsignalabschnitts z. B. einen Hinweis auf einen informationstragen- den Abschnitt also auf eine Modulation bzw. einen Hinweis auf eine Pause, also einen nicht-informationstragenden Abschnitt des Audiosignals, das über die Leitung 18 der Einrichtung 12 bereitgestellt wird. Die Einrichtung 12 erhält ferner Informationen über eine vorbestimmte Maximallänge über einen weiteren Eingang 24 sowie Informationen über eine vorbestimmte Minimallänge über einen weiteren Eingang 26. Ferner wird bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung ein vorbestimmtes Pausen/Modulationsverhältnis in einem Testsignalabschnitt angestrebt. Die Informationen, welches Pausen/Modulationsverhältnis vorbestimmt ist, können über einen weiteren Eingang 28 der Einrichtung 12 zum Erzeugen der Testsignalabschnitte zugeführt werden.
Die Einrichtung 12 zum Erzeugen eines Testsignalabschnitts ist wirksam, um bei einem bevorzugten Ausführungsbeispiel Pausen zu Beginn und zu Ende eines identifizierten informa- tionstragenden Abschnitts hinzuzufügen, um eine definierte Relation von Sprachmodulation zu Pause, wie beispielsweise 40% Sprachmodulation und 60% Pause zu erzeugen. Sollte ein informationstragender Abschnitt zu lang sein, so ist die Einrichtung 12 bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wirksam, um eine Ein- und Ausblendefunktionalität zu schaffen, um den informationstragenden Abschnitt sanft ein- oder auszublenden, was in der Technik auch als „Fade-In" oder „Fade-Out" bekannt ist. Ist ein informationstragender Abschnitt des Audiosignals zwar nicht so lang wie die vorbestimmte Maximallänge, ist sie jedoch länger, als durch das vorbestimmte Pausen/Modulationsverhältnis in einem Testsignalabschnitt vorgegeben ist, so kann die Ein/Ausblendefunktionalität auch vorgenommen werden, um den informationstragenden Abschnitt zugunsten eines längeren nicht-informationstragenden Abschnitts zu „verkürzen". Bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung wird ferner eine rekursive Abarbeitung der Schritte der Sprachaktivitätskennung, der Pausendetektion, der nachgeschalteten Spracherkennung und der Hinzufügung von Pausen durchgeführt, um Hörtest-konforme Testsignalabschnitte, die beispielsweise Sprachsequenzen sein werden, mit unterschiedlicher Länge zu bilden, deren jeweilige Dauer jedoch innerhalb der vorgegebenen Minimallänge tmin und der vorgegebenen Maximallänge tmax liegt.
Das erfindungsgemäße Konzept ist somit wirksam, um zu jedem Audiosignal der Dauer t eine Reihe von i Testsignalabschnitten zu erzeugen, wobei gilt:
O ≤ i ≤-
wobei tπάn die vorgegebene Mindestdauer für eine Sequenz definiert.
Die derart erzeugten Testsignalabschnitte bzw. Fragmente des Audiosignals, die, wie es in Fig. 4 dargestellt ist, bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung Überlappungen haben können, werden nunmehr einem weiteren Prozeß, beispielsweise einem Perzeptions-basierten Meßverfahren zur Bestimmung der Sprachqualität gemäß ITU-T P.862 (PESQ) zugeführt. Gleichzeitig können die erzeugten Fragmente auch für einen subjektiven Hörtest gemäß ITU-T P.800 beispielsweise verwendet werden.
Es ist zu sehen, daß die erfindungsgemäß erzeugten Testsignalabschnitte, wie sie in Fig. 4 dargestellt sind, im Gegensatz zu den Testsignalabschnitten konstanter Länge keine Sequenzen mehr enthalten, die ausschließlich eine Pause umfassen, also „Null-Signale" sind, so daß die Anzahl der Sequenzen in Abhängigkeit der Modulation für ein gegebenes Audiosignal minimiert wird und im Extremfall sogar 0 betragen kann, wenn das Audiosignal keinen informationstragenden Abschnitt aufweist, also einzig und allein aus einer Pause bzw. aus Rauschen besteht. Dieses Ergebnis deckt sich mit der Anforderung, daß ein Meßverfahren kein Signal auswerten kann, das ausschließlich aus Rauschen oder Pause besteht.
Nachfolgend wird auf eine Fragmentierung eines Audiosignals in hörtestgerechte Testsequenzen gemäß ITU-R BS.111.6 bzw. BS.1534 eingegangen.
Analog zur erfindungsgemäßen Fragmentierung eines Sprachsignals in hörtestgerechte Testsequenzen gemäß ITU-T P.800 wird erfindungsgemäß ein Musiksignal ebenfalls in ca . 10 bis 20 s lange Sequenzen fragmentiert. Bei einem bevorzugten Ausführungsbeispiel ist die Einrichtung 10 zum Analy- sieren ausgebildet, um im Falle eines Musiksignals eine Pegelerkennung, eine Lautheitserkennung oder eine Modulationserkennung durchzuführen, um den Beginn und das Ende von Modulationsanteilen, also eines informationstragenden Abschnitts zu bestimmen. Ferner ist die Einrichtung 10 ausge- bildet, um mittels einer Pausendetektion bzw. bei realen Netzen einer Rauscherkennung die Lage und Länge der Pausen, die in der Technik auch als Silence Intervals bezeichnet werden, zu bestimmen.
Wieder wird es bevorzugt, bei einer zu langen Modulation, also einem zu langen informationstragenden Abschnitt gegebenenfalls mittels einer nachgeschalteten Ein- und Ausblendeautomatik das Musiksignal sanft ein- und auszublenden. Ferner wird es bevorzugt, unter Hinzufügung von Pausen zu Beginn und zu Ende eines identifizierten informationstragenden Abschnitts eine definierte Relation von Modulation zu Pause, wie beispielsweise 40:60, zu erzeugen.
Wieder wird bei einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung eine rekursive Verwendung der Schritte der Pegel-, Lautheits- oder Modulationserkennung, der Pausendetektion, der Ein- und Ausblendeautomatik und der Hinzufügung von Pausen durchgeführt, um Audiosequenzen unterschiedlicher Länge zu bilden, deren Dauer innerhalb vorgegebener Mindest- und Maximallängen tmin und tmax liegt.
Bezüglich beispielhafter Definition der Lautheit und der Modulation wird auf das Standardisierungsdokument Rec. ITU- R BS.1387-1, Abschnitt 3.2 bezüglich der Modulation und Abschnitt 3.3 bezüglich der Lautheit verwiesen. Diese Abschnitte sind hierin durch Bezugnahme aufgenommen.
Als Ergebnis erhält man wieder zu jedem Audiosignal der Dauer t eine Reihe von i Meßsequenzen, wobei wieder gilt:
O ≤ i ≤ -
wobei tmin die vorgegebenen Mindestdauer für eine Sequenz definiert.
Die derart gewonnenen und aufbereiteten Testsignalabschnitte bzw. Fragmente können jetzt einem weiteren Prozeß, bei- spielsweise einem perzeptionsbasierten Meßverfahren zur Bestimmung der Audioqualität gemäß ITU-R BS.1387-1 PEAQ zuge- führt werden. Gleichzeitig können die erzeugten Fragmente auch für einen subjektiven Hörtest eingesetzt werden.
Bei einem alternativen Ausführungsbeispiel der vorliegenden Erfindung wird es bevorzugt, die gewonnenen aufeinanderfolgenden Testsignalabschnitte einer periodischen Lautheitsmessung bzw. Lautheitskorrektur zu untersuchen, beispielsweise unter Verwendung bekannter Verfahren wie sie in ITU-R WP6P Question 2/6 „Audio Metering Characteristics suitable for use in Digital Sound Production" definiert sind. Dieses Konzept dient insbesondere dazu, eine Lautheitsanpassung von Tonsignalen beispielsweise im Fernsehen zu schaffen, um das unter dem Stichwort „zu laute Werbung" bekannte Problem von Pegelschwankungen bei Tonsignalen anzugehen. Das erfin- dungsgemäße Konzept ist hier insbesondere dahingehend vorteilhaft, daß insbesondere das Pausen/Modulations- Verhältnis der Testsignalabschnitte aufgrund der signal- adaptiven Extraktion der Testsignalabschnitte gemäß der vorliegenden Erfindung genau steuerbar ist, also daß keine falschen Lautheitsbeeinflussungen des Tons aufgrund einer ungenauen Audiosignalfragmentierung auftreten.
Abhängig von den Gegebenheiten kann das erfindungsgemäße Verfahren zum Extrahieren eines Testsignalabschnitts in Hardware oder in Software implementiert werden. Die Implementierung kann auf einem digitalen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, daß das Verfahren
I ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computer-Programm-Produkt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn das Computer-Programm-Produkt auf einem Rechner abläuft. In anderen Worten ausgedrückt kann die Erfindung somit als ein Computer-Programm mit einem Programmcode zur Durchführung des Verfahrens zum Extrahieren eines Testsignalabschnitts aus einem Audiosignal realisiert werden, wenn das Computer- Programm auf einem Computer abläuft.

Claims

Patentansprüche
1. Vorrichtung zum Extrahieren eines Testsignalabschnitts aus einem Audiosignal, mit folgenden Merkmalen:
einer Einrichtung (10) zum Analysieren einer zeitlichen oder spektralen Struktur des Audiosignals, um ei- nen informationstragenden Abschnitt des Audiosignals von einem vorhergehenden nicht-informationstragenden Abschnitt des Audiosignals oder einem nachfolgenden nicht-informationstragenden Abschnitt des Audiosignals zu unterscheiden; und
einer Einrichtung (12) zum Erzeugen des Testsignalabschnitts basierend auf dem informationstragenden Abschnitt des Audiosignals.
2. Vorrichtung nach Anspruch 1, bei der das Audiosignal Sprachanteile und Pausenanteile zwischen den Sprachanteilen aufweist, und
bei der die Einrichtung (10) zum Analysieren ausgebil- det ist, um eine Sprachaktivitätserkennung durchzuführen, um einen Sprachanteil als informationstragenden Abschnitt zu erfassen, der in zeitlicher Hinsicht zwischen zwei Pausenanteilen als nicht- informationstragenden Abschnitten angeordnet ist.
Vorrichtung nach Anspruch 1 oder 2, bei der das Audiosignal Signalanteile mit einer vorbestimmten Minimal- leistung und Pausenanteile mit einer Leistung kleiner als die vorbestimmte Signalleistung aufweist, und
bei der die Einrichtung (10) zum Analysieren ausgebil- det ist, um eine Pausendetektion durchzuführen, um zwei zeitlich folgende Pausenanteile zu detektieren, zwischen denen als informationstragender Abschnitt ein Signalanteil angeordnet ist.
Vorrichtung nach einem der vorhergehenden Ansprüche,
bei der das Audiosignal Rauschanteile und dazwischenliegende Signalanteile aufweist, und
bei der die Einrichtung (10) zum Analysieren ausgebildet ist, um eine Rauscherkennung durchzuführen, um zwei zeitlich folgende Rauschanteile zu erfassen, um einen zwischen den Rauschanteilen liegenden Signalanteil als informationstragenden Abschnitt zu ermitteln.
Vorrichtung nach Anspruch 2,
bei der die Einrichtung (10) zum Analysieren ferner ausgebildet ist, um den Sprachanteil einer Spracher- kennung zu unterziehen, und den informationstragenden Abschnitt hinsichtlich einer Sprache und/oder eines Satzzusammenhangs zu analysieren, und
bei der die Einrichtung (12) zum Erzeugen ausgebildet ist, um beim Erzeugen des Testsignalabschnitts die Sprache und/oder den Satzzusammenhang zu berücksichtigen.
6. Vorrichtung nach einem der vorhergehenden Ansprüche,
bei der die Einrichtung (12) zum Erzeugen ausgebildet ist, um den Testsignalabschnitt so zu erzeugen, daß derselbe eine zeitliche Länge hat, die größer oder gleich einer vorbestimmten Minimallänge und kleiner oder gleich einer vorbestimmten Maximallänge ist.
7. Vorrichtung nach Anspruch 6, bei der die vorbestimmte Minimallänge zwischen 2 und 12 Sekunden liegt, und bei der die vorbestimmte Maximallänge zwischen 12 und 25 Sekunden liegt.
Vorrichtung nach einem der vorhergehenden Ansprüche,
bei der die Einrichtung (12) zum Erzeugen ausgebildet ist, um zumindest einen Teil des informationstragenden Abschnitts des Audiosignals unverändert in den Testsignalabschnitt zu übernehmen.
Vorrichtung nach einem der vorhergehenden Ansprüche,
bei der die Einrichtung (12) zum Erzeugen ausgebildet ist,
um eine zeitliche Länge des informationstragenden Abschnitts zu erfassen,
um festzustellen, ob die zeitliche Länge einen vorbe- stimmten Maximalwert überschreitet, und
um in dem Fall des Überschreitens des vorbestimmten Maximalwerts einen Teil am Anfang oder am Ende des in- formationstragenden Abschnitts auszublenden, um einen modifizierten informationstragenden Abschnitt zu erhalten, dessen zeitliche Länge kleiner als der vorbestimmte Maximalwert ist, und
um in einem Übergangsbereich zwischen einem ausgeblendeten Abschnitt und einem nicht-modifizierten Abschnitt eine kontinuierliche Pegeländerung des modifizierten informationstragenden Abschnitts zu erhalten, und
um den Testsignalabschnitt so zu erzeugen, daß derselbe den Übergangsbereich und den nicht-modifizierten Abschnitt umfaßt.
10. Vorrichtung nach einem der Ansprüche 1 bis 8,
bei der die Einrichtung (12) zum Erzeugen ausgebildet ist, um in dem Fall, in dem die zeitliche Länge des informationstragenden Abschnitts kleiner als eine vorbestimmte Maximallänge ist, den gesamten informationstragenden Abschnitt in den Testsignalabschnitt zu ü- bernehmen.
11. Vorrichtung nach einem der vorhergehenden Ansprüche,
bei dem die Einrichtung (12) zum Erzeugen ausgebildet ist, um dem informationstragenden Abschnitt des Audiosignals einen oder mehrere nicht-informationstragende Abschnitte hinzuzufügen, so daß der Testsignalabschnitt ein vorbestimmtes Verhältnis von zeitlicher Länge des informationstragenden Abschnitts und zeit- licher Länge des bzw. der nicht-informationstragenden Abschnitte aufweist.
12. Vorrichtung nach einem der vorhergehenden Ansprüche,
bei der die Einrichtung (12) zum Erzeugen ausgebildet ist, um zwei aufeinanderfolgende Testsignalabschnitte zu erzeugen, wobei ein Endpunkt eines ersten Testsignalabschnitts bezogen auf das Audiosignal zeitlich nach einem Startpunkt eines nachfolgenden zweiten Testsignalabschnitts ist, so daß sowohl der erste Testsignalabschnitt als auch der zweite Testsignalabschnitt zumindest einen Teil eines nicht- informationstragenden Abschnitts des Audiosignals ge- meinsam haben.
13. Vorrichtung nach einem der vorhergehenden Ansprüche,
bei der die Einrichtung (10) zum Analysieren und die Einrichtung (12) zum Erzeugen ausgebildet sind, um das Audiosignal in eine Folge von Testsignalabschnitten unterschiedlicher Länge umzusetzen, wobei jeder Testsignalabschnitt länger als oder gleich einer vorbestimmten Minimallänge und kürzer als oder gleich einer vorbestimmten Maximallänge ist.
14. Vorrichtung nach einem der vorhergehenden Ansprüche,
bei der die Einrichtung (10) zum Analysieren ausgebil- det ist, um eine Benachrichtigung auszugeben, wenn in dem Audiosignal kein informationstragender Abschnitt detektierbar ist.
15. Vorrichtung nach Anspruch 1, bei der das Audiosignal einen Musikanteil aufweist, und
bei der die Einrichtung (10) zum Analysieren ausgebil- det ist, um eine Pegelerkennung, eine Lautheitserkennung oder eine Modulationserkennung durchzuführen, um einen nicht-informationstragenden Abschnitt von einem informationstragenden Abschnitt zu unterscheiden.
16. Vorrichtung nach einem der vorhergehenden Ansprüche, die ferner folgendes Merkmal aufweisen:
eine Einrichtung (20) zum Übermitteln des Testsignalabschnitts an eine Meßvorrichtung zur Qualitätsbeur- teilung eines Übertragungssystems (600) , aus dem das Audiosignal erhaltbar ist.
17. Vorrichtung nach einem der vorhergehenden Ansprüche,
bei der die Einrichtung (12) zum Erzeugen ausgebildet ist, um eine Sequenz von Testsignalabschnitten zu erzeugen, und die ferner eine Einrichtung zur Lautheitsmessung aufweist, um für jeden Testsignalabschnitt einen Lautheitswert zu erhalten, wobei die Lautheitswer- te der Testsignalabschnitte von einer Lautheitsrückkopplung verwendbar sind, um einen Lautheitsverlauf des Audiosignals rückkopplungsmäßig zu steuern.
18. Verfahren zum Extrahieren eines Testsignalabschnitts aus einem Audiosignal, mit folgenden Schritten:
Analysieren (10) einer zeitlichen oder spektralen Struktur des Audiosignals, um einen informationstra- genden Abschnitt des Audiosignals von einem vorhergehenden nicht-informationstragenden Abschnitt des Audiosignals oder einem nachfolgenden nicht- informationstragenden Abschnitt des Audiosignals zu unterscheiden; und
Erzeugen (12) des Testsignalabschnitts basierend auf dem informationstragenden Abschnitt des Audiosignals.
19. Vorrichtung zur Qualitätsmessung eines Übertragungskanals, mit folgenden Merkmalen:
einer Einrichtung zum Empfangen eines Audiosignals von dem Übertragungskanal;
einer Einrichtung zum Extrahieren eines oder mehrerer Testsignalabschnitte gemäß einem der Ansprüche 1 bis 17; und
einer Einrichtung zur Qualitätsbeurteilung des Übertragungskanals auf der Basis des einen oder der mehreren Testsignalabschnitte.
20. Vorrichtung nach Anspruch 19,
bei der die Einrichtung zum Extrahieren ausgebildet ist, um das Audiosignal in eine Folge von Testsignalabschnitten unterschiedlicher Länge umzusetzen, wobei jeder Testsignalabschnitt länger als oder gleich einer vorbestimmten Minimallänge und kürzer als oder gleich einer vorbestimmten Maximallänge ist, wobei jeder Testsignalabschnitt zu zumindest einem vorbestimmten Anteil aus einem informationstragenden Abschnitt des Audiosignals besteht, und
wobei die Einrichtung zur Qualitätsbeurteilung ausgebildet ist, um für Testsignalabschnitte der Folge von Testsignalabschnitten jeweils einen Qualitätsmesswert zu erzeugen.
21. Verfahren zur Qualitätsmessung eines Übertragungskanals, mit folgenden Schritten:
Empfangen eines Audiosignals von dem Übertragungskanal;
Extrahieren eines oder mehrerer Testsignalabschnitte unter Verwendung des Verfahrens gemäß Anspruch 18; und
Qualitätsbeurteilen des Übertragungskanals auf der Ba- sis des einen oder der mehreren Testsignalabschnitte.
22. Computer-Programm mit einem Programmσode zum Durchführen des Verfahrens zum Extrahieren eines Testsignalabschnitts gemäß Patentanspruch 18 oder zum Durchführen des Verfahrens zur Qualitätsmessung gemäß Patentanspruch 21, wenn das Computer-Programm auf einem Computer abläuft.
PCT/EP2004/006487 2003-06-17 2004-06-16 Extrahierung von testsignalabschnitten zur qualitätsmessung eines audiosignals WO2004112002A1 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
ES04739953T ES2389768T3 (es) 2003-06-17 2004-06-16 Extracción de secciones de señal de prueba para medir la calidad de una señal de audio
DK04739953.0T DK1634277T3 (da) 2003-06-17 2004-06-16 Ekstraktion af testsignalafsnit til kvalitetsmåling af et audiosignal
EP04739953A EP1634277B1 (de) 2003-06-17 2004-06-16 Extrahierung von testsignalabschnitten zur qualitätsmessung eines audiosignals
US11/286,311 US7680056B2 (en) 2003-06-17 2005-11-23 Apparatus and method for extracting a test signal section from an audio signal

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10327239A DE10327239A1 (de) 2003-06-17 2003-06-17 Vorrichtung und Verfahren zum extrahieren eines Testsignalabschnitts aus einem Audiosignal
DE10327239.9 2003-06-17

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US11/286,311 Continuation US7680056B2 (en) 2003-06-17 2005-11-23 Apparatus and method for extracting a test signal section from an audio signal

Publications (2)

Publication Number Publication Date
WO2004112002A1 true WO2004112002A1 (de) 2004-12-23
WO2004112002A8 WO2004112002A8 (de) 2005-02-10

Family

ID=33546571

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/EP2004/006487 WO2004112002A1 (de) 2003-06-17 2004-06-16 Extrahierung von testsignalabschnitten zur qualitätsmessung eines audiosignals

Country Status (7)

Country Link
US (1) US7680056B2 (de)
EP (1) EP1634277B1 (de)
DE (1) DE10327239A1 (de)
DK (1) DK1634277T3 (de)
ES (1) ES2389768T3 (de)
PT (1) PT1634277E (de)
WO (1) WO2004112002A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004008207A1 (de) * 2004-02-19 2005-09-22 Opticom Dipl.-Ing. Michael Keyhl Gmbh Verfahren und Vorrichtung zur Qualitätsbeurteilung eines Audiosignals und Vorrichtung und Verfahren zum Erhalten eines Qualitätsbeurteilungsergebnisses
DE102012207558A1 (de) 2012-05-07 2013-11-07 Opticom Dipl.-Ing. Michael Keyhl Gmbh Verfahren und vorrichtung zur bestimmung der qualität eines kodierten mediensignals

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8370132B1 (en) * 2005-11-21 2013-02-05 Verizon Services Corp. Distributed apparatus and method for a perceptual quality measurement service
US8139721B2 (en) * 2008-08-05 2012-03-20 International Business Machines Corporation Telephonic repeat method
CN101359472B (zh) * 2008-09-26 2011-07-20 炬力集成电路设计有限公司 一种人声判别的方法和装置
US8494857B2 (en) 2009-01-06 2013-07-23 Regents Of The University Of Minnesota Automatic measurement of speech fluency
KR101600082B1 (ko) * 2009-01-29 2016-03-04 삼성전자주식회사 오디오 신호의 음질 평가 방법 및 장치
DE102012000931A1 (de) 2012-01-19 2013-07-25 Volkswagen Ag Verfahren zur Diagnose eines Audiosystems eines Kraftfahrzeuges
WO2013138633A1 (en) 2012-03-15 2013-09-19 Regents Of The University Of Minnesota Automated verbal fluency assessment
KR101978209B1 (ko) * 2012-09-24 2019-05-14 엘지전자 주식회사 이동 단말기 및 이의 제어 방법
CN103716470B (zh) * 2012-09-29 2016-12-07 华为技术有限公司 语音质量监控的方法和装置
WO2017127367A1 (en) * 2016-01-19 2017-07-27 Dolby Laboratories Licensing Corporation Testing device capture performance for multiple speakers
CN114374924B (zh) * 2022-01-07 2024-01-19 上海纽泰仑教育科技有限公司 录音质量检测方法及相关装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002065456A1 (en) 2001-02-09 2002-08-22 Genista Corporation System and method for voice quality of service measurement
EP1271470A1 (de) 2001-06-25 2003-01-02 Alcatel Verfahren und Vorrichtung zur Ermittlung des Verschlechterungsgrades der Qualität eines Signals

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE644647C (de) 1934-03-04 1937-05-10 I G Farbenindustrie Akt Ges Verfahren zur Darstellung von Salzen der ªÏ-Methylfonsaeuren der Pyrazolonamine mit Ringstickstoffbasen
CH686752A8 (de) * 1993-09-22 1996-08-15 Ascom Tech Ag Berner Technopark Verfahren zum Beurteilen der Übertragungsqualität einer Sprach-Übertragungsstrecke
US5737389A (en) * 1995-12-18 1998-04-07 At&T Corp. Technique for determining a compression ratio for use in processing audio signals within a telecommunications system
US6002762A (en) * 1996-09-30 1999-12-14 At&T Corp Method and apparatus for making nonintrusive noise and speech level measurements on voice calls
AU7342798A (en) * 1997-05-16 1998-12-11 British Telecommunications Public Limited Company Measurement of signal quality
EP1119957B1 (de) * 1998-10-08 2005-04-13 BRITISH TELECOMMUNICATIONS public limited company Messung der qualität von sprachsignalen
US6336091B1 (en) * 1999-01-22 2002-01-01 Motorola, Inc. Communication device for screening speech recognizer input
EP1104924A1 (de) * 1999-12-02 2001-06-06 Koninklijke KPN N.V. Bestimmung des Zeitrelation zwischen Sprachsignalen welche durch Zeitverschiebung beeinträchtigt sind

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002065456A1 (en) 2001-02-09 2002-08-22 Genista Corporation System and method for voice quality of service measurement
EP1271470A1 (de) 2001-06-25 2003-01-02 Alcatel Verfahren und Vorrichtung zur Ermittlung des Verschlechterungsgrades der Qualität eines Signals

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004008207A1 (de) * 2004-02-19 2005-09-22 Opticom Dipl.-Ing. Michael Keyhl Gmbh Verfahren und Vorrichtung zur Qualitätsbeurteilung eines Audiosignals und Vorrichtung und Verfahren zum Erhalten eines Qualitätsbeurteilungsergebnisses
DE102004008207B4 (de) * 2004-02-19 2006-01-05 Opticom Dipl.-Ing. Michael Keyhl Gmbh Verfahren und Vorrichtung zur Qualitätsbeurteilung eines Audiosignals und Vorrichtung und Verfahren zum Erhalten eines Qualitätsbeurteilungsergebnisses
US7664231B2 (en) 2004-02-19 2010-02-16 Opticom Dipl.-Ing. Michael Keyhl Gmbh Method and device for quality evaluation of an audio signal and device and method for obtaining a quality evaluation result
DE102012207558A1 (de) 2012-05-07 2013-11-07 Opticom Dipl.-Ing. Michael Keyhl Gmbh Verfahren und vorrichtung zur bestimmung der qualität eines kodierten mediensignals

Also Published As

Publication number Publication date
DE10327239A1 (de) 2005-01-27
WO2004112002A8 (de) 2005-02-10
EP1634277A1 (de) 2006-03-15
EP1634277B1 (de) 2012-07-04
ES2389768T3 (es) 2012-10-31
PT1634277E (pt) 2012-10-15
US20060177003A1 (en) 2006-08-10
US7680056B2 (en) 2010-03-16
DK1634277T3 (da) 2012-10-08

Similar Documents

Publication Publication Date Title
DE19882404B3 (de) Sprachgütemessung in einem Mobilfunknetzwerk auf der Grundlage von Funkübertragungsparametern
DE69517325T2 (de) Tonqualitätsanalyse
EP1700464B1 (de) Verfahren und vorrichtung zur qualit tsbeurteilung eines aud iosignals und vorrichtung und verfahren zum erhalten eines qualit tsbeurteilungsergebnisses
DE69621613T2 (de) Anordnung und verfahren zur sprachübertragung und eine derartige anordnung enthaltende fernsprechanlage
US7680056B2 (en) Apparatus and method for extracting a test signal section from an audio signal
EP1088300B1 (de) Verfahren zur durchführung einer maschinengestützten beurteilung der übertragungsqualität von audiosignalen
DE69334139T2 (de) Testen von Nachrichtenübertragungsgerät
DE69626115T2 (de) Signalqualitätsbewertung
DE19647399C1 (de) Gehörangepaßte Qualitätsbeurteilung von Audiotestsignalen
EP1386307B1 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE60118922T2 (de) Messung der wahrgenommenen sprachqualität während des betriebs durch messen von objektiver fehlerparamter
DE60132196T2 (de) Testsignalisierung
DE60311754T2 (de) Verfahren und Vorrichtung zur Schätzung der Gesamtgüte eines Sprachsignals
DE60004403T2 (de) Vorrichtung und verfahren zur signalqualitätserfassung
EP0946015B1 (de) Verfahren und Vorrichtung zur Beurteilung der Übertragungsqualität
EP1382034B1 (de) Verfahren zur bestimmung von intensitätskennwerten von hintergrundgeräuschen in sprachpausen von sprachsignalen
DE4324292C1 (de) Verfahren zur Ermittlung einer die Qualität einer digitalen Sprachübertragung kennzeichnenden Größe
DE60305306T2 (de) Vorrichtung und Verfahren zur binauralen Qualitätsbeurteilung
DE19959037B4 (de) Verfahren zur Dekodierung von digitalen Audiodaten
DE102013005844B3 (de) Verfahren und Vorrichtung zum Messen der Qualität eines Sprachsignals
DE102019117249B4 (de) Verfahren zur Bestimmung der Qualität von über ein Telekommunikationsnetz übertragener Sprache
EP0714188B1 (de) Verfahren zur Ermittlung einer die Qualität einer digitalen Sprachübertragung kennzeichnenden Grösse
DE60219622T2 (de) Bestimmung der effekte neuer arten von beeinträchtigungen auf die wahrgenommene qualität eines sprachdienstes
DE102006062774B4 (de) Vorrichtung und Verfahren zur Detektion von Audio-Signalrahmen
EP1366617B1 (de) Verfahren und vorrichtung zur verbesserung der sprachqualität auf transparenten telekommunikations-übertragungswegen

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

CFP Corrected version of a pamphlet front page
CR1 Correction of entry in section i

Free format text: IN PCT GAZETTE 52/2004 UNDER (71) THE NAME SHOULD READ "OPTICOM, DIPL.-ING. MICHAEL KEYHL GMBH"

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2004739953

Country of ref document: EP

Ref document number: 11286311

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 2004739953

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 11286311

Country of ref document: US